[Total : 1    Moyenne : 5/5]
L’échantillonnage a pour enjeu de mettre en place un processus de prélèvement permettant de limiter le coût et le temps d’une étude statistique tout en s’assurant que les observations soient généralisables à la population.

Introduction

L’échantillonnage a pour enjeu de mettre en place un processus de prélèvement permettant de limiter le coût et le temps d’une étude statistique tout en s’assurant que les observations soient généralisables à la population.

Ce concept est apparu pour la première fois dans l’ouvrage De ratiocinais in alêne ludo publié en 1657 par le scientifique hollandais Christiaan Huygens. Mais ce ne sera qu’au court du XXème siècle que ces méthodes seront reconnus.

De manière évidente, plus la taille de l’échantillon est grande et plus la fiabilité des observations est importante. Evidemment, la méthode la plus fiable étant le recueil exhaustif des données. Toutefois, pour des raisons de coûts, de délais ou de possibilités, l’échantillonnage permet d’identifier un nombre d’individus au juste nécessaire.

A noter que :

  • N : Taille de la population
  • n : Taille de l’échantillon

Le processus d’échantillonnage

1. Établir les objectifs de l’étude

L’enjeu est d’identifier nos attentes vis-à-vis de l’étude statistique. Par exemple, si l’on souhaite accepter un lot, estimer quelle est la proportion de la population qui a le défaut, comprendre quel paramètre influe sur le résultat…

2. Définir la population cible

C’est la population totale pour laquelle on a besoin d’informations. Définir cette population avec des caractéristiques spécifiques (taille, date, typologie…).

3. Déterminer les données à recueillir

Une bonne étude statistique s’appuie sur des données claires et fiables. Pour cela, il faut partager un vocabulaire commun et être précis sur les définitions.

4. Choisir la méthode de prélèvement

Pour prélever un échantillon représentatif, on peut recourir à 3 grandes familles de méthodes :

  • Les méthodes probabilistes aléatoires : tirage aléatoire des individus dans la population. Chaque unité a une chance que l’on peut quantifier d’être sélectionnée.
  • Les méthodes non probabilistes non aléatoires : sélection de quelques critères de répartition significatifs.
  • Les normes ou barèmes d’échantillonnage : de nombreux secteurs ont des normes préétablies d’échantillonnage indiquant le mode de recueil, la taille d’échantillon… La plupart des entreprises ont également leurs propres méthodes établies sur un historique, un niveau de qualité souhaité…

5. Fixer l’intervalle de confiance

A partir du moment où nous mettons en place un échantillon, il y a toujours un degré d’incertitude vis-à-vis de sa représentativité. Ainsi, il est nécessaire d’identifier un degré de précision. Au plus le degré sera grand, au plus la taille de l’échantillon sera grand.

6. Identifier la taille de l’échantillon

6.1 Taille d’échantillon pour effectuer une estimation

Vous souhaitez effectuer une estimation de la population à partir d’un échantillon. C’est le cas par exemple des sondages, où à partir d’un échantillon de X personnes, on en conclue que X% de la population vote pour Y. C’est le cas également où l’on souhaite savoir quelle est le pourcentage de défaut de ma population à partir d’un échantillon.

Taille d’échantillon et Loi Normale

En parcourant notre site, vous retrouverez à plusieurs reprises le fait que pour que l’étude soit qualitative (capabilité…), la taille de l’échantillon doit être d’au moins 30 individus1. Cela n’est pas dû au hasard mais provient de la démonstration mathématique indiquant qu’à partir de 28 données, nos données suivent une loi normale (selon les conditions de Cochran). Loi de base de ces outils.

Toutefois, par convention, la taille minimale est de 30 individus.

Pour calculer cette taille d’échantillon, la première variable est de savoir si notre population est finie ou infinie. On considérera qu’en dessous d’une population de 100 000 individus, la population est finie et au dessus, elle sera infinie.

On retrouve dans les formules ci-dessous :

  • t : coefficient de marge
  • e : marge d’erreur. On prend en général 1/10ème de la proportion estimée de la population
  • p : proportion estimé à priori d’individu qui représentent le caractère observé
  • n : la taille de l’échantillon
  • N : la taille de la population mère 

Précision sur la marge d’erreur – e

La marge d’erreur représente le niveau d’erreur que l’on souhaite se donner pour estimer les données. Par exemple, on veut connaître la proportion réelle à 2% près, cela veut dire que l’on aura une valeur à plus ou moins 2 % près. Généralement, on prend une marge d’erreur 1/10ème de la proportion de la population ayant le caractère étudié. Par exemple, si nous analysons des pièces et nous pensons que 20% des individus ont le défaut que nous étudions. On prendra alors une marge d’erreur de 2%.

Par conséquence, au plus la marge d’erreur est faible au plus la taille d’échantillon est grand.

Taille d’un échantillon pour une population mère infinie

La population infinie est composée de plus de 100 000 individus. La formule pour identifier la taille n de l’échantillon est :

Par exemple, pour un niveau de confiance de 95%, le coefficient de marge étant de 1,96, nous avons :
 Marge d'erreur
P1%2%3%4%5%6%7%8%9%10%
10%34578643842161389671544335
20%61471537683384246171125967661
30%8067201789650432322416512610081
40%92202305102457636925618814411492
50%96042401106760038426719615011996

Taille d’échantillon pour une population mère finie

Pour calculer la taille d’échantillon, on part de la formule précédente (taille de l’échantillon pour une population infinie) auquel on applique un facteur de correction. On considère qu’il faut l’utiliser lorsque la population mère est en deçà de 100 000 individus. Dans ce cas, la taille n’ de l’échantillon se calcule avec la formule suivante :

Par exemple, pour une proportion estimé de 10%, un niveau de confiance de 95%, le coefficient de marge étant de 1,96, et une marge d’erreur de 1%, nous avons une taille d’échantillon n’ de 3457. Pour une population finie, nous obtenons :

Population mère N

Taille échantillon n’

100

98

1000

776

10000

2570

100000

3457

Exemple

Nous souhaitons estimer le pourcentage de défauts que l’on génère sur notre production de bonbons. Nous produisons par lot de 80 000, donc on considère que nous sommes dans le cadre d’une population mère finie. On souhaite effectuer notre estimation avec un seuil de confiance à 95% et une marge d’erreur de 1%. La proportion estimée est de 0,1%. La taille de l’échantillon est donc de 39. En terme de précision, cela signifie qu’on a 95% de chance qu’un résultat qui vaut 0,1% est sûr à + ou – 2% près, c’est-à-dire compris entre 0,101% et 0,099%. Autrement dit, seul 5% de la population sera en dehors de l’intervalle de 0,099% à 0,101%.

Identifier la probabilité d’apparition

On calcule la probabilité d’observer l’événement étudié dans notre échantillon. Pour cela, on utilise la loi Hypergéométrique, le cas le plus courant (où l’on ne remet pas la pièce pour le prochain tirage : cas typique des contrôles qualités) ou Binomiale (si à tout hasard l’échantillon que nous avons pris, nous le remettons pour le prochain tirage).

6.2 Taille d’échantillon pour voir une différence

Dans ce cas, on souhaite identifier une taille d’échantillon nous permettant de voir une différence de résultat à un certain niveau de confiance. C’est le cas par exemple, où l’on souhaite identifier une significativité de nos améliorations avant/après ou encore d’identifier le nombre d’échantillon pour chaque essai d’un plan d’expériences. Dans ce cas, le calcul se base sur la puissance statistique.

La formule de calcul est la suivante :

Avec :

  • t : coefficient de marge
  • p0 : la proportion estimé de l’événement pour la première population
  • p1 : la proportion estimée de l’événement pour la seconde population
  • zβ : le coefficient de la puissance statistique au regard de la loi normale. Pour la Puissance, le plus couramment, nous choisirons 10%.

Exemple

Nous avons amélioré nos processus de filtrations et nous souhaitons savoir si notre proportion de défauts a significativement diminué. Pour cela, on effectue un test d’hypothèses de Student. La question est de savoir sur combien d’individus, je calcule ma proportion. On souhaite pour cela, un taux de confiance de 5% et une puissance de 10%.

Nous savons qu’à l’initial, nous avions environ 10% de tests de filtration qui étaient défectueux. Avec nos améliorations, nous pensons tomber au alentour de 1%. En effectuant le calcul, nous obtenons une taille d’échantillon de 70.

Autrement dit, nous devons calculer notre proportion sur la base d’un échantillon de 70 individus.

Source

1 – H. Saranadasa (2003) – The square root of N plus one sampling rule

P. Ardilly (1994) – Les techniques de sondage

B. Le Maux (2013) – Le choix de l’échantillon

F. Kohler (2014) – Collecte de données

L. Gerville Réache, V. Couallier, N. Paris (2012) – Echantillon représentatif

J. Desabie (1963) – Revue de statistique appliquée

C. Durand (2002) – L’échantillonnage, la gestion du terrain

Share This