[Total : 1    Moyenne : 5/5]
Le test du χtester l’adéquation d’une distribution de données avec une loi attendu ou d’autres distributions de données.

Introduction

Le test du χ2 est l’un des tests statistiques les plus anciens. Développé en 1900 par Karl Pearson1, il s’appuya sur les travaux de son mentor (Francis Galton, cousin de Charles Darwin) et créa une discipline à part entière, la biométrie : l’une des sciences les plus utilisatrice de statistique. Ce test a mis plusieurs décennies avant de voir vraiment le jour, dû à un problème concernant les degrés de liberté soulevé par Yule et Greenwood en 19152, et ne fut résolu qu’en 1947 par Fisher3.

Cette loi permet de représenter la somme des carrés de variables indépendantes. La variance étant un cas particulier.

Le test du χ2 est très robuste (non dépendance à la loi normale et efficace même avec de faible effectif) et sert à plusieurs objectifs. Pour comparer :

  1. Un écart-type à une cible recherchée.
  2. 1 distribution à 1 distribution théorique que nous connaissons
  3. Plusieurs distributions entre elle

Ce test a la particularité de prendre en compte tout type de données, qu’elles soient quantitatives ou qualitatives. En plus, les conditions de normalité et de variance ne sont pas nécessaires.

Quelques exemples :

  • Est-ce que les dés sont truqués ?
  • Y’a t’il un lien entre le groupe sanguin de malade et l’apparition d’une maladie ?
  • Notre proportion de défauts est il similaire entre les différentes technologies ?

Le principe

On souhaite mesurer l’écart entre une distribution de données quelconque et celle que l’on imagine en théorie être vrai, si notre hypothèse de départ est la bonne. C’est le cas typique d’un pile ou face, ou l’on « sait » que la probabilité est d’une chance sur deux.

Il consiste à calculer une statistique basée sur l’écart entre les données que l’on observe et les données théoriques de notre expérience.

On note toutefois, que le test n’est vraiment efficace qu’à partir du moment où nous avons plus de 5 individus par catégories.

Comparer un écart type à une cible

On est dans le cas où nous avons comme objectif de réduire la variabilité d’un process. On a identifié un écart type cible que nous allons comparer avec l’écart type que nous avons obtenu après des actions d’améliorations. Le test du χ2 consiste à comparer la valeur de l’écart type observé à un intervalle de confiance que nous calculons à partir de l’objectif.

     1. Calculer l’écart type observé ainsi que la moyenne

     2. Identifier le risque α

   3. Calculer la valeur pratique du χ2 via la formule suivante, l’écart type pris en compte étant l’écart type cible :

     4. Calculer la valeur critique avec ddl = n-1

     5. Calculer la p-Value

     6. Interpréter le résultat (voir ci-dessous)

Comparer une distribution à une distribution théorique connue

Aussi appelé Test du χ2 Goodness of Fit ou encore Test d’adéquation, le principe du test du χ2 repose sur la comparaison entre des proportions observées et un modèle théorique. Il permet de tester l’association ou la non association entre des lignes et des colonnes d’un tableau de contingence. On note que les catégories X et Y peuvent être tant qualitative que quantitative. Le test se basant sur une comparaison de proportion entre les valeurs, le type de variable n’a pas d’importance.

Ce test est souvent utilisé dans le cadre d’un test d’ajustement pour savoir si une distribution de données répond à une loi normale ou une autre loi.

On l’utilise également pour simplement savoir si les résultats observés sont similaires à ce que l’on attendait. Par exemple, nous avons écrit dans un cahier des charges que notre cuve doit pouvoir chauffer 1000 l de liquide à 20° en 10mn, puis 30° à 15mn… Lors de la réception de notre cuve, nous effectuons des tests et vérifions si nos résultats obtenus sont statistiquement identiques au cahier des charges.

Comparer une ou plusieurs distribution entre elle

Aussi appelé Test du χ2 Test for Association, ou encore test d’indépendance, le principe du test du χ2 est le même que le précédent. La seule différence repose sur le fait que le modèle théorique est construit à partir des données de l’expérience et non à partir d’un modèle défini au préalable.

Etape 1 : Les hypothèses

On souhaite vérifier si les proportions entre l’ensemble des variables sont similaires ou non. On pose les hypothèses suivantes :

H0 : p1 = p2 = … = pk

H1 : p1 ≠ p≠ pk

Etape 2 : le tableau de données

Le tableau de données est une table de contingence, où l’on croise les modalités du critère X avec les modalités du critère Y.

Cas 1 : Comparaison d’une distribution à une distribution théorique

On souhaite effectuer un test d’ajustement pour par exemple savoir si nous devons utiliser un test paramétrique (nécessitant une distribution normale des données) ou tout simplement pour prédire le comportement de notre variable via l’adéquation à une loi connue.

Dans ce cas, le tableau de données est simplement l’ensemble des mesures observées.

Cas 2 : Comparaison de plus de 2 distributions entre elles

On souhaite comparer 2 distributions ou plus. On effectue la comparaison vis-à-vis d’un même paramètre. Reprenons l’exemple précédent, mais on rajoute le fait que nous voulons comparer la fréquence d’apparition du défaut par rapport à la cadence de production et par rapport à 3 machines différentes. Le tableau devient le suivant :

Cadence machine

Machine 1

Machine 2

Machine 3

150

50

40

35

100

30

45

25

50

20

45

20

Total

100

130

80

Etape 3 : Élaborer le modèle théorique

Que ce soit dans le cadre d’un test d’ajustement ou de la recherche d’une relation de causes à effets, le principe de calcul et les formules sont les mêmes. Simplement diffère la construction du modèle théorique, que nous détaillons ci-dessous.

Cas 1 : Comparaison d’une distribution à une distribution théorique

Utilisé comme test d’ajustement, le test du χva permettre de comparer la distribution des données vis à vis d’une loi choisie au préalable (normale, Fisher…). On va donc, à partir des données observées, construire un modèle qui suit une loi connue. Pour cela, il faut calculer la probabilité que les données ont, d’appartenir à l’intervalle de classe selon la loi choisie. Cette probabilité, renvoyée par la loi se calcule en fonction de la formule suivante :

Avec :

  • n : le nombre total de données de départ
  • m : la moyenne des données de départ
  • binf : la borne inférieure de l’intervalle en question
  • bsup : la borne supérieure de l’intervalle
  • σ : écart type des données de départ

On note que sous Excel, la fonction pour renvoyer la probabilité de la loi Normale est LOI.NORMALE.INVERSE.

On construit ainsi un tableau de ce type :

Intervalle

– de 16

16 à 20

20 à 24

24 à 28

28 à 32

32 à 36

36 à 40

40 à 44

Fréquence observée

5

11

16

21

15

12

8

2

Fréquence estimée

3,82

9,29

16,25

20,45

18,53

12,08

5,67

1,91

Taille de l’échantillon

90

Moyenne

26,8

Ecart type

26,8

Cas 2 : Comparaison 2 distributions ou plus entre elles

L’analyse de la relation de cause à effet repose sur la comparaison des proportions des paramètres que l’on étudie entre les données observées et les données théoriques. On construit le modèle théorique en supposant que les proportions entre nos échantillons sont similaires. A partir des proportions observées, on calcule les proportions du modèle théorique. On calcule la moyenne des proportions observées et on l’applique pour déterminer le modèle théorique.

Reprenons l’exemple précédent. Nous souhaitons savoir si le fait de changer une pièce dans une machine nous permet de réduire sensiblement le taux de défaut. L’échantillon 2 et 3 a été réalisé avec notre nouvelle pièce et l’échantillon 1 et 4 avec la pièce d’origine. On obtient le tableau suivant :

On en déduit un modèle théorique, simplement en appliquant ce pourcentage sur l’ensemble des échantillons. On obtient le tableau suivant :

Tableau théorique

Machine 1

Machine 2

Machine 3

Vitesse 150

40,32*

52,42

32,26

Vitesse 100

32,26

41,94

25,81

Vitesse 50

27,42

35,65

21,94

Total

100

130

80

*exemple : 100 * 125 / 310 = 40,32

Etape 4 : Valeur pratique

La valeur pratique va consister à estimer les écarts entre le modèle théorique et les observations. On note :

  • f : valeur observée dans l’échantillon i de la modalité j
  • fth : la valeur théorique pour l’échantillon i de la modalité j

Pour chaque échantillon, on calcule un ratio selon la formule suivante :

Exemple : Ecart sur l’échantillon 1 = (12-15,47)2/15,47 + (188-184,53)2/184,53

La valeur pratique consiste ensuite simplement à effectuer la somme de l’ensemble des écarts des échantillons :

Valeur pratique = Σ Dij

Etape 5 : Valeur Critique

Cas 1 : Comparaison d’une distribution à une distribution théorique

La loi du χ2  ne s’utilise que pour des tests bilatéraux au vue du fait qu’elle n’est pas symétrique. Nous utilisons alors une valeur du risque toujours de α et non α/2 ou autre comme pour les lois symétriques. Le nombre de degré de liberté est égal au nombre de classe de la distribution – 3 (pour une comparaison à la loi normale) ou aux nombres de valeurs – 1 (pour une comparaison à des valeurs attendus diverses).

Sous EXCEL, la fonction est KHIDEUX.INVERSE(α ; ddl).

Cas 2 : Comparaison 2 distributions ou plus entre elles

La valeur pratique va être comparée à la valeur critique que nous renvoie la loi de distribution du χ2. On identifie la valeur α, généralement 5%, puis on calcule le nombre de degré de liberté avec la formule :

ddl = (nb de catégories de X – 1) * (nb de catégories de Y – 1)

Puis on détermine la valeur critique soit en recherchant directement dans la table du χ2, soit via le tableur Excel avec la fonction : KHIDEUX.INVERSE (risque ;  ddl).

Etape 6 : p-Value

La p-Value du test va nous permettre de conclure définitivement sur le modèle. Elle suit une loi du χ2 et se calcule sous Excel via la formule :

LOI.KHIDEUX (Valeur pratique ; ddl)

Etape 7 : Interprétation

RésultatConclusion statistiqueComparaison d'un écart-type avec un écart type cibleAjustement à une loi de distribution connueComparaison de distributions entre elles
Valeur pratique ≥ Valeur critiqueOn rejette H0Notre écart-type n'est pas à la cible.La distribution de nos données n'est pas celle de notre modèle de comparaison.Les échantillons sont différents.
Valeur pratique < Valeur critiqueOn retient H0Notre écart-type est à la cibleLa distribution de nos données est celle de notre modèle de comparaison.Les échantillons sont identiques.
RésultatConclusion statistiqueComparaison d'un écart-type avec un écart type cibleAjustement à une loi de distribution connueComparaison de distributions entre elles
p-value > αOn retient H0Notre résultat est à la cible.Nos données suivent la loi de comparaison.Les échantillons sont similaires.
p-value < αOn rejette H0Notre résultat n'est pas à la cible.Nos 2 distributions ne sont pas similaires.Les échantillons sont différents.

Source

1 – K. Pearson (1900) – On the criterion that given system deviations from the probable in the case of correlated system of variables is such that it can be reasonably supposed to have arisen from random sampling.

2 – G. U. Yule, M. Greenwood (1915) – The statistics of anti-typhoid and anti-cholera innoculations, and the interpretation of such statistics in general.

3 – R. A. Fisher (1922) – On the interpretation of chi square from contingency tables and the calculation of p.

Y. Brunet-Moret (1966) – Le test du χ2 de Pearson

E. Cahuzac, C. Bontemps (2008) – Stata par la pratique

D. Laffly (2012) – Analyse bivariée de variables qualitatives

M. Diener-West (2008) – Use of the Chi-Square Statistic

Norme NF X 06-061

Norme NF X06-070

Share This