[Total : 1    Moyenne : 5/5]
Le test de Student permet d’identifier des différences sur des paramètres de moyenne ou de proportion.

Introduction

Le test de Student est sans doute le test le plus populaire. Il a été publié pour la première fois dans la revue Biometrika par William Sealy Gosset en 1908. Alors employé de la brasserie Guinness à Dublin, il était en charge de travailler sur la qualité et les coûts de diverses variétés d’orge et de houblon1. Etude qui lui permit de conclure qu’au plus le rendement est grand, au moins la qualité de l’orge résultant est faible.

Ayant suivi des études de statistiques, il rencontra en 1905 un autre grand mathématicien de l’époque, Karl Pearson, et travailla à résoudre ses questions concernant l’erreur probable de la moyenne. En 1907, il fut nommé responsable de la brasserie expérimentale de Guinness et utilisa la table de Student qu’il avait définie pour déterminer la meilleure qualité d’orge. Il compara les résultats réels avec les résultats estimés et s’aperçu qu’au plus la proportion est grande dans un échantillon faible, au plus la loi Normale s’écarte de la réalité.

Dans le cadre de cette étude, Student mis alors en avant que si des données suivent une loi normale, il y a 2 erreurs possibles d’estimation de la moyenne d’une population à partir de l’échantillon, le conduisant à créer sa loi :

  • Une erreur d’échantillonnage aléatoire, autrement dit nos données ne sont pas aléatoires.
  • L’échantillon n’est pas suffisamment grand pour déterminer précisément la loi de distribution.

Guinness autorisa de publier ses travaux sous son pseudonyme Student.

Au début utilisé uniquement par quelques spécialistes et le personnel des laboratoires Guinness, ce ne sera que quelques années plus tard, que Ronald Aylmer Fisher, le célèbre statisticien, qui récupéra les travaux et déploya la méthode.

La loi est plus plane que la loi Normale :
  • v : le nombre de degré de liberté
  • Γ : la fonction gamma

Le principe

Le test de Student repose sur le rapport de la différence entre les 2 valeurs que nous voulons tester et la différence des variances des 2 valeurs. Ce que l’on doit comprendre, c’est qu’en définitive, nous avons 2 raisons qui feront que le rapport sera important et que l’on conclura que les 2 échantillons sont différents :

  • Soit la différence entre les 2 échantillons est très grande
  • Soit la différence des variances entre les 2 échantillons est très faible, renforçant l’idée que les échantillons se démarquent.

Etape 1 : les hypothèses

Le test t de Student peut servir à deux objectifs que nous détaillons ci-dessous.

1.1 : Comparer un échantillon avec une cible

Dans le cadre d’une comparaison avec une cible, le test t permet de comparer soit une moyenne (One Sample T-Test) soit une proportion. La comparaison pour une moyenne s’applique lorsque nous avons des données quantitatives alors que la comparaison d’une proportion va être utilisée lorsque nos données sont qualitatives à 2 modalités.

Exemple

Nous avons un lot fournisseur où nous avons détecté 13 défauts sur 1000 pièces le contrat étant de 1%. Pouvons nous conclure que la différence est significative ou non et ainsi accepter le lot ou non ?

Les hypothèses sont pour un test bilatéral (mais on peut très bien faire un test unilatéral gauche ou droite) :

  • Pour une comparaison de moyenne : H0 : μ1 = μ0 et H1 : μ1 ≠ μ0
  • Pour une comparaison de proportion : H0 : p1 = p0 et H1 : p1 ≠ p0

1.2 : Comparer 2 échantillons entre eux

De la même manière, on peut comparer 2 échantillons entre eux et cela dans les mêmes conditions, c’est à dire, soit sur le paramètre de la moyenne (Two Sample T-Test), soit sur le paramètre des proportions.

Exemple

On souhaite améliorer la performance d’un produit. On effectue un test avec l’ancien et le nouveau produit et on souhaite comparer les résultats. Pouvons nous conclure à une amélioration réelle ou simplement à une variabilité ?

Les hypothèses sont pour un test bilatéral (mais on peut très bien faire un test unilatéral gauche ou droite) :

  • Pour une comparaison de moyenne : H0 : μ1 = μ2 et H1 : μ1 ≠ μ2
  • Pour une comparaison de proportion : H0 : p1 = p2 et H1 : p1 ≠ p2

Etape 2 : Calculer la valeur pratique

Comparer une moyenne avec une cible

μ : moyenne de l’échantillon obseré

μ : moyenne théorique qui nous sert de comparaison

σ : écart type de l’échantillon

n : nombre d’individu de l’échantillon

Comparer une proportion avec une cible

p : proportion cible

p  : proportion observée de notre échantillon

n : nombre d’individu de l’échantillon

Comparer la moyenne de deux échantillons

 μ1 et μ2 : moyenne observées des échantillons 1 et 2

n1 et n2 : nombre d’individu des échantillons 1 et 2

σ : écart type moyen des échantillons =

Comparer la proportion de deux échantillons

p1 et p2 : proportion des échantillons 1 et 2

n1 et n2 : taille de l’échantillon

p : proportion de regroupement =

Etape 3 : Calculer la Valeur critique

La distribution de Student est très proche de la distribution de la loi Normale. Elles tendent à être égale pour des échantillons grands (+ de 30 individus), mais pour les petits échantillons (- de 30), la distribution de Student est plus précise.

En pratique pour les échantillons de plus de 30 individus, on utilise au choix la loi de Student ou la loi Normale. Pour cela, on utilisera donc la fonction Excel LOI.STUDENT.INVERSE.N. si l’on souhaite utiliser la loi de Student et LOI.NORMALE.STANDARD.INVERSE si l’on souhaite utiliser la loi Normale.

Le niveau de risque dépend du sens du test soit :

  • Bilatéral : 1 – α/2
  • Unilatéral Gauche : α
  • Unilatéral Droite : 1 – α

Le nombre de degré de liberté de :

  • Pour une comparaison d’une moyenne ou d’une proportion avec une cible : ddl = n – 1
  • Pour la comparaison de deux moyennes ou deux proportions entre elle : ddl = n1 + n2 – 2
  • Pour la comparaison de données appariées : ddl = n – 1

Etape 4 : Calculer la p-Value

Pour la p-Value, on utilise l’approximation par la loi de Student. On retrouve ainsi :

  • Pour un test bilatéral : LOI.STUDENT  ( I valeur pratique I ; n – 1 ; 2)
  • Pour un test unilatéral gauche ou droite : LOI.STUDENT ( I valeur pratique I ;n – 1 ; 1)

Etape 5 : interprétation

Sens du testRésultatConclusion statistiqueConclusion pratique
BilatéralValeur pratique > + Valeur critique

ou

Valeur pratique < - Valeur critique
On rejette H0Les 2 échantillons sont différents
Unilatéral droitValeur pratique > Valeur critique 1 - αOn rejette H0L'échantillon 1 est statistiquement plus grand que le 2 au niveau de risque α donné.
Unilatéral gaucheValeur pratique < Valeur critique αOn rejette H0L'échantillon 1 est statistiquement plus petit que le 2 au niveau de risque α donné.
RésultatConclusion statistiqueConclusion pratique
p-value > αOn retient H0Nos séries de données sont identiques ou proches avec un risque de se tromper de p-value%
p-Value < αOn rejette H0Nos séries de données sont statistiquement différentes avec un risque de se tromper de p-value%

Source

1 – W. Gosset (1908) – The probable error of the mean

Y. Dodge (2007) – Statistique, dictionnaire encyclopédique

E. S. Pearson, L. McMullen (1970) – William Sealy Gosset, 1876, 1937. Studies in the history of statistics and probability

J. Fisher-Box (1987) – Guinness, Gosset, Fisher and small samples

G. Millot (2008) – Comprendre et réaliser des tests avec R

M. R. G. O’Gorman, A. D. Donnenberg (2008) – Handbook of human immunology

Norme NF X 06-054

Norme NF X06-069

Norme NF X06-070

Share This