[Total : 2    Moyenne : 5/5]
Les tests d’hypothèses permettent de comparer un ou plusieurs échantillons et de valider ou d’infirmer une hypothèse..

Introduction

Les tests d’hypothèses comparent des groupes de données pour voir si elles sont similaires ou non. Ils peuvent également tester un groupe de données avec une cible attendue et voir s’il est sur la cible ou non. Ils peuvent enfin soutenir ou compléter une étude de plans d’expériences ou aux régressions analyser les relations de cause à effet. Les hypothèses peuvent être de toute nature :

  • comme savoir si le pourcentage de défauts a vraiment diminué à la suite des actions entreprises ?
  • Avons-nous significativement réduit le niveau des stocks ?
  • Plus de la moitié des employés sont-ils moteur du processus de progression ?
  • Changer cette élément a-t-il vraiment un impact sur la qualité du produit ?

Etape 0: Définir l’objectif du test

Comparer un échantillon avec une cible

Type de donnéesQualitatif 2 modalitésQualitatif, + de 2 modalitésQuantitatif
ExempleOn souhaite comparer un pourcentage de défaut (Bon / Pas bon) par rapport à un pourcentage cible.On veut comparer des pourcentages pour des données réparties en diverses catégoriesOn veut comparer une moyenne ou un écart type par rapport à une cible souhaitée.
Test à utilisert de Student pour une proportionTest du χ2 Goodness of fitt de Student pour une moyenne

Test χ2 pour un écart type

Comparer 2 échantillons entre eux

Type de donnéesQualitatif 2 modalitésQualitatifs, + de 2 modalitésQualitatif ordinaleQuantitatif
ExempleOn souhaite comparer des pourcentages de défaut (Bon / Pas bon) de 2 échantillons.On veut comparer des pourcentages pour des données réparties en diverses catégories.On veut comparer le classement proposer par plusieurs jurys.On veut comparer la moyenne ou l’écart type de 2 échantillons.
Données indépendantesTest t de Student

Test du χ2 Test for Association
Test du Test χ2, test for associationTest de Wilcoxon-Mann WhitneyTest t de Student pour une moyenne



Test de Brown Forsythe ou Fisher Snedecor (Brown meilleur) pour des Variances
Données appariéesTest de McNemarTest de WilcoxonTest de Wilcoxon Test t de Student pour des moyennes ou des Variances

Comparer plus de 2 échantillons

Type de donnéesQualitatif 2 modalitésQualitatifs, + de 2 modalitésQualitatif ordinaleQuantitatif
ExempleOn souhaite comparer des pourcentages de défaut (Bon / Pas bon) de plusieurs échantillons.On veut comparer des pourcentages pour des données réparties en diverses catégories.On veut comparer le classement proposer par plusieurs jurys.On veut comparer la moyenne ou l’écart type de plus de 2 échantillons.
Données indépendantesTest du χ2 Test for AssociationTest du Test χ2, test for associationTest de Kruskal-Wallis
Tau de Kendall
Rho de Spearman
Anova pour des moyennes

Test de Brown Forsythe pour des variances
Données appariéesQ de CochranTest de FriedmanTest de FriedmanTest de Friedman
Anova en blocs
Manova pour des moyennes

Test non paramétrique VS test paramétrique

Dans les tableaux précédents, on trouve 2 familles de tests:

  • Test paramétrique : ils sont basés sur la comparaison des différents groupes, en supposant un certain nombre d’éléments: la distribution est normale et la variance entre les échantillons est similaire.
  • Test non paramétrique: ils sont presque tous basés sur la notion de rangs. Le principe consiste à substituer aux valeurs leur numéro d’ordre dans l’ensemble de données. L’intérêt de ces tests est d’être utilisé pour des données quantitatives, qualitatives et dans le cas où la distribution n’est pas normale.
 Test non paramétriqueTest paramétrique
Nom du testFriedman

Kruskal et Wallis

Wilcoxon-Mann Whitney

Wilcoxon

Q de Cochran

McNemar

Tau de Kendall

Rho de Spearman
Brown Forsythe

Fisher Snedecor

Student

Student pour données appariées

χ2

Manova

Anova et Anova en blocs
AvantagePas de conditions contraignantes à respecter

Permet de prendre en compte facilement les données qualitatives comme quantitatives et même ordinales

Moins sensible aux points aberrants

Adaptés pour de petits échantillons
Plus précis si les conditions sont établies.
InconvénientsMoins précis que les tests non paramétriques.Nécessite de répondre à des contraintes de normalités

Nécessite des variances « similaires » pour les tests qui comparent un autre paramètre que la variance.
En général, on préférera toujours, si les conditions sont remplies, un test paramétrique plus précis que les tests non paramétriques.

Etape 1 : Valider les conditions du test

Distribution des données

Pour les tests paramétriques, la normalité est nécessaire. Pour en être sûr, nous faisons un test d’ajustement.

Homogénéité des variances

Les tests paramétriques sont efficaces si la variance de l’échantillon est petite. Pour être sûr, nous effectuons un test d’homoscedaticité .

Indépendance ou données appariées

e principe d’appariement est basé sur la création de paires de données pour réduire le risque de résultats erronés.

Exemple

Nous souhaitons analyser le niveau de performance d’un additif afin de réduire la consommation de véhicules. Nous aurons 2 cas de figures :

La première, nous choisissons 10 véhicules que nous séparons en 2 groupes, dont 1 à qui nous administrerons l’additif. Nous les faisons rouler de la même manière et nous comparons la consommation. Les résultats seront probablement faussés car nous ne savons pas si les véhicules ont des consommations de base identique.

La seconde, nous choisissons 5 véhicules. Ils vont faire la même route, une première fois sans additif, une seconde fois avec. Nous comparons les consommations par la suite.

Nous réalisons que dans le second cas, nos mesures seront beaucoup plus précises. Nous sommes libres de diverses variabilités qui faussent les résultats.

Taille d’échantillons

En règle générale, il sera toujours préférable d’avoir des tailles d’échantillons similaires parmi tous les groupes que l’on souhaite tester. Cela réduit la variabilité des variances.

D’autre part, plus nous disposons de données, plus celles-ci tendent vers une distribution normale. Il est recommandé d’avoir un échantillon d’au moins 30 échantillons par groupe.

Ne pas avoir de valeurs aberrantes

Les valeurs aberrantes sont des sources de résultats biaisés. Même si certains tests, en particulier les tests non paramétriques, sont robustes à ce type de valeur, il est nécessaire de les supprimer avant l’étude…

Etape 2: Poser les hypothèses

Expression des hypothèses

Le principe d’un test d’hypothèse consiste à comparer la probabilité d’une hypothèse à son contraire. Par exemple, comparer l’hypothèse selon laquelle nous avons 3% de défauts à l’hypothèse selon laquelle il n’y a pas 3% de défauts.

Nous appelons donc :

  • L’hypothèse nulle H0:C’est l’hypothèse où nous n’apprenons rien, donc celle où nous rejetons l’hypothèse que notre résultat est significatif. En d’autres termes, notre résultat est obtenu par hasard . Par exemple, pour le choix d’un médicament, l’hypothèse nulle sera celle où ce médicament n’a aucun effet. Nous notons que l’hypothèse H0 est toujours exprimée avec une égalité.
  • L’hypothèse alternative H1: c’est l’hypothèse où nous apprenons quelque chose et donc où le résultat testé est significatif. En d’autres termes, autre chose que le hasard s’est passé. Les données collectées montrent une différence statistique. Il représente en fait ce que nous voulons savoir, à moins que ce que nous voulons savoir, ce soit l’égalité.

Par exemple, nous pensons avoir 3% de défauts en moyenne et nous voulons le tester. Nos hypothèses seront:

  • H0 : notre pourcentage par défaut est égal à 3%
  • H1 : nous avons un pourcentage par défaut différent de 3%

Le sens du test

Nous définissons quel côté incline la balance. Pour cela, nous donnons une direction au test et nous exprimerons nos hypothèses comme suit:

  • H0  = 3% et H1 ≠ 3% : On défini un test bilatéral
  • H0  = 3% et H1 < 3% : On défini un test unilatéral gauche
  • H  = 3% and H1 > 3% : On défini un test unilatéral droit

Etape 3 : Identifier la valeur pratique

Appelée aussi statistique de test, c’est la valeur calculée à partir de nos échantillons que nous comparerons à la valeur critique. Son calcul dépend du test choisi.

Etape 4 : Choisir le niveau de risque

Dans les tests d’hypothèse, il existe deux types de risques.

 Vérité
H0H1
DécisionH0Conclusion correcteErreur de seconde espèce
H1Erreur de première espèceConclusion correcte

En d’autres termes, par définition :

  • Un risque de première espèce, appelé α: c’est le risque d’erreur de rejeter l’hypothèse nulle alors qu’elle est vraie (également appelé seuil de signification). Il y a le risque de voir un événement quand il n’y en a pas: nous condamnons un innocent.
  • Un risque de seconde espèce, appelé β : c’est le risque de retenir l’hypothèse nulle quand elle est fausse. Donc, il y a un risque de ne pas voir un événement lorsqu’il y en a un: nous acquittons un coupable.

La puissance statistique

Calculée selon la formule 1 – β, la puissance doit être la plus grande possible, c’est-à-dire avec un risque du deuxième espèce le plus faible possible.

Plus clairement, la puissance statistique représente la probabilité de rejeter H0 lorsque H0 est faux et représente donc notre probabilité de détecter une différence.

Idéalement, 0,8 ou plus pour détecter un écart raisonnable par rapport à l’hypothèse nulle.

La puissance dépend de plusieurs paramètres: la significativité de l’effet à, la taille de l’échantillon, le risque de base et le risque α.

En pratique, il est habituel de fixer le risque d’erreur α 5% et le risque β à 10%. Ce sont des valeurs arbitrairement définies, uniquement par choix philosophique :

Nous préférons accepter un mauvais sort que de refuser un bon lot ou d’acquitter un coupable plutôt que de condamner un innocent.

Ainsi, le risque associé à l’erreur de première espèce, considérée comme l’erreur la plus grave, est mieux contrôlé. Ces deux risques α et β étant antagoniste, choisir un risque α trop faible entraînera très rarement le rejet de H0. Au contraire, choisir un risque trop grand ne conduit à une acceptation que très rarement. Le risque est alors déduit par le calcul, si la loi sous H1 est connue.

Le niveau de confiance est calculé selon la formule suivante : 1 – α , où α est appelé le risque.

Exemple :

Considérons le test d’hypothèses suivant :

  • Hypothèse H0 : le patient doit être hospitalisé,
  • Hypothèse alternative H1 : le patient ne doit pas être hospitalisé.

L’erreur du première espèce est de ne pas hospitaliser un patient qui en avait besoin. Cette erreur est très grave car elle peut entraîner la mort du patient. L’erreur de seconde espèce, le risque d’hospitalisation d’un patient qui n’en avait pas besoin peut être moins grave.

Etape 5 : Etablir la règle de décision

La valeur critique du test est calculée à partir du niveau de confiance défini précédemment. Cette valeur critique sépare 2 domaines de choix :

  • La zone de rejet : ensemble de valeurs où la statistique de test est probable car H0 a été sélectionné.
  • La zone de non-rejet: ensemble formé par les autres valeurs dans le cas où nous rejetons H0 et nous retenons donc H1.

Test unilatéral ou bilatéral

Pour toutes les lois, on choisit entre les tests bilatéraux et les tests unilatéraux. La représentation graphique de cette notion est la suivante :

Type de testGraphiqueUtilisationRègle de décision
Test bilatéral

Nous prendrons pour notre calcul une valeur α divisée par 2
Nous voulons savoir si notre valeur est différente de la valeur de test.

Exemple: la moyenne de cet échantillon est différente de celle-ci
- Valeur critique > Valeur pratique > + Valeur critique → Rejet de H0

Nous concluons que nos deux échantillons sont différents.
Test unilatéral gauche

Nous prendrons pour notre calcul une valeur α égale au risque total
Savoir si notre valeur est inférieure à la valeur de test.

Exemple: la consommation moyenne du nouveau véhicule est nettement inférieure à celle de l'ancien.
Valeur pratique < Valeur critique → Rejet de H0

Nous concluons que notre échantillon 1 est en dessous de l'échantillon 2.
Test unilatéral droit

Nous prendrons pour notre calcul une valeur α égale au risque total
Savoir si notre valeur est supérieure à la valeur de test.

Exemple: la vie des nouvelles machines à laver est meilleure que les anciennes
Valeur pratique > Valeur critique → Rejet de H0

Nous concluons que notre échantillon 1 est supérieur à l'échantillon 2

Calculer la valeur critique

La valeur critique est lue sur des tables spécifiques développées par les concepteurs de test. Cela dépend de la loi applicable pour le test choisi et le plus souvent du nombre de degrés de liberté.

Notion de degré de liberté

Le nombre de degrés de liberté est une mesure de la quantité d’informations pouvant être obtenues à partir d’une observation. Plus nous avons de degrés de liberté, plus nous avons d’informations.

Par exemple, dans l’équation A * B = 10, nous avons 2 solutions :

  • si A = 2, alors B = 5
  • si A = 5, alors B = 2

En d’autres termes, si nous bloquons l’un des deux paramètres, nous pouvons facilement définir l’autre. Donc, dans ce cas, nous avons 1 degré de liberté soit n – 1.

Etape 6 : calculer la p-value

La p-Value, Significance index, est un concept important de la statistique. Introduite par Fisher, elle aide à identifier le niveau de « hasard » du résultat. 

Elle suit la même loi que celle du test choisi.

Etape 7 : Prendre la décision statistique

7.1 Lecture de la comparaison entre la valeur pratique et la valeur critique

La lecture des résultats se fait toujours vis-à-vis de l’hypothèse nulle. Nous pouvons être dans 2 cas :

  • On a retenue H0 : nous concluons que l’hypothèse alternative H1 n’est pas vraie.
  • On a rejeté H0 : nous concluons que l’hypothèse alternative H1 est vraie.

 

7.2 Lire la Value

La p-Value s’interprète de la manière suivante :

  • P < α : le résultat est très significatif et n’est pas dû au hasard
  • P > α : le résultat n’est pas significatif et dû au hasard 

Etape 8 : les test Post Hoc

Lorsque plus de 2 échantillons ont été comparé et que la conclusion statistique a permis de distinguer un ou plusieurs échantillons des autres, on va utiliser un test post-hoc. Ces tests permettent d’identifier lequel ou lesquels diffèrent des autres.

Notez cependant qu’une simple analyse par paire peut être utilisée pour identifier ces échantillons.

Source

D. Chessel, A. B. Dufour (2003) – Pratique des tests élémentaires

N. Boudaoud (2002) – Rappels statistiques

P. Dagnelie (1970) – Théories et méthodes statistiques

P. Sprent (1992) – Pratique des statistiques non paramétriques

D. Mouchiroud (2003) – Tests d’hypothèse

J. Jacques (2012) – Statistiques inférentielles

R. Rakotomalala (2008) – Comparaison de populations, test non paramétriques

E. Ouellet, I. Belley-Ferris, S. Leblond (2011) – Guide d’économétrie appliquée pour Stata

R. Rakotomalala (2013) – Comparaison de populations, test non paramétriques

J. Poirier (1999) – Estimateurs et tests d’hypothèses

M. Lejeune (2005) – Statistique : la théorie et ses applications

P. Capéraà, B. Van Cutsem (1988) – méthodes et modèles en statistique non paramétrique

V. Bhushan (1978) – Les méthodes en statistique

S. Tufféry (2010) – data mining et statistique décisionnelle : l’intelligence des données

Norme NF X06-064

Share This