[Total : 1    Moyenne : 5/5]
Le Test de Wilcoxon – Mann Whitney permet de comparer des niveaux de performance.

Introduction

Le test de Wilcoxon – Mann Whitney est sans doute le plus connu des tests non paramétriques. En définitive, il s’agit de 2 tests mais se déduisent l’un de l’autre. C’est pour cela que l’on parle toujours du test de Wilcoxon – Mann Whitney. Historiquement, le test de Frank Wilcoxon, qu’il a publié en 19451, est antérieur à celui de Henry Mann et son étudiant Donald Ransom Whitney, publié en 19472. La différence réside dans le fait que pour le test de Wilcoxon, on choisit un échantillon de référence qui par convention est celui qui a le nombre d’individu le plus faible.

Les tests de Wilcoxon et de Mann Whitney sont basés sur les mêmes principes et les mêmes types de calculs. La plupart des logiciels proposent les 2 mais certains calculs l’un ou l’autre. Pour cette raison nous présentons les 2 méthodes.

Le principe

Comme la plupart des tests non paramétriques, on compare des données qui peuvent être de tous types (qualitative, continue…) auxquelles on vient leur attribuer un rang. C’est ce rang que l’on évalue et compare pour savoir si la répartition des valeurs est similaire.

Prenons exemple : nous avons 4 jurys qui ont évaluer 2 produits en leur attribuant un note. Le tableau est le suivant :

Jury 1

Jury 2

Jury 3

Jury 4

Produit 1

4

9

11

Note perdue

Produit 2

6

8

10

12

La question à laquelle le test de Wilcoxon – Mann Whitney permet de répondre dans ce cas est : un des 2 produits est-il significativement meilleur que l’autre ?

Etape 1 : Les hypothèses

Le test de Wilcoxon – Mann Whitney repose la comparaison de la distribution des données rangées. Dans le cas d’un test bilatéral, on pose :

H  : les 2 distributions sont identiques

H1 : les 2 distributions sont différentes

On peut également effectuer un test unilatéral et indiquer :

H  : les 2 distributions sont identiques

H1 : la valeur de l’échantillon 1 est < à l’échantillon 2 (Test unilatéral Gauche)

ou

H1 : la valeur de l’échantillon 1 est > à l’échantillon 2 (Test unilatéral Droite)

Etape 2 : Calculer la somme des rangs

Comme la plupart des tests non paramétriques, la statistique de Wilcoxon – Mann Whitney utilise la somme des rangs. On introduit une nouvelle variable qui est la somme des rangs de chaque échantillon. Cela a 2 conséquences :

  • La distribution des données devient nécessairement symétrique quelque soit la distribution initiale. Via cette transformation en rang, on retrouve ainsi une loi normale.
  • L’impact des points aberrants est réduit voir annulé.

2.1 Identifier le rang de chaque valeur

Le rang de chacune des valeurs est donné par rapport à l’ensemble des valeurs des 2 échantillons. On retrouve 2 manières de les calculer :

Test de Wilcoxon

Test de Mann Whitney

On donne le numéro du rang brut de la valeur au sein de l’ensemble des données des 2 échantillons.

On donne le rang en comparant sa position par rapport à l’autre échantillon.

La complexité réside dans le cas où nous avons des ex-aequo. Pour cela, on utilise la méthode des rangs moyens : on leur donne la valeur moyenne de leurs rangs.

Par exemple :

  • si nous avons 2 valeurs égales qui prennent la 8 et 9ème place, alors on leur donne le rang 8,5.
  • Si nous avons 3 valeurs égales, qui prennent la 10, 11 et 12ème place, alors on leur donne à chacune le rang de 11.

2.2 Calculer la somme des rangs par échantillon

Une fois l’ensemble des rangs attribué, on calcule la somme des rangs pour chacun des 2 échantillons.

En reprenant le tableau ci-dessus, nous obtenons les résultats suivants :

Test de Wilcoxon

Test de Mann Whitney

Rang échantillon 1 : 1, 4, 6 soit W1 = 11

Rang échantillon 2 : 2, 3, 5, 7 soit W2 = 17

Rang échantillon 1 = 0, 2, 3 soit U1 = 5

Rang échantillon 2 : 1, 1, 2, 3 soit U2 = 7

On note que l’on peut déduire les résultats du test de Mann Whitney par les résultats du test de Wilcoxon dont le calcul des rangs est plus simple. On retrouve :

U1 = W1 – (n1 * (n1 + 1))/2

U2 = W2 – (n2 * (n2 + 1))/2

Etape 3 : Calculer les moyennes et Variance

Sous l’hypothèse nulle, les 2 distributions sont les mêmes. On cherche à comprendre le positionnement de U et W vis-à-vis de la moyenne. Autrement dit, si une des valeurs de U ou W est exagérément faible ou forte vis-à-vis de la moyenne, alors on pourra dire que les 2 distributions sont différentes.

Pour les moyennes

n1 et n2 : Taille des échantillons 1 et 2

n = n1 + n2

t: le nombre d’observation associée à la valeur en question. Si par exemple nous avons 2 valeurs de 6, alors tg sera de 2.

Pour la variance

Dans le cas où il y a des ex-aequo communs aux 2 échantillons, il faut ajuster la Variance  :

Etape 4 : Valeur Pratique de Wilcoxon et de Mann Whitney

Pour le test de Wilcoxon

Si n1 et n2 <= 8

On utilise les tables exactes de Wilcoxon – Mann Whitney :

  1. On choisit la table qui correspond à la taille de l’échantillon le plus petit
  2. On identifie la colonne avec la valeur du nombre d’individu du second échantillon
  3. On identifie la ligne avec la valeur W de l’échantillon 1
  4. Au croisement, on trouve la valeur pratique de Wilcoxon – Mann Whitney

Exemple : nous avons un échantillon de 3 individus et un autre de 5. La valeur W la plus petite est de 11. Nous obtenons une valeur pratique de 0,286.

Si n1 ou n2 > 8

Au regard de la convergence vers la loi normale, on utilise la formule suivante :

  • W1 : la valeur de la somme des rangs de l’échantillon 1
  • EW : la moyenne de Wilcoxon
  • VW : la Variance de Wilcoxon

Pour le test de Mann Whitney

Si n1 et n2 <= 8

On utilise les tables exactes de Wilcoxon – Mann Whitney :

  1. On choisit la table qui correspond à la taille de l’échantillon le plus petit
  2. On identifie la colonne avec la valeur du nombre d’individu du second échantillon
  3. On identifie la ligne avec la valeur W de l’échantillon 1
  4. Au croisement, on trouve la valeur pratique de Wilcoxon – Mann Whitney

Exemple : nous avons un échantillon de 3 individus et un autre de 5. La valeur W la plus petite est de 11. Nous obtenons une valeur pratique de 0,286.

Si n1 ou n2 > 8

Au regard de la convergence vers la loi normale, on utilise la formule suivante :

  • U1 : la valeur de la somme des rangs de l’échantillon 1
  • EU : la moyenne de Mann Whitney
  • VU : la Variance de Mann Whitney

Etape 5 : Valeur Critique

La valeur critique est la même pour le test de Wilcoxon et Mann Whitney. On retrouver deux manières de la calculer en fonction du nombre d’individus par échantillons.

n1 et n2 <= 8

La valeur pratique a dans ce cas été choisi dans la table de Wilcoxon ou de Mann Whitney. On la compare à la valeur du risque α que nous avons choisi, ceci en fonction du sens du test :

Type de test

Valeur critique

Bilatéral

α / 2

Unilatéral gauche

α

Unilatéral droite

1 – α

n1 ou n2 > 8

Dans ce cas, au regard de la convergence de la distribution vers une distribution normale, on utilise la valeur critique calculée via la loi normale. Elle se calcule en fonction du sens du test et via la fonction LOI.NORMALE.STANDARD.INVERSE :

Type de test

Valeur critique

Bilatéral

α / 2 ou 1 – α / 2

Unilatéral gauche

α

Unilatéral droite

1 – α

Etape 6 : Calcul de la P-Value

La p-Value permet d’évaluer le niveau de risque du test. La méthode des rangs ayant comme propriété la « normalisation » des données, on obtient la p-value via la formule :

p-Value = 2*(1-LOI.NORMALE.STANDARD (ABS (Valeur Pratique)))

Etape 7 : Interprétation

Sens du testRésultatConclusion statistiqueConclusion pratique
BilatéralValeur pratique < Valeur critique α / 2

ou

Valeur pratique > Valeur critique 1 - α / 2
On rejette H0Les 2 distributions sont différentes
Unilatéral droitValeur pratique > Valeur critiqueOn rejette H0L'échantillon 1 a de plus grandes valeurs que l'échantillons 2
Unilatéral gaucheValeur pratique < Valeur critiqueOn rejette H0L'échantillon 1 a de plus petites valeurs que l'échantillon 2
RésultatConclusion statistiqueConclusion pratique
p-value > αOn retient H0Nos 2 séries de données sont identiques ou proches avec un risque de se tromper de p-value%
p-Value est ≤ αOn rejette H0 Nos séries de données sont statistiquement différentes avec un risque de se tromper de p-value %

On notera simplement qu’en général, pour des échantillons inférieurs à 8, la p-value sera souvent supérieure à α. Cela indique simplement que le nombre de relevés n’est pas suffisamment élevé pour garantir la fiabilité des résultats.

Source

1 – F. Wilcoxon (1945) – Individual comparisons by rankings methods

2 – H. B. Mann, D. R. Whitney (1947) – On a test of whether one of two random variables is stochastically larger than the other

S. Tufféry (2005) – Data mining et statistique décisionnelle

P. Capéraa, B. Van Custsen (1988) – Méthodes et modèles en statistique non paramétrique

H. J. Motulsky (2002) – Biostatistique, une approche intuitive

R. Rakotomalala (2008) – Comparaison de population, tests non paramétriques

R. Ramousse, M. Le Berre, L. Le Guelte (1996) – Introduction aux statistiques

Share This