Introduction
Le test de Wilcoxon – Mann Whitney est sans doute le plus connu des tests non paramétriques. En définitive, il s’agit de 2 tests mais se déduisent l’un de l’autre. C’est pour cela que l’on parle toujours du test de Wilcoxon – Mann Whitney. Historiquement, le test de Frank Wilcoxon, qu’il a publié en 19451, est antérieur à celui de Henry Mann et son étudiant Donald Ransom Whitney, publié en 19472. La différence réside dans le fait que pour le test de Wilcoxon, on choisit un échantillon de référence qui par convention est celui qui a le nombre d’individu le plus faible.
Les tests de Wilcoxon et de Mann Whitney sont basés sur les mêmes principes et les mêmes types de calculs. La plupart des logiciels proposent les 2 mais certains calculs l’un ou l’autre. Pour cette raison nous présentons les 2 méthodes.
Le principe
Comme la plupart des tests non paramétriques, on compare des données qui peuvent être de tous types (qualitative, continue…) auxquelles on vient leur attribuer un rang. C’est ce rang que l’on évalue et compare pour savoir si la répartition des valeurs est similaire.
Prenons exemple : nous avons 4 jurys qui ont évaluer 2 produits en leur attribuant un note. Le tableau est le suivant :
Jury 1 |
Jury 2 |
Jury 3 |
Jury 4 |
|
Produit 1 |
4 |
9 |
11 |
Note perdue |
Produit 2 |
6 |
8 |
10 |
12 |
La question à laquelle le test de Wilcoxon – Mann Whitney permet de répondre dans ce cas est : un des 2 produits est-il significativement meilleur que l’autre ?
Etape 1 : Les hypothèses
Le test de Wilcoxon – Mann Whitney repose la comparaison de la distribution des données rangées. Dans le cas d’un test bilatéral, on pose :
H : les 2 distributions sont identiques
H1 : les 2 distributions sont différentes
On peut également effectuer un test unilatéral et indiquer :
H : les 2 distributions sont identiques
H1 : la valeur de l’échantillon 1 est < à l’échantillon 2 (Test unilatéral Gauche)
ou
H1 : la valeur de l’échantillon 1 est > à l’échantillon 2 (Test unilatéral Droite)
Etape 2 : Calculer la somme des rangs
Comme la plupart des tests non paramétriques, la statistique de Wilcoxon – Mann Whitney utilise la somme des rangs. On introduit une nouvelle variable qui est la somme des rangs de chaque échantillon. Cela a 2 conséquences :
- La distribution des données devient nécessairement symétrique quelque soit la distribution initiale. Via cette transformation en rang, on retrouve ainsi une loi normale.
- L’impact des points aberrants est réduit voir annulé.
2.1 Identifier le rang de chaque valeur
Le rang de chacune des valeurs est donné par rapport à l’ensemble des valeurs des 2 échantillons. On retrouve 2 manières de les calculer :
Test de Wilcoxon |
Test de Mann Whitney |
On donne le numéro du rang brut de la valeur au sein de l’ensemble des données des 2 échantillons. |
On donne le rang en comparant sa position par rapport à l’autre échantillon. |
La complexité réside dans le cas où nous avons des ex-aequo. Pour cela, on utilise la méthode des rangs moyens : on leur donne la valeur moyenne de leurs rangs.
Par exemple :
- si nous avons 2 valeurs égales qui prennent la 8 et 9ème place, alors on leur donne le rang 8,5.
- Si nous avons 3 valeurs égales, qui prennent la 10, 11 et 12ème place, alors on leur donne à chacune le rang de 11.
2.2 Calculer la somme des rangs par échantillon
Une fois l’ensemble des rangs attribué, on calcule la somme des rangs pour chacun des 2 échantillons.
En reprenant le tableau ci-dessus, nous obtenons les résultats suivants :
Test de Wilcoxon |
Test de Mann Whitney |
Rang échantillon 1 : 1, 4, 6 soit W1 = 11 Rang échantillon 2 : 2, 3, 5, 7 soit W2 = 17 |
Rang échantillon 1 = 0, 2, 3 soit U1 = 5 Rang échantillon 2 : 1, 1, 2, 3 soit U2 = 7 |
On note que l’on peut déduire les résultats du test de Mann Whitney par les résultats du test de Wilcoxon dont le calcul des rangs est plus simple. On retrouve :
U1 = W1 – (n1 * (n1 + 1))/2
U2 = W2 – (n2 * (n2 + 1))/2
Etape 3 : Calculer les moyennes et Variance
Sous l’hypothèse nulle, les 2 distributions sont les mêmes. On cherche à comprendre le positionnement de U et W vis-à-vis de la moyenne. Autrement dit, si une des valeurs de U ou W est exagérément faible ou forte vis-à-vis de la moyenne, alors on pourra dire que les 2 distributions sont différentes.
Pour les moyennes

n = n1 + n2
tg : le nombre d’observation associée à la valeur en question. Si par exemple nous avons 2 valeurs de 6, alors tg sera de 2.
Pour la variance


Si n1 et n2 <= 8
On utilise les tables exactes de Wilcoxon – Mann Whitney :
- On choisit la table qui correspond à la taille de l’échantillon le plus petit
- On identifie la colonne avec la valeur du nombre d’individu du second échantillon
- On identifie la ligne avec la valeur W de l’échantillon 1
- Au croisement, on trouve la valeur pratique de Wilcoxon – Mann Whitney

Exemple : nous avons un échantillon de 3 individus et un autre de 5. La valeur W la plus petite est de 11. Nous obtenons une valeur pratique de 0,286.
Si n1 ou n2 > 8
Au regard de la convergence vers la loi normale, on utilise la formule suivante :

- W1 : la valeur de la somme des rangs de l’échantillon 1
- EW : la moyenne de Wilcoxon
- VW : la Variance de Wilcoxon
Pour le test de Mann Whitney
Si n1 et n2 <= 8
On utilise les tables exactes de Wilcoxon – Mann Whitney :
- On choisit la table qui correspond à la taille de l’échantillon le plus petit
- On identifie la colonne avec la valeur du nombre d’individu du second échantillon
- On identifie la ligne avec la valeur W de l’échantillon 1
- Au croisement, on trouve la valeur pratique de Wilcoxon – Mann Whitney

Exemple : nous avons un échantillon de 3 individus et un autre de 5. La valeur W la plus petite est de 11. Nous obtenons une valeur pratique de 0,286.
Si n1 ou n2 > 8
Au regard de la convergence vers la loi normale, on utilise la formule suivante :

- U1 : la valeur de la somme des rangs de l’échantillon 1
- EU : la moyenne de Mann Whitney
- VU : la Variance de Mann Whitney
Etape 5 : Valeur Critique
La valeur critique est la même pour le test de Wilcoxon et Mann Whitney. On retrouver deux manières de la calculer en fonction du nombre d’individus par échantillons.
n1 et n2 <= 8
La valeur pratique a dans ce cas été choisi dans la table de Wilcoxon ou de Mann Whitney. On la compare à la valeur du risque α que nous avons choisi, ceci en fonction du sens du test :
Type de test |
Valeur critique |
Bilatéral |
α / 2 |
Unilatéral gauche |
α |
Unilatéral droite |
1 – α |
n1 ou n2 > 8
Dans ce cas, au regard de la convergence de la distribution vers une distribution normale, on utilise la valeur critique calculée via la loi normale. Elle se calcule en fonction du sens du test et via la fonction LOI.NORMALE.STANDARD.INVERSE :
Type de test |
Valeur critique |
Bilatéral |
α / 2 ou 1 – α / 2 |
Unilatéral gauche |
α |
Unilatéral droite |
1 – α |
Etape 6 : Calcul de la P-Value
La p-Value permet d’évaluer le niveau de risque du test. La méthode des rangs ayant comme propriété la « normalisation » des données, on obtient la p-value via la formule :
p-Value = 2*(1-LOI.NORMALE.STANDARD (ABS (Valeur Pratique)))
Etape 7 : Interprétation
Sens du test | Résultat | Conclusion statistique | Conclusion pratique |
---|---|---|---|
Bilatéral | Valeur pratique < Valeur critique α / 2 ou Valeur pratique > Valeur critique 1 - α / 2 | On rejette H0 | Les 2 distributions sont différentes |
Unilatéral droit | Valeur pratique > Valeur critique | On rejette H0 | L'échantillon 1 a de plus grandes valeurs que l'échantillons 2 |
Unilatéral gauche | Valeur pratique < Valeur critique | On rejette H0 | L'échantillon 1 a de plus petites valeurs que l'échantillon 2 |
Résultat | Conclusion statistique | Conclusion pratique |
---|---|---|
p-value > α | On retient H0 | Nos 2 séries de données sont identiques ou proches avec un risque de se tromper de p-value% |
p-Value est ≤ α | On rejette H0 | Nos séries de données sont statistiquement différentes avec un risque de se tromper de p-value % |
On notera simplement qu’en général, pour des échantillons inférieurs à 8, la p-value sera souvent supérieure à α. Cela indique simplement que le nombre de relevés n’est pas suffisamment élevé pour garantir la fiabilité des résultats.
Source
1 – F. Wilcoxon (1945) – Individual comparisons by rankings methods
2 – H. B. Mann, D. R. Whitney (1947) – On a test of whether one of two random variables is stochastically larger than the other
S. Tufféry (2005) – Data mining et statistique décisionnelle
P. Capéraa, B. Van Custsen (1988) – Méthodes et modèles en statistique non paramétrique
H. J. Motulsky (2002) – Biostatistique, une approche intuitive
R. Rakotomalala (2008) – Comparaison de population, tests non paramétriques
R. Ramousse, M. Le Berre, L. Le Guelte (1996) – Introduction aux statistiques