[Total : 1    Moyenne : 5/5]
Le test de Wilcoxon n’est pas à confondre avec le test de Wilcoxon-Mann Whitney. Même s’ils sont similaires, celui-ci est adapté pour les données appariées.

Introduction

Le test de Wilcoxon, crée en 1945 par Frank Wilcoxon, chercheur Américain en physique, appelé également test de Wilcoxon signé, n’est pas à confondre avec le Test de Wilcoxon – Mann Whitney. Même si le mécanisme est similaire, ce test est dédié à l’analyse de données appariées là où le test de Wilcoxon – Mann Whitney s’utilise pour des échantillons indépendants.

Ce test est le « jumeau » non paramétrique du test de Student pour données appariées.

Aussi précis que le test t de Student lorsque les conditions des tests paramétriques sont réunies, il est par contre beaucoup plus précis lorsque les conditions ne sont pas réunies. D’une manière générale, on le préférera donc au test de t de Student.

Le principe

On considère que nous disposons d’un échantillon qui se compose de n paires d’observations. Le test consiste à comparer les écarts entre chaque paire de mesure.

Il est adapté à tout type de variable (quantitative, ordinale, binaire…) dès lors qu’il est possible de déterminer si une valeur est plus importante qu’une autre pour chaque paire d’observations.

Etape 1 : Les hypothèses

Le test de Wilcoxon repose la comparaison de la distribution des données rangées. Dans le cas d’un test bilatéral, on pose :

H0 : les 2 distributions sont identiques

H1 : les 2 distributions sont différentes

On peut également être unilatéral. Dans ce cas, les hypothèses sont :

H1 : la valeur de l’échantillon 1 > ou < (au choix) à l’échantillon 2

Etape 2 : Mettre en place la variable de test

Sur le principe, nous allons travailler sur la base des écarts entre paire de données. Nous formons donc la donnée di qui est la valeur absolue de l’écart entre les 2 données de chaque paire :

d1 = x1 – y1 ; d2 = x2 – y2 … 

On note généralement que les différentes valeurs X sont nommées « Avant » et les valeurs Y « Après ». En effet, pragmatiquement parlant, lors des essais, on test un même élément à 2 reprises (principe de l’appariement), on note donc X les valeurs du premier essais et Y les valeurs du second essais.

Etape 3 : Calculer la somme des rangs T+ et T-

3.1 Supprimer les écarts nuls

Lors du calcul des données di, il est possible que certains écarts entre paire de données soient nuls. La solution usuelle consiste à supprimer les observations en question. De fait, la véritable valeur du nombre de paire de données n correspond au nombre d’observations pour lequel les di sont différents de 0.

Les rangs seront calculés uniquement sur ces individus.

3.2 Identifier le rang de chaque valeur

Le rang de chacune des valeurs est donné par rapport à l’ensemble des valeurs di de l’échantillon. On note que le numéro de rang « brut » est donné en fonction de la valeur absolue de la variable di.

La complexité réside dans le cas où nous avons des ex-aequo. Pour cela, on utilise la méthode des rangs moyens : on leur donne la valeur moyenne de leurs rangs.

Par exemple :

  • si nous avons 2 valeurs égales qui prennent la 8 et 9ème place, alors on leur donne le rang 8,5.
  • Si nous avons 3 valeurs égales, qui prennent la 10, 11 et 12ème place, alors on leur donne à chacune le rang de 11.

3.3 Calculer la somme des rangs T+ et T-

Pour notre test, on calcule respectivement T+ et T-. Cela correspond à la somme des rangs dont l’écart di est positif et à la somme des rangs dont l’écart est négatif.

On note que l’on peut déduire la valeur de T- par T+ via la formule :

On remarque ainsi qu’au plus la valeur T+ est élevé, au plus nous avons de chance que les valeurs « avant » soient supérieures aux valeurs « après ».

Etape 4 : Déduire la valeur pratique

Cas 1 : n <= 15

On utilise les tables exactes de Wilcoxon pour déduire la valeur pratique.

Cas 2 : n > 15

On approxime la distribution de T+ par une loi normale. On calcule la moyenne et la variance via les formules suivantes :

Dans le cas où nous avons des ex-aequo, il faut ajuster la Variance. La formule est la suivante :

t: le nombre d’observation associée à la valeur en question. Si par exemple nous avons 2 valeurs de 6, alors tg sera de 2. La statistique de test devient alors :

Etape 5 : Valeur critique

Cas 1 : n <= 15 

La valeur pratique a dans ce cas été choisie dans la table de Wilcoxon. On la compare à la valeur du risque α que nous avons choisi, ceci en fonction du sens du test :

Type de test

Valeur α

Bilatéral

α / 2

Unilatéral gauche

α

Unilatéral droite

1 – α

Cas 2 : n  > 15

Dans ce cas, au regard de la convergence de la distribution vers une distribution normale, on utilise la valeur critique calculée via la loi normale. Elle se calcule en fonction du sens du test et via la fonction LOI.NORMALE.STANDARD.INVERSE :

Type de test

Valeur α

Bilatéral

α / 2 ou 1 – α / 2

Unilatéral gauche

α

Unilatéral droite

1 – α

Etape 6 : calcul de la p-Value

La p-Value permet d’évaluer le niveau de risque du test. La méthode des rangs ayant comme propriété la « normalisation » des données, on obtient la p-value via la formule :

p-Value = 1-LOI.NORMALE.STANDARD (ABS (Valeur Pratique))

Etape 7 : Interprétation

Sens du testRésultatConclusion statistiqueConclusion pratique
BilatéralValeur pratique < α / 2 ou
Valeur pratique > 1 - α / 2
On rejette H0Les 2 distributions sont différentes
Unilatéral droitValeur pratique > Valeur critiqueOn rejette H0Les données "avant" ont des valeurs plus grandes que les données "après"
Unilatéral gaucheValeur pratique < Valeur critiqueOn rejette H0Les données "avant" ont des valeurs plus petites que les données "après"
RésultatConclusion statistiqueConclusion pratique
p-value > αOn retient H0Nos séries de données sont identiques ou proches avec un risque de se tromper de p-value%
p-Value < αOn rejette H0Nos séries de données sont statistiquement différentes avec un risque de se tromper de p-value%

On notera qu’en général, pour des échantillons inférieurs à 15, la p-value sera souvent supérieure à α. Cela indique que le nombre de paire de données n’est pas suffisant pour être statistiquement précis.

Source

P. Caperra, B. Van Cutsem (1988) – Méthodes et modèles en statistiques non paramétriques

D. J. Sheskin (2004) – Handbook of parametric and non parametric statistical procedure

S. Jackson (2002) – Statistics plain and simple

Share This