[Total : 0    Moyenne : 0/5]
Le test de Kruskal et Wallis est un test non paramétrique pour comparer plus de 2 échantillons sur des données qui peuvent être des moyennes, des fréquences ou encore des variances.

Introduction

Le test de Kruskal-Wallis est la généralisation du test de Wilcoxon – Mann Whitney pour un nombre d’échantillons supérieur à 2. Il a été développé dans les années 19501, initialement comme une alternative à l’ANOVA dans le cas où l’hypothèse de normalité n’est pas acceptable. Il permet de tester si k échantillons proviennent de la même population, ou de populations ayant des caractéristiques identiques, au sens d’un paramètre de position (le paramètre de position est conceptuellement proche de la médiane, mais le test de Kruskal-Wallis prend en compte plus d’information que la position au seul sens de la médiane).

Le principe

Comme tout test non paramétriques, le test de Kruskal Wallis compare des rangs de données. Il peut ainsi comparer des moyennes, des fréquences ou en encore des variances que nous allons traiter sous forme de rangs.

Etape 1 : Les hypothèses

Chaque échantillon étant traduit en classe et en fréquence, on compare chaque distribution pour savoir si une ou plusieurs diffèrent. On pose les hypothèses suivantes :

  • H0 : les distributions sont égales
  • H1 : les distributions sont différentes

Etape 2 : Calculer la Somme des rangs par échantillons

Au même titre que le test de Wilcoxon – Mann Whitney, la statistique de Kruskal et Wallis utilise la somme des rangs. On introduit une nouvelle variable qui est la somme des rangs de chaque échantillon. Cela a 2 conséquences :

  • La distribution des données devient nécessairement symétrique quelque soit la distribution initiale. Via cette transformation en rang, on retrouve ainsi une loi normale.
  • L’impact des points aberrants est réduit voir annulé.

2.1 Identifier le rang de chaque valeur

Le rang de chacune des valeurs est donné par rapport à l’ensemble des valeurs des 2 échantillons. La complexité réside dans le cas où nous avons des ex-aequo. Pour cela, on utilise la méthode des rangs moyens : on leur donne la valeur moyenne de leurs rangs.

Par exemple :

  • si nous avons 2 valeurs égales qui prennent la 8 et 9ème place, alors on leur donne le rang 8,5.
  • Si nous avons 3 valeurs égales, qui prennent la 10, 11 et 12ème place, alors on leur donne à chacune le rang de 11.

2.2 Calculer la somme des rangs pour chacun des échantillons

SRk = Somme des rangs du k échantillons

Etape 3 : Valeur pratique

Dans le calcul de la valeur pratique, on voit des similitudes avec le calcul de l’Anova. Ci-dessous, nous retrouvons une formule simplifiée, mais dans la formule originelle, on est emmené à calculer la variabilité inter-classes, autrement dit la dispersion des moyennes des échantillons autour de la moyenne globale.

Avec :

  • SRk : Somme des rangs des individus de l’échantillon K
  • nk : taille de l’échantillon K
  • n : nombre total d’individu de tous les échantillons

Prise en compte des doublons

Dans le cas où nous avons des ex-aequo qui sont communs à un ou plusieurs échantillons, il faut ajuster la Valeur Pratique en les prenant en compte. La formule est la suivante :

Avec :

  • n : nombre total d’individu pour l’ensemble des échantillons
  • t: le nombre d’observation associé à la valeur en question. Si par exemple nous avons 2 valeurs de 6, alors tg sera de 2.

Etape 4 : Valeur critique

Cas 1 : Nb d’échantillon faible et/ou nb d’individu faible

On choisit parmi la table le cas qui nous intéresse. On cherche le nombre d’échantillons (3, 4 ou 5), puis la combinaison du nombre d’individus par échantillon qui nous intéresse.

Ceci nous permet d’identifier la ligne nous concernant.

Ensuite, on choisit la colonne en fonction de la valeur α que nous avons choisi.

Par exemple, si nous avons 3 échantillons de tailles respectives 5, 4 et 3, et que nous avons choisi une valeur de 5% pour le risque, nous obtenons une valeur critique de 5,656.

Nb d’échantillon > 5 et nb d’individu par échantillon > 5

La variable T suit une loi du Χ2 pour un nombre de ddl de  k – 1 degré de liberté (k étant le nombre d’échantillons). Puisque nous avons plus de 2 échantillons, on ne peut appliquer de manière pertinente la notion d’unilatéralité. Pour cette raison, on calcule la valeur critique uniquement en bilatéral. La formule est la suivante :

Valeur Critique = KHIDEUX.INVERSE(α ; K – 1)

Avec K le nombre d’échantillons

Etape 5 : p-value

On teste la significativité du résultat en calculant la p-Value. Dans notre cas, la valeur pratique suit une loi du Χ2 pour k – 1 degré de liberté (k étant le nombre d’échantillon). Sous Excel, la formule est la suivante :

p-Value =  LOI.KHIDEUX(valeur pratique ; k – 1)

Etape 6 : Interprétation

RésultatConclusion statistiqueConclusion pratique
Valeur pratique < Valeur critiqueOn retient H0Il n’y a pas de différence significative entre les différents échantillons au risque α
Valeur pratique > Valeur critiqueOn rejette H0Il y a une différence significative entre les différents échantillons au risque α
RésultatConclusion statistiqueConclusion pratique
p-value > αOn retient H0Il n’y a pas de différence entre les échantillons avec un risque de se tromper de p-value%
p-Value est ≤ αOn rejette H0Il y a une différence entre les échantillons avec un risque de se tromper de p-value%

Etape 7. Identifier le groupe qui diffère

Dans le cas où on a rejeté l’hypothèse nulle et que la p-Value est inférieure au risque α, on conclue qu’au moins un groupe de mesure diffère des autres. La question est savoir lequel de ces groupes est différent des autres.

Si nous voulons simplement avoir une idée que notre nombre de groupe est peut important (inférieure à 5), une simple comparaison par paire suffit. On calcule ainsi pour chaque combinaison de groupes, le % de différence via la formule :

Si au contraire, nous avons beaucoup de groupes différents et que notre enjeu dans la détermination du groupe qui diffère est important, on utilise un test Post-Hoc.

Etape 7. Calculer le niveau de différence

Enfin, dernière étape du test de Kruskal Wallis, identifier un niveau de différence entre le ou les groupes qui diffèrent et les autres groupes

Il se calcule via la formule suivante :

Source

1 – W. H. Kruskal, W. Allen Wallis (1952) – Use ranks in one-criterion variance analysis.

P. Sprent (1992) – Pratique des statistiques non paramétriques

P. Capéraà, B. Van Cutsen (1988) – Méthodes et modèles en statistique non paramétrique

S. Champely (2004) – Statistique vraiment appliquée au sport

Share This