[Total : 1    Moyenne : 5/5]
Appelé coefficient de corrélation des rangs de Kendall, c’est une mesure de corrélation non paramétrique. Il sert à déterminer une relation qui existe entre 2 séries de données.

Introduction

Appelé coefficient de corrélation des rangs de Kendall, noté τ, il est une mesure de corrélation non paramétrique. Il sert à déterminer une relation qui existe entre 2 séries de données.

C’est M. Kendall, un statisticien Anglais, qui, reprenant le travail de G. Fechner (philosophe et physicien Allemand), a développé ce coefficient de corrélation en 1938. L’enjeu était alors de mettre en place un calcul de corrélation pour les données non paramétriques.

Le principe

Le test consiste à mettre dans un premier temps dans l’ordre croissant les valeurs de la variable X1. Puis, on compte le nombre de fois où la valeur la variable X2 est elle aussi croissante, ou non. Si les données sont également croissantes, alors on aura une corrélation positive. Si les données de la variable X2 sont toutes décroissantes, alors il y aura une corrélation négative. Si enfin, les données de la variable X2 ne sont ni croissante ni décroissante, alors il n’y a pas de corrélation.

Etape 1 : les hypothèses

Le Tau de Kendall est un test bilatéral ou unilatéral. Les hypothèses sont :

Pour un cas bilatéral :

  • H0 : les X et Y sont mutuellement indépendants, il n’y a pas de corrélation.
  • H1 : les X et Y sont dépendants, il y a une corrélation.

Pour un cas unilatéral droit :

  • H0 : les X et Y sont mutuellement indépendants, il n’y a pas de corrélation.
  • H1 : les X et Y sont dépendants, il y a une corrélation positive.

Pour un cas unilatéral gauche :

  • H0 : les X et Y sont mutuellement indépendants, il n’y a pas de corrélation.
  • H1 : les X et Y sont dépendants, il y a une corrélation négative.

Etape 2 : Calculer les valeurs concordantes et discordantes

On calcule les paires de valeurs présentant des concordances et des discordances. Pour cela, on trie les valeurs d’une des deux variables par ordre croissant et y associer les valeurs de la seconde variable.

Dans l’exemple ci-contre, la variable X est en ordre croissant. Les données de la variable X2 sont triées en fonction de la variable X1. Ainsi quand X1 = 1, nous avons obtenu 31 pour X2.

Pour calculer le nombre de couples concordants, on compte le nombre de paires de valeurs que l’on ne doit pas re-trier pour obtenir les valeurs de X2 croissantes ou décroissantes.

Par exemple, pour le couple 11/11, nous avons bien les 9 autres couples 12/12… qui sont bien dans l’ordre.

Et inversement pour le calcul des couples discordants.

Etape 3 : Calcul du Tau de Kendall

Pour le calcul de la valeur pratique, la formule dépend du fait de savoir si nous avons des valeurs en doublons dans nos variables. En fonction des cas, nous avons donc :

Dans le cas où il n’y a pas de doublon

Dans le cas où il y a des doublons
Avec :

  • CC : Nb total de couples concordants
  • CD : Nb de couples discordants
  • n : Nb total de paires de valeurs
  • k : le nombre de fois où la valeur Xi de la Variable i apparait.
  • n1 et n2 : Coefficient d’ajustement des ex-aequo de la variable 1 ou 2

Plus le Tau tend vers 1 ou -1, au plus il y a une corrélation. On considère qu’entre 0.7 et 1, nous avons une corrélation positive. Entre -0.7 et -1, nous avons une corrélation négative.

Etape 4 : Calcul de la valeur pratique

Le Tau de Kendall est une valeur qui suit la Loi normale de moyenne 0. La valeur pratique est :

Valeur pratique = τ / σ

Avec :

  • τ : Le tau de Kendall
  • σ : Ecart type de la distribution du tau de Kendall qui se calcule de la manière suivante

Plus le Tau tend vers 1 ou -1, plus il y a une corrélation. On considère qu’entre 0.7 et 1, nous avons une forte corrélation positive et inversement.

Etape 5 : La valeur critique

Pour les échantillons inférieurs à 10 paires de valeurs, on utilise la table exacte de Kendall. Au-delà, l’approximation donnée par la loi normale est suffisamment significative. Pour cela, on utilise la fonction Excel LOI.NORMALE.STANDARD.INVERSE.

Le niveau de risque dépend du sens du test soit :

  • Bilatéral : 1 – α/2
  • Unilatéral Gauche : α
  • Unilatéral Droite : 1 – α

Etape 6 : p-Value

La p-Value permet d’évaluer le niveau de risque du test. La méthode des rangs ayant comme propriété la « normalisation » des données, on obtient la p-value via la formule :

p-Value = 2*(1-LOI.NORMALE.STANDARD (ABS (Valeur Pratique)))

 Etape 7 : Interprétation

Sens du testRésultatConclusion statistiqueConclusion pratique
BilatéralValeur pratique ≤ Valeur critique et Valeur pratique ≥ - Valeur critiqueOn retient H0Il n'y a pas de corrélation entre les 2 échantillons
Valeur pratique ≥ Valeur critique et Valeur pratique ≤ - Valeur critiqueOn rejette H0Il y a une corrélation entre les 2 échantillons
Unilatéral droitValeur pratique ≤ Valeur critiqueOn retient H0Il n'y a pas de corrélation positive
Valeur pratique ≥ Valeur critiqueOn rejette H0Il y a une corrélation positive entre les 2 échantillons
Unilatéral gaucheValeur pratique ≥ Valeur critiqueOn retient H0Il n'y a pas de corrélation négative
Valeur pratique ≤ Valeur critiqueOn rejette H0Il y a une corrélation négative entre les 2 échantillons
RésultatConclusion statistiqueConclusion pratique
p-value > αOn retient H0On conclue que nos 2 séries de données n’ont pas de corrélation avec un risque de se tromper de p-value%
p-Value < αOn rejette H0Nos 2 séries de données ont une corrélation avec un risque de se tromper de p-value%
Share This