[Total : 1    Moyenne : 5/5]
Le Kappa Test est le pendant du Gage R&R pour les données qualitatives. Très utile pour le contrôle qualité, il permet d’aider à sa fiabilisation.

Introduction

Le Kappa Test est l’équivalent du Gage R&R pour des données qualitatives. C’est un test paramétrique, appelé aussi test de Cohen1, qui qualifie la capabilité de notre système de mesure entre différents opérateurs. Il permet d’évaluer la concordance entre deux ou plusieurs observateurs (variance inter), ou entre les observations faites par une même personne (variance intra). Autrement dit, il répond à la question :

Est ce que l’on sait classer les pièces dans les mêmes catégories avec fiabilité ?

C’est le cas par exemple si l’on souhaite comparer les diagnostics des différents médecins. C’est aussi le cas par exemple lorsque des contrôleurs qualités doivent qualifier la pièces en « bon / pas bon ».

Ce concept est né dans le domaine des sciences humaines. En psychologie ou en psychiatrie, il est difficile de mesurer par exemple l’état de dépression d’un patient. On utilise une échelle qualitative ordinale de type « peu déprimé », ou « fortement déprimé ».

1 – Calcul du Kappa

 

Le calcul repose sur le rapport entre la proportion d’accord réel et la proportion observée si les observateurs affectaient les catégories au hasard. La formule généralisée2 se base sur une analyse de la variance des réponses entre les différents observateurs (le nombre d’observation doit être le même pour chaque observateur) :

Avec :

  • n : le nombre d’échantillon étudié
  • m : le nombre de « juges »
  • xic : le nombre de jugements pour l’observation i dans la catégorie c
  • fc : la proportion d’échantillons affectés à la catégorie c

2 – Significativité du résultat

On met en place un test de significativité où l’on teste l’hypothèse nulle où le coefficient Kappa = 0 contre l’hypothèse alternative où le Kappa est différent de 0.

2.1 Calcul de la variable de test

Sous l’hypothèse d’affectation aléatoire des échantillons dans les différentes catégories, la valeur pratique s’écrit :

Avec :

  • n : le nombre d’échantillons étudiés
  • m : le nombre de « juges »
  • xic : le nombre de jugements pour l’observation i dans la catégorie c
  • f : la proportion d’échantillons affectés à la catégorie
  • pe : proportion totale d’accord pour l’ensemble des catégories = Σfc2

2.2 Calcul de la p-Value

La p-Value suit une loi normale et se calcule de la manière suivante :

p-Value = 2 * (1 – LOI.NORMALE.STANDARD (ABS (variable de test))

Son interprétation est standard à tous les autres tests d’hypothèses et se lit de la manière suivante :

  • Si la p-Value est < α : le résultat est très significatif, les résultats ne sont pas dû au hasard
  • Si la p-Value est > α : le résultat est peu significatif, les résultats sont sans doute dû au hasard

3 – Interprétation du Kappa

Une fois que l’on a pu valider le fait que notre test est significatif, on lit et interpréte le résultat du Kappa : au plus nous sommes proches de 1, au plus l’accord entre les différents juges est bon. Nous retiendrons la table suivante3 :

  • 0, 8 à 1 : accord presque parfait
  • 0,6 à 0,8 : Accord fort
  • 0,4 à 0,6 : Accord modéré
  • 0,2 à 0,4 : Accord faible
  • 0 à 0,2 : Accord très faible
  • de 0 : Désaccord

En pratique

Le Kappa test est très souvent utilisé pour mettre en place des défauthèques. Au regard des critères de la défauthèque, on calcule le Kappa et quantifie la fiabilité de celle-ci. Le principe est le suivant :

  1. On met en place une première défauthèque
  2. On forme le personnel en charge de l’autocontrôle et/ou le personnel qualité
  3. On effectue un premier test Kappa
  4. On interprète le coefficient et sa significativité
  5. Si la significativité est bonne mais le Kappa faible, on retravaille sur la formation du personnel ou sur la qualité des critères de jugement de la défauthèque.
  6. Réitérer le test jusqu’à obtenir une bonne significativité et une bonne valeur de Kappa.

Source

1 – J. Cohen (1960) – A coefficient of agreement for nominal scales

2 – J. L. Fleiss (1981) – Statistical methods for rates and proportions

3 – J. R. Landis, G. G. Koch (1977) – The measurement of observer for categorical data

J. Fermanian (1984) – Mesure de l’accord entre deux juges

E. Rakotomalala (2011) – Etude des dépendances

Share This