[Total : 1    Moyenne : 5/5]
L’analyse de la variance permet d’étudier la moyenne de K échantillons.

Introduction

L’Anova (Analyse de la Variance, ou Anavar en anglais) permet d’analyser les différences entre plusieurs échantillons dont la réponse est quantitative (une vitesse, une pression…).

Ces applications sont très nombreuses. Il répond à la question : « Est-ce que au moins un groupe de valeurs est différent des autres ? ». On peut avec ce test :

  • Comparer des moyennes de populations différentes : par exemple, on souhaite comparer le nombre de défaut généré sur plusieurs lots pour savoir si les actions mises en œuvre ont porté leurs fruits.
  • Analyser l’effet d’une variable qualitative sur une variable continue : par exemple, on souhaite savoir si en changeant une pièce, la performance de la machine est meilleure. On aura 2 groupes de mesure quantitative (le nombre de pièces bonnes par heure par exemple) que l’on compare.

Pourquoi appeler une analyse de la variance un test qui consiste à comparer des moyennes ?

 Parce que l’ensemble des calculs de variances repose sur les moyennes.

Le principe

L’ANOVA repose sur la comparaison de la moyenne d’une multitude de groupes avec la moyenne générale. On calcule :

  • Variance intergroupe appelée Variance expliquée : différence entre la moyenne de chaque groupe et la moyenne générale.
  • Variance intragroupe appelée Variance résiduelle : différence entre la valeur de chaque individu et la moyenne du groupe.
  • Variance Totale : Différence entre la valeur de chaque individu et la moyenne générale.

L’ANOVA se présente sous forme de tableau synthétisant l’ensemble des résultats des calculs.

Source de variance∑carrésDDLCarré moyenFp-value
Intergroupe - Variance expliquéeSCEK* - 1CMECMECMRp-value
Intragroupe - Variance résiduelleSCRn - K*CMR
TotaleSCTn - K

*K étant le nombre d’échantillons différents à comparer. 

Etape 1 : Les hypothèses

L’Anova est une généralisation de la comparaison des moyennes de plusieurs populations. On ne fait donc qu’un test bilatéral. Les hypothèses nulles et alternatives sont :

H : μ1 = μ2 = … = μk

H1 : au moins 2 moyennes sont différentes

Etape 2 : Calculer la Somme des Carrés des Ecarts – SCE

On commence par calculer la somme carrée des écarts. Cela consiste à calculer l’écart des valeurs par rapport à la moyenne de l’ensemble des groupes. On cherche à savoir si la moyenne des différents groupes est éloignée de la moyenne générale. Ainsi si cette valeur est grande, la variabilité entre les moyennes est importante et nous emmène à rejeter l’hypothèse nulle. Autrement dit, les échantillons sont différents.

La formule de calcul pour chacun des échantillons est la suivante :

Avec :

  • μgroupe : moyenne de chacun des groupes
  • μgénérale : moyenne de l’ensemble des groupes
  • nk : Taille de chacun des échantillon

Etape 3 : Calculer la Somme des Carrés des Résidus – SCR

La somme des carrés des résidus représente les écarts des valeurs dans leur propre groupe. On cherche à savoir si les valeurs de chacun des groupes sont agglutinées autour de la moyenne ou s’il y a beaucoup de variabilité. On suppose que s’il y a beaucoup de variabilité entre les valeurs d’un même groupe, alors la différence entre les groupes n’est pas claire. A contrario, si nous avons peu de variabilité entre les valeurs d’un même groupe (SCR faible) et que nous avons beaucoup d’écarts entre les groupes (SCE fort), alors on pourra rejeter l’hypothèse nulle avec un fort degré de confiance.

Au contraire de la SCE, la SCR est unique quelque soit le nombre d’échantillon. La formule de calcul est la suivante :

Avec :

  • Xi : Les valeurs d’un même groupe
  • μgroupe : la moyenne du groupe en questions

Etape 4 : Déduire la Somme des Carrés Totale – SCT

La SCT représente l’addition des SCE et SCR. C’est la variabilité totale de nos échantillons :

Avec :

  • Xi : les X valeurs de l’ensemble des échantillons
  • μgénérale : moyenne de l’ensemble des groupes

Etape 5 : Le nombre de degrés de liberté

Le nombre de degré de liberté est représentatif du niveau de connaissance que nous pouvons tirer de notre test. Dans notre cas, nous avons 3 sources de connaissance :

  • Nb de ddl pour chacun des SCE : ddlSCE = K – 1
  • Nb de ddl pour le SCR : ddlSCR = n – K
  • Nb de ddl pour  le SCT : ddlSCT = n – 1

 

Avec pour rappel :

  • K : le nombre d’échantillons
  • n : le nombre d’individus au total

Etape 6 : Calculer les carrés moyens

Les carrés moyens représentent le “poids” que l’on donne aux différentes valeurs de SCE et SCR. Ils se calculent en faisant le rapport avec les ddl. On retrouve :

  • CME : SCE / ddlSCE
  • CMR : SCR / ddlSCR

Etape 7 : Valeur pratique

La statistique de test représente le rapport entre la variabilité expliquée et la variabilité résiduelle corrigée des degrés de liberté. Plus ce rapport est grand est plus l’écart de variabilité entre les groupes est prononcé. On la calcule avec la formule suivante :

Il y a autant de valeur pratique qu’il y a de groupes d’échantillons.

Etape 8 : Valeur critique

La valeur pratique suit une loi de Fisher pour ddlSCE et ddlSCR. L’utilisation de la loi de Fisher dans le cas où nous souhaitons tester une différence, est un test unilatéral à droite. On choisi la valeur α souhaitée, généralement 5%, puis on la détermine soit via les tables spécifiques soit sous Excel avec la fonction INVERSE.LOI.F.N (1 – α ; ddlSCE ; ddlSCR ).

Etape 9 : Calculer la p-Value

Pour valider la significativité du test, on calcule la p-Value via la formule Excel LOI.F.( Valeur pratique ; ddlSCE ; ddlSCR).

Etape 10 : Interprétation

Sens du testRésultatConclusion statistiqueConclusion pratique
BilatéralValeur pratique ≥ Valeur critiqueOn rejette H0Les échantillons ont des moyennes qui diffèrent au niveau de risque α donné.
Valeur pratique < Valeur critiqueOn retient H0Les échantillons ont des moyennes qui ne diffèrent pas au niveau de risque α donné.
RésultatConclusion statistiqueConclusion pratique
p-value > αOn retient H0Nos séries de données sont identiques ou proches avec un risque de se tromper de p-value%
p-Value < αOn rejette H0Nos séries de données sont statistiquement différentes avec un risque de se tromper de p-value%

Etape 11 : Signification de la différence

Un dernier indicateur indique le niveau de différence qu’il y a entre les différents échantillons. Celui-ci se calcule de la manière suivante :

Selon la grille de Keppel (1991) :

  • 0,01 < ω2 < 0,06 : la différence est faible
  • 0,06 < ω2 < 0,15 : la différence est modérée
  • 0,15 > ω2 : la différence est élevée

Source

J. Bouyer (2000) – Méthodes statistiques

F. Bertrand, M. Maumy (2012) – Eléments d’analyse de la variance

S. Morgenthaler (2007) – Introduction à la statistique

L. Chanquoy () – Statistiques appliquées à la psychologie

M. Lacour (2004) – Nouvelles méthodes de traitement du signal posturographique

Share This