[Total : 0    Moyenne : 0/5]
Le Normal Probability Plot est sans doute le plus simple des tests de Normalité. Tout à chacun pourra l’utiliser pour déterminer la “normalité” de ses données.

Introduction

Le Normal Probability Plot, aussi appelé droite de Henry, est une analyse graphique pour vérifier si une série de données est répartie d’une manière « Normale ».

A partir de nos données originelles, on construit une série de données « théoriques » via la loi normale. En traçant un graphique représentant en X nos valeurs originelles et en Y nos valeurs théoriques, nous devrions obtenir une ligne droite si celles-ci sont normales.

L’intérêt de l’outil est en sa simplicité. Sans doute moins précis que les tests d’hypothèses, il a pour principal avantage d’être en pratique suffisamment efficace pour mettre en place les investigations nécessaires et conclure.

On notera simplement que cette méthode n’est efficace qu’à partir d’un nombre de points n supérieur à 101.

La méthode

1 – Calculer la valeur centrée et réduite de nos données

Dans un premier temps, on applique le principe de la loi normale centrée normale réduite à nos données.

Pour cela, on applique à chacune des valeurs la formule suivante : (X – Xbarre) / σ

Ensuite, on représente sur un graphique nuage de points avec :

  • En X : La valeur de nos données initiales
  • En Y : La valeur centrée / réduite de nos données

Si nos données suivent une loi Normale, le nuage de points doit représenter une droite.

2 – Calculer l’intervalle de confiance

On calcule ensuite l’intervalle de confiance qui n’est autre que la fonction de répartition de la loi Normale pour nos données. Cet intervalle forme 2 hyperboles, une en dessous et une au dessus de la ligne que représente nos données. Pour cela :

  1. Trier les données de la plus petite à la plus grande
  2. Pour chacune des valeurs, on calcule une valeur théorique (fréquence cumulée) selon la fonction de répartition suivante2 : F = (i – 0,375) / (n + 0,25)
  3. On calcule les quantiles successifs (valeur Z) en utilisant la loi normale centrée réduite3 (Fonction LOI.NORMALE.STANDARD.INVERSE sur Excel)
  4. Enfin, on met au carré chacune de nos valeurs obtenues et on les additionne.

Il ne reste plus qu’à calculer l’intervalle de confiance en utilisant la formule suivante :

Avec :

  • n : le nombre de point
  • σ : Écart type des données source
  • Zi : Quantile de nos données selon la fonction de répartition de la loi normale
  • z : le quantile de la loi Normale pour un risque de α / 2 pour n – 2 degré de liberté. Le plus généralement on prendra un niveau de confiance de 95%, soit une valeur de z de 1,96.

Interprétation

Si nos données suivent une loi normale, nos données doivent être en ligne droite. Droite qui est comprise entre les 2 paraboles représentant le niveau de confiance de notre étude.

L’interprétation des points se fait en lisant la distance sur X entre la droite et le point, et non la distance sur Y.
DescriptionGraphiqueInterprétationAction
Quelques points sortent de la ligne droite imaginaire. Nous sommes sans doute dans le cas de valeurs aberrantes.Investiguer s’il ne s’agit pas d’erreur de mesures.
Si oui, refaire les mesures ou les enlever de l’étude.
Il y a plusieurs données qui sont décalées sur la droite.La distribution des données est non normale et décalée sur la droite.

Peut être également qu’il s’agit d’une répartition normale tronquée.
Enlever les données trop lointaines et prendre les autres en considérant qu’elles suivent une loi normale.
Il y a plusieurs données qui sont décalées vers la gauche.Idem que le cas précédent, simplement cette fois-ci nos données sont décalées vers la gauche.
Une ou les 2 extrémités sont en dessous ou au dessus de la ligne droite imaginaire.La distribution est « normale » mais est à « queue lourde », autrement dit, nos données ont une distribution normale mais légèrement aplatie.
Il y a UN point d’inflexion par rapport à la droite imaginaire.Nous avons sans doute 2 groupes de données ayant soit la même variance, soit la même moyenne, et toutes deux suivants une loi normale.Rechercher les 2 groupes de valeurs.

Si le cas pour lequel nous sommes confrontés ne correspond pas à l’un des cas ci-dessus, alors on conclura que nos données ne suivent pas une loi normale.

Source

1 – Norme NF X 06-050 – Etude de normalité d’une distribution

2 – G. Saporta (2006) – Analyse des données et statistique

3 – R. Sneyers (1974) – Sur les tests de normalité

R. Rakotomalala (2011) – Tests de normalité

Share This