[Total : 1    Moyenne : 5/5]
Ils sont la représentation graphique la plus utilisée pour les études statistiques.

Introduction

Encore plus que les autres, les graphiques de distribution, appelé aussi histogramme (nom donné par Karl Pearson en 1895), font parties intégrante des statistiques. Historiquement, ils étaient utilisés pour représenter les populations lors des premiers recensements.

Les graphiques de distribution permettent de visualiser la répartition d’un même critère quantitatif ayant diverses valeurs. Exemple : l’âge, le poids, la longueur… Par exemple, le nombre de pièces ayant un poids compris entre 10 et 15 Kg, entre 15 et 20 Kg… C’est utile dans de très nombreux cas de contrôles qualités de pièces, de mesure de bruit…

La construction du graphique

La construction d’un diagramme de distribution répond à des règles très précises de statistiques. Sous forme d’histogramme, voici un processus pour le construire1.

1. Recueillir les données (n)

Recueillir les données selon le protocole de recueil choisi. Le nombre de données est noté n.

2. Calculer l’étendu (R)

L’étendu à prendre en compte est la différence entre les valeurs maximales et minimales tolérables par le client.

3. Identifier le nombre de classes (k)

Le nombre de classe et la formule associée dépendent du type de variable. Quelque soit le cas, deux règles doivent être suivies :

  • Le nombre de classes est arrondi à l’entier le plus proche.
  • Le nombre de classe doit de préférence être ni inférieur à 5 ni supérieur à 20.

 

A noter que pour les variables discrètes, le nombre de classe k est égal au type de valeur que la variable peut prendre.

Pour les variables continues, il existe diverses formules empiriques :

  • Formule de Sturge : k = Log2(n+1)
  • Formule de Sturge-Huntsberger : k = 1 + 3,3 * Log10(n)
  • Formule de Brooks-Carruthers : k = 5 * Log10(n)
  • Formule de Freedman Diaconis : (Max – Min) / (2 * EI(-1/3))
  • Formule de Scott : (Max – Min) / (3,5 * σ * n (-1/3))
  • Formule de Yule : k = 2,5 * 4√(n) – Approprié pour les autres types de distributions. (Attention, le calcule de 4√(n) se fait en mettant « = n1/4 » dans Excel).

A noter également, qu’une règle empirique donne le nombre de classes en fonction du nombre de valeur :

 

Nombre de points

Nombre de classes

50 à 100

6, 7, 8

100 à 150

9, 10, 11

150 à 200

12, 13, 14

+ de 200

15 et plus

 

Dans tous les cas, le nombre de classes se fait en fonction des critères suivants2 :

  • Pour une représentation visuelle destinée à des non-spécialistes, on choisit 7 à 8 classes maximum. En effet, au delà, l’œil ne permet pas de distinguer de manière suffisamment claire et rapide les données. Au delà de 8 classes, on réduit la lisibilité du graphique au détriment de l’information que l’on souhaite faire passer.
  • Pour une représentation visuelle pour des spécialistes ou pour une étude poussée, on choisira la méthode qui permet d’avoir le plus de classe possible. Ceci pour obtenir un découpage plus fin des données et une analyse plus précise.
  • Enfin, il est tout à fait possible de définir nous-même un nombre de classe “manuel” qui nous convient le mieux.

4. Identifier la largeur des classes

Appelé aussi intervalle de classe, on la calcule en faisant le rapport entre l’étendu et le nombre de classe :

l = R / k

A noter que chaque classe doit avoir la même largeur permettant pour avoir une aire comprise sous l’histogramme proportionnelle à l’effectif total.

Dans le cas où les classes ne peuvent être de la même largeur, il faut pouvoir garder cette proportion. Ainsi, en ordonnées, au lieu de porter la fréquence absolue, on indique la fréquence relative.

5. Identifier la fréquence de chacune des classes

Pour cela, 2 techniques :

  • Fréquence absolue (f) : on additionne les effectifs n appartenant à la classe
  • Fréquence relative (F) : F = f / n

La fréquence répond à ce que l’on appelle « la règle de priorité à droite ». En clair, pour chaque classe, si une mesure est à cheval sur 2 classes, elle sera comptabilisée dans la classe de droite.

6. Transformer le nombre de mesure en pourcentage

Pour assurer une bonne visualisation des proportions, l’axe des ordonnées est exprimé en pourcentage. Les fréquences doivent être exprimés en conséquence.

7. Effectuez le tracé

Interpréter un graphique de distribution

Le comportement du milieu

Le comportement du milieu consiste à analyser le positionnement du milieu au sein de l’intervalle de tolérance. Le milieu est défini selon 3 méthodes possibles.

La moyenne arithmétique

Dans le cas des graphiques de distributions, il faut pondérer la moyenne avec les effectifs par classes. Ainsi, le calcul s’effectue de la manière suivante :

  1. Calculer la médiane de chaque classe : valeur maxi de la classe moins la valeur mini de la classe divisé par deux.
  2. Multiplier la médiane de chacune des classes par l’effectif de chacune des classes.
  3. Effectuer la somme de l’étape 2 et divisé par l’effectif total n.

A noter que quelques soient la technique, si l’échantillonnage est aléatoire, les deux moyennes doivent être très proche. Dans le cas contraire, la notion d’aléatoire n’a pas été correctement suivie.

La médiane

Pour le calcul de la médiane, on recherche la classe contenant le nème/2 individu de l’échantillon. Le calcul de la médiane s’effectue de la manière suivante :

Avec :

  • Binf : borne inférieur de la classe médiane (classe étant au milieu de la zone de tolérance souhaitée)
  • n : l’effectif total de l’échantillon
  • ninf : somme des fréquences absolues des classes à gauche de la classe médiane
  • fme : fréquence absolue de la classe médiane
  • a : intervalle de la classe (valeur maximale de la classe – valeur minimale de la classe)

A noter que si la distribution des données est symétrique, la valeur de la médiane est proche voir confondu avec la moyenne arithmétique.

Exemple :

Le tableau ci-dessous nous indique que la classe médiane est celle qui va de 25 à 26, l’intervalle de tolérance étant de 22 à 28. La formule de calcul de la médiane nous donne donc :

Me = 25 + 1 * ((40/2-11)/14) = 25,64

Le mode

Le mode est par définition la valeur la plus fréquente de l’échantillon. Dans le cas des graphiques de distributions, on peut utiliser deux techniques de calculs :

  • Prendre la valeur médiane ayant la fréquence la plus importante
  • Effectuer une interpolation linaire comme suit :

Avec :

  • Binf : limite inférieur de la classe de l’effectif maximal
  • a : intervalle de la classe
  • Δi : écart d’effectif entre la classe modale et la classe inférieur la plus proche
  • Δs : écart d’effectif entre la classe modale et la classe supérieure la plus proche

De la même manière, si la distribution est symétrique, la valeur du mode est proche voir confondu avec la moyenne arithmétique.

Exemple :

Si nous reprenons l’exemple ci-dessus, cela nous donne :

  • En valeur approchée : la classe ayant la valeur maximale est la classe 25 à 26 et la médiane de cette classe est donc 25,5 (Maxi de la classe moins mini de la classe divisé par deux)
  • En valeur exacte : 25 + (1 * 6)/(3 + 6) = 25,66

Interprétation du comportement du milieu

Lors de cette analyse, on calcule le milieu selon les trois manières ci-dessus et on en déduit :

  • Le milieu est extérieur à l’intervalle de tolérance : dans ce cas, votre processus ne produit pas ou peu de bons résultats et il faut revoir rapidement soit les intervalles de tolérances soit le processus.
  • Le milieu est dans l’intervalle de tolérance mais soit vers la gauche soit vers la droite du milieu de l’intervalle de tolérance : cas moins critique que le précédent, mais nécessitant toutefois un travail de fond sur l’intervalle de tolérance et le processus en lui-même.
  • Le milieu est au milieu de l’intervalle de tolérance : dans ce cas, le processus est centré et fortement favorable à une situation engendrant de la satisfaction client.

La dispersion

L’étude de la dispersion étudie la manière dont les données sont éparpillées sur le graphique. La dispersion se mesure avec le calcul de la Variance. Dans le cas spécifique des graphiques de distributions, la formule de la Variance est la suivante :

Il existe 3 cas de dispersion :

  • Etendu < intervalle de tolérance : le processus effectue 100% de qualité. Outre une satisfaction client forte, il est peut être nécessaire de voir si nous ne produisons pas de la surqualité engendrant des surcoûts.
  • Etendu = Intervalle de tolérance : cas le plus favorable, cette dispersion engendre 100% de satisfaction client tout en respectant les contraintes de coûts. On produit au plus juste.
  • Etendu > intervalle de tolérance : cas le plus défavorable, ce processus engendre de la non-qualité et donc de l’insatisfaction client. S’il n’est pas possible de revoir avec le client les contraintes imposées, il est nécessaire de revoir le processus.

La distribution

La distribution consiste à étudier la manière dont les valeurs sont distribuées sur le graphique. En clair, la où la dispersion étudie sur la largeur du graphique, la distribution analyse la hauteur du graphique. Il existe de nombreuses formes de dispersions dont voici les principales :

  

L’étude de la distribution est sans doute l’axe clé d’une analyse statistique. Dans le cas où une distribution correspond à l’un des 6 modèles, on pourra utiliser les statistiques inférentielles.

On observe 2 distributions

Avec une même série de données, on observe 2 modes de distributions sur le graphique. Il devient alors nécessaire d’enquêter, car à priori cela est pas normal de se retrouver dans une telle situation. On peut émettre plusieurs hypothèses :

  • Les données ont été relevées sur 2 machines différentes.
  • 2 opérateurs différents ont effectué les mesures.
  • Les données ont été prise sur 2 lots différents de pièces ou provenant de 2 fournisseurs.

Source

1 – A. Schärlig, O. Blanc (2000) – Faire parler les chiffres : la statistique descriptive au service de la gestion

2 – M. Walas, A. De Fombelle, S. Schmid, P. Scotto, A. Stella-Caumel, V. Thyrault (1999) – Outils statistiques pour le management

F. Bertrand, M. Maumy-Bertrand (2014) – Initiation à la statistique avec R

H. A. Sturges (1926) – The choice of a class interval

D. Mouchiroud (2002) – Mathématiques : outils pour la biologie

J. C. Oriol (2007) – Formation à la statistique par la pratique d’enquêtes par questionnaires et la simulation.

J. Levy (2010) – Math web

Share This