[Total : 1    Moyenne : 5/5]
Outils statistiques de base, ils permettent de décrire une population de manière brute et d’avoir des indications sur le comportement de la variable étudiée.

Introduction

La démarche de la statistique descriptive consiste à décrire de manière brute une population ou un échantillon d’une population. L’enjeu est d’obtenir une représentation mathématique et graphique de ces données.

La statistique descriptive se décompose en 4 grandes familles d’outils que nous décrivons ci-dessous.

Les paramètres du milieu

Ils qualifient le milieu de la population en calculant différentes caractéristiques de position. A noter que les formules ci-dessous sont valables pour des données non-groupées. Dans le cas des données groupées voir l’article sur les graphiques de distributions. Nous retrouvons :

La moyenne : xbarre

La moyenne est le critère d’étude le plus connu et le plus simple. Il s’agit de la somme total de toutes les valeurs de la population divisée par le nombre de valeur.

En général, la moyenne est le meilleur indicateur du comportement du milieu, néanmoins elle est fortement influencée par les valeurs extrêmes et représente mal une population hétérogène.

A noter, qu’on parle également d’Espérance mathématique. L’espérance est utilisé lorsque nos points ont des “poids” qu’il faut appliquer pour calculer la moyenne.

La médiane

La médiane est le milieu numérique, c’est à dire la valeur pour laquelle la fréquence cumulée est égale à 50%. A noter que ce calcul ne s’applique pas aux variables nominales car le calcul de la médiane nécessite un ordre linéaire des données. Elle se calcule en mettant dans l’ordre tous les chiffres et en prenant le chiffre au milieu, c’est à dire, celui qui a autant de valeurs en dessous qu’en dessus1.

Dans la série 5, 3, 6, 4, 7, 5, 9, 6, 4, 3, 2, 6, la médiane est 5 (2, 3, 3, 4, 4, 5, 5, 6, 6, 6, 7, 9).

Plusieurs cas peuvent se présenter :

  • n est impair : la médiane est la valeur du milieu.
  • n est pair : la médiane est la moyenne entre les 2 valeurs du milieu.

La pertinence du calcul de la médiane est mis en évidence lorsqu’il y a des valeurs exceptionnelles (très haute ou très basse). Impactant fortement le calcul de la moyenne, ces valeurs (appelés Outliers) n’impacte pas la médiane. Elle se prête néanmoins mal aux calculs statistiques car ne représente que la valeur qui sépare l’échantillon en 2 parties égales.

Le mode

Le mode est la valeur la plus fréquente de la suite de chiffres. Dans notre exemple précédent, 5, 3, 6, 4, 7, 5, 9, 6, 4, 3, 2, 6, le mode est 6. Dans le cas où il y a 2 pics, nous appelons la série comme étant bimodale.

Bon indicateur d’une population hétérogène, il est peu influencé par les valeurs extrêmes mais se prête mal aux calculs statistiques car ne représente que les valeurs qui se rapprochent de la classe modale.

Effectif et fréquence

L’effectif d’une valeur donnée d’une variable est le nombre d’individus pour lesquelles la variable considérée prend la valeur en question. L’effectif total est la somme de tous les effectifs d’une variable.

La fréquence d’une valeur donnée est le rapport de l’effectif correspondant à l’effectif total. La fréquence totale est toujours égale à 1.

Les paramètres de dispersion

Ils mesurent la dispersion des données sur l’ensemble de l’étendu de celle-ci.

L’étendue : R

L’étendue représente la valeur la plus grande moins la valeur la plus petite. L’étendue est très sensible aux Outliers.

Quantiles

Pour décrire des séries statistiques, le concept de médiane est adapté non plus pour séparer les mesures en 2 sous-ensembles, mais en k sous-ensembles. Ces sous-ensembles appelés Quantiles peuvent être :

  • Si k = 4 : On parle de quartile. On retrouve 3 valeurs de séparations des sous-groupes (Q1, Q2 et Q3), dont : 25% des valeurs sont inférieures à Q1, 25% sont supérieures à Q3, Q2 est la médiane.
  • Si k = 10 : on parle de décile. De la même manière, 10% des valeurs sont inférieures à Q1, 10% sont supérieures à Q9…

La Variance : S

La variance est la mesure de la distance des points par rapport à la moyenne. La variance représente le niveau de dispersion des valeurs. De part sa définition, la variance est toujours un nombre positif. Sa dimension est le carré de celle de la variable. Il est toutefois difficile d’utiliser la variance comme mesure de dispersion car le recours au carré conduit à un changement d’unités. Elle n’a donc pas de sens biologique direct contrairement à l’écart-type qui s’exprime dans les mêmes unités que la moyenne.

La Variance d’un échantillon, s, se calcule via la formule suivante (Fonction VAR sous Excel) :

s = Σ (Xi – Xbarre)2 / (n – 1)

Avec :

  • Xi : les individus
  • Xbarre : la moyenne des individus
  • n : le nombre d’individu de l’échantillon

La Variance d’une population, S, se calcule via la formule suivante (Fonction VARP sous Excel) :

S = Σ (Xi – Xbarre)2 / n

Avec :

  • Xi : les individus
  • Xbarre : la moyenne des individus
  • n : le nombre d’individu de la population

On peut estimer de manière ponctuelle (très utile pour effectuer les tests d’hypothèses) la Variance de la population à partir de la Variance de l’échantillon (échantillon de taille n) via la formule suivante :

Ŝ = s * n / (n – 1)

La CoVariance

C’est un nombre permettant d’évaluer le sens de variation de deux séries de données et, ainsi, de qualifier la dépendance de ces variables. Elle s’interprète de la manière suivante :

  • Covariance > 0 : chaque couple de valeurs diffèrent de leur moyenne dans le même sens.
  • Covariance < 0 : chaque couple de valeurs diffèrent de leur moyenne dans le sens opposé.
  • Covariance = 0 : les deux variables aléatoires sont indépendantes. Mais, dans le cas d’une corrélation non linéaire, la covariance sera nulle également… donc attention aux conclusions attives.

La CoVariance d’un échantillon se calcule selon la formule suivante (Fonction covariance.s dans Excel) :

La CoVariance d’une population se calcule selon la formule suivante (Fonction covariance.p dans Excel) : 

L’écart type : σ appelé Sigma

L’écart type est la racine carrée de la variance. C’est l’indicateur le plus utilisé car le plus représentatif de la dispersion des valeurs de la population. Autrement dit, comme la variance, plus la valeur de l’écart type est importante plus les valeurs de la population sont dispersées, donc la population est dite « hétérogène ».

L’écart type est une valeur clé dans les statistiques et dans le 6 Sigma. En effet, « Six Sigma » signifie « six fois l’écart type ». Le principe de la méthode Six Sigma consiste à faire en sorte que tous les éléments issus du processus étudié, soient compris dans un intervalle s’éloignant au maximum de 6 sigma par rapport à la moyenne de la population issus de ce processus. En réduisant la variabilité des valeurs, on réduit le risque de voir le produit ou service rejeté par son destinataire car en dehors de ses attentes ou spécifications.

Au même titre que pour la Variance, le calcul de l’écart type dépend si nous avons l’ensemble de la population ou seulement un échantillon. Ainsi, sous Excel :

  • Pour un échantillon : fonction ECARTYPE
  • Pour une population : fonction ECARTYPEP

On peut également estimer l’écart type à partir de son étendu en utilisant la relation établie à partir de la loi de l’étendue réduite. Pour cela, nous avons σ = d*R où d est identifié dans selon la table suivante.
Taille de l'échantillonFacteur de conversion dTaille de l'échantillonFacteur de conversion dTaille de l'échantillonFacteur de conversion dTaille de l'échantillonFacteur de conversion d
20,88770,370120,307300,245
30,59180,351130,300500,222
40,48690,337140,294600,216
50,430100,325150,288800,206
60,395110,315200,2641000,199

Source : E. S. Pearson, H. O. Hartley (1970) – Biometrika tables for statisticians

Erreur standard de la moyenne

L’écart type permet de calculer la distance des données autour de la moyenne d’un même échantillon. Maintenant, imaginons que nous effectuons plusieurs fois les mesures de ce même échantillon ou que vous mesuriez la moyenne de plusieurs échantillons. L’erreur standard de la moyenne permet de mesurer la variance entre ces différents groupes. La formule est la suivante :

Erreur Standard d’une moyenne = σ / √n

Avec :

  • σ : l’écart type.
  • n : le nombre d’individu.

En définitive, cet indicateur donne le niveau de précision du calcul de la moyenne. Plus le nombre de données recueillis est grand et plus l’erreur standard est faible. Montrant bien que plus le recueil de données est exhaustif et plus le calcul de la moyenne est précis.

Erreur standard d’un pourcentage

Il représente le degré de précision du calcul d’un pourcentage. La formule est la suivante :

Erreur standard d’un pourcentage = √((p * q)/ n)

Avec :

  • n : le nombre d’individu.
  • p : fréquence observé (exemple : 5% des pièces sont non conformes).
  • q : la réciproque de p soit 1 – p (pour suivre notre exemple, q = 95%).

Erreur standard d’un écart-type

Il représente le degré de précision du calcul de l’écart-type. La formule est la suivante :

Erreur standard d’un écart-type = σ / √(2 * n)

Avec :

  • n : le nombre d’individu.
  • σ : Ecart-type de l’échantillon.

Le coefficient de variation

La variance et l’écart-type sont des paramètres de dispersion absolue qui mesurent la variation absolue des données indépendamment de l’ordre de grandeur des données.

Le Coefficient de Variation noté C.V. est un indice de dispersion relatif prenant en compte ce biais et est égal à :

C.V. = 100 * σ / xbarre

Généralement, un coefficient de variation inférieur à 15% démontre d’une bonne homogénéité de la distribution des mesures2.

Les graphiques de distribution

Ils permettent de visualiser la dispersion de la population sur l’étendu totale et de comprendre le comportement du milieu.

A partir de ces graphiques, on identifie la loi de distribution auquel elle répond et ainsi utiliser les outils statistiques associés.

Les graphiques d’évolution des données

En représentant des données dans le temps, ils permettent d’identifier les tendances et évolutions. Nous retrouvons les graphiques de tendances et les cartes de contrôles. Ces dernières s’utilisent dans le cas où nous avons des valeurs limites (des tolérances dimensionnelles de pièces par exemple) auxquels nous voulons confronter les données relevées.

Source

1 – R. Veysseyre (2006) – Statistique et probabilité pour l’ingénieur

2 – D. Broclain, J. Doubovetzky (2000) – Savoir lire un article médical pour décider

N. Boudaoud (2002) – Rappels statistiques

A. Baccini (2010) – Statistique descriptive élémentaire

M. Loiseau (2010) – Initiation aux statistiques descriptives

D. Mouchiroud (2002) – Statistique descriptive

J. Levy (2010) – Math web

Norme CD4 3534-1 : 2003

Norme ISO/DIS 3534-2

Share This