[Total : 2    Moyenne : 3.5/5]

Il existe tout un ensemble de données à étudier et toutes ne s’étudient pas avec les mêmes outils. Comprendre les différents types de données permet de choisir le bon outil.

Introduction

Il existe tout un ensemble de données à étudier et toutes ne s’étudient pas avec les mêmes outils. Comprendre les différents types de données permet de :

  • Identifier le type de test de données pour l’analyse.
  • Identifier le niveau de complexité et de performance des outils mathématiques à appliquer.

Les données qualitatives (Attribut)

Les données qualitatives (appelées plus communément attribut) contiennent des valeurs qui expriment une qualité, un état, dont nous ne pouvons pas calculer de moyenne, de limite… Elles ne répondent pas à la question “combien” mais “est-ce que“. Leurs valeurs sont définies au préalable et peuvent être :

  • Une marque : Ford, Peugeot…
  • Une couleur : Bleu, noir…
  • Un jugement : Bon / pas bon, petit / grand…

Les opérations arithmétiques que l’on peut réaliser sur ce type de variable sont relativement réduites et se limitent au comptage des effectifs par mode et au calcul des fréquences relatives.

Que faire avec des données qualitatives ?

Statistiquement parlant, des données qualitatives sont plus complexes à traiter que les autres.

La méthode la plus efficace est de pouvoir transformer une variable qualitative en variable quantitative.

Exemple :

  • Si la variable que nous voulons étudier est une couleur, alors on pourra transformer l’aspect qualitatif “bleu, rouge, vert” en aspect quantitatif via la longueur d’onde la couleur.
  • Si nous sommes dans le cas de l’apparition du défaut, on pourra transformer le “Bon / Pas bon”, en dimension du défaut.

Les données et variables qualitatives se présente sous deux formes.

Variable nominale

Une variable est dite qualitative nominale quand ses valeurs sont des éléments d’une catégorie non hiérarchique. En d’autres termes, ses éléments ne peuvent pas se ranger dans une gradation logique, selon une hiérarchie naturelle. La donnée qualitative nominale ne peut donc être appréhendée qu’à travers des modalités entre lesquelles il n’existe aucune relation d’ordre.

Exemple : la couleur

C’est une variable de type qualitative nominale, les valeurs pouvant être prises par celle-ci étant bien de type nom (vert, jaune, noir, rouge, …) sans qu’aucune hiérarchie ne soit applicable entre les modes recensées (on peut en aucun cas écrire jaune > rouge ou vert = noir).

Variable ordinale

Une variable qualitative ordinale possède toutes les propriétés de la variable qualitative nominale avec en plus la possibilité de positionner et de hiérarchiser les individus entre eux selon la valeur attachée à leur caractère. En d’autres termes, il sera possible de ranger dans une gradation logique, selon une hiérarchie naturelle, les individus de la population étudiée pour le caractère retenu. Les opérations autorisées pour l’échelle qualitative ordinale sont, en plus du comptage par mode (fréquences absolues et fréquences relatives et mode), la médiane.

Exemple : Le confort

La variable « niveau de confort d’un logement » est de type qualitative ordinale, les valeurs pouvant être prises étant de type nom(médiocre, moyen, bon, très bon) et une hiérarchie existe entre les modalités définies sans pour autant que l’on puisse mesurer de façon infaillible le niveau de confort : il n’existe pas de « conforomètre » ni d’unité de mesure du paramètre « confort » au demeurant très subjectif. Le caractère ordinal de la variable permet cependant d’écrire bon > médiocre ou moyen < très bon.

Les données quantitatives

Les données ou variables quantitatives contiennent des valeurs numériques faisant référence à une unité de mesure reconnue. Pour cette raison, elles sont quelques fois qualifiées de variables métriques. La taille, le poids, la surface, la distance, le revenu, l’âge, le chiffre d’affaire ou bien encore la population (dans le sens du nombre d’habitants) sont des variables quantitatives.

Toutes les opérations arithmétiques simples et complexes sont applicables aux variables quantitatives, du dénombrement (fréquences absolues) et autre calcul de pourcentage (fréquences relatives) en passant par la moyenne, la médiane et l’écart-type jusqu’à la modélisation numérique.

Exemple : Le loyer d’un logement

Au-delà de la qualification d’un loyer (bon marché, correct, cher ou très cher) qui en fait alors une variable qualitative ordinale, le loyer demeure une variable mesurable objectivement selon une unité de mesure reconnue : le prix exprimé en euros par mois ou en euros par mois et par m2. On peut l’additionner, en calculer la moyenne et l’écart-type, en regrouper les valeurs pour former des classes et même le modéliser.

Plus complexe et surtout pouvant être traité avec un nombre conséquent d’outils mathématiques, ces données peuvent être classifiées en 2 sous groupes.

Variable intervalle

Cette forme concerne les données se référant à des unités de mesure constantes mais dont le point zéro est fixé arbitrairement ne correspondant en rien à l’absence de phénomène.

Exemple : La température

L’unité de mesure de la température est constante une fois le système de référence défini (Celsius ou Fahrenheit) et le zéro est totalement arbitraire. Dans le cas du système Celsius °C le zéro correspond à la température de congélation de l’eau alors que dans le cas du système Fahrenheit °F, le zéro équivaut à la température de solidification d’un mélange à part égal d’eau et de chlorure d’ammonium (Fahrenheit , 1724). Profitant du caractère quantitatif de la variable température, une relation peut cependant être établie entre les deux systèmes comme suit : °F = 1,8 °C +32 et inversement °C = (°F – 32) / 1,8. 0°C tout comme 0°F ne correspondent pas à une absence de température. Même en considérant le zéro absolu (0 °K = – 273,15 °C) , température la plus basse que l’on puisse observer dans l’univers et à laquelle tout mouvement moléculaire et atomique est stoppé compte tenu d’un état énergétique minimal, la température demeure une variable appartenant à l’échelle d’intervalle.

L’échelle d’intervalles, en plus des opérations arithmétiques classiques, autorise la plupart des calculs statistiques : moyenne arithmétique, écart-type, coefficient de corrélation, variance, covariance, etc. Par contre, elle ne permet pas le calcul de la moyenne géométrique ou du coefficient de variation.

En dehors de la température, quantité d’autres variables se réfèrent à l’échelle d’intervalles. Parmi celle-ci, on peut citer l’échelle de Richter de mesure d’intensité des tremblements de terre, la mesure du temps via notre calendrier grégorien.

Variable ratio

A la différence de l’échelle d’intervalle, l’échelle ratio se caractérise par des proportions égales entre les valeurs mesurées de telle sorte qu’il existe entre ces valeurs une relation mathématique directe et constante. L’échelle ratio possède en outre un zéro unique et universel. Toutes les variables faisant référence au Système International d’Unité (SI – norme ISO 1000) appartiennent à l’échelle de mesure dite ratio : c’est le cas des longueurs, des surfaces, des poids et des comptages d’effectifs ainsi que la mesure du temps via le SI, et toutes les variables résultantes de la combinaison d’au moins deux des unités du SI telle que la vitesse, la densité de population… Le zéro y est universel et signifie absence de mesure ou mesure nulle, et chaque valeur non nulle mesurée est nécessairement le multiple de n’importe quelle autre valeur mesurée.

Exemple : Le poids

On pourra dire qu’une personne pesant 90 kg est deux fois plus lourde qu’une personne de 45 kg ou bien encore qu’un loyer de 337,50 €/mois est 1,5 fois (ou 50 %) plus élevé qu’un loyer de 225 €/mois.

L’échelle de ratio possède toutes les propriétés et tous les niveaux d’informations des autres échelles plus l’immense avantage de se prêter à absolument toutes les opérations arithmétiques et statistiques pouvant exister.

Variable discrète

Une variable est dite discrète quand elle prend un nombre fini ou dénombrable de valeurs. En d’autres termes, le passage d’une modalité à une autre est « brutal », sans continuité, sans glissement progressif.

Exemple : Le nombre d’habitants

Le nombre d’habitants d’un pays ou d’une ville est une variable quantitative discrète ratio. La nature discrète de la variable se justifie par le caractère indivisible de l’élément de base, à savoir l’habitant : ainsi, l’ensemble des valeur que peut prendre la variable « nombre d’habitants » appartient bien à l’ensemble des entiers N. Il n’est donc pas possible d’écrire qu’une ville compte 12283,18 habitants.

Variable continue

Une variable continue peut, à l’inverse de la variable discrète, prendre un nombre infini ou non dénombrable de valeurs. Il n’y a, de ce fait, plus de modalité ou plutôt une infinité de modalités car entre deux valeurs données toutes les nuances de transitions sont possibles.

Exemple : La température

La variable « température » est une variable quantitative d’intervalle continue. Celle-ci peut en effet prendre une infinité de valeurs quelles que soient les limites retenues. Par exemple, entre 10 et 12 °C, la variable peut prendre n’importe laquelle des innombrables valeurs existantes et mesurables : 10,007 °C, 11,11 °C ou bien encore 11,9999 °C si tant que l’on soit capable d’atteindre cette précision dans la mesure.

Source

C. Muller (1973) – Initiation aux méthodes de la statistique linguistique

R. Veysseyre (2006) – Statistique et probabilité pour l’ingénieur

Norme CD4 3534-1

Norme ISO/DIS3534-2

Share This