[Total : 1    Moyenne : 5/5]
Les régressions permettent de valider une corrélation tout en permettant d’identifier l’équation qui relie les données et ainsi de prédire les comportements.

Introduction

Les régressions sont des outils mathématiques pour étudier le comportement des variables entre elles. Ce sont des outils utilisés pour prédire les comportements via l’analyse des corrélations des variables entre elles. Elles permettent donc de :

  • déterminer la fonction qui lie les variables
  • renseigner sur l’intensité du lien entre les variables

Les études de régressions peuvent-être utilisées pour d’autres objectifs. Par exemple, un graphique de corrélation nous indique que le taux de retard dans une réunion influx la qualité de ces réunions. Ainsi, pour mettre en place un indicateur, on préférera utiliser le taux de retard, plus facile à mesurer, que la qualité des réunions.

Les régressions ne peuvent être utilisées que lorsque la ou les données explicatives sont quantitatives (continue ou discrète) et selon le tableau suivant :

Variable expliquée

Quantitative continue ou discrète

Qualitative (attribut)

Nb de variables explicatives quantitatives (continue ou discrète)

On peut également prendre des variables qualitatives à condition de les transformer en variables dichotomiques ou en classe.

Exemple : Homme et Femme est traduit en 0 et 1

Une variable

Régression simple ou monotone

Régression logistique

Plusieurs variables

Régression multiple

Régression logistique

Historique

C’est Francis Galton (1822 – 1911 – Mathématicien cousin de Charles Darwin) qui introduisit l’expression de régression. Travaillant sur la transmission des caractères héréditaires, il remarqua que bien qu’il y ait une tendance pour les parents de taille élevée à avoir des enfants de taille élevée et vice versa, la taille moyenne des enfants avait tendance à se rapprocher de la taille moyenne de la population. En d’autres termes, la taille des enfants nés de parents inhabituellement grands ou petits se rapprochait de la taille moyenne de la population1.

La loi universelle de régression de Galton fut confirmée par son ami Karl Pearson qui collecta plus d’un millier de tailles auprès de groupes de famille2. Il découvrit que la taille moyenne des fils d’un groupe de pères de grande taille était inférieure à celle de leurs pères et que la moyenne des fils d’un groupe de petite taille était supérieure à la taille de leurs pères, « régressant » ainsi les fils de petite et de grande taille vers la taille moyenne.

1. Recueillir les données

Première étape, récolter les données. Pour une étude de régression, la ou les variables explicatives sont obligatoirement des variables quantitatives. Autrement dit, une étude de régression ne peut pas se faire avec des données de type oui/non ou blanc/bleu… Dans ce type de cas, soit il faut utiliser des tests d’hypothèses spécifiques, soit si cela est possible, transformer les données en variable quantitatives.

Prenons l’exemple d’un contrôle qualité lié à des traces sur une étiquette. Aucune trace n’est souhaitée et le contrôle est actuellement un contrôle bon/pas bon. On pourrait mettre en place un test d’hypothèses, mais il peut également être intéressant de faire une régression. Dans ce dernier cas, on traduira l’apparition de la trace par une mesure de la taille de celle-ci. Quand il n’y en a pas, la valeur est 0, et quand elle apparaît, on mesure la surface de celle-ci et devient ainsi une variable quantitative.

Par ailleurs, comme systématiquement dans une étude statistique, le recueil des données doit se faire en respectant les règles de base. En particulier, le cas échéant, supprimer les valeurs aberrantes.

Il faut également s’assurer de recueillir le même nombre de données pour chacune des deux variables.

Enfin, il faut valider que les valeurs sont indépendantes. Pour cela nous avons soit la logique… soit le test de Durbin Watson.

2. Identifier le type de régression

Selon le schéma présenté en introduction, on sélectionne le type de régression à mettre en place en fonction du type de données.

3. Caractériser la relation

Lors de cette étape, on représente graphiquement les données pour caractériser à priori la relation et choisir un modèle. Que ce soit une régression simple ou multiple, ces graphiques représentent toujours la valeur à expliquer par rapport à une seule des autres valeurs. On élabore alors autant de graphique qu’il y a de valeurs explicatives.

Les résidus étant la différence entre notre modèle de prédiction et nos données, la “meilleure” régression sera obtenue lorsque la somme carrés des résidus sera la plus petite possible.

Nous allons retrouver 3 types de relations:

Type de liaisonDescriptionGraphique
Liaison linéaireCas le plus simple, les deux variables présentent une corrélation qui peut être montante ou descendante.
Liaison monotoneCas plus complexe, la liaison n’est pas linéaire mais est soit strictement positive ou strictement négative.
Liaison non monotoneOn retrouve une « rupture » dans la liaison mais nous pouvons mathématiquement la représenter.

4. Quantifier l’intensité de la corrélation

On quantifie l’intensité de la corrélation. Pour cela, il existe trois différents coefficients que nous décrivons ci-dessous et qui sont à utiliser en fonction du tableau ci-dessous.

Le coefficient de Bravais-Pearson – r

Le coefficient de Bravais-Pearson mesure la co-variation des deux variables. Il calcule le ratio entre combien de variation les deux mesures ont en commun divisée par la quantité de variation qu’elles pourraient avoir au plus. Il s’exprime selon la formule suivante (Fonction Pearson sous Excel) :

Attention, ce coefficient est valable si nous avons plus de 30 données. Si nous en avons moins, on utilisera le Coefficient de Pearson ajusté qui se calcule de la manière suivante :

Si on élève la valeur de r au carré (r2), on la nomme alors coefficient de détermination. Cela nous donne la quantité de variance en commun entre les deux échantillons. Exprimé en pourcentage, au plus celui-ci sera proche de 100%, au plus, notre modèle de régression explique nos données.

Toutefois, ce coefficient est sensible aux valeurs aberrantes. Il se pourrait que le coefficient de Pearson soit faible uniquement parce que une ou plusieurs valeurs ne rentrent pas dans le modèle qui pour autant est bon. Pour vérifier, on calcule le coefficient de Spearman ou de Kendall. Moins sensible à ce type de valeurs, ils permettent de dire s’il y a bien une relation malgré que le coefficient de Pearson soit faible.

Autocorrélation

Dans le cas particulier où nous avons une série chronologique d’une même donnée, on pourra calculer via le coefficient de Bravais Pearson ce que l’on appelle dans ce cas l’Autocorrélation.

Celui-ci nous permet donc de savoir si dans le temps, notre donnée suit une même tendance ou non.

Le coefficient de Spearman – ρ

Fondamentalement, le coefficient de Spearman est un cas particulier du coefficient de Pearson. Il se base sur le calcul de la différence des rangs. C’est donc un test non paramétrique.

Le tau de Kendall – τ

Le Tau de Kendall est également un test non paramétrique. Il se base sur la différence des rangs des variables.

Interprétation

Dans les 3 cas, les valeurs des coefficients oscillent entre -1 et 1 et s’interprètent selon le schéma suivant :

5. Valider la significativité de l’étude

Il est nécessaire de valider si les résultats obtenus ont un sens ou non. Le détail des tests étant mis dans les différents articles relatifs aux régressions linéaires, multiples…, nous ne mettons ci-dessous que la liste :

  • Un test sur le r2 du modèle
  • Un test sur la pente du modèle
  • Le calcul d’intervalle de confiance de la pente du modèle
  • Le calcul de la p-Value
  • Le calcul de coefficient de corrélation partielle pour identifier si d’autres facteurs sont à inclure dans le modèle

Source

1 – F. Galton (1886) – Family likeness in stature

2 – K. Pearson (1903) – On the laws of inheritance

K. Pearson (1896) – Mathematical contributions to the theory of evolution

C. E. Spearman (1904) – The proof and measurement of association between two things

R. Rakotomalala (2012) – Analyse de corrélation

N. Gujarati, (2003) – Basics econometrics

Share This