[Total : 1    Moyenne : 2/5]

Un phénomène a rarement une seule cause racine. Souvent nous sommes confrontés à une multitude de paramètres ayant une influence plus ou moins forte sur le résultat. C’est tout l’enjeu des régressions multiples.

Introduction

On l’a vu, une régression linéaire simple consiste à prédire la réaction d’une variable par rapport à une autre via une fonction Y = f(X). Toutefois, un phénomène a rarement une seule cause. Par exemple, qu’est-ce qui explique un problème de vissage de bouchon sur une bouteille ? La qualité du bouchon, la vitesse de rotation, la qualité de la bouteille, le coefficient de frottement bouchon/bouteille…

La régression multiple permet de rechercher une relation de cause à effet entre plus de deux variables.

Mais pas seulement. Une régression multiple est utilisée aussi dans le cas où nous avons une corrélation polynomiale (appelé également quadratique dans le cas d’un polynôme d’ordre 2 : Y = a  + a1 X + a2 X2) entre 2 variables. Autrement dit, nous avons relation complexe qui peut avoir de nombreuses formes qui soit non monotones (Parabolique, Cubique…).

Le principe

La forme générale du modèle est :

  • Pour une régression avec plusieurs variables différentes : Y = a  + a1 X1 + a2 X2 + …
  • Pour une régression polynomiale entre 2 variables : Y = a  + a1 X + a2 X2 + … On notera que le rajout d’un « ordre » (une forme de X au carré, au cube…) rajoute un pli à la courbe.
  • Pour une régression « mélangée » : Y = a  + a1 X1 + a2 X21 + a3X2 + a4X3

 

On recherche une fonction f qui lie les valeurs de Y à celles des X et tel que f(Xi) soit le plus proche possible de Y. Pour identifier le modèle de base, nous retrouvons 2 méthodes :

  • Régression pas à pas ascendante : les variables sont entrées dans le modèle les unes après les autres, en recherchant d’abord la variable Xi la plus explicative, puis celle qui explique le plus la part de variance restant à expliquer…
  • Régression pas à pas descendante : les variables sont éliminées du modèle global les unes après les autres, en éliminant d’abord la variable Xi la moins significative de Y…

Des simulations récentes montrent la méthodologie ascendante a tendance à garder moins de variables explicatives que la seconde1. Pour notre part, et dans un principe de précaution, on préférera cette seconde méthode pour éviter les erreurs statistiques et omettre une variable explicative. C’est celle-ci que nous décrivons ci-dessous.

De la même manière, pour une régression polynomiale, on considérera qu’à partir du 5ème ordre (Y = a  + a1 X + a2 X22 + a2 X32 + a2 X42 + a2 X52), le modèle devient trop complexe et difficile à analyser. Il est préconisé de mettre en place une régression descendante en commençant à enlever les coefficients les moins significatifs.

1. Calcul des coefficients a , a1

La première étape est de sélectionner le modèle général de la régression. Pour une régression multiple avec plusieurs variables, il suffit d’identifier l’ensemble des variables « plausibles » à intégrer au modèle.

Pour une régression polynomiale, le modèle général dépend de la forme du nuage de point :

ModèleForme du nuage de points
Nous avons « un » pli à la courbe. Elle est donc de forme parabolique ou hyperbolique. L’équation générale est de la forme :

Y=a+a1X+a2X2
Nous avons plusieurs plis à la courbe. On est sur une forme de spline. On rajoute un « ordre » de X pour chaque pli. Ci-contre, nous avons 2 plis, nous avons un modèle de la forme :

Y=a+a1X+a2X2+a3X3

Une fois le modèle général choisi, l’estimation des différents coefficients s’effectue via le calcul d’un produit matriciel. La procédure à suivre pour le calcul est la suivante2 :

1. On crée une matrice : la première colonne étant toujours des 1 pour prendre en compte le coefficient a de l’équation.

2. On calcule le produit matriciel de cette matrice avec sa transposée. On l’appelle matrice d’information ou matrice de Fisher.

3. On inverse la matrice d’information. On l’appelle matrice de dispersion.

4. On calcule le produit matriciel de la matrice d’information avec la colonne de réponse Y

5. On effectue le produit matriciel du résultat de l’étape 4 avec la matrice de dispersion obtenue dans l’étape 3.

6. Le résultat de l’étape 5 nous indique les différents coefficients a0, a1…

A noter qu’avec la fonction « droitereg » d’Excel, on peut calculer directement l’ensemble de ces coefficients.

2. Calculer les coefficients de corrélation et de détermination

A l’instar des études de régressions linéaires simples, on calcule les différents coefficients de corrélation. On retrouve :

  • Le r de Pearson que l’on déduit par la racine du r2
  • Le r2 qui se calcul via la formule suivante3 :
  • Enfin, on calcule le r2 ajusté qui permet de prendre en compte le fait que plus le nombre de variables explicatives augmente et plus sa valeur sera grande. La formule la plus utilisée est celle d’Ezekiel (1930)4 :

Avec :

  • n : nombre de couple de variable
  • p : nombre de variable explicative

3. Tester la corrélation dans sa globalité

On teste ensuite la qualité du résultat dans sa globalité. Autrement dit, on valide le fait que les coefficients a1, a2… ne sont pas dus au hasard et que le modèle identifié permet donc bien de prédire Y.

Pour cela, on effectue un test de Fisher avec pour hypothèse H0 : a1 = a2 = … = 0

Valeur pratique

Valeur critique

Elle suit la loi de Fisher (inverse.loi.f.n sous excel) pour :

  • Probabilité : 1 – α (α étant le plus souvent à 5%)
  • Degré de liberté 1 = nombre de variable explicative p
  • Degré de liberté 2 = nombre de degré de liberté (n – p – 1)
RésultatConclusion statistiqueConclusion pratique
Valeur pratique > Valeur critiqueOn rejette H0On conclue que le modèle identifié est correct.
Valeur pratique < Valeur critiqueOn retient H0On conclue que le modèle n’est pas significatif, des variables sont en trop ou manquante.

Si le test n’est pas significatif, il faut voir si des valeurs aberrantes ne sont pas présentes. En cas contraire, il faut continuer le processus et aller à l’étape 4 pour comprendre quelle ou quelles valeurs sont significatives ou non.

On calcule également la p-value. Celle-ci suit la loi de Fisher et se calcule pour les p variables explicatives et n – p – 1 degré de liberté. Là aussi, la p-value se lit comme toujours via une échelle :

  • < = 0,01 : Forte significativé
  • 0,01 et 0,05 : Significativité moyenne
  • >= 0,05 : Faible significativité

4. Tester la corrélation coefficient par coefficient

On teste chacun des coefficients des variables pour comprendre s’ils sont significatifs ou non. Pour cela, on pose l’hypothèse H0 : a1 = 0, puis a2 = 0…

Valeur pratique

σestimé du coefficient est calculé par la fonction droitereg d’Excel ou par la formule suivante : Matrice 4 de l’étape 1 * Variance résiduelle / (n – p – 1)

Valeur  critique

La valeur critique suit une loi de Student pour un risque α donné et pour n – p – 1 degré de liberté.

RésultatConclusion statistiqueConclusion pratique
Valeur pratique > Valeur critiqueOn rejette H0On conclue que le coefficient est significatif.
Valeur pratique < Valeur critiqueOn retient H0On conclue que le coefficient n’est pas significatif. Attention, il ne faut pas enlever ces valeurs tout de suite du modèle. En effet, les coefficients correspondent à des contributions partielles, et tiennent compte des autres variables. Ainsi, si elles sont corrélées, elles se gênent mutuellement et partagent leurs influences, si bien qu’individuellement, elles ne semblent pas intéressantes.

On calcule également la p-value. Celle-ci suit également la loi de Student et se calcule pour le coefficient a de la variable et n – p – 1 degré de liberté. La aussi, la p-value se lit comme toujours via une échelle :

RésultatConclusion statistiqueConclusion pratique
p-Value < αOn rejette H0Le modèle est significatif avec un risque de se tromper de p-value%
p-value > αOn retient H0Le modèle n'est pas significatif avec un risque de se tromper de p-value%

5. Tester un bloc de coefficients

Ce test permet de comprendre si des variables sont en « trop » dans le modèle. Généralement, on décide de « sortir » la ou les variables ayant un coefficient peu ou non significatif (valeur pratique de a… < valeur critique) que nous avons détecté dans l’étape précédente.

On effectue un test entre 2 coefficients de détermination :

  • Le r 2 initial avec l’ensemble des variables de l’étude
  • Un autre r12 qui prend en compte l’ensemble des variables moins la ou les variables que nous avons souhaitées enlever et qui à priori ne sont pas significatives dans le modèle. Le nombre total de variable – le nombre de variable de ce second modèle est appelé q.

On pose l’hypothèse H0 : a1 = a2 = … = 0

La valeur pratique se calcule en faisant le rapport pour chacune des variables de5 :

Valeur pratique

Valeur critique

Elle suit la loi de Fisher (inverse.loi.f.n sous excel) pour :

  • Probabilité : 1 – α (α étant le plus souvent à 5%)
  • Degré de liberté 1 = nombre de variable explicative q
  • Degré de liberté 2 = nombre de degré de liberté (n – p – 1)
RésultatConclusion statistiqueConclusion pratique
Valeur pratique > Valeur critiqueOn rejette H0On considère que le second modèle n’est pas identique au premier. Les variables que nous avons enlevés ont donc bien une influence et il faut les garder.
Valeur pratique < Valeur critiqueOn retient H0On considère que le second modèle ne nous apprend rien. Autrement dit, les variables que nous avons enlevées du modèle initial n’ont pas d’influence sur le modèle et on peut décider de les retirer pour simplifier l’équation. On retient donc le second modèle.

On calcule ensuite la p-value. Celle-ci suit également la loi de Fisher et se calcule pour les q variables explicatives et n – p – 1 degré de liberté. La aussi, la p-value se lit comme toujours via une échelle :

RésultatConclusion statistiqueConclusion pratique
p-Value < αOn rejette H0Le modèle est significatif avec un risque de se tromper de p-value%
p-value > αOn retient H0Le modèle n'est pas significatif avec un risque de se tromper de p-value%

On procède ainsi par itérations successives jusqu’à ce que nous obtenions une forte significativité et un fort coefficient de corrélation.

Source

1 – F. G. Blanchet, P. Legendre, D. Borcard (2008) – Forward selection of explanatory variables

2 – P. Legendre, L. F. J. Legendre (1998) – Numerical Ecology

3 – B. Scherrer (2009) – Biostatistique

4 – M. Ezekiel (1930) – Methods of correlation analysis

5 – J. Jacquard, R. Turrisi (2003) – Interaction effects in multiple regression

R. Rakotomalala (2013) – Econométrie, la régression linéaire simple et multiple

Z. Aïvazian (1978) – Étude statistique des dépendances

R. Bourbonnais (1998) – Econométrie

P. Bressoux (2008) – Modélisation statistique appliquées aux sciences sociales

J. Confais, M. Le Guen (2006) – Premier pas en régression linéaire avec SAS

P. Dagnelie (2006) -Statistique théorique et appliquées – Inférence Statistique à une et deux dimensions

D. Laffly (2006) – Régression multiple : principes et exemples d’application

Y. Dodge, V. Rousson (2004) – Analyse de régression appliquée

D. Borcard (2012) – Régression multiple

B. Delyon (2014) – Régression

Share This