[Total : 1    Moyenne : 2/5]
La régression logistique est un modèle mathématique permettant de définir un modèle de régression lorsque la variable à expliquer Y est qualitative. 

Introduction

La régression logistique est un modèle mathématique permettant de définir un modèle de régression lorsque la variable à expliquer Y est qualitative. Par exemple, si l’on souhaite prédire l’apparition d’un défaut, bon / pas bon, nous sommes en présence d’une variable qualitative.

On construit un modèle de prédiction avec une ou plusieurs variables X explicatives quantitatives ou qualitatives. Le modèle s’écrit de la manière suivante :

Y = a  + a1 * X1 + a2 * X2

 

La popularité de cette méthode se trouve dans les sciences de la santé et en sciences humaines, où la variable à prédire est la présence ou l’absence d’une maladie. Par exemple, il peut s’agir d’une étude sur la dépression majeure où l’on désire connaître les facteurs la prédisant le mieux, en étudiant des variables telles que l’âge, le sexe, l’estime de soi, les relations interpersonnelles…1

Le principe

Le principe repose sur le fait que l’on calcule la probabilité d’apparition d’un événement par rapport à un autre. On l’appelle ce « rapport de chance », le Odds. Soit Y une variable qualitative avec J modalité. On désigne le Odds le fait de voir se réaliser une modalité par rapport à une autre.

Par exemple, on souhaite mettre en place un modèle de prédiction sur l’apparition d’un défaut. On calcule la probabilité de l’apparition du défaut par rapport à la probabilité qu’il n’apparaisse pas. Ceci en fonction d’un ou plusieurs paramètres explicatifs. Si la probabilité de l’apparition (que l’on note π) du défaut est de 0,2, alors le Odds sera de 0,2/0,8 soit 0,25. Autrement dit, on a une chance de défaut de 1 contre 4. Ou encore, on a 4 fois plus de chance de ne pas avoir de défaut.

Dans le cadre de la régression logistique, on représente cela par la fonction Logit, ou Log naturel de la probabilité de faire partie d’un groupe divisé par la probabilité de ne pas faire partie du groupe. Elle s’écrit :

C = Logit (π) = ln(π / (1 – π)) = a  + a1 * X1 + a2 * X2 + …

π est la probabilité d’apparition de l’événement que l’on souhaite étudier.

Le fonctionnement consiste à calculer les coefficients de régression de façon itérative. A partir de certaines valeurs de départ pour a , a1…, l’enjeu sera de maximiser la vraisemblance. C’est à dire que l’on optimise le modèle par rapport au nuage de points2. La vraisemblance étant la probabilité d’obtenir le point à partir d’une estimation du modèle.

Etape 1 : Coder les valeurs de Y

Etape fondamentale de l’analyse, transformer les modalités de la variable Y en valeur 0 et 1. Dans le cadre d’une étude de régression logistique, on s’adresse à une variable à expliquer qui est qualitative. Par exemple, cela peut être Bon / Pas Bon si l’on souhaite prédire l’apparition d’un défaut, ou encore Crédit immobilier / Crédit consommation / Crédit revolving si l’on souhaite prédire le type de crédit que prend une personne en fonction de son âge…

On appelle cela les modalités. Dans le premier cas, nous avons 2 modalités, dans le second 3. L’enjeu de cette première étape est de transformer cela en 0 et en 1.

Cas 1 : 2 modalités

On veut par exemple prédire l’apparition d’un défaut en fonction d’un réglage machine, d’un type de matière première… La variable Y peut prendre comme modalité Bon ou Pas Bon.

On remplace Bon par 0 et Pas Bon par 1.

Cas 2 : Plus de deux modalités

On veut par exemple étudier  la probabilité d’achat d’un produit qui, au regard de ces options, a 3 configurations que l’on nomme A, B, C.

On crée le tableau ci-contre. A chaque fois que la personne a acheté le produit A, on met un 1, puis cette valeur sera à 0 lorsque la personne achète un produit B ou C. Et ainsi de suite.

Etape 2 : Identifier les valeurs de départ

Les solveurs des différents logiciels de calcul nécessite des valeurs de départ pour les différents coefficients a, a1, a2… de l’équation de notre modèle. En théorie, on pourrait choisir des valeurs complètement au hasard.

En pratique pour faciliter le calcul et réduire le temps de traitement, on a tout intérêt à mettre des valeurs que l’on pense proche de la réalité. A défaut de n’avoir pas d’idée sur les valeurs, on peut tester avec différentes valeurs de départ et voir si nous obtenons toujours le même résultat.

Etape 3 : Calculer le Log Vraisemblance

Dénommé LL, elle représente la fonction logarithmique de la vraisemblance (en anglais log-likelihood). Ceci uniquement pour des raisons de simplification des manipulations de calcul. Elle dépend de différentes valeurs que nous détaillons.

1. Calculer le logit par valeur de Y – Ck

On calcule d’abord la fonction Logit C pour chacune des valeurs de Y. On le calcule via la formule suivante :

Ck = a0,k + a1,k * X1 + a2,k * X2

2. Calculer la valeur de π

Pour chaque valeur de Y, on calcule sa probabilité d’apparition π. Elle se calcule avec la formule suivante :

3. Calculer la Log Vraisemblance par point – LL

Egalement par valeur de Y, on calcule la Log Vraisemblance. Elle nous donne une estimation de la distance du modèle avec le point. Celle-ci se calcule via la formule suivante :

Dans le cas d’une variable Y bimodale (Bon, Pas bon) :

Dans le cas d’une variable Y multimodale (Bleu, rouge, vert…) :

4. Calculer la Log Vraisemblance totale – LLM

Enfin, dernière étape, on additionne l’ensemble des Log Vraisemblance par point pour estimer la Log Vraisemblance totale du modèle. Nous nommons cette donnée la LLM.

Etape 4 : Calculer la déviance

Dernière étape avant l’optimisation du modèle, le calcul de la déviance. La déviance (en anglais residual deviance) sera la valeur que nous souhaitons minimiser lors de notre calcul d’optimisation du modèle. La déviance représente la somme des écarts des points avec notre modèle. Dans un modèle de régression linéaire, la déviance correspond à la somme des carrés des écarts. La déviance se calcule via la formule suivante :

DM = – 2 * LLM

Etape 5 : Optimiser le modèle

Le modèle se calcule via l’itération successive d’un algorithme. Cet algorithme a pour tâche de réduire au maximum la Déviance en fonction des paramètres a , a1, a2… Ce calcul doit obligatoirement se faire via un logiciel (Excel, Minitab, SPSS…) car le nombre d’itération peut être très nombreux.

Il existe de nombreux algorithmes d’itérations (Newton-Raphson, Fisher Scoring…) et c’est pour cela que les résultats obtenus entre logiciel peuvent être différents. Mais généralement, les différences sont faibles et il ne faut donc pas s’en alerter outre mesure.

Sous Excel, le calcul se fait via le solveur spécifique que l’on peut charger. Les explications sont données à l’adresse : http://office.microsoft.com/fr-fr/excel-help/definir-et-resoudre-un-probleme-a-laide-du-solveur-HP010342416.aspx

Dans le solveur, nous allons lui demander de minimiser la déviance en jouant sur les paramètres a1, a2… du modèle.

Etape 6 : Analyser le modèle

La question est de savoir si notre modèle est proche de la réalité et permet de prédire le comportement de la variable dépendante Y. On parle du calcul du Pseudo R2, en comparaison avec le R2 (coefficient de détermination) des autres types de régressions.

Son calcul se fait en comparant le modèle que nous venons d’optimiser avec un modèle dit « trivial » qui inclus uniquement la variable a dans le modèle. Autrement dit, on vient comparer notre à priori meilleur modèle avec un modèle de base que nous savons peut performant.

1. Calcul des paramètres du modèle trivial

En première étape, on calcule les Log Vraisemblance par point, appelé LL et la déviance associée D.

La formule du LL0 dépend du nombre de modalité de la variable Y.

Cas 1 : variable dichotomique

Si la variable a 2 modalités (Bon ou Pas Bon par exemple), le LL se calcule de la manière suivante :

Avec :

  • n : le nombre total de relevé
  • n+ : le nombre de valeur positive
  • p+ : la proportion de valeur positive

Nous avons 20 relevés de données. Sur les 20, 6 valeurs de Y sont positives. Cela nous donne :

  • n = 20
  • n+ = 6
  • p+ = 6 / 20 = 0,3

Cas 2 : variable multimodale

Nous avons une variable Y avec une multitude de modalité (bleu, vert, rouge…) Le LL0 se calcule via la formule suivante :

Avec :

  • n : le nombre total de relevé
  • n: nombre de valeur positive pour la modalité k de la variable Y

Reprenons l’exemple précédent, ou nous aurions 20 relevés mais avec une variable Y ayant 3 modalités ayant respectivement 4, 10 et 6 valeurs à 1. Nous obtiendrons :

2. Calcul du Pseudo R2

Le pseudo R2 se calcule via diverses méthodes. Parmi elles, nous retrouvons la méthode de Cox Snell ou encore de Nagelkerke pour les plus connues. Toutefois, il est reconnu que le modèle de McFadden est le plus performant et le plus adapté à la régression logistique3. Il se calcule via la formule suivante :

Son interprétation est plutôt simple :

  • LLM = LL : le R2MF est égal à 0, on considère donc que notre modèle ne fait pas mieux que le modèle trivial.
  • A contrario, au plus notre modèle sera bon, au plus la valeur du R2MF sera proche de 1.

Etape 7 : Evaluation du modèle

Maintenant que nous avons construit le modèle de régression logistique, que nous avons validé le fait qu’il est « meilleur » que le modèle trivial, nous allons l’évaluer. Pour cela, il existe différents indicateurs que nous allons calculer et interpréter.

1. Construire la matrice de contingence

Cette matrice a pour objectif de confronter les valeurs observées aux valeurs que nous prédit le modèle. On construit un tableau de cette forme :

Résultat du modèle que nous avons construit

Total

Valeur initiale

Modalité 1

Modalité 2

Modalité 1

a

b

a + b

Modalité 2

c

d

c + d

Total

a + c

b + d

a + b + c + d

Il se lie de la manière suivante :

  • a et d sont les vrais positifs : lorsque notre modèle a prédit une modalité, elle l’était en réalité.
  • b et c sont les faux positifs : lorsque notre modèle à indiqué une modalité, elle ne l’était pas en réalité.

2. Calcul du taux d’erreur ε

De cette matrice, on déduit un premier indicateur qu’est le taux d’erreur ε. Celui-ci évalue le nombre d’erreur du modèle par rapport à l’effectif global. Il estime la probabilité de notre modèle à faire une erreur. Il se calcule de la manière suivante :

Avec :

  • n : nombre de l’effectif global
  • Faux positifs : dans notre matrice, c’est b et c

A noter que dans le cas où l’on a établi un premier modèle avec par exemple 3 variables X explicative. L’on souhaite le comparer à un autre modèle que nous pensons meilleur mais celui-ci avec seulement 2 variables X explicatives. La lecture du taux d’erreur est dans ce cas biaisée. Mieux vaut utiliser les autres indicateurs donnés ci-dessous.

3. calcul du taux de succès – θ

A l’inverse du taux d’erreur, le taux de succès est la probabilité de notre modèle à trouver la bonne modalité de la variable Y. C’est le complémentaire du taux d’erreur est se calcule simplement en faisant :

θ = 1 – ε

4. Calcul des Odds Ratio – OR

On l’a vu plus haut, l’enjeu de la régression logistique est de calculer une probabilité d’apparition d’un événement par rapport à un autre. Via les équations obtenues par la régression logistique, cette probabilité se calcule de la manière suivante :

Il s’interprète de 3 manières :

  • OR = 1 : la variable Y est indépendante de cette variable. On peut la sortir du modèle.
  • OR > 1 : la probabilité de Y augmente avec le phénomène X
  • OR < 1 : la probabilité de Y baisse avec le phénomène X

Par exemple, nous avons une équation obtenue de la probabilité de la modalité 1 par rapport à la 3 qui est la suivante :

C1 = C1/3 = 0,16508 – 0,38229 * X1

Le Odds Ratio sera alors de :

OR (1/3) = e(-0,38229) = 0,68

Autrement dit, devant l’alternative 1 et 3, on aura 1,47 fois plus de chance de choisir 1 plutôt que 3.

5. Interprétation et autres indicateurs

Un bon modèle doit avoir une valeur faible de taux d’erreur, au plus proche de 0 et par réciproque un taux de succès important, donc au plus proche de 1.

Il existe encore d’autres indicateurs (Indice de Youden, F-mesure…) pour évaluer le modèle. Nous retrouvons parmi les plus utilisés :

  • La sensibilité, appelée également rappel ou taux de vrais positifs, indique la capacité du modèle à retrouver les modalités positives. Elle se calcule via la formule suivante (au regard de notre tableau :

Sensibilité = Vrai positif de la modalité X / somme de la modalité X = a / (a + b)

  • La précision indique la proportion de vrais positifs parmi les individus qui ont été classés positifs. Elle se calcule via la formule suivante :

Précision = Vrai positif de la modalité X / somme de la modalité X = a / (a + c)

Etape 8 : Évaluation de la significativité

1. Test du rapport de vraisemblance

Ce test consiste à comparer le modèle « optimisé » avec un autre modèle où nous avons enlevé une ou plusieurs des variables du modèle. En fonction du modèle de comparaison choisi, on conclue sur la significativité du modèle et des variables.

Deux cas se présente :

  1. On veut tester le modèle dans sa globalité. On construit un modèle de comparaison comme celui-ci Y = a0.
  2. On veut tester la significativité des variables les unes après les autres.

On pose l’hypothèse nulle H0 : a1 = a2… = 0. Autrement dit, si l’on n’apprend rien en supprimant la ou les variables du modèle, alors on pourra sans doute l’enlever de celui-ci pour le simplifier.

On évalue la significativité du résultat par une loi du χ2. Le nombre de degré de liberté de la loi se calcule via la formule suivante :

Nb de variables du modèle optimisé – nombre de variables du modèle de comparaison

Par exemple :

Pour tester notre modèle vis-à-vis du modèle trivial, on aura un degré de liberté égal au nombre de variable de notre modèle optimisé.

Pour tester notre modèle optimisé sous la forme Y = a0 + a1 * X1 + a2 * X2, on construit le modèle Y = a0 + a1 * X1 (on teste donc la significativité de la variable X2). Le nombre de degré de liberté sera 2 – 1 = 1 degré de liberté).

Pour cela, on fait « tourner » le solveur du logiciel en forçant la variable que nous souhaitons tester avec un coefficient à 0. Ensuite, on vient tester la différence de la déviance DH0 du modèle forcé avec la déviance DM du modèle optimisé.

Ainsi, si la p-value donnée par le χ2 (fonction CHIDIST sous Excel) est significative alors on rejette H0, et on conclue que le modèle optimisé est plus performant que le modèle simplifié que nous venons de calculer.

2. La courbe ROC

La courbe ROC, Receiver Operating Characteristic, est un outil graphique spécifique à la régression logistique. Associé au critère AUC (aire sous la courbe), elle permet d’évaluer visuellement la qualité du modèle que nous venons de construire.

La courbe ROC met en relation le taux de vrais positifs (la sensibilité) et le taux de faux positifs (1 – la spécificité). La construction de la courbe s’effectue de la manière suivante :

  1. Calculer le score de π de chaque individu à l’aide du modèle de prédiction
  2. Calculer les taux de vrais positifs et de faux positifs pour chaque valeur de π
  3. La courbe ROC correspond au graphique de points qui relie les couples vrais positifs / faux positifs. Le premier point étant forcément 0,0, le dernier 1,1.

Le modèle est parfait

Tous les positifs sont situés devant les négatifs, la courbe ROC est collée aux extrémités gauche et haute du repère.

A l’inverse, le modèle est mauvais

Le modèle dispatch les résultats au hasard, la courbe ROC est donc une droite à 45°.

A partir de cette courbe, on caractérise numériquement sa significativité via l’indicateur AUC. Il exprime la probabilité du modèle à placer un individu positif à la place d’un négatif. Il s’interprète selon le tableau suivant :

  • AUC = 0,5 : la courbe ROC est une droite à 45°, le modèle à autant prédit au hasard le comportement de la variable.
  • 0,7 <= AUC < 0,8 : niveau acceptable
  • 0,8 <= AUC < 0,9 : excellent
  • AUC >= 0,9 : niveau exceptionnel

Source

1 – B. G. Tabachnick, L. S. Fidell (2000) – Using multivariate statistics

2 – C. D. Howell (1998) – Méthodes statistiques en sciences humaines

3 – S. Menard (2002) – Applied logistic regression analysis

J. Jacques (2013) – Modélisation statistique

J. Bouyer (2012) – Régression logistique, modélisation des variables quantitatives

O. Godechot (2012) – Introduction à la régression

J. Desjardins (2005) – L’analyse de régression logistique

E. A. Saulean, N. Meyer (2009) – Régression logistique

Share This