©claire durand, 2016 - authentification · pse distingue de la régression linéaire par le fait...

La régression logistique

Présentation pour le cours SOL6210, Analysequantitative avancée

©Claire Durand, 2016

© Claire Durand, 03/11/2016,1

PQuand la variable dépendante est nominaleou ordinale< Deux types selon la forme de la variable

dépendante:< binaire pour deux catégories.< polytomique pour plusieurs catégories:

multinominale ou ordinale.PQuand les variables indépendantes peuvent

être de plusieurs types:< Nominales (qualitatives)< Ordinales< Métriques (quantitatives)< Et des interactions de variables, le cas échéant.

Utilisation


PComme la variable dépendante prend soit la valeur0 ou la valeur 1 (régression logistique ordinaire), lavaleur prédite doit donc se situer entre 0 et 1. C’estpourquoi on transforme la VD en une fonction deprobabilité.

PFait partie des modèles utilisant la transformationlogarithmique:< Modèles loglinéaires: Uniquement des variables

nominales ou ordinales< Modèles probit ou logit: Variables indépendantes

continues< Modèles de régression de survie: variable prédite évolue

dans le temps; variables indépendantes peuvent aussivarier dans le temps.

Mais encore...


PSe distingue de l’analyse discriminante entreautres par le fait que celle-ci demande unedistribution multi-normale des variablesindépendantes.

PSe distingue de la régression linéaire par le faitque celle-ci demande une distribution normaledes variables indépendantes et dépendante. De plus, si on utilisait la régression linéaire, lavaleur prédite pourrait se situer en dehors del’intervalle 0,1.

PEn pratique, lorsque la proportion de zéro ou de1 se situe à plus de 15%, la régression linéairedonne des résultats fiables en général (voirCibois).

Mais encore...


ln ( | )( | )

p y xp y x

10

PVariable dépendante:

La variable dépendante

P Et donc, log naturel de la probabilité que y prenne lavaleur 1 plutôt que 0 étant donné la valeur desvariables indépendantes (xi) dans l’équation.

P On transforme donc la VD de telle sorte que l’onprédit la probabilité que Y=1 plutôt que 0, étantdonné les valeurs de x (x1,x2,x3,...xn).

P Il s’agit d’une transformation logarithmique, difficile àinterpréter. C’est pourquoi on transforme parl’inverse (Exp) pour faciliter l’interprétation. On parlealors de rapport de cote (odds ratio).


P1. Examiner les relations bi-variées entre chacune des V.I. et laV.D.< Vérifier si elles sont linéaires, le cas échéant.

P2.Faire une régression standard (soit une régression où onintroduit toutes les V.I. dans l’analyse d’un coup) pour voir l’effetcombiné de toutes les variables.

P3. Établir un modèle et procéder à l’entrée hiérarchique desvariables en fonction du modèle.

P4. Faire une régression parcimonieuse, soit une analyse qui negarde que les variables significatives et vérifier si elle diffèresignificativement du modèle avec toutes les variables.

P5. Examiner la justesse du modèle :< χ2 de maximum de vraisemblance< Pourcentage de bonnes prédictions< Distribution des résidus.

Le processus d’analyse suggéré est lemême que pour la régression linéaire

Mais il faut vérifier un peu plus sérieusement la linéarité


PJustesse du modèle : < χ2 du modèle: Est-ce que l’ensemble de variables – ou

les variables du bloc entré – est significativement reliéà la VD?

< χ2 de maximum de vraisemblance (Hosmer etLemeshow): est-ce que les données sont compatiblesavec les relations postulées?

< Classification: Jusqu’à quel point les informations surles VI permettent de bien classer les cas dans lescatégories de la VD, étant donné le point de coupure.

< Analyse des résidus: proportion de résidus à plus de 3écarts-types (si n est grand), distribution normale desrésidus.

Les informations


PPour chaque variable :< Test de Wald (se distribue comme le χ2 ): jusqu’à

quel point chaque variable est liéesignificativement à la VD.

PPour chaque catégorie des variablesqualitatives:< Test de Wald (b/s.e.): jusqu’à quel point chaque

catégorie se distingue significativement de lacatégorie de référence.

Les informations


PPour le χ2 “ordinaire”:< L’hypothèse nulle est qu’il n’y a pas de relation entre deux

variables.< L’hypothèse alternative est qu’il y a une relation, que les

deux variables ne sont pas indépendantes.< On cherche à rejeter l’hypothèse nulle.

PPour le χ2 de maximum de vraisemblance (Hosmeret Lemeshow, Brown):< L’hypothèse nulle (H0) est qu’il y a une relation entre les

deux variables ou entre l’ensemble de variablesindépendantes choisies et la variable dépendante.

< L’hypothèse alternative est que les relations ne sont pascelles qui sont postulées.

< On cherche à accepter l’hypothèse nulle.

Nouvelle notion importanteχ2 de maximum de vraisemblance


PLorsque la probabilité du χ2 de maximum devraisemblance est plus grande que 0,05, onconclut que les données sont compatiblesavec le modèle postulé, qu’il estvraisemblable que l’ensemble de relationsexiste dans la population.

Le χ2 de maximum devraisemblance


PLes coefficients b s’interprètent comme pour larégression linéaire, mais toujours encomparant à la catégorie de référence, cequi donnerait, pour la régression logistique:< “à chaque augmentation de 1 de la VI, le log

népérien (naturel) de la probabilité que y soit égal à1 plutôt qu’à zéro augmente de b”.

PConcrètement, on regarde eb (la fonctioninverse) et on interprète que, < à chaque augmentation de 1 de la VI, la probabilité

que Y=1 plutôt que zéro augmente de eb.– Lorsque la VI est qualitative: Si le cas est dans la catégorie

“i” plutôt que dans la catégorie de référence de la VI, laprobabilité que Y=1 plutôt que zéro est de eb.

Interprétation des coefficients


PCeux qui ont l’intention de voter pour le PartiQuébécois ont huit fois plus de chances (voireb=8,161) que ceux qui ont l’intention de voterpour le Parti Libéral de se déclarer d’accordavec la Charte des valeurs proposées par leParti Québécois.

PCette probabilité baisse à 5,1 fois quand oncontrôle pour le malaise par rapport au port designes religieux et à 4,9 fois lorsque l’oncontrôle pour l’attitude négative face àl’immigration.

Interprétation des coefficientsExemple (voir listing - analyse hiérarchique sur les prédicteurs

du fait de l’appui à la charte des valeurs)


PLa régression logistique donne aussi laproportion de cas bien classés étant donné lesvaleurs de x et le point de césure (cutpoint). < Le point de césure est de 0,5 par défaut dans

SPSS. Il faut le modifier selon la distribution de laVD à un point optimal.

< Interprétation: Si on catégorise dans les “1" tous lescas qui ont une probabilité plus grande que le pointde césure d’être dans les “1" et que l’on catégorisedans les “0" tous ceux qui ont une probabilité pluspetite que le point de césure d’être dans les “1",quelle est la proportion de “1" et de “0" qui sont bienclassés?

Classification


PTout comme en régression linéaire, onregarde...< La proportion de résidus standardisés plus grande

que 3.< La distribution des résidus (qui doit être normale

et homoscédaste, soit avoir la même variancequelles que soient les valeurs de x).

Les résidus


PLa régression logistique est relativement facileà utiliser.

P Il faut faire très attention à l’interprétation (nepas oublier que l’on compare toujours à lacatégorie de référence).

PLa présence d’informations sur la classificationpeut être un avantage de l’analyse (par rapportà la régression linéaire) dans certains cas.

PLe deuxième avantage sur la régressionlinéaire est la possibilité d’entrer des variablesde plusieurs types comme VI et de modéliserfacilement les interactions.

En conclusion


©claire durand, 2016 - authentification · pse distingue de la régression linéaire par le fait...

Documents