analyses de régression pour modéliser des effectifs11 5 12 3 13 1 14 1 15 5 16 4 17 1 20 5 22 2 23...

31
Analyses de régression pour modéliser des effectifs

Upload: others

Post on 11-Jul-2020

0 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Analyses de régression pour modéliser des effectifs11 5 12 3 13 1 14 1 15 5 16 4 17 1 20 5 22 2 23 3 25 1 27 2 30 1 32 3 33 1 37 3 40 1 57 1 74 1 Régression de poisson Estimation

Analyses de régression pour modéliser des effectifs

Page 2: Analyses de régression pour modéliser des effectifs11 5 12 3 13 1 14 1 15 5 16 4 17 1 20 5 22 2 23 3 25 1 27 2 30 1 32 3 33 1 37 3 40 1 57 1 74 1 Régression de poisson Estimation

Description générale

• Présenter des analyses de régression appropriées lorsque la variable dépendante (VD) prend que des valeurs entières non négatives (0, 1, 2,…) et que les grandes valeurs représentent des événements rares.

• Analyses de régression :

• Régression de Poisson

• Régression de Poisson ajustée pour la sur dispersion

• Régression binomiale négative

• Ces modèles font parties des modèles linéaires généralisés.

• La procédure Generalized Linear Models de SPSS permet d’estimer ce type de modèle.

2

Page 3: Analyses de régression pour modéliser des effectifs11 5 12 3 13 1 14 1 15 5 16 4 17 1 20 5 22 2 23 3 25 1 27 2 30 1 32 3 33 1 37 3 40 1 57 1 74 1 Régression de poisson Estimation

Contexte d’utilisation

• La variable à modéliser est un nombre d’événements. Par exemple :

• Nombre d’actes violents

• Nombre de récidives

• La majorité des sujets auront un petit nombre d’événements (0, 1 ou 2) et une minorité auront un grand nombre d’événements.

3

Page 4: Analyses de régression pour modéliser des effectifs11 5 12 3 13 1 14 1 15 5 16 4 17 1 20 5 22 2 23 3 25 1 27 2 30 1 32 3 33 1 37 3 40 1 57 1 74 1 Régression de poisson Estimation

Solutions alternatives

• Pour modéliser ce type de VD, bien des analystes auront recours aux solutions suivantes :

• Catégoriser la VD (ex : 0 et 1, 2 à 6, 7 et plus) ou même dichotomiser la VD afin d’utiliser la régression logistique

• Utiliser la régression linéaire multiple

• Transformer la VD, prendre le logarithme, et modéliser la variable transformée.

• Toutefois ces solutions sont moins performantes que l’utilisation de la régression de poisson ou la régression binomiale négative.

• Désavantages de la catégorisation :

� La perte d’information

� Les résultats sont affectés par le choix des points de coupure

4

Page 5: Analyses de régression pour modéliser des effectifs11 5 12 3 13 1 14 1 15 5 16 4 17 1 20 5 22 2 23 3 25 1 27 2 30 1 32 3 33 1 37 3 40 1 57 1 74 1 Régression de poisson Estimation

Solutions alternatives

• Désavantages de la régression linéaire multiple :

• Les postulats de la régression linéaire multiple ne seront pas respectés (normalité des résidus).

• Les valeurs estimées par le modèle ne seront pas nécessairement des valeurs entières et positives.

• Désavantages de la transformation logarithme :

• La VD pouvant prendre la valeur 0, pour calculer son logarithme il faut ajouter une constante.

y’ = ln (y + 1)• Nous verrons plus tard que le modèle obtenu avec cette solution est souvent

moins performant qu’avec la régression de poisson (ajustée pour la sur dimension si nécessaire) ou la régression binomiale négative.

5

Page 6: Analyses de régression pour modéliser des effectifs11 5 12 3 13 1 14 1 15 5 16 4 17 1 20 5 22 2 23 3 25 1 27 2 30 1 32 3 33 1 37 3 40 1 57 1 74 1 Régression de poisson Estimation

Distribution de poisson

• Le nom « régression de poisson » vient de l’hypothèse que la VD suit une distribution de poisson.

• Propriété de la loi de poisson :

• E(y) = Var(y) = λ

• La moyenne est égale à la variance

• La forme de la distribution dépend que de λ

6

Page 7: Analyses de régression pour modéliser des effectifs11 5 12 3 13 1 14 1 15 5 16 4 17 1 20 5 22 2 23 3 25 1 27 2 30 1 32 3 33 1 37 3 40 1 57 1 74 1 Régression de poisson Estimation

Mise en situation

• La base de données postdoc contient un échantillon de 554 biochimistes qui ont obtenus un doctorat (PhD) d’une université américaine à la fin des années 1950 et au début des années 1960.

• Deux variables sont intéressantes pour illustrer l’utilisation des modèles de régression de poisson ou binomiale négative:

• ARTS : Nombre d’articles publiés avant l’obtention du diplôme

• CITS : Nombre de références aux articles publiés

7

Page 8: Analyses de régression pour modéliser des effectifs11 5 12 3 13 1 14 1 15 5 16 4 17 1 20 5 22 2 23 3 25 1 27 2 30 1 32 3 33 1 37 3 40 1 57 1 74 1 Régression de poisson Estimation

Mise en situation (suite)

Les autres variables disponibles (VI) sont :

Dans un premier temps nous modéliserons la variable CITS (nombre de références).

8

VariableVariableVariableVariable EtiquetteEtiquetteEtiquetteEtiquette ValeursValeursValeursValeursAGEAGEAGEAGE Âge au moment d'obtenir le diplôme

1=marié0=non marié

DOCDOCDOCDOC Mesure de prestige de l'établissement1=agriculture0=autre

UNDUNDUNDUND Mesure sur la sélection des candidats à l'université

Statut marital

Département AGAGAGAG

MARMARMARMAR

Page 9: Analyses de régression pour modéliser des effectifs11 5 12 3 13 1 14 1 15 5 16 4 17 1 20 5 22 2 23 3 25 1 27 2 30 1 32 3 33 1 37 3 40 1 57 1 74 1 Régression de poisson Estimation

Régression de poisson

• On modélise le log du paramètre λ comme une combinaison linéaire des variables explicatives (x) et de leurs paramètresβ

• L’estimation des paramètres de ce modèle, se fait avec la méthode du maximum des vraisemblances.

9

ikkiii xxx ββββλ ++++= K22110log

Page 10: Analyses de régression pour modéliser des effectifs11 5 12 3 13 1 14 1 15 5 16 4 17 1 20 5 22 2 23 3 25 1 27 2 30 1 32 3 33 1 37 3 40 1 57 1 74 1 Régression de poisson Estimation

Régression de poisson

Modélisons le nombre de références (CITS)

• On utilisera les modèles linéaires généralisés en spécifiant une distribution de poisson et une fonction de lien log.

10

Nombre de Nombre de Nombre de Nombre de référencesréférencesréférencesréférences

Nombre de Nombre de Nombre de Nombre de sujetssujetssujetssujets

0 187

1 188

2 36

3 25

4 12

5 23

6 5

7 19

8 4

9 4

10 7

11 5

12 3

13 1

14 1

15 5

16 4

17 1

20 5

22 2

23 3

25 1

27 2

30 1

32 3

33 1

37 3

40 1

57 1

74 1

Page 11: Analyses de régression pour modéliser des effectifs11 5 12 3 13 1 14 1 15 5 16 4 17 1 20 5 22 2 23 3 25 1 27 2 30 1 32 3 33 1 37 3 40 1 57 1 74 1 Régression de poisson Estimation

Régression de poisson

Estimation des paramètres

Toutes les variables sont significatives (valeur-p<0.001).

11

Paramètres Statistique de Wald

Valeur-p

Page 12: Analyses de régression pour modéliser des effectifs11 5 12 3 13 1 14 1 15 5 16 4 17 1 20 5 22 2 23 3 25 1 27 2 30 1 32 3 33 1 37 3 40 1 57 1 74 1 Régression de poisson Estimation

Régression de poisson

Interprétation des paramètres

• Étant donné la fonction de lien log, on interprètera les paramètres comme en régression logistique.

• Autrement dit, la valeur Exp(β) représente le facteur selon lequel le nombre de références augmentera lorsque x varie d’une unité.

12

Page 13: Analyses de régression pour modéliser des effectifs11 5 12 3 13 1 14 1 15 5 16 4 17 1 20 5 22 2 23 3 25 1 27 2 30 1 32 3 33 1 37 3 40 1 57 1 74 1 Régression de poisson Estimation

Régression de poisson

Interprétation des paramètres

• Exemples :

• Lorsque l’étudiant en biochimie est marié le nombre de références est 1.3 foisplus élevé.

• Lorsque l’âge augmente d’un an, le nombre de références diminue d’un facteurde 1.04 (1/exp(β))

13

Page 14: Analyses de régression pour modéliser des effectifs11 5 12 3 13 1 14 1 15 5 16 4 17 1 20 5 22 2 23 3 25 1 27 2 30 1 32 3 33 1 37 3 40 1 57 1 74 1 Régression de poisson Estimation

Régression de poisson

Ajustement du modèle

14

Les mesures d’ajustement AIC et BIC sont basées sur la vraisemblance en pénalisant pour la complexité du modèle. Les meilleurs modèles obtiendront les plus petites valeurs.

Page 15: Analyses de régression pour modéliser des effectifs11 5 12 3 13 1 14 1 15 5 16 4 17 1 20 5 22 2 23 3 25 1 27 2 30 1 32 3 33 1 37 3 40 1 57 1 74 1 Régression de poisson Estimation

Régression de poisson

Ajustement du modèle

15

La déviance est plus de 7 fois plus élevée que le nombre de degrés de liberté. Une grande valeur de déviance par rapport au nombre de degrés de liberté indique un problème d’ajustement.

Page 16: Analyses de régression pour modéliser des effectifs11 5 12 3 13 1 14 1 15 5 16 4 17 1 20 5 22 2 23 3 25 1 27 2 30 1 32 3 33 1 37 3 40 1 57 1 74 1 Régression de poisson Estimation

Sur dispersion

• Dans l’ajustement de notre premier modèle, nous pouvons soupçonner un problème de sur dispersion des données pour les raisons suivantes :

• Une large déviance par rapport au nombre de degrés de liberté.

• Ce modèle présuppose que, pour un ensemble donné de VI, la variance de la VD est égale à sa moyenne. Dans les faits, la variance est souvent supérieure.

• Conséquences de la sur dispersion

• Les estimations de l’erreur standard, de la statistique du khi-deux et de la valeur-p seront faussées.

• Plus précisément, l’erreur standard sera sous estimée et la statistique du khi-deux sur estimée.

• Les paramètres seront non biaisés mais ils risquent d’être déclarés trop souvent significatifs.

16

Page 17: Analyses de régression pour modéliser des effectifs11 5 12 3 13 1 14 1 15 5 16 4 17 1 20 5 22 2 23 3 25 1 27 2 30 1 32 3 33 1 37 3 40 1 57 1 74 1 Régression de poisson Estimation

Sur dispersion

• Ajustement de la sur dispersion

• Notons,

• Diviser la statistique du Khi-deux de chaque paramètre par C.

• Multiplier l’erreur standard de chaque paramètre par C.

17

0.0699 x C 17.196/C

Mesure de la qualité de l'ajustement du Khi-deux

Degrés de libertéC =

Page 18: Analyses de régression pour modéliser des effectifs11 5 12 3 13 1 14 1 15 5 16 4 17 1 20 5 22 2 23 3 25 1 27 2 30 1 32 3 33 1 37 3 40 1 57 1 74 1 Régression de poisson Estimation

Sur dispersion

• Il existe deux mesures d’ajustement basées sur le khi-deux :

• Déviance

• Khi-deux de Pearson

• La plupart du temps les deux ajustements sont assez proches. La théorie de l’estimation de la quasi-vraisemblance suggère l’utilisation du khi-deux de Pearson (McCullagh and Nelder 1989).

18

C

Page 19: Analyses de régression pour modéliser des effectifs11 5 12 3 13 1 14 1 15 5 16 4 17 1 20 5 22 2 23 3 25 1 27 2 30 1 32 3 33 1 37 3 40 1 57 1 74 1 Régression de poisson Estimation

Sur dispersion

En utilisant cet ajustement, nous obtenons :

• Suite à l’ajustement, que les variables AG (département d’agriculture) et UND (mesure sur la sélection des candidats) sont significatives.

19

Page 20: Analyses de régression pour modéliser des effectifs11 5 12 3 13 1 14 1 15 5 16 4 17 1 20 5 22 2 23 3 25 1 27 2 30 1 32 3 33 1 37 3 40 1 57 1 74 1 Régression de poisson Estimation

Régression linéaire multiple

• Comparons maintenant les résultats avec l’utilisation de la régression linéaire multiple.

• Étape #1 : Appliquons la transformation log à notre VD

LCITS = ln (CITS+1)

� On ajoute une constante étant donné que CITS peut prendre la valeur 0.

• Étape #2 : Ajustons un modèle de régression linéaire multiple avec toutes les VI.

20

Page 21: Analyses de régression pour modéliser des effectifs11 5 12 3 13 1 14 1 15 5 16 4 17 1 20 5 22 2 23 3 25 1 27 2 30 1 32 3 33 1 37 3 40 1 57 1 74 1 Régression de poisson Estimation

Régression linéaire multiple

Une seule variable est significative.

• En général, la régression de poisson avec correction pour la sur dispersion est préférable à la régression linéaire multiple. La RLM peut être mieux que la régression de poisson sans correction pour la sur dispersion.

21

Page 22: Analyses de régression pour modéliser des effectifs11 5 12 3 13 1 14 1 15 5 16 4 17 1 20 5 22 2 23 3 25 1 27 2 30 1 32 3 33 1 37 3 40 1 57 1 74 1 Régression de poisson Estimation

Sur dispersion

• Conclusion

• La sur dispersion est un problème majeur de la régression de Poisson et est souvent rencontré en pratique.

• La régression de Poisson ajustée pour la sur dispersion est de loin préférable à la régression de Poisson conventionnelle. Toutefois, cet ajustement n’est pas la solution la plus optimale, on considère plus de variabilité échantillonale que nécessaire.

Autre solution=

Régression binomiale négative

22

Page 23: Analyses de régression pour modéliser des effectifs11 5 12 3 13 1 14 1 15 5 16 4 17 1 20 5 22 2 23 3 25 1 27 2 30 1 32 3 33 1 37 3 40 1 57 1 74 1 Régression de poisson Estimation

Régression binomiale négative

• Généralisation du modèle de régression de Poisson qui permet de palier au problème de sur dispersion.

• L’équation inclut un terme de bruit qui prend en considération le phénomène de sur dispersion.

• L’estimation des paramètres est faite avec la méthode du maximum des vraisemblances.

23

iikkiii xxx σεββββλ +++++= K22110log

Page 24: Analyses de régression pour modéliser des effectifs11 5 12 3 13 1 14 1 15 5 16 4 17 1 20 5 22 2 23 3 25 1 27 2 30 1 32 3 33 1 37 3 40 1 57 1 74 1 Régression de poisson Estimation

Régression binomiale négative

Comparativement au modèle précédent, la variable AGE est maintenant significative.

24

Page 25: Analyses de régression pour modéliser des effectifs11 5 12 3 13 1 14 1 15 5 16 4 17 1 20 5 22 2 23 3 25 1 27 2 30 1 32 3 33 1 37 3 40 1 57 1 74 1 Régression de poisson Estimation

Régression binomiale négative

• Le paramètre de dispersion est 2.26 et son intervalle de confiance ne contient pas 0.

• Si le paramètre de dispersion est 0, alors on retourne à la régression de Poisson.

25

Paramètre de dispersion

Page 26: Analyses de régression pour modéliser des effectifs11 5 12 3 13 1 14 1 15 5 16 4 17 1 20 5 22 2 23 3 25 1 27 2 30 1 32 3 33 1 37 3 40 1 57 1 74 1 Régression de poisson Estimation

Régression binomiale négative

• Test multiplicateur de Lagrange : permet de tester l’hypothèse nulle que le paramètre de dispersion est égal à 0.

• La valeur-p < 0.001, alors on rejette l’hypothèse que le paramètre de dispersion soit nul. Ce paramètre est significativement supérieur à 0.

26

Page 27: Analyses de régression pour modéliser des effectifs11 5 12 3 13 1 14 1 15 5 16 4 17 1 20 5 22 2 23 3 25 1 27 2 30 1 32 3 33 1 37 3 40 1 57 1 74 1 Régression de poisson Estimation

Régression binomiale négative

• La déviance est légèrement supérieure au nombre de degrés de liberté ce qui indique un bien meilleur ajustement qu’avec la régression de Poisson conventionnelle.

27

Page 28: Analyses de régression pour modéliser des effectifs11 5 12 3 13 1 14 1 15 5 16 4 17 1 20 5 22 2 23 3 25 1 27 2 30 1 32 3 33 1 37 3 40 1 57 1 74 1 Régression de poisson Estimation

Régression binomiale négative

• Calcul des prévisions

• Estimer le nombre de citations attendues pour un individu i ayant les caractéristiques suivantes :

• Le modèle prévoit 5 citations pour l’individu i.

28

ValeursValeursValeursValeursAGEAGEAGEAGE Âge au moment d'obtenir le diplôme 28

MARMARMARMAR Statut marital 1 (marié)

DOCDOCDOCDOC Mesure de prestige de l'établissement 359

AGAGAGAG Département 0 (autre)

UNDUNDUNDUND Mesure sur la sélection des candidats à l'université 6

VariablesVariablesVariablesVariables

( ) ( ) 5547.1expˆˆlogexp

547.1ˆlog

*109.0*46.0*001.0*230.0*044.0556.1ˆlog

===

=

+−++−=

ii

i

i UNDAGDOCMARAGE

λλ

λλ

Page 29: Analyses de régression pour modéliser des effectifs11 5 12 3 13 1 14 1 15 5 16 4 17 1 20 5 22 2 23 3 25 1 27 2 30 1 32 3 33 1 37 3 40 1 57 1 74 1 Régression de poisson Estimation

Pondération d’échelle

• Parfois le nombre d’événements n’est pas observé sur la même période pour tous les individus.

• Exemple : Le nombre d’actes de violence durant le séjour du patient. La durée du séjour va forcément varier d’un patient à l’autre. Un patient avec un plus long séjour est plus à risque d’avoir un plus grand nombre d’actes de violence.

• Pour ajuster le modèle selon le temps d’exposition, on utilisera une variable de pondération d’échelle (OFFSET).

• L’utilisation d’une pondération d’échelle peut s’appliquer à d’autres situations. Exemple, nous avons collecté pour une centaine d’écoles le nombre d’élèves à trouble de comportement. Le nombre d’élèves dans chacune des écoles sera la pondération d’échelle.

29

Page 30: Analyses de régression pour modéliser des effectifs11 5 12 3 13 1 14 1 15 5 16 4 17 1 20 5 22 2 23 3 25 1 27 2 30 1 32 3 33 1 37 3 40 1 57 1 74 1 Régression de poisson Estimation

Conclusion

• La régression de Poisson et la régression binomiale négative sont des méthodes adaptées à la modélisation d’une VD discrète avec une distribution très asymétrique.

• Toutefois, la régression de Poisson est susceptible d’être confrontée à un problème de sur dispersion.

• La sur dispersion des données cause la sous-estimation des erreurs standards et la sur estimation des tests statistiques.

• La régression de Poisson peut être ajustée afin de corriger pour la sur dispersion des données mais la régression binomiale négative est souvent une solution préférable dans cette situation.

30

Page 31: Analyses de régression pour modéliser des effectifs11 5 12 3 13 1 14 1 15 5 16 4 17 1 20 5 22 2 23 3 25 1 27 2 30 1 32 3 33 1 37 3 40 1 57 1 74 1 Régression de poisson Estimation

Références

Matériel de référence IBM SPSS :

� IBM SPSS Advanced Statistics 21. IBM Corporation 1989, 2012. Chapitre 6. Modèles linéaires généralisés.

� Site internet accessible par le menu d’aide du logiciel.

Ouvrages de référence :

� Norusis, Marija J. 2012. SPSS 19.0 Advanced Statistical Procedures Companion. New Jersey : Prentice Hall Inc.

� Allison, Paul D. 2012. Logistic Regression Using the SAS System : Theory and Application, Second Edition. Cary, NC : SAS Institute Inc.

� Gardner, William Mulvey, Edward P. and Shaw, Esther C. 1995. Regression Analyses of Counts and Rates : Poisson, Overdispersed Poisson, and Negative Binomial Models. Psychological Bulletin, 118:3, 392-404.

31