equations d’estimation généralisées: gee
DESCRIPTION
Michel Chavance. Equations d’estimation généralisées: GEE. Equations d’estimation généralisées (GEE). Adaptation au cadre du modèle linéaire généralisé de 2 extensions du modèle linéaire - PowerPoint PPT PresentationTRANSCRIPT
16/03/07 1
Equations d’estimation généralisées: GEE
Michel Chavance
Equations d’estimation généralisées (GEE)Adaptation au cadre du modèle linéaire généralisé de 2
extensions du modèle linéaire Remplacement de l’hypothèse sur la distribution par une
hypothèse sur sa moyenne et sa variance (mais on estime toujours les paramètres par les moindres carrés)
Prise en compte d’une éventuelle mauvaise spécification de la variance
Modèle linéaire Les observations sont supposées normales, indépendantes et
de variance constante Les équations du maximum de vraisemblance ont la forme
La variance de l’estimateur est l’inverse de la variance des scores
0)('
iii
i
ii
YX
X
11
1'1
1'11
'
)()ˆ(
XVX
V
VYVarVVar
ii
i
iiii
i
Modèle linéaire (2) Si les observations sont normales, indépendantes et de
variance constante, l’estimateur des moindres carrés est l’estimateur du maximum de vraisemblance. Il est asymptotiquement sans biais et de variance minimale
Si les observations ne sont pas normales, indépendantes et de variance constante, les moindres carrés restent un critère d’optimisation raisonnable, les équations d’estimation sont les mêmes et on obtient l’estimateur linéaire de variance minimale
Modèle linéaire généralisé On connaît la famille de distribution, donc la relation entre
moyenne et variance : fonction variance V Les équations du maximum de vraisemblance ont la forme
Si V est correctement spécifiée, la variance de l’estimateur est l’inverse de la variance des scores
)( avec 0)(1'
iiiii
ii
ii VVYV
1'1
1'11 )()ˆ(
ii
i
iiii
i
V
VYVarVVar
Maximisation de la quasi-vraisemblance On ne connaît pas la distribution de Y (ni la vraisemblance
des paramètres) On connaît la fonction variance V() et on suppose
E(Yi) =
g() =Xi Var(Yi) = Vi = V(i)
L’équation
optimise en une « quasi-vraisemblance » et fournit un estimateur de bonne qualité : asymptotiquement sans biais et normal. Il est inutile de connaître l’expression de la log-quasi-vraisemblance (= intégrale du quasi-score / )
0)(1
ii
ii
i YV
Maximisation de la quasi-vraisemblance (2) Les équations du maximum de quasi vraisemblance
optimisent en une « quasi-vraisemblance » Variance de l’estimateur: c’est l’inverse de la variance des
quasi-scores
0)(1
ii
ii
i YV
spécifiéebien V si
)()ˆ(
i
1'1
1'11
ii
i
i
iii
ii
i
V
VYVarVVar
Maximisation de la quasi-vraisemblance (3)
Si la matrice de variance est mal spécifiée, des simplifications dans le calcul de la variance de ne sont plus possibles, elle devient
'11
1'1
11
)(
avec )ˆ(
iii
ii
i
ii
i
i
VYVarVB
VA
BAAVar
Exemple : observations corrélées Si les observations individuelles sont normales, la loi
conjointe est multinormale Si les observations individuelles sont binaires ou de comptage pas d’équivalent multivarié de la binomiale ou de la Poisson facile à manipuler
• Solution : formuler un modèle marginal pour les moyennes, supposer les observations indépendantes, mais utiliser un estimateur robuste (sandwich) pour la variance de
Modèle marginal
Le modèle stipule- le lien g(ij)
- le prédicteur linéaire g(ij) = Xij
- la variance marginale Var(Yij) = Vij
- la structure de la matrice des corrélations
ii
k
i
k
i
k
i
i
Y
Y
Y
..
.
...
111
GEE = équations d’estimation généralisées
• On peut espérer obtenir un estimateur plus efficace si l’on tient compte de la structure de corrélation en spécifiant une matrice de corrélation R autre que l’identité et en estimant
• Liang et Zeger (1986) ont proposé d’alterner• Estimation de par
• Estimation de par la méthode des moments • C’est un estimateur asymptotiquement sans biais, même si V
est mal spécifiée, à condition que V soit estimable; mais on gagne en efficacité quand V est bien spécifiée
2/12/1i
1 )( avec 0)( iiiiii
ii VRVY
Symétrie de compositionType =independent : = 0
Type=exchangeable
.
1....
...
.1..1
AutorégressiveType=AR(1)
1....
......1
..1
2
2
2
2
k
k
Type = m-dependentOn peut fixer le nombre m de diagonales non nulles
1....
......1
..1
12
11
2
12
1
21
m
m
Non structurée
1......
1..1
1
212
112
k
k
k
Enquête de satisfaction Deux questions
Etes vous satisfait de votre logement NON / OUI (Y=0, 1)
Etes vous satisfait de son environnement NON / OUI / Très satisfait (X = 0, 1, 2)
20 zones, 3 à 5 foyers par zone Modéliser la relation entre Y et X
GEEproc genmod data =mixb descending ;class groupe ;model domb = voisinage/ dist=binomial link=logit ;
repeated subject=groupe / type = cs modelse covb corrw ;
=0.82 écart-type sandwich = 0.38écart-type modèle = 0.34
Criteria For Assessing Goodness Of Fit
Criterion DF Value Value/DF
Deviance 94 124.9594 1.3294 Scaled Deviance 94 124.9594 1.3294 Pearson Chi-Square 94 96.0305 1.0216 Scaled Pearson X2 94 96.0305 1.0216 Log Likelihood -62.4797
Analysis Of Initial Parameter Estimates
Standard Wald 95% Confidence Chi- Parameter DF Estimate Error Limits Square Pr > ChiSq
Intercept 1 -0.9761 0.3994 -1.7588 -0.1933 5.97 0.0145 voisinage 1 1.0007 0.3761 0.2635 1.7379 7.08 0.0078 Scale 0 1.0000 0.0000 1.0000 1.0000
Ce tableau concerne l’estimation par maximisation de la vraisemblance de données supposées indépendantes
GEE Model Information
Correlation Structure Exchangeable Subject Effect groupe (20 levels) Number of Clusters 20 Correlation Matrix Dimension 5 Maximum Cluster Size 5 Minimum Cluster Size 3
Covariance Matrix (Model-Based)
Prm1 Prm2
Prm1 0.17135 -0.10377 Prm2 -0.10377 0.11502
Covariance Matrix (Empirical)
Prm1 Prm2
Prm1 0.19373 -0.13163 Prm2 -0.13163 0.14464
GEE Model Information
Correlation Structure Exchangeable Subject Effect groupe (20 levels) Number of Clusters 20 Correlation Matrix Dimension 5 Maximum Cluster Size 5 Minimum Cluster Size 3
Covariance Matrix (Model-Based)
Prm1 Prm2
Prm1 0.17135 -0.10377 Prm2 -0.10377 0.11502
Covariance Matrix (Empirical)
Prm1 Prm2
Prm1 0.19373 -0.13163 Prm2 -0.13163 0.14464
Working Correlation Matrix
Col1 Col2 Col3 Col4 Col5 Row1 1.0000 0.1979 0.1979 0.1979 0.1979 Row2 0.1979 1.0000 0.1979 0.1979 0.1979 Row3 0.1979 0.1979 1.0000 0.1979 0.1979 Row4 0.1979 0.1979 0.1979 1.0000 0.1979 Row5 0.1979 0.1979 0.1979 0.1979 1.0000
Analysis Of GEE Parameter Estimates Empirical Standard Error Estimates
Standard 95% Confidence Parameter Estimate Error Limits Z Pr > |Z|
Intercept -0.8106 0.4401 -1.6732 0.0521 -1.84 0.0655 voisinage 0.8204 0.3803 0.0750 1.5658 2.16 0.0310
Analysis Of GEE Parameter Estimates Model-Based Standard Error Estimates
Standard 95% Confidence Parameter Estimate Error Limits Z Pr > |Z|
Intercept -0.8106 0.4139 -1.6219 0.0008 -1.96 0.0502 voisinage 0.8204 0.3391 0.1557 1.4851 2.42 0.0156 Scale 1.0000 . . . . .
Régression logistique alternée Corrélation entre 2 observations d’un même groupe
Pour les observations binaires, Carey, Diggle et Zeger (1993)
ont proposé de modéliser les associations intra-groupe à l’aide de l’odds ratio par paires
Pratiquement, on estime alternativement, et jusqu’à convergence Le vecteur sachant sachant
0,11,0
0,01,1
ikijikij
ikijikijijk YYPYYP
YYPYYP
ikikijij
ikijikijikij
YYPYYcor
11)1,1(
),(
Régression logistique alternéeproc genmod data =mixb descending ;class groupe ;model domb = voisinage / dist=binomial link=logit ;repeated subject=groupe / logor=exch modelse covb ;
vois= 0.84 sd = 0.38 (sandwich) sd = 0.35 (modèle)
Données de comptage corrélées: GEEComparaison de 2 traitements (TT) de l’épilepsie
Suivi longitudinal du nombre de crises hebdomadaires, visite = rang de l’observation, logsemaines = terme de compensation (offset) pour tenir compte de la durée inégale des délais entre 2 visites
Log[E(crises)] = +TT) visite +logsemaines
GEEproc genmod data=epilepsie2;
title "EPILEPSIE modele log-lineaire" ;
class tt id ;
model crises = tt visite tt*visite /
offset = logsemaines dist=poisson link=log ;
repeated subject=id/ type=ind covb corrw ;
Log[E(crises)] = +TT) visite +logsemaines
proc genmod data=epilepsie2 order=data ; title "EPILEPSIE modele log-lineaire" ; class tt id visiteb ; model crises = tt visite tt*visite / offset = logsemaines dist=poisson link=log ;
repeated subject=id / withinsubject=visiteb type=ind covb corrw ;
Analysis Of GEE Parameter Estimates Empirical Standard Error Estimates Standard 95% Confidence Parameter Estimate Error Limits Z Pr > |Z| Intercept 1.3810 0.1586 1.0700 1.6919 8.70 <.0001 tt 1 -0.1523 0.1939 -0.5322 0.2277 -0.79 0.4323 tt 0 0.0000 0.0000 0.0000 0.0000 . . visite 0.0185 0.0400 -0.0598 0.0969 0.46 0.6426 visite*tt 1 -0.0865 0.0573 -0.1988 0.0258 -1.51 0.1311 visite*tt 0 0.0000 0.0000 0.0000 0.0000 . .
Estimation des ressemblances par quasi-vraisemblance• Estimer la matrice de travail en maximisant une quasi-
vraisemblance, non par la méthode des moments (Prentice, 1988)
• On modélise les probabilités et les corrélations marginales
• On estime et par GEE
)()()(logit
11)(
fZEX
YYZZ
ii
ii
ikikijij
ikikijijijkijk
ijki
iiiii
iiii
iiii
ZdiagWdiagRdiagV
ZWE
YVD
var)1()()1(
0'
0'1
1
Ressemblances intra-groupes: GEE1
• Que l’on estime les paramètres de la ressemblance intra-groupe par la méthode des moments, par la régression logistique alternée, ou avec les équations précédentes, les estimateurs de et sont indépendants.
• Avantage : les erreurs de spécifications de la structure intra-groupe ne biaisent pas l’estimation de
• Inconvénient: on risque de perdre de l’efficacité par rapport à un estimateur qui saurait prendre en compte les corrélations entre les deux estimateurs
Extension : de GEE1 à GEE2
ijki
iiiii
iiii
iiii
ZdiagWdiagRdiagV
ZWE
YVD
var)1()()1(
0'
0'1
1
Les Zijk sont supposés indépendants Les estimateurs de et sont supposés indépendants Il faut donc utiliser l’estimateur sandwich de la variance qui fait maintenant
intervenir les moments d’ordre 4 des observations
00
0
0
0 1
ii
ii
i
i
i
i
ZY
WV
Extension des GEE: GEE2
Les Zijk ne sont pas supposés indépendants :on spécifie une matrice de corrélations de travail
Les estimateurs de et ne sont plus supposés indépendants Les erreurs de spécification de la matrice des corrélations vont biaiser
l’estimation de puisque celle ci intervient maintenant dans l’estimateur
0),(),(),(),( 1
i ii
ii
iiii
iiii
ii
ii
ZY
ZZVZYVYZVYYV
Modèle linéaire généralisé mixte: GLMM
• Pour estimer et Gi, il faut intégrer par rapport aux bi
• On ne sait le faire analytiquement que dans des cas particuliers• Y et b normaux, • Y Poisson et b ordonnée à l’origine gamma• Y binomiale et b ordonnée à l’origine beta
iiiiijii
iijijij
ijiij
RZGZYVarGNb
bZXg
bYE
'
i
X des tsindépendaneteux entre tsindépendan b
),0(
)(
GLMM: estimationQue faire dans le cas général: utiliser des méthodes numériques• Approcher l’espérance par un développement limité autour de
la médiane des bi = 0 (1er ou 2ème ordre)
C’est la justification du modèle logistique marginal
• Utiliser une approximation autour du mode de la distribution des bi (méthode de Laplace)
• Utiliser une méthode d’intégration numérique• Quadrature• Quadrature adaptative
)(')()( ijiijijiijij XgbZXgbZXg
BiblioGouriéroux, C, Monfort, A, Trognon, A. Pseudo
maximum likelihood methods: theory. Econometrika, 1984;52:681-700
Liang KY, Zeger, SL. Longitudinal analysis using generalized linear models. Biometrika, 1986;73:13-22.
Prentice RL. Correlated binary regression with covariates specific to each binary observation. Biometrics, 1988;44:1033-1048.
Zhao, LP, Prentice SL. Correlated binary regression using a quadratic exponential model. Biometrika,1990;77:642-648.
Carey, VJ, Zeger, SL, Diggle, PJ., Modelling multivariate binary data with alternating logistic regression. Biometrika, 1993;80:517-526.