equations d’estimation généralisées: gee

16/03/07 1

Equations d’estimation généralisées: GEE

Michel Chavance

Equations d’estimation généralisées (GEE)Adaptation au cadre du modèle linéaire généralisé de 2

extensions du modèle linéaire Remplacement de l’hypothèse sur la distribution par une

hypothèse sur sa moyenne et sa variance (mais on estime toujours les paramètres par les moindres carrés)

Prise en compte d’une éventuelle mauvaise spécification de la variance

Modèle linéaire Les observations sont supposées normales, indépendantes et

de variance constante Les équations du maximum de vraisemblance ont la forme

La variance de l’estimateur est l’inverse de la variance des scores

0)('

iii

i

ii

YX

X

11

1'1

1'11

'

)()ˆ(

XVX

V

VYVarVVar

ii

i

iiii

i

Modèle linéaire (2) Si les observations sont normales, indépendantes et de

variance constante, l’estimateur des moindres carrés est l’estimateur du maximum de vraisemblance. Il est asymptotiquement sans biais et de variance minimale

Si les observations ne sont pas normales, indépendantes et de variance constante, les moindres carrés restent un critère d’optimisation raisonnable, les équations d’estimation sont les mêmes et on obtient l’estimateur linéaire de variance minimale

Modèle linéaire généralisé On connaît la famille de distribution, donc la relation entre

moyenne et variance : fonction variance V Les équations du maximum de vraisemblance ont la forme

Si V est correctement spécifiée, la variance de l’estimateur est l’inverse de la variance des scores

)( avec 0)(1'

iiiii

ii

ii VVYV

1'1

1'11 )()ˆ(

ii

i

iiii

i

V

VYVarVVar

Maximisation de la quasi-vraisemblance On ne connaît pas la distribution de Y (ni la vraisemblance

des paramètres) On connaît la fonction variance V() et on suppose

E(Yi) =

g() =Xi Var(Yi) = Vi = V(i)

L’équation

optimise en une « quasi-vraisemblance » et fournit un estimateur de bonne qualité : asymptotiquement sans biais et normal. Il est inutile de connaître l’expression de la log-quasi-vraisemblance (= intégrale du quasi-score / )

0)(1

ii

ii

i YV

Maximisation de la quasi-vraisemblance (2) Les équations du maximum de quasi vraisemblance

optimisent en une « quasi-vraisemblance » Variance de l’estimateur: c’est l’inverse de la variance des

quasi-scores

0)(1

ii

ii

i YV

spécifiéebien V si

)()ˆ(

i

1'1

1'11

ii

i

i

iii

ii

i

V

VYVarVVar

Maximisation de la quasi-vraisemblance (3)

Si la matrice de variance est mal spécifiée, des simplifications dans le calcul de la variance de ne sont plus possibles, elle devient

'11

1'1

11

)(

avec )ˆ(

iii

ii

i

ii

i

i

VYVarVB

VA

BAAVar

Exemple : observations corrélées Si les observations individuelles sont normales, la loi

conjointe est multinormale Si les observations individuelles sont binaires ou de comptage pas d’équivalent multivarié de la binomiale ou de la Poisson facile à manipuler

• Solution : formuler un modèle marginal pour les moyennes, supposer les observations indépendantes, mais utiliser un estimateur robuste (sandwich) pour la variance de

Modèle marginal

Le modèle stipule- le lien g(ij)

- le prédicteur linéaire g(ij) = Xij

- la variance marginale Var(Yij) = Vij

- la structure de la matrice des corrélations

ii

k

i

k

i

k

i

i

Y

Y

Y

..

.

...

111

GEE = équations d’estimation généralisées

• On peut espérer obtenir un estimateur plus efficace si l’on tient compte de la structure de corrélation en spécifiant une matrice de corrélation R autre que l’identité et en estimant

• Liang et Zeger (1986) ont proposé d’alterner• Estimation de par

• Estimation de par la méthode des moments • C’est un estimateur asymptotiquement sans biais, même si V

est mal spécifiée, à condition que V soit estimable; mais on gagne en efficacité quand V est bien spécifiée

2/12/1i

1 )( avec 0)( iiiiii

ii VRVY

Symétrie de compositionType =independent : = 0

Type=exchangeable

.

1....

...

.1..1

AutorégressiveType=AR(1)

1....

......1

..1

2

2

2

2

k

k

Type = m-dependentOn peut fixer le nombre m de diagonales non nulles

1....

......1

..1

12

11

2

12

1

21

m

m

Non structurée

1......

1..1

1

212

112

k

k

k

Enquête de satisfaction Deux questions

Etes vous satisfait de votre logement NON / OUI (Y=0, 1)

Etes vous satisfait de son environnement NON / OUI / Très satisfait (X = 0, 1, 2)

20 zones, 3 à 5 foyers par zone Modéliser la relation entre Y et X

GEEproc genmod data =mixb descending ;class groupe ;model domb = voisinage/ dist=binomial link=logit ;

repeated subject=groupe / type = cs modelse covb corrw ;

=0.82 écart-type sandwich = 0.38écart-type modèle = 0.34

Criteria For Assessing Goodness Of Fit

Criterion DF Value Value/DF

Deviance 94 124.9594 1.3294 Scaled Deviance 94 124.9594 1.3294 Pearson Chi-Square 94 96.0305 1.0216 Scaled Pearson X2 94 96.0305 1.0216 Log Likelihood -62.4797

Analysis Of Initial Parameter Estimates

Standard Wald 95% Confidence Chi- Parameter DF Estimate Error Limits Square Pr > ChiSq

Intercept 1 -0.9761 0.3994 -1.7588 -0.1933 5.97 0.0145 voisinage 1 1.0007 0.3761 0.2635 1.7379 7.08 0.0078 Scale 0 1.0000 0.0000 1.0000 1.0000

Ce tableau concerne l’estimation par maximisation de la vraisemblance de données supposées indépendantes

GEE Model Information

Correlation Structure Exchangeable Subject Effect groupe (20 levels) Number of Clusters 20 Correlation Matrix Dimension 5 Maximum Cluster Size 5 Minimum Cluster Size 3

Covariance Matrix (Model-Based)

Prm1 Prm2

Prm1 0.17135 -0.10377 Prm2 -0.10377 0.11502

Covariance Matrix (Empirical)

Prm1 Prm2

Prm1 0.19373 -0.13163 Prm2 -0.13163 0.14464

Working Correlation Matrix

Col1 Col2 Col3 Col4 Col5 Row1 1.0000 0.1979 0.1979 0.1979 0.1979 Row2 0.1979 1.0000 0.1979 0.1979 0.1979 Row3 0.1979 0.1979 1.0000 0.1979 0.1979 Row4 0.1979 0.1979 0.1979 1.0000 0.1979 Row5 0.1979 0.1979 0.1979 0.1979 1.0000

Analysis Of GEE Parameter Estimates Empirical Standard Error Estimates

Standard 95% Confidence Parameter Estimate Error Limits Z Pr > |Z|

Intercept -0.8106 0.4401 -1.6732 0.0521 -1.84 0.0655 voisinage 0.8204 0.3803 0.0750 1.5658 2.16 0.0310

Analysis Of GEE Parameter Estimates Model-Based Standard Error Estimates

Standard 95% Confidence Parameter Estimate Error Limits Z Pr > |Z|

Intercept -0.8106 0.4139 -1.6219 0.0008 -1.96 0.0502 voisinage 0.8204 0.3391 0.1557 1.4851 2.42 0.0156 Scale 1.0000 . . . . .

Régression logistique alternée Corrélation entre 2 observations d’un même groupe

Pour les observations binaires, Carey, Diggle et Zeger (1993)

ont proposé de modéliser les associations intra-groupe à l’aide de l’odds ratio par paires

Pratiquement, on estime alternativement, et jusqu’à convergence Le vecteur sachant sachant

0,11,0

0,01,1

ikijikij

ikijikijijk YYPYYP

YYPYYP

ikikijij

ikijikijikij

YYPYYcor

11)1,1(

),(

Régression logistique alternéeproc genmod data =mixb descending ;class groupe ;model domb = voisinage / dist=binomial link=logit ;repeated subject=groupe / logor=exch modelse covb ;

vois= 0.84 sd = 0.38 (sandwich) sd = 0.35 (modèle)

Données de comptage corrélées: GEEComparaison de 2 traitements (TT) de l’épilepsie

Suivi longitudinal du nombre de crises hebdomadaires, visite = rang de l’observation, logsemaines = terme de compensation (offset) pour tenir compte de la durée inégale des délais entre 2 visites

Log[E(crises)] = +TT) visite +logsemaines

GEEproc genmod data=epilepsie2;

title "EPILEPSIE modele log-lineaire" ;

class tt id ;

model crises = tt visite tt*visite /

offset = logsemaines dist=poisson link=log ;

repeated subject=id/ type=ind covb corrw ;

Log[E(crises)] = +TT) visite +logsemaines

proc genmod data=epilepsie2 order=data ; title "EPILEPSIE modele log-lineaire" ; class tt id visiteb ; model crises = tt visite tt*visite / offset = logsemaines dist=poisson link=log ;

repeated subject=id / withinsubject=visiteb type=ind covb corrw ;

Analysis Of GEE Parameter Estimates Empirical Standard Error Estimates Standard 95% Confidence Parameter Estimate Error Limits Z Pr > |Z| Intercept 1.3810 0.1586 1.0700 1.6919 8.70 <.0001 tt 1 -0.1523 0.1939 -0.5322 0.2277 -0.79 0.4323 tt 0 0.0000 0.0000 0.0000 0.0000 . . visite 0.0185 0.0400 -0.0598 0.0969 0.46 0.6426 visite*tt 1 -0.0865 0.0573 -0.1988 0.0258 -1.51 0.1311 visite*tt 0 0.0000 0.0000 0.0000 0.0000 . .

Estimation des ressemblances par quasi-vraisemblance• Estimer la matrice de travail en maximisant une quasi-

vraisemblance, non par la méthode des moments (Prentice, 1988)

• On modélise les probabilités et les corrélations marginales

• On estime et par GEE

)()()(logit

11)(

fZEX

YYZZ

ii

ii

ikikijij

ikikijijijkijk

ijki

iiiii

iiii

iiii

ZdiagWdiagRdiagV

ZWE

YVD

var)1()()1(

0'

0'1

1

Ressemblances intra-groupes: GEE1

• Que l’on estime les paramètres de la ressemblance intra-groupe par la méthode des moments, par la régression logistique alternée, ou avec les équations précédentes, les estimateurs de et sont indépendants.

• Avantage : les erreurs de spécifications de la structure intra-groupe ne biaisent pas l’estimation de

• Inconvénient: on risque de perdre de l’efficacité par rapport à un estimateur qui saurait prendre en compte les corrélations entre les deux estimateurs

Extension : de GEE1 à GEE2

ijki

iiiii

iiii

iiii

ZdiagWdiagRdiagV

ZWE

YVD

var)1()()1(

0'

0'1

1

Les Zijk sont supposés indépendants Les estimateurs de et sont supposés indépendants Il faut donc utiliser l’estimateur sandwich de la variance qui fait maintenant

intervenir les moments d’ordre 4 des observations

00

0

0

0 1

ii

ii

i

i

i

i

ZY

WV

Extension des GEE: GEE2

Les Zijk ne sont pas supposés indépendants :on spécifie une matrice de corrélations de travail

Les estimateurs de et ne sont plus supposés indépendants Les erreurs de spécification de la matrice des corrélations vont biaiser

l’estimation de puisque celle ci intervient maintenant dans l’estimateur

0),(),(),(),( 1

i ii

ii

iiii

iiii

ii

ii

ZY

ZZVZYVYZVYYV

Modèle linéaire généralisé mixte: GLMM

• Pour estimer et Gi, il faut intégrer par rapport aux bi

• On ne sait le faire analytiquement que dans des cas particuliers• Y et b normaux, • Y Poisson et b ordonnée à l’origine gamma• Y binomiale et b ordonnée à l’origine beta

iiiiijii

iijijij

ijiij

RZGZYVarGNb

bZXg

bYE

'

i

X des tsindépendaneteux entre tsindépendan b

),0(

)(

GLMM: estimationQue faire dans le cas général: utiliser des méthodes numériques• Approcher l’espérance par un développement limité autour de

la médiane des bi = 0 (1er ou 2ème ordre)

C’est la justification du modèle logistique marginal

• Utiliser une approximation autour du mode de la distribution des bi (méthode de Laplace)

• Utiliser une méthode d’intégration numérique• Quadrature• Quadrature adaptative

)(')()( ijiijijiijij XgbZXgbZXg

BiblioGouriéroux, C, Monfort, A, Trognon, A. Pseudo

maximum likelihood methods: theory. Econometrika, 1984;52:681-700

Liang KY, Zeger, SL. Longitudinal analysis using generalized linear models. Biometrika, 1986;73:13-22.

Prentice RL. Correlated binary regression with covariates specific to each binary observation. Biometrics, 1988;44:1033-1048.

Zhao, LP, Prentice SL. Correlated binary regression using a quadratic exponential model. Biometrika,1990;77:642-648.

Carey, VJ, Zeger, SL, Diggle, PJ., Modelling multivariate binary data with alternating logistic regression. Biometrika, 1993;80:517-526.

equations d’estimation généralisées: gee

Documents