1 modèle linéaire généralisé (proc genmod) michel tenenhaus

69
1 Modèle Linéaire Généralisé (Proc Genmod) Michel Tenenhaus

Upload: sacheverell-foucault

Post on 03-Apr-2015

122 views

Category:

Documents


1 download

TRANSCRIPT

Page 1: 1 Modèle Linéaire Généralisé (Proc Genmod) Michel Tenenhaus

1

Modèle Linéaire Généralisé(Proc Genmod)

Michel Tenenhaus

Page 2: 1 Modèle Linéaire Généralisé (Proc Genmod) Michel Tenenhaus

2

I. Les données

Y = Variable à expliquer

X1,…, Xp = Variables explicatives

Nature de YLoi de Y

(Famille exponentielle) Y binaire Binomiale Y ordinale Multinomiale

( famille exponentielle) Y comptage Poisson Y continue - Normale

- Gamma (cas part. : Exponentielle)- Gauss Inverse ( Log-normale ou Weibull)

Page 3: 1 Modèle Linéaire Généralisé (Proc Genmod) Michel Tenenhaus

3

II. La famille exponentielle

Loi de Y

y b( )f (y; , ) exp{ c(y, )}

a( )

- Les fonctions a, b, c sont fixées.- est un paramètre de dispersion ou « nuisance parameter ».- a() = pour des données individuelles,

= /w pour des données groupées (w = effectif du groupe)

Page 4: 1 Modèle Linéaire Généralisé (Proc Genmod) Michel Tenenhaus

4

Résultats

1. = E(Y) = b´()

2. Dans la pratique b´() est monotone :

3. Var(Y) = a()b()

4. b() = b(gc()) = ()

= gc() gc est la fonction de liencanonique.

Var(Y) = a() ()

() est la fonction-variance.

Page 5: 1 Modèle Linéaire Généralisé (Proc Genmod) Michel Tenenhaus

5

1. Loi de Poisson

yeP(Y y; )

y !

log( ) y = exp Log(y!)

1

De :

on déduit :

= Log(), b() = , a() = 1

D’où : E(Y) = Var(Y) =

Page 6: 1 Modèle Linéaire Généralisé (Proc Genmod) Michel Tenenhaus

6

2. Loi binomiale

my m mymP(Y y; ) (1 )

my

1Log y Log

m1 1 = exp{ Log }

1 mym

avec y = 0, 1/m, 2/m, ..., 1

De :

on déduit :

D’où :

E(Y) = et Var(Y) = (1 - )/m

1 1Log , b( ) Log Log(1 e ), a( ) =

1 1 m

Page 7: 1 Modèle Linéaire Généralisé (Proc Genmod) Michel Tenenhaus

7

3. Loi normale

22

2

22

22 2

1 (y )f (y; , ) exp( )

221

y y 12 = exp{ Log(2 )} 2 2

De :

on déduit :

D’où :

E(Y) = et Var(Y) = 2

2 21, b( ) , a( ) =

2

Page 8: 1 Modèle Linéaire Généralisé (Proc Genmod) Michel Tenenhaus

8

4. Loi gamma

1 y yf (y; , ) exp( )

( )y

1 1y ( ) ( Log( ))

= exp{ Log( ( )y) Log(y )}1

pour y > 0

De :

on déduit :

D’où :

E(Y) = , Var(Y) = 2/, et CV =

1 1 1, b( ) Log( ), a( ) =

1/

Page 9: 1 Modèle Linéaire Généralisé (Proc Genmod) Michel Tenenhaus

9

5. Loi de Gauss inverse

22

2

23 2

2 2

1 (y )f (y; , ) exp( )

2( ) y2

1 1y

2 1 1 = exp{

pour y

Log(2 y )} 2 y 2

> 0

De :

on déduit :

D’où :

E(Y) = , Var(Y) = 32, et CV =

22

1 1, b( ) , a( ) =

2

Page 10: 1 Modèle Linéaire Généralisé (Proc Genmod) Michel Tenenhaus

10

III. Fonction de lien canonique

De E(Y) b '( ) on déduit : cg ( )

L o i g c D i s p e r s i o n G e n m o d S c a l e

B i n o m i a l e L o g1

1

P o i s s o n = L o g ( ) 1

N o r m a l e = 2

G a m m a ( 1 )

c

1 1g

- 1

G a u s s i n v e r s e ( 2 )

c2 2

1 1g

2

2

1 C V = , C( 1 V ) ( 2 ) =

,

Page 11: 1 Modèle Linéaire Généralisé (Proc Genmod) Michel Tenenhaus

11

Autres fonctions de lien usuelles

• Complementary Log Log

• Power

• Probit

g( ) Log Log(1 )

g( )

g( ) fractile d'ordre de la loi

normale réduite

Page 12: 1 Modèle Linéaire Généralisé (Proc Genmod) Michel Tenenhaus

12

IV. Le modèle Linéaire GénéraliséLes données

- Individuelles : (yi, x1i,…, xpi), i = 1,…, n

- Groupées : , i = 1,…, n

Loi de Yi

i i 1i pi( y ,n , x ,..., x )

i i ii i

y b( )f (y ; , ) exp{ c(y , )}

a( )

Le modèlei j ji

j

g( ) x

Généralisation au niveau de la fonction de réponse (g(i) au lieu de i ,et au niveau de la loi de Yi (famille exponentielle au lieu de la loi normale).

Page 13: 1 Modèle Linéaire Généralisé (Proc Genmod) Michel Tenenhaus

13

Estimation des j par maximum de vraisemblance

La loi de Yi

peut s’écrire en fonction de 1,…, p en remplaçant

i par :

puisque .

i i ii i i

y b( )f (y ; , ) exp{ c(y , )}

a( )

1i c i c j ji

j

g ( ) g {g ( x )}

i j jij

g( ) x

Page 14: 1 Modèle Linéaire Généralisé (Proc Genmod) Michel Tenenhaus

14

Résultats de la maximisation de la vraisemblance

De

on déduit :

À maximiser sur et éventuellement sur .

D ’où :

puisque .

1i c i c j hi

j

g ( ) g {g ( x )}

n

i ii 1

n1

i c j hiji 1

L f (y ; , )

= f (y ; g {g ( x )}, )

1 '

i iˆˆ g (x )

n

i c ii 1

ˆ ˆL(y, ) f (y ; g ( ), )

Page 15: 1 Modèle Linéaire Généralisé (Proc Genmod) Michel Tenenhaus

15

« Estimating Equations »

On définit la log-vraisemblance

On obtient en annulant le vecteur Score .

avec .

n1 '

i c ii 1

L Log( )

= Log( f (y ; g {g (x )}, ) Log( (y, ))

ni i i

i 1 i

(y )U 0

Var(Y )

1 'i ig (x )

L

U

( ) :L Log

i

Page 16: 1 Modèle Linéaire Généralisé (Proc Genmod) Michel Tenenhaus

16

Déviance normalisée D* (Scaled deviance)

Modèle étudié :

Modèle saturé :

Déviance normalisée :

si le modèle étudié est exact (approximation médiocre).

puisque .

ˆ ˆL(y, ) Log( (y, ))

*

2n-nombre de paramètres

ˆD 2 L(y, y) L(y, )

L(y, y) Log( (y, y))

Page 17: 1 Modèle Linéaire Généralisé (Proc Genmod) Michel Tenenhaus

17

Déviance D des lois standards

La déviance D est égale à D*

L oi D éviance

N orm ale 2 2i iˆ(y )

P oisson 1 2 ii i i

i

yˆ(y L og (y )

ˆ

B inom iale

(prop ortion y i = r i/m i)1 i i

i ii i

y 1 y2 (y L og (1 y )L og )

ˆ ˆ1

G am m a -1

i

ii

i

i

ˆ

ˆyˆy

log2

G auss inverse 2

i2i

2ii

yˆ)ˆy(

2

Une fois fixé, le maximum de vraisemblance conduità minimiser la déviance D.

Page 18: 1 Modèle Linéaire Généralisé (Proc Genmod) Michel Tenenhaus

18

Étude de

1

2

ˆ ~ ( , )

( ) J -E

N J

Logoù

Loi de

Intervalle de confiance de (Wald)

)ˆ(Var96.1ˆj

Page 19: 1 Modèle Linéaire Généralisé (Proc Genmod) Michel Tenenhaus

19

Intervalle de confiance de j

*

ˆ ˆ

ˆ ˆ( ; ) ( ; ) i

j

j i iles

avec fixé

L y Max L x y

« Profile likelihood function »

Intervalle de confiance de j

0.95

* 2j j

ˆ | 2 L( ,y)-L ( , y) (1)

Page 20: 1 Modèle Linéaire Généralisé (Proc Genmod) Michel Tenenhaus

20

Intervalle de confiance de i

)ˆx(g 'i

1i

x)ˆ(Varx96.1ˆxg i'i

'i

1

De :

on déduit l’intervalle de i à 95% :

Page 21: 1 Modèle Linéaire Généralisé (Proc Genmod) Michel Tenenhaus

21

Test de l ’hypothèse linéaire générale H0 : L´ = 0

ˆL')ˆ(Var'L)'ˆ'L(S-1

WALD

suit un 2(rang L) sous l’hypothèse H0.

0

ˆ ˆ2 ( ( )) ( ( ))HS Log Log

LRT (Likelihood Ratio Test)

suit un 2(rang L) sous l’hypothèse H0.

LRT est meilleur que Wald

Page 22: 1 Modèle Linéaire Généralisé (Proc Genmod) Michel Tenenhaus

22

Analyse des résidus

iii ˆyr Résidu observé

iancevarfonction

i

iiPi

)ˆ(

ˆyr

Résidu-Pearson

iiiDi d)ˆy(signer

Résidu-déviance

déduiton d D Dei

i

Page 23: 1 Modèle Linéaire Généralisé (Proc Genmod) Michel Tenenhaus

23

Les résidus normalisés

Résidu-vraisemblance normalisé

2*Pii

2*Diiii

*Gi rhr)h1()ˆy(signer

Les résidu-Pearson et résidu-déviance sont normalisés

en les divisant par leurs écarts-types.

où rPi* et rDi

* sont les résidu-Pearson et résidu-déviance

normalisés, et hi le levier de l’observation i.

Les résidus normalisés peuvent être comparés à 2.

Page 24: 1 Modèle Linéaire Généralisé (Proc Genmod) Michel Tenenhaus

24

Estimation du paramètre de dispersion pour les lois binomiale et Poisson

théorique = 1

n

1i

2Pi

2P r

déviance D

~ 2(n-p)

E(D) = E(P2) = n - p

PSCALE)(Option pn

DSCALE)(Option p-n

D ˆ

2P

(p = nombre de paramètres)

Page 25: 1 Modèle Linéaire Généralisé (Proc Genmod) Michel Tenenhaus

25

Estimation du paramètre de dispersion pour les lois normales, Gamma et Gauss inverse

Les paramètres 1,…, p et sont estimés par

maximum de vraisemblance.

Page 26: 1 Modèle Linéaire Généralisé (Proc Genmod) Michel Tenenhaus

26

La sur-dispersion dans les modèles Poisson et Binomiale ( )

Réponse Yi Poisson ou Binomiale

ˆ 1.10

Poisson : Var(Yi) = i

Binomiale : Var(Yi) = i(1- i)

Matrice d’information de Fisher :

Loi de : N(,J-1)

n

1i ii

likikl )ˆ('g)Y(Var

xxJJ

Page 27: 1 Modèle Linéaire Généralisé (Proc Genmod) Michel Tenenhaus

27

Prise en compte de la sur-dispersion

Approche WALD

Poisson : Var(Yi) =

Binomiale : Var(Yi) =

J divisé par

J-1 multiplié par

~ N(, J-1)

Var( ) est multipliée par

Résultats moins significatifs

iˆ)1(ˆ ii

Page 28: 1 Modèle Linéaire Généralisé (Proc Genmod) Michel Tenenhaus

28

Prise en compte de la sur-dispersion

Approche LRT

Loi de Yi :

i i ii i i

y b( )f (y ; , ) exp{ c(y , )}

a( )

Poisson et Binomiale : a() = 1

Pour prendre en compte la sur-dispersion on pose a() =

Les tests LRT sont divisés par .

Les résultats sont moins significatifs.

Page 29: 1 Modèle Linéaire Généralisé (Proc Genmod) Michel Tenenhaus

29

Exemple Mélanome

Tranched’âge

Nombre de cas demélanomes, ni

Nombre estimé depersonnes soumises

au risque, Ni

RégionNord, ni

RégionSud, ni

RégionNord, Ni

RégionSud, Ni

< 3535-4445-5455-6465-7475

6176981046380

647568634527

2 880 262564 535592 983450 740270 908161 850

1 074 246220 407198 119134 08470 70834 233

Page 30: 1 Modèle Linéaire Généralisé (Proc Genmod) Michel Tenenhaus

30

Exemple Mélanome

Yi = ni = Nombre de cas observés parmi Ni personnes

soumises au risque

Modèle 1

Yi ~ Poisson (i) avec :

Région

AgeAge*Région

71

82

93 6

i i 0 104

115

3535

35 4435 44

45 5445 54 Nor

0

0

0

N exp( 00

0

0

d55 64

55 64 Sud65 74

65 7475

75Nor Sud

0

d0

)

Log(i) = Log(Ni) + 0 + 1(Age<35) + … + 11(Age(65-74)*Nord)

Page 31: 1 Modèle Linéaire Généralisé (Proc Genmod) Michel Tenenhaus

31

Exemple Mélanome : Code SAS pour le Modèle 1

data melanome;input id $ age $ region $ cas pop;logpop=log(pop);cards;n,<35 <35 n 61 2880262s,<35 <35 s 64 1074246...n,>74 >74 n 80 161850s,>74 >74 s 27 34233;proc genmod data=melanome order=data;class age region;model cas=age region age*region /dist=poisson link=log offset=logpop type3 ;run;

Page 32: 1 Modèle Linéaire Généralisé (Proc Genmod) Michel Tenenhaus

32

Exemple Mélanome : Résultat pour le Modèle 1

Criteria For Assessing Goodness Of Fit

Criterion DF Value Value/DF

Deviance 0 0.0000 .Scaled Deviance 0 0.0000 .Pearson Chi-Square 0 0.0000 .Scaled Pearson X2 0 0.0000 .Log Likelihood 2698.0337

LR Statistics For Type 3 Analysis

Chi-Source DF Square Pr > ChiSq

age 5 715.99 <.0001region 1 108.19 <.0001age*region 5 6.21 0.2859

Page 33: 1 Modèle Linéaire Généralisé (Proc Genmod) Michel Tenenhaus

33

Exemple Mélanome : Modèle 2

Yi ~ Poisson (i) avec :

Région

Ag

1

2

3 6i i 0

4

5

e

35

35 44

45 54 Nord

55 64 Sud

65

N exp( )0

0

74

75

Page 34: 1 Modèle Linéaire Généralisé (Proc Genmod) Michel Tenenhaus

34

Exemple Mélanome : résultat du Modèle 2

Criteria For Assessing Goodness Of Fit

Criterion DF Value Value/DF

Deviance 5 6.2149 1.2430Scaled Deviance 5 6.2149 1.2430Pearson Chi-Square 5 6.1151 1.2230Scaled Pearson X2 5 6.1151 1.2230Log Likelihood 2694.9262

LR Statistics For Type 3 Analysis

Chi-Source DF Square Pr > ChiSq

age 5 796.74 <.0001region 1 124.22 <.0001

Page 35: 1 Modèle Linéaire Généralisé (Proc Genmod) Michel Tenenhaus

35

Exemple Mélanome : résultat du Modèle 2Analysis Of Parameter Estimates

Standard Wald 95%Parameter DF Estimate Error Confidence Limits

Intercept 1 -6.8941 0.1079 -7.1057 -6.6826age <35 1 -2.9447 0.1320 -3.2035 -2.6859age 35-44 1 -1.1473 0.1268 -1.3958 -0.8988age 45-54 1 -1.0316 0.1242 -1.2750 -0.7881age 55-64 1 -0.7029 0.1240 -0.9458 -0.4599age 65-74 1 -0.5790 0.1364 -0.8464 -0.3115age >74 0 0.0000 0.0000 0.0000 0.0000region n 1 -0.8195 0.0710 -0.9587 -0.6803region s 0 0.0000 0.0000 0.0000 0.0000Scale 0 1.0000 0.0000 1.0000 1.0000

Chi-Parameter Square Pr > ChiSq

Intercept 4080.10 <.0001age <35 497.30 <.0001age 35-44 81.89 <.0001age 45-54 68.98 <.0001age 55-64 32.15 <.0001age 65-74 18.00 <.0001age >74 . .region n 133.11 <.0001region s . .Scale

NOTE: The scale parameter was held fixed.

Page 36: 1 Modèle Linéaire Généralisé (Proc Genmod) Michel Tenenhaus

36

Exemple Mélanome : Contrastes

proc genmod data=melanome order=data;class age region;model cas=age region/dist=poisson link=log offset=logpop type3 ;contrast '35-44 vs 45-54' age 0 -1 1 0 0 0;contrast '55-64 vs 65-74' age 0 0 0 -1 1 0;contrast '35-44 vs 45-54' age 0 -1 1 0 0 0 / wald;contrast '55-64 vs 65-74' age 0 0 0 -1 1 0 / wald;run;

Test « 35-44 vs 45-54 » : H0 : 2 = 3

Test « 55-64 vs 65-74 » : H0 : 4 = 5

Page 37: 1 Modèle Linéaire Généralisé (Proc Genmod) Michel Tenenhaus

37

Exemple Mélanome : Contrastes

Contrast Results

Chi-Contrast DF Square Pr > ChiSq Type

35-44 vs 45-54 1 1.06 0.3033 LR55-64 vs 65-74 1 1.00 0.3179 LR35-44 vs 45-54 1 1.06 0.3036 Wald55-64 vs 65-74 1 1.01 0.3157 Wald

Conclusion : On peut simplifier le modèle.

Page 38: 1 Modèle Linéaire Généralisé (Proc Genmod) Michel Tenenhaus

38

Exemple Mélanome : Modèle 3

Yi ~ Poisson (i) avec :

Région

A

1

2 4i i 0

ge

3

35

35 54 Nord

55 7N exp( )

04 Sud

075

Page 39: 1 Modèle Linéaire Généralisé (Proc Genmod) Michel Tenenhaus

39

Exemple Mélanome : Estimation du modèle 3

data b;set melanome;age1=(age = "<35");age2=(age = "35-44") or (age="45-54");age3=(age = "55-64") or (age="65-74");

proc genmod data=b order=data;class region;model cas=age1 age2 age3 region/dist=poisson link=log offset=logpop type3;contrast 'age' age1 1, age2 1, age3 1 /e;contrast 'age' age1 1, age2 1, age3 1 / wald;run;

Page 40: 1 Modèle Linéaire Généralisé (Proc Genmod) Michel Tenenhaus

40

Exemple Mélanome : Estimation du modèle 3

Criteria For Assessing Goodness Of Fit

Criterion DF Value Value/DF

Deviance 7 8.2709 1.1816Scaled Deviance 7 8.2709 1.1816Pearson Chi-Square 7 8.2329 1.1761Scaled Pearson X2 7 8.2329 1.1761Log Likelihood 2693.8982

Analysis Of Parameter Estimates

Likelihood Ratio Standard 95% ConfidenceParameter DF Estimate Error Limits

Intercept 1 -6.8962 0.1079 -7.1132 -6.6898age1 1 -2.9443 0.1320 -3.2026 -2.6843age2 1 -1.0880 0.1122 -1.3041 -0.8640age3 1 -0.6558 0.1140 -0.8759 -0.4284region n 1 -0.8165 0.0710 -0.9551 -0.6767region s 0 0.0000 0.0000 0.0000 0.0000

Page 41: 1 Modèle Linéaire Généralisé (Proc Genmod) Michel Tenenhaus

41

Exemple Mélanome : Estimation du modèle 3

Contrast Results

Chi-Contrast DF Square Pr > ChiSq Type

age 3 794.69 <.0001 LRage 3 606.00 <.0001 Wald

Analysis Of Parameter Estimates

Chi-Parameter Square Pr > ChiSq

Intercept 4081.63 <.0001age1 497.17 <.0001age2 94.09 <.0001age3 33.07 <.0001region n 132.24 <.0001region s . .

Page 42: 1 Modèle Linéaire Généralisé (Proc Genmod) Michel Tenenhaus

42

Exemple Mélanome : Modèle 4

Yi ~ Binomiale (Ni , pi )

Régio

1

2

A

0

g

i3

n

e

4

35

35 54 Nord

55 74 Sud

7

p exp( )0

5 0

Ni grand et pi petit impliquent :

Yi Poisson (i = Nipi)

D’où le modèle Yi ~ Binomiale (Ni , pi ) avec :

Page 43: 1 Modèle Linéaire Généralisé (Proc Genmod) Michel Tenenhaus

43

Exemple Mélanome : Estimation du modèle 4

proc genmod data=b order=data;class region;model cas/pop=age1 age2 age3 region/dist=bin link=log type3;contrast 'age' age1 1, age2 1, age3 1;run;

Page 44: 1 Modèle Linéaire Généralisé (Proc Genmod) Michel Tenenhaus

44

Exemple Mélanome : Estimation du modèle 4

Criteria For Assessing Goodness Of Fit

Criterion DF Value Value/DF

Deviance 7 8.2745 1.1821Scaled Deviance 7 8.2745 1.1821Pearson Chi-Square 7 8.2368 1.1767Scaled Pearson X2 7 8.2368 1.1767Log Likelihood -7793.1578

Analysis Of Parameter Estimates

Standard Wald 95% ConfidenceParameter DF Estimate Error Limits

Intercept 1 -6.8963 0.1079 -7.1077 -6.6848age1 1 -2.9442 0.1320 -3.2030 -2.6855age2 1 -1.0880 0.1121 -1.3077 -0.8682age3 1 -0.6558 0.1140 -0.8792 -0.4323region n 1 -0.8164 0.0710 -0.9556 -0.6773region s 0 0.0000 0.0000 0.0000 0.0000

Page 45: 1 Modèle Linéaire Généralisé (Proc Genmod) Michel Tenenhaus

45

Exemple Mélanome : Estimation du modèle 4

Analysis Of Parameter Estimates

Chi-Parameter Square Pr > ChiSq

Intercept 4084.47 <.0001age1 497.34 <.0001age2 94.13 <.0001age3 33.09 <.0001region n 132.28 <.0001region s . .

Contrast Results

Chi-Contrast DF Square Pr > ChiSq Type

age 3 794.81 <.0001 LR

Page 46: 1 Modèle Linéaire Généralisé (Proc Genmod) Michel Tenenhaus

46

Exemple Mélanome : Modèle 5

Yi ~ Binomiale (Ni , pi )

1

2 4i0

Région

Ag

i 3

e

pLog

1 p 0

0

35

35 54 Nord

55 74 Sud

75

Comme la probabilité pi est petite :

D ’où le modèle Yi ~ Binomiale (Ni , pi ) avec :

ii

i

pp

1 p

Régression de Poisson = régression logistique lorsque pi est petit et Ni est grand.

Page 47: 1 Modèle Linéaire Généralisé (Proc Genmod) Michel Tenenhaus

47

Exemple Mélanome : Estimation du modèle 5

proc genmod data=b order=data;class region;model cas/pop=age1 age2 age3 region/dist=bin link=logit type3;contrast 'age' age1 1, age2 1, age3 1;run;

Page 48: 1 Modèle Linéaire Généralisé (Proc Genmod) Michel Tenenhaus

48

Exemple Mélanome : Estimation du modèle 5

Criteria For Assessing Goodness Of Fit

Criterion DF Value Value/DF

Deviance 7 8.2667 1.1810Scaled Deviance 7 8.2667 1.1810Pearson Chi-Square 7 8.2292 1.1756Scaled Pearson X2 7 8.2292 1.1756Log Likelihood -7793.1539

Analysis Of Parameter Estimates

Standard Wald 95% ConfidenceParameter DF Estimate Error Limits

Intercept 1 -6.8954 0.1080 -7.1070 -6.6838age1 1 -2.9449 0.1321 -3.2038 -2.6860age2 1 -1.0884 0.1122 -1.3083 -0.8685age3 1 -0.6561 0.1141 -0.8797 -0.4325region n 1 -0.8167 0.0710 -0.9559 -0.6775region s 0 0.0000 0.0000 0.0000 0.0000

Page 49: 1 Modèle Linéaire Généralisé (Proc Genmod) Michel Tenenhaus

49

Exemple Mélanome : Estimation du modèle 5

Analysis Of Parameter Estimates

Chi-Parameter Square Pr > ChiSq

Intercept 4077.88 <.0001age1 497.19 <.0001age2 94.11 <.0001age3 33.08 <.0001region n 132.28 <.0001region s . .

Contrast Results

Chi-Contrast DF Square Pr > ChiSq Type

age 3 794.82 <.0001 LR

Page 50: 1 Modèle Linéaire Généralisé (Proc Genmod) Michel Tenenhaus

50

Exemple ColéoptèresYi = ni = Nombre de morts parmi Ni coléoptères soumis

au risque à la dose xi de disulfide de carbone

1.6907 59 6

1.7242 60 13

1.7552 62 18

1.7842 56 28

1.8113 63 52

1.8369 59 53

1.8610 62 61

1.8839 60 60

1

2

3

4

5

6

7

8

DOSE Soumis au risque Nombre de morts

Page 51: 1 Modèle Linéaire Généralisé (Proc Genmod) Michel Tenenhaus

51

Les modèlesLoi de Yi : Binomiale (Ni , pi)

Fonction de lien g(pi) :

- Logit : Log(pi/(1-pi))

- Probit : Fractile d’ordre pi d’une loi normale réduite

- Complementary Log Log :

Log(-Log(1-pi))

Modèle : g(pi) = 0 + 1xi

Page 52: 1 Modèle Linéaire Généralisé (Proc Genmod) Michel Tenenhaus

52

Résultats : Modèle LogitCriteria For Assessing Goodness Of Fit

Criterion DF Value Value/DF

Deviance 6 11.2322 1.8720Scaled Deviance 6 11.2322 1.8720Pearson Chi-Square 6 10.0268 1.6711Scaled Pearson X2 6 10.0268 1.6711Log Likelihood -186.2354

Algorithm converged.

Analysis Of Parameter Estimates

Standard Wald 95% Chi-Parameter DF Estimate Error Confidence Limits Square Pr > ChiSq

Intercept 1 -60.7175 5.1807 -70.8715 -50.5634 137.36 <.0001dose 1 34.2703 2.9121 28.5626 39.9780 138.49 <.0001Scale 0 1.0000 0.0000 1.0000 1.0000

NOTE: The scale parameter was held fixed.

Page 53: 1 Modèle Linéaire Généralisé (Proc Genmod) Michel Tenenhaus

53

Résultats : Modèle ProbitCriteria For Assessing Goodness Of Fit

Criterion DF Value Value/DF

Deviance 6 10.1198 1.6866Scaled Deviance 6 10.1198 1.6866Pearson Chi-Square 6 9.5134 1.5856Scaled Pearson X2 6 9.5134 1.5856Log Likelihood -185.6792

Algorithm converged.

Analysis Of Parameter Estimates

Standard Wald 95% Chi-Parameter DF Estimate Error Confidence Limits Square Pr > ChiSq

Intercept 1 -34.9353 2.6395 -40.1086 -29.7619 175.18 <.0001dose 1 19.7279 1.4841 16.8192 22.6366 176.71 <.0001Scale 0 1.0000 0.0000 1.0000 1.0000

NOTE: The scale parameter was held fixed.

Page 54: 1 Modèle Linéaire Généralisé (Proc Genmod) Michel Tenenhaus

54

Résultats : Modèle CloglogCriteria For Assessing Goodness Of Fit

Criterion DF Value Value/DF

Deviance 6 3.4464 0.5744Scaled Deviance 6 3.4464 0.5744Pearson Chi-Square 6 3.2947 0.5491Scaled Pearson X2 6 3.2947 0.5491Log Likelihood -182.3425

Algorithm converged.

Analysis Of Parameter Estimates

Standard Wald 95% Chi-Parameter DF Estimate Error Confidence Limits Square Pr > ChiSq

Intercept 1 -39.5723 3.2290 -45.9012 -33.2435 150.19 <.0001dose 1 22.0412 1.7931 18.5268 25.5556 151.10 <.0001Scale 0 1.0000 0.0000 1.0000 1.0000

NOTE: The scale parameter was held fixed.

Page 55: 1 Modèle Linéaire Généralisé (Proc Genmod) Michel Tenenhaus

55

Comparaison des modèles

Modèle Deviance DDL Deviance/DDLLOGITPROBITCLOGLOG

11.232210.11983.4464

666

1.87201.68660.5744

Nombre de morts estimé i

ObservationDose, xi

Soumis aurisque, Ni

Nombre demorts, ni

ModèleLogit

ModèleProbit

ModèleCLL

12345678

1.6911.7241.7551.7841.8111.8371.8611.884

5960625663596260

613182852536160

3.4579.84222.45133.89850.09653.29159.22258.743

3.35810.72223.48233.81649.61653.31959.66559.228

5.58911.28120.95430.36947.77654.14361.11359.947

Page 56: 1 Modèle Linéaire Généralisé (Proc Genmod) Michel Tenenhaus

56

Comparaison des modèles

Dose

1.901.851.801.751.701.65

Pro

po

rtio

n d

e m

ort

s

1.0

.8

.6

.4

.2

0.0

prop.est. (cloglog)

prop.estim.(Probit)

prop. estim. (Logit)

Proportion observée

Page 57: 1 Modèle Linéaire Généralisé (Proc Genmod) Michel Tenenhaus

57

Exemple SIDAYi = Nombre de morts du Sida par trimestre de 83 à 86

en Australie

TrimestreNombre de

morts Yi xi = Log i1234567891011121314

012314918233120253745

00.6931.0991.3861.6091.7921.9462.0792.1972.3032.3982.4852.5652.639

Page 58: 1 Modèle Linéaire Généralisé (Proc Genmod) Michel Tenenhaus

58

Les modèles

Loi de Yi : Poisson (i)

Fonction de lien : g(i) = Log(i)

Modèles : Log(i) = 0 + 1xi

avec :

(1) = 1

(2) = Deviance / (n-p)

Page 59: 1 Modèle Linéaire Généralisé (Proc Genmod) Michel Tenenhaus

59

Résultats : = 1Criteria For Assessing Goodness Of Fit

Criterion DF Value Value/DF

Deviance 12 17.0917 1.4243Scaled Deviance 12 17.0917 1.4243Pearson Chi-Square 12 15.9884 1.3324Scaled Pearson X2 12 15.9884 1.3324Log Likelihood 478.3435

Algorithm converged.

Analysis Of Parameter Estimates

Standard Wald 95% Chi-Parameter DF Estimate Error Confidence Limits Square Pr > ChiSq

Intercept 1 -1.9442 0.5116 -2.9469 -0.9415 14.44 0.0001lquarter 1 2.1748 0.2151 1.7533 2.5963 102.27 <.0001Scale 0 1.0000

NOTE: The scale parameter was held fixed.

Page 60: 1 Modèle Linéaire Généralisé (Proc Genmod) Michel Tenenhaus

60

Analyse des résidus ( = 1)

Obs lquarter deaths Pred

1 0 0 0.143 2 0.693 1 0.646 3 1.098 2 1.560 4 1.386 3 2.917 5 1.609 1 4.739 6 1.791 4 7.046 7 1.945 9 9.852 8 2.079 18 13.173 9 2.197 23 17.018 10 2.302 31 21.401 11 2.397 20 26.330 12 2.484 25 31.815 13 2.564 37 37.865 14 2.639 45 44.487

Page 61: 1 Modèle Linéaire Généralisé (Proc Genmod) Michel Tenenhaus

61

Analyse des résidus ( = 1)

Obs Stresdev Streschi Reslik

1 -0.545298 -0.385584 -0.540168 2 0.425791 0.460390 0.428869 3 0.359465 0.375283 0.361426 4 0.051868 0.052111 0.051902 5 -2.259547 -1.857236 -2.205949 6 -1.345573 -1.235173 -1.331022 7 -0.294398 -0.290055 -0.293870 8 1.332723 1.407734 1.340985 9 1.448224 1.526636 1.456101 10 2.049098 2.188013 2.063521 11 -1.375673 -1.316788 -1.368616 12 -1.377658 -1.325524 -1.368990 13 -0.162825 -0.162201 -0.162671 14 0.096241 0.096425 0.096309

Page 62: 1 Modèle Linéaire Généralisé (Proc Genmod) Michel Tenenhaus

62

Résultats : = Deviance/(n-p)Criteria For Assessing Goodness Of Fit

Criterion DF Value Value/DF

Deviance 12 17.0917 1.4243Scaled Deviance 12 12.0000 1.0000Pearson Chi-Square 12 15.9884 1.3324Scaled Pearson X2 12 11.2254 0.9355Log Likelihood 335.8435

Algorithm converged.

Analysis Of Parameter Estimates

Standard Wald 95% Chi-Parameter DF Estimate Error Confidence Limits Square Pr > ChiSq

Intercept 1 -1.9442 0.6106 -3.1408 -0.7475 10.14 0.0015lquarter 1 2.1748 0.2567 1.6718 2.6778 71.80 <.0001Scale 0 1.1934

NOTE: The scale parameter was estimated by the square root of DEVIANCE/DOF

Page 63: 1 Modèle Linéaire Généralisé (Proc Genmod) Michel Tenenhaus

63

Analyse des résidus ( = Deviance/(n-p))

Obs Stresdev Streschi Reslik

1 -0.456912 -0.323086 -0.452614 2 0.356776 0.385766 0.359354 3 0.301200 0.314454 0.302843 4 0.043461 0.0436647 0.043489 5 -1.893302 -1.556201 -1.848391 6 -1.127472 -1.034967 -1.115279 7 -0.246680 -0.243040 -0.246237 8 1.116705 1.179557 1.123628 9 1.213484 1.279187 1.220085 10 1.716965 1.833363 1.729050 11 -1.152694 -1.103353 -1.146780 12 -1.154357 -1.110673 -1.147094 13 -0.136433 -0.135910 -0.136304 14 0.080642 0.080796 0.080698

Page 64: 1 Modèle Linéaire Généralisé (Proc Genmod) Michel Tenenhaus

64

Prévision du nombre de morts du sidaen Australie

Log(Année)

3.02.52.01.51.0.50.0-.5

50

40

30

20

10

0

-10

Prévision du nombre

de morts

Nombre de morts

observation 10

1.9442 + 2.1748*Log(i)iˆ e

Page 65: 1 Modèle Linéaire Généralisé (Proc Genmod) Michel Tenenhaus

65

Exemple LEUCÉMIE

Yi = Durée de vie entre le diagnostic et le décès en semaines

Xi = Log10(Nombre de globules blanc initial)

Yi Xi Yi Xi

6515610013416108121

439

3.362.883.633.413.784.024.004.233.73

143562622115

65

3.853.974.514.545.005.004.725.00

Page 66: 1 Modèle Linéaire Généralisé (Proc Genmod) Michel Tenenhaus

66

Les modèles

Loi de Yi : (1) Loi gamma(2) Loi exponentielle (= gamma avec = 1)

Fonction de lien : g(i) = Log(i)

Modèle : Log(i) = 0 + 1xi

Page 67: 1 Modèle Linéaire Généralisé (Proc Genmod) Michel Tenenhaus

67

Résultat (Loi gamma)

Criteria For Assessing Goodness Of Fit

Criterion DF Value Value/DF

Deviance 15 19.4565 1.2971Scaled Deviance 15 19.6076 1.3072Pearson Chi-Square 15 14.0830 0.9389Scaled Pearson X2 15 14.1923 0.9462Log Likelihood -83.8767

Algorithm converged.

Analysis Of Parameter Estimates

Standard Wald 95% Chi-Parameter DF Estimate Error Confidence Limits Square Pr > ChiSq

Intercept 1 8.4775 1.7046 5.1365 11.8185 24.73 <.0001logcount 1 -1.1093 0.4120 -1.9168 -0.3018 7.25 0.0071Scale 1 1.0078 0.3046 0.5573 1.8222

NOTE: The scale parameter was estimated by maximum likelihood.

Page 68: 1 Modèle Linéaire Généralisé (Proc Genmod) Michel Tenenhaus

68

Résultat (Loi exponentielle)

Criteria For Assessing Goodness Of Fit

Criterion DF Value Value/DF

Deviance 15 19.4565 1.2971Scaled Deviance 15 19.4565 1.2971Pearson Chi-Square 15 14.0830 0.9389Scaled Pearson X2 15 14.0830 0.9389Log Likelihood -83.8770

Algorithm converged.

Analysis Of Parameter Estimates

Standard Wald 95% Chi-Parameter DF Estimate Error Confidence Limits Square Pr > ChiSq

Intercept 1 8.4775 1.7112 5.1235 11.8315 24.54 <.0001logcount 1 -1.1093 0.4136 -1.9199 -0.2987 7.19 0.0073Scale 0 1.0000

NOTE: The scale parameter was held fixed.

Page 69: 1 Modèle Linéaire Généralisé (Proc Genmod) Michel Tenenhaus

69

Modélisation Leucémie

Log10(Nb de globules blancs)

5.55.04.54.03.53.02.5

Du

rée

de

vie

250

200

150

100

50

0

Prévision

Durée de vie

i8.4775 - 1.1093*Xiˆ e