mod´elisation et apprentissage...

161
Mod´ elisation et apprentissage statistique Gilbert Ritschard epartement d’´ econom´ etrie, Universit´ e de Gen` eve http://mephisto.unige.ch mars 2005 Intro plan not mstat appr arbr comm MAS 9/3/2005gr 1

Upload: others

Post on 04-Jan-2020

6 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Mod´elisation et apprentissage statistiquemephisto.unige.ch/pub/stats/Pmas/doc/Notes_de_cours/Sl... · 2011-09-19 · Mod´elisation et apprentissage statistiques 1 Introduction

Modelisation et apprentissage statistique

Gilbert Ritschard

Departement d’econometrie, Universite de Geneve

http://mephisto.unige.ch

mars 2005

Intro plan not mstat appr arbr comm J I N H MAS 9/3/2005gr 1

Page 2: Mod´elisation et apprentissage statistiquemephisto.unige.ch/pub/stats/Pmas/doc/Notes_de_cours/Sl... · 2011-09-19 · Mod´elisation et apprentissage statistiques 1 Introduction

Modelisation et apprentissage statistiques

1 Introduction

2 Cadre formel et notations

3 Modelisation statistique

4 Apprentissage supervise

5 Points communs et differences entre modelisation et apprentissage

Intro plan not mstat appr arbr comm J I N H MAS 9/3/2005gr 2

Page 3: Mod´elisation et apprentissage statistiquemephisto.unige.ch/pub/stats/Pmas/doc/Notes_de_cours/Sl... · 2011-09-19 · Mod´elisation et apprentissage statistiques 1 Introduction

1 Introduction

Objectif : passer en revue les criteres d’evaluation utilises

– en modelisation statistique

– en apprentissage supervise

Quels sont les points communs et les differences entre modelisation

statistique et apprentissage supervise ?

Intro plan not mstat appr arbr comm J I N H MAS 9/3/2005gr 3

Page 4: Mod´elisation et apprentissage statistiquemephisto.unige.ch/pub/stats/Pmas/doc/Notes_de_cours/Sl... · 2011-09-19 · Mod´elisation et apprentissage statistiques 1 Introduction

Modelisation statistique

Formuler et quantifier un modele (schema) explicatif d’un phenomene. Par

exemple :

recherche, parmi des facteurs potentiels, des determinants d’une variable

reponse (reussite des etudiants, divorce, succes commercial, ...) et

quantification des liens.

But :

– Comprehension du phenomene

– Parfois prevision

Intro plan not mstat appr arbr comm J I N H MAS 9/3/2005gr 4

Page 5: Mod´elisation et apprentissage statistiquemephisto.unige.ch/pub/stats/Pmas/doc/Notes_de_cours/Sl... · 2011-09-19 · Mod´elisation et apprentissage statistiques 1 Introduction

Apprentissage supervise

Apprendre a predire l’etat d’une variable reponse a partir du profil en terme

de predicteurs. Par exemple :

– prevoir le volume des ventes, le nombre de chomeur, ...

– classer des malades selon le type d’affection en ne connaissant que certains

symptomes, predire la solvabilite de demandeurs de credits, ...

But :

– Construire des regles predictives (prevision ou classification) performantes

en generalisation, c’est-a-dire en dehors de l’echantillon d’apprentissage.

Intro plan not mstat appr arbr comm J I N H MAS 9/3/2005gr 5

Page 6: Mod´elisation et apprentissage statistiquemephisto.unige.ch/pub/stats/Pmas/doc/Notes_de_cours/Sl... · 2011-09-19 · Mod´elisation et apprentissage statistiques 1 Introduction

Certains modeles statistiques (regression, regression logistique, ...) sont

utilises dans un contexte d’apprentissage.

� � � � � � � � � � �� � � � � � � �

� � � � � � � � � �� � � � � � � � � �

Intro plan not mstat appr arbr comm J I N H MAS 9/3/2005gr 6

Page 7: Mod´elisation et apprentissage statistiquemephisto.unige.ch/pub/stats/Pmas/doc/Notes_de_cours/Sl... · 2011-09-19 · Mod´elisation et apprentissage statistiques 1 Introduction

2 Cadre formel et notations

Echantillon d’apprentissage :

n nombre de cas (instance, exemple, ...)

p nombre d’attributs predictifs

xj j-eme attribut predictif (facteur explicatif), j = 1, . . . , pxαj valeur du i-eme attribut pour le cas α = 1, . . . , nY variable reponse (a predire, dependante) : variable aleatoire

yα realisation de Y pour le cas α

On utilise le gras pour les vecteurs et les matrices :

x′ =[x1 · · · xp

]X =

x11 · · · x1p

.... . .

...

xn1 · · · xnp

Notations plan not mstat appr arbr comm J I N H MAS 9/3/2005gr 7

Page 8: Mod´elisation et apprentissage statistiquemephisto.unige.ch/pub/stats/Pmas/doc/Notes_de_cours/Sl... · 2011-09-19 · Mod´elisation et apprentissage statistiques 1 Introduction

Qu’il s’agisse d’expliquer un phenomene ou de formuler des regles de

prediction,

0n cherche a exprimer y en fonction des predicteurs par une fonction

y = f(x)

ou y represente la prediction donnee par le modele f(x).

Exemples d’interpretation de f(x)

Y numerique (regression) ⇒ f(x) = E(Y |x)

Y categoriel (classification) ⇒ f(x) = arg maxi{p(Yi|x)}

En regression lineaire ou Y est numerique, on postule, f(x) =∑

j βjxj.

En classification, f(x) est le classifieur.

Notations plan not mstat appr arbr comm J I N H MAS 9/3/2005gr 8

Page 9: Mod´elisation et apprentissage statistiquemephisto.unige.ch/pub/stats/Pmas/doc/Notes_de_cours/Sl... · 2011-09-19 · Mod´elisation et apprentissage statistiques 1 Introduction

3 Modelisation statistique

3.1 Typologie de modeles statistiques

3.1.1 Regression lineaire

3.1.2 Regression logistique

3.1.3 Modeles log-lineaires

3.1.4 Modeles d’equations structurelles

3.2 Estimation des parametres (ajustement du modele)

3.2.1 Moindres carres

3.2.2 Maximum de vraisemblance

3.3 Evaluation d’un modele

3.3.1 Qualite globale d’ajustement

3.3.2 Test de difference entre deux modeles

3.3.3 Analyse des residus

Modeles statistiques plan not mstat appr arbr comm J I N H MAS 9/3/2005gr 9

Page 10: Mod´elisation et apprentissage statistiquemephisto.unige.ch/pub/stats/Pmas/doc/Notes_de_cours/Sl... · 2011-09-19 · Mod´elisation et apprentissage statistiques 1 Introduction

3.1 Typologie de modeles statistiques

Modele statistique parametrique : caracteriser la distribution d’une variable

(hypothese sur la forme et estimation des parametres).

Ici, on s’interesse aux modeles ou un ou plusieurs parametres de la

distribution sont exprimes en fonction des predicteurs.

(par exemple en regression, on postule la normalite de Y , et l’on exprime E(Y )en fonction des predicteurs.)

Typologie selon ce que l’on cherche a ajuster (reproduire)

– les valeurs particulieres de yα (Regression lineaire)

– soit une representation synthetique des donnees

– distribution de Y conditionnellement au profil x (Regression logistique)

– la distribution conjointes de toutes les variables (Modeles log-lineaires)

– correlations entre (plusieurs) y et les differents predicteurs (Modeles

d’equations structurelles)

Modeles statistiques plan not mstat appr arbr comm J I N H MAS 9/3/2005gr 10

Page 11: Mod´elisation et apprentissage statistiquemephisto.unige.ch/pub/stats/Pmas/doc/Notes_de_cours/Sl... · 2011-09-19 · Mod´elisation et apprentissage statistiques 1 Introduction

Typologie selon la nature de la variable reponse

variable Y une seule plusieurs

categorielle Regression logistique Modeles log-lineaires

Analyse discriminante

quantitative Regression lineaire Modeles d’equations structurelles

simple et multipleRegression multivariee

ANOVA MANOVA

Modeles statistiques plan not mstat appr arbr comm J I N H MAS 9/3/2005gr 11

Page 12: Mod´elisation et apprentissage statistiquemephisto.unige.ch/pub/stats/Pmas/doc/Notes_de_cours/Sl... · 2011-09-19 · Mod´elisation et apprentissage statistiques 1 Introduction

Modele lineaire generalise

Les trois premiers types de modele (regression lineaire, regression logistique,

modeles log-lineaires) font partie de la classe des modeles lineaires generalises

(McCullagh and Nelder (1989)).

Caracteristiques

Distribution de la variable reponse Y : quelconque parmi famille

exponentielle qui comprend en particulier les lois

de Gauss, de Bernoulli, binomiale, de Poisson et gamma (donc khi-2)

Fonction lien qui decrit comment l’esperance µ de Y depend des predicteurs

lineaires

g(µ) = x′β

Fonction variance V (µ) qui precise le lien entre variance et esperance

Var(Y ) = φV (µ)

Modeles statistiques plan not mstat appr arbr comm J I N H MAS 9/3/2005gr 12

Page 13: Mod´elisation et apprentissage statistiquemephisto.unige.ch/pub/stats/Pmas/doc/Notes_de_cours/Sl... · 2011-09-19 · Mod´elisation et apprentissage statistiques 1 Introduction

3.1.1 Regression lineaire

Modele de regression multiple :

yα = β0 + β1xα1 + β2xα2 + . . . + βkxαk + uα

pour α = 1, 2, . . . , ny1

y2

...

yn

=

1 x11 · · · x1k

1 x21 · · · x2k

......

...

1 xn1 · · · xnk

β0

β1

...

βk

+

u1

u2

...

un

y = Xβ + u

pour n observations et k = p− 1 facteurs predictifs.

Sans perte de generalite, on admet que le vecteur u est nul en esperance

mathematique : E(u) = 0.

Modeles statistiques plan not mstat appr arbr comm J I N H MAS 9/3/2005gr 13

Page 14: Mod´elisation et apprentissage statistiquemephisto.unige.ch/pub/stats/Pmas/doc/Notes_de_cours/Sl... · 2011-09-19 · Mod´elisation et apprentissage statistiques 1 Introduction

On cherche la droite (hyperplan) qui ajuste le mieux les donnees individuelles

x

y

r i

Modeles statistiques plan not mstat appr arbr comm J I N H MAS 9/3/2005gr 14

Page 15: Mod´elisation et apprentissage statistiquemephisto.unige.ch/pub/stats/Pmas/doc/Notes_de_cours/Sl... · 2011-09-19 · Mod´elisation et apprentissage statistiques 1 Introduction

Exemple de regression

avec SPSS

Donnees : Bank

variable reponse :

salnow

Model Summary

.898a .806 .804 3023.02Model1

R R SquareAdjusted R

SquareStd. Error ofthe Estimate

Predictors: (Constant), AGEBEG, SALBEG, SEX, EDLEVEL, WORKa.

ANOVAb

1.78E+10 5 3557952240.0 389.331 .000a

4.28E+09 468 9138628.3542.21E+10 473

RegressionResidualTotal

Model1

Sum ofSquares df Mean Square F Sig.

Predictors: (Constant), AGEBEG, SALBEG, SEX, EDLEVEL, WORKa.

Dependent Variable: SALNOWb.

Coefficientsa

464.041 982.673 .472 .6371.708 .062 .787 27.613 .000

-858.435 339.121 -.063 -2.531 .012252.457 67.973 .107 3.714 .000-60.996 29.325 -.078 -2.080 .038-27.799 21.164 -.048 -1.314 .190

(Constant)SALBEGSEXEDLEVELWORKAGEBEG

Model1

B Std. Error

UnstandardizedCoefficients

Beta

Standardized

Coefficients

t Sig.

Dependent Variable: SALNOWa.

Modeles statistiques plan not mstat appr arbr comm J I N H MAS 9/3/2005gr 15

Page 16: Mod´elisation et apprentissage statistiquemephisto.unige.ch/pub/stats/Pmas/doc/Notes_de_cours/Sl... · 2011-09-19 · Mod´elisation et apprentissage statistiques 1 Introduction

3.1.2 Regression logistique

- 1 variable dependante y dichotomique (y ∈ {0, 1}), E(Y ) = p = p(Y = 1)

- variables explicatives x1, . . . , xp quantitatives et/ou qualitatives

En regressant y sur les xi (y = β0 + β1x1 + · · · ) :

– predictions y peuvent etre > 1 ou < 0.– hypothese de normalite des residus pas tenable.

– variance de Y non independante de son esperance (σ2Y = p(1− p))

⇒ regresser π = logit(p) = log(

p1−p

)sur les facteurs explicatifs.

π(x) = log( p(x)

1− p(x)

)⇔ p(x) =

exp(π(x)

)1 + exp

(π(x)

)π(x) = x′β ⇔ p(x) =

exp(x′β)1 + exp(x′β)

Modeles statistiques plan not mstat appr arbr comm J I N H MAS 9/3/2005gr 16

Page 17: Mod´elisation et apprentissage statistiquemephisto.unige.ch/pub/stats/Pmas/doc/Notes_de_cours/Sl... · 2011-09-19 · Mod´elisation et apprentissage statistiques 1 Introduction

Fonction logit

logit : [0, 1] → Rp 7→ π

Transformation logit et probit

-4

-3

-2

-1

0

1

2

3

4

0 0.5 1

p

logi

t, pr

obit

logitprobit

Modeles statistiques plan not mstat appr arbr comm J I N H MAS 9/3/2005gr 17

Page 18: Mod´elisation et apprentissage statistiquemephisto.unige.ch/pub/stats/Pmas/doc/Notes_de_cours/Sl... · 2011-09-19 · Mod´elisation et apprentissage statistiques 1 Introduction

Exemple : poids a la naissance

Fichier : lg birth.sav, source : Hosmer and Lemeshow (2000).

LOW : Low birth weight (0 = weight ≥ 2’500g, 1 = weight < 2’500g)

RACE : race (1 = white, 2 = black, 3 = other)

SMOKE : Smoking during pregnancy (1 = yes, 0 = no)

HT : Hypertension (1 =yes, 0 = no)

UI : Uterine irritability (1 =yes, 0 = no)

AGE : Age of mother in years

LWT : Weight in pounds at last menstrual period

FTV : Number of physician visits during first trimester

PTL : Premature Labor (0, 1 , 2, ...)

Bwt : Birth weight in grams

Modeles statistiques plan not mstat appr arbr comm J I N H MAS 9/3/2005gr 18

Page 19: Mod´elisation et apprentissage statistiquemephisto.unige.ch/pub/stats/Pmas/doc/Notes_de_cours/Sl... · 2011-09-19 · Mod´elisation et apprentissage statistiques 1 Introduction

Modele pour LOW : ajustement global

Omnibus Tests of Model Coefficients

33.387 9 .00033.387 9 .00033.387 9 .000

StepBlockModel

Step 1Chi-square df Sig.

Model Summary

201.285 .162 .228Step1

-2 Loglikelihood

Cox & SnellR Square

Nagelkerke RSquare

Hosmer and Lemeshow Test

5.660 8 .685Step1

Chi-square df Sig.

Variables in the Equation

-.030 .037 .637 1 .425 .971-.015 .007 4.969 1 .026 .985

7.116 2 .028-.880 .441 3.990 1 .046 .415.392 .538 .531 1 .466 1.480

-.939 .402 5.450 1 .020 .391.543 .345 2.474 1 .116 1.722

-1.863 .698 7.136 1 .008 .155-.768 .459 2.793 1 .095 .464.065 .172 .143 1 .705 1.067

4.931 1.493 10.908 1 .001 138.505

AGELWTRACERACE(1)RACE(2)SMOKE(1)PTLHT(1)UI(1)FTVConstant

aB S.E. Wald df Sig. Exp(B)

Variable(s) entered on step 1: AGE, LWT, RACE, SMOKE, PTL, HT, UI, FTV.a.

Modeles statistiques plan not mstat appr arbr comm J I N H MAS 9/3/2005gr 19

Page 20: Mod´elisation et apprentissage statistiquemephisto.unige.ch/pub/stats/Pmas/doc/Notes_de_cours/Sl... · 2011-09-19 · Mod´elisation et apprentissage statistiques 1 Introduction

Modele pour LOW : estimation et significativite des coefficients

Omnibus Tests of Model Coefficients

33.387 9 .00033.387 9 .00033.387 9 .000

StepBlockModel

Step 1Chi-square df Sig.

Model Summary

201.285 .162 .228Step1

-2 Loglikelihood

Cox & SnellR Square

Nagelkerke RSquare

Hosmer and Lemeshow Test

5.660 8 .685Step1

Chi-square df Sig.

Variables in the Equation

-.030 .037 .637 1 .425 .971-.015 .007 4.969 1 .026 .985

7.116 2 .028-.880 .441 3.990 1 .046 .415.392 .538 .531 1 .466 1.480

-.939 .402 5.450 1 .020 .391.543 .345 2.474 1 .116 1.722

-1.863 .698 7.136 1 .008 .155-.768 .459 2.793 1 .095 .464.065 .172 .143 1 .705 1.067

4.931 1.493 10.908 1 .001 138.505

AGELWTRACERACE(1)RACE(2)SMOKE(1)PTLHT(1)UI(1)FTVConstant

aB S.E. Wald df Sig. Exp(B)

Variable(s) entered on step 1: AGE, LWT, RACE, SMOKE, PTL, HT, UI, FTV.a.

Modeles statistiques plan not mstat appr arbr comm J I N H MAS 9/3/2005gr 20

Page 21: Mod´elisation et apprentissage statistiquemephisto.unige.ch/pub/stats/Pmas/doc/Notes_de_cours/Sl... · 2011-09-19 · Mod´elisation et apprentissage statistiques 1 Introduction

3.1.3 Modeles log-lineaires

Objectif : mise en evidence de structures d’association

par la modelisation du nombre d’individus niaibic··· de chaque cellule

(ia, ib, ic, . . .) d’un tableau multidimensionnel.

miaibic··· effectif predit par A,B,C, . . . variables categorielles

variable nbre de categories categories

A a ia = 1, 2, . . . , a

B b ib = 1, 2, . . . , b

C c ic = 1, 2, . . . , c

......

...

Modeles statistiques plan not mstat appr arbr comm J I N H MAS 9/3/2005gr 21

Page 22: Mod´elisation et apprentissage statistiquemephisto.unige.ch/pub/stats/Pmas/doc/Notes_de_cours/Sl... · 2011-09-19 · Mod´elisation et apprentissage statistiques 1 Introduction

modele graphe marges ajustees

independance complete

(A,B, C)

df = abc− a− b− c + 2A B

C A

B C

un facteur independant

(3 modeles similaires)

(AC,B)

df = (ac− 1)(b− 1)A B

C

Modeles statistiques plan not mstat appr arbr comm J I N H MAS 9/3/2005gr 22

Page 23: Mod´elisation et apprentissage statistiquemephisto.unige.ch/pub/stats/Pmas/doc/Notes_de_cours/Sl... · 2011-09-19 · Mod´elisation et apprentissage statistiques 1 Introduction

modele graphe marges ajustees

independance conditionnelle

(3 modeles similaires)

(AB,AC)

df = a(b− 1)(c− 1)A B

C

Associations homogenes

d’ordre 2

(AB,AC,BC)

df = (a− 1)(b− 1)(c− 1)A B

C

Modeles statistiques plan not mstat appr arbr comm J I N H MAS 9/3/2005gr 23

Page 24: Mod´elisation et apprentissage statistiquemephisto.unige.ch/pub/stats/Pmas/doc/Notes_de_cours/Sl... · 2011-09-19 · Mod´elisation et apprentissage statistiques 1 Introduction

modele graphe marges ajustees

association d’ordre 3

(ABC)

df = 0A B

C

Statistiques suffisantes : marges fixees

Les effectifs predits se deduisent de ces statistiques suffisantes

⇒ notations : on n’indique que les statistiques suffisantes.

Exemple :

(AB,AC) pour le modele d’independance conditionnelle entre B et C

(ABC) pour le modele sature.

Modeles statistiques plan not mstat appr arbr comm J I N H MAS 9/3/2005gr 24

Page 25: Mod´elisation et apprentissage statistiquemephisto.unige.ch/pub/stats/Pmas/doc/Notes_de_cours/Sl... · 2011-09-19 · Mod´elisation et apprentissage statistiques 1 Introduction

Forme generale du modele

Modele sature (ABC) (d’ordre 3)

log(miaibic) = λ︸ ︷︷ ︸

effet moyen

+ λAia

+ λBib

+ λCic︸ ︷︷ ︸

effets propres (ordre 1)

+

+ λABiaib

+ λACiaic

+ λBCibic︸ ︷︷ ︸

interactions d’ordre 2

+ λABCiaibic︸ ︷︷ ︸

interaction d’ordre 3

Modele non sature (AB,AC) (independance conditionnelle) :

log(miaibic) = λ + λAia

+ λBib

+ λCic

+ λABiaib

+ λACiaic

Modeles statistiques plan not mstat appr arbr comm J I N H MAS 9/3/2005gr 25

Page 26: Mod´elisation et apprentissage statistiquemephisto.unige.ch/pub/stats/Pmas/doc/Notes_de_cours/Sl... · 2011-09-19 · Mod´elisation et apprentissage statistiques 1 Introduction

Modele loglineaire hierarchique

Modele ou la presence d’une interaction d’ordre k implique la presence de

toutes les interactions d’ordre q < k entre les variables concernees.

Exemple : Modele hierarchique avec 4 variables A,B,C, D

Pour inclure

- les effets propres de A, B et D,

- les interactions d’ordre 2 AB, AD, BD et

- celle d’ordre 3 ABD,

il suffit de specifier l’interaction du plus grand ordre : ABD.

Le modele (C,ABD) comprend ainsi tous les effets ci-dessus

+ l’effet propre de C.

Modeles statistiques plan not mstat appr arbr comm J I N H MAS 9/3/2005gr 26

Page 27: Mod´elisation et apprentissage statistiquemephisto.unige.ch/pub/stats/Pmas/doc/Notes_de_cours/Sl... · 2011-09-19 · Mod´elisation et apprentissage statistiques 1 Introduction

Exemple EGMP

E : Extramarital sex EMS (yes, no)

G : Gender (Women, Men)

M : Marital Status (Divorced, Still Married)

P : Premarital sex PMS (yes, no)

Women

PMS Yes NoMarital Status EMS Yes No Yes No

Divorced 17 54 36 214

Still Married 4 25 4 322

Men

PMS Yes NoMarital Status EMS Yes No Yes No

Divorced 28 60 17 68

Still Married 11 42 4 130

Modeles statistiques plan not mstat appr arbr comm J I N H MAS 9/3/2005gr 27

Page 28: Mod´elisation et apprentissage statistiquemephisto.unige.ch/pub/stats/Pmas/doc/Notes_de_cours/Sl... · 2011-09-19 · Mod´elisation et apprentissage statistiques 1 Introduction

Modele satureDATA Information

16 unweighted cases accepted.0 cases rejected because of out-of-range factor values.0 cases rejected because of missing data.

1036 weighted cases will be used in the analysis.

FACTOR Information

Factor Level LabelGENDER 2 GenderPMS 2 Premarital SexEMS 2 Extramarital SexMARITALS 2 Marital Status

Tests that K-way and higher order effects are zero.

K DF L.R. Chisq Prob Pearson Chisq Prob Iteration

4 1 .146 .7020 .147 .7009 43 5 13.630 .0181 14.170 .0146 52 11 232.140 .0000 270.135 .0000 21 15 1333.855 .0000 1786.178 .0000 0

Modeles statistiques plan not mstat appr arbr comm J I N H MAS 9/3/2005gr 28

Page 29: Mod´elisation et apprentissage statistiquemephisto.unige.ch/pub/stats/Pmas/doc/Notes_de_cours/Sl... · 2011-09-19 · Mod´elisation et apprentissage statistiques 1 Introduction

Step 5

The best model has generating class

PMS*EMS*MARITALS GENDER*PMS GENDER*MARITALS

Likelihood ratio chi square = 5.21194 DF = 5 P = .391

- - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - -

If Deleted Simple Effect is DF L.R. Chisq Change Prob Iter

PMS*EMS*MARITALS 1 12.914 .0003 4 GENDER*PMS 1 78.170 .0000 2 GENDER*MARITALS 1 2.942 .0863 2

Step 6

The best model has generating class

PMS*EMS*MARITALS GENDER*PMS

Likelihood ratio chi square = 8.15352 DF = 6 P = .227

- - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - -

If Deleted Simple Effect is DF L.R. Chisq Change Prob Iter

PMS*EMS*MARITALS 1 12.914 .0003 4 GENDER*PMS 1 75.259 .0000 2

- - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - -

Modeles statistiques plan not mstat appr arbr comm J I N H MAS 9/3/2005gr 29

Page 30: Mod´elisation et apprentissage statistiquemephisto.unige.ch/pub/stats/Pmas/doc/Notes_de_cours/Sl... · 2011-09-19 · Mod´elisation et apprentissage statistiques 1 Introduction

Structure d’association mise en evidence

Le modele final

(pms*ems*maritals,pms*gender)

correspond a la structure d’association

� � �

� � � � � � � � � � � � � �

Independance conditionnelle entre le genre (gender) et le statut marital

(maritals) et aussi entre le genre et le fait d’avoir ou non des relations

extra-maritales (ems).

Modeles statistiques plan not mstat appr arbr comm J I N H MAS 9/3/2005gr 30

Page 31: Mod´elisation et apprentissage statistiquemephisto.unige.ch/pub/stats/Pmas/doc/Notes_de_cours/Sl... · 2011-09-19 · Mod´elisation et apprentissage statistiques 1 Introduction

3.1.4 Modeles d’equations structurelles

EQS : equations structurelles

SEM : Structural equation model

LISREL : Linear structural relations

AMOS : Analysis of moment structure

Arbuckle and Wothke (1999) Bollen (1989) Joreskog and Sorbom (1989)

Objectif : Modeliser les interrelations entre plusieurs variables endogenes ainsi

que leurs liens de dependance par rapport aux facteurs exogenes.

⇒ modele d’equations simultanees (et avec variables latentes)

y′ = y′B + x′Γ + ζ ′

Modeles statistiques plan not mstat appr arbr comm J I N H MAS 9/3/2005gr 31

Page 32: Mod´elisation et apprentissage statistiquemephisto.unige.ch/pub/stats/Pmas/doc/Notes_de_cours/Sl... · 2011-09-19 · Mod´elisation et apprentissage statistiques 1 Introduction

Le modele doit permettre de generer les variances et covariances

(correlations) entre variables endogenes (y) et exogenes (x).

Σ(θ) ⇒ Σ = Σ(θ)

θ vecteur des parametres,

Σ matrice des moments theoriques de y et xS matrice des moments observes.

Ajuster aux donnees ⇒ ajuster Σ a S

On cherche a reproduire la matrice des moments (variances-covariances).

Modeles statistiques plan not mstat appr arbr comm J I N H MAS 9/3/2005gr 32

Page 33: Mod´elisation et apprentissage statistiquemephisto.unige.ch/pub/stats/Pmas/doc/Notes_de_cours/Sl... · 2011-09-19 · Mod´elisation et apprentissage statistiques 1 Introduction

Exemple de modele simultane Donnees : Bank

SEX

EDLEVELWORK

SALBEG SALNOW

AGEBEG

ue1

uw1

usn1usa

1

Modeles statistiques plan not mstat appr arbr comm J I N H MAS 9/3/2005gr 33

Page 34: Mod´elisation et apprentissage statistiquemephisto.unige.ch/pub/stats/Pmas/doc/Notes_de_cours/Sl... · 2011-09-19 · Mod´elisation et apprentissage statistiques 1 Introduction

Representation equivalente sous forme de 4 equations (variables centrees) :

edlevel = γ11agebeg + γ12sex + ue

work = γ21agebeg + γ22sex + β21edlevel + uw

salbeg = γ32sex + β31edlevel + β32work + usa

salnow = γ42sex + β41edlevel + β42work + β43salbeg + usn

Γ =

γ11 γ12

γ21 γ22

0 γ32

0 γ32

B =

0 0 0 0

β21 0 0 0

β31 β32 0 0

β41 β42 β43 0

Modeles statistiques plan not mstat appr arbr comm J I N H MAS 9/3/2005gr 34

Page 35: Mod´elisation et apprentissage statistiquemephisto.unige.ch/pub/stats/Pmas/doc/Notes_de_cours/Sl... · 2011-09-19 · Mod´elisation et apprentissage statistiques 1 Introduction

Extrait d’output d’Amos Modele Bank

bk_demo: Thursday, January 30, 2003 04:50 PMbk_demo: 30-Jan-03 16:50:26

Fit Measures 1 1/1

Fit Measures

Fit Measure Default model Saturated Independence MacroDiscrepancy 7.367 0.000 1775.690 CMINDegrees of freedom 2 0 15 DFP 0.025 0.000 PNumber of parameters 19 21 6 NPARDiscrepancy / df 3.684 118.379 CMINDF

RMR 490.566 0.000 4121179.141 RMRGFI 0.995 1.000 0.499 GFIAdjusted GFI 0.946 0.299 AGFIParsimony-adjusted GFI 0.095 0.357 PGFI

Normed fit index 0.996 1.000 0.000 NFIRelative fit index 0.969 0.000 RFIIncremental fit index 0.997 1.000 0.000 IFITucker-Lewis index 0.977 0.000 TLIComparative fit index 0.997 1.000 0.000 CFI

Parsimony ratio 0.133 0.000 1.000 PRATIOParsimony-adjusted NFI 0.133 0.000 0.000 PNFIParsimony-adjusted CFI 0.133 0.000 0.000 PCFI

Noncentrality parameter estimate 5.367 0.000 1760.690 NCP NCP lower bound 0.489 0.000 1625.992 NCPLO NCP upper bound 17.725 0.000 1902.745 NCPHIFMIN 0.016 0.000 3.754 FMINF0 0.011 0.000 3.722 F0 F0 lower bound 0.001 0.000 3.438 F0LO F0 upper bound 0.037 0.000 4.023 F0HIRMSEA 0.075 0.498 RMSEA RMSEA lower bound 0.023 0.479 RMSEALO RMSEA upper bound 0.137 0.518 RMSEAHIP for test of close fit 0.178 0.000 PCLOSE

Akaike information criterion (AIC) 45.367 42.000 1787.690 AICBrowne-Cudeck criterion 45.938 42.631 1787.871 BCCBayes information criterion 158.474 167.012 1823.408 BICConsistent AIC 143.430 150.385 1818.658 CAICExpected cross validation index 0.096 0.089 3.779 ECVI ECVI lower bound 0.086 0.089 3.495 ECVILO ECVI upper bound 0.122 0.089 4.080 ECVIHIMECVI 0.097 0.090 3.780 MECVI

Hoelter .05 index 385 7 HFIVEHoelter .01 index 592 9 HONE

Modeles statistiques plan not mstat appr arbr comm J I N H MAS 9/3/2005gr 35

Page 36: Mod´elisation et apprentissage statistiquemephisto.unige.ch/pub/stats/Pmas/doc/Notes_de_cours/Sl... · 2011-09-19 · Mod´elisation et apprentissage statistiques 1 Introduction

Extrait d’output d’Amos Modele Bank (suite)

bk_demo: Thursday, January 30, 2003 04:50 PMbk_demo: 30-Jan-03 16:50:26

Fit Measures 1 1/1

Fit Measures

Fit Measure Default model Saturated Independence MacroDiscrepancy 7.367 0.000 1775.690 CMINDegrees of freedom 2 0 15 DFP 0.025 0.000 PNumber of parameters 19 21 6 NPARDiscrepancy / df 3.684 118.379 CMINDF

RMR 490.566 0.000 4121179.141 RMRGFI 0.995 1.000 0.499 GFIAdjusted GFI 0.946 0.299 AGFIParsimony-adjusted GFI 0.095 0.357 PGFI

Normed fit index 0.996 1.000 0.000 NFIRelative fit index 0.969 0.000 RFIIncremental fit index 0.997 1.000 0.000 IFITucker-Lewis index 0.977 0.000 TLIComparative fit index 0.997 1.000 0.000 CFI

Parsimony ratio 0.133 0.000 1.000 PRATIOParsimony-adjusted NFI 0.133 0.000 0.000 PNFIParsimony-adjusted CFI 0.133 0.000 0.000 PCFI

Noncentrality parameter estimate 5.367 0.000 1760.690 NCP NCP lower bound 0.489 0.000 1625.992 NCPLO NCP upper bound 17.725 0.000 1902.745 NCPHIFMIN 0.016 0.000 3.754 FMINF0 0.011 0.000 3.722 F0 F0 lower bound 0.001 0.000 3.438 F0LO F0 upper bound 0.037 0.000 4.023 F0HIRMSEA 0.075 0.498 RMSEA RMSEA lower bound 0.023 0.479 RMSEALO RMSEA upper bound 0.137 0.518 RMSEAHIP for test of close fit 0.178 0.000 PCLOSE

Akaike information criterion (AIC) 45.367 42.000 1787.690 AICBrowne-Cudeck criterion 45.938 42.631 1787.871 BCCBayes information criterion 158.474 167.012 1823.408 BICConsistent AIC 143.430 150.385 1818.658 CAICExpected cross validation index 0.096 0.089 3.779 ECVI ECVI lower bound 0.086 0.089 3.495 ECVILO ECVI upper bound 0.122 0.089 4.080 ECVIHIMECVI 0.097 0.090 3.780 MECVI

Hoelter .05 index 385 7 HFIVEHoelter .01 index 592 9 HONE

Modeles statistiques plan not mstat appr arbr comm J I N H MAS 9/3/2005gr 36

Page 37: Mod´elisation et apprentissage statistiquemephisto.unige.ch/pub/stats/Pmas/doc/Notes_de_cours/Sl... · 2011-09-19 · Mod´elisation et apprentissage statistiques 1 Introduction

Modele simultane avec variables latentes

income

occup

.37

la_sub_inc

.46

la_sub_occ

.47

overall

.38

.43

.37

.32

.22

.38

u_sinc

u_socc

u_sovr

.29

white

.77

sub_inc

.49

sub_occ

.88

.70

e_oc

e_in

Modeles statistiques plan not mstat appr arbr comm J I N H MAS 9/3/2005gr 37

Page 38: Mod´elisation et apprentissage statistiquemephisto.unige.ch/pub/stats/Pmas/doc/Notes_de_cours/Sl... · 2011-09-19 · Mod´elisation et apprentissage statistiques 1 Introduction

3.2 Estimation des parametres (ajustement du modele)

Valeur des parametres choisie de telle sorte que le modele reproduise le mieux

possible les donnees.

Deux criteres sont principalement utilises :

3.2.1 Moindres carres

3.2.2 Maximum de vraisemblance

Modeles statistiques plan not mstat appr arbr comm J I N H MAS 9/3/2005gr 38

Page 39: Mod´elisation et apprentissage statistiquemephisto.unige.ch/pub/stats/Pmas/doc/Notes_de_cours/Sl... · 2011-09-19 · Mod´elisation et apprentissage statistiques 1 Introduction

3.2.1 Moindres carres

Principe : choisir la valeur des parametres qui minimise la somme,

eventuellement ponderee, des carres des ecarts entre valeurs cible observees

et valeurs predites.

Par exemple :

minβ

∑α

(yα − f(β;xα)

)2prediction de valeurs individuelles

minθ

tr[(

S− Σ(θ))2]

modele d’equations structurelles

Ne necessite pas d’hypotheses sur la distribution des valeurs cible.

Critere utilise en particulier pour la regression lineaire.

Modeles statistiques plan not mstat appr arbr comm J I N H MAS 9/3/2005gr 39

Page 40: Mod´elisation et apprentissage statistiquemephisto.unige.ch/pub/stats/Pmas/doc/Notes_de_cours/Sl... · 2011-09-19 · Mod´elisation et apprentissage statistiques 1 Introduction

Regression lineaire : estimation du vecteur β

vecteur β qui minimise la somme des carres des ecarts yα − yα.

Le vecteur de ces ecarts est (y −Xβ), et la somme des carres de ses

composantes (y −Xβ)′(y −Xβ).

Ainsi, l’estimateur des moindres carres est la solution du probleme

minβ

(y −Xβ)′(y −Xβ) = y′y − 2y′Xβ + β′X′Xβ

Les conditions du premier ordre sont 2X′Xβ − 2X′y = 0, d’ou l’estimateur des

moindres carres ordinaires

β = (X′X)−1X′y

Dans le cas de la regression simple (k = 1) de y sur x, on a

β1 =cov(x, y)var(x)

=∑

α(xα − x)(yα − y)∑α(xα − x)2

Modeles statistiques plan not mstat appr arbr comm J I N H MAS 9/3/2005gr 40

Page 41: Mod´elisation et apprentissage statistiquemephisto.unige.ch/pub/stats/Pmas/doc/Notes_de_cours/Sl... · 2011-09-19 · Mod´elisation et apprentissage statistiques 1 Introduction

3.2.2 Maximum de vraisemblance

Principe : choisir les valeurs des parametres avec lesquelles on a la plus forte

probabilite de generer l’echantillon avec le modele,

⇒ valeurs qui maximisent la vraisemblance de l’echantillon.

maxθ

L(Y1 = y1, . . . , Yn = yn | θ)

L(Y1 = y1, . . . , Yn = yn) probabilite conjointe si Y est discret

densite conjointe si Y continu.

En general on maximise la log-vraisemblance (lnL) ce qui est equivalent car lnmonotone croissante.

Pour definir la vraisemblance, on doit preciser la forme de la distribution de la

variable a predire ⇒ approche parametrique

Exemples : regression, regression logistique, table contingence, equations

structurelles,

Modeles statistiques plan not mstat appr arbr comm J I N H MAS 9/3/2005gr 41

Page 42: Mod´elisation et apprentissage statistiquemephisto.unige.ch/pub/stats/Pmas/doc/Notes_de_cours/Sl... · 2011-09-19 · Mod´elisation et apprentissage statistiques 1 Introduction

Max vraisemblance : cas de la regression

Y ∼ N(x′β, σ2)

L(y1, . . . , yn | β) = (2πσ)(n/2)∏α

exp(− (yα − x′

αβ)2

σ2

)

lnL(·|β) = −∑α

(yα − x′αβ)2 + termes ne dependant pas de β

maximiser vraisemblance ⇔ minimiser somme des carres

⇒ β = (X′X)−1X′y

Modeles statistiques plan not mstat appr arbr comm J I N H MAS 9/3/2005gr 42

Page 43: Mod´elisation et apprentissage statistiquemephisto.unige.ch/pub/stats/Pmas/doc/Notes_de_cours/Sl... · 2011-09-19 · Mod´elisation et apprentissage statistiques 1 Introduction

Max vraisemblance : regression logistique

Soit Y, (Y = 0 ou 1) la variable codant les etats de la variable reponse.

Le logit conditionnel au profil xα du α-eme individu est

πα(xα) = x′αβ = β0 +

p∑j=1

βjxαj

⇒ probabilite conditionnelle

p(Yα = 1|xα) = p(x′αβ) =

ex′αβ

1 + ex′αβ

La vraisemblance (conditionnelle) de l’observation yα est (Bernoulli)

p(Yα = yα|xα) = p(x′αβ)yα [1− p(x′

αβ)](1−yα)

Modeles statistiques plan not mstat appr arbr comm J I N H MAS 9/3/2005gr 43

Page 44: Mod´elisation et apprentissage statistiquemephisto.unige.ch/pub/stats/Pmas/doc/Notes_de_cours/Sl... · 2011-09-19 · Mod´elisation et apprentissage statistiques 1 Introduction

⇒ vraisemblance de l’echantillon

L(β) =n∏

α=1

p(x′αβ)yα [1− p(x′

αβ)](1−yα)

lnL(β) =n∑

α=1

yα ln[p(x′αβ)] + (1−yα) ln[1−p(x′

αβ)]

Estimateur du maximum de vraisemblance

β = (β0, . . . , βp)′ solution du systeme de p + 1 equations non lineaires en β

(car p(x′αβ) = ex

′αβ

1+ex′αβ )

n∑α=1

p(x′αβ)xα =

n∑α=1

yαxα

Modeles statistiques plan not mstat appr arbr comm J I N H MAS 9/3/2005gr 44

Page 45: Mod´elisation et apprentissage statistiquemephisto.unige.ch/pub/stats/Pmas/doc/Notes_de_cours/Sl... · 2011-09-19 · Mod´elisation et apprentissage statistiques 1 Introduction

Max vraisemblance : table contingence

n : taille d’un echantillon (n certain)

mij : esperance du nombre d’individus dans la cellule (i, j)

Modele de reconstruction des effectifs (la variable reponse est nij)

nij = n pij

La vraisemblance de l’echantillon pour ce modele est (loi multinomiale)

L(n11, . . . , n`c | p11, . . . , p`c) = A∏

i

∏j

pnij

ij

avec A = n!n11! ···n`c!

, et son logarithme (log-vraisemblance) s’ecrit

lnL(·|p11, . . . , p`c) =∑

i

∑j

nij log(pij) + log(A)

Modeles statistiques plan not mstat appr arbr comm J I N H MAS 9/3/2005gr 45

Page 46: Mod´elisation et apprentissage statistiquemephisto.unige.ch/pub/stats/Pmas/doc/Notes_de_cours/Sl... · 2011-09-19 · Mod´elisation et apprentissage statistiques 1 Introduction

Estimation du maximum de vraisemblance

Les estimations du maximum de vraisemblance des pij sont solution demax

(p11,...,p`c)

∑i

∑j

nij ln(pij)

s.c.∑

i

∑j pij = 1

Lagrangien : L(p11, . . . , p`c, λ) = lnL(·)− λ(∑

i

∑j pij − 1)

⇒ conditions du premier ordre

∂L∂pij

=nij

pij− λ = 0

∂L∂λ

=∑

i

∑j

pij − 1 = 0

dont la solution est λ = n et

pij =nij

n

Modeles statistiques plan not mstat appr arbr comm J I N H MAS 9/3/2005gr 46

Page 47: Mod´elisation et apprentissage statistiquemephisto.unige.ch/pub/stats/Pmas/doc/Notes_de_cours/Sl... · 2011-09-19 · Mod´elisation et apprentissage statistiques 1 Introduction

Modele log-lineaire general

Les estimations des parametres d’un modele log-lineaire s’obtiennent en

resolvant le systeme d’equations definissant les conditions du premier ordre

(voir Agresti (1990) p. 187) avec un algorithme du type Newton-Raphson.

On obtient les memes estimateurs en postulant un processus multinomial (n

fixe a priori) ou un processus de Poisson (n aleatoire).

Modeles statistiques plan not mstat appr arbr comm J I N H MAS 9/3/2005gr 47

Page 48: Mod´elisation et apprentissage statistiquemephisto.unige.ch/pub/stats/Pmas/doc/Notes_de_cours/Sl... · 2011-09-19 · Mod´elisation et apprentissage statistiques 1 Introduction

Modele d’equations structurelles

On ajuste S avec Σ(θ)

⇒ vraisemblance de S

lnL(S|θ) = log|Σ(θ)|+ tr(SΣ−1(θ)

)− log|S|+ termes independants de θ

La solution est une fonction

θ = θ(S)

Modeles statistiques plan not mstat appr arbr comm J I N H MAS 9/3/2005gr 48

Page 49: Mod´elisation et apprentissage statistiquemephisto.unige.ch/pub/stats/Pmas/doc/Notes_de_cours/Sl... · 2011-09-19 · Mod´elisation et apprentissage statistiques 1 Introduction

3.3 Evaluation d’un modele

3.3.1 Qualite globale d’ajustement

3.3.2 Test de difference entre deux modeles

3.3.3 Analyse des residus

Modeles statistiques plan not mstat appr arbr comm J I N H MAS 9/3/2005gr 49

Page 50: Mod´elisation et apprentissage statistiquemephisto.unige.ch/pub/stats/Pmas/doc/Notes_de_cours/Sl... · 2011-09-19 · Mod´elisation et apprentissage statistiques 1 Introduction

3.3.1 Qualite globale d’ajustement

independance

nœud inital

modele sature

arbre maximal

modele ajuste

graphe induit

En notant : modele ajuste M , sature S, sans predicteurs I, observations O

on distingue trois types d’indicateurs :

1. divergence par rapport aux donnees D(M,O)

2. divergence par rapport au modele sature D(M,S)

3. gain par rapport au modele sans predicteurs D(I,M) = D(I,O)−D(M,O)

Mesure de la divergence

optique moindres carres : D(M,O) = somme de carres d’ecarts

optique maximum de vraisemblance : D(M,O) = −2 ln L(·|θ)

Modeles statistiques plan not mstat appr arbr comm J I N H MAS 9/3/2005gr 50

Page 51: Mod´elisation et apprentissage statistiquemephisto.unige.ch/pub/stats/Pmas/doc/Notes_de_cours/Sl... · 2011-09-19 · Mod´elisation et apprentissage statistiques 1 Introduction

Optique moindres carres : exemples

Test F de significativite globale

Coefficient de determination R2

Khi-2 de Pearson

Khi-2 de Hosmer-Lemeshow

Modeles statistiques plan not mstat appr arbr comm J I N H MAS 9/3/2005gr 51

Page 52: Mod´elisation et apprentissage statistiquemephisto.unige.ch/pub/stats/Pmas/doc/Notes_de_cours/Sl... · 2011-09-19 · Mod´elisation et apprentissage statistiques 1 Introduction

Regression : test F de significativite globale (D(I,M)/D(M,O))

Test de H0 : β1 = β2 = · · ·βk = 0 contre

H1 : βj 6= 0 pour un j 6= 0 au moins.

C’est un probleme d’analyse de variance avec

Somme de carres dl

SCexp∑n

α=1(yα − y)2 (p− 1)

SCres∑n

α=1(yα − yα)2 (n− p)

SCtot∑n

α=1(yα − y)2 (n− 1)

et l’on utilise la statistique de test

F =SCexp/(p− 1)SCres/(n− p)

∼ F(p−1),(n−p)

Modeles statistiques plan not mstat appr arbr comm J I N H MAS 9/3/2005gr 52

Page 53: Mod´elisation et apprentissage statistiquemephisto.unige.ch/pub/stats/Pmas/doc/Notes_de_cours/Sl... · 2011-09-19 · Mod´elisation et apprentissage statistiques 1 Introduction

Qualite de l’ajustement : coefficient de determination (D(I,M)/D(I,O))

Part de la variance de la variable reponse y reproduite par la regression

R2 =var(y)var(y)

= 1− r′ry′y − ny2︸ ︷︷ ︸

n var(y)

= corr2(y, y)

avec r = y − y et y = Xβ.

x

y

y -

x

y

R2 ajuste :

R2a = 1− σ2

u

σ2y

= 1− n− 1n− p

(1−R2)

Modeles statistiques plan not mstat appr arbr comm J I N H MAS 9/3/2005gr 53

Page 54: Mod´elisation et apprentissage statistiquemephisto.unige.ch/pub/stats/Pmas/doc/Notes_de_cours/Sl... · 2011-09-19 · Mod´elisation et apprentissage statistiques 1 Introduction

Ajustement d’une distribution : le khi-2 de Pearson

Valeurs de Y partionnees en c classes i = 1, . . . , c

ni effectifs observes

mi effectifs attendus si modele correct

Statistique X2 de Pearson

X2 =c∑

i=1

(ni −mi)2

mi

Sous l’hypothese H0 : modele correct, et sous reserves de conditions de

regularite,

X2 ∼ χ2d

d : nombre de degres de liberte = c− nbre contraintes liant les mi aux ni

Chaque parametre estime (independant) fait perdre un degre de liberte.

Modeles statistiques plan not mstat appr arbr comm J I N H MAS 9/3/2005gr 54

Page 55: Mod´elisation et apprentissage statistiquemephisto.unige.ch/pub/stats/Pmas/doc/Notes_de_cours/Sl... · 2011-09-19 · Mod´elisation et apprentissage statistiques 1 Introduction

Test d’ajustement de Hosmer-Lemeshow (D(M,O)

S’utilise en regression logistique, pour tester l’ajustement aux donnees.

Principe

Partitionner les n donnees en groupes selon les valeurs des probabilites

predites et tester ajustement des effectifs des groupes.

1. Partitionner les n valeurs predites pi en g < n groupes j = 1, 2, . . . , g.

2. Determiner pour chaque groupe j le nombre de cas observes et le nombre

de cas predits avec la caracteristique voulue (yi = 1), et

3. Tester globalement la significativite de l’ecart entre ces effectifs avec la

statistique H2 du khi-2 de Hosmer-Lemeshow.

Modeles statistiques plan not mstat appr arbr comm J I N H MAS 9/3/2005gr 55

Page 56: Mod´elisation et apprentissage statistiquemephisto.unige.ch/pub/stats/Pmas/doc/Notes_de_cours/Sl... · 2011-09-19 · Mod´elisation et apprentissage statistiques 1 Introduction

1. Partitionner les n valeurs predites pi en g < n groupes.

2. Calculer pour chaque groupe j

– oj0 nbre de cas du groupe avec yi = 0 ou

oj1 nbre de cas du groupe avec yi = 1

– nj = oj0 + oj1 nbre de cas dans le groupe j

– ej0 =∑

i∈j(1− pi) et

ej1 =∑

i∈j pi les predictions des ojk

– pj = ej1/nj estimation de p(Y = 1|j) .

3. Statistique Hosmer-Lemeshow

H2 =g∑

j=1

(oj0 − ej0)2

ej0pj=

g∑j=1

(oj1 − ej1)2

ej1(1− pj)= ∼ χ2

g−2

On perd 2 d.l. car∑

ej0 =∑

oj0 et∑

nj = n.

Modeles statistiques plan not mstat appr arbr comm J I N H MAS 9/3/2005gr 56

Page 57: Mod´elisation et apprentissage statistiquemephisto.unige.ch/pub/stats/Pmas/doc/Notes_de_cours/Sl... · 2011-09-19 · Mod´elisation et apprentissage statistiques 1 Introduction

Hosmer-Lemeshow : exemple

Donnees EGMP, modele : logit(p) = β0 + βP P + βEE . SPSS fournit la table

Divorced Still Married

j Observed Expected Observed Expected Total

1 45 52.19 15 7.81 60

2 53 45.81 8 15.19 61

3 114 106.81 67 74.19 181

4 282 289.19 452 444.81 734

Ici, les groupes correspondent aux 4 cellules definies par E ∗ P .

H2 =(45− 52.19)2

52.19 7.8160

+ · · ·+ (282− 289.19)2

289.19 441.81734

= 7.601 + 4.530 + 1.180 + 0.295 = 13.606

d.l.= 4− 2 = 2 et H2 = 13.6 > χ22,.95 = 5.99 ⇒ ajustement non satisfaisant

Modeles statistiques plan not mstat appr arbr comm J I N H MAS 9/3/2005gr 57

Page 58: Mod´elisation et apprentissage statistiquemephisto.unige.ch/pub/stats/Pmas/doc/Notes_de_cours/Sl... · 2011-09-19 · Mod´elisation et apprentissage statistiques 1 Introduction

Optique deviance −2 ln L (-2LogLik)

Principe de la deviance

Statistique du rapport de vraisemblance

Pseudo R2

Criteres d’information AIC et BIC

Modeles statistiques plan not mstat appr arbr comm J I N H MAS 9/3/2005gr 58

Page 59: Mod´elisation et apprentissage statistiquemephisto.unige.ch/pub/stats/Pmas/doc/Notes_de_cours/Sl... · 2011-09-19 · Mod´elisation et apprentissage statistiques 1 Introduction

Deviance : principe

Mesurer divergence en termes de log-vraisemblance.

Principe : Ajustement d’autant meilleur que la vraisemblance de l’echantillon

est forte pour le modele ⇒ −2 ln L petit.

Vraisemblance maximale (L = 1 dans le cas discret) pour le modele (O) qui

reproduit exactement les donnees.

L lnL −2 ln L

1 0 0...

......

e−1 −1 2...

......

0 −∞ ∞

⇒ −2 ln L s’interprete comme une distance par rapport a O (observe).

Modeles statistiques plan not mstat appr arbr comm J I N H MAS 9/3/2005gr 59

Page 60: Mod´elisation et apprentissage statistiquemephisto.unige.ch/pub/stats/Pmas/doc/Notes_de_cours/Sl... · 2011-09-19 · Mod´elisation et apprentissage statistiques 1 Introduction

Rapport de vraisemblance

Soit M2 un modele imbrique dans M1.

M2 modele restreint obtenu en imposant d contraintes sur les

parametres de M1 ⇒ L(M2) ≤ L(M1).

Principe : L’ecart entre deux modeles imbriques est significatif si le rapport de

vraisemblance est inferieur a un seuil donne.

L(M2)L(M1)

< λ ⇔ − lnL(M2)−(− lnL(M1)

)> − lnλ

Lorsque le modele M2 est correct et sous reserve de conditions de regularite,

le double du terme de droite est distribue selon un χ2 a d degres de liberte

(khi-2 du rapport de vraisemblance de M2 par rapport a M1)

G2(M2|M1) = −2 ln L(M2)− (−2 ln L(M1)) ∼ χ2d

Modeles statistiques plan not mstat appr arbr comm J I N H MAS 9/3/2005gr 60

Page 61: Mod´elisation et apprentissage statistiquemephisto.unige.ch/pub/stats/Pmas/doc/Notes_de_cours/Sl... · 2011-09-19 · Mod´elisation et apprentissage statistiques 1 Introduction

Statistique du rapport de vraisemblance (D(M,S))

On appelle statistique du rapport de vraisemblance (LR) d’un modele M la

statistique (du type D(M,S)) :

G2(M) = G2(M |S) = −2 ln L(M)− (−2 ln L(S)) ∼ χ2d

Exemple table de contingence : la statistique

G2(I) = 2∑

i

∑j

nij log( nij

mij

)∼ χ2

(`−1)(c−1)

est une alternative au khi-2 de Pearson pour tester l’independance.

Modeles statistiques plan not mstat appr arbr comm J I N H MAS 9/3/2005gr 61

Page 62: Mod´elisation et apprentissage statistiquemephisto.unige.ch/pub/stats/Pmas/doc/Notes_de_cours/Sl... · 2011-09-19 · Mod´elisation et apprentissage statistiques 1 Introduction

Exemple : Age×Sexe×Opinion

Age : “≤ 40”, “> 40”

Sexe : H, F

Opinion s/retraite 65 ans : def, ind, fav

3 presentations alternatives des donnees

≤ 40 def ind fav

H 50 150 50

F 70 30 50

> 40 def ind fav

H 25 80 30

F 130 60 100

Modeles statistiques plan not mstat appr arbr comm J I N H MAS 9/3/2005gr 62

Page 63: Mod´elisation et apprentissage statistiquemephisto.unige.ch/pub/stats/Pmas/doc/Notes_de_cours/Sl... · 2011-09-19 · Mod´elisation et apprentissage statistiques 1 Introduction

H def ind fav

≤ 40 50 150 50

> 40 25 80 30

F def ind fav

≤ 40 70 30 50

> 40 130 60 100

def H F

≤ 40 50 70

> 40 25 130

ind H F

≤ 40 150 30

> 40 80 60

fav H F

≤ 40 50 50

> 40 30 100

Modeles statistiques plan not mstat appr arbr comm J I N H MAS 9/3/2005gr 63

Page 64: Mod´elisation et apprentissage statistiquemephisto.unige.ch/pub/stats/Pmas/doc/Notes_de_cours/Sl... · 2011-09-19 · Mod´elisation et apprentissage statistiques 1 Introduction

* * * * * * * * * * H I E R A R C H I C A L L O G L I N E A R

DATA Information

12 unweighted cases accepted. 0 cases rejected because of out-of-range factor values. 0 cases rejected because of missing data. 825 weighted cases will be used in the analysis.

FACTOR Information

Factor Level Label RETRAITE 3 Retraite à 65 ans pour femmes AGE 2 SEXE 2

DESIGN 1 has generating class

RETRAITE*AGE*SEXE

Modeles statistiques plan not mstat appr arbr comm J I N H MAS 9/3/2005gr 64

Page 65: Mod´elisation et apprentissage statistiquemephisto.unige.ch/pub/stats/Pmas/doc/Notes_de_cours/Sl... · 2011-09-19 · Mod´elisation et apprentissage statistiques 1 Introduction

Tests that K-way and higher order effects are zero.

K DF L.R. Chisq Prob Pearson Chisq Prob Iteration

3 2 .107 .9480 .107 .9479 5 2 7 220.205 .0000 227.587 .0000 2 1 11 239.426 .0000 254.636 .0000 0

- - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - -

Tests that K-way effects are zero.

K DF L.R. Chisq Prob Pearson Chisq Prob Iteration

1 4 19.221 .0007 27.049 .0000 0 2 5 220.099 .0000 227.480 .0000 0 3 2 .107 .9480 .107 .9479 0

Tests of PARTIAL associations.

Effect Name DF Partial Chisq Prob Iter

RETRAITE*AGE 2 .342 .8429 2 RETRAITE*SEXE 2 128.000 .0000 2 AGE*SEXE 1 67.148 .0000 2 RETRAITE 2 14.794 .0006 2 AGE 1 .758 .3840 2 SEXE 1 3.669 .0554 2

Modeles statistiques plan not mstat appr arbr comm J I N H MAS 9/3/2005gr 65

Page 66: Mod´elisation et apprentissage statistiquemephisto.unige.ch/pub/stats/Pmas/doc/Notes_de_cours/Sl... · 2011-09-19 · Mod´elisation et apprentissage statistiques 1 Introduction

Pseudo R2

Il s’agit de mesurer le gain relatif par rapport au modele sans predicteurs :

R2 = 1− LogLik(M)LogLik(I)

ou, lorsque −2LogLik(M) = G2(M), sa version corrigee des degres de liberte

R2ajust = 1− G2(M)/dM

G2(I)/dI

Pour l’exemple Age/Retraite/Sexe on a pour M = (AS, RS) :

G2(M) = .107 + .342 = .449 avec dM = 2 + 2 = 4G2(I) = = 220.205 avec dI = 7

d’ou :

R2 = 1− .449220.205

= .99796

R2ajust = 1− .449

220.20574

= .99643

Modeles statistiques plan not mstat appr arbr comm J I N H MAS 9/3/2005gr 66

Page 67: Mod´elisation et apprentissage statistiquemephisto.unige.ch/pub/stats/Pmas/doc/Notes_de_cours/Sl... · 2011-09-19 · Mod´elisation et apprentissage statistiques 1 Introduction

Criteres d’information AIC et BIC

Compromis entre qualite d’ajustement (−2LogLik) et complexite (nbre p de

parametres independants)

AIC(M) = −2LogLik(M) + 2p

BIC(M) = −2LogLik(M) + p log(n)

(On a p = kmax − d, avec kmax le nombre de parametres du modele sature).

Forme alternative, en fonction des degres de liberte :

AIC′(M) = G2(M)− 2d

BIC′(M) = G2(M)− d log(n)

BIC′(M) = BIC(M)− kmax (idem pour AIC) : valeur change, mais meme ordre

des modeles.

Permet de comparer des modeles non imbriques.

⇒ meilleur modele : celui qui a le plus petit AIC ou BIC.

Akaike (1973), Schwarz (1978), Raftery (1995), Kass and Raftery (1995)

Modeles statistiques plan not mstat appr arbr comm J I N H MAS 9/3/2005gr 67

Page 68: Mod´elisation et apprentissage statistiquemephisto.unige.ch/pub/stats/Pmas/doc/Notes_de_cours/Sl... · 2011-09-19 · Mod´elisation et apprentissage statistiques 1 Introduction

AIC et BIC : exemple Age/Sexe/Retraite

La table a trois dimensions a 12 cellules ⇒ kmax = 12.

n = 825 ⇒ ln(n) = 6.715

LR d p = kmax − d AIC BIC

ARS 0 0 12 24 80.585

AR,AS,RS 0.107 2 10 20.11 67.26

AS,RS 0.449 4 8 16.45 54.17

A,RS 79.9 5 7 93.9 126.91

AS,R 140.75 6 6 152.75 181.04

A,S,R 220.205 7 5 230.21 253.78

Modeles statistiques plan not mstat appr arbr comm J I N H MAS 9/3/2005gr 68

Page 69: Mod´elisation et apprentissage statistiquemephisto.unige.ch/pub/stats/Pmas/doc/Notes_de_cours/Sl... · 2011-09-19 · Mod´elisation et apprentissage statistiques 1 Introduction

3.3.2 Test de difference entre deux modeles

Pour un parametre : Ratio critique (t de Student)

Cas general : rapport de vraisemblance conditionnel

Modeles statistiques plan not mstat appr arbr comm J I N H MAS 9/3/2005gr 69

Page 70: Mod´elisation et apprentissage statistiquemephisto.unige.ch/pub/stats/Pmas/doc/Notes_de_cours/Sl... · 2011-09-19 · Mod´elisation et apprentissage statistiques 1 Introduction

Tests de significativite des coefficients

Il s’agit de tester H0 : βj = 0 contre H1 : βj 6= 0.

En regression, on utilise la statistique de Student

Tβj=

βj

σβj

∼ Stn−p

ou σβjest l’estimateur de l’ecart-type de βj (racine du terme diagonal

correspondant de σu(X′X)−1 .)

Pour tester H0 : βj = βj0 contre H1 : βj 6= βj0.

On utilise la statistique de Student

Tβj=

βj − βj0

σβj

∼ Stn−p

Pour n grand, on considere le coefficient comme significatif lorsque le t

calcule est superieur a 2 (le seuil a 5% de la loi normale vaut 1.96). Pour n

petit, le seuil est plus eleve.

Modeles statistiques plan not mstat appr arbr comm J I N H MAS 9/3/2005gr 70

Page 71: Mod´elisation et apprentissage statistiquemephisto.unige.ch/pub/stats/Pmas/doc/Notes_de_cours/Sl... · 2011-09-19 · Mod´elisation et apprentissage statistiques 1 Introduction

Ratio critique

L’utilisation de la distribution de Student suppose

– la normalite de la reponse Y

– variance de Y independante de son esperance

Lorsque ces conditions ne sont pas verifiees, on compare a titre indicatif le

rapport critique :

θj

σθj

au seuil de la loi normale.

Exemple : voir AMOS.

Modeles statistiques plan not mstat appr arbr comm J I N H MAS 9/3/2005gr 71

Page 72: Mod´elisation et apprentissage statistiquemephisto.unige.ch/pub/stats/Pmas/doc/Notes_de_cours/Sl... · 2011-09-19 · Mod´elisation et apprentissage statistiques 1 Introduction

Cas general : rapport de vraisemblance conditionnel

Pour des modeles qui different par un ou plusieurs parametres, on peut

utiliser :

G2(M2|M1) = G2(M2)−G2(M1) = −2 ln L(M2) + 2 ln L(M1)

qui, si M2 est correct, suit un χ2 a d2 − d1(= p1 − p2) degres de liberte.

Modeles statistiques plan not mstat appr arbr comm J I N H MAS 9/3/2005gr 72

Page 73: Mod´elisation et apprentissage statistiquemephisto.unige.ch/pub/stats/Pmas/doc/Notes_de_cours/Sl... · 2011-09-19 · Mod´elisation et apprentissage statistiques 1 Introduction

Alternative : comparer les BIC

Raftery (1995) (p. 139) : interpretation des differences entre BIC

Difference facteur bayesien prob. a posteriori

entre BIC p(O|M1)/p(O|M2) p(M1|O) evidence

0–2 1–3 50–75 % faible

2–6 3–20 75–95 % positive

6–10 20–150 95–99 % fort

>10 >150 >99 % tres fort

Conversion approximative d’un ratio critique t en termes de variation de BIC :

t2 − lnn ' BIC2 −BIC1

⇒ pour une evidence forte, il faut

|t| >√

lnn + 6

soit respectivement 2.88, 3.26, 3.59 et 3.9 pour n = 10, 100, 1000 et 10000.

Modeles statistiques plan not mstat appr arbr comm J I N H MAS 9/3/2005gr 73

Page 74: Mod´elisation et apprentissage statistiquemephisto.unige.ch/pub/stats/Pmas/doc/Notes_de_cours/Sl... · 2011-09-19 · Mod´elisation et apprentissage statistiques 1 Introduction

3.3.3 Analyse des residus

Residu : ecart entre observation et prediction.

A nouveau on peut mesurer cet ecart par

– la difference entre yα − yα (contribution a la sommes des carres (SC))

– contribution a la deviance (deviate)

Souvent, on considere des formes normalisees des contributions a la SC.

Objectif

Des residus standardises superieurs a 2.5 ou 3 indiquent des cas atypiques

(tres mal ajustes par le modele).

Modeles statistiques plan not mstat appr arbr comm J I N H MAS 9/3/2005gr 74

Page 75: Mod´elisation et apprentissage statistiquemephisto.unige.ch/pub/stats/Pmas/doc/Notes_de_cours/Sl... · 2011-09-19 · Mod´elisation et apprentissage statistiques 1 Introduction

Residus : exemple regression logistique

Contribution a la somme des carres

Les residus de la regression logistique sont de la forme :

ri = yi − pi =

pi si yi = 0

1− pi si yi = 1

ecart entre etat observe (yi = 0 ou 1) et prediction de la probabilite d’etre en

yi = 1.

Residu standardise (zre)

zi =ri√

pi(1− pi)

Residu studentise (sre)

idem mais en calculant le residu par rapport a la prediction donnee par le

modele estime sans la i-eme observation

zi =rsi√

psi (1− ps

i )

Modeles statistiques plan not mstat appr arbr comm J I N H MAS 9/3/2005gr 75

Page 76: Mod´elisation et apprentissage statistiquemephisto.unige.ch/pub/stats/Pmas/doc/Notes_de_cours/Sl... · 2011-09-19 · Mod´elisation et apprentissage statistiques 1 Introduction

Deviance (dev)

√−2 ln pi si yi = 1

−√−2 ln(1− pi) si yi = 0

Residus logit (lre)

Residus calcules en termes de logit

lrei =ri

pi(1− pi)

Modeles statistiques plan not mstat appr arbr comm J I N H MAS 9/3/2005gr 76

Page 77: Mod´elisation et apprentissage statistiquemephisto.unige.ch/pub/stats/Pmas/doc/Notes_de_cours/Sl... · 2011-09-19 · Mod´elisation et apprentissage statistiques 1 Introduction

4 Apprentissage supervise

4.1 Typologie de modeles d’apprentissage

4.2 Details sur quelques methodes d’apprentissage

4.2.1 Analyse discriminante

4.2.2 Reseaux de neurones

4.2.3 Machine a support vectoriel (SVM)

4.2.4 Arbres d’induction

4.2.5 Classifieurs et reseaux bayesiens

4.3 Initiation a la pratique des arbres d’induction

4.4 Criteres de qualite des regles

4.4.1 Performance en classification (taux d’erreur)

4.4.2 Complexite

4.4.3 Qualite des partitions

Apprentissage plan not mstat appr arbr comm J I N H MAS 9/3/2005gr 77

Page 78: Mod´elisation et apprentissage statistiquemephisto.unige.ch/pub/stats/Pmas/doc/Notes_de_cours/Sl... · 2011-09-19 · Mod´elisation et apprentissage statistiques 1 Introduction

4.1 Typologie de modeles d’apprentissage

Apprentissage machine, apprentissage supervise, apprentissage par les

exemples :

apprendre un predicteur (classifieur) f(x) qui permet de predire la valeur (la

classe) yα d’un cas α avec profil xα :

yα = f(xα)

Apprentissage plan not mstat appr arbr comm J I N H MAS 9/3/2005gr 78

Page 79: Mod´elisation et apprentissage statistiquemephisto.unige.ch/pub/stats/Pmas/doc/Notes_de_cours/Sl... · 2011-09-19 · Mod´elisation et apprentissage statistiques 1 Introduction

Typologie selon la nature des variables (attributs)

attributs predictifsreponse categoriels quantitatifs

categorielle arbre de decision analyse discriminante(classification) reseau bayesien hyperplan separateur optimal

SVMk-PPV

Perceptron

quantitative arbre de regression regression(regression) CART regression locale

methodes de noyauxmethodes de regulation

Remarque : typologie non stricte. Discretisation et codage indicateur des

attributs categoriels, permettent d’etendre la portee des methodes.

Apprentissage plan not mstat appr arbr comm J I N H MAS 9/3/2005gr 79

Page 80: Mod´elisation et apprentissage statistiquemephisto.unige.ch/pub/stats/Pmas/doc/Notes_de_cours/Sl... · 2011-09-19 · Mod´elisation et apprentissage statistiques 1 Introduction

Typologie selon principe de classification

Methodes procedant en deux etapes :

1. determiner la distribution conditionnelle, c-a-d les probabilites

p(Y = yi | x)

2. attribuer la categorie f(x) = arg maxyip(Y = yi | x)

ou la categorie qui minimise le cout d’erreur de classification

f(x) = arg minyi

(1− p(Y = yi | x)

)c(yi).

analyse discriminante, arbres,regression logistique, k-PPV,reseau bayesien, ...

Methodes directes : Determination directe de la frontiere entre les classes.

Perceptron, hyperplan separateur optimal,SVM, ...

Apprentissage plan not mstat appr arbr comm J I N H MAS 9/3/2005gr 80

Page 81: Mod´elisation et apprentissage statistiquemephisto.unige.ch/pub/stats/Pmas/doc/Notes_de_cours/Sl... · 2011-09-19 · Mod´elisation et apprentissage statistiques 1 Introduction

Methodes en deux etapes

On distingue entre

– Methodes ou pi(x) = p(Y = yi|x) est fonction analytique de x(fonction parametrique)

Exemples : analyse discriminante, regression logistique, ...

– Methodes de partitionnement de l’espace X des predicteurs

(fonction non parametrique)

⇒ un vecteurs pk par classe de la partition.

Exemples : arbres, reseau bayesien, ...

Apprentissage plan not mstat appr arbr comm J I N H MAS 9/3/2005gr 81

Page 82: Mod´elisation et apprentissage statistiquemephisto.unige.ch/pub/stats/Pmas/doc/Notes_de_cours/Sl... · 2011-09-19 · Mod´elisation et apprentissage statistiques 1 Introduction

Methodes globales versus methodes locales

Methodes globales : fonction parametrique simple (robuste) de

– la fonction de prediction (regression)

– le logit de la probabilite (regression logistique, analyse discriminante)

– de la frontiere de separation (hyperplan separateur optimal, SVM)

Methodes locales : les fonctions sont definies localement (souvent de facon

non parametree)

Exemple : k-PPV, arbres, methodes de noyaux, ...

Apprentissage plan not mstat appr arbr comm J I N H MAS 9/3/2005gr 82

Page 83: Mod´elisation et apprentissage statistiquemephisto.unige.ch/pub/stats/Pmas/doc/Notes_de_cours/Sl... · 2011-09-19 · Mod´elisation et apprentissage statistiques 1 Introduction

Apprentissage en une etape versus incremental

En une etape :

– Donnees d’apprentissage

– Donnees de validation

– Donnees d’application

En particulier toutes les methodes globales parametrees, mais aussi les

arbres.

Incremental : (Case base reasoning CBR)

La regle (classifieur) est automatiquement adaptee des qu’une nouvelle

information est disponible.

Exemple : k-PPV, ...

Autres typologie, voir Hastie et al. (2001) et Han and Kamber (2001).

Apprentissage plan not mstat appr arbr comm J I N H MAS 9/3/2005gr 83

Page 84: Mod´elisation et apprentissage statistiquemephisto.unige.ch/pub/stats/Pmas/doc/Notes_de_cours/Sl... · 2011-09-19 · Mod´elisation et apprentissage statistiques 1 Introduction

4.2 Details sur quelques methodes d’apprentissage

Analyse discriminante

Reseaux de neurones

Machine a support vectoriel (SVM)

Arbres d’induction

Classifieurs et reseaux bayesiens

Apprentissage plan not mstat appr arbr comm J I N H MAS 9/3/2005gr 84

Page 85: Mod´elisation et apprentissage statistiquemephisto.unige.ch/pub/stats/Pmas/doc/Notes_de_cours/Sl... · 2011-09-19 · Mod´elisation et apprentissage statistiques 1 Introduction

4.2.1 Analyse discriminante

Contexte

- Une variable reponse categorielle (Type d’etudes)

- Plusieurs attributs predictifs metriques (revenu, dettes, age, duree de

chomage, nombre d’enfants) ⇒ matrice Xn× p

Exemple :i Forma Revenu Age Enfants1 1 100 40 22 1 90 25 03 1 120 60 14 2 50 25 15 2 60 40 26 2 80 50 37 2 60 55 28 3 80 30 19 3 80 50 110 3 50 40 0

Apprentissage plan not mstat appr arbr comm J I N H MAS 9/3/2005gr 85

Page 86: Mod´elisation et apprentissage statistiquemephisto.unige.ch/pub/stats/Pmas/doc/Notes_de_cours/Sl... · 2011-09-19 · Mod´elisation et apprentissage statistiques 1 Introduction

Plot des donnees

REVENU

AGE

ENFANTS

FORMA

technqiue

social

commercial

Apprentissage plan not mstat appr arbr comm J I N H MAS 9/3/2005gr 86

Page 87: Mod´elisation et apprentissage statistiquemephisto.unige.ch/pub/stats/Pmas/doc/Notes_de_cours/Sl... · 2011-09-19 · Mod´elisation et apprentissage statistiques 1 Introduction

Principe de l’analyse discriminante

Objectif : classer dans la categorie la plus probable pour le profil de x.

On associe a chaque categorie i une fonction discriminante δi(x), et l’on

classifie selon :

f(x) = arg maxi

δi(x)

Apprentissage plan not mstat appr arbr comm J I N H MAS 9/3/2005gr 87

Page 88: Mod´elisation et apprentissage statistiquemephisto.unige.ch/pub/stats/Pmas/doc/Notes_de_cours/Sl... · 2011-09-19 · Mod´elisation et apprentissage statistiques 1 Introduction

Fonction discriminante lineaire de Fisher

Une fonction discriminante lineaire pour chaque groupe i = 1, . . . , `.

Chaque fonction correspond (a une constante additive pres) a l’oppose de la

distance de Mahalanobis au centre xi du groupe :

d2(x, xi) = (x− xi)′S−1(x− xi)

= x′S−1x− 2x′S−1xi + x′iS

−1xi

avec S estimation de la matrice de variances-covariances intra supposee

commune des groupes.

Comme x′S−1x ne depend pas du groupe i, chercher le centre xi dont un

point x est le plus proche est equivalent a chercher parmi les ` fonctions

lineaires suivantes, celle qui prend la valeur maximale

δi(x) = x′S−1xi −12x′

iS−1xi

Ces ` fonctions sont les fonctions lineaires discriminantes de Fisher.

Apprentissage plan not mstat appr arbr comm J I N H MAS 9/3/2005gr 88

Page 89: Mod´elisation et apprentissage statistiquemephisto.unige.ch/pub/stats/Pmas/doc/Notes_de_cours/Sl... · 2011-09-19 · Mod´elisation et apprentissage statistiques 1 Introduction

Remarque : Le principe de Fisher suppose

1) les memes variances et covariances dans chaque groupe (Σi = Σ, tout i).

2) que la probabilite a priori de choisir un cas du groupe i est la meme pour

tous les groupes i = 1, . . . , `.

Regles probabilistes d’affectation

Si l’on admet que la distribution de x est multi-normale dans chaque groupe,

les fonctions discriminantes de Fisher sont equivalentes aux probabilites a

posteriori p(Y = yi|x)

arg maxi

p(Y = yi|x) = arg maxi

δi(x)

Apprentissage plan not mstat appr arbr comm J I N H MAS 9/3/2005gr 89

Page 90: Mod´elisation et apprentissage statistiquemephisto.unige.ch/pub/stats/Pmas/doc/Notes_de_cours/Sl... · 2011-09-19 · Mod´elisation et apprentissage statistiques 1 Introduction

Probabilites a priori differentes

p(Y = yi) probabilite a priori de la classe yi.

Regle bayesienne

Affectation au groupe i qui maximise la probabilite

p(Y = yi|x) =p(x|yi)p(Y = yi)∑`

k=1 P (x|yk)p(Y = yk)

⇒ fonction discriminante

δi(x) = x′S−1xi −12x′

iS−1xi + ln(p(Y = yi))︸ ︷︷ ︸

nouveau terme

Apprentissage plan not mstat appr arbr comm J I N H MAS 9/3/2005gr 90

Page 91: Mod´elisation et apprentissage statistiquemephisto.unige.ch/pub/stats/Pmas/doc/Notes_de_cours/Sl... · 2011-09-19 · Mod´elisation et apprentissage statistiques 1 Introduction

Analyse discriminante quadratique

Si l’on abandonne l’hypothese de matrice de covariances Σi egales pour tous

les groupes i, les fonctions discriminantes deviennent quadratiques :

δi(x) = −12

ln |Si| −12(x− xi)′S−1

i (x− xi) + ln(p(Y = yi))

Plus souple, mais beaucoup plus de parametres a estimer.

Apprentissage plan not mstat appr arbr comm J I N H MAS 9/3/2005gr 91

Page 92: Mod´elisation et apprentissage statistiquemephisto.unige.ch/pub/stats/Pmas/doc/Notes_de_cours/Sl... · 2011-09-19 · Mod´elisation et apprentissage statistiques 1 Introduction

Classification : output de SPSS

Classification StatisticsPrior Probabilities for Groups

.333 3 3.000

.333 4 4.000

.333 3 3.0001.000 10 10.000

FORMAcommercialsocialtechnqiueTotal

Prior Unweighted WeightedCases Used in Analysis

Classification Function Coefficients

.849 .301 .533-6.062E-02 7.393E-02 5.671E-02

-8.900 -1.507 -6.338-39.268 -10.578 -18.773

REVENUAGEENFANTS(Constant)

commercial social technqiueFORMA

Fisher's linear discriminant functions

Apprentissage plan not mstat appr arbr comm J I N H MAS 9/3/2005gr 92

Page 93: Mod´elisation et apprentissage statistiquemephisto.unige.ch/pub/stats/Pmas/doc/Notes_de_cours/Sl... · 2011-09-19 · Mod´elisation et apprentissage statistiques 1 Introduction

Casewise Statistics

1 1 .144 2 .789 3.878 3 .209 6.532 1.376 1.4531 1 .674 2 .994 .790 3 .006 10.885 3.473 -.3801 1 .454 2 1.000 1.579 3 .000 17.320 4.260 .1092 2 .668 2 .867 .806 3 .133 4.555 -1.890 -.3992 2 .982 2 .990 .037 3 .010 9.331 -2.619 .3512 2 .443 2 .993 1.630 3 .007 11.663 -2.230 1.5792 2 .728 2 .993 .635 3 .007 10.445 -2.980 -.2583 3 .427 2 .776 1.700 1 .219 4.231 .987 .2243 3 .930 2 .965 .145 1 .026 7.368 .505 -.5873 3 .247 2 .937 2.800 2 .063 8.197 -.883 -2.0911 3** .111 3 1.000 6.014 2 .000 44.2521 1 .077 3 .933 6.849 3 .067 12.1161 1 .000 3 1.000 27.202 3 .000 48.9622 3** .166 3 .577 5.087 2 .423 5.7042 2 .990 3 .982 .112 3 .018 8.0902 2 .251 3 .980 4.096 3 .020 11.9022 2 .323 3 .978 3.483 3 .022 11.1093 1** .197 3 .922 4.677 3 .072 9.7803 3 .700 3 .915 1.425 1 .063 6.7913 2** .047 3 .948 7.971 3 .052 13.783

CaseNumber1234567891012345678910

Original

Cross-validateda

ActualGroup

PredictedGroup p df

P(D>d | G=g)P(G=g | D=d)

SquaredMahalanobisDistance to

Centroid

Highest Group

Group P(G=g | D=d)

SquaredMahalanobisDistance to

Centroid

Second Highest Group

Function 1Function

2

Discriminant Scores

For the original data, squared Mahalanobis distance is based on canonical functions.For the cross-validated data, squared Mahalanobis distance is based on observations.

Misclassified case**. Cross validation is done only for those cases in the analysis. In cross validation, each case is classified by the functions derived from all cases other than that case.a.

Apprentissage plan not mstat appr arbr comm J I N H MAS 9/3/2005gr 93

Page 94: Mod´elisation et apprentissage statistiquemephisto.unige.ch/pub/stats/Pmas/doc/Notes_de_cours/Sl... · 2011-09-19 · Mod´elisation et apprentissage statistiques 1 Introduction

Classification Resultsb,c

3 0 0 30 4 0 40 0 3 3

100.0 .0 .0 100.0.0 100.0 .0 100.0.0 .0 100.0 100.02 0 1 30 3 1 41 1 1 3

66.7 .0 33.3 100.0.0 75.0 25.0 100.0

33.3 33.3 33.3 100.0

FORMAcommercialsocialtechnqiuecommercialsocialtechnqiuecommercialsocialtechnqiuecommercialsocialtechnqiue

Count

%

Count

%

Original

Cross-validateda

commercial social technqiuePredicted Group Membership

Total

Cross validation is done only for those cases in the analysis. In cross validation, each case isclassified by the functions derived from all cases other than that case.

a.

100.0% of original grouped cases correctly classified.b. 60.0% of cross-validated grouped cases correctly classified.c.

Apprentissage plan not mstat appr arbr comm J I N H MAS 9/3/2005gr 94

Page 95: Mod´elisation et apprentissage statistiquemephisto.unige.ch/pub/stats/Pmas/doc/Notes_de_cours/Sl... · 2011-09-19 · Mod´elisation et apprentissage statistiques 1 Introduction

4.2.2 Reseaux de neurones

Thiria et al. (1997), Rumelhart et al. (1986)

Reseaux a apprentissage supervise

– Retropropagation (descendant du Perceptron)

Les poids sont iterativement reajustes pour ameliorer les classements.

. . . .

Couche entrée

Couche intermédiairecachée

Couche sortie

. . . .

Trouve les hyperplans separateurs des donnees d’apprentissage, lorsqu’ils

existent.

Apprentissage plan not mstat appr arbr comm J I N H MAS 9/3/2005gr 95

Page 96: Mod´elisation et apprentissage statistiquemephisto.unige.ch/pub/stats/Pmas/doc/Notes_de_cours/Sl... · 2011-09-19 · Mod´elisation et apprentissage statistiques 1 Introduction

4.2.3 Machine a support vectoriel (SVM)

Hyperplan separarteur optimal : si les classes sont separables, trouve

l’hyperplan separateur qui laisse la plus grande marge libre de points de

chaque cote.

maxβ,β0

C

s.c. yα(x′αβ + β0) ≥ C, α = 1, . . . , n

β′β = 1

Apprentissage plan not mstat appr arbr comm J I N H MAS 9/3/2005gr 96

Page 97: Mod´elisation et apprentissage statistiquemephisto.unige.ch/pub/stats/Pmas/doc/Notes_de_cours/Sl... · 2011-09-19 · Mod´elisation et apprentissage statistiques 1 Introduction

Classement par vecteur support :

Cherche la bande (non lineaire) de separation la plus large sans depasser une

valeur donnee pour la somme des erreurs.

maxβ,β0

C

s.c. yα(x′αβ + β0) ≥ C(1− ξα), α = 1, . . . , n

β′β = 1

avec ξα ≥ 0 et∑

α ξα ≤ cste.

Le SVM est une generalisation utilisant une extension en base polynomiale ou

spline.

Apprentissage plan not mstat appr arbr comm J I N H MAS 9/3/2005gr 97

Page 98: Mod´elisation et apprentissage statistiquemephisto.unige.ch/pub/stats/Pmas/doc/Notes_de_cours/Sl... · 2011-09-19 · Mod´elisation et apprentissage statistiques 1 Introduction

4.2.4 Arbres d’induction

Principe

1. Eclater nœud initial (toutes les donnees)

selon categories de la variable la plus

pertinente (gain d’information maximal)

⇒ nouvelle branche pour chaque

categorie.

2. Eclater successivement les feuilles

⇒ ∆critere≤ 0 (ou autre critere d’arret.)

3. Elaguer.

� �

� � � � � �

� � � � � � � �

� � � � � �� � �

� � � � �

� � �

Graphes d’induction : possibilites de fusion.

⇒ Initiation aux arbres d’induction

Apprentissage plan not mstat appr arbr comm J I N H MAS 9/3/2005gr 98

Page 99: Mod´elisation et apprentissage statistiquemephisto.unige.ch/pub/stats/Pmas/doc/Notes_de_cours/Sl... · 2011-09-19 · Mod´elisation et apprentissage statistiques 1 Introduction

4.2.5 Classifieurs et reseaux bayesiens

Classificateur naıf

x = (xj)j=1,...,p : instance, vecteur des valeurs des predicats.

Classer x dans categorie Ci avec plus grande probabilite a posteriori

P (Ci|x) > P (Ck|x) tout k 6= i

P (Ci|x) ∝ P (x|Ci)P (Ci)

P (Ci) probabilite a priori (constante ou estimee par ni/n)

Hypotheses pour estimer P (x|Ci) :

1. P (x|Ci) =∏

j P (xj |Ci)c-a-d independance conditionnelle a la classe.

2. normalite des Xj continus : Xj |Ci ∼ N(µCi, σCi

).

Meilleur classificateur lorsque ces hypotheses sont satisfaites.

Apprentissage plan not mstat appr arbr comm J I N H MAS 9/3/2005gr 99

Page 100: Mod´elisation et apprentissage statistiquemephisto.unige.ch/pub/stats/Pmas/doc/Notes_de_cours/Sl... · 2011-09-19 · Mod´elisation et apprentissage statistiques 1 Introduction

Classificateur bayesien naıf : exemple

cancer (C, C), fumeur (F, F), antecedent familial (A, A)

cancer F F total

A 12 5 17

A 12 1 13

total 24 6 30

∼cancer F F total

A 6 24 30

A 16 24 40

total 22 48 70

Comment classer un individu (∼antecedent, fumeur) = (A, F) ?

P (C) = 0.3 P (C) = 0.7

P (A|C) = 13/30 = 0.43 P (A|C) = 40/70 = 0.57

P (F |C) = 24/30 = 0.80 P (F |C) = 22/70 = 0.314

P (A ∧ F | C) ' 0.43 · 0.8 = 0.35 ( 6=12/30) P (A ∧ F | C) ' 0.57 · 0.31 = 0.18 ( 6=16/70)

P (C | A ∧ F ) ∝ 0.3 · 0.35 = 0.105

P (C | A ∧ F ) ∝ 0.7 · 0.18 = 0.126

Apprentissage plan not mstat appr arbr comm J I N H MAS 9/3/2005gr 100

Page 101: Mod´elisation et apprentissage statistiquemephisto.unige.ch/pub/stats/Pmas/doc/Notes_de_cours/Sl... · 2011-09-19 · Mod´elisation et apprentissage statistiques 1 Introduction

Reseau bayesien (Bayesian Belief Network) Heckerman (1996)

Principe : Relacher hypothese d’independance conditionnelle a la classe.

⇒ Reseau de causalite unidirectionnel

� � � � � � � � � �� � � � �

� � � �

� � � � � � � � �� � � � � �

P (x|Ci) =∏j

P(xj |Parents(Xj) et Ci

)Exemple :

P ([fumeur] et [∼antecedent] | [cancer]) =

= P ([∼antecedent] | [cancer]) P ([fumeur] | [∼antecedent] et [cancer])

Apprentissage plan not mstat appr arbr comm J I N H MAS 9/3/2005gr 101

Page 102: Mod´elisation et apprentissage statistiquemephisto.unige.ch/pub/stats/Pmas/doc/Notes_de_cours/Sl... · 2011-09-19 · Mod´elisation et apprentissage statistiques 1 Introduction

Reseau bayesien : exemple

P (F |A ∧ C) = 0.71 6= P (F |A ∧ C) = 0.92 6= P (F |C) = 0.8 ⇒ non independance

cancer F F total

A 12 5 17

A 12 1 13

total 24 6 30

∼cancer F F total

A 6 24 30

A 16 24 40

total 22 48 70

P (C) = 0.3 P (C) = 0.7

P (A|C) = 13/30 = 0.43 P (A|C) = 40/70 = 0.57

P (F | A ∧ C) = 12/13 = 0.923 P (F | A ∧ C) = 16/40 = 0.4

P (A ∧ F | C) = 0.43 · 0.923 = 0.4 (=12/30) P (A ∧ F | C) = 0.57 · 0.4 = 0.228 (=16/70)

P (C | A ∧ F ) ∝ 0.3 · 0.4 = 0.12

P (C | A ∧ F ) ∝ 0.7 · 0.228 = 0.16

Apprentissage plan not mstat appr arbr comm J I N H MAS 9/3/2005gr 102

Page 103: Mod´elisation et apprentissage statistiquemephisto.unige.ch/pub/stats/Pmas/doc/Notes_de_cours/Sl... · 2011-09-19 · Mod´elisation et apprentissage statistiques 1 Introduction

Reseau bayesien : apprentissage

Reseau fixe, pas de donnees manquantes : Calcul direct des PC

(probabilites conditionnelles).

Donnees manquantes Estimation du maximum de vraisemblance des PC.

Reseau inconnu : structure inferee des donnees Munteanu and Cau (2000).

Apprentissage plan not mstat appr arbr comm J I N H MAS 9/3/2005gr 103

Page 104: Mod´elisation et apprentissage statistiquemephisto.unige.ch/pub/stats/Pmas/doc/Notes_de_cours/Sl... · 2011-09-19 · Mod´elisation et apprentissage statistiques 1 Introduction

4.3 Initiation a la pratique des arbres d’induction

4.3.1 Principe

4.3.2 Les criteres

4.3.3 AnswerTree 3.0

4.3.4 SIPINA

http ://mephisto.unige.ch

Apprentissage plan not mstat appr arbr comm J I N H MAS 9/3/2005gr 104

Page 105: Mod´elisation et apprentissage statistiquemephisto.unige.ch/pub/stats/Pmas/doc/Notes_de_cours/Sl... · 2011-09-19 · Mod´elisation et apprentissage statistiques 1 Introduction

4.3.1 Principe

Graphes d’induction : apprentissage supervise

⇒ 1 variable dependante (categorielle)

variables explicatives (attributs) categorielles ou metriques

(variable dependante metrique ⇒ arbre de regression)

Apprentissage plan not mstat appr arbr comm J I N H MAS 9/3/2005gr 105

Page 106: Mod´elisation et apprentissage statistiquemephisto.unige.ch/pub/stats/Pmas/doc/Notes_de_cours/Sl... · 2011-09-19 · Mod´elisation et apprentissage statistiques 1 Introduction

Arbre :

Eclatement successif des

sommets

On cherche, a chaque sommet,

la variable qui discrimine le

mieux par rapport a la variable

dependante.

����

� � �

� � �

� � � �

Apprentissage plan not mstat appr arbr comm J I N H MAS 9/3/2005gr 106

Page 107: Mod´elisation et apprentissage statistiquemephisto.unige.ch/pub/stats/Pmas/doc/Notes_de_cours/Sl... · 2011-09-19 · Mod´elisation et apprentissage statistiques 1 Introduction

Graphe :

procede egalement par

fusion

– des sommets avec

distributions similaires.

– des sommets a faible

effectif avec sommet le

plus semblable

����

� � �

� � �

� � � �

Apprentissage plan not mstat appr arbr comm J I N H MAS 9/3/2005gr 107

Page 108: Mod´elisation et apprentissage statistiquemephisto.unige.ch/pub/stats/Pmas/doc/Notes_de_cours/Sl... · 2011-09-19 · Mod´elisation et apprentissage statistiques 1 Introduction

Arbre binaire :

Ne fait que des

eclatements en 2 ����

� � �

� � �

� � � �

� � �

Apprentissage plan not mstat appr arbr comm J I N H MAS 9/3/2005gr 108

Page 109: Mod´elisation et apprentissage statistiquemephisto.unige.ch/pub/stats/Pmas/doc/Notes_de_cours/Sl... · 2011-09-19 · Mod´elisation et apprentissage statistiques 1 Introduction

4.3.2 Les criteres

Criteres issus de

la theorie de l’information : entropies (incertitude) de la distribution

Entropie de Shannon : hS(p) = −∑c

i=1 pi log2 pi

Entropie quadratique (Gini) : hQ(p) =∑c

i=1 pi(1− pi) = 1−∑c

i=1 p2i

⇒ maximiser la reduction d’entropie

association statistique Khi-2 de Pearson, mesures d’association

⇒ maximiser l’association, minimiser la p-valeur du test de l’association

nulle.

Apprentissage plan not mstat appr arbr comm J I N H MAS 9/3/2005gr 109

Page 110: Mod´elisation et apprentissage statistiquemephisto.unige.ch/pub/stats/Pmas/doc/Notes_de_cours/Sl... · 2011-09-19 · Mod´elisation et apprentissage statistiques 1 Introduction

Gain d’information

Lecteurs et non lecteurs d’un magazine

age lecteur non lecteur total

jeune 200 3000 3200

age 700 900 1600

total 900 3900 4800

� age�⇒ � lecteur� [15%,44%]

Quelle information apporte l’age ?

Apprentissage plan not mstat appr arbr comm J I N H MAS 9/3/2005gr 110

Page 111: Mod´elisation et apprentissage statistiquemephisto.unige.ch/pub/stats/Pmas/doc/Notes_de_cours/Sl... · 2011-09-19 · Mod´elisation et apprentissage statistiques 1 Introduction

Gain = reduction de l’incertitude

Incertitude : entropie de Shannon

H(lecteur) = −c∑

i=1

pi log2 pi

= −(

9004800

log2

( 9004800

)+

39004800

log2

(39004800

) )= 0.696

H(lecteur|jeune) = 0.377

H(lecteur|age) = 0.989

H(lecteur|Age) = (2/3)0.377 + (1/3)0.989 = 0.554

Gain(Age) = H(lecteur)−H(lecteur|Age)

= 0.696− 0.554 = 0.14

Apprentissage plan not mstat appr arbr comm J I N H MAS 9/3/2005gr 111

Page 112: Mod´elisation et apprentissage statistiquemephisto.unige.ch/pub/stats/Pmas/doc/Notes_de_cours/Sl... · 2011-09-19 · Mod´elisation et apprentissage statistiques 1 Introduction

4.3.3 AnswerTree 3.0

SPSS (2001)

Construit des arbres

4 methodes :

arbre binaire variable dependante probabilites

methode oui non nominale ordinale continue a priori

CHAID X X X X

CHAID exhaustif X X X X

C&RT X X X X X

QUEST X X X

Apprentissage plan not mstat appr arbr comm J I N H MAS 9/3/2005gr 112

Page 113: Mod´elisation et apprentissage statistiquemephisto.unige.ch/pub/stats/Pmas/doc/Notes_de_cours/Sl... · 2011-09-19 · Mod´elisation et apprentissage statistiques 1 Introduction

CHAID Chi-squared Automatic Interaction Detection (Kass (1980))

1. Explore les valeurs de chaque predicteur et fusionne les categories avec

quasi-equivalence distributionnelle par rapport a la variable dependante.

2. Choisit le meilleur predicteur sur la base du degre de signification du test

d’independance :

– χ2, si variable dependante categorielle

– F , si variable dependante continue

CHAID exhaustif (Biggs et al. (1991))

CHAID stoppe la fusion de categories des que les categories restantes sont

statistiquement differentes.

CHAID exhaustif continue la fusion ⇒ 2 categories et retient l’agregation qui

donne la plus forte association avec la variable dependante.

⇒ meilleure partition pour chaque predicteur.

Apprentissage plan not mstat appr arbr comm J I N H MAS 9/3/2005gr 113

Page 114: Mod´elisation et apprentissage statistiquemephisto.unige.ch/pub/stats/Pmas/doc/Notes_de_cours/Sl... · 2011-09-19 · Mod´elisation et apprentissage statistiques 1 Introduction

CART :Classification and Regression Trees Breiman et al. (1984)

Partage binaire iteratif ⇒ arbre binaire

Minimise des indices d’impurete :

– Gini : gs = 1−∑

i p2is,

avec pis probabilite de la categorie i au sommet s.

– Twoing : on cherche simultanement la meilleure partition en deux des

categories de la variable dependante et des categories des predicteurs.

– LSD (Least-squared deviation) si variable dependante continue

(LSD=Variance interne du sommet).

QUEST Quick, Unbiased, Efficient Statistical Tree

Loh and Shih (1997)

Traite separement le choix

– du predicteur (non biaise : choix aleatoire selon l’information fournie)

– de la partition (partition binaire univariee)

Apprentissage plan not mstat appr arbr comm J I N H MAS 9/3/2005gr 114

Page 115: Mod´elisation et apprentissage statistiquemephisto.unige.ch/pub/stats/Pmas/doc/Notes_de_cours/Sl... · 2011-09-19 · Mod´elisation et apprentissage statistiques 1 Introduction

4.3.4 SIPINA

Zighed and Rakotomalala (2000) http ://eric.univ-lyon2.fr

SIPINA methode de construction de graphe d’induction et logiciel.

Le logiciel propose plusieurs autres methodes (CHAID, CART, C4.5, ...)

La methode Sipina se caracterise par

– La prise en compte de la representativite (taille) des groupes.

– Construit des graphes par eclatements et fusions successives

Apprentissage plan not mstat appr arbr comm J I N H MAS 9/3/2005gr 115

Page 116: Mod´elisation et apprentissage statistiquemephisto.unige.ch/pub/stats/Pmas/doc/Notes_de_cours/Sl... · 2011-09-19 · Mod´elisation et apprentissage statistiques 1 Introduction

Notations :

P : partition en q groupes ou sommets

q : nombre de sommets de la partition P

` : nombre de categories de la variable reponse

nik : nombre de cas du sommet k qui sont dans la categorie i

n.k : nombre de cas dans le sommet k

p(i, k, λ) : estimation (de Laplace) de la probabilite qu’un individu de la classe

k soit dans la categorie i

p(i, k, λ) =nik + λ

n.k + `λ

λ limite la trop forte sensibilite des estimations dans les petits

echantillons et penalise donc les petits echantillons.

Apprentissage plan not mstat appr arbr comm J I N H MAS 9/3/2005gr 116

Page 117: Mod´elisation et apprentissage statistiquemephisto.unige.ch/pub/stats/Pmas/doc/Notes_de_cours/Sl... · 2011-09-19 · Mod´elisation et apprentissage statistiques 1 Introduction

SIPINA choisit successivement l’eclatement ou la fusion qui maximise le gain

sur l’incertitude

G(P) = I(P−1)− I(P)

ou I(P) est l’un des indices suivants.

Indice fonde sur l’entropie quadratique

IQ(P) =q∑

k=1

α

(n.k

n

∑i=1

p(i, k, λ)[1− p(i, k, λ)

])+ (1− α)

n.k

Indice fonde sur l’entropie de Shannon

IS(P) =q∑

k=1

α

(n.k

n

∑i=1

p(i, k, λ) log2

[ 1p(i, k, λ)

])+ (1− α)

n.k

Le parametre α ∈ [0, 1] permet de controler l’arbitrage entre

– discrimination

– taille des sommets

Plus α est petit, plus on penalise pour les petites tailles n.k.

Apprentissage plan not mstat appr arbr comm J I N H MAS 9/3/2005gr 117

Page 118: Mod´elisation et apprentissage statistiquemephisto.unige.ch/pub/stats/Pmas/doc/Notes_de_cours/Sl... · 2011-09-19 · Mod´elisation et apprentissage statistiques 1 Introduction

4.4 Criteres de qualite des regles

On se concentre ici sur les criteres pour les regles de classification.

Performance en classification (taux d’erreur)

Complexite

Qualite des partitions

Apprentissage plan not mstat appr arbr comm J I N H MAS 9/3/2005gr 118

Page 119: Mod´elisation et apprentissage statistiquemephisto.unige.ch/pub/stats/Pmas/doc/Notes_de_cours/Sl... · 2011-09-19 · Mod´elisation et apprentissage statistiques 1 Introduction

4.4.1 Performance en classification (taux d’erreur)

Chaque cas est classe dans la categorie la plus frequente du sommet final ou

il se trouve.

Taux d’erreur (pourcents de cas mal classes)

– Sur echantillon d’apprentissage

– Sur echantillon de validation independant

– Par validation croisee

– Par bootstrap

En fait, il faudrait comparer avec le taux d’erreur du classement naıf

(tous dans categorie la plus frequente du sommet initial).

Apprentissage plan not mstat appr arbr comm J I N H MAS 9/3/2005gr 119

Page 120: Mod´elisation et apprentissage statistiquemephisto.unige.ch/pub/stats/Pmas/doc/Notes_de_cours/Sl... · 2011-09-19 · Mod´elisation et apprentissage statistiques 1 Introduction

Taux d’erreur

En classification,

err =1n

∑i

I[yi 6= f(xi)]

ou I[condition] prend la valeur 1 lorsque la condition est verifiee et 0 sinon.

On peut aussi utiliser la fonction perte log-vraisemblance en lieu et place de

la fonction de perte 0–1.

err =−2n

∑i

ln(p(Y = yi|x))

Apprentissage plan not mstat appr arbr comm J I N H MAS 9/3/2005gr 120

Page 121: Mod´elisation et apprentissage statistiquemephisto.unige.ch/pub/stats/Pmas/doc/Notes_de_cours/Sl... · 2011-09-19 · Mod´elisation et apprentissage statistiques 1 Introduction

Echantillon de validation

L’objectif etant la classification d’objets n’ayant pas servi a l’apprentissage,

on evalue le taux d’erreur sur un echantillon test.

Le taux d’erreur en apprentissage souffre d’optimisme.

En complexifiant l’arbre (en multipliant les sommets) on ameliore toujours le

taux d’erreur en apprentissage,

par contre au dela d’un certain seuil, le taux d’erreur en generalisation (sur

l’echantillon test) se degrade.

� � � � � � � � � � � � � �

� � � � � � � � � �

� � � � � � � �

� � � � � � � � � � �

Apprentissage plan not mstat appr arbr comm J I N H MAS 9/3/2005gr 121

Page 122: Mod´elisation et apprentissage statistiquemephisto.unige.ch/pub/stats/Pmas/doc/Notes_de_cours/Sl... · 2011-09-19 · Mod´elisation et apprentissage statistiques 1 Introduction

Validation croisee

On partitionne les donnees en g groupes a peu pres egaux

� � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � �

Pour chaque groupe k = 1, . . . , g on retient les autres g − 1 groupes pour

� apprendre� le classifieur (l’arbre par exemple) et on calcule le taux d’erreur

sur le groupe k.

On obtient ainsi g taux d’erreur dont on peut calculer la moyenne et la

variance.

Apprentissage plan not mstat appr arbr comm J I N H MAS 9/3/2005gr 122

Page 123: Mod´elisation et apprentissage statistiquemephisto.unige.ch/pub/stats/Pmas/doc/Notes_de_cours/Sl... · 2011-09-19 · Mod´elisation et apprentissage statistiques 1 Introduction

4.4.2 Complexite

Complexite de l’arbre :

– nombre de sommets

– nombre de niveaux

– longueur des messages (regles)

On peut reduire la complexite

– a priori en renforcant les criteres d’arret

(par exemple nombre maximum de niveaux dans CHAID ou CART)

– a posteriori par des procedures d’elagage

(procedure automatique par exemple dans CART)

En statistique, complexite du modele = nombre de parametres libres

Apprentissage plan not mstat appr arbr comm J I N H MAS 9/3/2005gr 123

Page 124: Mod´elisation et apprentissage statistiquemephisto.unige.ch/pub/stats/Pmas/doc/Notes_de_cours/Sl... · 2011-09-19 · Mod´elisation et apprentissage statistiques 1 Introduction

4.4.3 Qualite des partitions

On peut calculer l’amelioration totale du critere

– Gain d’information entre sommet initial et ensemble des sommets finaux.

– Degre d’association entre partition finale et variable dependante (GK τ , v

de Cramer, ...).

– Degre de signification du test que l’association est nulle.

Answer Tree et Sipina ne calculent pas ces valeurs et ne permettent pas de

recuperer l’information necessaire (no du sommet final).

Apprentissage plan not mstat appr arbr comm J I N H MAS 9/3/2005gr 124

Page 125: Mod´elisation et apprentissage statistiquemephisto.unige.ch/pub/stats/Pmas/doc/Notes_de_cours/Sl... · 2011-09-19 · Mod´elisation et apprentissage statistiques 1 Introduction

4.5 Stabilite des arbres

Arbres et graphes d’induction sont tres instables

La variabilite porte sur

1. Le taux d’erreur en classification.

2. La structure (surtout aux niveaux eleves)

– Attributs retenus

– Partitionnement des modalites des attributs categoriels ou

seuils de discretisation des variables continues

3. A structure fixe, sur les distributions dans les sommets.

On ne dispose malheureusement pas d’outils pour evaluer cette variabilite

(excepte celle du taux d’erreur). Des etudes par simulations montrent que

plus l’arbre est simple, plus il est stable.

Si trop simple, l’erreur de classification (biais) tend a augmenter.

⇒ trouver compromis entre biais et variance.

Apprentissage plan not mstat appr arbr comm J I N H MAS 9/3/2005gr 125

Page 126: Mod´elisation et apprentissage statistiquemephisto.unige.ch/pub/stats/Pmas/doc/Notes_de_cours/Sl... · 2011-09-19 · Mod´elisation et apprentissage statistiques 1 Introduction

5 Points communs et differences entre

modelisation et apprentissage

Modelisation est apprentissage ont en commun :

– Le contexte : une (des) variable(s) reponse(s) y, des predicteurs x.

– Recherche d’une fonction f(x) pour predire ou expliquer les valeurs prises

par y.

– Induction de f a partir de donnees d’apprentissages (estimation)

Ritschard and Zighed (2003, 2004), Ritschard (2003a,b)

Conciliation plan not mstat appr arbr comm J I N H MAS 9/3/2005gr 126

Page 127: Mod´elisation et apprentissage statistiquemephisto.unige.ch/pub/stats/Pmas/doc/Notes_de_cours/Sl... · 2011-09-19 · Mod´elisation et apprentissage statistiques 1 Introduction

Les differences portent sur

Modelisation :

– Utilise souvent une approche parametrique : on postule une forme de

distribution de y, sa dependance par rapport a x et on estime les

parametres.

– Objectif prioritaire : decrire les mecanismes liant y a x– Validation par mesure de la qualite d’ajustement (des donnees

d’apprentissage), test d’hypotheses.

Apprentissage supervise :

– Utilise en general une approche non-parametrique : pas d’hypotheses sur la

forme des distributions (k-ppv, arbres, reseau de neurones). f est le plus

souvent considere comme une boite noire.

– Objectif prioritaire : predire y (classer) a l’aide de x– Validation par taux d’erreur (prediction ou classement) en generalisation

Conciliation plan not mstat appr arbr comm J I N H MAS 9/3/2005gr 127

Page 128: Mod´elisation et apprentissage statistiquemephisto.unige.ch/pub/stats/Pmas/doc/Notes_de_cours/Sl... · 2011-09-19 · Mod´elisation et apprentissage statistiques 1 Introduction

Vers une universalite des criteres d’evaluation

Les taux d’erreur de prediction ou de classification, non parametriques par

nature, s’appliquent sans difficulte aux modeles statistiques.

Les criteres utilises en modelisation statistique (Deviance, BIC) peuvent

aussi s’appliquer dans certains cas en apprentissage supervise.

L’utilisation du −2LL requiere toutefois des hypotheses parametriques.

Dans le cas discret (y discret) comme avec les arbres de decision, ces

hypotheses ne sont pas tres restrictives.

A titre d’illustration, nous montrons comment les criteres de validation des

modeles statistiques s’appliquent aux arbres.

Conciliation plan not mstat appr arbr comm J I N H MAS 9/3/2005gr 128

Page 129: Mod´elisation et apprentissage statistiquemephisto.unige.ch/pub/stats/Pmas/doc/Notes_de_cours/Sl... · 2011-09-19 · Mod´elisation et apprentissage statistiques 1 Introduction

5.1 Arbres d’induction et table cible

Arbres d’induction : apprentissage supervise

(Kass (1980), Breiman et al. (1984), Quinlan (1993), Zighed and Rakotomalala (2000),

Hastie et al. (2001))

⇒ 1 variable reponse categorielle y (statut marital)

predicteurs, attributs categoriels ou metriques x = (x1, . . . , xp)(age, secteur d’activite)

(variable reponse metrique ⇒ arbre de regression)

Apprentissage supervise

A partir d’un echantillon {(xα, yα)}α=1,...,n,

construire une fonction predictive (ou de classification) f(x) qui permette de

predire la valeur ou classe y de cas dont on ne connaıt que x.

(predire le statut marital a partir de la classe d’age et du secteur d’activite)

Conciliation plan not mstat appr arbr comm J I N H MAS 9/3/2005gr 129

Page 130: Mod´elisation et apprentissage statistiquemephisto.unige.ch/pub/stats/Pmas/doc/Notes_de_cours/Sl... · 2011-09-19 · Mod´elisation et apprentissage statistiques 1 Introduction

Table cible

Si toutes les variables sont categorielles, on peut representer les donnees sous

forme d’une table de contingence croisant la variable reponse avec une

variable composite definie par le croisement de tous les predicteurs.

Tab. 1 – Exemple de table de contingence cible T

homme femme

marie primaire secondaire tertiaire primaire secondaire tertiaire total

non 11 14 15 0 5 5 50

oui 8 8 9 10 7 8 50

total 19 22 24 10 12 13 100

Conciliation plan not mstat appr arbr comm J I N H MAS 9/3/2005gr 130

Page 131: Mod´elisation et apprentissage statistiquemephisto.unige.ch/pub/stats/Pmas/doc/Notes_de_cours/Sl... · 2011-09-19 · Mod´elisation et apprentissage statistiques 1 Introduction

Arbres d’induction construit la regle f(x) en deux temps :

1. Determiner une partition des profils possibles x telle que la distribution py

de la reponse Y soit la plus differente possible d’une classe a l’autre.

� �

� �

� �

� �

� �

� �

� ��

2. La regle consiste ensuite a attribuer a chaque cas la valeur de y la plus

frequente dans sa classe.

y = f(x) = arg maxi

pi(x)

Conciliation plan not mstat appr arbr comm J I N H MAS 9/3/2005gr 131

Page 132: Mod´elisation et apprentissage statistiquemephisto.unige.ch/pub/stats/Pmas/doc/Notes_de_cours/Sl... · 2011-09-19 · Mod´elisation et apprentissage statistiques 1 Introduction

Rappel du principe des arbres d’induction

� �

� ��

� �

� �

� �

� �

� �

� �

Fig. 1 – Arbre induit

Arbres d’induction determinent la partition par eclatements successifs des

sommets. En partant du sommet initial, ils recherchent l’attribut qui permet

le meilleur eclatement selon un critere donne. L’operation est repetee a

chaque nouveau sommet jusqu’a ce qu’un critere d’arret, une taille minimale

du sommet par exemple, soit atteint.

Conciliation plan not mstat appr arbr comm J I N H MAS 9/3/2005gr 132

Page 133: Mod´elisation et apprentissage statistiquemephisto.unige.ch/pub/stats/Pmas/doc/Notes_de_cours/Sl... · 2011-09-19 · Mod´elisation et apprentissage statistiques 1 Introduction

Question : Peut-on mesurer la qualite de l’ajustement

fourni par un arbre, comme on mesure la qualite

d’ajustement d’une regression lineaire ou d’un modele

log-lineaire par exemple ?

Mesures de type R2 : λY |P , τY |P et uY |P

⇒ gain par rapport au modele naıf

Quid de la qualite de reproduction des donnees (distance predictions -

observations) ?

Peut-on tester la significativite des effets pris en compte par l’arbre ?

Conciliation plan not mstat appr arbr comm J I N H MAS 9/3/2005gr 133

Page 134: Mod´elisation et apprentissage statistiquemephisto.unige.ch/pub/stats/Pmas/doc/Notes_de_cours/Sl... · 2011-09-19 · Mod´elisation et apprentissage statistiques 1 Introduction

5.2 Ajustement de la table cible

Qualite d’ajustement : capacite du modele a reproduire les donnees.

Deux types d’ajustement

1. ajustement des donnees individuelles yα

2. ajustement de la representation synthetique (table cible T)

En apprentissage supervise, l’objectif est en general la classification

⇒ ajustement des cas individuels (qualite de la regle f(x)).

En sciences sociales, on s’interesse plutot aux mecanismes (influences des

predicteurs sur la variable a predire)

⇒ examiner effets de x sur distribution de Y

⇒ ajustement de la table de contingence (qualite du modele p(x)).

Conciliation plan not mstat appr arbr comm J I N H MAS 9/3/2005gr 134

Page 135: Mod´elisation et apprentissage statistiquemephisto.unige.ch/pub/stats/Pmas/doc/Notes_de_cours/Sl... · 2011-09-19 · Mod´elisation et apprentissage statistiques 1 Introduction

Table generee par l’arbre induit

Ta table croisant la variable a predire avec la partition generee par l’arbre.

� �

� ��

� �

� �

� �

� �

� �

� �

Tab. 2 – Table de contingence generee par l’arbre Ta

homme femmemarie secteur primaire autre secteur total

non 40 0 10 50oui 25 10 15 50

total 65 10 25 100

Conciliation plan not mstat appr arbr comm J I N H MAS 9/3/2005gr 135

Page 136: Mod´elisation et apprentissage statistiquemephisto.unige.ch/pub/stats/Pmas/doc/Notes_de_cours/Sl... · 2011-09-19 · Mod´elisation et apprentissage statistiques 1 Introduction

Arbre sature et table cible

Arbre sature : arbre qui genere

exactement la table cible T � �

� � � � � �

� �

� �

� �

� �

� �

� �

Tab. 3 – Table de contingence cible T

homme femmemarie primaire secondaire tertiaire primaire secondaire tertiaire total

non 11 14 15 0 5 5 50oui 8 8 9 10 7 8 50

total 19 22 24 10 12 13 100

Conciliation plan not mstat appr arbr comm J I N H MAS 9/3/2005gr 136

Page 137: Mod´elisation et apprentissage statistiquemephisto.unige.ch/pub/stats/Pmas/doc/Notes_de_cours/Sl... · 2011-09-19 · Mod´elisation et apprentissage statistiques 1 Introduction

Arbre etendu et table predite

Arbre induit (sommets blancs)

et son extension maximale � �

� � � � ��

� �

� � � �

� � �� � �

� � �� � �

�� �

� �� �

� �� �

�� �

� �� �

� � � �

� � � � �

Tab. 4 – Table de contingence predite T

homme femmemarie primaire secondaire tertiaire primaire secondaire tertiaire total

non 11.7 13.5 14.8 0 4.8 5.2 50oui 7.3 8.5 9.2 10 7.2 7.8 50

total 19 22 24 10 12 13 100

Conciliation plan not mstat appr arbr comm J I N H MAS 9/3/2005gr 137

Page 138: Mod´elisation et apprentissage statistiquemephisto.unige.ch/pub/stats/Pmas/doc/Notes_de_cours/Sl... · 2011-09-19 · Mod´elisation et apprentissage statistiques 1 Introduction

Dans l’arbre etendu, on applique aux feuilles (grises) de l’extension la

distribution des sommets (blancs) de l’arbre induit dont ils sont issus

p|HP = p|HS = p|HT = pa|H =

40/65

25/65

p|FP = pa

|FP =

0/10

10/10

p|FS = p|FT = pa

|FP =

10/25

15/25

Conciliation plan not mstat appr arbr comm J I N H MAS 9/3/2005gr 138

Page 139: Mod´elisation et apprentissage statistiquemephisto.unige.ch/pub/stats/Pmas/doc/Notes_de_cours/Sl... · 2011-09-19 · Mod´elisation et apprentissage statistiques 1 Introduction

5.3 Mesure et test de la qualite d’ajustement

Qualite d’ajustement : distance entre T et T

Mesures de divergence du khi-2 : X2 de Pearson et G2 du rapport de

vraisemblance (deviance)

X2 =∑i=1

c∑j=1

(nij − nij)2

nij(1)

G2 = 2∑i=1

c∑j=1

nij ln(

nij

nij

)(2)

Lorsque le modele est correct, et sous reserve des conditions de regularite, X2

et G2 sont distribuees selon loi du χ2.

Quels sont les degres de liberte ?

Conciliation plan not mstat appr arbr comm J I N H MAS 9/3/2005gr 139

Page 140: Mod´elisation et apprentissage statistiquemephisto.unige.ch/pub/stats/Pmas/doc/Notes_de_cours/Sl... · 2011-09-19 · Mod´elisation et apprentissage statistiques 1 Introduction

Deviance

� �

� � � � � �

� �

� �

� �

� �

� �

� �

� �

� ��

� �

� �

� �

� �

� �

� �

� �

� � � � � �

� �

� �

� �

� �

� �

� �

50

50↔

40 0 10

25 10 15↔

11 14 15 0 5 5

8 8 9 10 7 8

independance

nœud inital

tableau cible

arbre maximal

modele ajuste

graphe induit

D(m0|m) D(m)

D(m0)

Conciliation plan not mstat appr arbr comm J I N H MAS 9/3/2005gr 140

Page 141: Mod´elisation et apprentissage statistiquemephisto.unige.ch/pub/stats/Pmas/doc/Notes_de_cours/Sl... · 2011-09-19 · Mod´elisation et apprentissage statistiques 1 Introduction

Calcul de la deviance

Difficulte : construction des tableaux T et T car c peut etre tres grand

Deviance partielle D(m|mT∗)

T ∗ tableau `× c∗ cible

defini avec les c∗ profils differents en termes de predicteurs et

groupements de valeurs retenus par l’arbre induit

Perte d’interet de l’interpretation de la deviance en tant que distance par

rapport a la cible.

Differences de deviance entre arbres emboıtes restent les memes, par

exemple :

D(m0|m) = D(m0)−D(m) = D(m0|mT∗) − D(m|mT∗)

mesure gain par rapport au nœud initial.

Conciliation plan not mstat appr arbr comm J I N H MAS 9/3/2005gr 141

Page 142: Mod´elisation et apprentissage statistiquemephisto.unige.ch/pub/stats/Pmas/doc/Notes_de_cours/Sl... · 2011-09-19 · Mod´elisation et apprentissage statistiques 1 Introduction

Deviance et rapport de vraisemblance

D(m0|m) = statistique du khi-2 du rapport de vraisemblance

pour test independance sur tableau associe a l’arbre induit.

D(m0) = statistique du khi-2 du rapport de vraisemblance

pour test independance sur tableau cible.

Ces deux valeurs s’obtiennent avec les logiciels statistiques (SPSS, SAS, ...)

On obtient la deviance de l’arbre m par difference

D(m) = D(m0) − D(m0|m)

Conciliation plan not mstat appr arbr comm J I N H MAS 9/3/2005gr 142

Page 143: Mod´elisation et apprentissage statistiquemephisto.unige.ch/pub/stats/Pmas/doc/Notes_de_cours/Sl... · 2011-09-19 · Mod´elisation et apprentissage statistiques 1 Introduction

Modele de reconstruction et degres de liberte

L’arbre induit donne lieu au modele de reconstruction suivant ou l’on note Tj

la j-eme colonne de T :

Tj = n ajp|j , j = 1, . . . , c (3)

s.c. p|j = pa|k pour tout xj ∈ Xk k = 1, . . . , q (4)

ou Xk est la classe de profils x defini par la keme feuille finale de l’arbre.

Les parametres sont

– n le nombre total de cas,

– aj les proportions de cas par colonne j = 1, . . . , c, et

– p|j, les c vecteurs p(Y |j) de ` probabilites definissant la distribution de Y

dans chaque colonne j de la table.

Conciliation plan not mstat appr arbr comm J I N H MAS 9/3/2005gr 143

Page 144: Mod´elisation et apprentissage statistiquemephisto.unige.ch/pub/stats/Pmas/doc/Notes_de_cours/Sl... · 2011-09-19 · Mod´elisation et apprentissage statistiques 1 Introduction

parametres nombre dont independants

pi|j, i = 1, . . . , `, j = 1, . . . , c c` q(`− 1)

aj, j = 1, . . . , c c c− 1

n 1 1

Total c` + ` + c + 1 q`− q + c

Degres de liberte = c` cellules – (q(`− 1) + c) parametres independants, soit

dM = (c− q)(`− 1)

Ce nombre correspond au nombre de contraintes (4).

Pour modele d’independance : q = 1 et donc dI = (c− 1)(`− 1).Pour l’arbre sature : q = c et donc dS = 0.

Conciliation plan not mstat appr arbr comm J I N H MAS 9/3/2005gr 144

Page 145: Mod´elisation et apprentissage statistiquemephisto.unige.ch/pub/stats/Pmas/doc/Notes_de_cours/Sl... · 2011-09-19 · Mod´elisation et apprentissage statistiques 1 Introduction

Comparaison de modeles

La statistique du G2 permet de tester la difference de modeles imbriques.

Si modele restreint M2 correct lorsque M1 l’est,

G2(M2|M1) = G2(M2)−G2(M1) ∼ χ2dM2−dM1

(5)

Permet de tester la significativite d’une expansion (branche).

Exemple : M1 notre arbre induit et M2 arbre avant eclatement de � femme�

G2(M1) = 0.18 avec dM1 = 3 et G2(M2) = 8.41 avec dM2 = 4,

G2(M2|M1) = 8.41− 0.18 = 8.23 avec d2 − d1 = 4− 3 = 1

Degre de signification : p(χ21 > 8.23) = .004 ⇒ effet significatif

Conciliation plan not mstat appr arbr comm J I N H MAS 9/3/2005gr 145

Page 146: Mod´elisation et apprentissage statistiquemephisto.unige.ch/pub/stats/Pmas/doc/Notes_de_cours/Sl... · 2011-09-19 · Mod´elisation et apprentissage statistiques 1 Introduction

5.4 Indicateurs derives de la deviance

Indicateurs derives de la deviance :

– BIC = deviance penalisee pour la complexite (nbre de parametres)

defini a une constante additive pres ⇒ seules variations sont pertinentes

– pseudo R2 = 1−D(m)/D(m0),

pas pertinent avec deviance partielle

– u Theil, taux de reduction de l’entropie de Shannon

u =D(m0|m)

−2∑

i ni. ln(ni./n)

evolution quadratique ⇒√

u plus pertinent

Conciliation plan not mstat appr arbr comm J I N H MAS 9/3/2005gr 146

Page 147: Mod´elisation et apprentissage statistiquemephisto.unige.ch/pub/stats/Pmas/doc/Notes_de_cours/Sl... · 2011-09-19 · Mod´elisation et apprentissage statistiques 1 Introduction

Pseudo R2

R2 = 1− G2(M)G2(I)

ou sa version corrigee des degres de liberte

R2ajust = 1− G2(M)/dM

G2(I)/dI

Pour notre exemple, on a G2(I) = 18.55, dI = 5, G2(M) = .18 et dM = 3, d’ou

R2 = .99 et R2ajust = .984.

Conciliation plan not mstat appr arbr comm J I N H MAS 9/3/2005gr 147

Page 148: Mod´elisation et apprentissage statistiquemephisto.unige.ch/pub/stats/Pmas/doc/Notes_de_cours/Sl... · 2011-09-19 · Mod´elisation et apprentissage statistiques 1 Introduction

Criteres d’information

Compromis entre qualite d’ajustement (G2) et complexite (nbre parametres

independants)

AIC(M) = G2(M) + 2(q`− q + c)

BIC(M) = G2(M) + (q`− q + c) log(n)

Permet de comparer des modeles non imbriques.

⇒ meilleur modele : celui qui a le plus petit AIC ou BIC.

Akaike (1973), Schwarz (1978), Raftery (1995), Kass and Raftery (1995)

Conciliation plan not mstat appr arbr comm J I N H MAS 9/3/2005gr 148

Page 149: Mod´elisation et apprentissage statistiquemephisto.unige.ch/pub/stats/Pmas/doc/Notes_de_cours/Sl... · 2011-09-19 · Mod´elisation et apprentissage statistiques 1 Introduction

Calcul de l’association entre feuilles et reponse

Dans Answer Tree :

1. Selectionner toutes les feuilles (menu : Edit/Select Terminal Nodes/All)

2. Selectionner l’onglet ”Rules”

3. Ouvrir le dialogue ”Classification Rules” (menu : Format/Rules)

4. Dans ce dialogue, selectionner Type ”SPSS” et Generate Syntax For

”Assigning Values”

5. Copier coller tout le contenu de l’onglet ”Rules” dans un fichier syntaxe

SPSS.

6. Ouvrir le fichier SPSS et executer la syntaxe copiee precedemment.

7. Caluler les associations avec la commande CROSSTAB. Exemple :

CROSSTABS

/TABLES=priv_car BY nod_001

/FORMAT=NOTABLES

/STATISTIC=CHISQ PHI LAMBDA UC.

Conciliation plan not mstat appr arbr comm J I N H MAS 9/3/2005gr 149

Page 150: Mod´elisation et apprentissage statistiquemephisto.unige.ch/pub/stats/Pmas/doc/Notes_de_cours/Sl... · 2011-09-19 · Mod´elisation et apprentissage statistiques 1 Introduction

Directional Measures

Value Asymp. Std. Error(a) Approx. T(b) Approx. Sig.

Lambda

Symmetric .034 .007 4.988 .000

Voiture a usage prive .018 .027 .655 .513nod 001 .037 .006 6.132 .000

Goodman and Kruskal tau

Voiture a usage prive .114 .014 .000(c)nod 001 .013 .002 .000(c)

Uncertainty Coefficient

Symmetric .042 .005 8.072 .000(d)

Voiture a usage prive .127 .015 8.072 .000(d)nod 001 .025 .003 8.072 .000(d)

a Not assuming the null hypothesis.

b Using the asymptotic standard error assuming the null hypothesis.

c Based on chi-square approximation

d Likelihood ratio chi-square probability.

Conciliation plan not mstat appr arbr comm J I N H MAS 9/3/2005gr 150

Page 151: Mod´elisation et apprentissage statistiquemephisto.unige.ch/pub/stats/Pmas/doc/Notes_de_cours/Sl... · 2011-09-19 · Mod´elisation et apprentissage statistiques 1 Introduction

5.5 Illustration : le TitanicLIVING

SEXAdj. P-value=0.0000, Chi-square=456.8742, df=1

female

CLASSAdj. P-value=0.0000, Chi-square=130.6862, df=2

c3c2;crewc1

Male

AGEAdj. P-value=0.0000, Chi-square=23.1250, df=1

child

CLASSAdj. P-value=0.0000, Chi-square=25.7471, df=1

c3c1;c2

adult

CLASSAdj. P-value=0.0000, Chi-square=37.9879, df=3

crewc3c2c1

Page 1, 1

Tree 03 - LIVING X2

Conciliation plan not mstat appr arbr comm J I N H MAS 9/3/2005gr 151

Page 152: Mod´elisation et apprentissage statistiquemephisto.unige.ch/pub/stats/Pmas/doc/Notes_de_cours/Sl... · 2011-09-19 · Mod´elisation et apprentissage statistiques 1 Introduction

Tab. 5 – Titanic : effectifs observes et deduits de l’arbre CHAID

observe selon arbrefeuille living

j k sex age class yes no yes no Total

1 1 male adult c1 57 118 57 118 175

2 2 c2 14 154 14 154 168

3 3 c3 75 387 75 387 462

4 4 crew 192 670 192 670 862

5 5 child c1 5 0 5 0 5

6 5 c2 11 0 11 0 11

7 6 c3 13 35 13 35 48

8 7 female adult c1 140 4 140.03 3.97 144

9 8 c2 80 13 81.47 11.53 93

10 9 c3 76 89 75.77 89.23 165

11 8 crew 20 3 20.15 2.85 23

12 7 child c1 1 0 0.97 0.03 1

13 8 c2 13 0 11.39 1.61 13

14 9 c3 14 17 14.23 16.77 31

Total 711 1490 711 1490 2201

Conciliation plan not mstat appr arbr comm J I N H MAS 9/3/2005gr 152

Page 153: Mod´elisation et apprentissage statistiquemephisto.unige.ch/pub/stats/Pmas/doc/Notes_de_cours/Sl... · 2011-09-19 · Mod´elisation et apprentissage statistiques 1 Introduction

Tab. 6 – Titanic : qualites d’ajustement d’un choix de modeles

pseudo

Modele d G2 sig(G2) X2 sig(X2) R2ajust AIC BIC

CHAID 5 3.72 0.590 2.10 0.835 .986 49.7 180.7

Independance 13 671.96 0.000 650.09 0.000 0 702.0 787.4

Sature 0 0 1 0 1 1 56 215.5

CHAID2 6 35.81 0.000 27.85 0.000 .885 79.8 205.1

CHAID3 6 10.68 0.098 8.44 0.208 .966 54.7 180.0

CART 4 0.08 0.999 0.05 0.999 .999 48.1 184.8

C4.5 6 43.32 0.000 40.10 0.000 .860 87.3 212.6

Sipina 7 5.15 0.642 3.16 0.870 .986 47.2 166.8

Meilleur BIC 8 9.08 0.335 7.82 0.452 .978 49.1 163.0

CHAID2 : regroupe tous les enfants males en un seul groupe (k = 5, 6).

CHAID3 : regroupe les hommes adultes de 2eme et 3eme classe (k = 2, 3).

Conciliation plan not mstat appr arbr comm J I N H MAS 9/3/2005gr 153

Page 154: Mod´elisation et apprentissage statistiquemephisto.unige.ch/pub/stats/Pmas/doc/Notes_de_cours/Sl... · 2011-09-19 · Mod´elisation et apprentissage statistiques 1 Introduction

Illustration : Etude reussite etudiants SES 98

Variable reponse :

– bilan octobre 1999 (elimine, redouble, reussi)

predicteurs :

– age

– date immatriculation

– tronc commun choisi

– type diplome secondaire

– lieu obtention diplome secondaire

– age obtention diplome secondaire

– nationalite

– domicile de la mere

Conciliation plan not mstat appr arbr comm J I N H MAS 9/3/2005gr 154

Page 155: Mod´elisation et apprentissage statistiquemephisto.unige.ch/pub/stats/Pmas/doc/Notes_de_cours/Sl... · 2011-09-19 · Mod´elisation et apprentissage statistiques 1 Introduction

bilan oct.99

dipl. second.regroup.Adj. P-value=0.0000, Chi-square=50.7197, df=2

économique;moderne,<missing>

AGEDIPAdj. P-value=0.0090, Chi-square=11.0157, df=1

>20,<missing><=20

classic .latine;scientifique

AGEDIPAdj. P-value=0.0067, Chi-square=14.6248, df=2

>19(18,19]<=18

étranger,autre;dipl. ing.

nationalité regoup.Adj. P-value=0.0011, Chi-square=16.2820, df=1

Genève;hors Europe

tronc communAdj. P-value=0.0188, Chi-square=5.5181, df=1

sc.socialessc.écon. + HEC

ch-al.+Tessin;Europe;Suisse Romande

date d'immatriculationAdj. P-value=0.0072, Chi-square=9.2069, df=1

>97<=97

Page 1, 1

Tree 01 - BIL_99

Conciliation plan not mstat appr arbr comm J I N H MAS 9/3/2005gr 155

Page 156: Mod´elisation et apprentissage statistiquemephisto.unige.ch/pub/stats/Pmas/doc/Notes_de_cours/Sl... · 2011-09-19 · Mod´elisation et apprentissage statistiques 1 Introduction

Category % nechec 27.43 209redouble 17.06 130réussi 55.51 423Total (100.00) 762

Node 0

Category %echec 22redouble 19réussi 57Total (32

Node 9

Category % nechec 16.60 41redouble 11.74 29réussi 71.66 177Total (32.41) 247

Node 2

Category % nechec 23.91 22redouble 16.30 15réussi 59.78 55Total (12.07) 92

Node 8Category % nechec 14.53 17redouble 11.11 13réussi 74.36 87Total (15.35) 117

Node 7Category % nechec 5.26 2redouble 2.63 1réussi 92.11 35Total (4.99) 38

Node 6

Category % nechec 40.70 81redouble 21.61 43réussi 37.69 75Total (26.12) 199

Node 1

Category % nechec 54.88 45redouble 23.17 19réussi 21.95 18Total (10.76) 82

Node 5

Category % nechec 71.05 27redouble 13.16 5réussi 15.79 6Total (4.99) 38

Node 14Category % nechec 40.91 18redouble 31.82 14réussi 27.27 12Total (5.77) 44

Node 13

Category % nechec 30.77 36redouble 20.51 24réussi 48.72 57Total (15.35) 117

Node 4

Category % nechec 23.81 20redouble 19.05 16réussi 57.14 48Total (11.02) 84

Node 12Category % nechec 48.48 16redouble 24.24 8réussi 27.27 9Total (4.33) 33

Node 11

bilan oct.99

dipl. second.regroup.Adj. P-value=0.0000, Chi-square=50.7197, df=2

éc

Adj. P-val

<=20

classic .latine;scientifique

AGEDIPAdj. P-value=0.0067, Chi-square=14.6248, df=2

>19(18,19]<=18

étranger,autre;dipl. ing.

nationalité regoup.Adj. P-value=0.0011, Chi-square=16.2820, df=1

Genève;hors Europe

tronc communAdj. P-value=0.0188, Chi-square=5.5181, df=1

sc.socialessc.écon. + HEC

ch-al.+Tessin;Europe;Suisse Romande

date d'immatriculationAdj. P-value=0.0072, Chi-square=9.2069, df=1

>97<=97

Page 1, 1

Tree 01 - BIL_99

Conciliation plan not mstat appr arbr comm J I N H MAS 9/3/2005gr 156

Page 157: Mod´elisation et apprentissage statistiquemephisto.unige.ch/pub/stats/Pmas/doc/Notes_de_cours/Sl... · 2011-09-19 · Mod´elisation et apprentissage statistiques 1 Introduction

Exemple etudiants SES 98

Regroupements utilises par l’arbre ⇒ tableau cible avec 88 colonnes

Tab. 7 – SES 98 : qualites d’ajustement d’un choix de modeles

pseudo

Modele q d G2 sig(G2) R2ajust AIC BIC

Sature 88 0 0 1 1 528 1751.9

Meilleur AIC 14 148 17.4 1 .941 249.4 787.2

CHAID 9 158 177.9 0.133 .336 390.0 881.3

CHAID2 8 160 187.4 0.068 .309 395.4 877.5

CHAID3 7 162 195.2 0.038 .289 399.2 872.1

Meilleur BIC 6 164 75.2 1 .745 275.2 738.8

Independance 1 174 295.1 0.000 0 475.8 892.3

CHAID2 : CHAID sans eclatement datimma du sommet 4 (nationa 6= GE, hors Europe)

CHAID3 : CHAID2 sans eclatement troncom du sommet 5 (nationa= GE, hors Europe)

Conciliation plan not mstat appr arbr comm J I N H MAS 9/3/2005gr 157

Page 158: Mod´elisation et apprentissage statistiquemephisto.unige.ch/pub/stats/Pmas/doc/Notes_de_cours/Sl... · 2011-09-19 · Mod´elisation et apprentissage statistiques 1 Introduction

References

Agresti, A. (1990). Categorical Data Analysis. New York: Wiley.

Akaike, H. (1973). Information theory and an extension of the maximum likelihood principle.

In B. N. Petrox and F. Caski (Eds.), Second International Symposium on Information

Theory, pp. 267. Budapest: Akademiai Kiado.

Arbuckle, J. L. and W. Wothke (1999). Amos 4.0 Users’ Guide. Chicago: SmallWaters.

Biggs, D., B. de Ville, and E. Suen (1991). A method of choosing multiway partitions for

classification and decision trees. Journal of Applied Statistics 18, 49–62.

Bollen, K. A. (1989). Structural Equations with Latent Variables. New York: Wiley.

Breiman, L., J. H. Friedman, R. A. Olshen, and C. J. Stone (1984). Classification And

Regression Trees. New York: Chapman and Hall.

Han, J. and M. Kamber (2001). Data Mining: Concept and Techniques. San Francisco:

Morgan Kaufmann.

Hand, D. J., H. Mannila, and P. Smyth (2001). Principles of Data Mining (Adaptive

Computation and Machine Learning). Cambridge MA: MIT Press.

Hastie, T., R. Tibshirani, and J. Friedman (2001). The Elements of Statistical Learning.

New York: Springer.

Heckerman, D. (1996). Bayesian networks for knowledge discovery. In U. M. Fayyad,

G. Piatetsky-Shapiro, P. Smyth, and R. Uthurusamy (Eds.), Advances in Knowledge

Discovery and Data Mining, pp. 273–305. Cambridge, MA: MIT Press.

Conciliation plan not mstat appr arbr comm J I N H MAS 9/3/2005gr 158

Page 159: Mod´elisation et apprentissage statistiquemephisto.unige.ch/pub/stats/Pmas/doc/Notes_de_cours/Sl... · 2011-09-19 · Mod´elisation et apprentissage statistiques 1 Introduction

Hosmer, D. W. and S. Lemeshow (2000). Applied Logistic Regression (Second ed.). New

York: Wiley.

Jobson, J. D. (1992). Applied Multivariate Data Analysis, Volume II: Categorical and

Multivariate Methods. New York: Springer-Verlag.

Joreskog, K. and D. Sorbom (1989). LISREL 7 User’s Reference Guide. Mooresville, IN:

Scientific Software.

Kass, G. V. (1980). An exploratory technique for investigating large quantities of categorical

data. Applied Statistics 29(2), 119–127.

Kass, R. E. and A. E. Raftery (1995). Bayes factors. Journal of the American Statistical

Association 90(430), 773–795.

Lebart, L., A. Morineau, and M. Piron (2000). Statistique exploratoire multivariee (Troisieme

ed.). Paris: Dunod.

Loh, W. Y. and Y. S. Shih (1997). Split selection methods for classification trees. Statistica

Sinica 7, 815–840.

McCullagh, P. and J. A. Nelder (1989). Generalized Linear Models. London: Chapman and

Hall.

Munteanu, P. and D. Cau (2000). Efficient score-based learning of equivalence classes of

bayesian network. In D. A. Zighed, J. Komorowski, and J. Zytkow (Eds.), Principles of

Data Mining and Knowledge Discovery, pp. 318–362. Berlin: Springer.

Powers, D. A. and Y. Xie (2000). Statistical Methods for Categorical Data Analysis. San

Diego, CA: Academic Press.

Conciliation plan not mstat appr arbr comm J I N H MAS 9/3/2005gr 159

Page 160: Mod´elisation et apprentissage statistiquemephisto.unige.ch/pub/stats/Pmas/doc/Notes_de_cours/Sl... · 2011-09-19 · Mod´elisation et apprentissage statistiques 1 Introduction

Quinlan, J. R. (1993). C4.5: Programs for Machine Learning. San Mateo: Morgan

Kaufmann.

Raftery, A. E. (1995). Bayesian model selection in social research. In P. Marsden (Ed.),

Sociological Methodology, pp. 111–163. Washington, DC: The American Sociological

Association.

Ritschard, G. (2003a). Partition BIC optimale de l’espace des predicteurs. Revue des

nouvelles technologies de l’information 1, 99–110.

Ritschard, G. (2003b). Testing hypotheses with induction trees. In Bulletin of the

International Statistical Institute 54th Session, F Proceedings, Berlin.

Ritschard, G. and G. Ryczkowska (2004, March). Endogamy - community. inter-generational

mobility in 19th century Geneva. In Fifth European Social Science History Conference,

Berlin.

Ritschard, G. and D. A. Zighed (2003). Modelisation de tables de contingence par arbres

d’induction. Revue des sciences et technologies de l’information – ECA 17(1-3), 381–392.

Ritschard, G. and D. A. Zighed (2004). Qualite d’ajustement d’arbres d’induction. Revue des

nouvelles technologies de l’information E-1, 45–67.

Rumelhart, D. E., G. E. Hinton, and R. J. Williams (1986). Learning internal representations

by error propagation. In D. Rumelhart and J. McClelland (Eds.), Parallel Distributed

Processing: Explorations in the Microstructure of Cognition, Volume 1, pp. 318–362.

Cambridge, MA: MIT Press.

Schwarz, G. (1978). Estimating the dimension of a model. The Annals of Statistics 6,

Conciliation plan not mstat appr arbr comm J I N H MAS 9/3/2005gr 160

Page 161: Mod´elisation et apprentissage statistiquemephisto.unige.ch/pub/stats/Pmas/doc/Notes_de_cours/Sl... · 2011-09-19 · Mod´elisation et apprentissage statistiques 1 Introduction

461–464.

SPSS (Ed.) (2001). Answer Tree 3.0 User’s Guide. Chicago: SPSS Inc.

Thiria, S., Y. Lechevallier, O. Gascuel, and S. Canu (Eds.) (1997). Statistique et methodes

neuronales. Paris: Dunod.

Zighed, D. A. and R. Rakotomalala (2000). Graphes d’induction: apprentissage et data

mining. Paris: Hermes Science Publications.

Conciliation plan not mstat appr arbr comm J I N H MAS 9/3/2005gr 161