pierre-louis gonzalez 1 - le site web des …maths.cnam.fr/img/pdf/donnees_cat_part_ie1.pdf · 4...

38
1 MODELISATION DE DONNÉES QUALITATIVES PREMIÈRE PARTIE Pierre-Louis Gonzalez

Upload: duongkien

Post on 10-Sep-2018

223 views

Category:

Documents


1 download

TRANSCRIPT

Page 1: Pierre-Louis Gonzalez 1 - Le site web des …maths.cnam.fr/IMG/pdf/Donnees_cat_Part_ie1.pdf · 4 Plus de deux variables qualitatives. Tris croisés pour tous les couples de variables

1

MODELISATION DE DONNÉES

QUALITATIVES

PREMIÈRE PARTIE

Pierre-Louis Gonzalez

Page 2: Pierre-Louis Gonzalez 1 - Le site web des …maths.cnam.fr/IMG/pdf/Donnees_cat_Part_ie1.pdf · 4 Plus de deux variables qualitatives. Tris croisés pour tous les couples de variables

2

I INTRODUCTION

. Tri à plat

.

.

Représentations graphiques

Modélisation : loi binomiale

1 variable qualitative

loi multinomiale

Page 3: Pierre-Louis Gonzalez 1 - Le site web des …maths.cnam.fr/IMG/pdf/Donnees_cat_Part_ie1.pdf · 4 Plus de deux variables qualitatives. Tris croisés pour tous les couples de variables

3

2 variables qualitatives

. Tri croisé

. Indépendance ?

. Khi-deux ...

. Description du tableau de contingence par analyse des

correspondances simples.

xx x

x

x xx x

x x

x

xx x

Page 4: Pierre-Louis Gonzalez 1 - Le site web des …maths.cnam.fr/IMG/pdf/Donnees_cat_Part_ie1.pdf · 4 Plus de deux variables qualitatives. Tris croisés pour tous les couples de variables

4

Plus de deux variables qualitatives

. Tris croisés pour tous les couples de variables(tableau de Burt)

. Analyse des correspondances multiples

But de l’étude ?

. Modélisation

.. Expliquer une variable à l’aide d’autres variables ...

Page 5: Pierre-Louis Gonzalez 1 - Le site web des …maths.cnam.fr/IMG/pdf/Donnees_cat_Part_ie1.pdf · 4 Plus de deux variables qualitatives. Tris croisés pour tous les couples de variables

5

Effets de structure

Le recours à l’utilisation de modèles ( linéaires, logistiques )est nécessaire pour isoler les effets propres.

Séparation des effets

Effet d’une variable toutes choses égales par ailleurs

Effet d’une variable conditionnellement aux variables introduites dans le modèle

Page 6: Pierre-Louis Gonzalez 1 - Le site web des …maths.cnam.fr/IMG/pdf/Donnees_cat_Part_ie1.pdf · 4 Plus de deux variables qualitatives. Tris croisés pour tous les couples de variables

6

Exemple Vocations spécifiques de deux approches : descriptionmodélisation

Correspondances multiples(DESCRIPTION)

Modèle log linéaire (EXPLORATION DEL’UNIVERS DES MODÈLES)

Description des liaisons entre les variables prises deux à deux sous forme essentiellement graphique.

Description des interactions entre plus de deux variables dans un cadre inférentiel.

N’impose aucune hypothèse sur les liaisons, mais impose une certaine homogénéité de l’ensemble des variables actives.

Des hypothèses sur les liaisons doivent être formulées au préalable.

N’est pas limitée dans le nombre de variables.

Est limité à peu de variables (en pratique moins de 5).

Page 7: Pierre-Louis Gonzalez 1 - Le site web des …maths.cnam.fr/IMG/pdf/Donnees_cat_Part_ie1.pdf · 4 Plus de deux variables qualitatives. Tris croisés pour tous les couples de variables

7

Correspondances multiples(DESCRIPTION)

Modèle log linéaire (EXPLORATION DEL’UNIVERS DES MODELES)

Met seulement en jeu les faces del’hypercube représentées par le tableau de Burt.

Met en jeu toutes les cases d’unhypercube de contingence.

Les individus peuvent jouer un rôle central. L’analyse sert à

Les individus n’apparaissent pas.

kij kil

kjl

i j l

i

j

l

lkjl

kijlkil

i

j

kij

produire des typologies d’individus.

Page 8: Pierre-Louis Gonzalez 1 - Le site web des …maths.cnam.fr/IMG/pdf/Donnees_cat_Part_ie1.pdf · 4 Plus de deux variables qualitatives. Tris croisés pour tous les couples de variables

8

II LES MÉTHODES EXPLICATIVES

VARIABLE ÀEXPLIQUER VARIABLES EXPLICATIVES X1, ... , XK

Y Numériques Nominales Mixte

Numérique Régressionmultiple

REGGLM

Analyse dela variance

Analyse dela covariance

GLMANOVA

GLM

Qualitative AnalysediscriminanteCANDISCSTEPDISCDISCRIM

DISQUALAnalyse

discriminantesur variablesqualitatives

Page 9: Pierre-Louis Gonzalez 1 - Le site web des …maths.cnam.fr/IMG/pdf/Donnees_cat_Part_ie1.pdf · 4 Plus de deux variables qualitatives. Tris croisés pour tous les couples de variables

9

VARIABLE ÀEXPLIQUER VARIABLES EXPLICATIVES X1, ... , XK

Y Numériques Nominales Mixte

Nominale àdeux

modalités

RÉGRESSION LOGISTIQUE

LOGISTIC GENMOD

NominaleMODÈLE LINÉAIRE GÉNÉRALISÉ

LOGISTIC CATMOD GENMOD

Ordinale RÉGRESSION LOGISTIQUEou

MODÈLE LINÉAIRE GÉNÉRALISÉ

LOGISTICCATMOD

Page 10: Pierre-Louis Gonzalez 1 - Le site web des …maths.cnam.fr/IMG/pdf/Donnees_cat_Part_ie1.pdf · 4 Plus de deux variables qualitatives. Tris croisés pour tous les couples de variables

10

III VARIABLE QUALITATIVE À EXPLIQUER

1 Variable dichotomique : { }Y ∈ 0 1,

Exemple 1 Soit P la population des ménages :

Yi =⎧⎨⎪

⎩⎪

1

0

si le ménage P , possède un bien durablei ∈

sinon

( )Xi = AGE, CSP, SALAIRE, HABITAT, ... régresseurs

Page 11: Pierre-Louis Gonzalez 1 - Le site web des …maths.cnam.fr/IMG/pdf/Donnees_cat_Part_ie1.pdf · 4 Plus de deux variables qualitatives. Tris croisés pour tous les couples de variables

11

Exemple 2 Soit P la population des clients potentiels d’une banque :

«CREDIT SCORING»

Yi =⎧⎨⎪

⎩⎪

1

0

si un crédit est accordé au client i

sinon

( )X i = AGE, REVENU, PRODUIT BANCAIRE, LIEU DE NAISSANCE, ...

Page 12: Pierre-Louis Gonzalez 1 - Le site web des …maths.cnam.fr/IMG/pdf/Donnees_cat_Part_ie1.pdf · 4 Plus de deux variables qualitatives. Tris croisés pour tous les couples de variables

12

Exemple 3 Soit P la population des sujets testés à une dose «DOSAGE LEVEL»

( )X i = NIVEAU DE LA DOSE, POIDS, AGE, . . .

Yi =⎧⎨⎪

⎩⎪

1

0

si le sujet P réagit au stimulus

sinon

i ∈

La variable réponse à expliquer Y est une variable de Bernoulli de paramètre pi.

( ) ( )p Y X E Y Xi i i i i= = =Pr 1

( )i i iY X B 1 , p→

OBJECTIF

Exprimer pi en fonction de Xi

Page 13: Pierre-Louis Gonzalez 1 - Le site web des …maths.cnam.fr/IMG/pdf/Donnees_cat_Part_ie1.pdf · 4 Plus de deux variables qualitatives. Tris croisés pour tous les couples de variables

13

2 Variable polytomique

Polytomique ordonnée

Exemple 1 Soit P la population d’étudiants :

i

1 i P

Y 2 i P

3 i P

si l'étudiant pratique du sport tous les jourssi l'étudiant pratique du sport une ou plusieurs fois par semainesi l'étudiant pratique du sport plus rarement

⎧ ∈⎪⎪= ∈⎨⎪

∈⎩⎪

La variable réponse Y : «pratique du sport» est codée

( )Xi = AGE, SEXE, TYPE D' ETUDES, ...

Page 14: Pierre-Louis Gonzalez 1 - Le site web des …maths.cnam.fr/IMG/pdf/Donnees_cat_Part_ie1.pdf · 4 Plus de deux variables qualitatives. Tris croisés pour tous les couples de variables

14

si l’individu P est toujours au chômage à la date

Exemple 2 Soit P la population de chômeurs à la date t :

Yi =

⎨⎪⎪

⎩⎪⎪

1234

i ∈ t + δsi l’individu P est en formation (stage)i ∈si l’individu P a un contrat CDDi ∈

si l’individu P a un contrat CDIi∈

( )Xi = AGE, SEXE, DIPLOME, QUALIFICATION ...

Page 15: Pierre-Louis Gonzalez 1 - Le site web des …maths.cnam.fr/IMG/pdf/Donnees_cat_Part_ie1.pdf · 4 Plus de deux variables qualitatives. Tris croisés pour tous les couples de variables

15

Polytomique non ordonnée

Yi «distraction du samedi soir»

Yi =

=

=

=

=

⎨⎪⎪

⎩⎪⎪

1234

télévision

théatre

cinéma

visite amis

( )Xi = AGE, SEXE, CSP, HABITAT, ...

OBJECTIF

Exprimer ( )p P Y j Xij i i= =

en fonction de X ji pour = 1 2 3, , . . .

Page 16: Pierre-Louis Gonzalez 1 - Le site web des …maths.cnam.fr/IMG/pdf/Donnees_cat_Part_ie1.pdf · 4 Plus de deux variables qualitatives. Tris croisés pour tous les couples de variables

16

IV POURQUOI DES MODÈLES PARTICULIERS ?

1 Cas de la régression linéaire classique

Y xi i i = +β ε

variablealéatoire

quantitative

prédicteurlinéaire(élément

déterminé)

variablealéatoire

1

Page 17: Pierre-Louis Gonzalez 1 - Le site web des …maths.cnam.fr/IMG/pdf/Donnees_cat_Part_ie1.pdf · 4 Plus de deux variables qualitatives. Tris croisés pour tous les couples de variables

17

( )E X xi i iε = = 0

Par la suite, on notera les espérances sans conditionnement X xi i=

ce qui revient à considérer Xi est non aléatoire. On notera

indifféremment Xi ou xi.

( )V iε σ= 2

Si de plus est supposée gaussienne, l’estimateur des moindres

carrés ordinaire :

ε i

( )β = ′ ′−X X X y1

est l’estimateur du maximum de vraisemblance.

Page 18: Pierre-Louis Gonzalez 1 - Le site web des …maths.cnam.fr/IMG/pdf/Donnees_cat_Part_ie1.pdf · 4 Plus de deux variables qualitatives. Tris croisés pour tous les couples de variables

18

2 Cas de la régression d’une variable dichotomique

Si on modélise par , on obtient un résidu qui est une v.a.r.

discrète prenant deux valeurs :

1

1( )

⇒= − = =

= − −

⎧⎨⎩

avec la probalilité

avec la probalilité

εε

β

βi i i i

i i i

x p P Yx p

1 11

Si on modélise par l’estimateur n’est plus efficace. 1 β

1 ( )⇒ =E Y xi iβ

( ) ( )i i i iY B 1,p E Y pOr → ⇒ =

⎫⎬⎭⇒ = p xi iβ

une valeur qui n’est pasforcément entre 0 et 1

Le modèle est donc inapproprié !1

Page 19: Pierre-Louis Gonzalez 1 - Le site web des …maths.cnam.fr/IMG/pdf/Donnees_cat_Part_ie1.pdf · 4 Plus de deux variables qualitatives. Tris croisés pour tous les couples de variables

19

V NIVEAU D’UTILITÉ, VARIABLE LATENTE

1 Cas de variable latente

Zi «intensité du désir de posséder le bien» pour le ménage i caractérisé par xi

Zi nonobservable

( )Y Z sY Z s

i i

i i

= ⇔ < →

= ⇔ ≥

⎧⎨⎩

01

seuil thérorique

c’est-à-dire ( )Y Ii Z si= ≥1

Page 20: Pierre-Louis Gonzalez 1 - Le site web des …maths.cnam.fr/IMG/pdf/Donnees_cat_Part_ie1.pdf · 4 Plus de deux variables qualitatives. Tris croisés pour tous les couples de variables

20

2 Fonction d’utilité

( )Soit u xi1, le niveau d’utilité procuré par la possession du bien

( )u xi0, le niveau d’utilité procuré par la non possession du bien

( ) ( )( ) ( )

Y u x u xY u x u x

i i i

i i i

= ⇔ >

= ⇔ ≥

⎧⎨⎩

0 0 11 1 0

, ,, ,

c’est-à-dire :

( ) ( )Z u x u xi i i= −1 0, ,

( )Y Ii Zi= ≥1 0

Page 21: Pierre-Louis Gonzalez 1 - Le site web des …maths.cnam.fr/IMG/pdf/Donnees_cat_Part_ie1.pdf · 4 Plus de deux variables qualitatives. Tris croisés pour tous les couples de variables

21

Dans ces deux cas, on peut exprimer la probabilité

( )p P Y xi i i= = 1 comme :

( )p P Z si i= ≥

Page 22: Pierre-Louis Gonzalez 1 - Le site web des …maths.cnam.fr/IMG/pdf/Donnees_cat_Part_ie1.pdf · 4 Plus de deux variables qualitatives. Tris croisés pour tous les couples de variables

22

VI MODÈLE THÉORIQUE

1 Données statistiques

( )Y x xi i ip, , , 1 …

variabledichotomique

{ }0 1,

i n= 1 à

taille de l’échantillonp variables explicatives

quantitatives ou qualitatives

Xi vecteur de Rp

(On supposera

de façon à définir un modèle avec constante)

( )1ix = 1 i ∀

Page 23: Pierre-Louis Gonzalez 1 - Le site web des …maths.cnam.fr/IMG/pdf/Donnees_cat_Part_ie1.pdf · 4 Plus de deux variables qualitatives. Tris croisés pour tous les couples de variables

23

En introduisant Z variable latente non observable telle que :

( ) ( )Z XY I

p P Y P Xi i i

i Zi i i i

i

= +

= >⎫⎬⎭

= = = − <β

βε

ε

1 01

( )= F Xiβ

fonction de répartitionde − ε i

Page 24: Pierre-Louis Gonzalez 1 - Le site web des …maths.cnam.fr/IMG/pdf/Donnees_cat_Part_ie1.pdf · 4 Plus de deux variables qualitatives. Tris croisés pour tous les couples de variables

24

2 Modèle stochastique général

( )Y Xi i i n,=1… i. i.d tel que :

( ) ( )H p P Y X F Xi i i i2 1 : = = = β

[ ]où : F → 0 1,R fonction de répartition

Le paramètre , vecteur de Rp formé des coefficients de régression

est inconnu.

β

1 i i iH : Y | X B(1,p )→

Page 25: Pierre-Louis Gonzalez 1 - Le site web des …maths.cnam.fr/IMG/pdf/Donnees_cat_Part_ie1.pdf · 4 Plus de deux variables qualitatives. Tris croisés pour tous les couples de variables

25

3 Modèles PROBIT, LOGIT, ...

L’hypothèse H2 dépend du choix de la fonction F. Les modèles

paramétriques usuels sont :

3.1 Le modèle probit

( ) ( )21 tF R 22

exp dtω ⎛ ⎞ω = Φ ω = − ∀ ω∈⎜ ⎟−∞ Π ⎝ ⎠

Fonction de répartition de la loi normale centrée réduite N(0;1)

F − −=1 1Φ probit

Page 26: Pierre-Louis Gonzalez 1 - Le site web des …maths.cnam.fr/IMG/pdf/Donnees_cat_Part_ie1.pdf · 4 Plus de deux variables qualitatives. Tris croisés pour tous les couples de variables

26

3.2 Le modèle logit

( ) e 1F 1 e 1 e

ω

ω −ωω = = ∀ ω∈+ +

Fonction de répartition de la loi logistique

de moyenne 0 et de variance Π 2

3

( )F t tt

− =−

1

1ln logit

Page 27: Pierre-Louis Gonzalez 1 - Le site web des …maths.cnam.fr/IMG/pdf/Donnees_cat_Part_ie1.pdf · 4 Plus de deux variables qualitatives. Tris croisés pour tous les couples de variables

27

3.3 Le modèle complémentaire log-log (ou modèle Gompit)

( ) ( )F 1 e exp ωω = − − ∀ ω∈

Fonction de répartition de la loi de Gompertz

de moyenne 0,577 (constante d’Euler) et de

variance Π 2

6

( ) ( )( )F t t− = − −1 1ln ln

Remarque Cette loi est dissymétrique.

Page 28: Pierre-Louis Gonzalez 1 - Le site web des …maths.cnam.fr/IMG/pdf/Donnees_cat_Part_ie1.pdf · 4 Plus de deux variables qualitatives. Tris croisés pour tous les couples de variables

28

4 Comparaison des modèles LOGIT et PROBIT

DENSITÉS f F= ′

Modèle PROBIT ( )ΦΠ

ωω

=− ∞∫ − 1

22 2e dtt / ( )⇒ = − f e0

212

2

ω ω

Π/

Modèle LOGIT ( ) ( )( )

Fe

f e

eω ωω

ω

ω=

+⇒ =

+−

11 1

2

Modèle LOGIT réduit ( ) ( )( )

Fe

f e

e1 3 1

3

3 21

1 3 1ω ω=

+=

+−Πω

Πω

Πω

Π/

/

/

- 3 - 2 - 1 0 1 2 3

0,1

0,2

0,3

1

20 4

Π≅ ,--------

( )f0 ω

( )f ω

( )f1 ωω

Page 29: Pierre-Louis Gonzalez 1 - Le site web des …maths.cnam.fr/IMG/pdf/Donnees_cat_Part_ie1.pdf · 4 Plus de deux variables qualitatives. Tris croisés pour tous les couples de variables

29

Sur les extrêmes la loi logistique s’approche un peu plus lentement de 0 ou de 1.

Page 30: Pierre-Louis Gonzalez 1 - Le site web des …maths.cnam.fr/IMG/pdf/Donnees_cat_Part_ie1.pdf · 4 Plus de deux variables qualitatives. Tris croisés pour tous les couples de variables

30

Comparaison des fonctions de répartition

Page 31: Pierre-Louis Gonzalez 1 - Le site web des …maths.cnam.fr/IMG/pdf/Donnees_cat_Part_ie1.pdf · 4 Plus de deux variables qualitatives. Tris croisés pour tous les couples de variables

31

DIFFÉRENCE

( ) ( )F1 − Φ ω0.02

0.01

0 1 21,8

CONCLUSION

. Les lois F1 et sont proches modèles équivalents.Φ ⇒

Les estimateurs obtenus avec F (logit) seront

.. La précédure de SAS, «LOGISTIC» utilise F ou .Φ

⇒ Π / 3 foisplus grands qu’avec (probit).Φ

... Le modèle LOGIT est préférable car les calculs sont plus simples.

ω

Page 32: Pierre-Louis Gonzalez 1 - Le site web des …maths.cnam.fr/IMG/pdf/Donnees_cat_Part_ie1.pdf · 4 Plus de deux variables qualitatives. Tris croisés pour tous les couples de variables

32

Dans la plupart des cas pratiques, on peut donc choisir indifféremment l’un ou l’autre modèle.

Le modèle LOGIT a l’avantage d’une plus grande simplicité numérique.

Le modèle PROBIT est en revanche plus proche du modèle habituel de régression par les moindres carrés.

Avantages du modèle LOGIT

Les coefficients du modèle LOGIT sont interprétables en termes d’odds-ratio.

Un échantillonnage ne respectant pas les proportions réelles dans la population des deux modalités de la variable à expliquer Y ne change que la constante dans le modèle.

Page 33: Pierre-Louis Gonzalez 1 - Le site web des …maths.cnam.fr/IMG/pdf/Donnees_cat_Part_ie1.pdf · 4 Plus de deux variables qualitatives. Tris croisés pour tous les couples de variables

33

VII PRINCIPES GÉNÉRAUX : ESTIMATION DU VECTEUR β

1 La méthode du maximum de vraisemblance

Loi de probabilité de xi ( ) ( )f xi k, , ,θ θ θ θ où = ′ ∈1 … Ω

Échantillon x1 ... xn

Estimation du maximum de vraisemblance

( ) ( )θ θ θ MAX L L=

θ ∈ Ω

On obtient en général en annulant les dérivées premièresθ ( )∂ θ∂ θ

Log Li

Vraisemblance

( ) ( )L f x xii

n

iθ θ θ==∏ ,

1

dépend des et des

Page 34: Pierre-Louis Gonzalez 1 - Le site web des …maths.cnam.fr/IMG/pdf/Donnees_cat_Part_ie1.pdf · 4 Plus de deux variables qualitatives. Tris croisés pour tous les couples de variables

34

Scores

( ) ( )uL

ii

θ∂ θ

∂ θ=

Log

( ) ( ) ( )( )u u ukθ θ θ= ′ =1 , , vecteur score…

( )On a : u θ = 0

Matrice d’information de Fisher

( ) ( )I EL

θ∂ θ∂ θ

=−⎡

⎣⎢

⎦⎥

2

2

Log

estimée par : ( ) ( )IL

θ∂ θ

∂ θθ θ

=−⎛

⎝⎜

⎠⎟

=

2

2

Log

Page 35: Pierre-Louis Gonzalez 1 - Le site web des …maths.cnam.fr/IMG/pdf/Donnees_cat_Part_ie1.pdf · 4 Plus de deux variables qualitatives. Tris croisés pour tous les couples de variables

35

Résultats

θ = vecteur des paramètres

θ = estimation du maximum de vraisemblance

1.1ˆ N ; I

⎛ ⎞⎜ ⎟⎛ ⎞

⎜ ⎟⎜ ⎟⎝ ⎠⎜ ⎟⎝ ⎠

−θ → θ θ

2. ( ) ( )( )u N 0 ; Iθ → θ

3. ( ) ( ) ( )θ θ θ θ θ− ′ −I ( )χ k2

4. ( ) ( ) ( )θθθ uIu 1−′( )χ k2

5.( )( )θθˆ

2 LogLL

−=Λ ( )χ k2

Page 36: Pierre-Louis Gonzalez 1 - Le site web des …maths.cnam.fr/IMG/pdf/Donnees_cat_Part_ie1.pdf · 4 Plus de deux variables qualitatives. Tris croisés pour tous les couples de variables

36

2 Test global

H0 0 : θ θ=

Statistiques

1. Statistique de Wald

( ) ( ) ( )θ θ θ θ θ− ′ −0 0 0I sous H0

2. Statistique du score

( ) ( ) ( )10 0 0u I u−′θ θ θ sous H0 Avantage : pas de calcul de θ

3. Statistique des vraisemblances

( )( )Λ = −2 0 Log

LLθ

θ

2(k)→χ

2(k)→χ

2(k)→χ

sous H0

Page 37: Pierre-Louis Gonzalez 1 - Le site web des …maths.cnam.fr/IMG/pdf/Donnees_cat_Part_ie1.pdf · 4 Plus de deux variables qualitatives. Tris croisés pour tous les couples de variables

37

3 Test partiel

( )θ θ θ θ= 1 2 1, a coordonnéesp

( ),θ θ θ= =1 2 estimation du M.V.

H0 1 10 : θ θ=Test

( )On calcule , ~θ θ θH0 10 2=

( ) ( )avec L Lθ θθ

θ θ10 2

2

10 2, ~ max ,=

θ θH H0 0= estimation de sous

Page 38: Pierre-Louis Gonzalez 1 - Le site web des …maths.cnam.fr/IMG/pdf/Donnees_cat_Part_ie1.pdf · 4 Plus de deux variables qualitatives. Tris croisés pour tous les couples de variables

38

Statistiques utilisées

1. Wald ( ) ( ) ( )111 10 1 10

ˆ ˆVar −′θ − θ θ θ − θ

( ) ( ) ( )Var Var Iθ θ θ1

1 est extrait de =

3. Rapport de vraisemblance

2. Score

( ) ( ) ( )u I uH H Hθ θ θ0 0 0

1′ −

( )( )Λ = −2 10 2

1 2

LogL

L

θ θ

θ θ

, ~

,

2(p)→χ sous H0

2(p)→χ

2(p)→χ

sous H0

sous H0