l’analyse discriminante - maths.cnam.frmaths.cnam.fr/img/pdf/analyse_discriminante-nov2010.pdf ·...

1

Pierre-Louis GONZALEZ

L’ANALYSE DISCRIMINANTE

2

Prédire une variable qualitative à k classes à l’aide de p prédicteurs

Deux aspects

Descriptif: Quelles sont les combinaisons linéaires de variables qui permettent de séparer le mieuxpossible les k catégories ?

Décisionnel: Un nouvel individu se présente pour lequel on connaît les valeurs des prédicteurs.Décider dans quelle catégorie il faut l’affecter

ANALYSE DISCRIMINANTE

3

Ensemble des méthodes utilisées pour prédire une variable qualitative à k catégories à l’aide de p prédicteurs.

Médecine Connaissant les symptômes présentés par un patient,peut-on porter un diagnostic sur sa maladie ?

FinanceA partir des bilans d’une société, est-il possible

d’estimer son risque de faillite à 2 ans ou 3 ans (scoring financier) ?

Au moment d’une demande de prêt par un client, peut-on prévoir en fonction des caractéristiques du client, le risque de contentieux (credit scoring) ?

ANALYSE DISCRIMINANTE

EXEMPLES

4

PétroleAu vu des analyses des carottes issues d’un forage, est-il possible de présumer de l’existence d’une nappe de pétrole ?

TélédétectionA partir de mesures par satellite des ondes réfléchies ou absorbées par le sol dans différentes longueurs d’onde, peut-on reconstituer automatiquement la nature du terrain étudié (forêt, sable, ville, mer...) ?

Marketing directConnaissant les caractéristiques d’un client, peut-on prévoirsa réponse à une offre de produit par courrier ?

Étude de textes

Interprétation d’une typologie

5

Mahalanobis 1927

Hotelling 1931

Fisher 1936

Rao 1950

Anderson 1951

Vapnik 1998

Quelques dates:

6

LINÉAIRESA.C.P. sur le nuage des centres de gravitédes groupes munis de différentes métriques

NON LINÉAIRES

- quadratique

- création de nouvelles variableset application d’une

méthode linéaire

- découpage en variables qualitatives et application d’une méthode survariables qualitatives

Recherche des meilleuresfonctions discriminantes

( )pXXXg ..., 21

( )pXXXf ..., 21

MÉTHODES GÉOMÉTRIQUES

7

MÉTHODES PROBABILISTES

Estimation directe desprobabilités d’appartenance

aux groupes définis par Y

PARAMÉTRIQUE

- modèle gaussien- maximum de vraisemblance

avec autre modèle paramétrique

NON PARAMÉTRIQUE

- Estimation de densité :- Fonctions orthogonales- Noyaux de Parzen- K plus proches voisins

SEMI PARAMETRIQUE- régression logistique

8

Autres approches

• Méthodes de type « boite noire » induisant le minimum d’erreurs de classement

• Réseaux de neurones• SVM (Support Vecteur Machine )

9

I. MÉTHODES GÉOMÉTRIQUES

1. Données - Notations

Les n individus de l’échantillon constituent un nuage E, de Rp partagéen k sous-nuages : de centres de gravité

iekEEE ... , 21 kggg ... , 21

kVVV ... , 21de matrices de variances .

g = centre de gravité de E

V = matrice de variance de E

n individus affectés des poids

rangés dans une matrice diagonale D

ie

nppp ... , 21

xx

x

x xx x xx x

x xx x x

x x xx x xx

xx x x

x x xx

1E

2E

kE

10

1 2 .......... k 1 2 .......... p1 0 .......... 01 0 .......... 0

A X

0 0 ......... 1

12

n

matrice diagonale des poids des sous-nuages.qD A DA′= jq

( ) ( )1A DA A DX−′ ′kggg ... , 21

Notations matricielles

ses lignes sont les coordonnées des kcentres de gravité

tableau de données

A Matrice des indicatrices de la variable qualitative à prédire

X Matrice des prédicteurs

11

i j

j ie E

q p∈

= ∑

∑=i

iij

j epq

g 1ji Ee ∈pour ∑

==

k

jjj gqg

1

( )( ) ′−−= ∑∈

1

eji

Ejii

jj gegep

qV

ji

Centres de gravité

Matrice de variance-covariances de la classe Ej

poids de la classe j

12

Matrice de variance interclasse : matrice de variance B des k centres

de gravité affectés des poids :

( )( ) ′−−= ∑=

1

ggggqB j

k

jjj

jq

Matrice de variance intra-classe :

∑=

=k

jjjVqW

1

13

En règle générale W inversible

B non inversible (k centres de gravité dans un

sous-espace de dimension k-1 de Rp)

V = W + B

Variance totale = Moyenne des variances + Variance des moyennes

14

En analyse discriminante, on considère trois types de matrices

de variances-covariances et donc trois types de corrélations.

corrélation totale corrélation intra-classes corrélation inter-classes

15

2. L’analyse factorielle discriminante (A.F.D.)

Elle consiste à chercher de nouvelles variables (les variables discriminantes)

correspondant à des directions de Rp qui séparent le mieux possible en

projection les k groupes d’observations.

xx

x

xxx

x

x

x

x

x

x

x xx

x

xx

xx

x

xx

xx

x

axe 2

axe 1 Axe 1

Axe 2

L’axe 1 possède un bon pouvoir discriminantL’axe 2 ne permet pas de séparer en projection les 2 groupes.

16

Supposons Rp muni d’une métrique M (calcul des distances)

a = axe discriminant

u = facteur associé aMu =

uX = variable discriminante

L’inertie du nuage des projetés sur doit être maximale.jg a

La matrice d’inertie du nuage des est MBM, l’inertie du nuage projetésur est si est M-normé à 1.

ga MBMaa' a

Il faut aussi qu’en projection sur , chaque sous-nuage reste bien groupéa

donc que soit faible pour j = 1, 2 ... k.aMMVa J'

On cherchera donc à minimiser :

aMMVaq jk

jj '

1∑=

aMWMa'soit

17

Critère

La relation entraîne que

donc :

WBV += MWMMBMMVM +=

aMWMaaMBMaaMVMa ''' +=

Maximiser le rapport de l’inertie inter-classe à l’inertie totale

aMVMaaMBMa

a '' max

Ce maximum est atteint si est vecteur propre de

associé à sa plus grande valeur propre

a ( ) ( )MBMMVM 1−

1λ

aaBMVM λ=−− 11

18

A l’axe discriminant est alors associé le facteur discriminant tel que :a u

aMu =

On a alors : uuBV λ=−1

uX

1−=VMOn choisira par commodité

⎩⎨⎧

==

−

−

uuBVaaBV

λλ

1

1

On a toujours car est la quantité à maximiser.10 1 ≤≤ λ 1λ

Les facteurs discriminants, donc les variables discriminantes

sont indépendantes de la métrique M.

19

11 =λCasx

x

xxx

En projection sur les dispersions intra-classes sont nulles. Les k nuagessont donc chacun dans un hyperplan orthogonal à .Il y a discrimination parfaite si les centres de gravité se projettent en despoints différents.

aa

Cas particuliers

20

01 =λCas

igLe meilleur axe ne permet pas de séparer les centres de gravité , c’est le

cas où ils sont confondus.

Les nuages sont donc concentriques et aucune séparation linéaire n’est

possible.

x xx x

x xx x x x

xx

x

x

x

x

xx

xx x

xx

x

x

x

x

xx

x

xxx

x

x

x

x

Groupe 1

Groupe 2

Il se peut cependant qu’il existeune possibilité de discriminationnon linéaire.

21 gg =

La distance au centre permet ici de séparer les groupes, mais il s’agit d’une

fonction quadratique des variables.

21

λLa valeur propre est une mesure pessimiste du pouvoir discriminant d’un axe.

x x xx x x

xx x

x x x

mais les groupes sont bien séparés1<λ

Le nombre des valeurs propres non nulles, donc d’axes discriminants est

égal à dans le cas habituel où et où les variables ne

sont pas liées par des relations linéaires.

1−k kpn >>

Autres propriétés

22

Remarque: Le cas de deux groupes

Il n’y a qu’une seule variable discriminante puisque .

L’axe discriminant est alors nécessairement la droite reliant les deux

centres de gravité et :

Le facteur discriminant vaut donc :

ou qui lui est proportionnel

est la fonction de Fisher (1936).

11 =−k

1g2g21 gga −=

u ( )211 ggVu −= −

( )211 ggWu −= −

( )211 ggW −−

23

3. Exemples: Les iris de Fisher

24

Les iris de Fisher

Graphique des fonctions discriminantes

-10 -6 -2 2 6 10

Fonction 1

-2,7

-1,7

-0,7

0,3

1,3

2,3

3,3

Fonc

tion

2

species1 2 3 Centroïdes

25

Discrimination entre divers spiritueux à l’aide de dosages moléculaires

Graphique des fonctions discriminantes

Fonction 1

Fonc

tion

2

QUAL1arm bra cog rhu wh Centroïdes

-14 -10 -6 -2 2 6-11

-7

-3

1

5

9

26

D’après les équations précédentes, l’analyse factorielle discriminante

n’est autre que l’A.C.P. du nuage des k centres de gravité avec la

métrique .

On en déduit que les variables discriminantes sont non corrélées

deux à deux.

Dans le cas où il existe plusieurs axes discriminants on peut

utiliser les représentations graphiques usuelles de l’A.C.P. : cercle des

corrélations...

1−V

( )2>k

4. Une A.C.P. particulière

27

5. Règles géométriques d’affectation

Ayant trouvé la meilleure représentation de la séparation en k groupes

des n individus, on peut alors chercher à affecter une observation à

l’un des groupes.

La règle naturelle consiste à calculer les distances de l’observation à

classer à chacun des k centres de gravité et à affecter selon la distance

la plus faible. Métrique à utiliser ?

e

Règle de Mahalanobis Fisher

On utilise 1−W ( ) ( ) ( )iii geWgeged −′−= −12 ;

28

Les données 3064 1201 10 361 23000 1053 11 338 33155 1133 19 393 23085 970 4 467 33245 1258 36 294 13267 1386 35 225 13080 966 13 417 32974 1189 12 488 33038 1103 14 677 33318 1310 29 427 23317 1362 25 326 13182 1171 28 326 32998 1102 9 349 33221 1424 21 382 13019 1230 16 275 23022 1285 9 303 23094 1329 11 339 23009 1210 15 536 33227 1331 21 414 23308 1366 24 282 13212 1289 17 302 23361 1444 25 253 13061 1175 12 261 23478 1317 42 259 13126 1248 11 315 23458 1508 43 286 13252 1361 26 346 23052 1186 14 443 33270 1399 24 306 13198 1259 20 367 12904 1164 6 311 33247 1277 19 375 13083 1195 5 441 33043 1208 14 371 3

12345678910111213141516171819202122232425262728293031323334

Température Soleil Chaleur Pluie Qualité

6. Exemple: Qualité des vins de Bordeaux

29

Analyse préalable

Température

Measures of Association

.799 .639Température * QualitéEta Eta Squared

121111N =

Qualité

MédiocreMoyenBon

Tem

péra

ture

3600

3500

3400

3300

3200

3100

3000

2900

2800

Report

Température

3306.36 11 92.063140.91 11 100.053037.33 12 69.343157.88 34 141.18

Qualité123Total

Mean N Std. Deviation

2 Between Groups Sum of SquaresRapport de corrélation = Total Sum of Squares

η =

ANOVA Table

420067.4 2 210033.704 27.389 .000237722.1 31 7668.456657789.5 33

(Combined)Between GroupsWithin GroupsTotal

Température * Qualité

Sum ofSquares df Mean Square F Sig.

30

SoleilReport

Soleil

1363.64 11 80.311262.91 11 71.941126.42 12 88.391247.32 34 126.62

QualitéBonMoyenMédiocreTotal


ANOVA Table

326909.1 2 163454.535 25.061 .000202192.4 31 6522.335529101.4 33


Soleil * Qualité



.786 .618Soleil * QualitéEta Eta Squared

121111N =

Qualité

MédiocreMoyenBon

Sole

il

1600

1500

1400

1300

1200

1100

1000

900

31

ChaleurReport

Chaleur

28.55 11 8.8016.45 11 6.7312.08 12 6.3018.82 34 10.02



ANOVA Table

1646.570 2 823.285 15.334 .0001664.371 31 53.6893310.941 33


Chaleur * Qualité



.705 .497Chaleur * QualitéEta Eta Squared

121111N =

Qualité

MédiocreMoyenBon

Cha

leur

50

40

30

20

10

0

12

32

PluieReport

Pluie

305.00 11 52.29339.64 11 54.99430.33 12 104.85360.44 34 91.40




.594 .353Pluie * QualitéEta Eta Squared

ANOVA Table

97191.170 2 48595.585 8.440 .001178499.2 31 5758.039275690.4 33


Pluie * Qualité


121111N =

Qualité

MédiocreMoyenBon

Plui

e

800

700

600

500

400

300

200

100

33

Qualité des vins de Bordeaux

34

Qualité des vins de Bordeaux

35

Qualité des vins de Bordeaux:Pourcentage de bien classés

Tableau de classement

Observé Groupe Prévu qualitéqualite Taille 1 2 3 --------------------------------------------------------------------1 11 9 2 0

( 81,82%) ( 18,18%) ( 0,00%) 2 11 2 8 1

( 18,18%) ( 72,73%) ( 9,09%) 3 12 0 2 10

( 0,00%) ( 16,67%) ( 83,33%) --------------------------------------------------------------------

Pourcentage d'observations bien classées: 79,41%

36

Qualité des vins de BordeauxFonctions discriminantes

Coefficients des fonctions discriminantes pour qualité

Coefficients standardisés-----------------------------------------------

1 2stemp 0,750126 -0,00405015insol 0,547064 -0,430399 chaleur -0,198237 0,935229hpluies -0,445097 0,468536 -----------------------------------------------

37

L’utilisation de la règle précédente conduit à des affectations incorrectes

lorsque les dispersions des groupes sont très différentes entre elles : rien

ne justifie alors l’usage de la même métrique pour les différents groupes.

e

1g2g

Pourtant, il est plus naturel d’affecter à la deuxièmeclasse qu’à la première dontle pouvoir d’attraction est moindre.

plus proche de que deau sens habituel.

e 1g2g

e

7. Insuffisance des règles géométriques

38

Solution : métriques locales

Dans la plupart des cas, on choisit proportionnel à .

La question de l’optimalité d’une règle de décision géométrique

ne peut cependant être résolue sans référence à un

modèle probabiliste.

iM

iM

1−iV

39

8. Remarques concernant la présentation de l’analysediscriminante dans les logiciels « américains »

8.1. Par ses liens avec l’analyse canonique, les auteurs de langue

anglaise utilisent le terme : « ANALYSE DISCRIMINANTE

CANONIQUE ».

On cherche la combinaison linéaire des variables qui a le plus

grand coefficient de corrélation multiple avec la variable de

classe.

40

Ce coefficient de corrélation est appelé première corrélation canonique.

La valeur propre (équation ) est égale au carré

de ce coefficient de corrélation.1λ uuBV 1

1 λ=−

La variable définie par la combinaison linéaire est appelée la première

composante canonique ou première variable canonique.

41

La deuxième variable canonique répond à deux critères :

- ne pas être corrélée avec la première,

- avoir le plus grand coefficient de corrélation multiple possible avec

la variable de classe.

Ce processus peut être répété jusqu’au moment où le nombre de variables

canoniques est égal au nombre de variables de départ ou au nombre de

classes moins 1 s’il est plus petit.

42

8.2. Analyse de variance et métrique____1−W

S’il n’y avait qu’une seule variable explicative, on mesurerait

l’efficacité de son pouvoir séparateur sur la variable de groupe au

moyen d’une analyse de variance ordinaire à 1 facteur :

knkF−−

=/intraVariance

1/inter Variance

43

Comme il y a p variables, on peut rechercher la combinaison linéaire

définie par des coefficients u donnant la valeur maximale pour la statistique

de test, ce qui revient à maximiser :

uWuuBu

''

La solution est donnée par l’équation :

maximal avec 1 μμuuBW =−

44

Les vecteurs propres de sont les mêmes que ceux de

avec

B1−W BV 1−

μμλ

λλμ

+1=

1⇔

−=

Les logiciels « américains » fournissent cette valeur propre :μ

on a en revanche :

si : 10 ≤≤ λ

∞≤≤ μ0

A ce point près, l’utilisation de ou de comme métrique

est indifférente.

1−V 1−W

45

9. Analyse canonique discriminante et régression

L’analyse canonique discriminante, se réduit dans le cas de deux groupes

à une régression multiple.

En effet après avoir centré, l’espace engendré par les deux indicatrices de

la variable des groupes est de dimension 1.

Il suffit donc de définir une variable centrée Y ne prenant que les deux

valeurs a et b sur les groupes 1 et 2.

( )0 21 =+ bnan

On obtiendra alors un vecteur des coefficients de régression proportionnel

à la fonction de Fisher pour un choix quelconque de a.

46

IMPORTANT

On prendra garde au fait que les hypothèses habituelles de la

régression ne sont pas vérifiées, bien au contraire :

Ici Y est non aléatoire

X l’est.

Ne pas utiliser, autrement qu’à titre indicatif, les statistiques

usuelles fournies par un programme de régression.

47

10. Analyse discriminante sur variables qualitatives

Y : variable de groupe

pχχχ ... , , 21 variables explicatives à modalités.pmmm ... , , 21

48

• Solvabilité d’emprunteurs auprès de banques

Ybon payeur

mauvais payeur

1χ 2χ: sexe : catégorie professionnelle

• Risque en assurance automobile

Ybon conducteur

mauvais conducteur

1χ 2χ: sexe : tranche d’âge 3χ : véhicule sportif ou non

• Reclassement dans une typologie

Y : classes

Exemples

49

Caractéristiques du problème

Grand nombre de prédicteurs qualitatifs

Échantillons volumineux

Méthodesclassiquesinadaptées

Analyse discriminante classiques : variables quantitatives

Modèle log linéaire : trop de variables

D I S Q U A L

Méthode de discrimination fondée sur l’analyse factorielle

50

Prédicteurs qualitatifs

Estimer ( )... 2211 xxyYP === χχ

• Approche multinomiale irréaliste

P estimé par la fréquence

∏=

k

iim

1cases !

• Approche modèle

Log-linéaire, linéaire, on néglige certaines interactions.

Ex : ( )kjiyYPn ==== 321 , , χχχ

ikijkji εδσβαα +++++= 0

51

Une méthode de discrimination sur variables qualitatives :la méthode DISQUAL

Les p prédicteurs sont p variables qualitatives àpχχχ ... 21

pmmm ... 21 modalités.

1ère étape A.C.M. des variables m...χχχ 21

Analyse des correspondances du tableau disjonctif⇔

( ) ...21 pXXXX =

52

2ème étape On remplace les p variables qualitatives par les q coordonnées

sur les axes factoriels

analyse discriminante sur ces q variables numériquesZ1 Z2 ... Zq

→

Facteur discriminant d = combinaison linéaire desZj qui sont des combinaisons linéaires des indicatrices.

53

3ème étape Expression de d comme combinaison linéaire des indicatrices

attribuer à chaque catégorie de chaque variable une valeur

numérique ou score.⇔

Ceci revient donc à transformer chaque variable qualitative

en une variable discrète à m valeurs (associées à chaque

modalité).

54

L’ANALYSE DISCRIMINANTE

MÉTHODES DÉCISIONNELLES

55

1. La règle bayésienne

k groupes en proportion p1, p2 ... pk

La distribution de probabilité du vecteur observation

est donnée pour chaque groupe j par une densité (ou une loi discrète)

.

( ) x ... ,1 pxx =

( )xf j

MÉTHODES PROBABILISTES

56

probabilité qu’elle provienne du groupe jformule de Bayes

Observation

( ) ( ) ( )( ) ( )∑

=

= k

jjj

jjj

GPGxP

GPGxPxGP

1

( )pxxx ... , 21

( ) ( )

( )∑=

= k

jjj

jjj

xfp

xfpxGP

1

57

x

⇒ ( )xfp jj

( )xf j

Règle bayésienne

Affecter au groupe qui a la probabilité a posteriori maximale.

chercher le maximum de

Il est nécessaire de connaître ou d’estimer

méthodes non paramétriques

méthodes paramétriques : cas gaussien p-dimensionnel,

discrimination logistique.

58

2. Le modèle normal multidimensionnel

( ) , jpN Σμx pour chaque groupedistribués selon

( )( ) ( ) ( ) ( )⎥⎦

⎤⎢⎣⎡ −′−−

Σ= ∑−1

2/12/ 21 exp

det21

j jjj

pj xxxf μμπ

Hypothèse de travailDensité:

Hypothèse de travail

59

2-1. Cas général

Règle bayésienne : devient par passage aux logarithmes

(de l’expression ) :

( )xfp jjj

max

jfLog jp 2−

( ) ( ) ( )∑− Σ+−−′− 1j det 2 : min j jjj LogpLogxx μμ

Lorsque les sont différents, cette règle est donc quadratique il faut

comparer k fonctions quadratiques de

est en général estimé par

jΣ →

x

jΣ jVn

n 1−

jj gpar μ

60

2-2. Cas d’égalité des matrices de variance covariance

Si la règle devient linéaire car :∑ ∑ ∑==1 2 , ...

Alors ( ) det log =∑ j constante

( ) ( ) ( )jjj xxx μμμ , 21 Δ=−′− ∑ −

= distance de Mahalanobisde àx μ

En développant, en éliminant , on obtient :∑−1' xx

d’où en divisant par -2 ⎥⎦⎤

⎢⎣⎡ +∑∑ −

jjjj p log' 21-'xmax 11- μμμ

61

Si est estimé par :Σ Wkn

n−

règle Bayésienne règle géométrique (si égalité des )⇔ jp

La règle géométrique est alors optimale.

La probabilité a posteriori d’appartenance au groupe j est proportionnelle à :

( )⎥⎦⎤

⎢⎣⎡ Δ− jj xp μ,

21 exp 2

62

2-3. Cas de deux groupes avec égalité de et___ 1Σ 2Σ

On affectera au groupe 1 si :x

⎥⎦⎤

⎢⎣⎡ +−>⎥⎦

⎤⎢⎣⎡ +− ∑∑∑∑ −−−−

21

21

2211

111

1 ' 21'' '

21' pLogxpLogx μμμμμμ

( ) ( ) ( )1

212121

121

21 '

ppLogx +−′+>− ∑∑ −− μμμμμμ

63

Si , on retrouve la règle de Fisher en estimant par .5,021 == pp Σ Wn

n2−

( ) ( ) ( ) ( )∑ ∑− − −′+−−= 1 1

1

2212121

21'

ppLogxxs μμμμμμSoit

On affectera au groupe 1 si

au groupe 2 si

appelée « score » ou statistique d’Anderson.

x ( ) 0>xs

( ) 0<xs

( )xs

64

est liée simplement à la probabilité a posteriori d’appartenanceau groupe 1.( )xS

Démonstration :

( ) ( )( ) ( ) P

xfpxfpxfpxGP =

+=

2211

111

( )( )xfxf

pp

P 1

2

1

211 +=⇒

( ) ( ) ( ) ( )⎥⎦⎤

⎢⎣⎡ −′−+−′−−+= ∑ ∑− −1 1

11221

221

21 exp 1 μμμμ xxxx

pp

Propriété

65

( ) ( )⎥⎦⎤

⎢⎣⎡ Δ−Δ=−⇒ 2

21

2

1

2 ,21,

21 exp 11 μμ xx

pp

P

( )xSP

Log −=⎟⎠⎞

⎜⎝⎛ −11 d’où

( )

( )

( )xs

xs

xs ee

eP

+=

+=

− 111

P « fonction logistique du score »

Remarque : Lorsque 21

21 == pp

( ) ( )[ ]22

12 ,,

21

1

1μμ xx

e

PΔ−Δ−

+

=

66

2-4. A propos de certains tests :

Test d’égalité des matrices : test de BoxiΣ

Si l’hypothèse est vraie, la quantité :k21 = ... Σ=Σ=Σ

( )( ) ( ) ( ) ⎥⎦

⎤⎢⎣

⎡−

−Σ−−

−⎟⎟⎠

⎞⎜⎜⎝

⎛−

−−

Σ−+−+

− ii

ii

iV

nnLognW

knnLogkn

knnkppp

111

11

1161321

2

suit approximativement une loi ( )( )2

211 −+ kppχ

67

Si on rejette l’hypothèse d’égalité, doit-on utiliser les règles quadratiques ?

Ce n’est pas sûr :

Test de Box pas parfaitement fiable

Règle quadratique estimation de chaque (donc de plus de⇒ jΣparamètres).

Lorsque les échantillons sont de petite taille, les fonctions obtenues

sont très peu robustes.

il vaut mieux choisir une règle linéaire.

68

Nombre de paramètres à estimer

• Exemple:

– Avec p = 10 variables– Avec k= 4 groupes

L’analyse discriminante linéaire demande l’estimation de 95 paramètres et l’analyse discriminante quadratique l’estimation de 260 paramètres

69

Soit un ensemble de variables parmi les p composantes de

Supposons que : en d’autres termes les autres

variables n’apportent aucune information pour séparer les deux

populations, alors :

( )−px

22lΔ=Δ p

( ) ( )( ) ( ) ( )

( )1,l2 l

1212

l212121

2l

22121 −−+−=

+−++−

−−−+pnnpF

Dnnnnnnp

DDnnpnn p

2.5. Qualité de la discrimination

a. Cas de 2 groupes

On peut ainsi tester :

l’apport d’une nouvelle variable en prenant 1−= p

l’apport de toutes les variables ( )02 =Δ p

70

b. Plus de 2 groupes :

Λ

kH μμμ === ... : 210Sous

IBWBWW

VW

+=

+==Λ

−11

suit la loi de Wilks de paramètres ( )1 , , −− kknp

Justification : nV, nW, nB suivent des lois de Wishart à

1,,1 −−− kknn d.d.l.

On utilise le de Wilks

71

c. Remarque dans le cas de deux groupes

Le test de Wilks et le test de la distance de Mahalanobis

sont identiques :

B étant de rang 1, on a :

( ) 0 20 =Δ pH

( ) ( )

λμ

−=+

=

−+++

=Λ 11

1

2 1

1

2121

212nnnn

nnDp

1

-1

W B V B

1

valeur propre devaleur propre de

−⎧⎪ μ =⎪

λ =⎨⎪ λ⎪ μ =

− λ⎩

72

Trace de Hotelling-Lawleyk 1 k 1

1

i 1 i 1i

i

iTrace(W B)1

− −−

= =

λ= = μ

−λ∑ ∑

Trace de Pillaï =k

1i

i 1

Trace(V B)−

=

= λ∑

Plus grande valeur propre de Roy : μ1

d. Paramètres usuels fournis par les logiciels

Wilks:k 1

i 1i(1 )

−

=Λ = Π −λ

iλ = corrélation canonique au carré

Plus le (Wilks) est faible, meilleure est la discrimination Λ

73

de mesuré par :

2.6. Sélection de variables pas à pas

En discriminante à k groupes, on utilise souvent le test de variation

Λ

que l’on compare à un ⎟⎟⎠

⎞⎜⎜⎝

⎛−

Λ

Λ

−−−

+1

1 1p

p

kpkn

( )pknkF −−− ,1

La plupart des logiciels présentent des techniques de sélection

ascendante,descendante ou mixte des variables. SAS propose la

procédure STEPDISC.

74

Sélection ascendante (option Forward)

• A l’étape initiale aucune variable n’est présente.

• A chaque étape on fait entrer la variable qui contribue le plus au pouvoir discriminant du modèle, mesuré par le lambda de Wilks.

• La sélection s’arrête quand aucune des variables non sélectionnées ne convient au sens du seuil de probabilité choisi pour le F de Fisher.

Sélection descendante (option Backward)

• On démarre avec le modèle complet (construit avec toutes les variables)

• A chaque étape, la variable contribuant le moins au pouvoir discriminant du modèle est éliminée.

• La sélection s’arrête quand on ne peut plus éliminer de variables étant donné le seuil de probabilité choisi pour le F de Fisher.

75

Sélection mixte (option Stepwise)

• On démarre comme dans la procédure ascendante.

• Dès qu’une variable entre dans le modèle, on vérifie compte tenu de cette entrée si l’une des variables déjà présentes est susceptible d’être éliminée.

• La sélection s’arrête quand on ne plus ajouter ou éliminer de variables.

76

Critère usuel Probabilité de bien classer une observation quelconque.Les diverses méthodes sont comparées en fonction de leurs taux d’erreur.

3.1 Taux d’erreur théorique pour deux groupes avec et distribution normale

21 Σ=Σ

Quand , on affecte l’individu au groupe 1 si : 21 pp =

( ) ( ) ( ) ( ) 021' 1

21211

21 >⎥⎦⎤

⎢⎣⎡ −′+−−= ∑∑ −− μμμμμμxxS

( ) ( )[ ]Σ∈> ,0 2μpNxxSP

La probabilité d’erreur de classement est donc :

3. Mesures d’efficacité des règles de classement

77

La loi de est une loi de Gauss à une dimension comme combinaison

linéaire des composantes de .

( )xSx

( )( ) ( ) ( ) ( )∑∑ −− −′+−−= 12121

1212 2

1' μμμμμμμxSE

( ) ( )∑− −′−−= 121212

1 μμμμ

221

pΔ−=

( )( ) ( ) ( ) 21 12121 puxSV Δ=−′−= ∑ ∑∑− − μμμ

suit N( ) xS ⎟⎠⎞

⎜⎝⎛ ΔΔ− pp ;

21 2

2Gx∈si

78

La probabilité de classer dans le groupe 1 une observation du groupe 2 est :

( )( )

⎟⎟⎟⎟

⎠

⎞

⎜⎜⎜⎜

⎝

⎛

Δ

Δ+>

Δ

Δ+=

p

p

p

pxSPP

22210

21

21

( ) ⎟⎟⎠

⎞⎜⎜⎝

⎛ Δ>=

221 pUPP où U suit N ( )1 ; 0

Elle est égale à .( )12P

Cette relation donne une interprétation concrète à la distance de Mahalanobis.

Remarque Estimations biaisées sous-estimation du taux d’erreur.→

79

3-2. Méthode de resubstitution

Réaffectation des observations selon les fonctions discriminantes trouvées.

Inconvénient On sous-estime le taux d’erreur.

Critère usuel

80

3-3. Échantillon d’apprentissage; Échantillon test

échantillon

partage

Échantillon de base ou d’apprentissage

Échantillon test

il permet d’élaborerles règles de classement

estimation du tauxd’erreur

81

3.4 Validation croisée

• Pour i = 1 à n, on construit la règle de décision sur la base privée de son ième élément et on affecte ce dernier à l’un des groupes suivant cette règle.

• Le taux d’erreur estimé est alors la fréquence de points mal classés de la sorte. L’estimation du taux d’erreur ainsi obtenu est pratiquement sans biais

• La variance de l’estimation est d’autant plus importante que n est grand, puisque dans ce cas, les différentes règles de décision construites à partir de n-2 observations communes ont tendance à se ressembler.

82

4. Méthodes non paramétriques

Les méthodes non paramétriques consistent à estimer la densité de

probabilité en chaque point de l’échantillon.

Deux méthodes sont souvent utilisées :

- méthode du noyau

- méthode des k plus proches voisins.

83

La méthode des noyaux généralise la notion d’histogramme. Dans le cas

unidimensionnel, pour estimer la densité en un point x, on centre l’intervalle

de longueur R de l’histogramme en ce point. La densité est alors le rapport

de la probabilité de l’intervalle sur la longueur de l’intervalle.

Dans le cas multidimensionnel, considérons l’ellipsoïde centré sur :x

( ) ( ) ( ){ } 21, rxyVxyyX jjr ≤−′−=Ω −

4.1 La méthode des noyaux

84

Notons la variable indicatrice de l’ellipsoïde

La densité de probabilité estimée s’écrit :

( )zI j { }21/ rzVzz j ≤′ −

( )( )

( )jvn

xyIxf

rj

jGy

jj

−Σ=

∈

avec nombre d’éléments du groupe jvolume de l’ellipsoïde

=jn( ) =jvr

La méthode du noyau consiste à utiliser une fonction (le noyau) plus

« lisse » que la variable indicatrice .( )zI j

85

On trouve dans la littérature (et les logiciels) différents types de noyaux :

uniforme: On compte le nombre d’observations appartenant à la boule

de rayon R. Ce nombre est aléatoire.

normal

Epanechnikov

biweight kernel

triweight kernel

La difficulté d’utilisation de ces méthodes réside dans le choix du noyau

et le choix de r.

86

On cherche les k points les plus proches de l’individu et on classe

dans le groupe le plus représenté : la probabilité a posteriori d’appartenir au

groupe j est égale au quotient entre le nombre d’individus du groupe j parmi

les k points, et le nombre de voisins (k).

Le choix de k est moins crucial que le choix de r dans la méthode des

noyaux. On peut choisir k optimisant une proportion de bien classés en

validation croisée.

xx

4.2. Méthode des k plus proches voisins

87

5. La régression logistique

Lorsqu’il n’y a pas que deux groupes, sous l’hypothèse de normalité et

d’égalité des matrices de variance, la probabilité a posteriori est une

fonction logistique du score, lui-même fonction linéaire des variables

explicatives.

( )( ) ( )xSxfxf

ppLog

PLog −==⎟

⎠⎞

⎜⎝⎛ −

1

2

1

2 11

88

Donc :

( )( ) x

ppLog

xfxfLog '

2

1

1

2 βα ++=

⎛

⎝

⎜⎜⎜

=β1β2β

pβ

...où

( )( ) x

xfxf 'Log 0

1

2 ββ +=⎞

⎠

⎟⎟⎟

(*)

Ceci amène à définir la régression logistique à partir de l’expression (*).

89

⎛

⎝

⎜⎜⎜

=β1β2β

pβ

...où

( )( ) x

xfxf 'Log 0

1

2 ββ +=⎞

⎠

⎟⎟⎟

Le modèle de la régression logistique consiste à estimer les (p+1)paramètres selon le maximum de vraisemblance.

( ) ( )( ) ( )

( )( )( )( )xfxf

pp

xfxf

pp

xfpxfpxfpxGP

2

1

2

1

2

1

2

1

2211

111

1+=

+=

Hypothèse de travail

90

( ) ' exp1

' exp

02

1

02

1

1

⎟⎟⎠

⎞⎜⎜⎝

⎛+++

⎟⎟⎠

⎞⎜⎜⎝

⎛++

=x

ppLog

xppLog

xGPββ

ββ(1)

( )⎟⎟⎠

⎞⎜⎜⎝

⎛+++

=x

ppLog

xGP' exp1

1

02

12

ββ(2)

On montre que les expressions (1) et (2) sont conservées pour la famille de

distributions :

( ) ( ) ( ) ( )xhxxcxf iiii 21 exp 1

⎥⎦⎤

⎢⎣⎡ −′−−= ∑− μμ

où h est une fonction arbitraire de intégrable non négative et une

constante telle que soit une densité de probabilité.

x ic

if

91

En effet, h n’intervient pas dans le calcul de (1) et (2) :

si on retombe sur la loi multinormale

on peut faire intervenir des variables binaires dans le modèle

on peut appliquer le modèle au cas où un groupe de la population est

dissymétrique (h(x) constante dans la population normale, croissante

ailleurs)

( ) 1≡xh

méthode générale

92

( ) ( )iGi

iGi

xfxfL 2121 ∈∈

ΠΠ= ( ) ( ) ( )xfpxfpxf 2211 +=avec :

( ) ( ) ( )

( ) ( ) ( )⎪⎪⎩

⎪⎪⎨

⎧

=

=

2

22

1

11

pxfxGP

xf

pxfxGP

xfOn a

D’où ( ) ( ) ( )inn

ii

Gii

Ginn xfxGPxGPpp

L21

2121 121

21

1 +

=∈∈ΠΠΠ=

soit : 21

21

21nn pp

LLL ==1L

=2L

vraisemblance conditionnelle desparamètres connaissant les ix

ixdensité (incondionnelle) des

Expression de la vraisemblance des β (n1 et n2 fixés)

93

f non connue, on estime par une méthode de maximum de

vraisemblance conditionnelle :pβββ ... , 10

⎟⎟⎠

⎞⎜⎜⎝

⎛+++

Π

⎟⎟⎠

⎞⎜⎜⎝

⎛+++

⎟⎟⎠

⎞⎜⎜⎝

⎛++

Π∈∈

iGi

i

i

Gix

ppLogx

ppLog

xppLog

' exp1

1 ' exp1

' exp

02

10

2

1

02

1max

21 ββββ

βββ

Nécessité d’utiliser une méthode numérique.

(Pas de solution analytique à l’équation de vraisemblance).

Les étant estimés, la règle Bayésienne peut être appliquée pour les

classements.

β

( )( ) x

ppLog

xGPxGP

Log ' 02

1

2

1 ββ ++=

On affectera au groupe 1 si 0' 02

1 >++ xppLog ββ

94

Résultats meilleurs que la règle géométrique, pour :

des populations non gaussiennes

des populations où très différent de 1Σ 2Σ

mais procédure de calcul plus complexe.

Lorsque les données proviennent de deux populations normales avec

21 Σ=Σ

2

1ff

la régression logistique est moins performante que l’analyse

Seul ( supposé connu).discriminante.

Avantages - Inconvénients de la régression logistique

95

BIBLIOGRAPHIE CONCERNANT LES METHODES

D’ANALYSE DISCRIMINANTE ET DE SEGMENTATION

Références générales en statistique

G. GOVAERT (Editeur) “ Analyse des données ” Hermés Lavoisier (2003)

L. LEBART, A. MORINEAU, M.PIRON“ Statistique exploratoire multidimensionnelle ” 3ème édition Dunod(2000)

G. SAPORTA "Probabilités, analyse des données et statistique" 2ème

édition Technip (2006).

S. TUFFERY "Data mining et statistique décisionnelle" Technip 2010

96

S.TUFFERY « Étude de cas en statistique décisionnelle » Technip2009

M. TENENHAUS "Statistique: Méthode pour décrire,expliquer et prévoir ". Dunod (2006).

Analyse discriminante et Segmentation

BARDOS M. « Analyse discriminante : Application au risque etscoring financier » Dunod (2001)

Breiman, L., Friedman, J.H., Olshen, R.A. & Stone, C.J. “ Classification And Regression Trees. ” Monterey, California, Wadsworth & Brooks (1984)

CELEUX G. (Editeur scientifique) “ Analyse discriminante sur variables continues ” Collection didactique INRIA (1990)

CELEUX G ;, NAKACHE J.P.“ Analyse discriminante sur variables qualitatives ” Polytechnica (1994)

97

DROESBEKE J-J., LEJEUNE M., SAPORTA G. (Editeurs) “ Modèles statistiques explicative pour données qualitatives ” Technip (2005)

HUBERTY C. “Applied discriminant analysis” Wiley (1994)

NAKACHE J-P., CONFAIS J. “ Statistique explicative appliquée ” Technip (2003)

TOMASSONE R., DANZART M., DAUDIN J.J., MASSON J.P. “ Discrimination et classement ” Masson ( 1988)

ZIGHED D.A., RAKOTOMALALA R. “ Graphes d’induction ” Hermès ( 2000)

Sites INTERNET

Le site de la Société Française de Statistique : www.sfds.asso.fr

L’aide en ligne du logiciel SAS : http://support.sas.com/documentation/online.doc

Le site de Statsoft sur la statistique et le data mining : www.statsoft.com

Liste de méthodes de segmentation : www.recursive-partitioning.com/classification_trees

l’analyse discriminante - maths.cnam.frmaths.cnam.fr/img/pdf/analyse_discriminante-nov2010.pdf ·...

Documents