l’analyse discriminante - maths.cnam.frmaths.cnam.fr/img/pdf/analyse_discriminante-nov2010.pdf ·...
TRANSCRIPT
1
Pierre-Louis GONZALEZ
L’ANALYSE DISCRIMINANTE
2
Prédire une variable qualitative à k classes à l’aide de p prédicteurs
Deux aspects
Descriptif: Quelles sont les combinaisons linéaires de variables qui permettent de séparer le mieuxpossible les k catégories ?
Décisionnel: Un nouvel individu se présente pour lequel on connaît les valeurs des prédicteurs.Décider dans quelle catégorie il faut l’affecter
ANALYSE DISCRIMINANTE
3
Ensemble des méthodes utilisées pour prédire une variable qualitative à k catégories à l’aide de p prédicteurs.
Médecine Connaissant les symptômes présentés par un patient,peut-on porter un diagnostic sur sa maladie ?
FinanceA partir des bilans d’une société, est-il possible
d’estimer son risque de faillite à 2 ans ou 3 ans (scoring financier) ?
Au moment d’une demande de prêt par un client, peut-on prévoir en fonction des caractéristiques du client, le risque de contentieux (credit scoring) ?
ANALYSE DISCRIMINANTE
EXEMPLES
4
PétroleAu vu des analyses des carottes issues d’un forage, est-il possible de présumer de l’existence d’une nappe de pétrole ?
TélédétectionA partir de mesures par satellite des ondes réfléchies ou absorbées par le sol dans différentes longueurs d’onde, peut-on reconstituer automatiquement la nature du terrain étudié (forêt, sable, ville, mer...) ?
Marketing directConnaissant les caractéristiques d’un client, peut-on prévoirsa réponse à une offre de produit par courrier ?
Étude de textes
Interprétation d’une typologie
5
Mahalanobis 1927
Hotelling 1931
Fisher 1936
Rao 1950
Anderson 1951
Vapnik 1998
Quelques dates:
6
LINÉAIRESA.C.P. sur le nuage des centres de gravitédes groupes munis de différentes métriques
NON LINÉAIRES
- quadratique
- création de nouvelles variableset application d’une
méthode linéaire
- découpage en variables qualitatives et application d’une méthode survariables qualitatives
Recherche des meilleuresfonctions discriminantes
( )pXXXg ..., 21
( )pXXXf ..., 21
MÉTHODES GÉOMÉTRIQUES
7
MÉTHODES PROBABILISTES
Estimation directe desprobabilités d’appartenance
aux groupes définis par Y
PARAMÉTRIQUE
- modèle gaussien- maximum de vraisemblance
avec autre modèle paramétrique
NON PARAMÉTRIQUE
- Estimation de densité :- Fonctions orthogonales- Noyaux de Parzen- K plus proches voisins
SEMI PARAMETRIQUE- régression logistique
8
Autres approches
• Méthodes de type « boite noire » induisant le minimum d’erreurs de classement
• Réseaux de neurones• SVM (Support Vecteur Machine )
9
I. MÉTHODES GÉOMÉTRIQUES
1. Données - Notations
Les n individus de l’échantillon constituent un nuage E, de Rp partagéen k sous-nuages : de centres de gravité
iekEEE ... , 21 kggg ... , 21
kVVV ... , 21de matrices de variances .
g = centre de gravité de E
V = matrice de variance de E
n individus affectés des poids
rangés dans une matrice diagonale D
ie
nppp ... , 21
xx
x
x xx x xx x
x xx x x
x x xx x xx
xx x x
x x xx
1E
2E
kE
10
1 2 .......... k 1 2 .......... p1 0 .......... 01 0 .......... 0
A X
0 0 ......... 1
12
n
matrice diagonale des poids des sous-nuages.qD A DA′= jq
( ) ( )1A DA A DX−′ ′kggg ... , 21
Notations matricielles
ses lignes sont les coordonnées des kcentres de gravité
tableau de données
A Matrice des indicatrices de la variable qualitative à prédire
X Matrice des prédicteurs
11
i j
j ie E
q p∈
= ∑
∑=i
iij
j epq
g 1ji Ee ∈pour ∑
==
k
jjj gqg
1
( )( ) ′−−= ∑∈
1
eji
Ejii
jj gegep
qV
ji
Centres de gravité
Matrice de variance-covariances de la classe Ej
poids de la classe j
12
Matrice de variance interclasse : matrice de variance B des k centres
de gravité affectés des poids :
( )( ) ′−−= ∑=
1
ggggqB j
k
jjj
jq
Matrice de variance intra-classe :
∑=
=k
jjjVqW
1
13
En règle générale W inversible
B non inversible (k centres de gravité dans un
sous-espace de dimension k-1 de Rp)
V = W + B
Variance totale = Moyenne des variances + Variance des moyennes
14
En analyse discriminante, on considère trois types de matrices
de variances-covariances et donc trois types de corrélations.
corrélation totale corrélation intra-classes corrélation inter-classes
15
2. L’analyse factorielle discriminante (A.F.D.)
Elle consiste à chercher de nouvelles variables (les variables discriminantes)
correspondant à des directions de Rp qui séparent le mieux possible en
projection les k groupes d’observations.
xx
x
xxx
x
x
x
x
x
x
x xx
x
xx
xx
x
xx
xx
x
axe 2
axe 1 Axe 1
Axe 2
L’axe 1 possède un bon pouvoir discriminantL’axe 2 ne permet pas de séparer en projection les 2 groupes.
16
Supposons Rp muni d’une métrique M (calcul des distances)
a = axe discriminant
u = facteur associé aMu =
uX = variable discriminante
L’inertie du nuage des projetés sur doit être maximale.jg a
La matrice d’inertie du nuage des est MBM, l’inertie du nuage projetésur est si est M-normé à 1.
ga MBMaa' a
Il faut aussi qu’en projection sur , chaque sous-nuage reste bien groupéa
donc que soit faible pour j = 1, 2 ... k.aMMVa J'
On cherchera donc à minimiser :
aMMVaq jk
jj '
1∑=
aMWMa'soit
17
Critère
La relation entraîne que
donc :
WBV += MWMMBMMVM +=
aMWMaaMBMaaMVMa ''' +=
Maximiser le rapport de l’inertie inter-classe à l’inertie totale
aMVMaaMBMa
a '' max
Ce maximum est atteint si est vecteur propre de
associé à sa plus grande valeur propre
a ( ) ( )MBMMVM 1−
1λ
aaBMVM λ=−− 11
18
A l’axe discriminant est alors associé le facteur discriminant tel que :a u
aMu =
On a alors : uuBV λ=−1
uX
1−=VMOn choisira par commodité
⎩⎨⎧
==
−
−
uuBVaaBV
λλ
1
1
On a toujours car est la quantité à maximiser.10 1 ≤≤ λ 1λ
Les facteurs discriminants, donc les variables discriminantes
sont indépendantes de la métrique M.
19
11 =λCasx
x
xxx
En projection sur les dispersions intra-classes sont nulles. Les k nuagessont donc chacun dans un hyperplan orthogonal à .Il y a discrimination parfaite si les centres de gravité se projettent en despoints différents.
aa
Cas particuliers
20
01 =λCas
igLe meilleur axe ne permet pas de séparer les centres de gravité , c’est le
cas où ils sont confondus.
Les nuages sont donc concentriques et aucune séparation linéaire n’est
possible.
x xx x
x xx x x x
xx
x
x
x
x
xx
xx x
xx
x
x
x
x
xx
x
xxx
x
x
x
x
Groupe 1
Groupe 2
Il se peut cependant qu’il existeune possibilité de discriminationnon linéaire.
21 gg =
La distance au centre permet ici de séparer les groupes, mais il s’agit d’une
fonction quadratique des variables.
21
λLa valeur propre est une mesure pessimiste du pouvoir discriminant d’un axe.
x x xx x x
xx x
x x x
mais les groupes sont bien séparés1<λ
Le nombre des valeurs propres non nulles, donc d’axes discriminants est
égal à dans le cas habituel où et où les variables ne
sont pas liées par des relations linéaires.
1−k kpn >>
Autres propriétés
22
Remarque: Le cas de deux groupes
Il n’y a qu’une seule variable discriminante puisque .
L’axe discriminant est alors nécessairement la droite reliant les deux
centres de gravité et :
Le facteur discriminant vaut donc :
ou qui lui est proportionnel
est la fonction de Fisher (1936).
11 =−k
1g2g21 gga −=
u ( )211 ggVu −= −
( )211 ggWu −= −
( )211 ggW −−
23
3. Exemples: Les iris de Fisher
24
Les iris de Fisher
Graphique des fonctions discriminantes
-10 -6 -2 2 6 10
Fonction 1
-2,7
-1,7
-0,7
0,3
1,3
2,3
3,3
Fonc
tion
2
species1 2 3 Centroïdes
25
Discrimination entre divers spiritueux à l’aide de dosages moléculaires
Graphique des fonctions discriminantes
Fonction 1
Fonc
tion
2
QUAL1arm bra cog rhu wh Centroïdes
-14 -10 -6 -2 2 6-11
-7
-3
1
5
9
26
D’après les équations précédentes, l’analyse factorielle discriminante
n’est autre que l’A.C.P. du nuage des k centres de gravité avec la
métrique .
On en déduit que les variables discriminantes sont non corrélées
deux à deux.
Dans le cas où il existe plusieurs axes discriminants on peut
utiliser les représentations graphiques usuelles de l’A.C.P. : cercle des
corrélations...
1−V
( )2>k
4. Une A.C.P. particulière
27
5. Règles géométriques d’affectation
Ayant trouvé la meilleure représentation de la séparation en k groupes
des n individus, on peut alors chercher à affecter une observation à
l’un des groupes.
La règle naturelle consiste à calculer les distances de l’observation à
classer à chacun des k centres de gravité et à affecter selon la distance
la plus faible. Métrique à utiliser ?
e
Règle de Mahalanobis Fisher
On utilise 1−W ( ) ( ) ( )iii geWgeged −′−= −12 ;
28
Les données 3064 1201 10 361 23000 1053 11 338 33155 1133 19 393 23085 970 4 467 33245 1258 36 294 13267 1386 35 225 13080 966 13 417 32974 1189 12 488 33038 1103 14 677 33318 1310 29 427 23317 1362 25 326 13182 1171 28 326 32998 1102 9 349 33221 1424 21 382 13019 1230 16 275 23022 1285 9 303 23094 1329 11 339 23009 1210 15 536 33227 1331 21 414 23308 1366 24 282 13212 1289 17 302 23361 1444 25 253 13061 1175 12 261 23478 1317 42 259 13126 1248 11 315 23458 1508 43 286 13252 1361 26 346 23052 1186 14 443 33270 1399 24 306 13198 1259 20 367 12904 1164 6 311 33247 1277 19 375 13083 1195 5 441 33043 1208 14 371 3
12345678910111213141516171819202122232425262728293031323334
Température Soleil Chaleur Pluie Qualité
6. Exemple: Qualité des vins de Bordeaux
29
Analyse préalable
Température
Measures of Association
.799 .639Température * QualitéEta Eta Squared
121111N =
Qualité
MédiocreMoyenBon
Tem
péra
ture
3600
3500
3400
3300
3200
3100
3000
2900
2800
Report
Température
3306.36 11 92.063140.91 11 100.053037.33 12 69.343157.88 34 141.18
Qualité123Total
Mean N Std. Deviation
2 Between Groups Sum of SquaresRapport de corrélation = Total Sum of Squares
η =
ANOVA Table
420067.4 2 210033.704 27.389 .000237722.1 31 7668.456657789.5 33
(Combined)Between GroupsWithin GroupsTotal
Température * Qualité
Sum ofSquares df Mean Square F Sig.
30
SoleilReport
Soleil
1363.64 11 80.311262.91 11 71.941126.42 12 88.391247.32 34 126.62
QualitéBonMoyenMédiocreTotal
Mean N Std. Deviation
ANOVA Table
326909.1 2 163454.535 25.061 .000202192.4 31 6522.335529101.4 33
(Combined)Between GroupsWithin GroupsTotal
Soleil * Qualité
Sum ofSquares df Mean Square F Sig.
Measures of Association
.786 .618Soleil * QualitéEta Eta Squared
121111N =
Qualité
MédiocreMoyenBon
Sole
il
1600
1500
1400
1300
1200
1100
1000
900
31
ChaleurReport
Chaleur
28.55 11 8.8016.45 11 6.7312.08 12 6.3018.82 34 10.02
QualitéBonMoyenMédiocreTotal
Mean N Std. Deviation
ANOVA Table
1646.570 2 823.285 15.334 .0001664.371 31 53.6893310.941 33
(Combined)Between GroupsWithin GroupsTotal
Chaleur * Qualité
Sum ofSquares df Mean Square F Sig.
Measures of Association
.705 .497Chaleur * QualitéEta Eta Squared
121111N =
Qualité
MédiocreMoyenBon
Cha
leur
50
40
30
20
10
0
12
32
PluieReport
Pluie
305.00 11 52.29339.64 11 54.99430.33 12 104.85360.44 34 91.40
QualitéBonMoyenMédiocreTotal
Mean N Std. Deviation
Measures of Association
.594 .353Pluie * QualitéEta Eta Squared
ANOVA Table
97191.170 2 48595.585 8.440 .001178499.2 31 5758.039275690.4 33
(Combined)Between GroupsWithin GroupsTotal
Pluie * Qualité
Sum ofSquares df Mean Square F Sig.
121111N =
Qualité
MédiocreMoyenBon
Plui
e
800
700
600
500
400
300
200
100
33
Qualité des vins de Bordeaux
34
Qualité des vins de Bordeaux
35
Qualité des vins de Bordeaux:Pourcentage de bien classés
Tableau de classement
Observé Groupe Prévu qualitéqualite Taille 1 2 3 --------------------------------------------------------------------1 11 9 2 0
( 81,82%) ( 18,18%) ( 0,00%) 2 11 2 8 1
( 18,18%) ( 72,73%) ( 9,09%) 3 12 0 2 10
( 0,00%) ( 16,67%) ( 83,33%) --------------------------------------------------------------------
Pourcentage d'observations bien classées: 79,41%
36
Qualité des vins de BordeauxFonctions discriminantes
Coefficients des fonctions discriminantes pour qualité
Coefficients standardisés-----------------------------------------------
1 2stemp 0,750126 -0,00405015insol 0,547064 -0,430399 chaleur -0,198237 0,935229hpluies -0,445097 0,468536 -----------------------------------------------
37
L’utilisation de la règle précédente conduit à des affectations incorrectes
lorsque les dispersions des groupes sont très différentes entre elles : rien
ne justifie alors l’usage de la même métrique pour les différents groupes.
e
1g2g
Pourtant, il est plus naturel d’affecter à la deuxièmeclasse qu’à la première dontle pouvoir d’attraction est moindre.
plus proche de que deau sens habituel.
e 1g2g
e
7. Insuffisance des règles géométriques
38
Solution : métriques locales
Dans la plupart des cas, on choisit proportionnel à .
La question de l’optimalité d’une règle de décision géométrique
ne peut cependant être résolue sans référence à un
modèle probabiliste.
iM
iM
1−iV
39
8. Remarques concernant la présentation de l’analysediscriminante dans les logiciels « américains »
8.1. Par ses liens avec l’analyse canonique, les auteurs de langue
anglaise utilisent le terme : « ANALYSE DISCRIMINANTE
CANONIQUE ».
On cherche la combinaison linéaire des variables qui a le plus
grand coefficient de corrélation multiple avec la variable de
classe.
40
Ce coefficient de corrélation est appelé première corrélation canonique.
La valeur propre (équation ) est égale au carré
de ce coefficient de corrélation.1λ uuBV 1
1 λ=−
La variable définie par la combinaison linéaire est appelée la première
composante canonique ou première variable canonique.
41
La deuxième variable canonique répond à deux critères :
- ne pas être corrélée avec la première,
- avoir le plus grand coefficient de corrélation multiple possible avec
la variable de classe.
Ce processus peut être répété jusqu’au moment où le nombre de variables
canoniques est égal au nombre de variables de départ ou au nombre de
classes moins 1 s’il est plus petit.
42
8.2. Analyse de variance et métrique____1−W
S’il n’y avait qu’une seule variable explicative, on mesurerait
l’efficacité de son pouvoir séparateur sur la variable de groupe au
moyen d’une analyse de variance ordinaire à 1 facteur :
knkF−−
=/intraVariance
1/inter Variance
43
Comme il y a p variables, on peut rechercher la combinaison linéaire
définie par des coefficients u donnant la valeur maximale pour la statistique
de test, ce qui revient à maximiser :
uWuuBu
''
La solution est donnée par l’équation :
maximal avec 1 μμuuBW =−
44
Les vecteurs propres de sont les mêmes que ceux de
avec
B1−W BV 1−
μμλ
λλμ
+1=
1⇔
−=
Les logiciels « américains » fournissent cette valeur propre :μ
on a en revanche :
si : 10 ≤≤ λ
∞≤≤ μ0
A ce point près, l’utilisation de ou de comme métrique
est indifférente.
1−V 1−W
45
9. Analyse canonique discriminante et régression
L’analyse canonique discriminante, se réduit dans le cas de deux groupes
à une régression multiple.
En effet après avoir centré, l’espace engendré par les deux indicatrices de
la variable des groupes est de dimension 1.
Il suffit donc de définir une variable centrée Y ne prenant que les deux
valeurs a et b sur les groupes 1 et 2.
( )0 21 =+ bnan
On obtiendra alors un vecteur des coefficients de régression proportionnel
à la fonction de Fisher pour un choix quelconque de a.
46
IMPORTANT
On prendra garde au fait que les hypothèses habituelles de la
régression ne sont pas vérifiées, bien au contraire :
Ici Y est non aléatoire
X l’est.
Ne pas utiliser, autrement qu’à titre indicatif, les statistiques
usuelles fournies par un programme de régression.
47
10. Analyse discriminante sur variables qualitatives
Y : variable de groupe
pχχχ ... , , 21 variables explicatives à modalités.pmmm ... , , 21
48
• Solvabilité d’emprunteurs auprès de banques
Ybon payeur
mauvais payeur
1χ 2χ: sexe : catégorie professionnelle
• Risque en assurance automobile
Ybon conducteur
mauvais conducteur
1χ 2χ: sexe : tranche d’âge 3χ : véhicule sportif ou non
• Reclassement dans une typologie
Y : classes
Exemples
49
Caractéristiques du problème
Grand nombre de prédicteurs qualitatifs
Échantillons volumineux
Méthodesclassiquesinadaptées
Analyse discriminante classiques : variables quantitatives
Modèle log linéaire : trop de variables
D I S Q U A L
Méthode de discrimination fondée sur l’analyse factorielle
50
Prédicteurs qualitatifs
Estimer ( )... 2211 xxyYP === χχ
• Approche multinomiale irréaliste
P estimé par la fréquence
∏=
k
iim
1cases !
• Approche modèle
Log-linéaire, linéaire, on néglige certaines interactions.
Ex : ( )kjiyYPn ==== 321 , , χχχ
ikijkji εδσβαα +++++= 0
51
Une méthode de discrimination sur variables qualitatives :la méthode DISQUAL
Les p prédicteurs sont p variables qualitatives àpχχχ ... 21
pmmm ... 21 modalités.
1ère étape A.C.M. des variables m...χχχ 21
Analyse des correspondances du tableau disjonctif⇔
( ) ...21 pXXXX =
52
2ème étape On remplace les p variables qualitatives par les q coordonnées
sur les axes factoriels
analyse discriminante sur ces q variables numériquesZ1 Z2 ... Zq
→
Facteur discriminant d = combinaison linéaire desZj qui sont des combinaisons linéaires des indicatrices.
53
3ème étape Expression de d comme combinaison linéaire des indicatrices
attribuer à chaque catégorie de chaque variable une valeur
numérique ou score.⇔
Ceci revient donc à transformer chaque variable qualitative
en une variable discrète à m valeurs (associées à chaque
modalité).
54
L’ANALYSE DISCRIMINANTE
MÉTHODES DÉCISIONNELLES
55
1. La règle bayésienne
k groupes en proportion p1, p2 ... pk
La distribution de probabilité du vecteur observation
est donnée pour chaque groupe j par une densité (ou une loi discrète)
.
( ) x ... ,1 pxx =
( )xf j
MÉTHODES PROBABILISTES
56
probabilité qu’elle provienne du groupe jformule de Bayes
Observation
( ) ( ) ( )( ) ( )∑
=
= k
jjj
jjj
GPGxP
GPGxPxGP
1
( )pxxx ... , 21
( ) ( )
( )∑=
= k
jjj
jjj
xfp
xfpxGP
1
57
x
⇒ ( )xfp jj
( )xf j
Règle bayésienne
Affecter au groupe qui a la probabilité a posteriori maximale.
chercher le maximum de
Il est nécessaire de connaître ou d’estimer
méthodes non paramétriques
méthodes paramétriques : cas gaussien p-dimensionnel,
discrimination logistique.
58
2. Le modèle normal multidimensionnel
( ) , jpN Σμx pour chaque groupedistribués selon
( )( ) ( ) ( ) ( )⎥⎦
⎤⎢⎣⎡ −′−−
Σ= ∑−1
2/12/ 21 exp
det21
j jjj
pj xxxf μμπ
Hypothèse de travailDensité:
Hypothèse de travail
59
2-1. Cas général
Règle bayésienne : devient par passage aux logarithmes
(de l’expression ) :
( )xfp jjj
max
jfLog jp 2−
( ) ( ) ( )∑− Σ+−−′− 1j det 2 : min j jjj LogpLogxx μμ
Lorsque les sont différents, cette règle est donc quadratique il faut
comparer k fonctions quadratiques de
est en général estimé par
jΣ →
x
jΣ jVn
n 1−
jj gpar μ
60
2-2. Cas d’égalité des matrices de variance covariance
Si la règle devient linéaire car :∑ ∑ ∑==1 2 , ...
Alors ( ) det log =∑ j constante
( ) ( ) ( )jjj xxx μμμ , 21 Δ=−′− ∑ −
= distance de Mahalanobisde àx μ
En développant, en éliminant , on obtient :∑−1' xx
d’où en divisant par -2 ⎥⎦⎤
⎢⎣⎡ +∑∑ −
jjjj p log' 21-'xmax 11- μμμ
61
Si est estimé par :Σ Wkn
n−
règle Bayésienne règle géométrique (si égalité des )⇔ jp
La règle géométrique est alors optimale.
La probabilité a posteriori d’appartenance au groupe j est proportionnelle à :
( )⎥⎦⎤
⎢⎣⎡ Δ− jj xp μ,
21 exp 2
62
2-3. Cas de deux groupes avec égalité de et___ 1Σ 2Σ
On affectera au groupe 1 si :x
⎥⎦⎤
⎢⎣⎡ +−>⎥⎦
⎤⎢⎣⎡ +− ∑∑∑∑ −−−−
21
21
2211
111
1 ' 21'' '
21' pLogxpLogx μμμμμμ
( ) ( ) ( )1
212121
121
21 '
ppLogx +−′+>− ∑∑ −− μμμμμμ
63
Si , on retrouve la règle de Fisher en estimant par .5,021 == pp Σ Wn
n2−
( ) ( ) ( ) ( )∑ ∑− − −′+−−= 1 1
1
2212121
21'
ppLogxxs μμμμμμSoit
On affectera au groupe 1 si
au groupe 2 si
appelée « score » ou statistique d’Anderson.
x ( ) 0>xs
( ) 0<xs
( )xs
64
est liée simplement à la probabilité a posteriori d’appartenanceau groupe 1.( )xS
Démonstration :
( ) ( )( ) ( ) P
xfpxfpxfpxGP =
+=
2211
111
( )( )xfxf
pp
P 1
2
1
211 +=⇒
( ) ( ) ( ) ( )⎥⎦⎤
⎢⎣⎡ −′−+−′−−+= ∑ ∑− −1 1
11221
221
21 exp 1 μμμμ xxxx
pp
Propriété
65
( ) ( )⎥⎦⎤
⎢⎣⎡ Δ−Δ=−⇒ 2
21
2
1
2 ,21,
21 exp 11 μμ xx
pp
P
( )xSP
Log −=⎟⎠⎞
⎜⎝⎛ −11 d’où
( )
( )
( )xs
xs
xs ee
eP
+=
+=
− 111
P « fonction logistique du score »
Remarque : Lorsque 21
21 == pp
( ) ( )[ ]22
12 ,,
21
1
1μμ xx
e
PΔ−Δ−
+
=
66
2-4. A propos de certains tests :
Test d’égalité des matrices : test de BoxiΣ
Si l’hypothèse est vraie, la quantité :k21 = ... Σ=Σ=Σ
( )( ) ( ) ( ) ⎥⎦
⎤⎢⎣
⎡−
−Σ−−
−⎟⎟⎠
⎞⎜⎜⎝
⎛−
−−
Σ−+−+
− ii
ii
iV
nnLognW
knnLogkn
knnkppp
111
11
1161321
2
suit approximativement une loi ( )( )2
211 −+ kppχ
67
Si on rejette l’hypothèse d’égalité, doit-on utiliser les règles quadratiques ?
Ce n’est pas sûr :
Test de Box pas parfaitement fiable
Règle quadratique estimation de chaque (donc de plus de⇒ jΣparamètres).
Lorsque les échantillons sont de petite taille, les fonctions obtenues
sont très peu robustes.
il vaut mieux choisir une règle linéaire.
68
Nombre de paramètres à estimer
• Exemple:
– Avec p = 10 variables– Avec k= 4 groupes
L’analyse discriminante linéaire demande l’estimation de 95 paramètres et l’analyse discriminante quadratique l’estimation de 260 paramètres
69
Soit un ensemble de variables parmi les p composantes de
Supposons que : en d’autres termes les autres
variables n’apportent aucune information pour séparer les deux
populations, alors :
( )−px
22lΔ=Δ p
( ) ( )( ) ( ) ( )
( )1,l2 l
1212
l212121
2l
22121 −−+−=
+−++−
−−−+pnnpF
Dnnnnnnp
DDnnpnn p
2.5. Qualité de la discrimination
a. Cas de 2 groupes
On peut ainsi tester :
l’apport d’une nouvelle variable en prenant 1−= p
l’apport de toutes les variables ( )02 =Δ p
70
b. Plus de 2 groupes :
Λ
kH μμμ === ... : 210Sous
IBWBWW
VW
+=
+==Λ
−11
suit la loi de Wilks de paramètres ( )1 , , −− kknp
Justification : nV, nW, nB suivent des lois de Wishart à
1,,1 −−− kknn d.d.l.
On utilise le de Wilks
71
c. Remarque dans le cas de deux groupes
Le test de Wilks et le test de la distance de Mahalanobis
sont identiques :
B étant de rang 1, on a :
( ) 0 20 =Δ pH
( ) ( )
λμ
−=+
=
−+++
=Λ 11
1
2 1
1
2121
212nnnn
nnDp
1
-1
W B V B
1
valeur propre devaleur propre de
−⎧⎪ μ =⎪
λ =⎨⎪ λ⎪ μ =
− λ⎩
72
Trace de Hotelling-Lawleyk 1 k 1
1
i 1 i 1i
i
iTrace(W B)1
− −−
= =
λ= = μ
−λ∑ ∑
Trace de Pillaï =k
1i
i 1
Trace(V B)−
=
= λ∑
Plus grande valeur propre de Roy : μ1
d. Paramètres usuels fournis par les logiciels
Wilks:k 1
i 1i(1 )
−
=Λ = Π −λ
iλ = corrélation canonique au carré
Plus le (Wilks) est faible, meilleure est la discrimination Λ
73
de mesuré par :
2.6. Sélection de variables pas à pas
En discriminante à k groupes, on utilise souvent le test de variation
Λ
que l’on compare à un ⎟⎟⎠
⎞⎜⎜⎝
⎛−
Λ
Λ
−−−
+1
1 1p
p
kpkn
( )pknkF −−− ,1
La plupart des logiciels présentent des techniques de sélection
ascendante,descendante ou mixte des variables. SAS propose la
procédure STEPDISC.
74
Sélection ascendante (option Forward)
• A l’étape initiale aucune variable n’est présente.
• A chaque étape on fait entrer la variable qui contribue le plus au pouvoir discriminant du modèle, mesuré par le lambda de Wilks.
• La sélection s’arrête quand aucune des variables non sélectionnées ne convient au sens du seuil de probabilité choisi pour le F de Fisher.
Sélection descendante (option Backward)
• On démarre avec le modèle complet (construit avec toutes les variables)
• A chaque étape, la variable contribuant le moins au pouvoir discriminant du modèle est éliminée.
• La sélection s’arrête quand on ne peut plus éliminer de variables étant donné le seuil de probabilité choisi pour le F de Fisher.
75
Sélection mixte (option Stepwise)
• On démarre comme dans la procédure ascendante.
• Dès qu’une variable entre dans le modèle, on vérifie compte tenu de cette entrée si l’une des variables déjà présentes est susceptible d’être éliminée.
• La sélection s’arrête quand on ne plus ajouter ou éliminer de variables.
76
Critère usuel Probabilité de bien classer une observation quelconque.Les diverses méthodes sont comparées en fonction de leurs taux d’erreur.
3.1 Taux d’erreur théorique pour deux groupes avec et distribution normale
21 Σ=Σ
Quand , on affecte l’individu au groupe 1 si : 21 pp =
( ) ( ) ( ) ( ) 021' 1
21211
21 >⎥⎦⎤
⎢⎣⎡ −′+−−= ∑∑ −− μμμμμμxxS
( ) ( )[ ]Σ∈> ,0 2μpNxxSP
La probabilité d’erreur de classement est donc :
3. Mesures d’efficacité des règles de classement
77
La loi de est une loi de Gauss à une dimension comme combinaison
linéaire des composantes de .
( )xSx
( )( ) ( ) ( ) ( )∑∑ −− −′+−−= 12121
1212 2
1' μμμμμμμxSE
( ) ( )∑− −′−−= 121212
1 μμμμ
221
pΔ−=
( )( ) ( ) ( ) 21 12121 puxSV Δ=−′−= ∑ ∑∑− − μμμ
suit N( ) xS ⎟⎠⎞
⎜⎝⎛ ΔΔ− pp ;
21 2
2Gx∈si
78
La probabilité de classer dans le groupe 1 une observation du groupe 2 est :
( )( )
⎟⎟⎟⎟
⎠
⎞
⎜⎜⎜⎜
⎝
⎛
Δ
Δ+>
Δ
Δ+=
p
p
p
pxSPP
22210
21
21
( ) ⎟⎟⎠
⎞⎜⎜⎝
⎛ Δ>=
221 pUPP où U suit N ( )1 ; 0
Elle est égale à .( )12P
Cette relation donne une interprétation concrète à la distance de Mahalanobis.
Remarque Estimations biaisées sous-estimation du taux d’erreur.→
79
3-2. Méthode de resubstitution
Réaffectation des observations selon les fonctions discriminantes trouvées.
Inconvénient On sous-estime le taux d’erreur.
Critère usuel
80
3-3. Échantillon d’apprentissage; Échantillon test
échantillon
partage
Échantillon de base ou d’apprentissage
Échantillon test
il permet d’élaborerles règles de classement
estimation du tauxd’erreur
81
3.4 Validation croisée
• Pour i = 1 à n, on construit la règle de décision sur la base privée de son ième élément et on affecte ce dernier à l’un des groupes suivant cette règle.
• Le taux d’erreur estimé est alors la fréquence de points mal classés de la sorte. L’estimation du taux d’erreur ainsi obtenu est pratiquement sans biais
• La variance de l’estimation est d’autant plus importante que n est grand, puisque dans ce cas, les différentes règles de décision construites à partir de n-2 observations communes ont tendance à se ressembler.
82
4. Méthodes non paramétriques
Les méthodes non paramétriques consistent à estimer la densité de
probabilité en chaque point de l’échantillon.
Deux méthodes sont souvent utilisées :
- méthode du noyau
- méthode des k plus proches voisins.
83
La méthode des noyaux généralise la notion d’histogramme. Dans le cas
unidimensionnel, pour estimer la densité en un point x, on centre l’intervalle
de longueur R de l’histogramme en ce point. La densité est alors le rapport
de la probabilité de l’intervalle sur la longueur de l’intervalle.
Dans le cas multidimensionnel, considérons l’ellipsoïde centré sur :x
( ) ( ) ( ){ } 21, rxyVxyyX jjr ≤−′−=Ω −
4.1 La méthode des noyaux
84
Notons la variable indicatrice de l’ellipsoïde
La densité de probabilité estimée s’écrit :
( )zI j { }21/ rzVzz j ≤′ −
( )( )
( )jvn
xyIxf
rj
jGy
jj
−Σ=
∈
avec nombre d’éléments du groupe jvolume de l’ellipsoïde
=jn( ) =jvr
La méthode du noyau consiste à utiliser une fonction (le noyau) plus
« lisse » que la variable indicatrice .( )zI j
85
On trouve dans la littérature (et les logiciels) différents types de noyaux :
uniforme: On compte le nombre d’observations appartenant à la boule
de rayon R. Ce nombre est aléatoire.
normal
Epanechnikov
biweight kernel
triweight kernel
La difficulté d’utilisation de ces méthodes réside dans le choix du noyau
et le choix de r.
86
On cherche les k points les plus proches de l’individu et on classe
dans le groupe le plus représenté : la probabilité a posteriori d’appartenir au
groupe j est égale au quotient entre le nombre d’individus du groupe j parmi
les k points, et le nombre de voisins (k).
Le choix de k est moins crucial que le choix de r dans la méthode des
noyaux. On peut choisir k optimisant une proportion de bien classés en
validation croisée.
xx
4.2. Méthode des k plus proches voisins
87
5. La régression logistique
Lorsqu’il n’y a pas que deux groupes, sous l’hypothèse de normalité et
d’égalité des matrices de variance, la probabilité a posteriori est une
fonction logistique du score, lui-même fonction linéaire des variables
explicatives.
( )( ) ( )xSxfxf
ppLog
PLog −==⎟
⎠⎞
⎜⎝⎛ −
1
2
1
2 11
88
Donc :
( )( ) x
ppLog
xfxfLog '
2
1
1
2 βα ++=
⎛
⎝
⎜⎜⎜
=β1β2β
pβ
...où
( )( ) x
xfxf 'Log 0
1
2 ββ +=⎞
⎠
⎟⎟⎟
(*)
Ceci amène à définir la régression logistique à partir de l’expression (*).
89
⎛
⎝
⎜⎜⎜
=β1β2β
pβ
...où
( )( ) x
xfxf 'Log 0
1
2 ββ +=⎞
⎠
⎟⎟⎟
Le modèle de la régression logistique consiste à estimer les (p+1)paramètres selon le maximum de vraisemblance.
( ) ( )( ) ( )
( )( )( )( )xfxf
pp
xfxf
pp
xfpxfpxfpxGP
2
1
2
1
2
1
2
1
2211
111
1+=
+=
Hypothèse de travail
90
( ) ' exp1
' exp
02
1
02
1
1
⎟⎟⎠
⎞⎜⎜⎝
⎛+++
⎟⎟⎠
⎞⎜⎜⎝
⎛++
=x
ppLog
xppLog
xGPββ
ββ(1)
( )⎟⎟⎠
⎞⎜⎜⎝
⎛+++
=x
ppLog
xGP' exp1
1
02
12
ββ(2)
On montre que les expressions (1) et (2) sont conservées pour la famille de
distributions :
( ) ( ) ( ) ( )xhxxcxf iiii 21 exp 1
⎥⎦⎤
⎢⎣⎡ −′−−= ∑− μμ
où h est une fonction arbitraire de intégrable non négative et une
constante telle que soit une densité de probabilité.
x ic
if
91
En effet, h n’intervient pas dans le calcul de (1) et (2) :
si on retombe sur la loi multinormale
on peut faire intervenir des variables binaires dans le modèle
on peut appliquer le modèle au cas où un groupe de la population est
dissymétrique (h(x) constante dans la population normale, croissante
ailleurs)
( ) 1≡xh
méthode générale
92
( ) ( )iGi
iGi
xfxfL 2121 ∈∈
ΠΠ= ( ) ( ) ( )xfpxfpxf 2211 +=avec :
( ) ( ) ( )
( ) ( ) ( )⎪⎪⎩
⎪⎪⎨
⎧
=
=
2
22
1
11
pxfxGP
xf
pxfxGP
xfOn a
D’où ( ) ( ) ( )inn
ii
Gii
Ginn xfxGPxGPpp
L21
2121 121
21
1 +
=∈∈ΠΠΠ=
soit : 21
21
21nn pp
LLL ==1L
=2L
vraisemblance conditionnelle desparamètres connaissant les ix
ixdensité (incondionnelle) des
Expression de la vraisemblance des β (n1 et n2 fixés)
93
f non connue, on estime par une méthode de maximum de
vraisemblance conditionnelle :pβββ ... , 10
⎟⎟⎠
⎞⎜⎜⎝
⎛+++
Π
⎟⎟⎠
⎞⎜⎜⎝
⎛+++
⎟⎟⎠
⎞⎜⎜⎝
⎛++
Π∈∈
iGi
i
i
Gix
ppLogx
ppLog
xppLog
' exp1
1 ' exp1
' exp
02
10
2
1
02
1max
21 ββββ
βββ
Nécessité d’utiliser une méthode numérique.
(Pas de solution analytique à l’équation de vraisemblance).
Les étant estimés, la règle Bayésienne peut être appliquée pour les
classements.
β
( )( ) x
ppLog
xGPxGP
Log ' 02
1
2
1 ββ ++=
On affectera au groupe 1 si 0' 02
1 >++ xppLog ββ
94
Résultats meilleurs que la règle géométrique, pour :
des populations non gaussiennes
des populations où très différent de 1Σ 2Σ
mais procédure de calcul plus complexe.
Lorsque les données proviennent de deux populations normales avec
21 Σ=Σ
2
1ff
la régression logistique est moins performante que l’analyse
Seul ( supposé connu).discriminante.
Avantages - Inconvénients de la régression logistique
95
BIBLIOGRAPHIE CONCERNANT LES METHODES
D’ANALYSE DISCRIMINANTE ET DE SEGMENTATION
Références générales en statistique
G. GOVAERT (Editeur) “ Analyse des données ” Hermés Lavoisier (2003)
L. LEBART, A. MORINEAU, M.PIRON“ Statistique exploratoire multidimensionnelle ” 3ème édition Dunod(2000)
G. SAPORTA "Probabilités, analyse des données et statistique" 2ème
édition Technip (2006).
S. TUFFERY "Data mining et statistique décisionnelle" Technip 2010
96
S.TUFFERY « Étude de cas en statistique décisionnelle » Technip2009
M. TENENHAUS "Statistique: Méthode pour décrire,expliquer et prévoir ". Dunod (2006).
Analyse discriminante et Segmentation
BARDOS M. « Analyse discriminante : Application au risque etscoring financier » Dunod (2001)
Breiman, L., Friedman, J.H., Olshen, R.A. & Stone, C.J. “ Classification And Regression Trees. ” Monterey, California, Wadsworth & Brooks (1984)
CELEUX G. (Editeur scientifique) “ Analyse discriminante sur variables continues ” Collection didactique INRIA (1990)
CELEUX G ;, NAKACHE J.P.“ Analyse discriminante sur variables qualitatives ” Polytechnica (1994)
97
DROESBEKE J-J., LEJEUNE M., SAPORTA G. (Editeurs) “ Modèles statistiques explicative pour données qualitatives ” Technip (2005)
HUBERTY C. “Applied discriminant analysis” Wiley (1994)
NAKACHE J-P., CONFAIS J. “ Statistique explicative appliquée ” Technip (2003)
TOMASSONE R., DANZART M., DAUDIN J.J., MASSON J.P. “ Discrimination et classement ” Masson ( 1988)
ZIGHED D.A., RAKOTOMALALA R. “ Graphes d’induction ” Hermès ( 2000)
Sites INTERNET
Le site de la Société Française de Statistique : www.sfds.asso.fr
L’aide en ligne du logiciel SAS : http://support.sas.com/documentation/online.doc
Le site de Statsoft sur la statistique et le data mining : www.statsoft.com
Liste de méthodes de segmentation : www.recursive-partitioning.com/classification_trees