analyse factorielle discriminante -...
Post on 28-Nov-2018
228 Views
Preview:
TRANSCRIPT
Analyse factorielle discriminante
Michaël Genin
Université de Lille 2EA 2694 - Santé Publique : Epidémiologie et Qualité des soins
michael.genin@univ-lille2.fr
Master 1 Biologie Santé - Parcours C
Plan
1 Introduction
2 Principe général
3 Principe d’interprétation
Michaël Genin (Université de Lille 2) Analyse factorielle discriminante Version - 17 mars 2016 1 / 54
Introduction Positionnement de la méthode
Analyse factorielle discriminante (AFD)
Univariees
Multivariees(ACP, CAH. . . )
Tests usuels
Multivariees
Methodes
statistiques
Methodes
descriptives
Methodes
Inferentielles
Michaël Genin (Université de Lille 2) Analyse factorielle discriminante Version - 17 mars 2016 4 / 54
Introduction 2 familles de méthodes de classification
2 familles de méthodes de classification
Classification non-supervisée (clustering)Partitionner les observations en groupes différents (classes, catégories) maisles plus homogènes possible au regard de variables décrivant les observations.Le nombre de classes n’est pas connu à l’avanceMéthodes : Classification hiérarchique, K-plus-proches voisins, Classificationbayésienne naïve. . .
Classification supervisée (discrimination)Obtenir un critère de séparation afin de prédire l’appartenance à une classe(Y = f (X ) + ϵ).Le nombre de classes est connu à l’avance (Variable à expliquer)Méthodes : Régression logistique, Analyse discriminante, Arbres dedécision, Réseaux de neurones, Réseaux bayésiens, Support Vector Machine...
Michaël Genin (Université de Lille 2) Analyse factorielle discriminante Version - 17 mars 2016 6 / 54
Introduction 2 familles de méthodes de classification
Méthodes de discrimination
2 objectifs principaux :Etude du lien entre Y (Variable à expliquer qualitative) et les Xj (Variablesexplicatives quantitatives ou binaires) ⇒ Facteurs prédictifsPrédiction (système d’aide à la décision (scores cliniques, crédit scoring, ...)
2 catégories de méthodes de discrimination :1 Méthodes explicatives : règles de prédiction claires (AFD, Reg Log, Arbres de
décision)2 Méthodes non explicatives : règles de prédiction floues (RN, RB, SVM. . . )
En pratique en médecine2 classes ⇒ Régression logistique> 2 classes : Analyse discriminante, Arbres de décision
Michaël Genin (Université de Lille 2) Analyse factorielle discriminante Version - 17 mars 2016 7 / 54
Introduction 2 familles de méthodes de classification
En résuméL’Analyse Factorielle Discriminante est une méthode de discrimination, explicativequi a pour but :
Etude du lien entre Y (Variable à expliquer qualitative) et les Xj (Variablesexplicatives quantitatives ou binaires) ⇒ Facteurs prédictifsPrédiction de l’appartenance à une classe
Michaël Genin (Université de Lille 2) Analyse factorielle discriminante Version - 17 mars 2016 8 / 54
Principe général Un modèle linéaire
Modèle linéaire
On considère des combinaisons linéaires entre les Xj
Score = λ1X1 + λ2X2 + · · · + λpXp =p∑
j=1λjXj
Ce (ou ces) score va permettre de prédire l’appartenance des individus à uneclasse (Y ).
Exemple 1 : score en réanimation
Patient entre
dans le service
Recueil
d'informations
Frequence cardiaquePression arterielleTx de bilirubineEtat de choc (Oui/Non)
Systeme
de scoring
Score de gravite
PRISM
PELOD
PRISM : Pediatric RISk of MortalityPELOD : PEdiatric Logistic Organ Dysfunction
Michaël Genin (Université de Lille 2) Analyse factorielle discriminante Version - 17 mars 2016 11 / 54
Principe général Un modèle linéaire
Exemple 2 : Score de FraminghamPrédiction d’un évènement cardio-vasculaire dans les 10 ans.Construit à partir de la cohorte de Framingham (5 209 individus)Age (classes quinquennales)
[55-59 ans] → + 4Tx de cholesterol LDL
si ∈ [100 - 160] : 0si < 100 : -3 (Protecteur)si ≥ 160 : +2 (Risque)
PA diastolique (PAD) et PA systolique (PAS) en mm de mercureSI PAD < 80 ET PAS < 120 : 0SI PAD ≤ 89 ET PAS ∈ [130 - 139] : +1
Si S ≥ 14 → 56% de risque d’évenement CV dans les 10 ans.Lien avec la notion de score linéaire :
Score Framingham = λ1X1 + · · · + Age[55-59]︸ ︷︷ ︸0/1
λ︸︷︷︸=4
+ · · · + λpXp
Michaël Genin (Université de Lille 2) Analyse factorielle discriminante Version - 17 mars 2016 12 / 54
Principe général Objectifs de l’AFD
k=2 et score déjà connu
Cas Représentation graphique Qualité de séparation
Cas 1
M M
Score
Bonne
Cas 2
M M
Score
Moyenne
Cas 3
M M
Score
Mauvaise
Cas 3 : impossibilité de trouver un score discriminant les 2 groupes.
Condition nécessaireLes groupes doivent être séparables (non-superposés)
Michaël Genin (Université de Lille 2) Analyse factorielle discriminante Version - 17 mars 2016 14 / 54
Principe général Objectifs de l’AFD
Exemple : X1, X2 et K = 2
X2
X1
µ1
µ2
Les centres de gravité µ1 et µ2 sontséparés (i.e. les groupes sont séparés)
X2
X1
µ1 µ2 Les centres de gravité µ1 et µ2 nesont pas séparés (i.e. les groupes ne
sont pas séparés)
Michaël Genin (Université de Lille 2) Analyse factorielle discriminante Version - 17 mars 2016 15 / 54
Principe général Objectifs de l’AFD
k=2 et score déjà connu
Point d’entrée de l’analyse : tester la séparabilité des groupes en utilisant lescoordonnées des centres de gravités :
X2
X1
µ1
µ2
µ21µ11
µ12
µ22
X1 et X2
µ1 =(
µ11µ12
)µ2 =
(µ21µ22
)X1, . . . , Xp
µ1 =
µ11...
µ1p
µ2 =
µ21...
µ2p
MANOVA : Multivariate ANalysis Of VAriance{
H0 : µ1 = µ2 Groupes confondusH1 : µ1 = µ2 Groupes séparés
Michaël Genin (Université de Lille 2) Analyse factorielle discriminante Version - 17 mars 2016 16 / 54
Principe général Objectifs de l’AFD
k=2 et score déjà connu
Si les groupes sont séparés (MANOVA) ⇒ Retour aux scores discriminants
M M
Score
M M
Score
Cas 1 : le score discrimine bienles deux groupes
Cas 2 : le score n’est pas assezdiscriminant pour réaliser desprédictions
NécessitéPour les scores ⇒ utilisation d’un critère de qualité de discrimination
Michaël Genin (Université de Lille 2) Analyse factorielle discriminante Version - 17 mars 2016 17 / 54
Principe général Objectifs de l’AFD
k=2 et score déjà connu
Idée : ANOVA sur le score
En utilisant le théorème de Huygens
S2T︸︷︷︸
Variance totale
= S2B︸︷︷︸
Variance inter-classes
+ S2W︸︷︷︸
Variance intra-classe
Indicateur de qualité de séparation entre les groupes
R2 = S2B
S2T
∈ [0, 1]
Remarque : si R2 ≈ 1 → variance intra quasi-inexistante :
ScoreM M
Michaël Genin (Université de Lille 2) Analyse factorielle discriminante Version - 17 mars 2016 18 / 54
Principe général Objectifs de l’AFD
Cas de 2 groupes (k = 2)
Objectif de l’AFDDéterminer parmi toutes les combinaisons linéaires des Xj (
∑pj=1 λjXj), les
pondérations λj qui maximisent le R2.
Problème : il existe une infinité de combinaisons de λj . Comment déterminer lesλj optimaux ?
ThéorèmeSi les groupes sont séparés (MANOVA) alors il existe une combinaison linéaire(score discriminant, composante discriminante) unique qui maximise le R2.
Michaël Genin (Université de Lille 2) Analyse factorielle discriminante Version - 17 mars 2016 19 / 54
Principe général Objectifs de l’AFD
Cas de 2 groupes (k = 2)
Lien avec l’ACP
µ1 µ2
1ere comp ACP
(separe au mieux les individus)
Michaël Genin (Université de Lille 2) Analyse factorielle discriminante Version - 17 mars 2016 20 / 54
Principe général Objectifs de l’AFD
Cas de 2 groupes (k = 2)
Lien avec l’ACP
µ1 µ2
1ere comp ACP
(separe au mieux les individus)
1ere comp discrim
(separe au mieux lescentres de gravite)
Michaël Genin (Université de Lille 2) Analyse factorielle discriminante Version - 17 mars 2016 21 / 54
Principe général Objectifs de l’AFD
Cas de 2 groupes (k = 2)
Détermination des λj
AFD : ACP particulière sur les centres de gravité :
X1 X2 . . . Xj . . . XpG1 µ11 µ12 . . . µ1j . . . µ1pG2 µ21 µ22 . . . µ2j . . . µ2p
Distance particulière : distance de MahalanobisMaximise l’inertie inter-classe projetée sur l’axeMinimise l’inertie intra-classe projetée sur l’axe
Michaël Genin (Université de Lille 2) Analyse factorielle discriminante Version - 17 mars 2016 22 / 54
Principe général Objectifs de l’AFD
Cas de 3 groupes (k = 3)
Situation rare :
Score 1
Groupe 1 Groupe 2 Groupe 3
Michaël Genin (Université de Lille 2) Analyse factorielle discriminante Version - 17 mars 2016 23 / 54
Principe général Objectifs de l’AFD
Cas de 3 groupes (k = 3)
Situation plus fréquente :
Score 1
Groupe 1 Groupe 2
Groupe 3
Michaël Genin (Université de Lille 2) Analyse factorielle discriminante Version - 17 mars 2016 24 / 54
Principe général Objectifs de l’AFD
Cas de 3 groupes (k = 3)
Situation plus fréquente :
Score 1
Groupe 1 Groupe 2
Groupe 3
Le score 1 ne permet pas
de discriminer G2 et G3
Michaël Genin (Université de Lille 2) Analyse factorielle discriminante Version - 17 mars 2016 25 / 54
Principe général Objectifs de l’AFD
Cas de 3 groupes (k = 3)
Situation plus fréquente :
Score 1
Groupe 1 Groupe 2
Groupe 3
Score 2
Michaël Genin (Université de Lille 2) Analyse factorielle discriminante Version - 17 mars 2016 26 / 54
Principe général Objectifs de l’AFD
Cas de 3 groupes (k = 3)
Situation plus fréquente :
Score 1
Groupe 1 Groupe 2
Groupe 3
Score 2
α
β
Michaël Genin (Université de Lille 2) Analyse factorielle discriminante Version - 17 mars 2016 27 / 54
Principe général Objectifs de l’AFD
Cas de k groupes (k > 2)
ThéorèmeSoit Y qui définit k groupes. Si les groupes sont séparés, alors
Il existe k − 1 composantes discriminantes tels quescores discriminants
1er score S1 rend maximal le R2
2ème score S2 est orthogonal à S1 et maximise le R2
...(k − 1)ème score Sk−1 est orthogonal à Sk−2 et maximise le R2
Michaël Genin (Université de Lille 2) Analyse factorielle discriminante Version - 17 mars 2016 28 / 54
Principe général Objectifs de l’AFD
Résumé
AFD : méthode explicative de discriminationUne variable à expliquer qualitative Y à k groupes (classes)p variables explicatives Xj quantitatives ou binaires
Etudier les variables discriminantes des groupesPrédire l’appartenance à un groupe
Méthode linéaire : scores linéaires qui vont prédire l’appartenance aux classesLes classes doivent être séparées (MANOVA)Les scores : issus d’une ACP particulière sur les centres de gravités(composantes)Toujours k − 1 scores discriminants
Michaël Genin (Université de Lille 2) Analyse factorielle discriminante Version - 17 mars 2016 29 / 54
Principe d’interprétation
Principe d’interprétation
3 étapes clés :
1 Est-ce que, mathématiquement, la discrimination est bonne ?Est-ce que les groupes sont bien séparés par les scores ?
2 Est-ce que les scores ont une interprétation clinique ?Cohérence par rapport à l’expertise clinique. . .
3 Construction de règles de classementRègle d’affectation d’un nouvel individu à une classe
Michaël Genin (Université de Lille 2) Analyse factorielle discriminante Version - 17 mars 2016 31 / 54
Principe d’interprétation
Principe d’interprétation - Données exemple
Données "insectes" de Lubischew (n = 72) 1.Variable à expliquer : espèce d’insecte (species)
Concinna (con) (codée 1)Heikertingeri (hei) (codée 2)Heptapotamica (hep) (codée 3)Y = {con,hei,hep}
Variables explicativesLargeur de l’appareil reproducteur (aedeagus) (µm) (width)Angle de l’appareil reproducteur (aedeagus) (degré) (angle)
ObjectifsDéterminer quelle sont les variables discriminant les groupes d’insectesEtablir des règles de classement
1. Lubischew, A.A. (1962) On the use of discriminant functions in taxonomy. Biometrics, 18,455-477
Michaël Genin (Université de Lille 2) Analyse factorielle discriminante Version - 17 mars 2016 32 / 54
Principe d’interprétation Interprétation mathématique
Principe d’interprétation - Interprétation mathématique
A - Vérification de la condition nécessaire
MANOVA : Multivariate ANalysis Of VAriance{H0 : µ1 = µ2 = µ3 Groupes confondusH1 : ∃ au moins (i , j)/µi = µj Groupes séparés
Sous SPSS
Michaël Genin (Université de Lille 2) Analyse factorielle discriminante Version - 17 mars 2016 34 / 54
Principe d’interprétation Interprétation mathématique
Principe d’interprétation - Interprétation mathématique
B - Utilisation de plusieurs critèresR2 → autant que de scores discriminantsProche de 1 ?Exemple
G1 G2
R2≈ 0:9
Score
G1 G2
R2≈ 0:45
Score
Pourtant le score discrimine bien dans les 2 cas→ Pas forcément de seuil sur le R2
Michaël Genin (Université de Lille 2) Analyse factorielle discriminante Version - 17 mars 2016 35 / 54
Principe d’interprétation Interprétation mathématique
Principe d’interprétation - Interprétation mathématique
B - Utilisation de plusieurs critèresReprésentations graphiquesRep. des individus sur l’espace des scores discriminants
Michaël Genin (Université de Lille 2) Analyse factorielle discriminante Version - 17 mars 2016 36 / 54
Principe d’interprétation Interprétation mathématique
Principe d’interprétation - Interprétation mathématique
B - Utilisation de plusieurs critèresClassements automatiquesMéthode des médiatrices
Michaël Genin (Université de Lille 2) Analyse factorielle discriminante Version - 17 mars 2016 37 / 54
Principe d’interprétation Interprétation mathématique
Principe d’interprétation - Interprétation mathématique
B - Utilisation de plusieurs critèresClassements automatiquesMéthode des médiatrices
Michaël Genin (Université de Lille 2) Analyse factorielle discriminante Version - 17 mars 2016 38 / 54
Principe d’interprétation Interprétation mathématique
Principe d’interprétation - Interprétation mathématique
B - Utilisation de plusieurs critèresClassements automatiquesMéthode des médiatrices
Michaël Genin (Université de Lille 2) Analyse factorielle discriminante Version - 17 mars 2016 39 / 54
Principe d’interprétation Interprétation mathématique
Principe d’interprétation - Interprétation mathématique
B - Utilisation de plusieurs critèresClassements automatiquesMéthode des médiatrices
Michaël Genin (Université de Lille 2) Analyse factorielle discriminante Version - 17 mars 2016 40 / 54
Principe d’interprétation Interprétation mathématique
Principe d’interprétation - Interprétation mathématique
B - Utilisation de plusieurs critèresClassements automatiquesMatrice de confusion
En pratique : ≥ 80% d’observations bien classées
Michaël Genin (Université de Lille 2) Analyse factorielle discriminante Version - 17 mars 2016 41 / 54
Principe d’interprétation Interprétation clinique
Principe d’interprétation - Interprétation clinique
Valeurs élevées de S2 → Groupe 1
Michaël Genin (Université de Lille 2) Analyse factorielle discriminante Version - 17 mars 2016 43 / 54
Principe d’interprétation Interprétation clinique
Principe d’interprétation - Interprétation clinique
Idée : corrélation entre les Xj et chacun des scoresRègle
|ρ(Xj , Sk)| > 0.5
Rq : si Xj est binaire (0/1) : ANOVA ≡ ρ(Xj , Sk)
S1
S2ρ+
ρ−
ρ+ρ−
Michaël Genin (Université de Lille 2) Analyse factorielle discriminante Version - 17 mars 2016 44 / 54
Principe d’interprétation Interprétation clinique
Principe d’interprétation - Interprétation clinique
Idée : corrélation entre les Xj et chacun des scores
S1
S2ρ+
ρ−
ρ+ρ−width(r = 0:821)
angle(r = −0:759)
width(r = 0:571)
angle(r = 0:651)
Michaël Genin (Université de Lille 2) Analyse factorielle discriminante Version - 17 mars 2016 45 / 54
Principe d’interprétation Interprétation clinique
Principe d’interprétation - Interprétation clinique
Idée : corrélation entre les Xj et chacun des scores
S1
S2ρ+
ρ−
ρ+ρ−width(r = 0:821)
angle(r = −0:759)
width(r = 0:571)
angle(r = 0:651)
Michaël Genin (Université de Lille 2) Analyse factorielle discriminante Version - 17 mars 2016 46 / 54
Principe d’interprétation Construction de règles de classement
Construction de règles de classement
3 solutions :1 Utiliser les classes prédites par le logiciel (Méthode des médiatrices)
Problème : "boîte noire"Pas de règle explicite
2 Méthode graphique
Michaël Genin (Université de Lille 2) Analyse factorielle discriminante Version - 17 mars 2016 48 / 54
Principe d’interprétation Construction de règles de classement
Construction de règles de classement
3 solutions :1 Utiliser les classes prédites par le logiciel (Méthode des médiatrices)
Problème : "boîte noire"Pas de règle explicite
2 Méthode graphique
α
Michaël Genin (Université de Lille 2) Analyse factorielle discriminante Version - 17 mars 2016 49 / 54
Principe d’interprétation Construction de règles de classement
Construction de règles de classement
3 solutions :1 Utiliser les classes prédites par le logiciel (Méthode des médiatrices)
Problème : "boîte noire"Pas de règle explicite
2 Méthode graphique
α
β
Michaël Genin (Université de Lille 2) Analyse factorielle discriminante Version - 17 mars 2016 50 / 54
Principe d’interprétation Construction de règles de classement
Construction de règles de classement
3 solutions :1 Utiliser les classes prédites par le logiciel (Méthode des médiatrices)
Problème : "boîte noire"Pas de règle explicite
2 Méthode graphique
α
β
Règle :
SI S2 > α ALORS Groupe 1SINON
SI S1 > β ALORS Groupe 3SINON Groupe 2FSI
FSI
Seuils optimaux ?
Michaël Genin (Université de Lille 2) Analyse factorielle discriminante Version - 17 mars 2016 51 / 54
Principe d’interprétation Construction de règles de classement
Construction de règles de classement
3 solutions :3 Courbe Roc pour déterminer α et β
α
β
Pour S2 :1 Créer une variable binaire
(G1 vs G2, G3)2 Courbe ROC sur S2 avec
nouvelle variable→ α optimal pour S2
Pour S1 :1 Sous-échantillon :
uniquement G2 et G32 Courbe ROC sur S1 avec
species→ β optimal pour S1
Michaël Genin (Université de Lille 2) Analyse factorielle discriminante Version - 17 mars 2016 52 / 54
Principe d’interprétation Construction de règles de classement
Construction de règles de classement
Classement d’un nouvel individu : angle=14 ; width=144
Calcul de S1 et S2 pour l’individu :
S1 = 0.147 × width︸ ︷︷ ︸=144
−0.625 × angle︸ ︷︷ ︸=14
−11.752 = 0.666
S2 = 0.149 × width︸ ︷︷ ︸=144
+0.780 × angle︸ ︷︷ ︸=14
−30.258 = 2.118
Michaël Genin (Université de Lille 2) Analyse factorielle discriminante Version - 17 mars 2016 53 / 54
Principe d’interprétation Construction de règles de classement
Construction de règles de classement
Classement d’un nouvel individu : angle=14 ; width=144, S1 = 0.666, S2 = 2.118
Posons α = 1 et β = 0
Règle :
SI S2 > α ALORS Groupe 1SINON
SI S1 > β ALORS Groupe 3SINON Groupe 2FSI
FSI
Ici S2 > α donc le nouvel individu est affecté au groupe 1
Michaël Genin (Université de Lille 2) Analyse factorielle discriminante Version - 17 mars 2016 54 / 54
top related