Download - La classification
La classification
Plan
Définition et Objectifs Analyse discriminante Régression logistique Arbres de décision Réseaux bayésiens Exemple
Définition et Objectifs
Prévoir l’appartenance à une « classe »non observée à partir de variables observées
Rappel sur la terminologie (Stat/Marketing) Applications typiques
Scoring de risque Connaissant les caractéristiques individuelles d’un emprunteur,
quel est le risque qu’il ne rembourse pas son crédit ? Scoring marketing
A qui envoyer le mailing de lancement d’un nouveau produit ?
Caractérisation
Un problème supervisé (par opposition à la segmentation ou à l’association)
Deux utilisations : Descriptive : Déterminer les “règles” de séparation Décisionnelle : Attribuer un nouvelle individu à une classe.
Utilisation descriptive Problème de type géométrique
Utilisation décisionnelle Problème de type probabiliste. La nature fondamentale du
problème est un calcul de probabilité conditionnelle : P(Incident|Caractéristiques) P(RéponseMailing|…)
Caractérisation (suite)
Les variables observées peuvent être Qualitatives ou quantitatives
La variable à prévoir est binaire (Oui/Non) ou discrète Le modèle est mis au point sur un ensemble de
données où toutes les variables sont observées (y compris la classe)
Exemple : Score de crédit Données : Historique de dossiers de crédit Variables explicatives : CSP, Age, Revenus, Situation
Familiale, etc. Variable à prévoir : Incident de remboursement
Techniques disponibles
Analyse factorielle discriminante Modèle logit/probit Arbres de décision Réseaux bayésiens Réseaux neuronaux
Analyse factorielle discriminante
Analyse discriminante
Méthode géométrique (descriptive) Basée uniquement sur une notion de
distance Maximisation du rapport Inertie
Interclasse / Inertie totale
Principe de l’analyse discriminante
Axe 1
Axe 2
Chercher le meilleur axe de séparation
Axe Optimal
Régression logistique
Cadre théorique
On suppose que la classe détermine la distribution conditionnelle des variables observées
fj(x) est la densité de probabilité de x pour les individus
du groupe j.
Observant un point de coordonnées (x1, x2, …, xp) la probabilité d’appartenir à un groupe j est pj.fj(x)/pj.fj(x)
On affecte le point au groupe de probabilité a posteriori maximale, i.e. à celui pour lequel pj.fj(x) est maximal
Classe
x1 x2 xn
Méthodes de résolution
Méthodes paramétriques On choisit une famille paramétrée de lois
de probabilité pour fj(x) Les observations permettent d’estimer les
paramètres Méthodes non paramétriques
Variantes de la méthode du noyau
Cas simple
Hypothèses On considère deux classes, et f1(x) et f2(x) suivent
une loi normale Les matrices de variance/covariance sont
identiques pour les deux classes Résultat
On peut calculer un score s(x) fonction linéaire des variables x.
La probabilité d’appartenance au groupe 1 est alors p=1/(1+exp(-s(x)))
La régression logistique
On part de la forme obtenue précédemment p=1/(1+exp(-s(x)))
Qui se transforme en :s(x)=ln(p/1-p)
s(x) est une combinaison linéaire des xi
s(x)=0+ 1.x1+ 1.x2+…+ 1.xn
Ses coefficients i sont estimés par le MV
L=∏iC1f1(xi) ∏iC2f2(xi)
Arbres de décision
Arbres de décision
Une méthode de régression Basée sur la théorie de l’information Fonctionnant pour des variables continues ou
discrètes Recherche itérative de variables
discriminantes Produisant des modèles faciles à interpréter
(sous forme de règles SI … ALORS … SINON)
Principe
Un arbre de décision est construit récursivement
En recherchant à chaque fois le critère qui fait gagner le plus d’ « ordre »
Utilisation d’un arbre de décision
Non
Oui
Rayon < a ?
Ranger la boule dans la classe « bleue »
Masse < b ?
Non
Oui
Ranger la boule dans la classe « rouge »
Ranger la boule dans la classe « bleue »
Noeud
Feuille
R < a ?
SI RA ALORSLa boule est bleue
SINONSI M b ALORS
La boule est rougeSINON
La boule est bleue
Construction d’un arbre de décision
Théorie de l’information (Shannon, 1948)
…AAAAAAAA…
A
…AABABABBA…
??
p(A)=1p(B)=0
p(A)=0.5p(B)=0.5
Entropie
Entropie = mesure du désordre Cas de deux événements
S p pii
i .log
S p p p p 1 1 2 2.log .log
P10
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0 10 20 30 40 50 60 70 80 90 100
S
Algorithme C4.5
C4.5Si E ne contient que des éléments de la même classe
Terminer
SinonTrouver le test T qui fasse gagner le plus
d’entropieT sépare E en E1 et E2 : Appliquer C4.5 à E1 et
E2
Exemple d’arbre obtenu
Si Ancienneté Bancaire = 0 Risque Elevé
Sinon (Ancienneté Bancaire > 0) Si Revenus <=4 Si Allocations <=2 Si DateEmbaucheConjoint = 0 Si DateEmbauche <= 3 Risque Elevé Sinon (DateEmbauche > 3) Risque Faible Sinon (DateEmbaucheConjoint > 0) Risque Faible Si Allocations >2 Risque Elevé Sinon (Revenus > 4) Risque Faible
Réseaux bayésiens
Les réseaux bayésiens
Introduction L’inférence ou le calcul de P(X|e) L’apprentissage ou le calcul de P Applications des réseaux bayésiens Conclusion
Une représentation graphique de la causalité
A
B
A B
V V
F V
F F
BA
S’il existe une relation causale de A vers B, toute information sur A peut modifier la connaissance que j’ai de B, et, réciproquement, toute information sur B peut modifier la connaissance que j’ai de A.
L’information ne circule pas seulement dans le sens des flèches
Sherlock Holmes & Thomas Bayes
Ce matin-là, alors que le temps est clair et sec, M. Holmes sort de sa maison. Il s’aperçoit que la pelouse de son jardin est humide. Il se demande alors s’il a plu pendant la nuit, ou s’il a simplement oublié de débrancher son arroseur automatique. Il jette alors un coup d’œil à la pelouse de son voisin, M. Watson, et s’aperçoit qu’elle est également humide. Il en déduit alors qu’il a probablement plu, et il décide de partir au travail sans vérifier son arroseur automatique
Modèle de causalité
A P
J V
A J’ai oublié de débrancher mon arroseur automatiqueP Il a plu pendant cette nuitJ L’herbe de mon jardin est humideV L’herbe du jardin de mon voisin est humide
A P
J V
Si j’ai oublié de débrancher mon arroseur automatique, l’herbe de mon jardin est humide
A P
J V
S’il a plu pendant la nuit, l’herbe de mon jardin est humide. S’il a plu pendant la nuit, l’herbe du jardin de mon voisin est également humide A P
J V
Utilisation du modèle
La connaissance de J renforce la croyance en l’une des deux causes A ou P
A P
J V
A P
J V
La connaissance de V augmente la croyance en la cause P. Par rapport à l’état précédent, la cause A devient moins plausible
Le cas général
ZX Y
ZX Y
ZX Y
ZX Y
Connexion convergenteX et Y causent Z
Connexion en sérieX cause Z, Z cause Y
Connexion divergenteZ cause X et Y.
Circulation de l’information (1)
ZX Y
Z0X Y
?X Y
L’information ne peut circuler de X à Y que si
Z est connu.
X = tremblement de terreY = cambriolageZ = alarme
?X Y
Z0X Y
ZX Y
Circulation de l’information (2)
L’information ne peut circuler de X à Y que si
Z n’est pas connu.
X = ensoleillementY = prix du bléZ = récolte
ZX Y
?X Y
Z0X Y
Circulation de l’information (3)
L’information ne peut circuler de X à Y que si
Z n’est pas connu.
X = la pelouse de mon jardinest humideY = la pelouse de mon voisinest humideZ = il a plu cette nuit.
d-séparation (blocage)
On dira que X et Y sont d-séparés par Z si pour tous les chemins entre X et Y, l’une au moins des deux conditions suivantes est vérifiée :
Le chemin converge en un nœud W, tel que WZ, et W n’est pas une cause directe de Z.
Le chemin passe par Z, et est soit divergent, soit en série au nœud Z.
On notera X|Z|Y
d-séparation : exemple
D
E
A
B G
C F
A|B|D :
Le chemin A-B-D est en série en B ( B ).
Le chemin A-C-D est convergent en C ( C ).
A|D|E :
Tous les chemins de A à E passent par D.
Le chemin A-B-D-E est en série en D (B D E).
Le chemin A-C-D-E est divergent en D (C D E).
Une représentation probabiliste associée
• Un nœud = une variable aléatoire
• Si A n’a aucune cause directe, nous devrons définir p(A), c’est-à-dire les deux nombres p(A=Vrai) et p(A=Faux).
• Si B a une seule cause directe A, nous devrons définir p(B|A), c’est-à-dire les quatre nombres p(B=V|A=V), , etc.
• Si C a deux causes directes A et B nous devrons définir p(C|A,B), c’est-à-dire les huit nombres p(C=V|A=V, B=V) , etc.
Retour à l’exemple (1)
A P
J V
Evénement Probabilité Commentaire
A V 0.4 M. Holmes oublie assez souvent de débrancher son arroseur automatique
A F 0.6 P V 0.4 La région est relativement pluvieuse P F 0.6
Probabilités inconditionnelles
Retour à l’exemple (2)
AV AF PV PF PV PF
J V 1 1 1 0 J F 0 0 0 1
PV PF VV 1 0 VF 0 1
A P
J V
Probabilités conditionnelles
Retour à l’exemple (3)
Ce matin-là, alors que le temps est clair et sec, M. Holmes sort de sa maison. Il s’aperçoit que la pelouse de son jardin est humide.
Il se demande alors s’il a plu pendant la nuit, ou s’il a simplement oublié de débrancher son arroseur automatique. Il jette alors un coup d’œil à la pelouse de son voisin, M. Watson, et s’aperçoit qu’elle est également humide.
Il en déduit alors qu’il a probablement plu, et il décide de partir au travail sans vérifier son arroseur automatique.
Comparer
p(A=V|J=V)etp(P=V|J=V)
Comparer
p(A=V|J=V, V=V) et p(P=V|J=V, V=V)
0.625
0.625
0.4
1
Retour à l’exemple (4)
A et P sont d-séparés Si J est connu,
l’information peut circuler de A à P (AJP est une connexion convergente)
A et P sont indépendants
P(A=F et P=F|J=V) = 0 P(A=F|J=V) = 0.375 P(P=F|J=V) = 0.375 A et P ne sont pas
indépendants conditionnellement à J
A P
J V
Résumé
La transposition d’un graphe causal en espace probabilisé conduit à des résultats conformes au raisonnement intuitif que l’on peut mener directement sur ce graphe
Ces résultats sont quantitatifs Les calculs mis en œuvre, même sur des cas très
simples, sont lourds Les propriétés graphiques (d-séparation) peuvent être
mises en correspondance avec les propriétés d’indépendance de l’espace probabilisé associé.
Réseaux bayésiens : définition
Un réseau bayésien est défini par un graphe acyclique orienté G = (V,E) , où V est l’ensemble
des nœuds de G, et E l’ensemble des arcs de G un espace probabilisé fini (Z,P) un ensemble de variables aléatoires correspondant aux
nœuds du graphe, telles que
p V V V p V C Vni n
i i( , ,..., ) ( ( )),
1 21
Théorème fondamental
Soit B=(G,P) un réseau bayésien Si X, Y, Z sont des ensembles de
nœuds tels que X et Y sont d-séparés dans G par Z, alors
X et Y sont indépendants conditionnellement à Z
Inférence dans les réseaux bayésiens
Inférence = Révision des probabilités Calculer P(X|e) La complexité dépend de la complexité
du réseau
Inférence : approche intuitive
BA C
Cas d’une chaîne Calculer P(C|
A=Vrai) ?p A B C p C B p B A p A( , , ) ( ). ( ). ( )
p A B C p C A B p B A p A( , , ) ( , ). ( ). ( )
p C A B p C B( , ) ( )
p C A p C A B p B AB
( ) ( , ). ( )
p C A p C B p B AB
( ) ( ). ( )Th. Bayes
déf Cond
déf RB
Inférence : approche intuitive (suite)
C
A B E
D
A B
B C
B D
E XOR C D
( , )
Calculer P(E|A=Faux) ?
Inférence : conditionnement
p E V A F( ) ?
p E V A F B V p B V A F( , ) * ( ) p E V A F B F p B F A F( , ) * ( )
C
A = F B E
D
B = V C
A = F E
DB = V
B = F C
A = F E
DB = F
+
Inférence : aspects théoriques
Problème NP-complet dans le cas général Méthodes simples (réseaux sans boucles) Méthodes « graphiques » (réseaux avec
boucles) Méthodes approchées (réseaux de grande taille)
Inférence dans les réseaux sans boucle
Polyarbre
Arbre
Chaîne
Principe
X X
P X e Amont X Aval X .
Inférence dans les réseaux avec boucle
Transformation duréseau bayésien
P(X|e)
Propagation dansl’arbre de regroupement
Inférence dans leréseau bayésien
A quoi sert un réseau bayésien ?
Inférence = raisonnement à partir de données partielles
Exemple d’application = diagnostic Médical Autre : évaluation de risque, scoring, etc.
Questions
1. D’où viennent les probabilités ?2. D’où vient le graphe
Réponses
1. Apprentissage de paramètres La structure étant supposée connue, Utiliser une base de cas pour déterminer
les tables de probabilités
2. Apprentissage de structure Utiliser une base de cas pour déterminer
les arcs du réseau
Approches
Trois possibilités Demander aux experts du domaine:
Surtout valable pour le graphe Approche statistique
Calcul du maximum de vraisemblance Approche bayésienne
Distribution des paramètres ou de la structure postérieurement à l’observation des données
Exemple
Pile FaceComment estimer la probabilité ?
p
p f
Fréquence
Bayes
p X p f k p X p f p( ( , )) . ( ( , ) ). ( )
p X p f k pp f( ( , )) . ( ) . ( ) 1
Apprentissage de paramètres
La structure est donnée
Le jeu de paramètres à estimer s’en déduit
X Y
Z
1 1 1
1 2 1
2 1 1
2 2 1
3 1 1
3 1 2
3 1 3
3 1 4
3 2 1
3 2 2
, ,
, ,
, ,
, ,
, ,
, ,
, ,
, ,
, ,
, ,
p X V
p X F
p Y V
p Y F
p Z V X V Y V
p Z V X V Y F
p Z V X F Y V
p Z V X F Y F
p Z F X V Y V
p Z F X V Y F
3 2 3
3 2 4
, ,
, ,
p Z F X F Y V
p Z F X F Y F
Apprentissage statistique de paramètres
Approche Maximum de vraisemblance
Résultat : fréquences
D i j k i j kk
r
j
q
i
n
N gii
, , , ,. lo
111
i jMV
Di j
i j
,,arg max
,
i j k
MV i j k
i j
N
N, ,
, ,
,
Apprentissage bayésien de paramètres
Formule générale
A Posteriori = Vraisemblance. A Priori
P P P D D .
Résultat dépend de la probabilité a priori cas de Dirichlet
i j k
MAP i j k i j k
i j i j
N
N, ,, , , ,
, ,
Apprentissage statistique de structure
Contraindre la structure Cas général : ? Cas de l’arbre
Théorème de Chow et Liu Arbre couvrant de poids maximal
W X X N x x
N x x
N x N xi j i
kjk
k k
ik
jk
ik
jk
i j
i j
i j
i j
, , . log,
.,
Apprentissage bayésien de structure
Même principe général
Problème Distribution des structures Calcul de P(M|D) Recherche (4.1018 structures possibles pour
dix variables)
M M DMAP
M= Pargmax
Algorithme K2
L’apprentissage vu comme inférence
cas 1
cas 2
cas n
modèle
Conclusions
Avantages Formalisme unifié Apprentissage et apprentissage incrémental Données incomplètes Requêtes d’inférence multiples
Limites Complexité : inférence et apprentissage sont NP-
complets ! Lisibilité Probabilités ?
ExempleQuestionnaire adaptatif (Crédit en ligne)
Vendre sur Internet Risque de déconnexion
Accélérer le processus de vente Vente de crédit
Risque d’impayé Obtenir des informations sur le client
Compromis à trouver Variable-clé = longueur du questionnaire
Démarche
Utiliser un réseau bayésien pour : Créer un modèle de score Guider le questionnaire
Poser les questions les plus utiles En fonction des réponses obtenues
sitfam
revenu
sithab
score
nbenf ancban
âge
Questionnaire adaptatif
Principe Un score d'acceptation (proba MP) définitif est fixé (S1),
par exemple 0.06 Un score de rejet définitif est fixé (S2), par exemple 0.20
Le questionnaire adaptatif fonctionne comme suit :
TantQue la proba MP est comprise entre S1 et S2, Faire
Parmi les questions non encore posées, déterminer celle apportant le plus d'information
Poser la question
Calculer la nouvelle proba MP
Fin TantQue
Résultats
Nombre moyen de questions posées : 9 Questionnaires complets = 35% Nombre moyen de questions
(incomplets) = 7 Erreurs = 4%
Erreur BP = 4% Erreur MP = 4%