Download - La classification

La classification

Plan

Définition et Objectifs Analyse discriminante Régression logistique Arbres de décision Réseaux bayésiens Exemple

Définition et Objectifs

Prévoir l’appartenance à une « classe »non observée à partir de variables observées

Rappel sur la terminologie (Stat/Marketing) Applications typiques

Scoring de risque Connaissant les caractéristiques individuelles d’un emprunteur,

quel est le risque qu’il ne rembourse pas son crédit ? Scoring marketing

A qui envoyer le mailing de lancement d’un nouveau produit ?

Caractérisation

Un problème supervisé (par opposition à la segmentation ou à l’association)

Deux utilisations : Descriptive : Déterminer les “règles” de séparation Décisionnelle : Attribuer un nouvelle individu à une classe.

Utilisation descriptive Problème de type géométrique

Utilisation décisionnelle Problème de type probabiliste. La nature fondamentale du

problème est un calcul de probabilité conditionnelle : P(Incident|Caractéristiques) P(RéponseMailing|…)

Caractérisation (suite)

Les variables observées peuvent être Qualitatives ou quantitatives

La variable à prévoir est binaire (Oui/Non) ou discrète Le modèle est mis au point sur un ensemble de

données où toutes les variables sont observées (y compris la classe)

Exemple : Score de crédit Données : Historique de dossiers de crédit Variables explicatives : CSP, Age, Revenus, Situation

Familiale, etc. Variable à prévoir : Incident de remboursement

Techniques disponibles

Analyse factorielle discriminante Modèle logit/probit Arbres de décision Réseaux bayésiens Réseaux neuronaux

Analyse factorielle discriminante

Analyse discriminante

Méthode géométrique (descriptive) Basée uniquement sur une notion de

distance Maximisation du rapport Inertie

Interclasse / Inertie totale

Principe de l’analyse discriminante

Axe 1

Axe 2

Chercher le meilleur axe de séparation

Axe Optimal

Régression logistique

Cadre théorique

On suppose que la classe détermine la distribution conditionnelle des variables observées

fj(x) est la densité de probabilité de x pour les individus

du groupe j.

Observant un point de coordonnées (x1, x2, …, xp) la probabilité d’appartenir à un groupe j est pj.fj(x)/pj.fj(x)

On affecte le point au groupe de probabilité a posteriori maximale, i.e. à celui pour lequel pj.fj(x) est maximal

Classe

x1 x2 xn

Méthodes de résolution

Méthodes paramétriques On choisit une famille paramétrée de lois

de probabilité pour fj(x) Les observations permettent d’estimer les

paramètres Méthodes non paramétriques

Variantes de la méthode du noyau

Cas simple

Hypothèses On considère deux classes, et f1(x) et f2(x) suivent

une loi normale Les matrices de variance/covariance sont

identiques pour les deux classes Résultat

On peut calculer un score s(x) fonction linéaire des variables x.

La probabilité d’appartenance au groupe 1 est alors p=1/(1+exp(-s(x)))

La régression logistique

On part de la forme obtenue précédemment p=1/(1+exp(-s(x)))

Qui se transforme en :s(x)=ln(p/1-p)

s(x) est une combinaison linéaire des xi

s(x)=0+ 1.x1+ 1.x2+…+ 1.xn

Ses coefficients i sont estimés par le MV

L=∏iC1f1(xi) ∏iC2f2(xi)

Arbres de décision

Arbres de décision

Une méthode de régression Basée sur la théorie de l’information Fonctionnant pour des variables continues ou

discrètes Recherche itérative de variables

discriminantes Produisant des modèles faciles à interpréter

(sous forme de règles SI … ALORS … SINON)

Principe

Un arbre de décision est construit récursivement

En recherchant à chaque fois le critère qui fait gagner le plus d’ « ordre »

Utilisation d’un arbre de décision

Non

Oui

Rayon < a ?

Ranger la boule dans la classe « bleue »

Masse < b ?

Non

Oui

Ranger la boule dans la classe « rouge »

Ranger la boule dans la classe « bleue »

Noeud

Feuille

R < a ?

SI RA ALORSLa boule est bleue

SINONSI M b ALORS

La boule est rougeSINON

La boule est bleue

Construction d’un arbre de décision

Théorie de l’information (Shannon, 1948)

…AAAAAAAA…

A

…AABABABBA…

??

p(A)=1p(B)=0

p(A)=0.5p(B)=0.5

Entropie

Entropie = mesure du désordre Cas de deux événements

S p pii

i .log

S p p p p 1 1 2 2.log .log

P10

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0 10 20 30 40 50 60 70 80 90 100

S

Algorithme C4.5

C4.5Si E ne contient que des éléments de la même classe

Terminer

SinonTrouver le test T qui fasse gagner le plus

d’entropieT sépare E en E1 et E2 : Appliquer C4.5 à E1 et

E2

Exemple d’arbre obtenu

Si Ancienneté Bancaire = 0 Risque Elevé

Sinon (Ancienneté Bancaire > 0) Si Revenus <=4 Si Allocations <=2 Si DateEmbaucheConjoint = 0 Si DateEmbauche <= 3 Risque Elevé Sinon (DateEmbauche > 3) Risque Faible Sinon (DateEmbaucheConjoint > 0) Risque Faible Si Allocations >2 Risque Elevé Sinon (Revenus > 4) Risque Faible

Réseaux bayésiens

Les réseaux bayésiens

Introduction L’inférence ou le calcul de P(X|e) L’apprentissage ou le calcul de P Applications des réseaux bayésiens Conclusion

Une représentation graphique de la causalité

A

B

A B

V V

F V

F F

BA

S’il existe une relation causale de A vers B, toute information sur A peut modifier la connaissance que j’ai de B, et, réciproquement, toute information sur B peut modifier la connaissance que j’ai de A.

L’information ne circule pas seulement dans le sens des flèches

Sherlock Holmes & Thomas Bayes

Ce matin-là, alors que le temps est clair et sec, M. Holmes sort de sa maison. Il s’aperçoit que la pelouse de son jardin est humide. Il se demande alors s’il a plu pendant la nuit, ou s’il a simplement oublié de débrancher son arroseur automatique. Il jette alors un coup d’œil à la pelouse de son voisin, M. Watson, et s’aperçoit qu’elle est également humide. Il en déduit alors qu’il a probablement plu, et il décide de partir au travail sans vérifier son arroseur automatique

Modèle de causalité

A P

J V

A J’ai oublié de débrancher mon arroseur automatiqueP Il a plu pendant cette nuitJ L’herbe de mon jardin est humideV L’herbe du jardin de mon voisin est humide

A P

J V

Si j’ai oublié de débrancher mon arroseur automatique, l’herbe de mon jardin est humide

A P

J V

S’il a plu pendant la nuit, l’herbe de mon jardin est humide. S’il a plu pendant la nuit, l’herbe du jardin de mon voisin est également humide A P

J V

Utilisation du modèle

La connaissance de J renforce la croyance en l’une des deux causes A ou P

A P

J V

A P

J V

La connaissance de V augmente la croyance en la cause P. Par rapport à l’état précédent, la cause A devient moins plausible

Le cas général

ZX Y

ZX Y

ZX Y

ZX Y

Connexion convergenteX et Y causent Z

Connexion en sérieX cause Z, Z cause Y

Connexion divergenteZ cause X et Y.

Circulation de l’information (1)

ZX Y

Z0X Y

?X Y

L’information ne peut circuler de X à Y que si

Z est connu.

X = tremblement de terreY = cambriolageZ = alarme

?X Y

Z0X Y

ZX Y



Z n’est pas connu.

X = ensoleillementY = prix du bléZ = récolte

ZX Y

?X Y

Z0X Y



Z n’est pas connu.

X = la pelouse de mon jardinest humideY = la pelouse de mon voisinest humideZ = il a plu cette nuit.

d-séparation (blocage)

On dira que X et Y sont d-séparés par Z si pour tous les chemins entre X et Y, l’une au moins des deux conditions suivantes est vérifiée :

Le chemin converge en un nœud W, tel que WZ, et W n’est pas une cause directe de Z.

Le chemin passe par Z, et est soit divergent, soit en série au nœud Z.

On notera X|Z|Y

d-séparation : exemple

D

E

A

B G

C F

A|B|D :

Le chemin A-B-D est en série en B ( B ).

Le chemin A-C-D est convergent en C ( C ).

A|D|E :

Tous les chemins de A à E passent par D.

Le chemin A-B-D-E est en série en D (B D E).

Le chemin A-C-D-E est divergent en D (C D E).

Une représentation probabiliste associée

• Un nœud = une variable aléatoire

• Si A n’a aucune cause directe, nous devrons définir p(A), c’est-à-dire les deux nombres p(A=Vrai) et p(A=Faux).

• Si B a une seule cause directe A, nous devrons définir p(B|A), c’est-à-dire les quatre nombres p(B=V|A=V), , etc.

• Si C a deux causes directes A et B nous devrons définir p(C|A,B), c’est-à-dire les huit nombres p(C=V|A=V, B=V) , etc.

Retour à l’exemple (1)

A P

J V

Evénement Probabilité Commentaire

A V 0.4 M. Holmes oublie assez souvent de débrancher son arroseur automatique

A F 0.6 P V 0.4 La région est relativement pluvieuse P F 0.6

Probabilités inconditionnelles


AV AF PV PF PV PF

J V 1 1 1 0 J F 0 0 0 1

PV PF VV 1 0 VF 0 1

A P

J V

Probabilités conditionnelles


Ce matin-là, alors que le temps est clair et sec, M. Holmes sort de sa maison. Il s’aperçoit que la pelouse de son jardin est humide.

Il se demande alors s’il a plu pendant la nuit, ou s’il a simplement oublié de débrancher son arroseur automatique. Il jette alors un coup d’œil à la pelouse de son voisin, M. Watson, et s’aperçoit qu’elle est également humide.

Il en déduit alors qu’il a probablement plu, et il décide de partir au travail sans vérifier son arroseur automatique.

Comparer

p(A=V|J=V)etp(P=V|J=V)

Comparer

p(A=V|J=V, V=V) et p(P=V|J=V, V=V)

0.625

0.625

0.4

1


A et P sont d-séparés Si J est connu,

l’information peut circuler de A à P (AJP est une connexion convergente)

A et P sont indépendants

P(A=F et P=F|J=V) = 0 P(A=F|J=V) = 0.375 P(P=F|J=V) = 0.375 A et P ne sont pas

indépendants conditionnellement à J

A P

J V

Résumé

La transposition d’un graphe causal en espace probabilisé conduit à des résultats conformes au raisonnement intuitif que l’on peut mener directement sur ce graphe

Ces résultats sont quantitatifs Les calculs mis en œuvre, même sur des cas très

simples, sont lourds Les propriétés graphiques (d-séparation) peuvent être

mises en correspondance avec les propriétés d’indépendance de l’espace probabilisé associé.

Réseaux bayésiens : définition

Un réseau bayésien est défini par un graphe acyclique orienté G = (V,E) , où V est l’ensemble

des nœuds de G, et E l’ensemble des arcs de G un espace probabilisé fini (Z,P) un ensemble de variables aléatoires correspondant aux

nœuds du graphe, telles que

p V V V p V C Vni n

i i( , ,..., ) ( ( )),

1 21

Théorème fondamental

Soit B=(G,P) un réseau bayésien Si X, Y, Z sont des ensembles de

nœuds tels que X et Y sont d-séparés dans G par Z, alors

X et Y sont indépendants conditionnellement à Z

Inférence dans les réseaux bayésiens

Inférence = Révision des probabilités Calculer P(X|e) La complexité dépend de la complexité

du réseau

Inférence : approche intuitive

BA C

Cas d’une chaîne Calculer P(C|

A=Vrai) ?p A B C p C B p B A p A( , , ) ( ). ( ). ( )

p A B C p C A B p B A p A( , , ) ( , ). ( ). ( )

p C A B p C B( , ) ( )

p C A p C A B p B AB

( ) ( , ). ( )

p C A p C B p B AB

( ) ( ). ( )Th. Bayes

déf Cond

déf RB

Inférence : approche intuitive (suite)

C

A B E

D

A B

B C

B D

E XOR C D

( , )

Calculer P(E|A=Faux) ?

Inférence : conditionnement

p E V A F( ) ?

p E V A F B V p B V A F( , ) * ( ) p E V A F B F p B F A F( , ) * ( )

C

A = F B E

D

B = V C

A = F E

DB = V

B = F C

A = F E

DB = F

+

Inférence : aspects théoriques

Problème NP-complet dans le cas général Méthodes simples (réseaux sans boucles) Méthodes « graphiques » (réseaux avec

boucles) Méthodes approchées (réseaux de grande taille)

Inférence dans les réseaux sans boucle

Polyarbre

Arbre

Chaîne

Principe

X X

P X e Amont X Aval X .

Inférence dans les réseaux avec boucle

Transformation duréseau bayésien

P(X|e)

Propagation dansl’arbre de regroupement

Inférence dans leréseau bayésien

A quoi sert un réseau bayésien ?

Inférence = raisonnement à partir de données partielles

Exemple d’application = diagnostic Médical Autre : évaluation de risque, scoring, etc.

Questions

1. D’où viennent les probabilités ?2. D’où vient le graphe

Réponses

1. Apprentissage de paramètres La structure étant supposée connue, Utiliser une base de cas pour déterminer

les tables de probabilités

2. Apprentissage de structure Utiliser une base de cas pour déterminer

les arcs du réseau

Approches

Trois possibilités Demander aux experts du domaine:

Surtout valable pour le graphe Approche statistique

Calcul du maximum de vraisemblance Approche bayésienne

Distribution des paramètres ou de la structure postérieurement à l’observation des données

Exemple

Pile FaceComment estimer la probabilité ?

p

p f

Fréquence

Bayes

p X p f k p X p f p( ( , )) . ( ( , ) ). ( )

p X p f k pp f( ( , )) . ( ) . ( ) 1

Apprentissage de paramètres

La structure est donnée

Le jeu de paramètres à estimer s’en déduit

X Y

Z

1 1 1

1 2 1

2 1 1

2 2 1

3 1 1

3 1 2

3 1 3

3 1 4

3 2 1

3 2 2

, ,

, ,

, ,

, ,

, ,

, ,

, ,

, ,

, ,

, ,

p X V

p X F

p Y V

p Y F

p Z V X V Y V

p Z V X V Y F

p Z V X F Y V

p Z V X F Y F

p Z F X V Y V

p Z F X V Y F

3 2 3

3 2 4

, ,

, ,

p Z F X F Y V

p Z F X F Y F

Apprentissage statistique de paramètres

Approche Maximum de vraisemblance

Résultat : fréquences

D i j k i j kk

r

j

q

i

n

N gii

, , , ,. lo

111

i jMV

Di j

i j

,,arg max

,

i j k

MV i j k

i j

N

N, ,

, ,

,

Apprentissage bayésien de paramètres

Formule générale

A Posteriori = Vraisemblance. A Priori

P P P D D .

Résultat dépend de la probabilité a priori cas de Dirichlet

i j k

MAP i j k i j k

i j i j

N

N, ,, , , ,

, ,

Apprentissage statistique de structure

Contraindre la structure Cas général : ? Cas de l’arbre

Théorème de Chow et Liu Arbre couvrant de poids maximal

W X X N x x

N x x

N x N xi j i

kjk

k k

ik

jk

ik

jk

i j

i j

i j

i j

, , . log,

.,

Apprentissage bayésien de structure

Même principe général

Problème Distribution des structures Calcul de P(M|D) Recherche (4.1018 structures possibles pour

dix variables)

M M DMAP

M= Pargmax

Algorithme K2

L’apprentissage vu comme inférence

cas 1

cas 2

cas n

modèle

Conclusions

Avantages Formalisme unifié Apprentissage et apprentissage incrémental Données incomplètes Requêtes d’inférence multiples

Limites Complexité : inférence et apprentissage sont NP-

complets ! Lisibilité Probabilités ?

ExempleQuestionnaire adaptatif (Crédit en ligne)

Vendre sur Internet Risque de déconnexion

Accélérer le processus de vente Vente de crédit

Risque d’impayé Obtenir des informations sur le client

Compromis à trouver Variable-clé = longueur du questionnaire

Démarche

Utiliser un réseau bayésien pour : Créer un modèle de score Guider le questionnaire

Poser les questions les plus utiles En fonction des réponses obtenues

sitfam

revenu

sithab

score

nbenf ancban

âge

Questionnaire adaptatif

Principe Un score d'acceptation (proba MP) définitif est fixé (S1),

par exemple 0.06 Un score de rejet définitif est fixé (S2), par exemple 0.20

Le questionnaire adaptatif fonctionne comme suit :

TantQue la proba MP est comprise entre S1 et S2, Faire

Parmi les questions non encore posées, déterminer celle apportant le plus d'information

Poser la question

Calculer la nouvelle proba MP

Fin TantQue

Résultats

Nombre moyen de questions posées : 9 Questionnaires complets = 35% Nombre moyen de questions

(incomplets) = 7 Erreurs = 4%

Erreur BP = 4% Erreur MP = 4%

Download - La classification

Top Related