apprentissage arti ciel et fouille de donn ees

73
Apprentissage Artificiel et fouille de donn´ ees Arbres de d´ ecision Jamal Atif, Universit´ e Paris Dauphine CDS Universit´ e Paris-Dauphine 2015-2016 Jamal Atif, Universit´ e Paris Dauphine (Universit´ ISI-3 2015-2016 1 / 73

Upload: others

Post on 26-Nov-2021

3 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Apprentissage Arti ciel et fouille de donn ees

Apprentissage Artificiel et fouille de donneesArbres de decision

Jamal Atif, Universite Paris Dauphine

CDS

Universite Paris-Dauphine

2015-2016

Jamal Atif, Universite Paris Dauphine (Universite Paris-Dauphine)ISI-3 2015-2016 1 / 73

Page 2: Apprentissage Arti ciel et fouille de donn ees

Introduction

Plan

1 Introduction

2 Arbres de decisionChoix de l’attribut discriminantAlgorithme CARTAlgorithme C4.5

Jamal Atif, Universite Paris Dauphine (Universite Paris-Dauphine)ISI-3 2015-2016 2 / 73

Page 3: Apprentissage Arti ciel et fouille de donn ees

Introduction

Classification

Examiner les caracteristiques d’un objet et lui attribuer une classe (un champparticulier a valeurs discretes).

Etant donnee une collection d’enregistrements (ensembled’apprentissage).

Chaque enregistrement contient un ensemble d’attributs et un de cesattributs est sa classe.

Trouver un modele pour l’attribut classe comme une fonction de lavaleurs des autres attributs

But : permettre d’assigner une classe a des enregistrements inconnus demaniere aussi precise que possible.

Un ensemble de test est utilise pour determiner la precision du modele.

Jamal Atif, Universite Paris Dauphine (Universite Paris-Dauphine)ISI-3 2015-2016 3 / 73

Page 4: Apprentissage Arti ciel et fouille de donn ees

Introduction

Classification : exemple

Jamal Atif, Universite Paris Dauphine (Universite Paris-Dauphine)ISI-3 2015-2016 4 / 73

Page 5: Apprentissage Arti ciel et fouille de donn ees

Arbres de decision

Plan

1 Introduction

2 Arbres de decisionChoix de l’attribut discriminantAlgorithme CARTAlgorithme C4.5

Jamal Atif, Universite Paris Dauphine (Universite Paris-Dauphine)ISI-3 2015-2016 5 / 73

Page 6: Apprentissage Arti ciel et fouille de donn ees

Arbres de decision

Arbres de decision

Definition

Ensemble de regles de classification basant leur decision sur des tests associesaux attributs, organises de maniere arborescente.

Motivation

Produire des classifications comprehensibles par l’utilisateur (versus les autresmethodes)

Jamal Atif, Universite Paris Dauphine (Universite Paris-Dauphine)ISI-3 2015-2016 6 / 73

Page 7: Apprentissage Arti ciel et fouille de donn ees

Arbres de decision

Arbres de decision

Principe

Predire la valeur d’un attribut(variable cible ou variable exogene) a partird’un ensemble de valeurs d’attributs (variables predictives ou variablesendogenes).

Une methode simple, supervisee, et tres connue de classification et deprediction.

Un arbre est equivalent a un ensemble de regles de decision : un modelefacile a comprendre.

Un arbre est compose :

de noeuds : classes d’individus de plus en plus fines depuis la racine.d’arcs : predicats de partitionnement de la classe source.

Jamal Atif, Universite Paris Dauphine (Universite Paris-Dauphine)ISI-3 2015-2016 7 / 73

Page 8: Apprentissage Arti ciel et fouille de donn ees

Arbres de decision

Arbres de decision

Un arbre de decision est un arbre au sens informatique.

Les noeuds sont reperes par des positions ∈ {1, ...p}∗, ou p est l’aritemaximale des noeuds.

Les noeuds internes sont les noeuds de decision.

Un noeud de decision est etiquete par un test qui peut etre applique achaque description d’un individu d’une population.

Chaque test examine la valeur d’un unique attribut.

Dans les arbres de decision binaires, on omet les labels des arcs.

Les feuilles sont etiquetees par une classe.

Jamal Atif, Universite Paris Dauphine (Universite Paris-Dauphine)ISI-3 2015-2016 8 / 73

Page 9: Apprentissage Arti ciel et fouille de donn ees

Arbres de decision

Arbres de decision : exemple

Decider si un patient est malade ou bien portant selon sa temperature et s’il ala gorge irritee.

Arbre de decision :

2 classes : malade ; bien portant2 variables : temperature, gorge irritee.

Jamal Atif, Universite Paris Dauphine (Universite Paris-Dauphine)ISI-3 2015-2016 9 / 73

Page 10: Apprentissage Arti ciel et fouille de donn ees

Arbres de decision

Arbres de decision

Vocabulaire

Noeud interne, intermediaire ou test (noeud de decision) : chaque noeudintermediaire est defini par un test construit a partir d’une variable. Letest est applicable a toute description d’une instance et generalement untest sur un seul attribut.

Noeud terminal ou feuille : etiquetes par une classe.

Arcs issus d’un noeud interne : reponses possibles au test du noeud.

Chaque noeud interne ou feuille est repere par sa position (i.e. liste desnumeros des arcs qui permettent d’y acceder en partant de la racine).

Arbre de decision et apprentissage :

Tout arbre de decision definit un classifieur.Le classifier se traduit immediatement en terme de regle de decision.

Jamal Atif, Universite Paris Dauphine (Universite Paris-Dauphine)ISI-3 2015-2016 10 / 73

Page 11: Apprentissage Arti ciel et fouille de donn ees

Arbres de decision

Arbres de decision : exemple

Jamal Atif, Universite Paris Dauphine (Universite Paris-Dauphine)ISI-3 2015-2016 11 / 73

Page 12: Apprentissage Arti ciel et fouille de donn ees

Arbres de decision

Arbres de decision : exemple

Jamal Atif, Universite Paris Dauphine (Universite Paris-Dauphine)ISI-3 2015-2016 12 / 73

Page 13: Apprentissage Arti ciel et fouille de donn ees

Arbres de decision

Arbres de decision : exemple

Jamal Atif, Universite Paris Dauphine (Universite Paris-Dauphine)ISI-3 2015-2016 13 / 73

Page 14: Apprentissage Arti ciel et fouille de donn ees

Arbres de decision

Arbres de decision : exemple

Jamal Atif, Universite Paris Dauphine (Universite Paris-Dauphine)ISI-3 2015-2016 14 / 73

Page 15: Apprentissage Arti ciel et fouille de donn ees

Arbres de decision

Arbres de decision : exemple

Jamal Atif, Universite Paris Dauphine (Universite Paris-Dauphine)ISI-3 2015-2016 15 / 73

Page 16: Apprentissage Arti ciel et fouille de donn ees

Arbres de decision

Arbres de decision : exemple

Jamal Atif, Universite Paris Dauphine (Universite Paris-Dauphine)ISI-3 2015-2016 16 / 73

Page 17: Apprentissage Arti ciel et fouille de donn ees

Arbres de decision

Arbres de decision : exemple

Jamal Atif, Universite Paris Dauphine (Universite Paris-Dauphine)ISI-3 2015-2016 17 / 73

Page 18: Apprentissage Arti ciel et fouille de donn ees

Arbres de decision

Arbres de decision : induction

Jamal Atif, Universite Paris Dauphine (Universite Paris-Dauphine)ISI-3 2015-2016 18 / 73

Page 19: Apprentissage Arti ciel et fouille de donn ees

Arbres de decision

Arbres de decision : induction

Plusieurs algorithmes

Algorithme de Hunt (methode de base)

CART

ID3, C4.5

SLIQ, SPRINT

...

Jamal Atif, Universite Paris Dauphine (Universite Paris-Dauphine)ISI-3 2015-2016 19 / 73

Page 20: Apprentissage Arti ciel et fouille de donn ees

Arbres de decision

Arbres de decision : induction

Principe general de construction de l’arbre de decision

Construction de l’arbre en decoupant successivement les donnees en fonctiondes variables predictives.

Soit Dt l’ensemble d’enregistrements (donnees d’apprentissage) qui ameneau noeud t.

Algorithme generique : Segmenter(Dt)

Si tous les enregistrements de Dt appartiennent a la meme classe devariable a predire yt alors t est une feuille labelisee comme ytSi Dt contient des enregistrements appartenant a plusieurs classes :

Pour chaque attribut predictif A, evaluer la qualite de decoupage selon A.Utiliser l’attribut donnant la meilleure decoupe pour decouper l’ensemble dedonnees en sous ensembles.Appliquer la procedure de maniere recursive sur les sous ensembles obtenus.

Jamal Atif, Universite Paris Dauphine (Universite Paris-Dauphine)ISI-3 2015-2016 20 / 73

Page 21: Apprentissage Arti ciel et fouille de donn ees

Arbres de decision

Arbres de decision : induction

Problemes fondamentaux pour construire l’arbre

1 Choix de l’attribut discriminant.

2 Affectation d’un label a une feuille.

3 Arret de la procedure de segmentation (i.e. profondeur de l’arbre). Si unarbre est trop profond, il est trop complexe et trop adapte a l’ensembled’apprentissage, i.e. pas assez generaliste.

4 Choix des bornes de discretisation (i.e. comment decouper les valeursd’un attribut continu).

Jamal Atif, Universite Paris Dauphine (Universite Paris-Dauphine)ISI-3 2015-2016 21 / 73

Page 22: Apprentissage Arti ciel et fouille de donn ees

Arbres de decision

Arbres de decision : construction

Notations

n(p) = nombre d’individus associes a la position p, i.e. au noeud p.

n(k|p) = nombre d’individus appartenant a la classe k en sachant qu’ilssont associes a la position p.

p(k|p) = n(k|p)n(p) = proportion des individus appartenant a la classe k.

Purete d’un noeud

Un noeud est pur si tous les individus associes appartiennent a la meme classe.

Jamal Atif, Universite Paris Dauphine (Universite Paris-Dauphine)ISI-3 2015-2016 22 / 73

Page 23: Apprentissage Arti ciel et fouille de donn ees

Arbres de decision

Arbres de decision : construction

Exemple

But : construire un arbre de decision qui classe et determine lescaracteristiques des clients qui consultent leurs comptes sur internet.

Variables :

M : moyenne des montants sur le compteA : age du clientR : lieu de residence du clientE : le client fait des etudes superieures ?I : le client consulte ses comptes sur Internet ?

Jamal Atif, Universite Paris Dauphine (Universite Paris-Dauphine)ISI-3 2015-2016 23 / 73

Page 24: Apprentissage Arti ciel et fouille de donn ees

Arbres de decision

Arbres de decision : construction

Exemple

Jamal Atif, Universite Paris Dauphine (Universite Paris-Dauphine)ISI-3 2015-2016 24 / 73

Page 25: Apprentissage Arti ciel et fouille de donn ees

Arbres de decision

Arbres de decision : construction

Construction descendante.

Au debut, tous les individus sont regroupes.

Est-ce que le noeud initial (3, 5) est un noeud terminal ou est-ce qu’onpeut construire un test sur une variable qui permettra de mieuxdiscriminer les individus ?

Quatre constructions possibles suivant les variables Montant (M), Age(A), Residence (R), et Etudes (E).

Jamal Atif, Universite Paris Dauphine (Universite Paris-Dauphine)ISI-3 2015-2016 25 / 73

Page 26: Apprentissage Arti ciel et fouille de donn ees

Arbres de decision

Arbres de decision : construction

Construction selon la variable Montant (M)

Jamal Atif, Universite Paris Dauphine (Universite Paris-Dauphine)ISI-3 2015-2016 26 / 73

Page 27: Apprentissage Arti ciel et fouille de donn ees

Arbres de decision

Arbres de decision : construction

Construction selon la variable Age (A)

Jamal Atif, Universite Paris Dauphine (Universite Paris-Dauphine)ISI-3 2015-2016 27 / 73

Page 28: Apprentissage Arti ciel et fouille de donn ees

Arbres de decision

Arbres de decision : construction

Construction selon la variable Residence (R)

Jamal Atif, Universite Paris Dauphine (Universite Paris-Dauphine)ISI-3 2015-2016 28 / 73

Page 29: Apprentissage Arti ciel et fouille de donn ees

Arbres de decision

Arbres de decision : construction

Construction selon la variable Etudes (E)

Jamal Atif, Universite Paris Dauphine (Universite Paris-Dauphine)ISI-3 2015-2016 29 / 73

Page 30: Apprentissage Arti ciel et fouille de donn ees

Arbres de decision

Arbres de decision : construction

Quel test choisir ?

Un test est interessant s’il permet une bonne discrimination.

Sur R, aucune discrimination sur aucune branche : on ne gagne rien avecce test !

Sur A, deux noeuds sur trois sont purs.

Comment ecrire cela de maniere algorithmique et mathematique ?

Jamal Atif, Universite Paris Dauphine (Universite Paris-Dauphine)ISI-3 2015-2016 30 / 73

Page 31: Apprentissage Arti ciel et fouille de donn ees

Arbres de decision

Arbres de decision : construction

Degre de desordre (melange)

On a besoin de comparer les differents choix possibles.

On introduit des fonctions qui permettent de mesurer le degre de desordredans les differentes classes (purete d’un noeud)

Proprietes des fonctions (degre de melange ou desordre) :

Le minimum est atteint lorsque tous les noeuds sont purs : tous lesexemples ou individus sont dans une meme classe.Le maximum est atteint lorsque les individus sont equirepartis entre lesclasses.

Exemples de fonctions :

Indice de GiniEntropie...

Jamal Atif, Universite Paris Dauphine (Universite Paris-Dauphine)ISI-3 2015-2016 31 / 73

Page 32: Apprentissage Arti ciel et fouille de donn ees

Arbres de decision Choix de l’attribut

Plan

1 Introduction

2 Arbres de decisionChoix de l’attribut discriminantAlgorithme CARTAlgorithme C4.5

Jamal Atif, Universite Paris Dauphine (Universite Paris-Dauphine)ISI-3 2015-2016 32 / 73

Page 33: Apprentissage Arti ciel et fouille de donn ees

Arbres de decision Choix de l’attribut

Choix de l’attribut discrimimant

Comment specifier la condition de test ?

Depend du type d’attribut

NominalOrdinalContinu

Depend du nombre de facon de diviser

Division en 2Division en n.

Jamal Atif, Universite Paris Dauphine (Universite Paris-Dauphine)ISI-3 2015-2016 33 / 73

Page 34: Apprentissage Arti ciel et fouille de donn ees

Arbres de decision Choix de l’attribut

Choix de l’attribut discrimimant

Attribut nominal

Division multiple : autant de partitions que de valeurs distinctes.

Division binaire : Division des valeurs en deux sous-ensembles ⇒ Trouverle partitionnement optimal.

Jamal Atif, Universite Paris Dauphine (Universite Paris-Dauphine)ISI-3 2015-2016 34 / 73

Page 35: Apprentissage Arti ciel et fouille de donn ees

Arbres de decision Choix de l’attribut

Choix de l’attribut discrimimant

Attribut ordinal

Division multiple : autant de partitions que de valeurs distinctes.

Division binaire : Division des valeurs en deux sous-ensembles ⇒ Trouverle partitionnement optimal.

Jamal Atif, Universite Paris Dauphine (Universite Paris-Dauphine)ISI-3 2015-2016 35 / 73

Page 36: Apprentissage Arti ciel et fouille de donn ees

Arbres de decision Choix de l’attribut

Choix de l’attribut discrimimant

Attribut continu

Differentes manieres de discretiser :

Discretisation pour former un attribut ordinal.

Decision binaire

Jamal Atif, Universite Paris Dauphine (Universite Paris-Dauphine)ISI-3 2015-2016 36 / 73

Page 37: Apprentissage Arti ciel et fouille de donn ees

Arbres de decision Choix de l’attribut

Choix de l’attribut discrimimant

Critere de choix de l’attribut et de la division

Jamal Atif, Universite Paris Dauphine (Universite Paris-Dauphine)ISI-3 2015-2016 37 / 73

Page 38: Apprentissage Arti ciel et fouille de donn ees

Arbres de decision Choix de l’attribut

Choix de l’attribut discrimimant

On privilegie les noeuds avec des distributions homogenes

Mesure du desordre d’un noeud

Indice de Gini

Entropie

Taux de classification

Jamal Atif, Universite Paris Dauphine (Universite Paris-Dauphine)ISI-3 2015-2016 38 / 73

Page 39: Apprentissage Arti ciel et fouille de donn ees

Arbres de decision Choix de l’attribut

Choix de l’attribut discrimimant

Jamal Atif, Universite Paris Dauphine (Universite Paris-Dauphine)ISI-3 2015-2016 39 / 73

Page 40: Apprentissage Arti ciel et fouille de donn ees

Arbres de decision Choix de l’attribut

Choix de l’attribut discrimimant

t = le test (i.e. la variable)

n = le nombre de modalites de t.

i = la fonction pour mesurer le degre de desordre.

Fonction de gain

Gain(p, t) = i(p)−n∑

j=1

Pji(pj)

avec Pj la proportion des individus a la position p qui vont en position pj

On cherche le test qui maximise le gain.

Jamal Atif, Universite Paris Dauphine (Universite Paris-Dauphine)ISI-3 2015-2016 40 / 73

Page 41: Apprentissage Arti ciel et fouille de donn ees

Arbres de decision Choix de l’attribut

Choix de l’attribut discrimimant

Mesure du desordre : GINI

Pour un noeud t donne :

GINI(t) = 1−∑j

p(j|t)2

avec p(j|t) la frequence relative de la classe j au noeud t.

Maximum : 1− 1nc

quand tous les enregistrements sont distribues demaniere egale parmi toutes les classes.

Minimum : 0.0 quand tous les enregistrements appartiennent a une classe.

Jamal Atif, Universite Paris Dauphine (Universite Paris-Dauphine)ISI-3 2015-2016 41 / 73

Page 42: Apprentissage Arti ciel et fouille de donn ees

Arbres de decision Choix de l’attribut

Choix de l’attribut discrimimant

Mesure du desordre : GINI

GINI(t) = 1−∑j

p(j|t)2

Exemples

Jamal Atif, Universite Paris Dauphine (Universite Paris-Dauphine)ISI-3 2015-2016 42 / 73

Page 43: Apprentissage Arti ciel et fouille de donn ees

Arbres de decision Choix de l’attribut

Choix de l’attribut discrimimant

Division basee sur l’indice GINI

Utilise dans les algorithmes CART, SPLIQ et SPRINT

Quand un noeud p est divise en k partitions, la qualite de la division estcalculee par

GINIsplit =

k∑i=1

ni

nGINI(i)

avec

ni nombre d’enregistrements au noeud i.n nombre d’enregistrements au noeud p.

Jamal Atif, Universite Paris Dauphine (Universite Paris-Dauphine)ISI-3 2015-2016 43 / 73

Page 44: Apprentissage Arti ciel et fouille de donn ees

Arbres de decision Choix de l’attribut

Choix de l’attribut discrimimant

Attributs binaires : indice de Gini

Jamal Atif, Universite Paris Dauphine (Universite Paris-Dauphine)ISI-3 2015-2016 44 / 73

Page 45: Apprentissage Arti ciel et fouille de donn ees

Arbres de decision Choix de l’attribut

Choix de l’attribut discrimimant

Attributs categoriques : indice de Gini

Jamal Atif, Universite Paris Dauphine (Universite Paris-Dauphine)ISI-3 2015-2016 45 / 73

Page 46: Apprentissage Arti ciel et fouille de donn ees

Arbres de decision Choix de l’attribut

Choix de l’attribut discrimimant

Attributs continus : indice de Gini

Pour chaque attribut

Trier les attributs par valeurs

Scanner lineairement les valeurs , en calculant l’indice de Gini

Choisir la position qui a le plus petit indice de Gini

Jamal Atif, Universite Paris Dauphine (Universite Paris-Dauphine)ISI-3 2015-2016 46 / 73

Page 47: Apprentissage Arti ciel et fouille de donn ees

Arbres de decision Choix de l’attribut

Choix de l’attribut discrimimant

Entropie

Entropie a un noeud t :

Entropy(t) = −∑j

p(j|t) log p(j|t)

Mesure de l’homogeneite d’un noeud :

Maximum : log nc quand les enregistrements sont distribues de maniereegal parmi les classes.

Minimum : 0.0 quand tous les enregistrements appartiennent a une classe

Jamal Atif, Universite Paris Dauphine (Universite Paris-Dauphine)ISI-3 2015-2016 47 / 73

Page 48: Apprentissage Arti ciel et fouille de donn ees

Arbres de decision Choix de l’attribut

Choix de l’attribut discrimimant

Entropie

Entropy(t) = −∑j

p(j|t) log p(j|t)

Jamal Atif, Universite Paris Dauphine (Universite Paris-Dauphine)ISI-3 2015-2016 48 / 73

Page 49: Apprentissage Arti ciel et fouille de donn ees

Arbres de decision Choix de l’attribut

Choix de l’attribut discrimimant

Retour sur l’exemple

Tester sur la variable Montant (M) : on considere le noeud 0, (3, 5) aveccomme fonction l’entropie.

Jamal Atif, Universite Paris Dauphine (Universite Paris-Dauphine)ISI-3 2015-2016 49 / 73

Page 50: Apprentissage Arti ciel et fouille de donn ees

Arbres de decision Choix de l’attribut

Choix de l’attribut discrimimant

Retour sur l’exemple

Gain(0,M) = i(0)− (3

8i(1) +

3

8i(2) +

2

8i(3))

Entropie(1) = −1

3log

1

3− 2

3log

2

3= 0.64

Entropie(2) = −2

3log

2

3− 1

3log

1

3= 0.64

Entropie(3) = −2

2log

2

2= 0

Gain(0,M) = Entropie(0)− 0.48

Jamal Atif, Universite Paris Dauphine (Universite Paris-Dauphine)ISI-3 2015-2016 50 / 73

Page 51: Apprentissage Arti ciel et fouille de donn ees

Arbres de decision Choix de l’attribut

Choix de l’attribut discrimimant

Retour sur l’exemple

on considere le noeud 0, (3, 5) avec comme fonction l’entropie.

Choix de l’attribut age (A)

Jamal Atif, Universite Paris Dauphine (Universite Paris-Dauphine)ISI-3 2015-2016 51 / 73

Page 52: Apprentissage Arti ciel et fouille de donn ees

Arbres de decision Choix de l’attribut

Choix de l’attribut discrimimant

Construction de l’arbre.

Noeud terminal

Lorsque (presque) tous les exemples en ce noeud sont dans la meme classe.

Lorsqu’il n’y a plus d’attributs a tester a ce niveau.

Quelle classe a un noeud terminal ?

Classe majoritaire.

Classe la plus representee si egalite.

Jamal Atif, Universite Paris Dauphine (Universite Paris-Dauphine)ISI-3 2015-2016 52 / 73

Page 53: Apprentissage Arti ciel et fouille de donn ees

Arbres de decision Choix de l’attribut

Choix de l’attribut discrimimant

Retour sur l’exemple

Jamal Atif, Universite Paris Dauphine (Universite Paris-Dauphine)ISI-3 2015-2016 53 / 73

Page 54: Apprentissage Arti ciel et fouille de donn ees

Arbres de decision Choix de l’attribut

Choix de l’attribut discrimimant

Retour sur l’exemple

Suite de la construction

Jamal Atif, Universite Paris Dauphine (Universite Paris-Dauphine)ISI-3 2015-2016 54 / 73

Page 55: Apprentissage Arti ciel et fouille de donn ees

Arbres de decision Choix de l’attribut

Choix de l’attribut discrimimant

Retour sur l’exemple

Suite de la construction

Quel test choisir ?

Calcul du gain pour chaque test.

Jamal Atif, Universite Paris Dauphine (Universite Paris-Dauphine)ISI-3 2015-2016 55 / 73

Page 56: Apprentissage Arti ciel et fouille de donn ees

Arbres de decision Choix de l’attribut

Choix de l’attribut discrimimant

Retour sur l’exemple

Suite de la construction

Jamal Atif, Universite Paris Dauphine (Universite Paris-Dauphine)ISI-3 2015-2016 56 / 73

Page 57: Apprentissage Arti ciel et fouille de donn ees

Arbres de decision Choix de l’attribut

Apprentissage des arbres de decision

Idee : rappel

Diviser recursivement et le plus efficacement possible les individus del’ensemble d’apprentissage par des tests definis a l’aide des variables jusqu’aobtenir des sous ensembles d’individus ne contenant presque que des exemplesappartenant a une meme classe.

Trois operations : rappel

1 Decider si un noeud est terminal, i.e. tous les individus sont dans la memeclasse ou il y a moins d’un certain nombre d’erreurs.

2 Selectionner un test associe a un noeud.

3 Affecter une classe a une feuille.

Les differents algorithmes different par ces trois operations.Objectif : construire un arbre avec la plus petite erreur de classificationpossible

Jamal Atif, Universite Paris Dauphine (Universite Paris-Dauphine)ISI-3 2015-2016 57 / 73

Page 58: Apprentissage Arti ciel et fouille de donn ees

Arbres de decision Choix de l’attribut

Apprentissage des arbres de decision : generalites

Arbre de decision parfait, i.e. tous les exemples sont bien classifies :n’existe pas toujours.

Le meilleur arbre est l’arbre le plus petit parfait.

L’objectif est d’obtenir l’arbre le plus petit possible (facilitant larecherche) tout en etablissant un compromis entre les taux d’erreur surl’ensemble d’apprentissage et sur l’ensemble de test afin de pouvoirgeneraliser.

En pratique : on construit l’arbre en selectionnant les attributs quiminimisent la taille de l’arbre en classant correctement les exemplesd’apprentissage et ensuite on elague certaines branches pour garder unpouvoir de generalisation (quitte a faire augmenter l’erreur sur l’ensembled’apprentissage)..Deux approches :

Eviter une trop grande croissance de l’arbre en arretant sa construction aubon moment.Proceder en deux phases : construire l’arbre completement puis couper lesbranches qui depassent.

Jamal Atif, Universite Paris Dauphine (Universite Paris-Dauphine)ISI-3 2015-2016 58 / 73

Page 59: Apprentissage Arti ciel et fouille de donn ees

Arbres de decision Algorithme CART

Plan

1 Introduction

2 Arbres de decisionChoix de l’attribut discriminantAlgorithme CARTAlgorithme C4.5

Jamal Atif, Universite Paris Dauphine (Universite Paris-Dauphine)ISI-3 2015-2016 59 / 73

Page 60: Apprentissage Arti ciel et fouille de donn ees

Arbres de decision Algorithme CART

Algorithme CART

Genere un arbre de decision binaire.

On suppose predefini un ensemble de tests binaires.1 Variables qualitatives a n modalites.

autant de tests binaires que de partitions en deux classes.2n−1 − 1 tests possibles.

2 Variables quantitatives

Une infinite de decoupage selon des seuils.Le meilleur seuil est choisi par un expert ou de maniere automatique.

On dispose d’un echantillon S decoupe en un ensemble d’apprentissage Aet un ensemble de test T .

Jamal Atif, Universite Paris Dauphine (Universite Paris-Dauphine)ISI-3 2015-2016 60 / 73

Page 61: Apprentissage Arti ciel et fouille de donn ees

Arbres de decision Algorithme CART

Algorithme CART

Phase d’expansion

Entree : ensemble d’apprentissage A

On utilise la fonction Gini.

Decider si un noeud est terminal :Un noeud a la position p est terminal si Gini(p) ≤ s0 ou n(p) ≤ n0 ou s0

et n0 sont des parametres a fixer.

Selectionner un test a associer a un noeud :On choisit le test qui maximise ∆(p, t), avec p une position, t un test etPg, Pd la proportion d’elements qui vont sur la position p1,respectivement p2

∆(p, t) = Gini(p)− (Pg ×Gini(p1) + Pd ×Gini(p2))

Affecter une classe a une feuille : on choisit la classe majoritaire

Sortie : un arbre de decision.

Jamal Atif, Universite Paris Dauphine (Universite Paris-Dauphine)ISI-3 2015-2016 61 / 73

Page 62: Apprentissage Arti ciel et fouille de donn ees

Arbres de decision Algorithme CART

Algorithme CART

Phase d’elaguage

Entree : l’arbre de decision obtenu dans la phase d’expansion.

Construction d’une suite d’arbres t0t1...tk.

On calcule pour chaque tj l’erreur apparente sur l’ensemble T

La suite est donnee par :1 t0 est l’arbre obtenu dans la phase d’expansion.2 tk est une feuille.3 A l’etape ti : pour toute position p de ti, on calcule g(p) et on choisit la

position p qui minimise g(p). L’arbre ti+1 est un elague de ti en position p.

Sortie : l’arbre de la suite dont l’erreur apparente est minimale.

Jamal Atif, Universite Paris Dauphine (Universite Paris-Dauphine)ISI-3 2015-2016 62 / 73

Page 63: Apprentissage Arti ciel et fouille de donn ees

Arbres de decision Algorithme CART

Algorithme CART

Fonction g

Calcul de g(p) : soit up le sous-arbre de ti a la position p et

g(p) =∆app(p)

|up| − 1

, ou ∆app(p) =MC(p)−MC(up)

N(p), nombre d’erreurs supplementaires que commet l’arbre sur

l’echantillon lorsqu’on elague a la position p. |up| − 1 mesure le nombre de feuillessupprimees.

|up| taille de l’arbre up

N(p) est le nombre d’exemples de A associes a p.

MC(p) est le nombre d’exemples de A mal classes a p si on elague ti en position p.

MC(up) est le nombre d’exemples de A associes a p de ti mal classes par up

On choisit la position p pour laquelle g(p) est minimale.

Jamal Atif, Universite Paris Dauphine (Universite Paris-Dauphine)ISI-3 2015-2016 63 / 73

Page 64: Apprentissage Arti ciel et fouille de donn ees

Arbres de decision Algorithme CART

Algorithme CART

Processus ieratif

ti+1 est obtenu a partir de ti, auquel on coupe la branche qui permet un gminimal.

Soit t0, ...tk la suite obtenue, tk est reduit a une feuille.

Selection de l’arbre ti dont le nombre d’erreurs calculees sur l’ensemble devalidation est minimal.

Jamal Atif, Universite Paris Dauphine (Universite Paris-Dauphine)ISI-3 2015-2016 64 / 73

Page 65: Apprentissage Arti ciel et fouille de donn ees

Arbres de decision Algorithme CART

Algorithme CART

Exemple d’elagage

Jamal Atif, Universite Paris Dauphine (Universite Paris-Dauphine)ISI-3 2015-2016 65 / 73

Page 66: Apprentissage Arti ciel et fouille de donn ees

Arbres de decision Algorithme CART

Algorithme CART

Exemple d’elagage

Jamal Atif, Universite Paris Dauphine (Universite Paris-Dauphine)ISI-3 2015-2016 66 / 73

Page 67: Apprentissage Arti ciel et fouille de donn ees

Arbres de decision Algorithme CART

Algorithme CART

Exemple d’elagage

Jamal Atif, Universite Paris Dauphine (Universite Paris-Dauphine)ISI-3 2015-2016 67 / 73

Page 68: Apprentissage Arti ciel et fouille de donn ees

Arbres de decision Algorithme CART

Algorithme CART

Exemple d’elagage

Calculs d’erreurs :

t0 : 0 en apprentissage, 12 en test.

t1 : 14 en apprentissage, 1

2 en test.

t2 : 12 en apprentissage, 1

4 en test.

t3 : 12 en apprentissage, 1

4 en test.

Jamal Atif, Universite Paris Dauphine (Universite Paris-Dauphine)ISI-3 2015-2016 68 / 73

Page 69: Apprentissage Arti ciel et fouille de donn ees

Arbres de decision Algorithme C4.5

Plan

1 Introduction

2 Arbres de decisionChoix de l’attribut discriminantAlgorithme CARTAlgorithme C4.5

Jamal Atif, Universite Paris Dauphine (Universite Paris-Dauphine)ISI-3 2015-2016 69 / 73

Page 70: Apprentissage Arti ciel et fouille de donn ees

Arbres de decision Algorithme C4.5

Algorithme C4.5

Alternative a l’algorithme CART quand la taille de l’echantillon S ne permetpas le decoupage en A et T .

Phase d’expansion (1/2)

Entree : ensemble d’apprentissage A et ensemble de tests n-aires.

On utilise la fonction Entropie

Decider si un noeud est terminal :Un noeud a la position p est terminal si tous les elements associes a cenoeud sont dans une meme classe ou si on ne peut selectionner aucun test.

Selectionner un test a associer a un noeud :

On envisage seulement les tests qui ont au moins deux branches contenantau moins deux elements (parametres pouvant etre modifies).On choisit le test qui maximise le gain en utilisant la fonction entropie.

Jamal Atif, Universite Paris Dauphine (Universite Paris-Dauphine)ISI-3 2015-2016 70 / 73

Page 71: Apprentissage Arti ciel et fouille de donn ees

Arbres de decision Algorithme C4.5

Algorithme C4.5

Phase d’expansion (2/2)

La fonction Gain privilegie les attributs ayant un grand nombre de valeurs. On modifiela fonction en consequence :

Gainratio(p, T ) =Gain(p, T )

Splitinfo(p, T )

avec

Splitinfo(p, T ) = −n∑

j=1

P′(j|p)× log(P

′(j|p))

n est l’arite du test T .P

′(j|p) est la proportion d’exemples presentes a p prenant la jieme valeur

(classe) du test T .

Affecter une classe a une feuille :On attribute la classe majoritaire. Si il n’y a pas d’exemples, on attribue la classemajoritaire du pere.

Sortie : un arbre de decision.

Jamal Atif, Universite Paris Dauphine (Universite Paris-Dauphine)ISI-3 2015-2016 71 / 73

Page 72: Apprentissage Arti ciel et fouille de donn ees

Arbres de decision Algorithme C4.5

Algorithme C4.5

Phase d’elagage

La phase d’elagage est basee sur une heuristique.Ameliorations :

Attributs discrets.

Attributs continus.

Valeurs manquantes.

Jamal Atif, Universite Paris Dauphine (Universite Paris-Dauphine)ISI-3 2015-2016 72 / 73

Page 73: Apprentissage Arti ciel et fouille de donn ees

Arbres de decision Algorithme C4.5

Conclusion

Conclusion sur les arbres de decision

Algorithme de classification supervisee.

Methode statistique non parametrique

Permet de classer un ensemble d’individus decrits par des variablesqualitatives ou quantitatives

Produit les classes les plus homogenes possibles

Jamal Atif, Universite Paris Dauphine (Universite Paris-Dauphine)ISI-3 2015-2016 73 / 73