les arbres de décision (decision trees) - ulb.ac.be · ces méthodes ont pris essentiellement leur...

36
Arbre de Décision 1 Les arbres de décision (decision trees) Christine Decaestecker, ULB Marco Saerens, UCL

Upload: vungoc

Post on 15-Sep-2018

228 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Les arbres de décision (decision trees) - ulb.ac.be · Ces méthodes ont pris essentiellement leur essor dans le cadre des approches ... Utilisation d'un test statistique ... basé

Arbre de Décision 1

Les arbres de décision(decision trees)

Christine Decaestecker, ULBMarco Saerens, UCL

Page 2: Les arbres de décision (decision trees) - ulb.ac.be · Ces méthodes ont pris essentiellement leur essor dans le cadre des approches ... Utilisation d'un test statistique ... basé

Arbre de Décision 2

Arbres de Décision (ou Méthode de Segmentation)

• Origines:Ces méthodes ont pris essentiellement leur essor dans le cadre des approches d'apprentissage automatique (machine learning) en Intelligence Artificielle.

• Particularités (de l'I.A. en général):met l'accent sur sur la convivialité et l'intelligibilité (ou la lisibilité) des résultats => en classification supervisée: sortie de résultats sous la forme de règles logiques de classification:"SI tel ensemble de conditions sur telles variables est satisfait ALORS le cas appartient à telle classe". => résultats plus facilement interprétables et donc exploitables => communication plus aisée avec les spécialistes du domaine traité.

• Ex d'algorithme: ID3 (Inductive Decision Tree) et son successeur C4.5, CART (Classification and Regression Tree), CHAID (Chi-Square Automatic Interaction Detection), QUEST (Quick, Unbiased, Efficient Statistical Trees).

Page 3: Les arbres de décision (decision trees) - ulb.ac.be · Ces méthodes ont pris essentiellement leur essor dans le cadre des approches ... Utilisation d'un test statistique ... basé

Arbre de Décision 3

• Principes: 2 phases – Phase 1: construction: sur base d'un ensemble d'apprentissage, processus

récursif de division (souvent binaire) de l’espace des données en sous-régions de + en + pures en terme de classes (estimé sur base d’un critère).Dans le cas de données numériques 2 approches possibles: séparations parallèles aux axes versus obliques:

=> décomposition d'un problème de classification en une suite de tests (imbriqués) portant sur une variable (parallèle aux axes) ou une combinaison linéaire de plusieurs variables (oblique).

++

++

++ +

+

+

++

+

+

+

o

oo

oo

oo

o

ooo

oooo

o

++

++

+

+ ++

+

++

+

+

+

o

oo

oo

oo

o

ooo

oooo

o

Page 4: Les arbres de décision (decision trees) - ulb.ac.be · Ces méthodes ont pris essentiellement leur essor dans le cadre des approches ... Utilisation d'un test statistique ... basé

Arbre de Décision 4

=> règles de classifications sous forme d'arbres dont chaque extrémité (encore appelée "feuille") indique l'appartenance à une classe.

Ex: Arbre sur variables mixtes (X et T catégorielles, Y et Z numériques):

=> La classification est réalisée en posant une suite de questions relatives àcertaines propriétés du cas considéré.

Classe allouée à une feuille: déterminée sur base de la classification de l'ens. d'apprentissage: classe majoritairement représentée parmi les exemples qui "tombent" dans cette feuille.

Chaque "nœud" intermédiaire réalise un test portant sur une variable dont le résultat indique la branche à suivre dans l'arbre.

Pour classer un nouveau cas: suivre le chemin partant de la racine (nœud initial) à une feuille de l'arbre en effectuant les différents tests à chaque nœud.

Root

X=x2X=x1 X=x3

Class 1Class 1 Class 2 Class 3 Class 2

Z< z1 Z > z1 Y < y1 Y > y1

X ?

Z ? Y ?

Class 3

T ?

T=t 1 T=t 2

Page 5: Les arbres de décision (decision trees) - ulb.ac.be · Ces méthodes ont pris essentiellement leur essor dans le cadre des approches ... Utilisation d'un test statistique ... basé

Arbre de Décision 5

– Phase 2: élagage ("pruning"): supprimer les branches (parties terminales) peu représentatives pour garder de bonnes performances prédictives (généralisation) => nécessité d'un critère pour désigner les branches à élaguer.Après élagage, les nouvelles feuilles sont étiquetées sur base de la distribution des exemples d'apprentissage (classe majoritaire).

Root

X=x2X=x1 X=x3

Class 1

Class 1 Class 2 Class 3 Class 2

Z< z1 Z > z1 Y < y1 Y > y1

X ?

Z ? Y ?

3

Root

X=x2X=x1 X=x3

Class 1Class 1 Class 2 Class 3 Class 2

Z< z1 Z > z1 Y < y1 Y > y1

X ?

Z ? Y ?

Class

T ?

T=t 1 T=t 2

Page 6: Les arbres de décision (decision trees) - ulb.ac.be · Ces méthodes ont pris essentiellement leur essor dans le cadre des approches ... Utilisation d'un test statistique ... basé

Arbre de Décision 6

– Arbres parallèles aux axes versus obliques (données numériques)?

Avantages des arbres parallèles:• suite de tests monovariés;• pas de problème de combinaison de

var, d’échelle ... ;• sélection de variables intégrée;• rapidité;• génération de règles logiques

simples de classification.

Désavantages - limitations:• approximation par "escaliers"

des surfaces de séparation;• les critères usuels de sélection de

tests ne tiennent pas compte des densités de points dans l’espace des données (pour sélectionner une variable et sa valeur seuil).

Page 7: Les arbres de décision (decision trees) - ulb.ac.be · Ces méthodes ont pris essentiellement leur essor dans le cadre des approches ... Utilisation d'un test statistique ... basé

Arbre de Décision 7

• Phase de construction d'un arbre (parallèle aux axes):2 étapes à chaque nœud d'un arbre en construction (processus récursif):

1. Production d'une série de tests relatifs à chacune des variables (qualitatives ou quantitatives):

– pour les variables quantitatives (discrète ou continue): tests (généralement) binaires: X ≤ ou > seuil (=> seuil à déterminer);

– pour les variables qualitatives (ou déclarées comme telles): chacune des valeurs possibles est considérée comme une alternative (des sous-ensembles de valeurs peuvent aussi être considérés).

2. Sélection du meilleur test (au niveau considéré) d'après un certain critère dont l'objectif est de diminuer le plus possible le mélange des classes (entropie) au sein de chaque sous-ensemble créé par les différentes alternatives du test.

Conditions d'arrêt: différentes possibilités (dépendent des algorithmes): Ex: pourcentage de cas appartenant à la classe majoritaire > seuil, ou nbre de cas dans une feuille < seuil, ou combinaison des 2, ...

Page 8: Les arbres de décision (decision trees) - ulb.ac.be · Ces méthodes ont pris essentiellement leur essor dans le cadre des approches ... Utilisation d'un test statistique ... basé

Arbre de Décision 8

Objectif général: générer une séquence hiérarchique de tests, aussi courte que possible, qui divise successivement l'ensemble des données d'apprentissage en sous-ensembles disjoints, tels que des sous-groupes de cas appartenant à la même classe soient rapidement détectés. => stratégie de "diviser-pour-régner" ("recursive partioning").

=> le critère de sélection (étape 2) est souvent basé sur la théorie de l'information, et notamment sur la notion d'entropie (mesure de l'hétérogénéitéd'un mélange).

Ex: critère du "Gain d'entropie" ou "Information mutuelle" (ID3, C4.5)– Soit un ensemble E d'exemples divisés en q classes ω1, ..., ωk, ..., ωq.

L'entropie de la distribution des classes = quantité moyenne d'information (ici en bits => log2) nécessaire pour identifier la classe d'un exemple de E:

où P(ωk) est la probabilité a priori de la classe ωk

– Soit un test T (portant sur une variable X) ayant m alternatives possibles qui divisent E en m sous-ensembles Ej, caractérisé par une entropie H(Ej).

( )∑ ωω−=k

kk PPEH )(log)()( 2

Page 9: Les arbres de décision (decision trees) - ulb.ac.be · Ces méthodes ont pris essentiellement leur essor dans le cadre des approches ... Utilisation d'un test statistique ... basé

Arbre de Décision 9

– L'entropie de la partition résultante, c'est-à-dire l'entropie conditionnelle de E étant donné T, est définie comme l'entropie moyenne des sous-ensembles:

– Le gain d'information apporté par le test T est donc:

Gain(E, T) = H(E) – H(E | T)

En pratique, les probabilités a priori sont estimées par les fréquences relatives calculées sur l'ensemble d'apprentissage.

Propriétés:– Gain(E, T) est maximum ⇔ H(E | T) est minimum ⇔ T minimise (en moyenne) le mélange des classes au sein des Ej.

– Gain(E, T) ≈ 0 si T apporte peu d'information sur la classe (ex: une variable qualitative indépendante de la classe) au nœud considéré.

– Gain(E, T) est biaisé en faveur des tests ayant un grand nombre md'alternatives. => Biais à rectifier => critère du Rapport des Gains

∑=j

jj EHEPTEH )()()(

Page 10: Les arbres de décision (decision trees) - ulb.ac.be · Ces méthodes ont pris essentiellement leur essor dans le cadre des approches ... Utilisation d'un test statistique ... basé

Arbre de Décision 10

Rapport des Gains:R_Gain(T) = Gain(E, T) / H(T) avec

=> H(T) = information potentielle générée en divisant un ensemble E en m sous-ensembles Ej. => R_Gain = proportion d'information générée par T et utile pour la classification.

Autre biais: H(T) est maximum si la distribution est équirépartie (P(Ej) égaux) et diminue en fonction du déséquilibre => diviser par H(T) favorise les partitions de E ayant un fort déséquilibre de la répartition des cas entre les Ej.

Rectification: contrainte supplémentaire sur le Gain:A chaque nœud, choisir le test T qui maximise R_Gain parmi ceux dont le Gainest suffisamment grand, c-à-d > Gain_moyen (calculé sur tous les tests examinés).Problèmes évités si on se limite aux tests binaires !

N.B.: Il existe de nombreux critères basés sur différentes mesures caractérisant l'efficacitéd'un test T, dont notamment des mesures d'association entre variables qualitatives (ex: mesure χ2, Gini index, …). Des études ont montré l'absence de différences significatives quant à la qualité des arbres construits suivant différents critères (ils ont tous leur points forts et leurs points faibles).

( )∑−=j

jj EPEPTH )(log)()( 2

Page 11: Les arbres de décision (decision trees) - ulb.ac.be · Ces méthodes ont pris essentiellement leur essor dans le cadre des approches ... Utilisation d'un test statistique ... basé

Arbre de Décision 11

Cas des variables quantitatives:Pour chaque variable quantitative X, toute valeur observée xi donne lieu à un test binaire: "X < xi ?"

Propriété:Les critères convexes (tels que le gain d'entropie) sélectionnent toujours des valeurs "seuil" situées à la frontière entre deux classes, c'est-à-dire entre deux valeurs consécutives observées par des exemples de classes différentes.=> diminution du nombre de seuils à tester pour une variable continue.

Biais:Considération de la frontière inter-classe au sens strict.

=> Forte sensibilité à tout ce qui peut altérer les frontières apparentes entre les classes (variation de l'ensemble d'apprentissage, bruit dans les données, et erreurs sur l'attribution des classes) => Problème de variance des performances.

Page 12: Les arbres de décision (decision trees) - ulb.ac.be · Ces méthodes ont pris essentiellement leur essor dans le cadre des approches ... Utilisation d'un test statistique ... basé

Arbre de Décision 12

Illustration de la problématique:

A

X

+ +

+ + +

+ + + + + + +

°° °° °° °°°

°°

°

°°

a

b

X

Y

+ +

+ + +

+ ° + + + + +

°° °° °° °°°

°°

°

°°

a'

b

B

A: 2 tests (X < a) et (Y < b) jugés équivalents par un critère d'information pour séparer les 2 classes en présence (séparation parfaite).B: Si altérations de la frontière inter-classes (par un cas "hors norme" ou outliers, ou erreur sur la classe) => le test sur X en a' sera avantagé par une mesure d'information. En A et B: le test sur Y apparaît préférable (vu la distance séparant les deux classes) => plus grande robustesse vis-à-vis des altérations de la frontière apparente inter-classes (cf B).MAIS: pas d'influence si 1 ou 2 exceptions au sein d'une zone occupée par des cas d'une même classe (grâce à l'élagage).=> sensibilité au "bruit" uniquement aux frontières inter-classes.

Page 13: Les arbres de décision (decision trees) - ulb.ac.be · Ces méthodes ont pris essentiellement leur essor dans le cadre des approches ... Utilisation d'un test statistique ... basé

Arbre de Décision 13

Cause essentielle de la problématique:Les critères (classiques) de sélection des tests opèrent par comptage (approche fréquentielle) des éléments de chaque classe au sein des différentes branches générées par un test.=> Ils ne tiennent pas compte de la distance (ou proximité) à une valeur seuil, ou de la densité des observations.

Autres approches:• Critère mixte supervisé/non-supervisé (Van de Merckt, 1993):

combinaison d'un critère de clustering avec le critère d'entropie.• Méthode "Quest" (Loh and Shih, 1997)

1. Utilisation d'un test statistique (ANOVA) pour le choix de la variable la plus discriminante: X*.

2. Si plus de 2 classes, regroupement en 2 "super-classes"par une méthode de clustering (pour rester dans le cas binaire).

3. Détermination de la valeur seuil par analyse discriminante quadratique (sur la entre les 2 super-classes.

Page 14: Les arbres de décision (decision trees) - ulb.ac.be · Ces méthodes ont pris essentiellement leur essor dans le cadre des approches ... Utilisation d'un test statistique ... basé

Arbre de Décision 14

• Phase d'élagage d'un arbre ("pruning") :Objectif: supprimer les parties de l'arbre qui ne semblent pas performantes pour prédire la classe de nouveaux cas => remplacées par un nœud terminal (associé à la classe majoritaire).Processus: généralement de type "bottom-up" (du bas vers le haut: des extrémités vers la racine), basé sur une estimation du taux d'erreur de classification: un arbre est élagué à un certain nœud si le taux d'erreur estimé àce nœud (en y allouant la classe majoritaire) est inférieur au taux d'erreur obtenu en considérant les sous-arbres terminaux.

T 1

T5

T2

Classe A

T 6

Classe CClasse B

T 3Classe C

Classe B

Classe A

Classe C

3 branches élaguées:taux d'erreur (estimé) en T6 < taux d'erreur (estimé) obtenus en considérant les 3 feuilles.classe majoritaire = B

Page 15: Les arbres de décision (decision trees) - ulb.ac.be · Ces méthodes ont pris essentiellement leur essor dans le cadre des approches ... Utilisation d'un test statistique ... basé

Arbre de Décision 15

=> élagages successifs (au départ des extrémités) jusqu'à ce que tous les sous-arbres restants satisfassent la condition sur les taux d'erreur de classification.

Différentes façons d'estimer l'erreur (dépendant des algorithmes): – sur base de nouveaux exemples disponibles;– via une validation croisée (cf. précédemment);– sur base d'une estimation statistique, ex: borne supérieure d'un intervalle de

confiance construit sur un modèle binomial (C4.5) => estimation pessimiste de l'erreur (sur l'ensemble d'apprentissage);

– ...

Résultats expérimentaux:– indispensable pour garantir de bonnes performances;– interprétation plus aisée des règles de classification.

Page 16: Les arbres de décision (decision trees) - ulb.ac.be · Ces méthodes ont pris essentiellement leur essor dans le cadre des approches ... Utilisation d'un test statistique ... basé

Arbre de Décision 16

• Production de règles de classification et autre processus d'élagageRègle (aspect général) :

"SI ... (partie conditionnelle) ... ALORS ... (partie conclusive) ...".

Production d'un système de règles de classification à partir d'un arbre: via l'ensemble des chemins partant de la racine de l'arbre à chacune des feuilles. Chaque chemin = une règle:– partie conditionnelle = conjonction ("ET" logique) des tests rencontrés, – partie conclusive = classe associée à la feuille de l'arbre.

Propriétés du système initial: (comme l'arbre) exhaustivité (couvre toutes les possibilités) et exclusivité mutuelle des règles (=> assure une partition de l'espace).

Phase de simplification (élagage): (basée sur le gain en taux d'erreur)– élimination de certains tests de la partie conditionnelle d'une règle, – élimination d'une règle entière.

=> Autre technique d'élagage plus souple: n'importe quel test de la partie conditionnelle peut être supprimé directement (libéré du principe "bottom up").

Page 17: Les arbres de décision (decision trees) - ulb.ac.be · Ces méthodes ont pris essentiellement leur essor dans le cadre des approches ... Utilisation d'un test statistique ... basé

Arbre de Décision 17

Conséquences de la simplification:Perte possible des propriétés d'exhaustivité et d'exclusivité.=> Ordonnancement des règles finales suivant un ordre de priorité (défini suivant le taux d'erreur estimé):=> Système final ordonné où la première règle qui couvre un cas (partie conditionnelle satisfaite) est alors choisie comme opérationnelle:

SI "règle 1"SINON "règle 2"SINON "règle 3" ... SINON classe par défaut (la plus fréquemment observée parmi les cas

d'apprentissage non couverts par les règles précédentes).

Page 18: Les arbres de décision (decision trees) - ulb.ac.be · Ces méthodes ont pris essentiellement leur essor dans le cadre des approches ... Utilisation d'un test statistique ... basé

Arbre de Décision 18

• Avantages et désavantages des arbres de décision (parallèles)Avantages: (cf. précédemment)1. prise en compte simultanée de variables qualitatives et quantitatives

(discrètes ou continues);2. pas d'hypothèse au sujet des données (modèle non-paramétrique);3. non affecté par les problèmes d'échelles de mesure des variables

quantitatives (pas de combinaison arithmétique des variables) et détermine des seuils discriminants pour ces dernières;

4. sélection des variables les plus informatives (en tenant compte d'interactions locales);

5. peu d'influence des données erronées, SAUF aux frontières inter-classes;6. algorithmes très rapides en phase de construction des arbres et lors de la

classification de nouveaux cas (1 seul chemin est parcouru);7. règles logiques de classification aisément interprétables

=> extraction de connaissances explicites d'un ens. de données (= "data mining")

=> meilleure compréhension du problème étudié.

Page 19: Les arbres de décision (decision trees) - ulb.ac.be · Ces méthodes ont pris essentiellement leur essor dans le cadre des approches ... Utilisation d'un test statistique ... basé

Arbre de Décision 19

Limitations:1. Traitement des variables numériques (cf. précédemment): génération des

tests (choix des seuils) ne tient pas compte des propriétés de densité (proximité) des valeurs.=> Nouveaux développements avec de nouveaux critères de sélection pour les variables numériques.

2. Algorithmes séquentiels sans remise en cause des étapes précédentes (d'où rapidité), un peu assoupli dans la production de systèmes de règles.

3. Instabilité: sensibles aux variations (même assez faibles) de l'ensemble d'apprentissage en termes d'exemples, des variables considérées;=> variations dans les arbres produits (variables sélectionnées, seuils des variables numériques, structure de l'arbre, ...) et de leurs performances.

Limitations similaires aux algorithmes de sélection de variables stepwise: Algorithmes rapides mais n'investiguant qu'un nombre restreint de possibilités à chaque étape, sans remise en cause des choix précédents!=> Une petite variation dans les données peut entraîner un choix différent à un certain niveau => sous-arbres différents => Quel est l'arbre optimal ? (peut remettre en cause l'aspect "extraction des connaissances" !)

Page 20: Les arbres de décision (decision trees) - ulb.ac.be · Ces méthodes ont pris essentiellement leur essor dans le cadre des approches ... Utilisation d'un test statistique ... basé

Arbre de Décision 20

• Problème d'instabilité et possibles remédiations:– Discrétisation des variables numériques: "prédécoupage" non-supervisé des

intervalles de variation des variables numériques => variable ordinale. – Présélection de variables stables: analyse des différents arbres produits lors

d'une validation croisée => identification d'un sous-ensemble de variables reprises régulièrement dans les arbres (> 50%) => construction d'un arbre sur cette base (+ stable, généralement + performant, et plus sûr du point de vue "data mining").

Discrétisation d'une variable continue par une méthode de clustering

0

4

8

12

16

20

P1

Stability of continuous features

P7SD

P1SD

P3 P2SD

P6SD

P10

FeaturesSD

P4

Freq

uenc

y on

20

test

s

SDP1

2%

5C%

3C%

4C P10 P3 P9

%H

2C P8 P4 P6 P11

SDP3

SDP8

SDP1

4SD

P15

|_________________| stable

Analyse de la stabilité de la sélection des variables. lors d'une validation croisée en 20 blocs

0

2

4

6

8

cum

ulat

ive

coun

t

10

1800 2000 2200 2400 2600 2800 3000 3200 3400 3600

Value 1

3800

Value 2 Value 3

Page 21: Les arbres de décision (decision trees) - ulb.ac.be · Ces méthodes ont pris essentiellement leur essor dans le cadre des approches ... Utilisation d'un test statistique ... basé

Arbre de Décision 21

– Combinaison de plusieurs arbres: utilisation de la nature instable pour produire des modèles différents à combiner.Principes:

• produire de variations en "appauvrissant" les données au niveau:– de l'ensemble d'apprentissage (via validation croisée ou

bootstrapping),– des variables soumises à l'algorithme (sélection aléatoire de

différents sous-ensembles de variables de taille fixée);• produire un grand nombre de classificateurs (arbres) appauvris ("weak

classifiers") sur les différents ensemble de données ainsi produits (visions partielles et différentes des données);

• combiner les décisions des différents classificateurs (vote ou méthode plus sophistiquée).

Résultats: performances supérieures et stables.MAIS: perte de l'intelligibilité des règles de classification générées!

Page 22: Les arbres de décision (decision trees) - ulb.ac.be · Ces méthodes ont pris essentiellement leur essor dans le cadre des approches ... Utilisation d'un test statistique ... basé

Arbre de Décision 22

Ex:Construction stage:

Bootstrapping + Random feature selection

size weight color width speed Classcase1 1 366 red 1 63 1case2 2 819 green 1 57 2case3 2 660 red 3 83 3case4 3 673 blue 1 17 2case5 3 865 yellow 2 89 2case6 1 141 orange 1 10 3case7 3 814 red 3 46 1case8 1 213 green 1 83 1case9 1 187 green 1 24 3case10 3 447 blue 1 35 2case11 1 146 orange 2 95 1case12 1 754 yellow 1 95 2

WeakDecision

Tree

WeakDecision

Tree

WeakDecision

Tree

weight color width Classcase9 187 green 1 3case2 819 green 1 2case3 660 red 3 3case12 754 yellow 1 2case5 865 yellow 2 2case2 819 green 1 2case7 814 red 3 1case8 213 green 1 1case9 187 green 1 3case2 819 green 1 2case11 146 orange 2 1case12 754 yellow 1 2

size weight color Classcase2 2 819 green 2case2 2 819 green 2case9 1 187 green 3case4 3 673 blue 2case5 3 865 yellow 2case6 1 141 orange 3case7 3 814 red 1case8 1 213 green 1case9 1 187 green 3case10 3 447 blue 2case11 1 146 orange 1case5 3 865 yellow 2

size width speed Classcase1 1 1 63 1case10 3 1 35 2case6 1 1 10 3case4 3 1 17 2case5 3 2 89 2case6 1 1 10 3case1 1 1 63 1case10 3 1 35 2case9 1 1 24 3case10 3 1 35 2case11 1 2 95 1case12 1 1 95 2

Page 23: Les arbres de décision (decision trees) - ulb.ac.be · Ces méthodes ont pris essentiellement leur essor dans le cadre des approches ... Utilisation d'un test statistique ... basé

Arbre de Décision 23

Classification stage:

size weight color width speed Classnew case 1 366 red 1 63 ?

WeakDecision

Tree

WeakDecision

Tree

WeakDecision

Tree

Class Class Class

Majority vote(or other combination rule)

Page 24: Les arbres de décision (decision trees) - ulb.ac.be · Ces méthodes ont pris essentiellement leur essor dans le cadre des approches ... Utilisation d'un test statistique ... basé

Arbre de Décision 24

• Arbre de régression (méthode CART)=> Variable à expliquer (Y ) numérique (continue ou discrète).– Principe: déterminer (par segmentation récursive) dans l'espace des

variables descriptives (indépendantes) Xj des régions où la valeur de Y est homogène (variance faible). => Dans chacune de ces régions Ri, une bonne valeur prédictive de Y est sa moyenne (calculée sur l'ensemble d'apprentissage), et une évaluation de l'erreur est donnée par la variance (calculée sur l'ensemble d'apprentissage)(cf. notions de régression):

Dans le cas de variables Xj numériques, possibilité (comme en classification) de construire des arbres parallèles ou obliques (par combinaisons linéaires des Xj) aux axes.

22 )ˆ(#1 equadratiquerreur

et #1)(ˆ

yyR

s

yR

RYEy

ijij

ij

Rjj

iRY

Rjj

iij

−==

=∈=

∈∈

xx

x

x

Page 25: Les arbres de décision (decision trees) - ulb.ac.be · Ces méthodes ont pris essentiellement leur essor dans le cadre des approches ... Utilisation d'un test statistique ... basé

Arbre de Décision 25

– Construction d'un arbre de régression:Même processus que pour la classification, mais avec un critère de sélection basé sur la variance résiduelle de Y dans les segments descendants (qui doit être plus faible que dans le nœud précédant).

Xj < a Xj > a

E (N)

E1 (N1) E2 (N2)

Variance résiduelle après division de E:

=> choix du test qui produit le minimum de variance résiduelle !

Arrêt de la construction lorsque plus (ou peu) de diminution de variance.

Valeur de Y associée à un nœud = valeur moyenne de Y dans ce nœud (sur base des données d'apprentissage) => .

222121 EYEY ss

N

N

N

N+

2EY

)( iEYE

Soit un ensensemble d'apprentissage E(d'effectif N) séparé en 2 sous-ensembles E1et E2 par un test sur une variable Xj.

Variance de Y dans E = s

Page 26: Les arbres de décision (decision trees) - ulb.ac.be · Ces méthodes ont pris essentiellement leur essor dans le cadre des approches ... Utilisation d'un test statistique ... basé

Arbre de Décision 26

– Mesure d'erreur:Chaque feuille de l'arbre concerne un sous-ens. de données Fi (d'effectif Ni)

=> erreur quadratique par feuille =

Erreur totale associée à un arbre:

C = mesure d'adéquation ("fitting") du modèle aux données d'apprentissage.

=> = % de variance totale non-expliquée par le modèle.=> Equivalent à l'expression (1 – R2) de la régression linéaire multiple.

– Elagage de l'arbre: comme en classification sur base d'une estimation de l'erreur en prédiction (sur base d'un ensemble test indépendant, via validation croisée ou autre estimation de l'erreur ...).

2iFYs

)( avec1 2 ∑∑ ==

ii

iFYi NNN

NC

is

2YsC

Page 27: Les arbres de décision (decision trees) - ulb.ac.be · Ces méthodes ont pris essentiellement leur essor dans le cadre des approches ... Utilisation d'un test statistique ... basé

Arbre de Décision 27

Applications Biomédicales• Aide au diagnostic en pathologie

patient tumeur

chirurgie

DIAGNOSTIC(pathologistes)

traitementadjuvant

bilancliniquepatient tumeur

chirurgie

DIAGNOSTIC(pathologistes)

traitementadjuvant

bilanclinique

critères histologiques:- perte de différenciation- invasion

critères histologiques:- perte de différenciation- invasion

critères histologiques:- perte de différenciation- invasion

critères cytologiques:- taille des noyaux- mitoses- plages d’hyperchromatisme

critères cytologiques:- taille des noyaux- mitoses- plages d’hyperchromatisme

critères cytologiques:- taille des noyaux- mitoses- plages d’hyperchromatisme

autres …

Amélioration du diagnostic Adéquation du traitement

Augmentation de la survie

Amélioration du diagnostic Adéquation du traitement

Augmentation de la survie

Page 28: Les arbres de décision (decision trees) - ulb.ac.be · Ces méthodes ont pris essentiellement leur essor dans le cadre des approches ... Utilisation d'un test statistique ... basé

Arbre de Décision 28

• Caractéristiques des données réellesréelles biomédicales:– Hétérogénéité des variables descriptives (indépendantes):

• cliniques (ex: sexe et âge du patient, suivi, …), • radiologiques (ex: localisation, prise de contraste, aspect invasif, …)• morphologiques (ex: organisation/pattern cellulaire caractéristique,

aspect/taille des noyaux cellulaires, … )• immunohistologiques (expression de protéine/antigène …), • …

=> mélange de variables catégorielles, ordinales et numériques

– Limitations du nombre de cas (parfois/souvent) par rapport au nombre de de variables descriptives.=> Sélection de variables indispensables.

– Classification: diagnostic (ex: normal, inflammatoire, prénéoplasique, cancer)hétérogénéité interne des classes, déséquilibre des distributions, possibles erreurs de classification.

Page 29: Les arbres de décision (decision trees) - ulb.ac.be · Ces méthodes ont pris essentiellement leur essor dans le cadre des approches ... Utilisation d'un test statistique ... basé

Arbre de Décision 29

• Double objectif:– Aide au diagnostic: règles de classification performantes– Extraction de connaissance:

• information quant à la pertinence des variables descriptives => sélection de marqueurs

• interprétation des règles de classification => meilleur compréhension de la pathologie

• détection de sous-groupes (au sein d'une même classe) avec des caractéristiques différentes, de cas atypiques

=> à confronter au suivi clinique, réponse au traitement …

Page 30: Les arbres de décision (decision trees) - ulb.ac.be · Ces méthodes ont pris essentiellement leur essor dans le cadre des approches ... Utilisation d'un test statistique ... basé

Arbre de Décision 30

• Avantages des arbres de décision (monothétiques):– nature des données libre (type de variable, de mesure) – sélection de variables intégrée, – règles logiques explicites

• Désavantages et aménagements– problèmes d'instabilité (en particulier si nombre de cas restreint)– traitement des variables numériques=> Adaptation des méthodes de sélection des tests monovariés basés sur

des variables numériques + étude de stabilité

Page 31: Les arbres de décision (decision trees) - ulb.ac.be · Ces méthodes ont pris essentiellement leur essor dans le cadre des approches ... Utilisation d'un test statistique ... basé

Arbre de Décision 31

• Ex1: détection de cas atypiques dans les tumeurs de la vessie:– Données:

• classification en 3 grades de malignité:I (bon pronostic), II (intermédiaire), III (mauvais pronostic)

• description des cas par une trentaine de variables quantitatives (obtenues par analyse d'image) morphologiques et "contenu global en ADN"

– Détection de cas atypique par analyse de la structure de l'arbre:• Principe:

T1

T5

T2

Classe A

T6

T8

T9

T10 complexité structurelle

Classe C

Classe B

T3

Classe C

Cas atypiques

simplicité structurelle

Cas standards

Page 32: Les arbres de décision (decision trees) - ulb.ac.be · Ces méthodes ont pris essentiellement leur essor dans le cadre des approches ... Utilisation d'un test statistique ... basé

Arbre de Décision 32

• Applications aux 2 classes extrêmes I et III (diagnostics plus sûrs)• Arbre généré sur les cas typiques I et III et utilisé pour reclasser les

grades II:

%HYPER4C < 1 : TYP-I (122.0)%HYPER4C > 1 : Classification des grades II:

%HYPER2C > 1 : TYP-III (13.0) TYP-I TYP-III%HYPER2C < 1 : 105 19 grade II

%HYPER4C < 2 : TYP-I (12.0)%HYPER4C > 2 : TYP-III (5.0) II_like_I II_like_III

Distribution des mauvais pronostics (aggravation ou mort):

ATYP-I (0%) ---> TYP-I (4%) ---> II_like_I (9%) ---> II_like_III (13%) --->TYP-III (19%) ---> ATYP-III (23%).

Page 33: Les arbres de décision (decision trees) - ulb.ac.be · Ces méthodes ont pris essentiellement leur essor dans le cadre des approches ... Utilisation d'un test statistique ... basé

Arbre de Décision 33

• Ex 2: Nodules thyroïdiensDétection de groupes à risque basée surun diagnostic cytologique (biopsies) et 10 variables cliniques

Page 34: Les arbres de décision (decision trees) - ulb.ac.be · Ces méthodes ont pris essentiellement leur essor dans le cadre des approches ... Utilisation d'un test statistique ... basé

Arbre de Décision 34

• Ex 3: Analyse d’images de lésions cutanées pigmentées:(en collaboration avec le Laboratoire des Systèmes Logiques et Numériques, Dir: P. Van Ham).

– Méthode: Classification de pixels• Base de données de + 2500 pixels décrits par 164 variables (paramètres

stat., texture, symétrie, …) calculées localement sur les 3 plans R, G, B.

– Objectifs:• segmentation lésion/peau• détection de patterns à valeur diagnostique.

– Résultats valables (et rapides) avec:• arbre de décision sur 6 variables stables• performances comparables (voire supérieures) à un réseau de neurones

(MLP)

Page 35: Les arbres de décision (decision trees) - ulb.ac.be · Ces méthodes ont pris essentiellement leur essor dans le cadre des approches ... Utilisation d'un test statistique ... basé

Arbre de Décision 35

DIF_PIG DARK_GL GB_VEIL OTHER %correct

DIF_PIG 399 21 6 14 91

DARK_GL 8 155 1 35 78

GB_VEIL 2 2 64 8 84

OTHER 16 47 10 232 76

Total 83

Cross-validation (sur la base de données de pixels individuels):

Validation sur des zones d’images:DIF_PIG DARK_GL GB_VEIL OTHER %correct

DIF_PIG 14177 2375 244 1097 79

DARK_GL 510 2763 425 1086 58

GB_VEIL 1656 86 5912 92 76

OTHER 128 1409 204 2428 58

Total 73

Page 36: Les arbres de décision (decision trees) - ulb.ac.be · Ces méthodes ont pris essentiellement leur essor dans le cadre des approches ... Utilisation d'un test statistique ... basé

Arbre de Décision 36