de l'identification de structure de réseaux bayésiens à la

Post on 18-Jun-2022

1 Views

Category:

Documents

0 Downloads

Preview:

Click to see full reader

TRANSCRIPT

1/37

Préliminaires Expérimentations D. complètes App. avec D. incomplètes Conclusion

De l’identification de structure de réseaux bayésiensà la reconnaissance de formes

à partir d’informations complètes ou incomplètes

Olivier FRANÇOIS

Encadrant : Philippe LERAY

Directeur : Stéphane CANU

Laboratoire LITIS , Rouen

présenté le mardi 28 novembre 2006

2/37

Préliminaires Expérimentations D. complètes App. avec D. incomplètes Conclusion

2/37

Préliminaires Expérimentations D. complètes App. avec D. incomplètes Conclusion

Etat Emotionnel

2/37

Préliminaires Expérimentations D. complètes App. avec D. incomplètes Conclusion

Etat Emotionnel

Perdue

2/37

Préliminaires Expérimentations D. complètes App. avec D. incomplètes Conclusion

Etat Emotionnel

Perdue

Electronique

positionnementGaliléo

Système de

Agenda

2/37

Préliminaires Expérimentations D. complètes App. avec D. incomplètes Conclusion

Etat Emotionnel

Perdue

Electronique

positionnementGaliléo

Système de

Agenda

2/37

Préliminaires Expérimentations D. complètes App. avec D. incomplètes Conclusion

Etat Emotionnel

Perdue

Electronique

positionnementGaliléo

Système de

Agenda

2/37

Préliminaires Expérimentations D. complètes App. avec D. incomplètes Conclusion

Etat Emotionnel

PerdueRythme

respiratoire

Rythmecardiaque Electronique

positionnementGaliléo

Système de

Agenda

Conductivitéde la peau

2/37

Préliminaires Expérimentations D. complètes App. avec D. incomplètes Conclusion

Etat Emotionnel

PerdueRythme

respiratoire

Rythmecardiaque Electronique

positionnementGaliléo

Système de

Agenda

Conductivitéde la peau

2/37

Préliminaires Expérimentations D. complètes App. avec D. incomplètes Conclusion

Etat Emotionnel

PerdueRythme

respiratoire

Rythmecardiaque Electronique

positionnementGaliléo

Système de

Agenda

Conductivitéde la peau

2/37

Préliminaires Expérimentations D. complètes App. avec D. incomplètes Conclusion

Etat Emotionnel

PerdueRythme

respiratoire

Rythmecardiaque Electronique

positionnementGaliléo

Système de

Agenda

Conductivitéde la peau Conseil

2/37

Préliminaires Expérimentations D. complètes App. avec D. incomplètes Conclusion

Etat Emotionnel

PerdueRythme

respiratoire

Rythmecardiaque Electronique

positionnementGaliléo

Système de

Agenda

Conductivitéde la peau Conseil

3/37

Préliminaires Expérimentations D. complètes App. avec D. incomplètes Conclusion

Définition d’un Réseau Bayésien

Etat Emotionnel

PerdueRythme

respiratoire

Rythmecardiaque Electronique

positionnementGaliléo

Système de

Agenda

Conductivitéde la peau

FaibleNormalElevé

FaibleNormaleForte

FaibleNormalElevé

Non agoisséeAngoissée

OuiNon

Ne rien faireAfficher la carte

Afficher l’agenda

CommerceRue

SoinsFamilleDomicile

(Lieu ; tranche horraire)

Conseil

3/37

Préliminaires Expérimentations D. complètes App. avec D. incomplètes Conclusion

Définition d’un Réseau Bayésien

Etat Emotionnel

PerdueRythme

respiratoire

Rythmecardiaque Electronique

positionnementGaliléo

Système de

Agenda

Conductivitéde la peau Conseil

4/37

Préliminaires Expérimentations D. complètes App. avec D. incomplètes Conclusion

Apprentissage de structure : Pourquoi ?

Etat Emotionnel

PerdueRythme

respiratoire

Rythmecardiaque Electronique

positionnementGaliléo

Système de

Agenda

Conductivitéde la peau

FaibleNormalElevé

FaibleNormaleForte

FaibleNormalElevé

Non agoisséeAngoissée

OuiNon

Ne rien faireAfficher la carte

Afficher l’agenda

CommerceRue

SoinsFamilleDomicile

(Commerce ; 9H−9H30)

Conseil

4/37

Préliminaires Expérimentations D. complètes App. avec D. incomplètes Conclusion

Apprentissage de structure : Pourquoi ?

Etat Emotionnel

PerdueRythme

respiratoire

Rythmecardiaque Electronique

positionnementGaliléo

Système de

Agenda

Conductivitéde la peau

FaibleNormalElevé

FaibleNormaleForte

FaibleNormalElevé

Non agoisséeAngoissée

OuiNon

Ne rien faireAfficher la carte

Afficher l’agenda

CommerceRue

SoinsFamilleDomicile

(Commerce ; 9H−9H30)

0.5 −> 0.010.1 −> 0.990.4 −> 0.00Conseil

4/37

Préliminaires Expérimentations D. complètes App. avec D. incomplètes Conclusion

Apprentissage de structure : Pourquoi ?

Etat Emotionnel

PerdueRythme

respiratoire

Rythmecardiaque Electronique

positionnementGaliléo

Système de

Agenda

Conductivitéde la peau

FaibleNormalElevé

FaibleNormaleForte

FaibleNormalElevé

Non agoisséeAngoissée

OuiNon

Ne rien faireAfficher la carte

Afficher l’agenda

CommerceRue

SoinsFamilleDomicile

(Commerce ; 9H−9H30)

0.5 −> 0.010.1 −> 0.990.4 −> 0.00

0.2 −> 0.99

Conseil

4/37

Préliminaires Expérimentations D. complètes App. avec D. incomplètes Conclusion

Apprentissage de structure : Pourquoi ?

Etat Emotionnel

PerdueRythme

respiratoire

Rythmecardiaque Electronique

positionnementGaliléo

Système de

Agenda

Conductivitéde la peau Conseil

5/37

Préliminaires Expérimentations D. complètes App. avec D. incomplètes Conclusion

Plan de l’exposé

Etude empirique d’algorithmes d’apprentissage destructure de Réseaux Bayésiens à partir de basesd’exemples complètement observées.

Utilisation de Benchmarks existants (jouets ou réels)

Etude empirique d’algorithmes d’apprentissage destructure de Réseaux Bayésiens à partir de basesd’exemples partiellement observées.

Utilisation de Benchmarks existants (jouets ou réels)

Génération de bases d’exemples incomplètes

5/37

Préliminaires Expérimentations D. complètes App. avec D. incomplètes Conclusion

Plan de l’exposé

Etude empirique d’algorithmes d’apprentissage destructure de Réseaux Bayésiens à partir de basesd’exemples complètement observées.

Utilisation de Benchmarks existants (jouets ou réels)

Etude empirique d’algorithmes d’apprentissage destructure de Réseaux Bayésiens à partir de basesd’exemples partiellement observées.

Utilisation de Benchmarks existants (jouets ou réels)

Génération de bases d’exemples incomplètes

5/37

Préliminaires Expérimentations D. complètes App. avec D. incomplètes Conclusion

Plan de l’exposé

1) Apprentissage de structure de RB avec D. complètesEtat de l’artNotre propositionRésultats

2) Apprentissage de RB avec D. incomplètesEtat de l’artNos propositions : MWST-EM et SEM+TRésultats et interprétationsApplication à la classification : TAN-EM

3) Conclusion et Perspectives

6/37

Préliminaires Expérimentations D. complètes App. avec D. incomplètes Conclusion

Apprentissage de structure

Deux classes d’algorithmes :

Méthodes à base de contraintesUtiliser des tests statistiques pour identifier lesindépendances conditionnelles des attributs et endéduire une structure.→ test du χ2

→ test du rapport devraisemblance

→ information mutuelle

→ étude des corrélations. . .

Méthodes à base de scoreMaximiser une mesure/approximation dela vraisemblance marginale dans un espace destructures.→ scores BD, BDe, BDeu

→ critères AIC et BIC

→ M inimum Description Length

→ approximation de Laplace aun-ième ordre

→ AICc, ICL . . .

7/37

Préliminaires Expérimentations D. complètes App. avec D. incomplètes Conclusion

Espaces de recherche

Recherche d’un bon réseau bayésien :exhaustive = impossible / taille de l’espace

nDAG(n) = n2O(n)

nDAG(5) = 29 281, nDAG(8) = 783 702 329 343, nDAG(10) ' 4, 175× 1018

Dans quel espace ?espace des arbresespace des DAG respectant un ordre d’énumérationespace des DAG avec un nombre max. de parents

espace des DAG (heuristiques de parcours)espace des classes d’équivalence de Markov (heur.)

→ CPDAG : représentants ’minimaux’ des classes d’équivalence

7/37

Préliminaires Expérimentations D. complètes App. avec D. incomplètes Conclusion

Espaces de recherche

Recherche d’un bon réseau bayésien :exhaustive = impossible / taille de l’espace

nDAG(n) = n2O(n)

nDAG(5) = 29 281, nDAG(8) = 783 702 329 343, nDAG(10) ' 4, 175× 1018

Dans quel espace ?espace des arbresespace des DAG respectant un ordre d’énumérationespace des DAG avec un nombre max. de parents

espace des DAG (heuristiques de parcours)espace des classes d’équivalence de Markov (heur.)

→ CPDAG : représentants ’minimaux’ des classes d’équivalence

8/37

Préliminaires Expérimentations D. complètes App. avec D. incomplètes Conclusion

Apprentissage de structure à partir de données complètes

Méthodestestées

Espaces An

Co

ntra

inte

s PC CPDAG 93

BNPC CPDAG 02

Sco

res

MWST arbres 94K2 ordre fixe 92

GS DAG 95GES CPDAG 02

8/37

Préliminaires Expérimentations D. complètes App. avec D. incomplètes Conclusion

Apprentissage de structure à partir de données complètes

Méthodestestées

Espaces An Autres mé-thodes

An

Co

ntra

inte

s PC CPDAG 93 IC/IC* 93,00FCI/QFCI/AFCI 00,03,06

BNPC CPDAG 02 RAI 05MFC 06

Sco

res

MWST arbres 94K2 ordre fixe 92 MCMC 00

Fourmis 02GS DAG 95 Algos G 04,06GES CPDAG 02 K2+GSno+GES 06

Co

nt.

CPDAG Grow-Shrink 03MaxMin HillC 05

9/37

Préliminaires Expérimentations D. complètes App. avec D. incomplètes Conclusion

Problèmes d’initialisation : K2

Rythme respiratoire

Rythme cardiaque

Conductivite de la peau

Perdue

Etat emotionnel

GPS

Agenda

Decision

Rythme respiratoire

Rythme cardiaque

Conductivite de la peau

Perdue

Etat emotionnel

GPS

Agenda

Decision

Rythme respiratoire

Rythme cardiaque

Conductivite de la peau

Perdue

Etat emotionnel

GPS

Agenda

Decision

Rythme respiratoire

Rythme cardiaque

Conductivite de la peau

Perdue

Etat emotionnel

GPS

Agenda

Decision

Rythme respiratoire

Rythme cardiaque

Conductivite de la peau

Perdue

Etat emotionnel

GPS

Agenda

Decision

Rythme respiratoire

Rythme cardiaque

Conductivite de la peau

Perdue

Etat emotionnel

GPS

Agenda

Decision

9/37

Préliminaires Expérimentations D. complètes App. avec D. incomplètes Conclusion

Problèmes d’initialisation : K2

Orig.

Rythme respiratoire

Rythme cardiaque

Conductivite de la peau

Perdue

Etat emotionnel

GPS

Agenda

Decision

Rythme respiratoire

Rythme cardiaque

Conductivite de la peau

Perdue

Etat emotionnel

GPS

Agenda

Decision

MWST

K2+T

Rythme respiratoire

Rythme cardiaque

Conductivite de la peau

Perdue

Etat emotionnel

GPS

Agenda

Decision

Rythme respiratoire

Rythme cardiaque

Conductivite de la peau

Perdue

Etat emotionnel

GPS

Agenda

Decision

K2-T

10/37

Préliminaires Expérimentations D. complètes App. avec D. incomplètes Conclusion

Problèmes d’initialisation : Greedy Search

Orig.

Rythme respiratoire

Rythme cardiaque

Conductivite de la peau

Perdue

Etat emotionnel

GPS

Agenda

Decision

Rythme respiratoire

Rythme cardiaque

Conductivite de la peau

Perdue

Etat emotionnel

GPS

Agenda

Decision

GS

MWST

Rythme respiratoire

Rythme cardiaque

Conductivite de la peau

Perdue

Etat emotionnel

GPS

Agenda

Decision

Rythme respiratoire

Rythme cardiaque

Conductivite de la peau

Perdue

Etat emotionnel

GPS

Agenda

Decision

GS+T

10/37

Préliminaires Expérimentations D. complètes App. avec D. incomplètes Conclusion

Problèmes d’initialisation : Greedy Search

Orig.

Rythme respiratoire

Rythme cardiaque

Conductivite de la peau

Perdue

Etat emotionnel

GPS

Agenda

Decision

Rythme respiratoire

Rythme cardiaque

Conductivite de la peau

Perdue

Etat emotionnel

GPS

Agenda

Decision

6s

0, 2s

Rythme respiratoire

Rythme cardiaque

Conductivite de la peau

Perdue

Etat emotionnel

GPS

Agenda

Decision

Rythme respiratoire

Rythme cardiaque

Conductivite de la peau

Perdue

Etat emotionnel

GPS

Agenda

Decision

2, 5s

11/37

Préliminaires Expérimentations D. complètes App. avec D. incomplètes Conclusion

Des réseaux et des tests. . .

2

1

3

4 65

1

2

4

53

1 2 3

4

6

75

X

A S

BLT

E

D

SocioEcon

GoodStudent RiskAversion

VehicleYear MakeModel

AntiTheft HomeBase

OtherCar

Age

DrivingSkill

SeniorTrain

MedCost

DrivQuality DrivHistRuggedAuto AntilockCarValue Airbag

Accident

ThisCarDam OtherCarCost ILiCost

ThisCarCost

Cushioning

Mileage

PropCost

Theft

→ retrouver ces structures à partir de bases de différentes tailles.314 problèmes synthétiques et 17 problèmes réels (UCI, Statlog).

Nous avons testé :

performances KLperformances distance d’édition

recherche de structures complexesefficacité à retrouver une dépendance faiblestabilité BICstabilité KLtemps de calcul

11/37

Préliminaires Expérimentations D. complètes App. avec D. incomplètes Conclusion

Des réseaux et des tests. . .

Nous avons testé :performances BICperformances KLperformances distance d’éditioninfluence de la taille de la base d’exemplesrecherche de structures complexesefficacité à retrouver une dépendance faiblestabilité BICstabilité KLtemps de calculutilisation des RB en classification

11/37

Préliminaires Expérimentations D. complètes App. avec D. incomplètes Conclusion

Des réseaux et des tests. . .

Nous avons testé :performances BICperformances KLperformances distance d’éditioninfluence de la taille de la base d’exemplesrecherche de structures complexesefficacité à retrouver une dépendance faiblestabilité BICstabilité KLtemps de calculutilisation des RB en classification

12/37

Préliminaires Expérimentations D. complètes App. avec D. incomplètes Conclusion

Performances BIC

100 200 300 400 500 600 700 800 900 1000

−4.85

−4.8

−4.75

−4.7

−4.65

−4.6

−4.55

x 104

MWSTbicGESbic

12/37

Préliminaires Expérimentations D. complètes App. avec D. incomplètes Conclusion

Performances BIC

100 200 300 400 500 600 700 800 900 1000

−4.85

−4.8

−4.75

−4.7

−4.65

−4.6

−4.55

x 104

MWSTbicK2RndK2pTK2mTGESbic

1 exécution

Meilleur résultat pour 5 exécutions

1 exécution

12/37

Préliminaires Expérimentations D. complètes App. avec D. incomplètes Conclusion

Performances BIC

100 200 300 400 500 600 700 800 900 1000

−4.85

−4.8

−4.75

−4.7

−4.65

−4.6

−4.55

x 104

MWSTbicGSbic0GSbicTGESbic

13/37

Préliminaires Expérimentations D. complètes App. avec D. incomplètes Conclusion

Le réseau Naïf

augmenté par un arbre (TAN)

Supposons que les attributs soient indépendants 2 à 2conditionnellement à la classe, alors

A B DC E F G

Classe [P(C=i)] i

[P(A=a|C=i)] a,i

13/37

Préliminaires Expérimentations D. complètes App. avec D. incomplètes Conclusion

Le réseau Naïf augmenté par un arbre (TAN)

Supposons que les attributs NE soient PLUS indépendants 2 à 2conditionnellement à la classe, alors

A B DC E F G

Classe

14/37

Préliminaires Expérimentations D. complètes App. avec D. incomplètes Conclusion

Performance en classification

64 66 68 70 72 74 760.7

0.75

0.8

0.85

0.9

0.95

1

Taux de classification moyen

Sco

re B

IC n

orm

alis

e

(17 prbs de UCI)

14/37

Préliminaires Expérimentations D. complètes App. avec D. incomplètes Conclusion

Performance en classification

64 66 68 70 72 74 760.7

0.75

0.8

0.85

0.9

0.95

1

Taux de classification moyen

Sco

re B

IC n

orm

alis

e

PC

MWST BIC

K2 Rnd

NB

(17 prbs de UCI)

14/37

Préliminaires Expérimentations D. complètes App. avec D. incomplètes Conclusion

Performance en classification

64 66 68 70 72 74 760.7

0.75

0.8

0.85

0.9

0.95

1

Taux de classification moyen

Sco

re B

IC n

orm

alis

e

PC

MWST BIC

K2 Rnd

NB

K2+T

K2−T

(17 prbs de UCI)

14/37

Préliminaires Expérimentations D. complètes App. avec D. incomplètes Conclusion

Performance en classification

64 66 68 70 72 74 760.7

0.75

0.8

0.85

0.9

0.95

1

Taux de classification moyen

Sco

re B

IC n

orm

alis

e

PC

MWST BIC

K2 Rnd

NB

K2+T

K2−T

GS−BIC

(17 prbs de UCI)

14/37

Préliminaires Expérimentations D. complètes App. avec D. incomplètes Conclusion

Performance en classification

64 66 68 70 72 74 760.7

0.75

0.8

0.85

0.9

0.95

1

Taux de classification moyen

Sco

re B

IC n

orm

alis

e

PC

MWST BIC

K2 Rnd

NB

K2+T

K2−T

GS−BIC GS+T−BIC

(17 prbs de UCI)

14/37

Préliminaires Expérimentations D. complètes App. avec D. incomplètes Conclusion

Performance en classification

64 66 68 70 72 74 760.7

0.75

0.8

0.85

0.9

0.95

1

Taux de classification moyen

Sco

re B

IC n

orm

alis

e

PC

MWST BIC

K2 Rnd

NB

K2+T

K2−T

GS−BIC GS+T−BIC 250s 95s

(17 prbs de UCI)

14/37

Préliminaires Expérimentations D. complètes App. avec D. incomplètes Conclusion

Performance en classification

64 66 68 70 72 74 760.7

0.75

0.8

0.85

0.9

0.95

1

Taux de classification moyen

Sco

re B

IC n

orm

alis

e

PC

MWST BIC

K2 Rnd

NB

K2+T

K2−T

GS−BIC GS+T−BIC

GES

(17 prbs de UCI)

14/37

Préliminaires Expérimentations D. complètes App. avec D. incomplètes Conclusion

Performance en classification

64 66 68 70 72 74 760.7

0.75

0.8

0.85

0.9

0.95

1

Taux de classification moyen

Sco

re B

IC n

orm

alis

e

PC

MWST BIC

K2 Rnd

NB

K2+T

K2−T

GS−BIC GS+T−BIC

GES

GS−BD

(17 prbs de UCI)

14/37

Préliminaires Expérimentations D. complètes App. avec D. incomplètes Conclusion

Performance en classification

64 66 68 70 72 74 760.7

0.75

0.8

0.85

0.9

0.95

1

Taux de classification moyen

Sco

re B

IC n

orm

alis

e

PC

MWST BIC

K2 Rnd

NB

K2+T

K2−T

GS−BIC GS+T−BIC

GES

GS−BD

GS+T−BD

(17 prbs de UCI)

14/37

Préliminaires Expérimentations D. complètes App. avec D. incomplètes Conclusion

Performance en classification

64 66 68 70 72 74 760.7

0.75

0.8

0.85

0.9

0.95

1

Taux de classification moyen

Sco

re B

IC n

orm

alis

e

PC

MWST BIC

K2 Rnd

NB

K2+T

K2−T

GS−BIC GS+T−BIC

GES

GS−BD

GS+T−BD

TAN−BIC

(17 prbs de UCI)

14/37

Préliminaires Expérimentations D. complètes App. avec D. incomplètes Conclusion

Performance en classification

64 66 68 70 72 74 760.7

0.75

0.8

0.85

0.9

0.95

1

Taux de classification moyen

Sco

re B

IC n

orm

alis

e

PC

MWST BIC

K2 Rnd

NB

K2+T

K2−T

GS−BIC GS+T−BIC

GES

GS−BD

GS+T−BD

TAN−BIC

320s

1,5s

(17 prbs de UCI)

15/37

Préliminaires Expérimentations D. complètes App. avec D. incomplètes Conclusion

Plan de l’exposé

1) Apprentissage de structure de RB avec D. complètesEtat de l’artNotre propositionRésultats

2) Apprentissage de RB avec D. incomplètesEtat de l’artNos propositions : MWST-EM et SEM+TRésultats et interprétationsApplication à la classification : TAN-EM

3) Conclusion et Perspectives

16/37

Préliminaires Expérimentations D. complètes App. avec D. incomplètes Conclusion

Réseaux Bayésiens et données incomplètes

- Les RB peuvent naturellement effectuer de l’inférenceavec des données manquantes.

- Des heuristiques (EM, MCMC. . .) ont été adaptées pourl’estimation des paramètres.

Qu’en est-il pour l’apprentissage de structure ?

AMS-EM : recherche gloutonne de DAG SEM(Friedman’97)BS-EM : recherche gloutonne de DAG (Friedman’98)Algo. evolutionnaires et MCMC (Myers’99)Hybrid Independence Test (Dash’03)

16/37

Préliminaires Expérimentations D. complètes App. avec D. incomplètes Conclusion

Réseaux Bayésiens et données incomplètes

- Les RB peuvent naturellement effectuer de l’inférenceavec des données manquantes.

- Des heuristiques (EM, MCMC. . .) ont été adaptées pourl’estimation des paramètres.

Qu’en est-il pour l’apprentissage de structure ?AMS-EM : recherche gloutonne de DAG SEM(Friedman’97)BS-EM : recherche gloutonne de DAG (Friedman’98)Algo. evolutionnaires et MCMC (Myers’99)Hybrid Independence Test (Dash’03)

17/37

Préliminaires Expérimentations D. complètes App. avec D. incomplètes Conclusion

Motivation

Vu précédement (RFIA’04)MWST : bon rapport complexité/performanceGS+T : permet de gagner en stabilitéSEM = GS avec BIC/MDL + EM

MWST-EM = MWST + EM

Le rapport complexité/perfs. de MWST-EM est-il bon ?MWST-EM est-t’il une bonne initialisation pour SEM ?−→ SEM+T

18/37

Préliminaires Expérimentations D. complètes App. avec D. incomplètes Conclusion

Donner un score à partir d’une base incomplète

Soit S(M|Dc), un critère de score pour un modèle Met des données complètes Dc

Comment évaluer S lorsque la base est incomplète ?

D =< O, H >

Prendre l’espérance ?

QS(M|D) = EH∼P(H|O,µ)

[S(M|O, H)

]Mais la loi P(H|O, µ) est inconnue ! ! !

18/37

Préliminaires Expérimentations D. complètes App. avec D. incomplètes Conclusion

Donner un score à partir d’une base incomplète

Utiliser un modèle ?

Principe EM : E. . .

Supposons que M0 a généré D

QS(M|D) ≈ QS(M : M0|D)= EH∼P(H|O,M0)

[S(M|O, H)

]= ∑

HS(M|O, H)P(H|O,M0)

Ou la loi a posteriori P(H|O,M0) est connue.

19/37

Préliminaires Expérimentations D. complètes App. avec D. incomplètes Conclusion

Structural-EM

Principe EM : . . .et M

Choisir un modèle M0 (⇒ P(H|O,M0))

Trouver un modèle Mi+1 qui maximise∗∗

le score QS(M : Mi |D)

Utiliser le nouveau modèle comme référencepour l’itération suivante jusqu’à convergence.

∗∗ Mi+1 = {G i+1, Θi+1}Comment maximiser ?

20/37

Préliminaires Expérimentations D. complètes App. avec D. incomplètes Conclusion

algorithme MWST-EM détaillé

1: Init : fini = faux , i = 0Choix d’un réseau bayésien initial (T 0, Θ0,0)

2: Répéter

3: j = 04: Répéter5: Θi ,j+1 = argmax

ΘQ(T i , Θ : T i , Θi ,j)

6: j = j + 17: Jusqu’à convergence de Θi ,j

8: Si i = 0 ou Q(T i , Θi ,j : T i−1, Θi−1,j) −Q(T i−1, Θi−1,j : T i−1, Θi−1,j) > ε Alors

9: T i+1 = argmaxT

Q(T , • : T i , Θi ,j)

10: Θi+1,0 = argmaxΘ

Q(T i+1, Θ : T i , Θi ,j)

11: i = i + 112: Sinon13: fini = vrai14: Fin Si15: Jusqu’à fini = vrai

O

0,0(T ,O )

T

0

20/37

Préliminaires Expérimentations D. complètes App. avec D. incomplètes Conclusion

algorithme MWST-EM détaillé

1: Init : fini = faux , i = 0Choix d’un réseau bayésien initial (T 0, Θ0,0)

2: Répéter3: j = 04: Répéter5: Θi ,j+1 = argmax

ΘQ(T i , Θ : T i , Θi ,j)

6: j = j + 17: Jusqu’à convergence de Θi ,j

8: Si i = 0 ou Q(T i , Θi ,j : T i−1, Θi−1,j) −Q(T i−1, Θi−1,j : T i−1, Θi−1,j) > ε Alors

9: T i+1 = argmaxT

Q(T , • : T i , Θi ,j)

10: Θi+1,0 = argmaxΘ

Q(T i+1, Θ : T i , Θi ,j)

11: i = i + 112: Sinon13: fini = vrai14: Fin Si15: Jusqu’à fini = vrai

O

0,0

0,j

(T ,O )

T

(T ,O )0

0

20/37

Préliminaires Expérimentations D. complètes App. avec D. incomplètes Conclusion

algorithme MWST-EM détaillé

1: Init : fini = faux , i = 0Choix d’un réseau bayésien initial (T 0, Θ0,0)

2: Répéter3: j = 04: Répéter5: Θi ,j+1 = argmax

ΘQ(T i , Θ : T i , Θi ,j)

6: j = j + 17: Jusqu’à convergence de Θi ,j

8: Si i = 0 ou Q(T i , Θi ,j : T i−1, Θi−1,j) −Q(T i−1, Θi−1,j : T i−1, Θi−1,j) > ε Alors

9: T i+1 = argmaxT

Q(T , • : T i , Θi ,j)

procédure de type Kruskal

10: Θi+1,0 = argmaxΘ

Q(T i+1, Θ : T i , Θi ,j)

11: i = i + 112: Sinon13: fini = vrai14: Fin Si15: Jusqu’à fini = vrai

O

0,0

0,j

(T ,O )

T

(T ,O )0

0

1 T

20/37

Préliminaires Expérimentations D. complètes App. avec D. incomplètes Conclusion

algorithme MWST-EM détaillé

1: Init : fini = faux , i = 0Choix d’un réseau bayésien initial (T 0, Θ0,0)

2: Répéter3: j = 04: Répéter5: Θi ,j+1 = argmax

ΘQ(T i , Θ : T i , Θi ,j)

6: j = j + 17: Jusqu’à convergence de Θi ,j

8: Si i = 0 ou Q(T i , Θi ,j : T i−1, Θi−1,j) −Q(T i−1, Θi−1,j : T i−1, Θi−1,j) > ε Alors

9: T i+1 = argmaxT

Q(T , • : T i , Θi ,j)

10: Θi+1,0 = argmaxΘ

Q(T i+1, Θ : T i , Θi ,j)

11: i = i + 112: Sinon13: fini = vrai14: Fin Si15: Jusqu’à fini = vrai

1,0(T ,O )

1

O

0,0

0,j

(T ,O )

T

(T ,O )0

0

20/37

Préliminaires Expérimentations D. complètes App. avec D. incomplètes Conclusion

algorithme MWST-EM détaillé

1: Init : fini = faux , i = 0Choix d’un réseau bayésien initial (T 0, Θ0,0)

2: Répéter3: j = 04: Répéter5: Θi ,j+1 = argmax

ΘQ(T i , Θ : T i , Θi ,j)

6: j = j + 17: Jusqu’à convergence de Θi ,j

8: Si i = 0 ou Q(T i , Θi ,j : T i−1, Θi−1,j) −Q(T i−1, Θi−1,j : T i−1, Θi−1,j) > ε Alors

9: T i+1 = argmaxT

Q(T , • : T i , Θi ,j)

10: Θi+1,0 = argmaxΘ

Q(T i+1, Θ : T i , Θi ,j)

11: i = i + 112: Sinon13: fini = vrai14: Fin Si15: Jusqu’à fini = vrai

2,0(T ,O )

2

2,j(T ,O )

2

1,0(T ,O )

1

O

0,0

1,j

0,j

(T ,O )

(T ,O )

T

(T ,O )

1

0

0

21/37

Préliminaires Expérimentations D. complètes App. avec D. incomplètes Conclusion

Nos propositions MWST-EM et TAN-EM

SEM : le nouveau modèle est choisi parmis les voisins dugraphe courant.

→ nombreuses itérations

MWST-EM : nous trouvons le ’meilleur’ modèle dansl’espace des arbres. (AKRR’05), (EGC’05)

→ peu d’itérations

Utilisation d’une méthode de type ’Kruskal itératif’[MQ

ij

]i ,j

=[Qbic(Xi , Pi = {Xj} : T ∗)−Qbic(Xi , Pi = ∅ : T ∗)

]

22/37

Préliminaires Expérimentations D. complètes App. avec D. incomplètes Conclusion

Nos propositions SEM+T et TAN-EM

SEM+T : le résultat de MWST-EM est utilisé pour initialiserSEM.

→ nombreuses itérations ?

TAN-EM : nous trouvons le ’meilleur’ Réseau NaïfAugmenté par un Arbre. (PGM’06)

→ peu d’itérations

[MQ

ij

]i ,j 6=C

=[Qbic(Xi , Pi = {Xj , C} : T ∗)−Qbic(Xi , Pi = {C} : T ∗)

]

23/37

Préliminaires Expérimentations D. complètes App. avec D. incomplètes Conclusion

Bases générés pour tester les méthodes

2

1

3

4 65

1

2

4

53

1 2

3

5

4

1 2 3

4

6

75

2

61 3

4

5

7

9

8

10

11

2 3 6 5 10

7

1

4

8

9

2 3

1 4

5

6

7

8

9

10 11

1213 X

A S

BLT

E

D

?

?

??

?

?

aléatoire

possiblesarcs

Structure

1 i n

1 i n

i1 n

M M M

H H H

O OO

Taux de données manquantes : {0, 2; 0, 3; 0, 4; 0, 5},Tailles des bases d’exemples : {100; 200; 400; 600; 1000; 2000}.−→ 2160 problèmes MCAR synthétiques,−→ 2160 problèmes MAR sythétiques et 5 problèmes réels.

24/37

Préliminaires Expérimentations D. complètes App. avec D. incomplètes Conclusion

Protocol de tests

Nous avons testé :pertinence de EM vs CCA et ACA,performances BIC,performances KL,influence de la taille de la base d’exemples,influence du taux de données manquantes,stabilité BIC,stabilité KL,l’utilisation des RB en classification,temps de calcul.

sur des données MCAR et MAR synthétiques (2160× 2 pbs). . .

24/37

Préliminaires Expérimentations D. complètes App. avec D. incomplètes Conclusion

Protocol de tests

Nous avons testé :pertinence de EM vs CCA et ACA,performances BIC,performances KL,influence de la taille de la base d’exemples,influence du taux de données manquantes,stabilité BIC,stabilité KL,l’utilisation des RB en classification,temps de calcul.

sur des données MCAR et MAR synthétiques (2160× 2 pbs). . .

25/37

Préliminaires Expérimentations D. complètes App. avec D. incomplètes Conclusion

Pertinence de EM vs CCA et ACAComparaison de performances pour la divergence KL :

0 0.5 1 1.5 2 2.50

0.5

1

1.5

2

2.5

EM

CC

A

95,7%

20% de données manquantesMWST-CCA, GS-CCA, GS+T-CCA versus MWST-EM, SEM, SEM+T

25/37

Préliminaires Expérimentations D. complètes App. avec D. incomplètes Conclusion

Pertinence de EM vs CCA et ACAComparaison de performances pour la divergence KL :

0 0.5 1 1.5 2 2.50

0.5

1

1.5

2

2.5

EM

CC

A

77,2%

30% de données manquantesMWST-CCA, GS-CCA, GS+T-CCA versus MWST-EM, SEM, SEM+T

25/37

Préliminaires Expérimentations D. complètes App. avec D. incomplètes Conclusion

Pertinence de EM vs CCA et ACAComparaison de performances pour la divergence KL :

0 0.2 0.4 0.6 0.8 1 1.2 1.4 1.60

0.2

0.4

0.6

0.8

1

1.2

1.4

1.6

EM

AC

A

30% de données manquantesMWST-ACA, GS-ACA, GS+T-ACA versus MWST-EM, SEM, SEM+T

25/37

Préliminaires Expérimentations D. complètes App. avec D. incomplètes Conclusion

Pertinence de EM vs CCA et ACAComparaison de performances pour la divergence KL :

0 0.5 1 1.5 2 2.50

0.5

1

1.5

2

2.5

EM

AC

A

40% de données manquantesMWST-ACA, GS-ACA, GS+T-ACA versus MWST-EM, SEM, SEM+T

25/37

Préliminaires Expérimentations D. complètes App. avec D. incomplètes Conclusion

Pertinence de EM vs CCA et ACAComparaison de performances pour la divergence KL :

0 0.5 1 1.5 2 2.5 3 3.5 4 4.5 50

0.5

1

1.5

2

2.5

3

3.5

4

4.5

5

EM

AC

A

50% de données manquantesMWST-ACA, GS-ACA, GS+T-ACA versus MWST-EM, SEM, SEM+T

26/37

Préliminaires Expérimentations D. complètes App. avec D. incomplètes Conclusion

performances KL

20 25 30 35 40 45 500

0.2

0.4

Taux de donnes manquantes

Div

erg

en

ce

de

KL

mo

ye

nn

e

MWST−ACAGS−ACAGS+T−ACAMWST−EMSEMSEM+T

27/37

Préliminaires Expérimentations D. complètes App. avec D. incomplètes Conclusion

Le réseau Naïf

Supposons que la classe a une influence sur toutes les variables,mais indépendamment

A B DC E F G

Classe [P(C=i)] i

[P(A=a|C=i)] a,i

Ce qu’il est possible de faire :

l’apprentissage des paramètres avec DI (par ex. avec EM),

l’inférence avec des Données Incomplètes.

etsi l’on veut ajouter ces dépendances automatiquement ?

−→ TAN-EM

27/37

Préliminaires Expérimentations D. complètes App. avec D. incomplètes Conclusion

Le réseau Naïf

Supposons que la classe a une influence sur toutes les variables,mais plus indépendamment

A B DC E F G

Classe

Ce qu’il est toujours possible de faire :

l’apprentissage des paramètres avec DI (par ex. avec EM),

l’inférence avec des Données Incomplètes.

etsi l’on veut ajouter ces dépendances automatiquement ?

−→ TAN-EM

28/37

Préliminaires Expérimentations D. complètes App. avec D. incomplètes Conclusion

Résultats en classification

N N app N test #C %EIHepatitis 20 90 65 2 8.4

House 17 290 145 2 46.7Horse 28 300 300 2 88.0

Thyroid 22 2800 972 2 29.9Mushrooms 23 5416 2708 2 30.5

65 70 75 80 85 90 95 100

0.7

0.75

0.8

0.85

0.9

0.95

1

NB−EMMWST−EMTAN−EMSEMSEM+T

29/37

Préliminaires Expérimentations D. complètes App. avec D. incomplètes Conclusion

Temps de calculs

NB-EM MWST-EM TAN-EM SEM SEM+T

tps de calcul 1,00 2,57 2,56 48,89 33,00taux de classif 84,72 82,80 87,24 78,68 78,96

’moyens’

30/37

Préliminaires Expérimentations D. complètes App. avec D. incomplètes Conclusion

Conclusions

Nous avons étudié empiriquement les performances del’arbre couvrant de poids maximal et introduit laméthode pour son apprentissage à partir de basesd’exemples incomplètes.

Bases d’exemples complètes ou incomplètes :Donne un bon résultat lorsque la taille de la based’exemples est faible.Donne un bon résultat lorsque le taux de donnéesmanquantes est élevé.Est très stable par rapport à la taille de la based’exemple.Est très stable par rapport au taux de donnéesmanquantes.

31/37

Préliminaires Expérimentations D. complètes App. avec D. incomplètes Conclusion

Conclusions

Nous avons étudié empiriquement la pertinenced’initialiser des méthodes gloutonnes avec un arbrecouvrant de poids maximal.Bases d’exemples complètes ou incomplètes :

Augmente les performances et la stabilité del’algorithme K2.Augmente la stabilité et diminue le temps de calculde la méthode GS pour des performanceséquivalentes ou légèrement meilleures.

32/37

Préliminaires Expérimentations D. complètes App. avec D. incomplètes Conclusion

Conclusions

Nous avons généralisé la méthode TAN aux basesd’exemples incomplètes.

Bases d’exemples incomplètes :Très bonnes performances en classification.Temps d’apprentissage très court.

33/37

Préliminaires Expérimentations D. complètes App. avec D. incomplètes Conclusion

Conclusions

Nous avons introduit un formalisme de modélisation desdonnées manquantes.

Formalisme génératif.Aisé à comprendre pour les données MCAR et MAR.Complexe algorithmiquement lorsque le nombred’attributs augmente (→ inférence approchée).

. . .Et diffusé le code de toutes les fonctions utilisées.

34/37

Préliminaires Expérimentations D. complètes App. avec D. incomplètes Conclusion

Perspectives à court terme

Données ComplètesTester plus de méthodes(notamment les méthodes mixtes IC/score etcelles d’identification de la frontière de Markov).Mettre en œuvre certaines méthodes pour les basesmixtes.Adapter les méthodes d’apprentissage àl’identification de la causalité entre les attributs,

Génération de basesMettre en œuvre la méthode aux données mixtes.

35/37

Préliminaires Expérimentations D. complètes App. avec D. incomplètes Conclusion

Perspectives à court terme

Apprentissage avec données incomplètes(en cours) Etendre MWST-EM à la recherche deforêts optimales → Forest-EM.Etendre à la recherche de structure optimale avec unnombre de parents fixé (> 1).(en cours) Etendre SEM à la recherche dans l’espacedes équivalents de Markov → GES-EM.(en cours) Tester Forest-EM(en cours) Tester FAN-EM en classification.Généraliser TAN-EM et FAN-EM au non-supervisé.

36/37

Préliminaires Expérimentations D. complètes App. avec D. incomplètes Conclusion

Perspectives à plus long terme

ApprentissageAdapter les méthodes à base de tests statistiques auxbases incomplètes.Etendre ces méthodes d’apprentissage aux RBD.Etendre les méthodes d’apprentissage auxdiagrammes d’influence.(bientôt) Etendre les méthodes d’apprentissage auxPOMDP (processus de décision markoviens).(bientôt) Permettre une prise en compted’information experte plus simplement.Permettre un apprentissage incrémental/adaptatifpour les bases non stationnaires.Passer aux modèles partiellement orientés.

37/37

Préliminaires Expérimentations D. complètes App. avec D. incomplètes Conclusion

Revues :Leray, P. et François, O. : Réseaux Bayésiens pour laClassification - Méthodologie et Illustration dans lecadre du Diagnostic Médical, Revue d’IntelligenceArtificielle, ISBN : 2-7462-0912-8, vol. 18, no 2/2004, pp169-193, 2004

François, O. et Leray, P. : Etude Comparatived’Algorithmes d’Apprentissage de Structure dans lesRéseaux Bayésiens, Journal électronique d’intelligenceartificielle, vol. 5, no 39, pp1–19, 2004. Best paper de RJCIA’03.

Conférences internationales :François, O.C.H et Leray, P. : Learning the TreeAugmented Naive Bayes Classifier from incompletedatasets, Proceedings of the Third European Workshop onProbabilistic Graphical Models (PGM’06), Prague, Czech Republic,ISBN : 80-86742-14-8, pp91-98, 2006.

Leray, P. et François, O. : Bayesian Network StructuralLearning and Incomplete Data, International andInterdisciplinary Conference on Adaptive KnowledgeRepresentation and Reasoning (AKRR’05), pp33-40, Finland, 2005.

Conférences nationales :François, O. et Leray, P. : Apprentissage de structuredans les réseaux bayésiens et données incomplètes,journées Extraction et Gestion de Connaissances (Best paper deEGC’05), Revue des Nouvelles Technologies de l’Information(RNTI-E-3), Cépaduès Ed., ISBN : 2-85428-677-4, pp127–132, 2005,

François, O. et Leray, P. : Evaluation d’algorithmesd’apprentissage de structure pour les réseauxbayésiens, 14ieme Congrès francophone de Reconnaissancedes formes et d’Intelligence artificielle (RFIA’04), pp1453-1460, 2004.

Autre publication :Leray, P. et François, O. : BNT Structure LearningPackage : Documentation and Experiments, Rapporttechnique du Laboratoire PSI, INSA de Rouen, no 2004/PhLOF, 2004.

http://bnt.insa-rouen.fr/

Merci pour votre attention.Questions ?

Remarques ?Suggestions ?

top related