de l'identification de structure de réseaux bayésiens à la

84
1/37 Préliminaires Expérimentations D. complètes App. avec D. incomplètes Conclusion De l’identification de structure de réseaux bayésiens à la reconnaissance de formes à partir d’informations complètes ou incomplètes Olivier F RANÇOIS Encadrant : Philippe L ERAY Directeur : Stéphane CANU Laboratoire LITIS , Rouen présenté le mardi 28 novembre 2006

Upload: others

Post on 18-Jun-2022

1 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: De l'identification de structure de réseaux bayésiens à la

1/37

Préliminaires Expérimentations D. complètes App. avec D. incomplètes Conclusion

De l’identification de structure de réseaux bayésiensà la reconnaissance de formes

à partir d’informations complètes ou incomplètes

Olivier FRANÇOIS

Encadrant : Philippe LERAY

Directeur : Stéphane CANU

Laboratoire LITIS , Rouen

présenté le mardi 28 novembre 2006

Page 2: De l'identification de structure de réseaux bayésiens à la

2/37

Préliminaires Expérimentations D. complètes App. avec D. incomplètes Conclusion

Page 3: De l'identification de structure de réseaux bayésiens à la

2/37

Préliminaires Expérimentations D. complètes App. avec D. incomplètes Conclusion

Etat Emotionnel

Page 4: De l'identification de structure de réseaux bayésiens à la

2/37

Préliminaires Expérimentations D. complètes App. avec D. incomplètes Conclusion

Etat Emotionnel

Perdue

Page 5: De l'identification de structure de réseaux bayésiens à la

2/37

Préliminaires Expérimentations D. complètes App. avec D. incomplètes Conclusion

Etat Emotionnel

Perdue

Electronique

positionnementGaliléo

Système de

Agenda

Page 6: De l'identification de structure de réseaux bayésiens à la

2/37

Préliminaires Expérimentations D. complètes App. avec D. incomplètes Conclusion

Etat Emotionnel

Perdue

Electronique

positionnementGaliléo

Système de

Agenda

Page 7: De l'identification de structure de réseaux bayésiens à la

2/37

Préliminaires Expérimentations D. complètes App. avec D. incomplètes Conclusion

Etat Emotionnel

Perdue

Electronique

positionnementGaliléo

Système de

Agenda

Page 8: De l'identification de structure de réseaux bayésiens à la

2/37

Préliminaires Expérimentations D. complètes App. avec D. incomplètes Conclusion

Etat Emotionnel

PerdueRythme

respiratoire

Rythmecardiaque Electronique

positionnementGaliléo

Système de

Agenda

Conductivitéde la peau

Page 9: De l'identification de structure de réseaux bayésiens à la

2/37

Préliminaires Expérimentations D. complètes App. avec D. incomplètes Conclusion

Etat Emotionnel

PerdueRythme

respiratoire

Rythmecardiaque Electronique

positionnementGaliléo

Système de

Agenda

Conductivitéde la peau

Page 10: De l'identification de structure de réseaux bayésiens à la

2/37

Préliminaires Expérimentations D. complètes App. avec D. incomplètes Conclusion

Etat Emotionnel

PerdueRythme

respiratoire

Rythmecardiaque Electronique

positionnementGaliléo

Système de

Agenda

Conductivitéde la peau

Page 11: De l'identification de structure de réseaux bayésiens à la

2/37

Préliminaires Expérimentations D. complètes App. avec D. incomplètes Conclusion

Etat Emotionnel

PerdueRythme

respiratoire

Rythmecardiaque Electronique

positionnementGaliléo

Système de

Agenda

Conductivitéde la peau Conseil

Page 12: De l'identification de structure de réseaux bayésiens à la

2/37

Préliminaires Expérimentations D. complètes App. avec D. incomplètes Conclusion

Etat Emotionnel

PerdueRythme

respiratoire

Rythmecardiaque Electronique

positionnementGaliléo

Système de

Agenda

Conductivitéde la peau Conseil

Page 13: De l'identification de structure de réseaux bayésiens à la

3/37

Préliminaires Expérimentations D. complètes App. avec D. incomplètes Conclusion

Définition d’un Réseau Bayésien

Etat Emotionnel

PerdueRythme

respiratoire

Rythmecardiaque Electronique

positionnementGaliléo

Système de

Agenda

Conductivitéde la peau

FaibleNormalElevé

FaibleNormaleForte

FaibleNormalElevé

Non agoisséeAngoissée

OuiNon

Ne rien faireAfficher la carte

Afficher l’agenda

CommerceRue

SoinsFamilleDomicile

(Lieu ; tranche horraire)

Conseil

Page 14: De l'identification de structure de réseaux bayésiens à la

3/37

Préliminaires Expérimentations D. complètes App. avec D. incomplètes Conclusion

Définition d’un Réseau Bayésien

Etat Emotionnel

PerdueRythme

respiratoire

Rythmecardiaque Electronique

positionnementGaliléo

Système de

Agenda

Conductivitéde la peau Conseil

Page 15: De l'identification de structure de réseaux bayésiens à la

4/37

Préliminaires Expérimentations D. complètes App. avec D. incomplètes Conclusion

Apprentissage de structure : Pourquoi ?

Etat Emotionnel

PerdueRythme

respiratoire

Rythmecardiaque Electronique

positionnementGaliléo

Système de

Agenda

Conductivitéde la peau

FaibleNormalElevé

FaibleNormaleForte

FaibleNormalElevé

Non agoisséeAngoissée

OuiNon

Ne rien faireAfficher la carte

Afficher l’agenda

CommerceRue

SoinsFamilleDomicile

(Commerce ; 9H−9H30)

Conseil

Page 16: De l'identification de structure de réseaux bayésiens à la

4/37

Préliminaires Expérimentations D. complètes App. avec D. incomplètes Conclusion

Apprentissage de structure : Pourquoi ?

Etat Emotionnel

PerdueRythme

respiratoire

Rythmecardiaque Electronique

positionnementGaliléo

Système de

Agenda

Conductivitéde la peau

FaibleNormalElevé

FaibleNormaleForte

FaibleNormalElevé

Non agoisséeAngoissée

OuiNon

Ne rien faireAfficher la carte

Afficher l’agenda

CommerceRue

SoinsFamilleDomicile

(Commerce ; 9H−9H30)

0.5 −> 0.010.1 −> 0.990.4 −> 0.00Conseil

Page 17: De l'identification de structure de réseaux bayésiens à la

4/37

Préliminaires Expérimentations D. complètes App. avec D. incomplètes Conclusion

Apprentissage de structure : Pourquoi ?

Etat Emotionnel

PerdueRythme

respiratoire

Rythmecardiaque Electronique

positionnementGaliléo

Système de

Agenda

Conductivitéde la peau

FaibleNormalElevé

FaibleNormaleForte

FaibleNormalElevé

Non agoisséeAngoissée

OuiNon

Ne rien faireAfficher la carte

Afficher l’agenda

CommerceRue

SoinsFamilleDomicile

(Commerce ; 9H−9H30)

0.5 −> 0.010.1 −> 0.990.4 −> 0.00

0.2 −> 0.99

Conseil

Page 18: De l'identification de structure de réseaux bayésiens à la

4/37

Préliminaires Expérimentations D. complètes App. avec D. incomplètes Conclusion

Apprentissage de structure : Pourquoi ?

Etat Emotionnel

PerdueRythme

respiratoire

Rythmecardiaque Electronique

positionnementGaliléo

Système de

Agenda

Conductivitéde la peau Conseil

Page 19: De l'identification de structure de réseaux bayésiens à la

5/37

Préliminaires Expérimentations D. complètes App. avec D. incomplètes Conclusion

Plan de l’exposé

Etude empirique d’algorithmes d’apprentissage destructure de Réseaux Bayésiens à partir de basesd’exemples complètement observées.

Utilisation de Benchmarks existants (jouets ou réels)

Etude empirique d’algorithmes d’apprentissage destructure de Réseaux Bayésiens à partir de basesd’exemples partiellement observées.

Utilisation de Benchmarks existants (jouets ou réels)

Génération de bases d’exemples incomplètes

Page 20: De l'identification de structure de réseaux bayésiens à la

5/37

Préliminaires Expérimentations D. complètes App. avec D. incomplètes Conclusion

Plan de l’exposé

Etude empirique d’algorithmes d’apprentissage destructure de Réseaux Bayésiens à partir de basesd’exemples complètement observées.

Utilisation de Benchmarks existants (jouets ou réels)

Etude empirique d’algorithmes d’apprentissage destructure de Réseaux Bayésiens à partir de basesd’exemples partiellement observées.

Utilisation de Benchmarks existants (jouets ou réels)

Génération de bases d’exemples incomplètes

Page 21: De l'identification de structure de réseaux bayésiens à la

5/37

Préliminaires Expérimentations D. complètes App. avec D. incomplètes Conclusion

Plan de l’exposé

1) Apprentissage de structure de RB avec D. complètesEtat de l’artNotre propositionRésultats

2) Apprentissage de RB avec D. incomplètesEtat de l’artNos propositions : MWST-EM et SEM+TRésultats et interprétationsApplication à la classification : TAN-EM

3) Conclusion et Perspectives

Page 22: De l'identification de structure de réseaux bayésiens à la

6/37

Préliminaires Expérimentations D. complètes App. avec D. incomplètes Conclusion

Apprentissage de structure

Deux classes d’algorithmes :

Méthodes à base de contraintesUtiliser des tests statistiques pour identifier lesindépendances conditionnelles des attributs et endéduire une structure.→ test du χ2

→ test du rapport devraisemblance

→ information mutuelle

→ étude des corrélations. . .

Méthodes à base de scoreMaximiser une mesure/approximation dela vraisemblance marginale dans un espace destructures.→ scores BD, BDe, BDeu

→ critères AIC et BIC

→ M inimum Description Length

→ approximation de Laplace aun-ième ordre

→ AICc, ICL . . .

Page 23: De l'identification de structure de réseaux bayésiens à la

7/37

Préliminaires Expérimentations D. complètes App. avec D. incomplètes Conclusion

Espaces de recherche

Recherche d’un bon réseau bayésien :exhaustive = impossible / taille de l’espace

nDAG(n) = n2O(n)

nDAG(5) = 29 281, nDAG(8) = 783 702 329 343, nDAG(10) ' 4, 175× 1018

Dans quel espace ?espace des arbresespace des DAG respectant un ordre d’énumérationespace des DAG avec un nombre max. de parents

espace des DAG (heuristiques de parcours)espace des classes d’équivalence de Markov (heur.)

→ CPDAG : représentants ’minimaux’ des classes d’équivalence

Page 24: De l'identification de structure de réseaux bayésiens à la

7/37

Préliminaires Expérimentations D. complètes App. avec D. incomplètes Conclusion

Espaces de recherche

Recherche d’un bon réseau bayésien :exhaustive = impossible / taille de l’espace

nDAG(n) = n2O(n)

nDAG(5) = 29 281, nDAG(8) = 783 702 329 343, nDAG(10) ' 4, 175× 1018

Dans quel espace ?espace des arbresespace des DAG respectant un ordre d’énumérationespace des DAG avec un nombre max. de parents

espace des DAG (heuristiques de parcours)espace des classes d’équivalence de Markov (heur.)

→ CPDAG : représentants ’minimaux’ des classes d’équivalence

Page 25: De l'identification de structure de réseaux bayésiens à la

8/37

Préliminaires Expérimentations D. complètes App. avec D. incomplètes Conclusion

Apprentissage de structure à partir de données complètes

Méthodestestées

Espaces An

Co

ntra

inte

s PC CPDAG 93

BNPC CPDAG 02

Sco

res

MWST arbres 94K2 ordre fixe 92

GS DAG 95GES CPDAG 02

Page 26: De l'identification de structure de réseaux bayésiens à la

8/37

Préliminaires Expérimentations D. complètes App. avec D. incomplètes Conclusion

Apprentissage de structure à partir de données complètes

Méthodestestées

Espaces An Autres mé-thodes

An

Co

ntra

inte

s PC CPDAG 93 IC/IC* 93,00FCI/QFCI/AFCI 00,03,06

BNPC CPDAG 02 RAI 05MFC 06

Sco

res

MWST arbres 94K2 ordre fixe 92 MCMC 00

Fourmis 02GS DAG 95 Algos G 04,06GES CPDAG 02 K2+GSno+GES 06

Co

nt.

CPDAG Grow-Shrink 03MaxMin HillC 05

Page 27: De l'identification de structure de réseaux bayésiens à la

9/37

Préliminaires Expérimentations D. complètes App. avec D. incomplètes Conclusion

Problèmes d’initialisation : K2

Rythme respiratoire

Rythme cardiaque

Conductivite de la peau

Perdue

Etat emotionnel

GPS

Agenda

Decision

Rythme respiratoire

Rythme cardiaque

Conductivite de la peau

Perdue

Etat emotionnel

GPS

Agenda

Decision

Rythme respiratoire

Rythme cardiaque

Conductivite de la peau

Perdue

Etat emotionnel

GPS

Agenda

Decision

Rythme respiratoire

Rythme cardiaque

Conductivite de la peau

Perdue

Etat emotionnel

GPS

Agenda

Decision

Rythme respiratoire

Rythme cardiaque

Conductivite de la peau

Perdue

Etat emotionnel

GPS

Agenda

Decision

Rythme respiratoire

Rythme cardiaque

Conductivite de la peau

Perdue

Etat emotionnel

GPS

Agenda

Decision

Page 28: De l'identification de structure de réseaux bayésiens à la

9/37

Préliminaires Expérimentations D. complètes App. avec D. incomplètes Conclusion

Problèmes d’initialisation : K2

Orig.

Rythme respiratoire

Rythme cardiaque

Conductivite de la peau

Perdue

Etat emotionnel

GPS

Agenda

Decision

Rythme respiratoire

Rythme cardiaque

Conductivite de la peau

Perdue

Etat emotionnel

GPS

Agenda

Decision

MWST

K2+T

Rythme respiratoire

Rythme cardiaque

Conductivite de la peau

Perdue

Etat emotionnel

GPS

Agenda

Decision

Rythme respiratoire

Rythme cardiaque

Conductivite de la peau

Perdue

Etat emotionnel

GPS

Agenda

Decision

K2-T

Page 29: De l'identification de structure de réseaux bayésiens à la

10/37

Préliminaires Expérimentations D. complètes App. avec D. incomplètes Conclusion

Problèmes d’initialisation : Greedy Search

Orig.

Rythme respiratoire

Rythme cardiaque

Conductivite de la peau

Perdue

Etat emotionnel

GPS

Agenda

Decision

Rythme respiratoire

Rythme cardiaque

Conductivite de la peau

Perdue

Etat emotionnel

GPS

Agenda

Decision

GS

MWST

Rythme respiratoire

Rythme cardiaque

Conductivite de la peau

Perdue

Etat emotionnel

GPS

Agenda

Decision

Rythme respiratoire

Rythme cardiaque

Conductivite de la peau

Perdue

Etat emotionnel

GPS

Agenda

Decision

GS+T

Page 30: De l'identification de structure de réseaux bayésiens à la

10/37

Préliminaires Expérimentations D. complètes App. avec D. incomplètes Conclusion

Problèmes d’initialisation : Greedy Search

Orig.

Rythme respiratoire

Rythme cardiaque

Conductivite de la peau

Perdue

Etat emotionnel

GPS

Agenda

Decision

Rythme respiratoire

Rythme cardiaque

Conductivite de la peau

Perdue

Etat emotionnel

GPS

Agenda

Decision

6s

0, 2s

Rythme respiratoire

Rythme cardiaque

Conductivite de la peau

Perdue

Etat emotionnel

GPS

Agenda

Decision

Rythme respiratoire

Rythme cardiaque

Conductivite de la peau

Perdue

Etat emotionnel

GPS

Agenda

Decision

2, 5s

Page 31: De l'identification de structure de réseaux bayésiens à la

11/37

Préliminaires Expérimentations D. complètes App. avec D. incomplètes Conclusion

Des réseaux et des tests. . .

2

1

3

4 65

1

2

4

53

1 2 3

4

6

75

X

A S

BLT

E

D

SocioEcon

GoodStudent RiskAversion

VehicleYear MakeModel

AntiTheft HomeBase

OtherCar

Age

DrivingSkill

SeniorTrain

MedCost

DrivQuality DrivHistRuggedAuto AntilockCarValue Airbag

Accident

ThisCarDam OtherCarCost ILiCost

ThisCarCost

Cushioning

Mileage

PropCost

Theft

→ retrouver ces structures à partir de bases de différentes tailles.314 problèmes synthétiques et 17 problèmes réels (UCI, Statlog).

Nous avons testé :

performances KLperformances distance d’édition

recherche de structures complexesefficacité à retrouver une dépendance faiblestabilité BICstabilité KLtemps de calcul

Page 32: De l'identification de structure de réseaux bayésiens à la

11/37

Préliminaires Expérimentations D. complètes App. avec D. incomplètes Conclusion

Des réseaux et des tests. . .

Nous avons testé :performances BICperformances KLperformances distance d’éditioninfluence de la taille de la base d’exemplesrecherche de structures complexesefficacité à retrouver une dépendance faiblestabilité BICstabilité KLtemps de calculutilisation des RB en classification

Page 33: De l'identification de structure de réseaux bayésiens à la

11/37

Préliminaires Expérimentations D. complètes App. avec D. incomplètes Conclusion

Des réseaux et des tests. . .

Nous avons testé :performances BICperformances KLperformances distance d’éditioninfluence de la taille de la base d’exemplesrecherche de structures complexesefficacité à retrouver une dépendance faiblestabilité BICstabilité KLtemps de calculutilisation des RB en classification

Page 34: De l'identification de structure de réseaux bayésiens à la

12/37

Préliminaires Expérimentations D. complètes App. avec D. incomplètes Conclusion

Performances BIC

100 200 300 400 500 600 700 800 900 1000

−4.85

−4.8

−4.75

−4.7

−4.65

−4.6

−4.55

x 104

MWSTbicGESbic

Page 35: De l'identification de structure de réseaux bayésiens à la

12/37

Préliminaires Expérimentations D. complètes App. avec D. incomplètes Conclusion

Performances BIC

100 200 300 400 500 600 700 800 900 1000

−4.85

−4.8

−4.75

−4.7

−4.65

−4.6

−4.55

x 104

MWSTbicK2RndK2pTK2mTGESbic

1 exécution

Meilleur résultat pour 5 exécutions

1 exécution

Page 36: De l'identification de structure de réseaux bayésiens à la

12/37

Préliminaires Expérimentations D. complètes App. avec D. incomplètes Conclusion

Performances BIC

100 200 300 400 500 600 700 800 900 1000

−4.85

−4.8

−4.75

−4.7

−4.65

−4.6

−4.55

x 104

MWSTbicGSbic0GSbicTGESbic

Page 37: De l'identification de structure de réseaux bayésiens à la

13/37

Préliminaires Expérimentations D. complètes App. avec D. incomplètes Conclusion

Le réseau Naïf

augmenté par un arbre (TAN)

Supposons que les attributs soient indépendants 2 à 2conditionnellement à la classe, alors

A B DC E F G

Classe [P(C=i)] i

[P(A=a|C=i)] a,i

Page 38: De l'identification de structure de réseaux bayésiens à la

13/37

Préliminaires Expérimentations D. complètes App. avec D. incomplètes Conclusion

Le réseau Naïf augmenté par un arbre (TAN)

Supposons que les attributs NE soient PLUS indépendants 2 à 2conditionnellement à la classe, alors

A B DC E F G

Classe

Page 39: De l'identification de structure de réseaux bayésiens à la

14/37

Préliminaires Expérimentations D. complètes App. avec D. incomplètes Conclusion

Performance en classification

64 66 68 70 72 74 760.7

0.75

0.8

0.85

0.9

0.95

1

Taux de classification moyen

Sco

re B

IC n

orm

alis

e

(17 prbs de UCI)

Page 40: De l'identification de structure de réseaux bayésiens à la

14/37

Préliminaires Expérimentations D. complètes App. avec D. incomplètes Conclusion

Performance en classification

64 66 68 70 72 74 760.7

0.75

0.8

0.85

0.9

0.95

1

Taux de classification moyen

Sco

re B

IC n

orm

alis

e

PC

MWST BIC

K2 Rnd

NB

(17 prbs de UCI)

Page 41: De l'identification de structure de réseaux bayésiens à la

14/37

Préliminaires Expérimentations D. complètes App. avec D. incomplètes Conclusion

Performance en classification

64 66 68 70 72 74 760.7

0.75

0.8

0.85

0.9

0.95

1

Taux de classification moyen

Sco

re B

IC n

orm

alis

e

PC

MWST BIC

K2 Rnd

NB

K2+T

K2−T

(17 prbs de UCI)

Page 42: De l'identification de structure de réseaux bayésiens à la

14/37

Préliminaires Expérimentations D. complètes App. avec D. incomplètes Conclusion

Performance en classification

64 66 68 70 72 74 760.7

0.75

0.8

0.85

0.9

0.95

1

Taux de classification moyen

Sco

re B

IC n

orm

alis

e

PC

MWST BIC

K2 Rnd

NB

K2+T

K2−T

GS−BIC

(17 prbs de UCI)

Page 43: De l'identification de structure de réseaux bayésiens à la

14/37

Préliminaires Expérimentations D. complètes App. avec D. incomplètes Conclusion

Performance en classification

64 66 68 70 72 74 760.7

0.75

0.8

0.85

0.9

0.95

1

Taux de classification moyen

Sco

re B

IC n

orm

alis

e

PC

MWST BIC

K2 Rnd

NB

K2+T

K2−T

GS−BIC GS+T−BIC

(17 prbs de UCI)

Page 44: De l'identification de structure de réseaux bayésiens à la

14/37

Préliminaires Expérimentations D. complètes App. avec D. incomplètes Conclusion

Performance en classification

64 66 68 70 72 74 760.7

0.75

0.8

0.85

0.9

0.95

1

Taux de classification moyen

Sco

re B

IC n

orm

alis

e

PC

MWST BIC

K2 Rnd

NB

K2+T

K2−T

GS−BIC GS+T−BIC 250s 95s

(17 prbs de UCI)

Page 45: De l'identification de structure de réseaux bayésiens à la

14/37

Préliminaires Expérimentations D. complètes App. avec D. incomplètes Conclusion

Performance en classification

64 66 68 70 72 74 760.7

0.75

0.8

0.85

0.9

0.95

1

Taux de classification moyen

Sco

re B

IC n

orm

alis

e

PC

MWST BIC

K2 Rnd

NB

K2+T

K2−T

GS−BIC GS+T−BIC

GES

(17 prbs de UCI)

Page 46: De l'identification de structure de réseaux bayésiens à la

14/37

Préliminaires Expérimentations D. complètes App. avec D. incomplètes Conclusion

Performance en classification

64 66 68 70 72 74 760.7

0.75

0.8

0.85

0.9

0.95

1

Taux de classification moyen

Sco

re B

IC n

orm

alis

e

PC

MWST BIC

K2 Rnd

NB

K2+T

K2−T

GS−BIC GS+T−BIC

GES

GS−BD

(17 prbs de UCI)

Page 47: De l'identification de structure de réseaux bayésiens à la

14/37

Préliminaires Expérimentations D. complètes App. avec D. incomplètes Conclusion

Performance en classification

64 66 68 70 72 74 760.7

0.75

0.8

0.85

0.9

0.95

1

Taux de classification moyen

Sco

re B

IC n

orm

alis

e

PC

MWST BIC

K2 Rnd

NB

K2+T

K2−T

GS−BIC GS+T−BIC

GES

GS−BD

GS+T−BD

(17 prbs de UCI)

Page 48: De l'identification de structure de réseaux bayésiens à la

14/37

Préliminaires Expérimentations D. complètes App. avec D. incomplètes Conclusion

Performance en classification

64 66 68 70 72 74 760.7

0.75

0.8

0.85

0.9

0.95

1

Taux de classification moyen

Sco

re B

IC n

orm

alis

e

PC

MWST BIC

K2 Rnd

NB

K2+T

K2−T

GS−BIC GS+T−BIC

GES

GS−BD

GS+T−BD

TAN−BIC

(17 prbs de UCI)

Page 49: De l'identification de structure de réseaux bayésiens à la

14/37

Préliminaires Expérimentations D. complètes App. avec D. incomplètes Conclusion

Performance en classification

64 66 68 70 72 74 760.7

0.75

0.8

0.85

0.9

0.95

1

Taux de classification moyen

Sco

re B

IC n

orm

alis

e

PC

MWST BIC

K2 Rnd

NB

K2+T

K2−T

GS−BIC GS+T−BIC

GES

GS−BD

GS+T−BD

TAN−BIC

320s

1,5s

(17 prbs de UCI)

Page 50: De l'identification de structure de réseaux bayésiens à la

15/37

Préliminaires Expérimentations D. complètes App. avec D. incomplètes Conclusion

Plan de l’exposé

1) Apprentissage de structure de RB avec D. complètesEtat de l’artNotre propositionRésultats

2) Apprentissage de RB avec D. incomplètesEtat de l’artNos propositions : MWST-EM et SEM+TRésultats et interprétationsApplication à la classification : TAN-EM

3) Conclusion et Perspectives

Page 51: De l'identification de structure de réseaux bayésiens à la

16/37

Préliminaires Expérimentations D. complètes App. avec D. incomplètes Conclusion

Réseaux Bayésiens et données incomplètes

- Les RB peuvent naturellement effectuer de l’inférenceavec des données manquantes.

- Des heuristiques (EM, MCMC. . .) ont été adaptées pourl’estimation des paramètres.

Qu’en est-il pour l’apprentissage de structure ?

AMS-EM : recherche gloutonne de DAG SEM(Friedman’97)BS-EM : recherche gloutonne de DAG (Friedman’98)Algo. evolutionnaires et MCMC (Myers’99)Hybrid Independence Test (Dash’03)

Page 52: De l'identification de structure de réseaux bayésiens à la

16/37

Préliminaires Expérimentations D. complètes App. avec D. incomplètes Conclusion

Réseaux Bayésiens et données incomplètes

- Les RB peuvent naturellement effectuer de l’inférenceavec des données manquantes.

- Des heuristiques (EM, MCMC. . .) ont été adaptées pourl’estimation des paramètres.

Qu’en est-il pour l’apprentissage de structure ?AMS-EM : recherche gloutonne de DAG SEM(Friedman’97)BS-EM : recherche gloutonne de DAG (Friedman’98)Algo. evolutionnaires et MCMC (Myers’99)Hybrid Independence Test (Dash’03)

Page 53: De l'identification de structure de réseaux bayésiens à la

17/37

Préliminaires Expérimentations D. complètes App. avec D. incomplètes Conclusion

Motivation

Vu précédement (RFIA’04)MWST : bon rapport complexité/performanceGS+T : permet de gagner en stabilitéSEM = GS avec BIC/MDL + EM

MWST-EM = MWST + EM

Le rapport complexité/perfs. de MWST-EM est-il bon ?MWST-EM est-t’il une bonne initialisation pour SEM ?−→ SEM+T

Page 54: De l'identification de structure de réseaux bayésiens à la

18/37

Préliminaires Expérimentations D. complètes App. avec D. incomplètes Conclusion

Donner un score à partir d’une base incomplète

Soit S(M|Dc), un critère de score pour un modèle Met des données complètes Dc

Comment évaluer S lorsque la base est incomplète ?

D =< O, H >

Prendre l’espérance ?

QS(M|D) = EH∼P(H|O,µ)

[S(M|O, H)

]Mais la loi P(H|O, µ) est inconnue ! ! !

Page 55: De l'identification de structure de réseaux bayésiens à la

18/37

Préliminaires Expérimentations D. complètes App. avec D. incomplètes Conclusion

Donner un score à partir d’une base incomplète

Utiliser un modèle ?

Principe EM : E. . .

Supposons que M0 a généré D

QS(M|D) ≈ QS(M : M0|D)= EH∼P(H|O,M0)

[S(M|O, H)

]= ∑

HS(M|O, H)P(H|O,M0)

Ou la loi a posteriori P(H|O,M0) est connue.

Page 56: De l'identification de structure de réseaux bayésiens à la

19/37

Préliminaires Expérimentations D. complètes App. avec D. incomplètes Conclusion

Structural-EM

Principe EM : . . .et M

Choisir un modèle M0 (⇒ P(H|O,M0))

Trouver un modèle Mi+1 qui maximise∗∗

le score QS(M : Mi |D)

Utiliser le nouveau modèle comme référencepour l’itération suivante jusqu’à convergence.

∗∗ Mi+1 = {G i+1, Θi+1}Comment maximiser ?

Page 57: De l'identification de structure de réseaux bayésiens à la

20/37

Préliminaires Expérimentations D. complètes App. avec D. incomplètes Conclusion

algorithme MWST-EM détaillé

1: Init : fini = faux , i = 0Choix d’un réseau bayésien initial (T 0, Θ0,0)

2: Répéter

3: j = 04: Répéter5: Θi ,j+1 = argmax

ΘQ(T i , Θ : T i , Θi ,j)

6: j = j + 17: Jusqu’à convergence de Θi ,j

8: Si i = 0 ou Q(T i , Θi ,j : T i−1, Θi−1,j) −Q(T i−1, Θi−1,j : T i−1, Θi−1,j) > ε Alors

9: T i+1 = argmaxT

Q(T , • : T i , Θi ,j)

10: Θi+1,0 = argmaxΘ

Q(T i+1, Θ : T i , Θi ,j)

11: i = i + 112: Sinon13: fini = vrai14: Fin Si15: Jusqu’à fini = vrai

O

0,0(T ,O )

T

0

Page 58: De l'identification de structure de réseaux bayésiens à la

20/37

Préliminaires Expérimentations D. complètes App. avec D. incomplètes Conclusion

algorithme MWST-EM détaillé

1: Init : fini = faux , i = 0Choix d’un réseau bayésien initial (T 0, Θ0,0)

2: Répéter3: j = 04: Répéter5: Θi ,j+1 = argmax

ΘQ(T i , Θ : T i , Θi ,j)

6: j = j + 17: Jusqu’à convergence de Θi ,j

8: Si i = 0 ou Q(T i , Θi ,j : T i−1, Θi−1,j) −Q(T i−1, Θi−1,j : T i−1, Θi−1,j) > ε Alors

9: T i+1 = argmaxT

Q(T , • : T i , Θi ,j)

10: Θi+1,0 = argmaxΘ

Q(T i+1, Θ : T i , Θi ,j)

11: i = i + 112: Sinon13: fini = vrai14: Fin Si15: Jusqu’à fini = vrai

O

0,0

0,j

(T ,O )

T

(T ,O )0

0

Page 59: De l'identification de structure de réseaux bayésiens à la

20/37

Préliminaires Expérimentations D. complètes App. avec D. incomplètes Conclusion

algorithme MWST-EM détaillé

1: Init : fini = faux , i = 0Choix d’un réseau bayésien initial (T 0, Θ0,0)

2: Répéter3: j = 04: Répéter5: Θi ,j+1 = argmax

ΘQ(T i , Θ : T i , Θi ,j)

6: j = j + 17: Jusqu’à convergence de Θi ,j

8: Si i = 0 ou Q(T i , Θi ,j : T i−1, Θi−1,j) −Q(T i−1, Θi−1,j : T i−1, Θi−1,j) > ε Alors

9: T i+1 = argmaxT

Q(T , • : T i , Θi ,j)

procédure de type Kruskal

10: Θi+1,0 = argmaxΘ

Q(T i+1, Θ : T i , Θi ,j)

11: i = i + 112: Sinon13: fini = vrai14: Fin Si15: Jusqu’à fini = vrai

O

0,0

0,j

(T ,O )

T

(T ,O )0

0

1 T

Page 60: De l'identification de structure de réseaux bayésiens à la

20/37

Préliminaires Expérimentations D. complètes App. avec D. incomplètes Conclusion

algorithme MWST-EM détaillé

1: Init : fini = faux , i = 0Choix d’un réseau bayésien initial (T 0, Θ0,0)

2: Répéter3: j = 04: Répéter5: Θi ,j+1 = argmax

ΘQ(T i , Θ : T i , Θi ,j)

6: j = j + 17: Jusqu’à convergence de Θi ,j

8: Si i = 0 ou Q(T i , Θi ,j : T i−1, Θi−1,j) −Q(T i−1, Θi−1,j : T i−1, Θi−1,j) > ε Alors

9: T i+1 = argmaxT

Q(T , • : T i , Θi ,j)

10: Θi+1,0 = argmaxΘ

Q(T i+1, Θ : T i , Θi ,j)

11: i = i + 112: Sinon13: fini = vrai14: Fin Si15: Jusqu’à fini = vrai

1,0(T ,O )

1

O

0,0

0,j

(T ,O )

T

(T ,O )0

0

Page 61: De l'identification de structure de réseaux bayésiens à la

20/37

Préliminaires Expérimentations D. complètes App. avec D. incomplètes Conclusion

algorithme MWST-EM détaillé

1: Init : fini = faux , i = 0Choix d’un réseau bayésien initial (T 0, Θ0,0)

2: Répéter3: j = 04: Répéter5: Θi ,j+1 = argmax

ΘQ(T i , Θ : T i , Θi ,j)

6: j = j + 17: Jusqu’à convergence de Θi ,j

8: Si i = 0 ou Q(T i , Θi ,j : T i−1, Θi−1,j) −Q(T i−1, Θi−1,j : T i−1, Θi−1,j) > ε Alors

9: T i+1 = argmaxT

Q(T , • : T i , Θi ,j)

10: Θi+1,0 = argmaxΘ

Q(T i+1, Θ : T i , Θi ,j)

11: i = i + 112: Sinon13: fini = vrai14: Fin Si15: Jusqu’à fini = vrai

2,0(T ,O )

2

2,j(T ,O )

2

1,0(T ,O )

1

O

0,0

1,j

0,j

(T ,O )

(T ,O )

T

(T ,O )

1

0

0

Page 62: De l'identification de structure de réseaux bayésiens à la

21/37

Préliminaires Expérimentations D. complètes App. avec D. incomplètes Conclusion

Nos propositions MWST-EM et TAN-EM

SEM : le nouveau modèle est choisi parmis les voisins dugraphe courant.

→ nombreuses itérations

MWST-EM : nous trouvons le ’meilleur’ modèle dansl’espace des arbres. (AKRR’05), (EGC’05)

→ peu d’itérations

Utilisation d’une méthode de type ’Kruskal itératif’[MQ

ij

]i ,j

=[Qbic(Xi , Pi = {Xj} : T ∗)−Qbic(Xi , Pi = ∅ : T ∗)

]

Page 63: De l'identification de structure de réseaux bayésiens à la

22/37

Préliminaires Expérimentations D. complètes App. avec D. incomplètes Conclusion

Nos propositions SEM+T et TAN-EM

SEM+T : le résultat de MWST-EM est utilisé pour initialiserSEM.

→ nombreuses itérations ?

TAN-EM : nous trouvons le ’meilleur’ Réseau NaïfAugmenté par un Arbre. (PGM’06)

→ peu d’itérations

[MQ

ij

]i ,j 6=C

=[Qbic(Xi , Pi = {Xj , C} : T ∗)−Qbic(Xi , Pi = {C} : T ∗)

]

Page 64: De l'identification de structure de réseaux bayésiens à la

23/37

Préliminaires Expérimentations D. complètes App. avec D. incomplètes Conclusion

Bases générés pour tester les méthodes

2

1

3

4 65

1

2

4

53

1 2

3

5

4

1 2 3

4

6

75

2

61 3

4

5

7

9

8

10

11

2 3 6 5 10

7

1

4

8

9

2 3

1 4

5

6

7

8

9

10 11

1213 X

A S

BLT

E

D

?

?

??

?

?

aléatoire

possiblesarcs

Structure

1 i n

1 i n

i1 n

M M M

H H H

O OO

Taux de données manquantes : {0, 2; 0, 3; 0, 4; 0, 5},Tailles des bases d’exemples : {100; 200; 400; 600; 1000; 2000}.−→ 2160 problèmes MCAR synthétiques,−→ 2160 problèmes MAR sythétiques et 5 problèmes réels.

Page 65: De l'identification de structure de réseaux bayésiens à la

24/37

Préliminaires Expérimentations D. complètes App. avec D. incomplètes Conclusion

Protocol de tests

Nous avons testé :pertinence de EM vs CCA et ACA,performances BIC,performances KL,influence de la taille de la base d’exemples,influence du taux de données manquantes,stabilité BIC,stabilité KL,l’utilisation des RB en classification,temps de calcul.

sur des données MCAR et MAR synthétiques (2160× 2 pbs). . .

Page 66: De l'identification de structure de réseaux bayésiens à la

24/37

Préliminaires Expérimentations D. complètes App. avec D. incomplètes Conclusion

Protocol de tests

Nous avons testé :pertinence de EM vs CCA et ACA,performances BIC,performances KL,influence de la taille de la base d’exemples,influence du taux de données manquantes,stabilité BIC,stabilité KL,l’utilisation des RB en classification,temps de calcul.

sur des données MCAR et MAR synthétiques (2160× 2 pbs). . .

Page 67: De l'identification de structure de réseaux bayésiens à la

25/37

Préliminaires Expérimentations D. complètes App. avec D. incomplètes Conclusion

Pertinence de EM vs CCA et ACAComparaison de performances pour la divergence KL :

0 0.5 1 1.5 2 2.50

0.5

1

1.5

2

2.5

EM

CC

A

95,7%

20% de données manquantesMWST-CCA, GS-CCA, GS+T-CCA versus MWST-EM, SEM, SEM+T

Page 68: De l'identification de structure de réseaux bayésiens à la

25/37

Préliminaires Expérimentations D. complètes App. avec D. incomplètes Conclusion

Pertinence de EM vs CCA et ACAComparaison de performances pour la divergence KL :

0 0.5 1 1.5 2 2.50

0.5

1

1.5

2

2.5

EM

CC

A

77,2%

30% de données manquantesMWST-CCA, GS-CCA, GS+T-CCA versus MWST-EM, SEM, SEM+T

Page 69: De l'identification de structure de réseaux bayésiens à la

25/37

Préliminaires Expérimentations D. complètes App. avec D. incomplètes Conclusion

Pertinence de EM vs CCA et ACAComparaison de performances pour la divergence KL :

0 0.2 0.4 0.6 0.8 1 1.2 1.4 1.60

0.2

0.4

0.6

0.8

1

1.2

1.4

1.6

EM

AC

A

30% de données manquantesMWST-ACA, GS-ACA, GS+T-ACA versus MWST-EM, SEM, SEM+T

Page 70: De l'identification de structure de réseaux bayésiens à la

25/37

Préliminaires Expérimentations D. complètes App. avec D. incomplètes Conclusion

Pertinence de EM vs CCA et ACAComparaison de performances pour la divergence KL :

0 0.5 1 1.5 2 2.50

0.5

1

1.5

2

2.5

EM

AC

A

40% de données manquantesMWST-ACA, GS-ACA, GS+T-ACA versus MWST-EM, SEM, SEM+T

Page 71: De l'identification de structure de réseaux bayésiens à la

25/37

Préliminaires Expérimentations D. complètes App. avec D. incomplètes Conclusion

Pertinence de EM vs CCA et ACAComparaison de performances pour la divergence KL :

0 0.5 1 1.5 2 2.5 3 3.5 4 4.5 50

0.5

1

1.5

2

2.5

3

3.5

4

4.5

5

EM

AC

A

50% de données manquantesMWST-ACA, GS-ACA, GS+T-ACA versus MWST-EM, SEM, SEM+T

Page 72: De l'identification de structure de réseaux bayésiens à la

26/37

Préliminaires Expérimentations D. complètes App. avec D. incomplètes Conclusion

performances KL

20 25 30 35 40 45 500

0.2

0.4

Taux de donnes manquantes

Div

erg

en

ce

de

KL

mo

ye

nn

e

MWST−ACAGS−ACAGS+T−ACAMWST−EMSEMSEM+T

Page 73: De l'identification de structure de réseaux bayésiens à la

27/37

Préliminaires Expérimentations D. complètes App. avec D. incomplètes Conclusion

Le réseau Naïf

Supposons que la classe a une influence sur toutes les variables,mais indépendamment

A B DC E F G

Classe [P(C=i)] i

[P(A=a|C=i)] a,i

Ce qu’il est possible de faire :

l’apprentissage des paramètres avec DI (par ex. avec EM),

l’inférence avec des Données Incomplètes.

etsi l’on veut ajouter ces dépendances automatiquement ?

−→ TAN-EM

Page 74: De l'identification de structure de réseaux bayésiens à la

27/37

Préliminaires Expérimentations D. complètes App. avec D. incomplètes Conclusion

Le réseau Naïf

Supposons que la classe a une influence sur toutes les variables,mais plus indépendamment

A B DC E F G

Classe

Ce qu’il est toujours possible de faire :

l’apprentissage des paramètres avec DI (par ex. avec EM),

l’inférence avec des Données Incomplètes.

etsi l’on veut ajouter ces dépendances automatiquement ?

−→ TAN-EM

Page 75: De l'identification de structure de réseaux bayésiens à la

28/37

Préliminaires Expérimentations D. complètes App. avec D. incomplètes Conclusion

Résultats en classification

N N app N test #C %EIHepatitis 20 90 65 2 8.4

House 17 290 145 2 46.7Horse 28 300 300 2 88.0

Thyroid 22 2800 972 2 29.9Mushrooms 23 5416 2708 2 30.5

65 70 75 80 85 90 95 100

0.7

0.75

0.8

0.85

0.9

0.95

1

NB−EMMWST−EMTAN−EMSEMSEM+T

Page 76: De l'identification de structure de réseaux bayésiens à la

29/37

Préliminaires Expérimentations D. complètes App. avec D. incomplètes Conclusion

Temps de calculs

NB-EM MWST-EM TAN-EM SEM SEM+T

tps de calcul 1,00 2,57 2,56 48,89 33,00taux de classif 84,72 82,80 87,24 78,68 78,96

’moyens’

Page 77: De l'identification de structure de réseaux bayésiens à la

30/37

Préliminaires Expérimentations D. complètes App. avec D. incomplètes Conclusion

Conclusions

Nous avons étudié empiriquement les performances del’arbre couvrant de poids maximal et introduit laméthode pour son apprentissage à partir de basesd’exemples incomplètes.

Bases d’exemples complètes ou incomplètes :Donne un bon résultat lorsque la taille de la based’exemples est faible.Donne un bon résultat lorsque le taux de donnéesmanquantes est élevé.Est très stable par rapport à la taille de la based’exemple.Est très stable par rapport au taux de donnéesmanquantes.

Page 78: De l'identification de structure de réseaux bayésiens à la

31/37

Préliminaires Expérimentations D. complètes App. avec D. incomplètes Conclusion

Conclusions

Nous avons étudié empiriquement la pertinenced’initialiser des méthodes gloutonnes avec un arbrecouvrant de poids maximal.Bases d’exemples complètes ou incomplètes :

Augmente les performances et la stabilité del’algorithme K2.Augmente la stabilité et diminue le temps de calculde la méthode GS pour des performanceséquivalentes ou légèrement meilleures.

Page 79: De l'identification de structure de réseaux bayésiens à la

32/37

Préliminaires Expérimentations D. complètes App. avec D. incomplètes Conclusion

Conclusions

Nous avons généralisé la méthode TAN aux basesd’exemples incomplètes.

Bases d’exemples incomplètes :Très bonnes performances en classification.Temps d’apprentissage très court.

Page 80: De l'identification de structure de réseaux bayésiens à la

33/37

Préliminaires Expérimentations D. complètes App. avec D. incomplètes Conclusion

Conclusions

Nous avons introduit un formalisme de modélisation desdonnées manquantes.

Formalisme génératif.Aisé à comprendre pour les données MCAR et MAR.Complexe algorithmiquement lorsque le nombred’attributs augmente (→ inférence approchée).

. . .Et diffusé le code de toutes les fonctions utilisées.

Page 81: De l'identification de structure de réseaux bayésiens à la

34/37

Préliminaires Expérimentations D. complètes App. avec D. incomplètes Conclusion

Perspectives à court terme

Données ComplètesTester plus de méthodes(notamment les méthodes mixtes IC/score etcelles d’identification de la frontière de Markov).Mettre en œuvre certaines méthodes pour les basesmixtes.Adapter les méthodes d’apprentissage àl’identification de la causalité entre les attributs,

Génération de basesMettre en œuvre la méthode aux données mixtes.

Page 82: De l'identification de structure de réseaux bayésiens à la

35/37

Préliminaires Expérimentations D. complètes App. avec D. incomplètes Conclusion

Perspectives à court terme

Apprentissage avec données incomplètes(en cours) Etendre MWST-EM à la recherche deforêts optimales → Forest-EM.Etendre à la recherche de structure optimale avec unnombre de parents fixé (> 1).(en cours) Etendre SEM à la recherche dans l’espacedes équivalents de Markov → GES-EM.(en cours) Tester Forest-EM(en cours) Tester FAN-EM en classification.Généraliser TAN-EM et FAN-EM au non-supervisé.

Page 83: De l'identification de structure de réseaux bayésiens à la

36/37

Préliminaires Expérimentations D. complètes App. avec D. incomplètes Conclusion

Perspectives à plus long terme

ApprentissageAdapter les méthodes à base de tests statistiques auxbases incomplètes.Etendre ces méthodes d’apprentissage aux RBD.Etendre les méthodes d’apprentissage auxdiagrammes d’influence.(bientôt) Etendre les méthodes d’apprentissage auxPOMDP (processus de décision markoviens).(bientôt) Permettre une prise en compted’information experte plus simplement.Permettre un apprentissage incrémental/adaptatifpour les bases non stationnaires.Passer aux modèles partiellement orientés.

Page 84: De l'identification de structure de réseaux bayésiens à la

37/37

Préliminaires Expérimentations D. complètes App. avec D. incomplètes Conclusion

Revues :Leray, P. et François, O. : Réseaux Bayésiens pour laClassification - Méthodologie et Illustration dans lecadre du Diagnostic Médical, Revue d’IntelligenceArtificielle, ISBN : 2-7462-0912-8, vol. 18, no 2/2004, pp169-193, 2004

François, O. et Leray, P. : Etude Comparatived’Algorithmes d’Apprentissage de Structure dans lesRéseaux Bayésiens, Journal électronique d’intelligenceartificielle, vol. 5, no 39, pp1–19, 2004. Best paper de RJCIA’03.

Conférences internationales :François, O.C.H et Leray, P. : Learning the TreeAugmented Naive Bayes Classifier from incompletedatasets, Proceedings of the Third European Workshop onProbabilistic Graphical Models (PGM’06), Prague, Czech Republic,ISBN : 80-86742-14-8, pp91-98, 2006.

Leray, P. et François, O. : Bayesian Network StructuralLearning and Incomplete Data, International andInterdisciplinary Conference on Adaptive KnowledgeRepresentation and Reasoning (AKRR’05), pp33-40, Finland, 2005.

Conférences nationales :François, O. et Leray, P. : Apprentissage de structuredans les réseaux bayésiens et données incomplètes,journées Extraction et Gestion de Connaissances (Best paper deEGC’05), Revue des Nouvelles Technologies de l’Information(RNTI-E-3), Cépaduès Ed., ISBN : 2-85428-677-4, pp127–132, 2005,

François, O. et Leray, P. : Evaluation d’algorithmesd’apprentissage de structure pour les réseauxbayésiens, 14ieme Congrès francophone de Reconnaissancedes formes et d’Intelligence artificielle (RFIA’04), pp1453-1460, 2004.

Autre publication :Leray, P. et François, O. : BNT Structure LearningPackage : Documentation and Experiments, Rapporttechnique du Laboratoire PSI, INSA de Rouen, no 2004/PhLOF, 2004.

http://bnt.insa-rouen.fr/

Merci pour votre attention.Questions ?

Remarques ?Suggestions ?