classification dynamique de données non-stationnaires apprentissage et suivi de classes évolutives

43
1 Classification Dynamique de données non-stationnaires Apprentissage et Suivi de classes évolutives Directeur de thèse : Salah MAOUCHE Co-directeur : Stéphane LECŒUCHE Soutenance de Thèse Habiboulaye AMADOU BOUBACAR présentée par

Upload: quamar-riley

Post on 30-Dec-2015

26 views

Category:

Documents


0 download

DESCRIPTION

Soutenance de Thèse. Classification Dynamique de données non-stationnaires Apprentissage et Suivi de classes évolutives. présentée par. Habiboulaye AMADOU BOUBACAR. Directeur de thèse : Salah MAOUCHE Co-directeur: Stéphane LEC Œ UCHE. Thèse. Financement de la Thèse: MENRT - PowerPoint PPT Presentation

TRANSCRIPT

Page 1: Classification Dynamique de données non-stationnaires Apprentissage et Suivi de classes évolutives

1

Classification Dynamique de données non-stationnaires Apprentissage et Suivi de classes évolutives

Directeur de thèse : Salah MAOUCHECo-directeur : Stéphane LECŒUCHE

Soutenance de Thèse

Habiboulaye AMADOU BOUBACAR

présentée par

Page 2: Classification Dynamique de données non-stationnaires Apprentissage et Suivi de classes évolutives

2

Financement de la Thèse: MENRT Laboratoires de recherche

LAGIS-UMR-CNRS 8146, Université Lille 1 Equipe « Ingénierie de la Décision » (ID) Thème « Apprentissage Dynamique et Décision »

Ecole des Mines de Douai Dépt «Génie Informatique et Productique » (GIP) Equipe «Systèmes et Processus Industriels » SPI

Thèse

Page 3: Classification Dynamique de données non-stationnaires Apprentissage et Suivi de classes évolutives

3

Plan

Introduction

Classification dynamique : Problématique

Description générique de classifieurs dynamiques

Algorithmes de classification dynamique

AUDyC (AUto-Adaptive & Dynamical Clustering)

SAKM (Self-Adaptive Kernel Machine)

Expérimentation

Conclusion et Perspectives

Page 4: Classification Dynamique de données non-stationnaires Apprentissage et Suivi de classes évolutives

4

Contexte général

Apprentissage automatique (Machine Learning) Conférer des facultés d’apprentissage à un système La plupart de systèmes d’apprentissage

Capacités de Mémorisation : Mémoire

(Exemple : Apprendre Alphabet : « A, B, C, … ») Capacités de Généralisation : Règles

(Exemple : Lecture : « KA TCHARRA ») Et, si les connaissances évoluent dans le temps ?

Limitations des systèmes classiques Capacités d’adaptation nécessaires

Page 5: Classification Dynamique de données non-stationnaires Apprentissage et Suivi de classes évolutives

5

Reconnaissance de visages Vieillissement des individus Évolutions : caractéristiques physiques

Diagnostic médical Expansion de cancers

Supervision des processus industriels Commutations de modes de fonctionnement Évolutions de modes de fonctionnement

Capacités d’adaptation et suivi d’évolutions Mise à jour (continue) des connaissances

Quelques exemples

Page 6: Classification Dynamique de données non-stationnaires Apprentissage et Suivi de classes évolutives

6

Plan

Introduction

Classification dynamique : Problématique

Description générique de classifieurs dynamiques

Algorithmes de classification dynamique

AUDyC (AUto-Adaptive & Dynamical Clustering)

SAKM (Self-Adaptive Kernel Machine)

Expérimentation

Conclusion et Perspectives

Page 7: Classification Dynamique de données non-stationnaires Apprentissage et Suivi de classes évolutives

7

Classification dynamique Approche : Reconnaissance de Formes

1. Modélisation de l’état du processus Extraction des informations pertinentes Vecteur forme = Données

2. Modélisation des connaissances utiles Classification des données Apprentissage de classes (statiques)

Interactions avec

l’environnement

Entrées

Sorties

Processus

1

d

Dx

X

x

x

Données non-stationnaires Données issues de processus à comportement évolutif Les paramètres des modèles de classes évoluent

Evolutions Modifications locales Evolutions (avec glissement) rapide, lente, …

Extraction

Filtrage

Page 8: Classification Dynamique de données non-stationnaires Apprentissage et Suivi de classes évolutives

8

Classification non-superviséeClasses d’appartenance des données: non connues

Apprentissage en ligneIncorporation récursive des nouvelles informations

Mise à jour du modèle de connaissancesModélisation adaptative et suivi de classesEnvironnement non-stationnaire

Apparition de nouvelles classes Fusion de classes Scission de classes Elimination de classes parasites ou obsolètes

Problématique

Page 9: Classification Dynamique de données non-stationnaires Apprentissage et Suivi de classes évolutives

9

Travaux antérieurs

ISODATA (Hall et Ball, 1965; Hall et Khanna, 1977) Algorithme de "Centres-mobiles" doté des

procédures de Fusion, Scission et Elimination Algorithmes à architectures neuronales

LAMBDA (Piela et al. 1989) FMMC (Simpson, 1993) CDL (Eltoft, 1998) ESOM (Deng et Kasabov, 2003)

Limitations majeures Modèle de classification Processus d’apprentissage

Page 10: Classification Dynamique de données non-stationnaires Apprentissage et Suivi de classes évolutives

10

Plan

Introduction

Classification dynamique : Problématique

Description générique de classifieurs dynamiques

Algorithmes de classification dynamique

AUDyC (AUto-Adaptive & Dynamical Clustering)

SAKM (Self-Adaptive Kernel Machine)

Expérimentation

Conclusion et Perspectives

Page 11: Classification Dynamique de données non-stationnaires Apprentissage et Suivi de classes évolutives

11

Partition dynamique et Modèle de classification

Architecture neuronale Couche d’entrée : données Couche cachée : paramètres Couche de sortie : classes Connexions entre les neurones Faire évoluer l’architecture

x1

xd

xD

C1

C2

Cm

CM

Formalisation (1/2)

( )1

( )1

,..., ,...,

,..., ,...,: nombre de classes

tm M t

tm M t

C C CM

, m mX X C X Tel que

[0,1]

:

et deux co efficients réels

Fonction contour ou de densité (paramètre )

: probab ilité;m m

m

1

M

m

1

2

M

Page 12: Classification Dynamique de données non-stationnaires Apprentissage et Suivi de classes évolutives

12

Modèle de classification S’adapter correctement à la distribution de données Mise à jour récursive en environnement non-stationnaire

Processus de classification dynamique

Formalisation (2/2)

Classification en ligneAffectation de données

Mise à jour récursive dumodèle de classification

Page 13: Classification Dynamique de données non-stationnaires Apprentissage et Suivi de classes évolutives

13

Classification en ligne : Critère de similarité Mesure de similarité : proximité géométrique

Critère : Ensemble de classes gagnantes

Fonction définie

, , , , ,

:

t m t m

S

X C S X C a b a b

lorsque s'éloigne de

si infiniment "pro

,

che" de,

si infiniment , "loin" de

t m t m

t m t m

t m t m

S X C X C

S X C b X C

S X C a X C

/ , , : Seuil de similari téwinm t m th thC S X C

Critère de similarité

Page 14: Classification Dynamique de données non-stationnaires Apprentissage et Suivi de classes évolutives

14

Processus d’apprentissage

Processus de classification dynamique Critère de similarité : Règles de décision Procédures de mise à jour du modèle de classification

Page 15: Classification Dynamique de données non-stationnaires Apprentissage et Suivi de classes évolutives

15

Règles de décision et Procédures de mise à jour Cas 1 card(win) = 0 Procédure de Création Cas 2 card(win) = 1 Procédure d’Adaptation Cas 3 card(win) ≥ 2 Procédure de Fusion Cas 4 T données Procédure d’Évaluation

Cas 1: Création

Cas 3: Fusion

Cas 2: Adaptation

Cas 4: Elimination

Processus d’apprentissage

Page 16: Classification Dynamique de données non-stationnaires Apprentissage et Suivi de classes évolutives

16

Classifieurs dynamiques

AUDyC : Modèles de Mélange

SAKM : SVM & Méthodes à noyau

Choix des paramètres du classifieur dynamique Initialisation du modèle de connaissances : 0 , A chaque instant t : Acquérir tX

Mesure de similarité : Évaluer ,t tmS X C

Critère de similarité : Déterminer win Cas 1 : 0card win

Procédure de Création Cas 2 : 1card win

Procédure d’Adaptation Cas 3 : 2card win

Procédure de Fusion Cas 4 : Régulièrement Procédure d’Evaluation Jusqu’à l’arrêt

Algorithme générique

Page 17: Classification Dynamique de données non-stationnaires Apprentissage et Suivi de classes évolutives

17

Plan

Introduction

Classification dynamique : Problématique

Description générique de classifieurs dynamiques

Algorithmes de classification dynamique

AUDyC (AUto-Adaptive & Dynamical Clustering)

SAKM (Self-Adaptive Kernel Machine)

Expérimentation

Conclusion et Perspectives

Page 18: Classification Dynamique de données non-stationnaires Apprentissage et Suivi de classes évolutives

18

Modèles de mélange Modèles de mélange [Govaert, 2003]

Outils statistiques performants en classification Décomposition de la loi de densité parente Formalisation générale: diverses lois de densité

Mélange gaussien : le plus utilisé Approximation justifiée dans la plupart de problèmes Outils mathématiques relativement bien maîtrisés

Maximisation de la loi de vraisemblance EM [Dempster et al., 1977]; CEM [Celeux et al., 1995] Compétitive EM [Zhang et al., 2003] : Fusion & Scission

Peu d’algorithmes en ligne [Same et al., 2004]

Page 19: Classification Dynamique de données non-stationnaires Apprentissage et Suivi de classes évolutives

19

Mélange gaussien: approche multimodale Classe = un ou plusieurs prototypes gaussiens

Fonction Objectif : Maximisation de vraisemblance

1

, , , , ,1

, exp2

Tt t t tj m j m j m j m j mX p X X X X

,

( ),

1 1

1log ,

m

i j m

JMt t

poss j mm j X P

L XJ

1 1,1C P

2 1,2 2,2 3,2, ,C P P P

,, ,

,

,

card( ),

card( )

0,

:

sinon

j mj m j m m

mj m

j m

Pp P C

Cp

p

1, , ,

, , ,

,..., ,...,

avec ,

m

t t t tm m j m J m

m t t tj m j m j m

CX

AUDyC : Modèle de classification

,1

,mJ

tm j m

j

X X

Page 20: Classification Dynamique de données non-stationnaires Apprentissage et Suivi de classes évolutives

20

AUDyC : Critère de similarité Fonction d’appartenance

Mesure de similarité

Classes et prototypes gagnants

1

, , , , ,1 1

exp , exp2 2

Tt t tj m t j m t j m j m t j mX d X P X X X X

,( , ) maxt m j m tj

S X C X

et si s'éloigne

inf. distant de

, 0,1

, 0

, inf. proche de 1

vérifiet m t m

tt m

t

m

t mm

S X C X C

S X C

S X C

X C

X C

min

, , max

,winC m m

winP j m j m t

C S X C

P X

maxmin

Seuils d'appartenanceavec

Page 21: Classification Dynamique de données non-stationnaires Apprentissage et Suivi de classes évolutives

21

AUDyC : Procédure de Création

Création de classes Initialisation de prototypes

Comment déterminer Σini ? Extraire préalablement un Échantillon Hypothèse simplificatrice :

1, 1, ( ) ( , )tnew new new newC P

1, 1, 1, , t t tnew new t new iniX X

22 2 2min min( ) min , moy ( )i i j avg i

i jd X X X d d X

min ( )id Xi isoX

3 avgd

2 ini ini DI

min 3iso i ech avgX d d

ech

2 2min

3/

card( ) card( )i ech

i iso

dist iXech isoX

Dd X

)( ) 0c rd( a winC

Page 22: Classification Dynamique de données non-stationnaires Apprentissage et Suivi de classes évolutives

22

Adaptation récursive de Prototypes/Classes De la règle de décision : Ajout et retrait d’information sur une fenêtre

AUDyC : Procédure d’Adaptation

1, , 1

1p

t twin win win win t t N

p

X X X XN

1, ,

1 1

1

11

1 1

p p pt t Twin win win win

p

p p p p

N N NX X

N

N N N N

1 1, 1 , , avec

p

t tt win win t N win winX X X X X

, (c ( )ard )winwin win win PP C

PN

Page 23: Classification Dynamique de données non-stationnaires Apprentissage et Suivi de classes évolutives

23

(c)

(b)

(a)

AUDyC : Procédure de Fusion

Données ambiguës

Erreurs de modélisation

Etape 1 : Détection d’ambiguïté card , candidatsg j amb g jX P P N P P

Etape 2 : Règle de Fusion de prototypes

1 1

( , ) , Fusion_ ( , ) et Adapt _( , )

Adapt _( , ) si ( ) ( )( , ) ,

Adapt _( , ) sinon

( , ) 2.

j g kl j g merg merg

j j gj g kl

g

c g g gj j j

Ac P P P P P P P X

P X X XAc P P

P X

A P P tr D

Etape 3 : Règle de Fusion de classes ' ' ' ' ', et Fusion_ ( , )j m j m m m m mP C P C C C C C C

Procédure de fusion

Erreurs de modélisation

1. . ;

( 1). ( 1).1

.1 . .

merg j j g g m j gm

j j g g

Tmerg j gm j g j g

m

X n X n X n n nn

n n

n nn X X X X

n

Problématique d’ambiguïté

Si fusion

Si Adaptation

Page 24: Classification Dynamique de données non-stationnaires Apprentissage et Suivi de classes évolutives

24

Procédure de scission Etape 1 : Détection de défaut : distance de Fisher

1 1, , , , , , , ,,

Tt t t t t t t tsh j m k m j m k m j m k m j m k mF X X X X

Etape 2 : Règle de Fusion de prototypes

, , , ,

, , , ,

, ,

, ,

, ,

! , ,

, , ,..

.

Pas de scission, Si

Sinon, scission,

t tj m k m sh j m k m fsh

split msplit

t tsplit j m g m m sh j m g m fsh

j m split g m split

split j m g msh j

P P F d

C C

C P P C F d

P C P CC P P

F

, ,,t t

m g m fshd

AUDyC : Procédure de scission Défaut de modélisation

Défaut

Page 25: Classification Dynamique de données non-stationnaires Apprentissage et Suivi de classes évolutives

25

Simulation de l’AUDyC

Capacités d’adaptation en Environnement non-stationnaire : Création de classes, Adaptation et Suivi de classes évolutives, Fusion de classes

Simulation 1 : 2 classes évolutives générées (1000 données/classe)

Simulation 2 : 1 classe statique (1000 données), 2 classes évolutives qui fusionnent (2000 données/classe)

Limitations de l’AUDyC

Modèle paramétrique : données générées suivant la loi gaussienne

Complexité algorithmique : grande dimension

ini minParamètres : 0.55; 110; 10; 10P ambN N N

Page 26: Classification Dynamique de données non-stationnaires Apprentissage et Suivi de classes évolutives

26

Plan

Introduction

Classification dynamique : Problématique

Description générique de classifieurs dynamiques

Algorithmes de classification dynamique

AUDyC (AUto-Adaptive & Dynamical Clustering)

SAKM (Self-Adaptive Kernel Machine)

Expérimentation

Conclusion et Perspectives

Page 27: Classification Dynamique de données non-stationnaires Apprentissage et Suivi de classes évolutives

27

SVM et Méthodes à noyau

SVM et Méthodes à noyau [Schölkopf et al., 2003] Outils récents, Résultats attractifs en classification Apprentissage statistique [Vapnik, 1995]

Minimisation de risque et Régularisation Espace de Hilbert à noyau reproduisant (RKHS)

Estimateur de densité : méthodes à noyauBonnes capacités de généralisationModèle non paramétrique (Noyau RBF: universalité)

SVM mono-classe en ligne: [Gretton & al., 2003; Desobry et al., 2005] et [Kivinen et al., 2004]

Page 28: Classification Dynamique de données non-stationnaires Apprentissage et Suivi de classes évolutives

28

RKHS

SAKM : Modèle de classification

, ,1

, , 1,

,

0

,

m

m

J

m j m j m mj

m m

m j m j m j J

X X SV

C X X

SV

( )

1 1

1 1,

card

M tt t

learn m i mm im

E X CM C

, max 0,m mX X

: RKHS

( ) ( , )X X X

1 2 1 2

1 1 2

, exp

1 et 0 1

X X X X

X X X

Espace RKHS

Modèle de classe

Fonction objectif

Outlier

MSV

Page 29: Classification Dynamique de données non-stationnaires Apprentissage et Suivi de classes évolutives

29

,

, 1 1 exp

1 si 0

0 sinonavec

t m t win m

tm t

S X C X SV

X

,

,

et si s'é, 0,1

0 , 1

, 0

loigne

vérifie t m t m

t win m t m

t win m t m

S X C X C

X SV S X C

X SV S X C

,win C S X Cm t m th

,th

12

0,2

( , ) 1 1 exp( 1)

t win m

t m

X SV

S X C

2

SAKM : Critère de similarité Mesure de similarité à noyau

Critère : classes gagnantes

Page 30: Classification Dynamique de données non-stationnaires Apprentissage et Suivi de classes évolutives

30

Création de classes

Adaptation de classe Gradient stochastique

card( ) 0 ,

1 11, , ,

win Cnew new new

t tSV Xnew new new new new t

1, ,

1,

,,

,1

, , ,1

1 si

resp. 0 si 0 resp. 0

pu

-

-

-

is

, ,

m

win

t tj win j win

t tnew win m t

tt j winj win J

tj win

j

Jt t twin j win c win j win win

j

t j t

X

SV SV c J

SAKM : Création et Mise à jour

Page 31: Classification Dynamique de données non-stationnaires Apprentissage et Suivi de classes évolutives

31

Fusion de classes Critère d’ambiguïté

Opération de fusion

Calculer

, ( ) 0merg win mergC X C X

card win ambX C N

SAKM : Procédure de Fusion

( )

( )

merg winwin

merg update win

X

X R X C

Page 32: Classification Dynamique de données non-stationnaires Apprentissage et Suivi de classes évolutives

32

Simulation du SAKM Simulation 1 : 2 classes évolutives générées (1000 données/classe)

Simulation 2 : 1 classe statique (1000 données), 2 classes évolutives qui fusionnent (2000 données/classe)

Capacités d’adaptation en Environnement non-stationnaire : Création de classes, Adaptation et Suivi de classes évolutives, Fusion de classes

minParamètres : 0.65; 0.1; 30; 10; 10ambN N

Page 33: Classification Dynamique de données non-stationnaires Apprentissage et Suivi de classes évolutives

33

Paramètres des algorithmes AUDyC : Paramètres de modèle SAKM : Paramètres de modèle

ini

PN

min max

: Matrice de covariance initiale

: Seuils d'appartenance

: Fenêtre de définition pro

to

,

typesth

SVs

: Paramètre du noyau gaussien

: Seuil de

similarité

: Nb de de classes et r

, atio

min

amb

: Seuil de cardinalité (représentativité)

: Seuil d'ambiguïté (candidats à la fusion)

N

N

Paramètres de robustesse (commun)

Initialisation des paramètres

et dépendent de la distribution des d onné esini

0 2 0 3 0 2 min max th déterminés par le, ; , ; ca , lcul

PN et fn du problème à traiter (Dynamique de clas, ses?)

N Nmin amb et dépendent du bruit dans les do nnées

Page 34: Classification Dynamique de données non-stationnaires Apprentissage et Suivi de classes évolutives

34

Comparaison : AUDyC vs SAKM

AUDyC Mélange gaussien multimodal - Approximation, Loi gaussienne Processus d’apprentissage

- Modèles successifs exacts - Scission de classes Complexité algorithmique - Polynomial : O(D3xJ2xL) - Ordre 3 avec la dimension Robustesse au bruit - Moins sensible au bruit

SAKM Fonctions d’apprentissage à noyau - Distribution inconnue Processus d’apprentissage - Modèles successifs approximatifs - Pas de scission de classes Complexité algorithmique - Polynomial : O(Dx 2ד xMxL) - Linéaire avec la dimension Robustesse au bruit - Plus sensible au bruit

Données de distribution gaussienne et de dimension faible : AUDyC

Distribution de données inconnue ou de plus grande dimension : SAKM

Page 35: Classification Dynamique de données non-stationnaires Apprentissage et Suivi de classes évolutives

35

Plan

Introduction

Classification dynamique : Problématique

Description générique de classifieurs dynamiques

Algorithmes de classification dynamique

AUDyC (AUto-Adaptive & Dynamical Clustering)

SAKM (Self-Adaptive Kernel Machine)

Expérimentation

Conclusion et Perspectives

Page 36: Classification Dynamique de données non-stationnaires Apprentissage et Suivi de classes évolutives

36

Surveillance de Processus Projet ADEME (n° 0274032)

Surveillance en ligne d’un processus thermique Objectif : Détecter l’encrassement des composants

Intérêt des techniques de classification dynamique

Filtre

Réchauffeur Echangeur

SystèmeclientPompe

Débit chaud

Débitfroid

Pressure

Vase

Page 37: Classification Dynamique de données non-stationnaires Apprentissage et Suivi de classes évolutives

37

Mise au point du système de surveillance Modélisation de l’état du processus : vecteur forme

Rapport de pressions : ΔPcomp. / ΔPpompe Sensibilité aux pertes de pression au sein du composant

Modélisation en ligne du mode de fonctionnement Algorithmes de classification dynamique Apprentissage continu des modes et suivi d’évolutions

Suivre le mode courant du processus Labelliser les nouveaux modes détectés - Modes de

défaut - Encrassement simulé par des vannes Détection de l’encrassement

Mode courant similaire au mode normal : Pas d’alerte Mode courant évolue vers un mode de défaut : Alerte

Surveillance de Processus

Page 38: Classification Dynamique de données non-stationnaires Apprentissage et Suivi de classes évolutives

38

Résultats AUDyC

Apprentissage des modes Suivi d’évolution et détection

SAKM Apprentissage des modes Suivi d’évolution et détection

EENC

MFN

FENC

RENC

EENC

MFN

FENC

RENC

Page 39: Classification Dynamique de données non-stationnaires Apprentissage et Suivi de classes évolutives

39

Surveillance de Processus Mise au point d’un prototype opérationnel

Interface Utilisateur : Logiciel réalisé avec Python

Page 40: Classification Dynamique de données non-stationnaires Apprentissage et Suivi de classes évolutives

40

Conclusion

Apprentissage Automatique : Classification dynamiqueDifficultés : apprendre les connaissances de façon continueNécessité : modélisation adaptative et du suivi d’évolutions

Algorithmes originaux de classification dynamiqueTechniques avancées de traitement de signal et de RdFCapacités d’adaptation en environnement non-stationnaire

Mise au point de SAD opérationnels Couplage avec des outils supplémentaires (outils détection)Utilisables dans divers domaines (Diagnostic médical,

Maintenance industrielle, Alerte sismique, …)

Page 41: Classification Dynamique de données non-stationnaires Apprentissage et Suivi de classes évolutives

41

Perspectives Amélioration des algorithmes proposés

SAKM : Règle de scission, Règle de mise à jour exacte AUDyC : Mise à jour de la famille exponentielle

Approfondir l’étude théorique pour les deux algorithmes Aide au réglage des paramètres Compléter l’étude de convergence

Validation sur d’autres applications Supervision des processus industriels Suivi de Processus hybrides Détection de rupture (exemple: dans les signaux audio)

Page 42: Classification Dynamique de données non-stationnaires Apprentissage et Suivi de classes évolutives

42

What else ?

Page 43: Classification Dynamique de données non-stationnaires Apprentissage et Suivi de classes évolutives

43

Merci pour votre attention

Je suis à votre disposition

http://babarazi.free.fr

[email protected]