thèse de doctorat présentée par nathalie girard 5/07/2013 sous la supervision de : karell bertet...

Post on 03-Apr-2015

109 Views

Category:

Documents

0 Downloads

Preview:

Click to see full reader

TRANSCRIPT

Thèse de doctoratPrésentée par Nathalie Girard

5/07/2013 Sous la supervision de :

Karell Bertet Muriel Visani

ContexteLa recherche d’images :

Procédé populaire : Google, Flickr, …Recherche par mots clés, par similarités

La classification d’images :Classement d’images dans des groupes d’images

similaires

2

ContexteComment définir les groupes ?

Par apprentissage d’exemples : Sans classe prédéfinie classification non supervisée Avec classes prédéfinies classification

supervisée

3

Ours

Paysage

La Rochelle

La classification supervisée d’images

4

Image requêteImages

étiquetées

Classe pour l’image requête

Modèle de classificati

on

vR1 … vRz … vRZ ?Extraction de signatures Construction

vR1 … vRz … vRZ k

Notre objectif principal

5

Construire un modèle de classification hybrideentre arbre de classification et treillis de Galois

Arbre de classification Treillis de Galois

Avantages

• Faible espace mémoire• Construction rapide• Traitement de tous types

d’attributs

• Robustesse aux données bruitées Multiplicité des chemins

vers un même concept terminal

Lisibilité (modèles symboliques)

Inconvénients

• Faible robustesse aux données bruitées Unicité du chemin vers une

même feuilles

• Complexité pouvant être exponentielle

• Traitement des attributs quantitatifs

Pour cela …

6

1. Etude des modèles1. L’arbre de classification2. Le treillis de Galois

2. Liens entre ces modèles1. Lien en classification2. Lien d’inclusion3. Treillis dichotomiques & lien de fusion

3. De leurs différences vers le modèle hybride1. Une discrétisation locale pour les treillis de

Galois2. Une simplification structurelle

4. Conclusions et Perspectives

Les arbres de classification - DéfinitionDéfinis à partir d’un ensemble de données :

Pouvant contenir tous types de descripteurs

Construction potentiellement en deux étapes [Kass80] [Breiman84]

[Qinlan93] :1.La division :

De la racine (contenant l’ensemble des objets) jusqu’aux feuilles Requiert deux critères :

Critère de division (supervisé ou non) : choix de l’attribut le plus discriminant

Critère d’arrêt (supervisé ou non) : arrêt de la division pré-élagage

Eventuellement, le post-élagage :1. Suppression de nœuds ou de branches2. Sélection du meilleur sous-arbre

7

Post-élagage

Les arbres de classification - Exemple

8

Division

Les arbres de classification - UtilisationUtilisation en classification supervisée :

Extraction d’un système de règles [Quinlan90] Parcours de la structure [Breiman84][Quinlan93]

9

oR = (C,B,A)Classe

= ?Classe =

k4

Les arbres de classificationChAID [Kass80] CART [Breiman84] C4.5 [Quinlan93]

Division ² Indice de Gini Gain ratio

Arité M-aires Binaire M-aires

ArrêtAbs division pertinente

• #objets/nœud• Abs division

pertinente#objets/nœud

Post-élagage

Pas de post-élagage

Mesure coût-complexitéBase de validation (MCC)

Mesure d’erreur par resubstitution (EBP)

AvantagesGestion de grande BD

Inconvénients

• Arbre profond• Nécessite une base

de validationArbre large

10

Pour cela …

11

1. Etude des modèles1. L’arbre de classification2. Le treillis de Galois

2. Liens entre ces modèles1. Lien en classification2. Lien d’inclusion3. Treillis dichotomiques & lien de fusion

3. De leurs différences vers le modèle hybride1. Une discrétisation locale pour les treillis de

Galois2. Une simplification structurelle

4. Conclusions et Perspectives

Les treillis de Galois - Définition

[Barbut70] [Ganter99] 12

O I1 I2 I3 K

o1 S H Ek1

o2 S H E

o3 S B Pk2

o4 S B P

o5 C B Pk3

o6 C B P

o7 C B Ak4

o8 C H A

Les treillis de Galois - Définition

[Barbut70] [Ganter99] 13

Les treillis de Galois - éléments remarquables

14

T = Top = Max

= Bot = Min

Ensemble des majorants

Ensemble des minorants

Co-atomes = éléments couvrant le top

[Birkhoff67] 15

Irréductible = élément qui est ni borne inférieure ni borne supérieure

Les treillis de Galois - éléments remarquables

Les treillis de Galois - UtilisationSélection de concepts :

GRAND, RULEARNER, … [Oosthuizen88], [Sahami95], [Mephu-Nguifo05],…

Parcours de la structure :NAVIGALA : NAVIgation into GAlois LAttice [Guillas07]

Reconnaissance de symboles Apprentissage :

Extraction de signatures Transformation des attributs quantitatifs : discrétisation

globale Table de données binaires

Classification : Navigation dans le diagramme de Hasse Etiquetage des concepts terminaux Génération à la demande

16

Classe pour l’image requête

0,5

1 15k1

0,5

115 ?

Extraction de signatures Construction

du treillis

Les treillis de Galois - Utilisation

17[Guillas07]

OV.

1

V.

2

V.

3

K

o1 1 415 k

1o2 0 0

18

o3 112

16 k

2o4 3

16

17

o515

16

15 k

3o6 6

20

17

O I.1 I.2 I.3 K

o1[0-4,5]

[0,8][15-18] k

1o2

[0-4,5]

[0,8][15-18]

o3[0-4,5]

]8-20]

[15-18] k

2o4

[0-4,5]

]8-20]

[15-18]

o5]4,5-15]

]8-20]

[15-18] k

3o6

]4,5-15]

]8-20]

[15-18]

Discrétisation

Pour cela …

18

1. Etude des modèles1. L’arbre de classification2. Le treillis de Galois

2. Liens entre ces modèles1. Lien en classification2. Lien d’inclusion3. Treillis dichotomique & lien de fusion

3. De leurs différences vers le modèle hybride1. Une discrétisation locale pour les treillis de

Galois2. Une simplification structurelle

4. Conclusions et Perspectives

Liens en classification

Classification par navigation dans les structures

19

Modèles Parcours Arc = test Classement

Arbre de classification

Racine

feuilleun attribut Classe de la feuille

Treillis de Galois

Min

concept terminal

un ou plusieurs attributs

Classe du concept terminal

Liens en classification

20

La navigation dans le treillis généralise la navigation dans les arbres

Pour cela …

21

1. Etude des modèles1. L’arbre de classification2. Le treillis de Galois

2. Liens entre ces modèles1. Lien en classification2. Lien d’inclusion3. Treillis dichotomiques & lien de fusion

3. De leurs différences vers le modèle hybride1. Une discrétisation locale pour les treillis de

Galois2. Une simplification structurelle

4. Conclusions et Perspectives

Liens structurels

Deux liens structurels forts :

1.Lien d’inclusion => cas général

2.Lien de fusion => cas des treillis dichotomiques

[Guillas08a] [Guillas08b] 22

Lien d’inclusionTout arbre de classification est inclus dans le

treillis de Galois, lorsque ces structures sont construites à partir des mêmes attributs qualitatifs.

23[Guillas08a] [Guillas08b]

Pour cela …

24

1. Etude des modèles1. L’arbre de classification2. Le treillis de Galois

2. Liens entre ces modèles1. Lien en classification2. Lien d’inclusion3. Treillis dichotomiques & lien de fusion

3. De leurs différences vers le modèle hybride1. Une discrétisation locale pour les treillis de

Galois2. Une simplification structurelle

4. Conclusions et Perspectives

Les treillis dichotomiques – Contribution

Lien de fusion => cas des treillis dichotomiques :

Un treillis est dichotomique lorsqu’il est défini pour un contexte où pour tout attribut, il existe un ou des attributs complémentaires pour l’ensemble des objets.

[Bertet09], [Girard11a], [Girard11b], [Girard13] 25

Attribut S C B H E P A

Complémentaire

{C} {S} {H} {B}{P},{A}

{S,H},{A}

{S,H},{P}

[Bertet09], [Girard11a], [Girard11b], [Girard13] 26

Les treillis dichotomiques – Contribution

Les treillis dichotomiques - Contribution

[Bertet09], [Girard11a], [Girard11b], [Girard13] 27

Lien de fusion

[Guillas08a] [Guillas08b] 28

Conclusions liensDeux méthodes de classification proches

En fonctionnement (par navigation)En structure (fusion/inclusion)

29

Description des images => signatures quantitatives

Comment les traiter au mieux ?

Arbre de classification Treillis de Galois

Avantages

• Faible espace mémoire• Construction rapide• Traitement de tous types

d’attributs

• Robustesse aux données bruitées Multiplicité des chemins

vers un même concept terminal

Lisibilité (modèles symboliques)

Inconvénients

• Faible robustesse aux données bruitées Unicité du chemin vers une

même feuilles

• Complexité pouvant être exponentielle

• Traitement des attributs quantitatifs

Pour cela …

30

1. Etude des modèles1. L’arbre de classification2. Le treillis de Galois

2. Liens et différences entre ces modèles1. Lien en classification2. Lien d’inclusion3. Treillis dichotomique & lien de fusion

3. De leurs différences vers le modèle hybride1. Une discrétisation locale pour les treillis de

Galois2. Une simplification structurelle

4. Conclusions et Perspectives

DifférencesLe traitement des données quantitatives :

Cadre supervisé : Transformation la plus efficace : la discrétisation

supervisée Arbre de classification : tous types d’attributs

Discrétisation locale/globale Treillis de Galois : une table binaire

Discrétisation globale des données quantitatives

[Dougherty95], [Quinlan96] 31

O V.1 V.2 V.3 K

o1 1 4 15k1

o2 0 0 18

o3 1 12 16k2

o4 3 16 17

o5 15 16 15k3

o6 6 20 17

o7 18 4 17k4

o8 20 12 18

O I.1 I.2 I.3 K

o1 [0-4,5] [0,8][15-18]

k1

o2 [0-4,5] [0,8][15-18]

o3 [0-4,5]]8-20]

[15-18]

k2

o4 [0-4,5]]8-20]

[15-18]

o5]4,5-16,5]

]8-20]

[15-18]

k3

o6]4,5-16,5]

]8-20]

[15-18]

o7]16,5-

20][0,8]

[15-18]

k4

o8]16,5-

20]]8-20]

[15-18]

Différences Discrétisation globale : en prétraitement

suppression des attributs non discrétisés prise en compte de tous les objets à chaque étape

Discrétisation locale : en cours de construction meilleure prise en compte des interactions entre attributs, meilleure précision du modèle, prise en compte de sous-ensembles d’objets à chaque étape :

Arbres de classification => discrétisation par nœud, indépendante d’une branche à l’autre

32

0

2

4

6

8

10

12

14

16

18

20

0 5 10 15 20

V2

V1

0

2

4

6

8

10

12

14

16

18

20

0 5 10 15 20

V2

V1

[Dougherty95], [Quinlan96]

Discrétisation locale pour les TG - Contribution

[Guillas08b], [Girard13] 33

Peut-on définir une discrétisation locale pour les treillis ?

En identifiant les concepts terminaux :

Propriété 3 :Tout treillis de Galois défini à partir d’une table de données discrétisées, est un treillis

dichotomique.

Utilisation des propriétés des treillis dichotomiquesCo-atomes = concepts terminaux (feuilles)Co-atomes calculables sans générer le TG entier

34

Sélection de I1, discrétisation au

point de coupe 4,5 :I11 = [0-4,5]

I12 = ]4,5-20]

Calcul des co-atomes

Sélection attribut discriminant et point de coupe

Binarisation

Mise à jour

de la table

o1 o2 o3 o4

I11 I2 I3o5 o6 o7

o8

I12 I2 I3

Sélection de I2, discrétisation au point de coupe

8 :I21 = [0-8]

I22 = ]8-20]

Choix parmi 2

o1 o2 I11 I21

I3o5 o6

o8

I12 I22 I3

o3 o4 I11 I22

I3

o7

I12 I21 I3

Sélection de I12, discrétisation au point de coupe

16,5I12 =]4,5-16,5]

I13 = ]16,5-20]

Tous les co-atomes sont purs

Fin de la discrétisation

o5 o6

I12 I22 I3 o8

I13 I22 I3

o7

I13 I21 I3

Discrétisation locale pour les TG - Contribution

[Girard09], [Girard11a], [Girard11b], [Girard13]

Comment choisir le meilleur attribut à chaque étape ?

Adaptation du calcul du meilleur attribut à la structure du TG1.Calcul du meilleur attribut pour chaque co-atome

Ensemble de meilleurs attributs

2.Sélection d’un des meilleurs dans cet ensemble :Calcul local :

Comparaison des gains par co-atomeCalcul linéaire local :

Comparaison selon un gain linéaire

[Girard11a], [Girard11b], [Girard13] 35

Discrétisation locale pour les TG - Contribution

36

Exemple : il faut séparer o1 de o2 et o3 de o4,o5 :

o3 o4o5

I11 I22 I3

o1 o2

I11 I21 I3

Concept 1 Concept 2

[Girard11a], [Girard11b], [Girard13]

Discrétisation locale pour les TG - Contribution

Calcul local : max des gains I21 est choisi pour séparer o1 de o2

=> il faut refaire une étape de discrétisation pour séparer o3 de o4,o5

Calcul linéaire local : somme pondérée des gains maximauxI11 est choisi, o1 est séparé de o2 et o3 est séparé o4,o5 => une unique étape est nécessaire

Discrétisation locale pour les TG - Validation

Validation de l’approche

Expérimentations• Les bases• Le meilleur critère de division• La complexité structurelle• La complexité algorithmique• Les performances en classification

[Girard11a], [Girard11b], [Girard13] 37

38

Expérimentations•Différentes bases de données quantitatives :

• Images : GREC struc., GREC Radon, Image 1• Bases usuelles en classification : Glass, Iris,

Breast Cancer#Objet

s#Attribu

ts#Class

es% BA

%BT

VC

Image 1 2310 19 7 10% 90%

GLASS 214 9 6 90% 10% 10

IRIS 150 4 3 90% 10% 10

Breast Cancer

699 10 2 90% 10% 10

GREC struc.

1900 15 19 10% 90%

GREC Radon

910 50 10 10% 90% 10[Girard11a], [Girard11b], [Girard13]

Discrétisation locale pour les TG - Validation

39

Choix du meilleur critère de division

[Girard11a], [Girard11b], [Girard13]

Discrétisation locale pour les TG - Validation

40

Complexité structurelle

[Girard11a], [Girard11b], [Girard13]

Discrétisation locale pour les TG - Validation

41

Complexité algorithmique

Discrétisation locale pour les TG - Validation

[Girard11a], [Girard11b], [Girard13]

42

Performances en classification

Discrétisation locale pour les TG - Validation

[Girard11a], [Girard11b], [Girard13]

Discrétisation locale pour les TG - Conclusions

Comme pour les arbres de classificationDiscrétisation locale => souvent meilleures

performances en classificationDe plus :

Discrétisation locale => Diminution de la complexité structurelle

Possibilité de génération à la demande du treillis

La structure est toujours plus complexe que l’arbre

43[Girard11a], [Girard11b], [Girard13]

Pour cela …

44

1. Etude des modèles1. L’arbre de classification2. Le treillis de Galois

2. Liens et différences entre ces modèles1. Lien en classification2. Lien d’inclusion3. Treillis dichotomique & lien de fusion

3. De leurs différences vers le modèle hybride1. Une discrétisation locale pour les treillis de

Galois2. Une simplification structurelle

4. Conclusions et Perspectives

Simplification de la structure - ContributionSimplifications existantes – comparatifs

45

Arbre de classification Treillis de Galois

Objectif

1. Le sur-apprentissage2. La complexité structurelle

(exponentielle pires cas)

Mise en œuvre

• Parcours des nœuds/branches

• Evaluation contribution en classification

• Sélection du meilleur sous-arbre

• Calcul d’indices par concepts• Suppression de concepts selon

un seuil

Proposition

Guider le choix d’un seuil optimal pour :1. Améliorer/conserver les performances en classification2. Diminuer la complexité structurelle

Simplification de la structure

46

Simplification de la structureExemple

Calcul à partir du diagramme de HasseEx : Simplification pour un seuil de 0,36 => structure hybride

[Roth06], [Kuznetsov07b], [Roth08] 47

Performances dépendantes du seuil choisi

PropositionComment choisir le seuil ?

Inspiration de l’élagage des arbresGuider le choix du seuil par les performances en

classification

Définition d’un seuil optimal :Parcours des seuils existants

Simplification incrémentaleTest de performance

Taux de reconnaissance en resubstitutionChoix de la structure offrant les meilleurs résultats

Meilleur taux de reconnaissance … Et taille de structure la plus petite

[Roth06], [Kuznetsov07b], [Roth08] 48

Simplification de la structure - Contribution

Simplification de la structure

Nombre de conceptsTaux de

reconnaissance BT (%)

Treillis non

simplifié

Modèle hybride

Différence

Treillis non

simplifié

Modèle hybride

Image 1 649 363 -44% 91,71 90,95Glass 2267 1127 -50% 71,09 71,83IRIS 41 36 -12% 95,33 95,33

Breast Cancer

2961 1939 -35% 94,43 95,01

GREC struc.

3851 1748 -55% 73,68 72,96

GREC Radon

90 68 -25% 90,69 90,7349

Expérimentations

Pour cela …

50

1. Etude des modèles1. L’arbre de classification2. Le treillis de Galois

2. Liens entre ces modèles1. Lien en classification2. Lien d’inclusion3. Treillis dichotomique & lien de fusion

3. De leurs différences vers le modèle hybride1. Une discrétisation locale pour les treillis de

Galois2. Une simplification structurelle

4. Conclusions et Perspectives

Conclusions

51

modèle hybride

Perspectives

52

Développement LogicielUn logiciel disponibleRegroupant

La discrétisation (#critères) Globale Locale Locale linéaire

La simplification Indice de stabilité

La classification Par navigation

53

Bibliographie

54

Arbres de classification

[Kass80], [Breiman84], [Quinlan90], [Quinlan93], [Dougherty95],

[Quinlan96], …

Treillis de Galois

[Birkhoff67], [Barbut70], [Oosthuizen88], [Kuznetsv90],

[Sahami95], [Brin97], [Ganter99], [Kuznetsv03], [Mephu-Nguifo05],

[Kuznetsv07a], [Kuznetsv07b], [Roth06], [Roth08], …

Notre modèle

[Guillas07], [Guillas08a], [Visani11], CLA 2008 : [Guillas08b], SFC09: [Girard09], CLA 2011 : [Girard11a],

ICTAI 2011 : [Girard11b], TS : [Bertet09], IJCSAI : [Girard13]

55

top related