contribution a l’ evaluation des m etho des de combinaison...

UNIVERSITE DE ROUEN

U.F.R. DES SCIENCES ET TECHNIQUES

THESE DE DOCTORAT

Pour obtenir le grade deDOCTEUR DE L’UNIVERSITE DE ROUEN

Discipline: Sciences appliqueesSpecialite: Informatique

Presentee par:Hela Khoufi Zouari

Sujet de la these:

Contribution a l’evaluation des methodes decombinaison parallele de classifieurs par

simulation

Soutenue le 17 decembre 2004 devant le jury compose de :

M. Adel M. Alimi ENIS de Sfax Co-directeurM. Thierry Artieres Universite Paris 6 ExaminateurM. Noureddine Ellouze ENIT de Tunis RapporteurM. Patrick Gallinari Universite Paris 6 RapporteurM. Laurent Heutte Universite de Rouen ExaminateurM. Yves Lecourtier Universite de Rouen Directeur de theseM. Guy Lorette Universite de Rennes I Examinateur

Laboratoire PSI - FRE CNRS 2645

A Yassine,A mes parents, Nejib et Hasna

A toute ma famille

3

Resume

Les travaux de recherche presentes dans ce memoire abordent le problemede la simulation de classifieur pour l’evaluation du comportement des methodesde combinaison parallele de classifieurs. Nous proposons une methode origi-nale de simulation permettant de generer des sorties artificielles d’un classi-fieur (listes de propositions) pour un probleme de classification quelconque.Le principe de cette simulation est base sur le controle de matrices de perfor-mances (globales, semi-globales ou locales) permettant de decrire le compor-tement desire du classifieur pour generer la liste de ses sorties. Nous proposonsegalement une methode de simulation de classifieurs correles permettant, apartir des performances desirees et en fonction d’un niveau de diversite fixe,de generer artificiellement des sorties correlees. Les tests realises sur quelquesregles simples de combinaison montrent l’interet de l’approche de simulationproposee dans l’etude du comportement des methodes de combinaison.

Mots-cles: Combinaison parallele, simulateur de classifieur, evaluationde performance, comportement des methodes de combinaison, generation desorties, diversite, simulation de donnees.

Abstract

This thesis deals with the problem of classifier simulation for evaluatingthe behaviour of classifier combination methods. We propose an original me-thod of simulation to generate artificial classifier outputs (list of solutions)for a given classification problem. This method is based on the control ofperformance matrices (global, intermediate or local) allowing to describe thedesired behaviour of the classifier in order to generate the list of its outputs.We also propose a method for simulating correlated classifiers, which allows,from desired performance and a fixed level of diversity, to generate artificiallycorrelated outputs. Tests carried out on a few simple combination rules showthe interest of the proposed approach for the study of the combination me-thod behaviour.

Key words: Parallel combination, classifier simulator, performance eva-luation, behaviour of combination methods, output generation, diversity,data simulation.

4

Remerciements

Ce travail de these a ete realise dans le cadre d’une co-tutelle entre le labo-ratoire Perception, Systemes et Information (PSI) de l’Universite de Rouen(France) et le laboratoire REGIM de l’Ecole Nationale d’Ingenieurs de Sfax(Tunisie).

Je tiens a remercier tous ceux qui m’ont aide de pres ou de loin au coursde mes recherches:

– Yves Lecourtier, pour l’interet qu’il a porte a mes travaux depuis qu’ilm’a introduit dans le monde de la recherche scientifique et pour avoiraccepte de diriger cette these. J’aimerais lui temoigner ici toute ma re-connaissance pour ses suggestions pertinentes ainsi que pour la confiancepermanente qu’il m’a accordee.

– Laurent Heutte, pour avoir accepte d’encadrer mes travaux en me fai-sant beneficier de ses precieux conseils. Son suivi constant et attentif, ledynamisme qu’il a su me communiquer m’ont permis de mener a bience travail. Qu’il trouve ici l’expression de ma profonde gratitude.

– Adel M. Alimi, Professeur a l’Ecole d’Ingenieurs de Sfax, pour avoiraccepte de co-diriger mes travaux. Pour l’aide et les conseils qu’il m’aprodigues durant les annees de these, je voudrais ici temoigner ma re-connaissance.

Je voudrais egalement remercier Noureddine Ellouze, Professeur a l’Ecoled’Ingenieurs de Tunis, Patrick Gallinari, Professeur a l’Universite Paris 6,Thierry Artieres, Maıtre de conference a l’Universite Paris 6 et Guy Lorette,Professeur a l’Universite de Rennes I, de l’honneur qu’ils me font en etantmembre de mon jury.

Je voudrais egalement remercier tous les membres des laboratoires PSI etREGIM pour l’amitie et l’aide qu’ils m’ont temoignes durant cette these avecune pensee particuliere a Dominique Menitrier, Pierre Herroux, SebastienAdam, Clement Chatelain, Guillaume Koch, Herve Locteau et Stephane Ni-colas.

Enfin, je voudrais exprimer toute ma reconnaissance a mes proches et ames amis qui m’ont toujours soutenu et encourage pendant ce long travail.

TABLE DES MATIERES 5

Table des matieres

Notations 8

Introduction Generale 9

1 Systemes Multi-Classifieurs 15

1.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16

1.2 Combinaison de classifieurs . . . . . . . . . . . . . . . . . . . . 17

1.2.1 Definition d’un classifieur . . . . . . . . . . . . . . . . 17

1.2.2 Strategies de combinaison . . . . . . . . . . . . . . . . 20

1.2.3 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . 24

1.3 Combinaison parallele de classifieurs . . . . . . . . . . . . . . 25

1.3.1 Problematique de la combinaison parallele . . . . . . . 25

1.3.2 Taxonomies des methodes de combinaison . . . . . . . 27

1.4 Combinaison non-parametrique . . . . . . . . . . . . . . . . . 33

1.4.1 Type classe . . . . . . . . . . . . . . . . . . . . . . . . 33

1.4.2 Type rang . . . . . . . . . . . . . . . . . . . . . . . . 36

1.4.3 Type mesure . . . . . . . . . . . . . . . . . . . . . . . 40

1.5 Combinaison parametrique . . . . . . . . . . . . . . . . . . . . 44

1.5.1 Type classe . . . . . . . . . . . . . . . . . . . . . . . . 44

1.5.2 Type rang . . . . . . . . . . . . . . . . . . . . . . . . . 49

1.5.3 Type mesure . . . . . . . . . . . . . . . . . . . . . . . 53

1.6 Comparaison des methodes de combinaison . . . . . . . . . . . 57

1.7 Selection de classifieurs . . . . . . . . . . . . . . . . . . . . . . 60

1.7.1 Selection statique . . . . . . . . . . . . . . . . . . . . . 61

1.7.2 Selection dynamique . . . . . . . . . . . . . . . . . . . 68

1.7.3 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . 74

1.8 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 76

6 TABLE DES MATIERES

2 Evaluation de performances des methodes de combinaison 77

2.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . 78

2.2 Performances d’un classifieur . . . . . . . . . . . . . . . . . . . 79

2.2.1 Performances globales . . . . . . . . . . . . . . . . . . 80

2.2.2 Performances semi-globales . . . . . . . . . . . . . . . . 81

2.2.3 Performances locales . . . . . . . . . . . . . . . . . . . 82

2.2.4 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . 85

2.3 Comportement des methodes de combinaison . . . . . . . . . . 86

2.3.1 Influence des performances des classifieurs . . . . . . . 86

2.3.2 Independance/dependance des classifieurs . . . . . . . 91

2.3.3 Influence du nombre de classifieurs . . . . . . . . . . . 94

2.3.4 Influence d’autres facteurs . . . . . . . . . . . . . . . . 96

2.3.5 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . 97

2.4 Simulation de donnees . . . . . . . . . . . . . . . . . . . . . . 99

2.4.1 Simulation de sorties de classifieurs . . . . . . . . . . . 101

2.5 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 110

3 Simulation d’un classifieur 111

3.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . 112

3.2 Le simulateur . . . . . . . . . . . . . . . . . . . . . . . . . . . 113

3.2.1 Objectifs . . . . . . . . . . . . . . . . . . . . . . . . . . 113

3.2.2 Simulation de N comportements . . . . . . . . . . . . . 117

3.2.3 Simulation d’un seul comportement . . . . . . . . . . . 127

3.2.4 Simulation de deux comportements . . . . . . . . . . . 139

3.2.5 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . 145

3.3 Verification du simulateur . . . . . . . . . . . . . . . . . . . . 147

3.3.1 Verification avec des matrices donnees . . . . . . . . . 147

3.3.2 Generation de liste de comportements . . . . . . . . . . 149

3.3.3 Generation d’un seul comportement . . . . . . . . . . . 153

3.3.4 Generation de deux comportements . . . . . . . . . . . 157

3.3.5 Precision du simulateur . . . . . . . . . . . . . . . . . 160

3.3.6 Correlation des sorties . . . . . . . . . . . . . . . . . . 161

3.3.7 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . 162

3.4 Apports de la simulation . . . . . . . . . . . . . . . . . . . . . 163

3.4.1 Evaluation type classe . . . . . . . . . . . . . . . . . . 163

3.4.2 Evaluation type rang . . . . . . . . . . . . . . . . . . . 167

3.4.3 Evaluation type mesure . . . . . . . . . . . . . . . . . 182

3.5 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 185

TABLE DES MATIERES 7

4 Simulation de classifieurs correles 1874.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1884.2 Mesures de diversite . . . . . . . . . . . . . . . . . . . . . . . 190

4.2.1 Type binaire . . . . . . . . . . . . . . . . . . . . . . . . 1904.2.2 Type rang . . . . . . . . . . . . . . . . . . . . . . . . . 1964.2.3 Type mesure . . . . . . . . . . . . . . . . . . . . . . . 1974.2.4 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . 198

4.3 Comment renforcer la diversite? . . . . . . . . . . . . . . . . . 1994.3.1 Caracteristiques differentes . . . . . . . . . . . . . . . . 2024.3.2 Bases d’apprentissage differentes . . . . . . . . . . . . . 2034.3.3 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . 210

4.4 Methode proposee . . . . . . . . . . . . . . . . . . . . . . . . . 2104.4.1 Mesure utilisee . . . . . . . . . . . . . . . . . . . . . . 2124.4.2 Principe de la methode de generation des sorties . . . 2134.4.3 Generation de sorties correlees . . . . . . . . . . . . . . 2164.4.4 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . 228

4.5 Verification de la methode . . . . . . . . . . . . . . . . . . . . 2304.6 Contribution experimentale . . . . . . . . . . . . . . . . . . . 2324.7 Comparaison avec la simulation independante . . . . . . . . . 2414.8 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 243

Conclusion generale 245

Bibliographie 251

8 TABLE DES MATIERES

Notations

Symboles Descriptionsx vecteur de caracteristiques associe a la forme d’entree a classerN nombre de classes possibles sans rejetCi classe i

Cvraie classe de x (vraie classe)Ω ensembles de classes possiblesej classifieur j

ej(x) sortie d’un classifieur ej pour la forme xSi nombre de sorties d’un classifieur pour la classe Ci

S vecteur des nombres de sorties par classesi,j la iieme sortie du classifieur ej

L nombre de classifieursωj poids attribue au classifieur ej

MD(x) matrice contenant toutes les decisions des classifieurs pourla forme x

rj vecteur des rangs associe a la forme x par le classifieur ej

ri,j rang attribue a la classe Ci par le classifieur ej

mj vecteur des mesures associe a la forme x par le classifieur ej

mi,j mesure attribuee a la classe Ci par le classifieur ej

MCkj matrice de co-presence du classifieur ej dans les k premieres

solutionsTLk

i taux de reconnaissance de la classe Ci dans les k premieressolutions

TCki taux d’erreur de la classe Ci dans les k premieres

solutionsTRi taux de rejet de la classe Ci

E(x) le resultat de la combinaison d’une forme inconnue xBA base d’apprentissageBT base de testf regle de fusion ou d’aggregationPi probabilite a posteriori de la classe Ci


Introduction Generale

On dispose aujourd’hui, dans le domaine de la reconnaissance de formes,d’un grand nombre de classifieurs et de methodes d’extraction de caracteristiques.Des 1974, Kanal 1 avait souligne pour des problemes de classification: ”Nosingle model exists for all pattern recognition problems and no single tech-nique is applicable to all problems. Rather what we have is a bag of tools anda bag of problems”. Malgre les nombreux travaux dans le domaine, cela n’apas permis de mettre en evidence la superiorite incontestable d’une methodede classification sur une autre ou d’un extracteur de caracteristiques sur unautre. Plutot que de chercher a optimiser un seul classifieur en choisissantles meilleures caracteristiques pour un probleme donne, les chercheurs onttrouve plus interessant de combiner des methodes de reconnaissance.

Depuis les annees 90, la combinaison de classifieurs a donc ete une desdirections de recherche les plus soutenues dans le domaine de la recon-naissance de formes. Les methodes de combinaison ont ainsi ete appliqueesavec succes dans des domaines aussi divers que la reconnaissance de l’ecrit,la verification de signatures, l’identification de visages ou encore l’analysed’images medicales. L’amelioration des performances des systemes de recon-naissance est finalement le principal enjeu des recherches menees ces dernieresannees sur les systemes de combinaison.

Parmi les differentes architectures permettant de combiner un ensemblede classifieurs donnes, l’architecture parallele est de loin celle qui a donnelieu aux travaux les plus importants. Sa simplicite de mise en oeuvre, sacapacite a exploiter les reponses des classifieurs a combiner en prenant encompte (ou non) le comportement de chacun des classifieurs et son effica-cite prouvee dans de nombreux problemes de classification expliquent sonsucces notamment par rapport a l’approche sequentielle qui, elle, necessiteobligatoirement une bonne connaissance du comportement de chacun des

1. Kanal, L.,”Patterns in pattern recognition”, IEEE Transactions on InformationTheory, Vol. 20, 697-722, 1974

10 Introduction Generale

classifieurs pour pouvoir obtenir un schema de cooperation efficace. Malgreune litterature abondante et une multitude de travaux qui ont aborde ce sujetde differentes manieres, force est de constater que le concepteur d’un systemede combinaison parallele de classifieurs est toujours confronte a un certainnombre de choix auxquels la communaute de l’apprentissage et de la classifi-cation n’a pas encore apporte de reponses precises. D’une part, le problemeest tres difficile a modeliser et les trop rares travaux qui ont tente d’appor-ter des explications theoriques ne se sont concentres que sur les methodesrelativement simples de vote. D’autre part, on trouve des travaux plus ap-pliques sur differents problemes de reconnaissance de formes (reconnaissancede caracteres, de mots, verification de signatures, reconnaissance de la parole,de visages, identification de formulaires, ...) mais les resultats obtenus res-tent etroitement dependants des applications traitees et par consequent sontdifficiles a generaliser en dehors d’un contexte applicatif donne. Il existe tou-tefois certains travaux interessants qui traitent du probleme de l’evaluationdes methodes de combinaison en les testant sur differentes bases de donneesreelles. Mais l’utilisation de donnees reelles n’offre pas suffisamment de varia-bilite dans les performances des classifieurs a combiner pour permettre uneanalyse en profondeur du comportement de ces methodes de combinaison.

Pour contourner cette difficulte, la simulation de donnees est devenuerecemment un moyen pratique pour generer artificiellement la variabilite tantattendue dans les performances des classifieurs a combiner permettant ainsid’evaluer de facon robuste le comportement des methodes de combinaison.Dans ce cadre, la simulation de classifieurs (c’est-a-dire la generation arti-ficielle des sorties) est, selon nous, la technique la plus interessante car ellepermet de controler directement les entrees des operateurs de combinaison etdans une certaine mesure le comportement des classifieurs a combiner. Troppeu de chercheurs selon nous ont analyse le potentiel de cette approche.Les quelques travaux dans ce domaine se sont le plus souvent limites audeveloppement de generateurs fournissant uniquement des sorties de typeclasse. Les classifieurs simules ne sont alors controles que par un seul pa-rametre comme le taux moyen de reconnaissance sans qu’il soit de plus pos-sible de generer une quelconque variabilite dans les taux de reconnaissancepar classe. Or de nombreux problemes de classification, tels ceux que l’onrencontre en reconnaissance de l’ecrit par exemple, necessitent de combinerdes listes de solutions plutot qu’une seule solution. Par consequent, les simu-lateurs de classifieurs developpes jusqu’a maintenant sont tres loin de genererdes comportements proches de la realite et sont en ce sens limites pour abor-der l’evaluation des methodes de combinaison.


Dans le cadre des travaux de cette these, nous avons donc cherche adevelopper une methode de simulation aussi generique que possible c’est-a-dire permettant de simuler un probleme quelconque de classification (nombrede classes, taille des listes de propositions fournies par le classifieur, ...) apartir d’un jeu reduit de parametres permettant de fixer le comportementintrinseque du classifieur c’est-a-dire ses performances desirees (taux de re-connaissance, taux de rejet, taux de reconnaissance et de rejet par classe,taux de reconnaissance en differentes positions de la bonne solution dans laliste de propositions, ...). La methode proposee consiste a construire des ma-trices de confusion intermediaires a partir de ces parametres puis a generer laliste des sorties a partir de ces matrices. L’idee est de pouvoir disposer d’unoutil permettant de nous aider a evaluer facilement et expliquer precisementl’influence de certains parametres - tels que le nombre de classifieurs, lesperformances intrinseques et relatives des classifieurs a combiner, le nombrede classes - sur les performances d’un systeme de classifieurs multiples. End’autres termes, nous cherchons a caracteriser experimentalement les situa-tions optimales d’utilisation des operateurs de combinaison en utilisant desdonnees simulees. Le plan du memoire resulte donc des considerations precedentes.

La multiplication des travaux sur la problematique de la combinaisona entraıne la mise au point de nombreux schemas de combinaison trai-tant les donnees de manieres differentes. Le chapitre 1 est donc consacrea l’etude de la problematique associee a la combinaison de classifieurs. Nousrappelons tout d’abord ce qu’on entend par classifieur dans le cadre de lacombinaison. Nous passons en revue les principales strategies de combi-naison (approche sequentielle, parallele et hybride) qui different principa-lement par l’agencement des classifieurs. Chacune de ces approches a sus-cite un grand nombre de travaux dans le domaine de la reconnaissancede formes. Pour la seule approche parallele, il existe de tres nombreusesmethodes que certains chercheurs ont essaye de categoriser. Nous presentonsces differentes categorisations et nous proposons une nouvelle taxonomie enfonction de certains criteres que nous justifions. Nous detaillons ensuite lesmethodes les plus utilisees dans la litterature selon cette taxonomie ainsi queles developpements recents dans le domaine.

Le chapitre 2 est consacre au probleme de l’evaluation des methodes decombinaison parallele. Nous analysons les travaux qui ont traite ce problemesur des donnees reelles et nous montrons la difficulte d’etablir des resultatsgeneraux independamment du domaine applicatif vise. Pour contourner leprobleme de l’evaluation des methodes de combinaison, la simulation dedonnees artificielles semble justement etre la voie la plus prometteuse. Nous


presentons donc les differentes facons de simuler des donnees. Nous consa-crons une partie du chapitre aux travaux qui ont utilise un simulateur declassifieur pour evaluer les methodes de combinaison. Enfin, nous concluonsce chapitre sur les limites atteintes par ces travaux et en particulier sur leurslimites a generer un comportement de classifieur proche de la realite.

Le simulateur de classifieur que nous proposons a pour objectif de depasserces limites par la generation de sorties artificielles et independantes pour unprobleme quelconque de classification, que ce soit en termes de nombre declasses, de nature des sorties (classe, rang, mesure), de taille de listes de pro-positions ou de performances desirees (taux de reconnaissance, taux de rejet,taux par classe, taux pour differentes positions dans la liste, ...). Le chapitre 3est donc consacre a la presentation de ce simulateur. Nous decrivons le prin-cipe de la methode de simulation ainsi que les differentes etapes necessairesa sa realisation. Nous justifions en particulier les parametres choisis pourla simulation. Dans la deuxieme partie de ce chapitre, nous montrons quele simulateur genere bien les sorties attendues en fonction des performancesdesirees. Enfin, dans la derniere partie, nous montrons l’interet de ce simu-lateur dans l’etude des methodes de combinaison.

Un des points importants souleves ces dernieres annees dans le domaine dela combinaison de classifieurs est le role que joue la diversite dans l’ameliorationdes performances des methodes de combinaison. Nous consacrons donc le cha-pitre 4 a la simulation de classifieurs correles en fonction de la diversite. Dansla premiere partie de ce chapitre, nous decrivons le probleme lie a la diversitede classifieurs et plus particulierement les mesures utilisees pour estimer ladiversite entre les sorties de classifieurs. Nous passons en revue les principalestechniques qui generent cette diversite pour optimiser un ensemble de classi-fieurs. Nous decrivons egalement les travaux qui ont etudie, par le biais de lasimulation, le role de la diversite dans la combinaison. Parce que les simula-teurs proposes dans ces travaux ne permettent pas de simuler un classifieurproche de la realite, nous proposons dans la deuxieme partie de ce chapitreune methode de generation de classifieurs dependants qui prend en comptele niveau de correlation desire tout en respectant un comportement fixe pourchacun des classifieurs a combiner. Dans la derniere partie de ce chapitre,nous presentons les resultats obtenus en essayant d’evaluer le comportementde certains operateurs de combinaison en fonction de la diversite.

Enfin, nous concluons sur les points importants du document, notammentsur l’approche de simulation proposee et les resultats obtenus. Nous evoquonsles perspectives de ces travaux et les voies de recherche qui semblent promet-


teuses aussi bien pour ameliorer l’approche de simulation proposee que pourla problematique de l’evaluation des performances des methodes de combi-naison.

Chapitre 1. Systemes Multi-Classifieurs 15

Chapitre 1

Systemes Multi-Classifieurs

Dans ce chapitre nous dressons un etat de l’art des systemes de combi-naison de classifieurs. Nous presentons les strategies de prises de decisionpossibles lorsque plusieurs classifieurs interviennent dans un processus dereconnaissance et les specificites relatives a chaque strategie. Nous nous fo-calisons en particulier sur la combinaison parallele de classifieurs et nouspresentons un panorama des principales methodes mises en oeuvre dans denombreux domaines de la reconnaissance de formes. Cet examen nous per-mettra d’identifier les points forts et les faiblesses des algorithmes utilises ace jour.

Nous rappelons tout d’abord ce qu’on entend par classifieur dans le cadrede la combinaison. Nous detaillons ensuite les approches de combinaison lesplus utilisees dans la litterature et qui se differencient essentiellement parl’agencement des classifieurs. Nous abordons ensuite le probleme de la com-binaison parallele de classifieurs. Nous discutons des differentes taxonomiesexistantes et nous proposons une nouvelle taxonomie en fonction de certainscriteres que nous justifions. Nous detaillons ensuite les methodes de combi-naison les plus reconnues dans la litterature selon cette taxonomie ainsi queles developpements recents dans le domaine. Enfin, nous concluons sur leslimites atteintes par ces travaux et en particulier sur la difficulte a choisirune methode de combinaison en dehors d’un contexte applicatif donne.

16 Chapitre 1. Systemes Multi-Classifieurs

1.1 Introduction

Concernant la combinaison de classifieurs, la litterature est tres riche et di-verse. L’idee de combiner les sorties des classifieurs pour creer un systeme avecune fiabilite elevee n’est pas nouvelle. En 1989, Clemen citait deja plus de 200travaux relies a la combinaison de classifieurs [Clemen, 1989] et attribue l’ideeoriginale a Laplace en 1818 [Laplace, 1847]. Dans [Carney and Cunningham, 1999],les chercheurs attribuent la premiere application de combinaison des reseauxde neurones a Nilsson [Nilsson, 1965].

Le veritable interet pour la combinaison de classifieurs date en fait desannees 80, avec en particulier les travaux de [Srihari, 1982, Hull et al., 1983,Hull, 1988, Mandler and Schuermann, 1988, Lam and Suen, 1988] qui ont montrel’importance d’avoir des solutions robustes pour les problemes de reconnais-sance de l’ecriture manuscrite en particulier. Cependant, ce n’est qu’a par-tir des annees 90 que les systemes de combinaison de classifieurs ont eteconcretement mis en oeuvre.

Si, dans un premier temps, les methodes de classification, basees surdifferentes theories et methodologies, ont ete considerees comme autant desolutions possibles a un meme probleme, leur developpement n’a pas per-mis de mettre en evidence la superiorite incontestable d’une methode surune autre pour repondre aux contraintes des applications pratiques. En effet,l’etude de ces techniques a fait apparaıtre des differences de comportementet donc une complementarite potentielle qu’il semblait interessant d’exploi-ter pour obtenir des performances superieures a celles d’un seul classifieur.En fait, de la meme maniere qu’une caracteristique supplementaire permet aun classifieur de mieux decider (a condition qu’elle apporte une informationcomplementaire a celle fournie par d’autres caracteristiques), une reponseprovenant d’un autre classifieur permet a un systeme de classifieurs de mieuxdecider (a condition que cette reponse soit complementaire aux decisions desclassifieurs existants). Par consequent, l’idee d’en utiliser plusieurs simul-tanement s’est peu a peu imposee.

Une partie de la recherche actuelle en reconnaissance de formes se portesur la combinaison parallele de classifieurs. Cette approche a ete proposeecomme une voie de recherche permettant d’ameliorer la performance d’unsysteme de reconnaissance. Elle peut etre definie comme une technique bienparticuliere qui part du principe qu’avec un choix approprie de methodesde classification, mais en conservant pour chaque classifieur le type de ca-racteristiques le mieux adapte, il est possible d’integrer dans un meme systeme

1.2. Combinaison de classifieurs 17

l’avis de plusieurs classifieurs differents en exploitant leur complementarite.Ce qui permet de tirer profit de propositions issues de systemes approchantle meme probleme de maniere differente [Kurzweil, 1990].

Avant de rentrer dans les details de la problematique de la combinai-son parallele de classifieurs, il est necessaire de rappeler ce qu’on entendgeneralement par classifieur dans le cadre de la combinaison et de presenterles differentes strategies de combinaison de classifieurs.

1.2 Combinaison de classifieurs

1.2.1 Definition d’un classifieur

Definir un probleme de classification, c’est d’abord se choisir une taxono-mie c’est-a-dire une repartition des formes a reconnaıtre dans un ensemblede classes Ci, i ∈ [1, ..., N]. Dans le cas le plus general, on peut associer a laforme a reconnaıtre x un vecteur de degre d’appartenance D(x) tel que

D(x) =

D1(x)D2(x)

.

.DN(x)

(1.1)

avec Di(x)=Dx∈ Ci. Dans ce cas, x peut appartenir a plusieurs classessi Di(x) 6= 0. Toutefois, dans la majorite des problemes de classification,on a affaire a une classification exclusive dans laquelle une forme ne peutappartenir qu’a une seule classe. On a alors Di(x)=δi,j tel que

δi,j =

1 si j = i0 si j 6= i

(1.2)

Ci est alors souvent appelee ”la vraie classe”:

D(x) =

0.010..0

(1.3)


Dans le cadre de ce travail, nous nous placons dans le cas d’une classificationexclusive. Construire un classifieur consiste alors a construire un estimateure(x) de D(x). Dans [Moobed, 1996], le classifieur est defini comme etant toutsysteme de traitement de donnees qui recoit une forme x et donne des infor-mations a propos de la classe correspondant a cette forme.

Quel que soit le domaine d’application pour lequel il est utilise, la mise enoeuvre de tout classifieur necessite de choisir d’abord une representation pourdecrire les donnees (caracteristiques), un algorithme de decision et une based’apprentissage permettant de fixer les parametres du classifieur. Lorsqu’ilest integre dans un systeme de reconnaissance, le classifieur atteint certainesperformances. Introduire des modifications dans le classifieur que ce soit auniveau des donnees qu’il traite ou au niveau de ses parametres (type de sor-ties, regles de decision, ...) modifie ses performances.Dans le cadre de la combinaison, nous proposons de definir un classifieurcomme etant un systeme de reconnaissance qui travaille dans un certain es-pace de caracteristiques, qui utilise une certaine base pour apprendre sesparametres, qui prend sa decision a partir d’une certaine regle et qui fourniten sortie un certain type de reponse. D’apres cette definition, deux classifieursqui different par au moins l’un de ces parametres (espace de caracteristiques,donnees d’apprentissage, regle de decision et type de sortie) ne donnent pasles memes resultats et sont donc consideres comme differents.

Si l’on fait abstraction de son architecture interne, le classifieur ej est vucomme une boıte noire qui recoit en entree un ensemble de caracteristiqueset qui fournit en sortie une reponse a propos de la forme a reconnaıtre (onse place ici dans l’hypothese d’une classification exclusive avec laquelle unclassifieur e(x) sera d’autant meilleur que sa reponse se rapprochera de lavraie classe). Selon Xu [Xu et al., 1992], cette reponse peut etre divisee entrois categories suivant le niveau d’information apporte par le classifieur,categorisation egalement adoptee dans la majorite des travaux [Jain et al., 2000,Ruta and Gabrys, 2000]:

– type classe :ej(x) = Ci,i ∈ 1,...,N (1.4)

Ci est la classe attribuee par le classifieur ej a x. Dans ce cas, l’avis duclassifieur est binaire. On peut alors representer la reponse du classifieurpar un vecteur binaire dans lequel ’1’ indique la classe proposee par leclassifieur. Un classifieur peut aussi produire un ensemble de classes.Il considere alors que la forme x appartient a une des classes de cet


ensemble sans donner d’autres informations permettant de discriminerles classes.

– type rang :ej(x) = (r1,j ,r2,j,...,rN,j) (1.5)

ri,j est le rang attribue a la classe Ci par le classifieur ej. Il s’agitd’un classement sur les classes. Le classifieur indique ce classement enfournissant en sortie un vecteur des rangs de taille N. La classe placeeau premier rang de la liste proposee par le classifieur est considereecomme la plus probable pour la forme x et la classe du dernier rang estla moins probable.

– type mesure :ej(x) = (m1,j ,m2,j ,...,mN,j) (1.6)

mi,j est la mesure attribuee a la classe i par le classifieur ej. Elle indiquele niveau de confiance du classifieur dans sa proposition. La sortie duclassifieur est donc un vecteur de mesures de taille N. Cette mesure, no-malisee ou non, peut etre une distance, une probabilite a posteriori, unevaleur de confiance, un score, une fonction de croyance, une possibilite,une credibilite, une mesure floue, etc.

Parfois, le classifieur est incapable de conclure sur la classe de la formea reconnaıtre (la forme x peut appartenir a plusieurs classes). Les informa-tions mises a sa disposition ne lui permettent pas de choisir une classe ouun sous-ensemble de classes parmi les classes disponibles. On dit alors quele classifieur rejette (rejet d’ambiguıte). Ce probleme est different du rejetde formes aberrantes pour lequel le classifieur ne sait pas conclure parce quela forme x n’appartient a aucune classe parmi les classes disponibles. Nousnoterons par la suite CN+1 la classe associee au rejet (pour un probleme a Nclasses).

Chaque type de sortie (classe, rang ou mesure) correspond a un niveaud’information different fourni par le classifieur. La sortie de type classe est laplus simple mais la moins riche en information. La sortie de type rang refletel’ordre de preference des propositions fournies par le classifieur. La sortie detype mesure est la plus riche en information puisqu’elle reflete le niveau deconfiance du classifieur dans ses propositions.Lorsque les sorties sont de type rang ou de type mesure, on peut evidemmentles transformer en type classe (avec perte d’informations). Ceci consiste atenir compte uniquement de la premiere solution de la liste proposee parchaque classifieur. Pour le type rang, il suffit de choisir la classe qui est placeeau premier rang. Les autres classes ne seront pas prises en compte. Pour le


type mesure, il suffit de choisir la classe ayant la meilleure mesure (valeurminimale ou maximale, selon que la mesure est croissante ou decroissante).

1.2.2 Strategies de combinaison

La multiplication des travaux sur la combinaison a entraıne la mise aupoint de nombreux schemas traitant les donnees de manieres differentes[Heutte, 1994, Moobed, 1996, Rahman and Fairhurst, 1999]. Trois approchespour la combinaison de classifieurs peuvent etre envisagees: parallele, sequentielleet hybride. D’autres organisations avec bouclage ou avec interaction sontaussi possibles [Vuurpijl and Schomaker, 1998]. Mais, malgre la diversite desschemas de combinaison, la determination de la meilleure organisation resteun probleme ouvert.

– Approche sequentielle

La combinaison sequentielle, appelee egalement combinaison serie, est orga-nisee en niveaux successifs de decision permettant de reduire progressivementle nombre de classes possibles. Dans chaque niveau, il existe un seul classi-fieur qui prend en compte la reponse fournie par le classifieur place en amontafin de traiter les rejets ou confirmer la decision obtenue sur la forme qui luiest presentee (figure 1.1). Une telle approche peut etre vue comme un filtrage

Fig. 1.1 – Combinaison sequentielle de classifieurs

progressif des decisions dans la mesure ou elle permet de diminuer au fur eta mesure l’ambiguıte sur la classe proposee. Cela permet generalement dediminuer le taux d’erreur globale de la chaıne de reconnaissance. Neanmoins,une combinaison de ce type demeure particulierement sensible a l’ordre danslequel sont places les classifieurs. En effet, meme s’ils ne necessitent pas d’etreles plus performants, les premiers classifieurs invoques doivent etre robustes,c’est-a-dire que la solution reelle de la forme a identifier doit apparaıtre dansles listes successives quelle que soit leur taille. En cas de mauvaise decision dupremier classifieur, place en amont de la serie des classifieurs utilises, l’erreur


va se propager de facon irrevocable. Il faudra donc choisir judicieusement lepremier classifieur afin d’eviter - autant que possible - l’apparition d’une tellesituation. La combinaison sequentielle suppose donc une certaine connais-sance a priori du comportement de chacun des classifieurs. Notons que danscette approche, chaque classifieur est regle en fonction du classifieur placeen amont de la chaıne. Une simple modification du premier classifieur peutprovoquer un re-parametrage (re-apprentissage) des classifieurs suivants.

Le but ici n’est pas de decrire en detail les systemes de combinaisonsequentielle. Nous presentons maintenant deux exemples qui illustrent leurprincipe de fonctionnement. On pourra se referer a [Rahman and Fairhurst, 2003]pour un panorama recent et assez complet de ces approches.

L’approche proposee dans [Gader et al., 1991] est basee sur trois etages dedecision. Les deux premiers etages mettent en euvre une comparaison directedu caractere a reconnaıtre avec l’ensemble des modeles, permettent de classer70 a 80% des chiffres avec un taux d’erreur faible et sont capables de genererdes decisions sur les classes d’appartenance des chiffres rejetes. Lorsque cesetages ne peuvent pas conclure, ils fournissent une liste d’hypotheses au der-nier niveau de decision pour chercher le modele dans une liste predefiniede modeles syntaxiques. Recemment, Prevost et al. [Prevost et al., 2003]presentent un systeme compose de deux etages pour ameliorer la reconnais-sance de caracteres manuscrits. Le premier etage est un classifieur non super-vise qui fournit des scores a chacune des classes. Le second etage est un clas-sifieur neuronal qui separe les paires de classes les plus ambigues. Ce systemesequentiel est basee sur l’idee que la classe correcte est systematiquementparmi les deux premieres classes (celles ayant les probabilites les plus elevees)proposees par le premier classifieur. Les resultats experimentaux montrentune amelioration de 30% par rapport a chacun des classifieurs utilises pourune reponse de type classe dans un probleme a 62 classes.

– Approche parallele

A la difference de l’approche sequentielle, l’approche parallele laisse dans unpremier temps les differents classifieurs operer independamment les uns desautres puis fusionne leurs reponses respectives. Cette fusion est faite soit demaniere democratique, dans le sens ou elle ne favorise aucun classifieur parrapport a un autre, soit au contraire dirigee et, dans ce cas, on attribue ala reponse de chaque classifieur un poids en fonction de ses performances.L’ordre d’execution des classifieurs n’intervient pas dans cette approche. La


figure 1.2 fournit une representation de la combinaison parallele de classi-fieurs.

Fig. 1.2 – Combinaison parallele de classifieurs

L’inconvenient majeur de l’approche parallele est qu’elle necessite l’acti-vation de tous les classifieurs du systeme qui doivent participer de maniereconcurrente et independante. Par contre, la decision finale est prise avec lemaximum de connaissances mises a disposition par chaque classifieur. Deslors se posent les problemes de precision des informations fournies par lesclassifieurs et de la confiance qu’on peut accorder a chacun d’eux.

L’approche proposee dans [Huang et al., 1995] necessite que chacun desclassifieurs fournisse une confiance (probabilite ou distance) associee a chaqueproposition ou classe. La decision finale est prise dans un reseau de neuronesa partir de la combinaison des differents resultats fournis par les classifieurs.Pour ameliorer la reconnaissance de mots, Kim et al. [Kim et al., 2000] pro-posent de combiner deux classifieurs, l’un de type HMM (Hidden MarkovModel), l’autre de type MLP (Multi-Layer Perceptron). L’idee ici est quepour augmenter la complementarite, les classifieurs doivent operer avec desstructures differentes. Les sorties du classifieur HMM sont normalisees avantla combinaison pour pouvoir les fusionner avec les sorties du MLP.

– Approche hybride

L’approche hybride consiste a combiner a la fois des architectures sequentielleset paralleles afin de tirer pleinement avantage de chacun des classifieurs uti-lises. La figure 1.3 presente un exemple de combinaison hybride dans la-quelle on combine un classifieur en serie avec deux classifieurs en parallele.


Ce type d’approche permet de generer de nombreux schemas de cooperationqui peuvent rapidement devenir complexes a optimiser. Il illustre les deuxaspects de la combinaison qui sont d’une part la reduction de l’ensemble desclasses possibles et d’autres part la recherche d’un consensus entre les classi-fieurs afin d’aboutir a une decision unique.On peut citer dans ce cadre, les travaux de Kim [Kim et al., 2000] qui

Fig. 1.3 – Combinaison hybride de classifieurs

propose un systeme de reconnaissance de mots cursifs anglais extraits descheques bancaires. Ce systeme hybride est compose de deux etages. Dans lepremier etage, deux classifieurs (PMC) utilisant des vecteurs de caracteristiquesdifferents sont combines par un autre classifieur de meme type. La cooperationde ce dernier avec un autre classifieur de type HMM est realisee dans l’etagesuivant par une regle de multiplication. Un autre exemple est celui presentedans [Bellili et al., 2002]. Il decrit un systeme de reconnaissance de chiffresmanuscrits par combinaison hybride de reseaux neuronaux de type MLPet de machines a vecteurs de support SVM. Cette methode de combinai-son consiste a introduire des classifieurs SVM specialises pour chaque pairede classes numeriques (0 a 9) uniquement dans le voisinage des surfaces deseparation generees par le reseau MLP entre les exemples d’apprentissage deces memes paires de classes. Cette architecture de combinaison est fondeesur la constatation que les deux premieres solutions de la couche de sor-tie du MLP contiennent presque systematiquement la bonne classe de laforme a classifier et que certaines paires de classes constituent la majoritedes confusions generees par le MLP. Les SVM sont introduits pour detecterla bonne classe parmi les deux meilleures hypotheses de classification four-nies par le reseau. Ce choix se resume a un probleme de classification a deuxclasses (binaire). Cependant, cette methode peut sembler fastidieuse car ellenecessite un classifieur SVM pour chaque paire de classes. Une seconde ori-ginalite de cette methode reside dans l’introduction de SVM uniquementpour les paires de classes qui constituent la majorite des confusions (erreurs)


du reseau MLP. Certains auteurs ont propose d’effectuer des combinaisonsconditionnelles. Ainsi Gosselin [Gosselin, 1997] propose de classer les classi-fieurs selon leur performance et de traiter une forme inconnue par le premierclassifieur. Il propose d’accepter sa decision, si la forme n’est pas rejetee.Dans le cas contraire, la decision sera prise suite a la combinaison du premierclassifieur avec la sortie du deuxieme classifieur. Le meme raisonnement peuts’appliquer, jusqu’a ce que la forme soit classee ou que les sorties de tousles classifieurs soient combinees. Cette combinaison conditionnelle permet dereduire efficacement les temps d’execution. L’inconvenient est la necessite defixer plusieurs seuils de rejet associes aux differents niveaux.

1.2.3 Conclusion

De nombreux travaux montrent que la combinaison de classifieurs (sequentielle,parallele ou hybride) ameliore nettement les performances du systeme de re-connaissance par rapport a chacun des classifieurs pris isolement. Cependant,parmi ces differentes architectures permettant de combiner un ensemble declassifieurs donnes, l’architecture parallele est de loin celle qui a donne lieuaux travaux les plus importants. Sa simplicite de mise en oeuvre, sa capacitea exploiter les reponses des classifieurs a combiner en prenant en compte (ounon) le comportement de chacun des classifieurs et son efficacite prouvee dansde nombreux problemes de classification expliquent son succes notammentsur l’approche sequentielle pour laquelle la connaissance du comportementde chaque classifieur est necessaire a priori pour pouvoir obtenir un schemade cooperation efficace. L’interet porte par les chercheurs majoritairement ala combinaison parallele de classifieurs est fonde pour plusieurs raisons:

– le concepteur peut re-utiliser les developpements de classifieurs effectuesanterieurement, chacun pouvant avoir ete developpe dans un contextedifferent et utiliser une representation differente pour le meme probleme.Un exemple est l’identification de personnes par leur voix, leur visageainsi que par leur signature.

– dans la combinaison, il est possible d’utiliser un grand nombre de ca-rateristiques mais en les distribuant sur des classifieurs differents.

– deux classifieurs differents peuvent presenter des performances glo-bales equivalentes mais avoir leurs propres regions dans l’espace decaracteristiques ou ils sont les plus performants.

– un classifieur est souvent sensible aux choix initiaux de ses parametres(k et distance pour un k-ppv, nombre de couches et de neurones parcouche pour un MLP, ...). Plutot que de chercher la meilleure configu-

1.3. Combinaison parallele de classifieurs 25

ration de parametres, la combinaison de l’ensemble peut tenir comptedes avantages de ces classifieurs appris differemment.

– on peut avoir a notre disposition plusieurs bases d’apprentissage, cha-cune est collectee de maniere differente ou construite dans des condi-tions differentes. L’apprentissage d’un meme classifieur sur ces basespeut produire des resultats differents.

Ce sont ces avantages qui nous ont conduit a focaliser notre travail sur lacombinaison parallele. Nous decrivons maintenant les travaux les plus aboutisdans ce domaine.

1.3 Combinaison parallele de classifieurs

1.3.1 Problematique de la combinaison parallele

Plusieurs systemes de combinaison parallele ont ete developpes pour differentesapplications:

– reconnaissance d’images medicales [Kittler et al., 1997]

– reconnaissance de chiffres [Beiraghi et al., 2000, Cao et al., 1995][Cordella et al., 1998, Dimauro et al., 1995, Duin and Tax, 1998][Heutte, 1994, Xu et al., 1992]

– reconnaissance de caracteres et de mots manuscrits [Ho and Hull, 1994,Gader et al., 1996]

– identification de visages [Achermann and Bunke, 1996][Brunelli and Falavigna, 1995]

– verification de signatures [Zois and Anastassopoulos, 1999][Sabourin and Genest, 1994, Bajaj and Chaudhury, 1997]

– reconnaissance de la parole [Chibelushi et al., 1993, Yu et al., 2000][Chen et al., 1997]

– identification de formulaires [Clavier et al., 2000]

– classification des documents [Li and Jain, 1998], etc.

Plusieurs termes ont ete utilises pour faire allusion a ces systemes:

– combinaison de classifieurs [Lam and Suen, 1994, Kittler et al., 1998,ElMalek et al., 2002]

– fusion de classifieurs [Gader et al., 1996, Cho and Kim, 1995, Bloch, 1996]

– mixture d’experts [Jacobs et al., 1991, Jordan and Xu, 1995]

– comite de classifieurs [Bishop, 1995, Drucker et al., 1994, Aksela, 2003]


– agregation de consensus [Benediktsson et al., 1997]

– selection de classifieurs [Woods et al., 1997, Kuncheva, 1993]

– ensemble de classifieurs [Hansen and Salamon, 1990, Filippi et al., 1994]

– systeme multi-experts [Cordella et al., 1998]

– systeme modulaire [Chiang and Fu, 1994, Sharkey, 1999]

– groupe de classifieurs [Cranor, 1996]

– etc.

De maniere generale, les systemes de combinaison peuvent etre divises endeux groupes selon la facon dont on traite les classifieurs. Dans la combinai-son, on peut fusionner ou selectionner les classifieurs.

La fusion (appelee aussi aggregation) suppose la presence de tous lesclassifieurs dans la prise de decision. Dans un systeme de fusion, chaque clas-sifieur participe de maniere independante sur le meme probleme et les sortiesde tous les classifieurs sont combinees par un certain operateur de combinai-son [Hansen and Salamon, 1990]. Les notions d’ensemble, groupe et comitesont tres utilisees pour faire reference au systeme de fusion.

La selection suppose qu’on peut obtenir de meilleures performances enchoisissant un sous-ensemble de classifieurs parmi l’ensemble disponible [Kuncheva, 2002,Giacinto, 1998]. Cette selection peut etre statique ou dynamique. Les systemesmodulaires se basent sur ce principe. Dans ce type d’approche, le probleme atraiter est tout d’abord divise en sous-problemes. Chaque classifieur ou mo-dule se specialise dans un sous-probleme d’ou le nom expert. Contrairementa l’approche d’ensemble, les classifieurs ne sont pas necessairement perfor-mants pour toutes les donnees, mais seulement dans leurs regions d’expertise.

En ce qui concerne l’aggregation de classifieurs, le probleme peut se poserde la maniere suivante: etant donne un ensemble de L classifieurs, participantde maniere independante sur le meme probleme de classification, commentpeut-on elaborer une reponse finale a partir des resultats de ces classifieurs?Ce probleme necessite l’utilisation d’un module de fusion pour elaborer unedecision finale.

Considerons un systeme compose d’un ensemble de L classifieurs. Pourreconnaıtre une forme x, chaque classifieur ej produit une reponse sous formed’un vecteur ej(x) = [e1,j(x), ..., eN,j(x)]T . La composante ei,j(x) indique quele classifieur ej a attribue a la forme x la classe Ci parmi l’ensemble de Nclasses possibles (i=1, ..., N). Cette reponse peut etre de type classe, rangou mesure. Nous pouvons representer toutes les decisions des classifieurs sous


forme d’une matrice MD(x) = [e1(x), ..., eL(x)] qui represente les reponses del’ensemble des classifieurs pour une forme x. Chaque ligne i de cette matricerepresente la reponse de tous les classifieurs concernant la classe Ci. Chaquecolonne j represente le vecteur de reponses d’un classifieur ej. Il s’agit del’espace intermediaire de caracteristiques du module de combinaison E.

Fig. 1.4 – Espace de caracteristiques des methodes de combinaison

La decision de fusion peut alors etre obtenue par :

E(x) = f(e1,...,eL) (1.7)

f est appele operateur de combinaison ou d’agregation. Il existe de nombreuxoperateurs de combinaison. Pour pouvoir les comparer, plusieurs categorisationsont ete proposees dans la litterature. Nous les passons maintenant en revue.

1.3.2 Taxonomies des methodes de combinaison

Differentes taxonomies des methodes de combinaison ont ete proposeesdans la litterature [Duin and Tax, 2000, Ho, 1992, Kuncheva et al., 2001][Jain et al., 2000, Moobed, 1996, Ruta and Gabrys, 2000, Xu et al., 1992]. Sui-vant les auteurs, les taxonomies mettent en avant le type de sorties des clas-sifieurs combines, la capacite d’apprentissage des methodes de combinaisonou les strategies de combinaison choisies. D’autres criteres comme la naturedes classifieurs sont aussi utilises [Rahman and Fairhurst, 2003].

Xu [Xu et al., 1992] distingue les methodes de combinaison uniquementpar le type de sorties des classifieurs (classe, rang, mesure) presentees enentree de la combinaison. Le type de sorties des classifieurs est un criterequi apparaıt pratiquement dans toutes les taxonomies presentees dans lalitterature. La prise en compte de ces niveaux differents d’information in-fluence directement la complexite des methodes de combinaison developpees.


Jain [Jain et al., 2000] construit une taxonomie suivant trois criteres d’egaleimportance : le type de sorties des classifieurs, l’adaptabilite des methodes decombinaison (capacite a exploiter l’expertise des classifieurs) et leur capacited’apprentissage. Ce dernier critere est aussi utilise par d’autres chercheurs[Kuncheva et al., 2001, Roli et al., 2002a] pour separer les methodes de fu-sion. Les methodes avec apprentissage permettent de chercher et d’adapterles parametres a utiliser dans la combinaison suivant la base des exemples dis-ponibles. Les methodes sans apprentissage se contentent d’utiliser seulementet simplement les sorties des classifieurs sans integrer d’autres informationsa priori sur les performances de chacun des classifieurs.

Kuncheva [Kuncheva, 2000a] fait la difference, quant a elle, entre fu-sion et selection de classifieurs. Rappelons que la fusion consiste a combi-ner toutes les sorties de classifieurs pour atteindre un consensus alors quela selection consiste a choisir dynamiquement les ”meilleurs” classifieurs (lesplus complementaires) parmi un ensemble de classifieurs possibles pour iden-tifier la forme inconnue.

Dans [Partridge and Griffith, 2002], une taxonomie hierarchique des methodesde combinaison est proposee. Elle consiste egalement a diviser au premier ni-veau les methodes de fusion (appelees methodes de selection indifferente) desmethodes de selection (appelees methodes de selection specifique). Partridgeet Griffith distinguent dans les methodes de fusion, celles qui utilisent toutesles informations des classifieurs dans la regle de combinaison de celles quipeuvent ne tenir compte que de la sortie d’un seul classifieur ou d’un sous-ensemble de classifieurs. Les methodes de selection specifique sont, quant aelles, divisees en deux groupes: les methodes qui necessitent la distributiond’une partie de la base d’apprentissage sur chacun des experts et les methodesqui utilisent un selectionneur gating permettant de choisir le classifieur le pluscompetitif pour prendre la decision finale.

Dans [Ruta and Gabrys, 2000], une autre taxonomie des methodes decombinaison de classifieurs est proposee. Cette taxonomie est divisee en deuxniveaux. Dans le premier niveau on trouve les methodes de selection dont lerole est de choisir les classifieurs en fonction de certains criteres (le taux dereconnaissance de l’ensemble, la correlation entre les sorties des classifieurs,...). Les sorties de ces classifieurs sont fusionnees par l’une des methodes dudeuxieme niveau. Ces methodes de fusion sont classees en fonction du typedes sorties de classifieurs. Les methodes de type rang sont divisees selon lataxonomie de Ho [Ho, 1992]. Comme nous l’avons vu precedemment, deuxapproches sont possibles: celles permettant de reduire l’ensemble des classes


et les methodes permettant de re-ordonner les classes.

Recemment, une nouvelle taxonomie des methodes de combinaison baseesur leur dependence aux donnees a classer a ete proposee [Kamel and Wanas, 2003].Les methodes de combinaison peuvent etre totalement independantes desdonnees a classer, ce qui est le cas des methodes simples sans apprentis-sage. Les methodes avec apprentissage sont dependantes des donnees. Cettedependance peut etre implicite ou explicite. La dependance implicite re-groupe les methodes classiques de combinaison avec apprentissage mais egalementles methodes de selection statique. Les methodes qui determinent les poids aattribuer aux differents classifieurs (selection en fonction des donnees d’ap-prentissage des classifieurs a combiner) sont rangees dans cette categorie.Dans les methodes explicites, les classifieurs sont choisis en fonction de laforme a reconnaıtre. Les methodes de selection dynamique font partie decette categorie d’approche.

Duin [Duin and Tax, 2000] distingue, quant a lui, dans les methodes defusion, les methodes de combinaison de classifieurs heterogenes (differents)des methodes de combinaison de classifieurs faibles (homogenes). En effet,meme si ces dernieres tiennent compte de toutes les informations produitespar les classifieurs, l’interet des methodes de combinaison de classifieursfaibles reside dans la combinaison de classifieurs ayant la meme structuremais entraınes sur des donnees differentes ou initialises de maniere differente(MLP, RBF, etc).

Selon [Rahman and Fairhurst, 2003], les informations utilisees par les methodesde combinaison parallele sont liees au type de classifieurs a combiner et a leurreponse individuelle. Cette reponse peut etre une classe, une probabilite, uneconfiance, une connaissance ou une information floue. Les methodes de com-binaison sont alors divisees en 6 categories: les methodes qui se basent surla theorie de Bayes, les methodes de vote (methode du vote a la majoriteet ses variantes), les methodes neuronales (sous forme d’ensemble ou modu-laire), les methodes floues, les methodes de combinaison de confiances et lesmethodes a base de connaissance.

Dans [Kuncheva et al., 2001], les methodes qui fusionnent des classifieursde type mesure sont divisees en deux groupes selon la quantite d’informa-tion a exploiter pour produire la reponse finale. Les methodes appelees classconscious favorisent un seul vecteur de la matrice de decision MD (figure 1.4)comme la regle du produit ou la moyenne. Par exemple, utiliser la regle duproduit consiste a choisir la classe pour laquelle le produit des confiances des


classifieurs est le plus eleve. Cela consiste alors a privilegier le vecteur de laclasse choisie par rapport aux vecteurs des autres classes. Les methodes ap-pelees class-indifferent utilisent toutes les informations des classifieurs (c’est-a-dire toute la matrice MD) dans la prise de decision finale. Par exemple, lesclassifieurs de type discrimination lineaire ou quadratique peuvent etre uti-lises comme operateur de combinaison et font partie dans ce cas des methodesappelees class-indifferent.

Dans [Ho, 1992], les methodes de type rang ont ete divisees en deuxgroupes. Le premier groupe de methodes est base sur la reduction de l’en-semble des classes. Son objectif est de reduire l’ensemble de classes de departmais en s’assurant que la vraie classe existe toujours dans le sous-ensemblefinal reduit. Deux criteres principaux doivent etre pris en consideration lorsde l’utilisation de ces methodes: le nombre de classes de l’ensemble de departet la probabilite d’existence de la vraie classe dans les ensembles de classesreduits. Il s’agit de trouver un bon compromis entre la minimisation de l’en-semble de classes et la maximisation de la probabilite de l’inclusion de la vraieclasse. Le deuxieme groupe de methodes consiste a reordonner les classes detelle facon que la vraie classe soit rangee dans les premieres propositions de laliste de solutions. Alors que les taxonomies se distinguent generalement parle type des sorties des classifieurs a combiner (propriete de classification),Moobed [Moobed, 1996] distingue plutot les methodes de combinaison detype rang par le type de resultats qu’elles fournissent (type ensemble, typerang ou type mesure). En effet, les methodes de type rang peuvent donneren sortie un ensemble de classes sans vouloir donner d’autres informationspour distinguer la vraie classe des autres classes a l’interieur de l’ensemble.Elles peuvent donner une liste de classes ordonnees a partir des rangs donnespar les classifieurs. Elles peuvent aussi estimer une mesure de confiance pourchaque classe indiquant la probabilite que cette classe soit la bonne.

Les taxonomies que nous venons de presenter permettent de distinguerles methodes de combinaison en fonction de differents criteres (type de sor-ties des classifieurs, capacite d’apprentissage de la combinaison, strategiesde combinaison, structure des classifieurs, ...). Cependant, elles manquent deprecision pour placer toutes les methodes de combinaison. Certaines taxo-nomies tiennent compte d’un ou de deux criteres, alors que d’autres uti-lisent des criteres d’egale importance. La taxonomie des methodes de com-binaison parallele que nous proposons dans la figure 1.5 presente l’avan-tage de reunir de facon synthetique et precise les methodes de combinai-son en fonction des trois criteres les plus importants: strategies de combi-naison, capacite d’apprentissage et type de sorties des classifieurs a combi-


ner [Zouari et al., 2002b, Zouari et al., 2002a]. Nous distinguons au premierniveau les methodes de selection des methodes de fusion. Si les methodesde selection utilisent un traitement supplementaire qui consiste a choisir leou les meilleur(s) classifieur(s) parmi l’ensemble disponible, la situation estentierement differente en ce qui concerne les methodes de fusion dans la me-sure ou elles tiennent compte de toutes les sorties des classifieurs presentesdans la combinaison.

Nous distinguons au deuxieme niveau les methodes de selection statiquedes methodes de selection dynamique. Alors que les methodes statiques prennenten compte les memes classifieurs pour reconnaıtre toutes les formes, lesmethodes dynamiques sont adaptatives dans la mesure ou elles cherchentle meilleur sous-ensemble de classifieurs (qui peut contenir un ou plusieursclassifieurs) en fonction des donnees presentees en entree.

Dans les methodes de fusion, on distingue les methodes dites figees ounon-parametriques (les sorties des classifieurs sont combinees dans un schemadont les parametres sont invariables) des methodes avec apprentissage quicherchent a apprendre, sur les donnees disponibles, les parametres necessairesa la combinaison.

Enfin, la complexite de ces methodes peut varier en fonction du niveaud’information associe aux reponses fournies par les classifieurs a combiner(sortie de types classe, rang ou mesure).

32C

hapit

re

1.

Syst

em

es

Mult

i-C

lass

ifieurs

Fig. 1.5 – Taxonomie des methodes de combinaison parallele de classifieurs

1.4. Combinaison non-parametrique 33

Dans ce qui suit, nous presentons les methodes de fusion selon la taxo-nomie proposee. Nous considerons que si la methode de combinaison utiliseune regle de decision determinee par un certain nombre de parametres etsi l’apprentissage consiste a trouver ces parametres, la methode est appeleeparametrique. Dans l’autre cas elle est appelee non-parametrique.

1.4 Combinaison non-parametrique

Ces methodes n’utilisent que des informations du premier ordre (sortiesde classifieurs). Elles sont faciles a implementer et ne necessitent pas dephase d’apprentissage. Cependant, le point faible de ces methodes est qu’ellestraitent les classifieurs de maniere egale ce qui ne permet pas de tenir comptede leur capacite individuelle. Elles peuvent etre divisees en type classe, ranget mesure.

1.4.1 Type classe

L’avantage de la combinaison de type classe est qu’elle peut etre utiliseepour tout type de classifieur (classe, rang ou mesure), quelle que soit sastructure. Dans cette combinaison, chaque classifieur fournit en sortie unereponse sur l’appartenance de la forme inconnue a une classe ou un ensemblede classes (ayant le meme degre de preference). Toutefois, il s’agit de la seuleinformation qu’on pourra utiliser.

La combinaison d’un ensemble de classifieurs de type classe est sou-vent basee sur le principe du vote. Il y a maintenant plus de 200 ans quece principe a ete formalise par le mathematicien et philosophe Condorcet[Condorcet, 1785]. Depuis, plusieurs methodes de vote ont ete proposees.Elles sont surtout utilisees dans les elections.

Dans le domaine de la reconnaissance de formes, les methodes de vote ontete utilisees principalement en reconnaissance de l’ecrit [Chou et al., 1994,Kimura and Shridhar, 1991, Nadal et al., 1990] ainsi que pour la verificationde signatures [Sabourin and Genest, 1994].

Dans le cadre de la combinaison, les methodes de vote consistent a in-terpreter chaque sortie d’un classifieur comme un vote pour l’une des classespossibles. La classe ayant un nombre de votes superieur a un seuil prefixe estretenue comme decision finale. Ces methodes sont les plus simples a mettre


en oeuvre: les votes des classifieurs ne sont pas ponderes et chaque classerecoit autant de votes qu’il y a de classifieurs a combiner. La plupart deces methodes ne necessite qu’un seul niveau de decision. On peut classer cesmethodes en trois categories: vote avec seuil, majorite sans conflit et majoritenotoire.

– Vote avec seuil

Les methodes de vote peuvent pratiquement toutes etre derivees de la regleavec seuil exprimee par :

E(x) =

Ci si∑L

j=1 ei,j = maxNt=1

∑Lj=1 et,j ≥ λ.L

rejet sinon(1.8)

λ correspond a la proportion de classifieurs devant repondre la meme classepour que cette classe soit retenue comme resultat de la combinaison. Ainsi,pour λ = 0, il s’agit du vote a la pluralite ou la classe qui recoit le plus devotes est choisie comme classe finale. Connue aussi sous le nom First past thepost [Cranor, 1996], cette methode a la forme de vote la plus simple et estdonc la plus facile a appliquer. Neanmoins, il y a rejet si toutes les classesont le meme nombre de votes. Dans ce cas, les risques de conflit sont parti-culierement importants.

Notons que le vote a la pluralite est un cas particulier du vote approuve.Developpe dans les annees 1970, le vote approuve tient compte d’un ensemblede classes. Il offre une collection d’ensembles de rangs, 1,0,...,0, 1,1,0,...,0,...,1,1,...,1,0. Chaque classifieur vote pour N classes mais on ne regarde queles k premieres (1 ≤ k ≤ N). k peut varier d’un classifieur a l’autre. Toutesles classes placees dans les k premiers choix ont un rang egal a 1 alors quecelles placees apres ont un rang 0. La classe ayant le maximum de votes estchoisie. Par exemple, si on considere le choix des trois classifieurs suivants:

classifieur 1: A B Cclassifieur 2: A C | Bclassifieur 3: C | B A

La classe A a recu 2 points, la classe B 1 point et la classe C 3 points.

Pour λ = 0.5, il s’agit du vote a la majorite. La classe finale est decideesi plus de la moitie des classifieurs l’ont proposee c’est-a-dire si au moins kclassifieurs sont d’accords, k pouvant etre defini comme suit:

k =

L2

si L est pairL+1

2si L est impair

(1.9)


Le vote a la majorite est aussi tres simple a appliquer mais il peut produireune decision finale erronee (quand la majorite des classifieurs ne proposentpas la vraie classe). La production de ce cas est faible surtout lorsqu’on aun grand nombre de classifieurs. L’utilisation du vote a la majorite est jus-tifiee dans les situations ou il est difficile d’obtenir d’autres types de sortiesa partir des classifieurs et surtout dans les problemes ou on l’en combineun tres grand nombre de classifieurs [Ji and Ma, 1997] et pour lesquels il estdifficile d’appliquer d’autres methodes de combinaison plus complexes. Onpourra citer les travaux de Lam et al. [Lam and Suen, 1997] ou sont etudieesles proprietes de la methode de vote a la majorite et surtout l’apport d’unclassifieur supplementaire dans une combinaison en fonction du nombre declassifieurs presents auparavant (pair ou impair). Cette etude est justifiee sil’on suppose que tous les classifieurs sont independants. Dans le travail deBattati et Colla [Battati and Colla, 1994], la performance du vote a la majo-rite est aussi analysee sous l’angle du compromis taux de reconnaissance/tauxde rejet.

Pour λ = 1, la classe finale est choisie si tous les classifieurs proposentcette reponse sinon la reponse finale est le rejet. Cette methode restrictivequi accepte le moins de risque possible est appelee majorite unanime. S’ils’agit d’une methode fiable, elle presente toutefois l’inconvenient majeur deproduire un taux de reconnaissance assez faible, surtout lorsque le nombrede classifieurs augmente.

– Majorite sans conflit

Le principe est identique a celui de la majorite unanime, a ceci pres qu’onautorise les classifieurs a rejeter. Un classifieur proposant de rejeter l’elementn’a donc aucun poids dans ce systeme: lorsque tous les classifieurs rejettentsauf un, alors c’est la sortie de ce classifieur qui sera conservee comme resultatde la combinaison. Il n’y a rejet que lorsque tous les classifieurs ont proposede rejeter l’element ou en cas de conflit.

– Majorite notoire

Dans ce cas, pour etre designee comme reponse finale, la classe majoritairedoit de plus se distinguer de la deuxieme classe d’une difference superieurea un certain seuil. Les resultats de tests dans [Xu et al., 1992] montrent quecette methode est meilleure que la majorite avec seuil surtout quand un mi-nimum de fiabilite est exige.

Les methodes que nous venons de presenter se composent d’une seuleetape. Il existe d’autres methodes de vote qui necessitent plusieurs etapes.


Elles utilisent des traitements iteratifs au cours des differentes etapes per-mettant de reduire l’ensemble des classes participant au vote. On trouvela procedure run-off et la methode de Condorcet [Van-Erp et al., 2002]. Laprocedure runoff se realise en deux etapes. Dans la premiere etape, chaqueclassifieur peut proposer son vote pour chacune des classes. Si une classerecoit la majorite de votes (par vote a la pluralite), elle est choisie. Sinon,une seconde election par vote a la majorite entre les deux premieres classes(qui ont recu le plus grand nombre de votes dans la premiere etape) estrealisee pour trancher. Dans cette methode, il n’y a pas de rejet. Dans lamethode de Condorcet, les classes sont comparees deux a deux. La classegagnante a chaque tour recoit un score d’un point. Si une classe bat toutesles autres classes alors elle est choisie. Si on obtient plus d’une classe alors onutilise une methode type run-off pour choisir une seule classe de l’ensemble.

1.4.2 Type rang

Les methodes de type rang ont ete developpees essentiellement pourresoudre les problemes des methodes de vote. Considerons par exemple leprobleme de classification a 3 classifieurs / 4 classes suivant :

Classifieur 1 : A | B C D

Classifieur 2 : C | A B D

Classifieur 3 : B | D C A

Dans ce cas, il n’y a pas de vainqueur majoritaire: les classes A, B et Cplacees en-tete de liste recoivent toutes 1 vote. Dans cette situation, il estraisonnable de regarder la suite de chaque liste pour lever l’ambiguite. Lesmethodes de type rang se basent sur ce principe pour resoudre le probleme.

Pourtant utilisees depuis le 18ieme siecle dans le domaine social (leselections), les methodes de type rang n’ont ete appliquees sur les problemesde reconnaissance que depuis peu. On peut considerer que la premiere etudesur ces methodes a ete realisee par Ho dans le cadre de la reconnaissancede mots [Ho, 1992]. Depuis, elles sont appliquees dans d’autres problemes dereconnaissance [Parker, 2001, Van-Erp and Schomaker, 2000]. Plusieurs rai-sons peuvent expliquer l’interet d’utiliser les methodes de type rang:

– La sortie de type rang est plus riche en information que la sortie detype classe.

– Il est tres facile de transformer le type mesure en type rang: en ignorantles confiances dans la liste des solutions proposees mais en conservantl’ordre des classes.


– Si les classifieurs produisent des mesures differentes alors il faut trouverune methode de transformation commune afin de pouvoir les comparer.Or, il est difficile d’avoir un modele de normalisation efficace pour cetype de probleme.

– On ne peut pas connaıtre le degre de pertinence des mesures proposeespar les classifieurs.

Les methodes de type rang combinent des listes de propositions de clas-sifieurs ordonnees de maniere decroissante selon leur preference. Les rangsattribues par chaque classifieur peuvent etre consideres comme des votespour toutes les classes. Ayant un nombre N de classes, chaque classifieur at-tribue un poids N a la classe placee au debut de la liste, un poids N-1 a laseconde classe, etc. La classe placee a la fin de la liste recoit un seul vote. Lesmethodes non-parametriques de type rang les plus reconnues sont le bordacount et le meilleur rang.

– Borda Count et ses variantes

Il s’agit d’une procedure de vote proposee en 1770 par Jean Charles deBorda [Borda, 1781] dans laquelle chaque voteur arrange les N candidatsselon sa preference en attribuant un nombre de points a chacun. Le candidatprefere recoit N-1 points, le candidat suivant recoit N-2, ainsi de suite. Lenombre de points du candidat place a la fin de la liste est 0. La regle de Bordaoffre donc un seul ensemble de rangs ” echelle ”, N-1, N-2, ..., 0. Certainsauteurs attribuent les rangs autrement: N points a la classe placee en tete(top) de chaque liste de classifieurs, N-1 a la classe suivante et 1 a la derniereclasse [Van-Erp and Schomaker, 2000]. Pour un probleme a deux classes, leBorda Count est un vote a la majorite. Pour une classe particuliere Ci (i=1,..., N), le Borda Count BC(Ci) est la somme de tous les rangs proposes parles classifieurs pour cette classe.

BC(Ci) =L∑

j=1

ri,j (1.10)

ri,j est le rang attribue par le classifieur ej a la classe Ci. ri,j = N si laclasse Ci est placee au debut de la liste. ri,j = N-1 si la classe Ci est placee ala place suivante de la liste, etc. Les classes sont ensuite triees selon leur rangtotal. Le nouvel ordre determine les rangs finaux. Par exemple, consideronsles propositions de deux classifieurs pour un probleme de reconnaissance a 3classes:

Classifieur 1 : A B CClassifieur 2 : C A B


BC(A)= 3+2 = 5, BC(B)= 2+1 = 3 et BC(C)=1+3=4. La decision finalede la combinaison par Borda Count est donc: A C B

Une variante du Borda Count consiste a faire la moyenne des rangs dechaque classe c’est-a-dire diviser la somme des rangs de chaque classe par lenombre total de classifieurs. Cependant, dans le cas ou les classifieurs pro-posent toutes les classes, le resultat de la moyenne est le meme que celuide borda original. Le resultat de cette methode ne peut etre different que siles listes a combiner sont de tailles differentes (ne contiennent pas toutes lesclasses possibles).

Une autre variante du borda count est la mediane qui consiste a attribuera chacune des classes le rang du milieu de la liste des rangs proposes par lesclassifieurs.

BC(Ci) =

ri, L

2

+ri, L

2+1

2si L est pair

ri, L+1

2

si L est impair(1.11)

Cette methode est jugee plus interessante que la moyenne des rangs dansle cadre des elections [Gilbert et al., 1999]. Dans des applications specifiquesde classification [Van-Erp and Schomaker, 2000], cette methode s’est egalementrevelee plus fiable que le Borda count simple.

Parker [Parker, 2001] propose une methode simple appelee wBorda. Celle-ci consiste a ponderer les rangs produits par les classifieurs par des constantes(la distance entre les rangs est different de 1). Il s’agit d’associer au premierrang (c’est a dire le rang le plus eleve) un poids egal a 1, un poids w =0.67au deuxieme rang, w2 pour le rang suivant, etc.

La procedure de Nanson [Nanson, 1882] consiste a appliquer le Bordacount de maniere iterative. A chaque iteration, le Borda count des classes,proposees par les classifieurs, est calcule et la classe ayant le nombre de votesle plus faible est eliminee. Cette procedure est repetee jusqu’a ce qu’il resteune classe ou un ensemble de classes. Par exemple, soit les sorties suivantespour 4 classifieurs:

Classifieur 1 : A B CClassifieur 2 : C A BClassifieur 3 : B C AClassifieur 4 : C B A

Dans la premiere iteration, le calcul de borda donne BC(A) = 7, BC(B)=8,BC(C) = 9. On enleve donc la classe A. Dans la deuxieme iteration, les classes


restantes sont B et C.Dans [Van-Erp and Schomaker, 2000], cette procedure a ete comparee auxdeux autres variantes du borda count (la moyenne et la mediane). Le butde cette etude est de mesurer le degre de sensibilite des methodes de typerang a l’estimation des erreurs dans les rangs (en modifiant aleatoirement lesplaces des classes) et dans les confiances (en ajoutant une valeur aleatoireaux differentes confiances et en ordonnant les classes selon les confiances obte-nues). L’auteur a constate que les methodes de combinaison utilisees ont descomportements differents selon le type d’erreurs (rang ou confiance). Lorsqueles classifieurs ne produisent pas trop d’erreurs dans l’estimation des classes(rangs), l’utilisation de la procedure de Nanson devient plus interessante.

Il existe d’autres methodes de type rang basees sur le borda count. Lamethode de Black [Black, 1958], par exemple, se base sur le vote majoritaireet le borda. La decision finale peut etre obtenue au debut par le vote ma-joritaire, si elle existe. Sinon, la decision du borda count est adoptee. Dans[Parker, 1997], l’auteur a montre que sur un probleme de reconnaissance dechiffres imprimes le borda count est plus performant que la moyenne desprobabilites. L’analyse dans [Parker, 1999] a montre la similarite entre lamethode de Black et le borda simple.

Connue aussi sous le nom de procedure de Hare (puisqu’elle a ete proposeepar Thomas Hare en 1850 [Hare, 1873]), la methode STV Single Transforablevote [Van-Erp et al., 2002] se realise en plusieurs iterations. A chaque etape,on applique le vote a la majorite seulement aux classes placees au debut dela liste de chaque classifieur. Si une classe recoit la majorite des votes alorselle est la decision finale. Sinon, la classe ayant le nombre le plus faible devotes est eliminee de toutes les listes des classifieurs. La procedure continueen utilisant toujours le vote a la majorite jusqu’a ce qu’il reste une seuleclasse.

– Meilleur rang

La methode du meilleur rang consiste a attribuer a chacune des classesle rang le plus eleve MR(Ci) parmi les rangs proposes par les classifieurs etd’ordonner la liste selon ces rangs [Ho, 1992].

MR(Ci) = maxLj=1ri,j (1.12)

Cette methode est adaptee pour des problemes a plusieurs classes etpeu de classifieurs non correles. Son avantage est qu’elle utilise la meilleure


reponse de chaque classifieur. Cependant, il apparaıt que cette methodepeut facilement provoquer des conflits lorsque plusieurs classes obtiennentle meme meilleur rang. Ce probleme peut etre resolu en utilisant des criteressupplementaires.

1.4.3 Type mesure

Les methodes de type mesure combinent des mesures qui refletent le degrede confiance des classifieurs sur l’appartenance de la forme a reconnaıtre enchacune des classes. Toutefois, comme les sorties des classifieurs ne sont pastoujours comparables, une normalisation est souvent necessaire [Duin, 2002,Huang et al., 1995]. Les methodes de combinaison non-parametrique les plusutilisees sont les regles ” fixes ” et la moyenne de Bayes.

– Methodes fixes

Le principe de base derriere les methodes fixes est le suivant : les classifieurssont independants et estiment des probabilites a posteriori des classes. Ainsi,pour reconnaıtre une forme x, on utilise une regle de decision E(x) qui revienta choisir la classe Ci pour laquelle la probabilite a posteriori Pi est la pluselevee:

E(x) =

Ci si maxNi=1Pi = maxN

m=1Pm

rejet sinon(1.13)

La probabilite a posteriori Pm peut etre calculee par l’une des regles sui-vantes:

1. La regle maximum

Pm = maxLj=1mi,j (1.14)

2. La regle minimum

Pm = minLj=1mi,j (1.15)

3. La regle mediane

Pm =

mi, L

2

+mi,

L+22

2si L est pair

mi, L+1

2

si L est impair(1.16)


4. La regle produit

Pm =L∏

j=1

mi,j (1.17)

5. La regle lineaire

Pm = λL∑

j=1

mi,j (1.18)

Les trois premieres regles sont connues sous le nom d’operateurs d’ordrestatique. La regle maximum consiste a choisir la classe pour laquelle la pro-babilite mi,j est la plus elevee. Si le classifieur qui propose cette confiance aune mauvaise performance alors la regle maximum n’est pas fiable. Il est dif-ficile de trouver dans la litterature un exemple applicatif pour lequel la reglemaximum est la plus performante [Duin, 2002]. La regle minimum consistea choisir le classifieur qui propose la probabilite la plus faible. Comme laregle maximum, il est difficile de predire les situations dans lesquelles cetteregle est la plus efficace. Pratiquement, tous les travaux qui ont utilise lesoperateurs d’ordre statique montrent clairement que la regle mediane estplus robuste que maximum et minimum [Kittler et al., 1998]. Cependant, ladecision par la regle mediane ne prend pas en compte toutes les informationsde l’ensemble de classifieurs.

La regle de produit donne de bonnes performances si les classifieurs sontindependants. Comme exemple, on peut citer la combinaison de deux classi-fieurs utilisant differents espaces de caracteristiques et operant differemment(l’un pour la reconnaissance de visage, l’autre pour la parole) pour l’identi-fication de personnes [Kittler et al., 1998]. Un autre exemple peut etre cite[Tax et al., 2000] dans lequel les auteurs comparent la regle du produit a lamoyenne sur des donnees reelles et simulees. Cependant, la regle du produitest sensible aux erreurs estimees par les classifieurs (dues a la presence debruit dans les donnees ou a l’utilisation de base d’apprentissage de petitetaille). Il s’agit de l’effet de veto cause par l’existence d’une faible probabi-lite (proche de 0) produites par au moins l’un des classifieurs a combiner.Afin d’eviter ce probleme, Alkoot et Kittler [Alkoot and Kittler, 2002] pro-posent une nouvelle regle (regle de produit modifiee) dependante d’un seulparametre (seuil). Pour chaque classe, cette regle consiste a examiner les pro-babilites des classifieurs participants et a les remplacer par un seuil pre-definisi elle est inferieure a ce seuil. La comparaison de cette nouvelle regle aveccelle du produit classique montre que si le bruit est faible (seuil faible), lesdeux regles donnent presque la meme performance. Quand le bruit augmente,


la regle modifiee devient plus interessante.

Dans la regle lineaire 1.18, λ est une constante. Ainsi, pour λ=1, onobtient la regle de somme. Si λ = 1

Lalors la regle est la moyenne simple.

Plusieurs chercheurs [Alpaydin, 1993, Krogh, 1995] ont montre qu’une com-binaison efficace de reseaux de neurones peut etre realisee par la moyennesimple.La somme fonctionne bien dans le cas d’utilisation de caracteristiques differentespar des classifieurs de meme structure [Ho and Hull, 1994] ou de structuresdifferentes [Kittler et al., 1998]. Dans le cadre de la theorie bayesienne dela decision, Kittler et al. [Kittler et al., 1998] ont recemment montre quesous l’hypothese d’independance des classifieurs, on peut deduire la sommedu produit. Ensuite, ils deduisent l’ensemble des autres regles (minimum,maximum, mediane, et vote majoritaire) a partir de ces deux regles de base,mettant ainsi en evidence que celles-ci sont des cas particuliers de ces deuxregles fondamentales. Une description de ce travail est presentee brievementdans le chapitre suivant. Dans ce travail, une etude experimentale des reglesconsiderees a ete menee. Il est constate que la regle de somme est la plus ro-buste par rapport aux autres regles fixes. Elle ameliore la performance de lacombinaison et est moins sensible aux erreurs des classifieurs. Pour la regle deproduit, si l’un des classifieurs produit une decision avec une faible confiancealors elle reagit de maniere dramatique sur la combinaison. Cependant, ellereste efficace pour un nombre faible de classifieurs (inferieur a 5).

L’exemple suivant avec N=3 et L=5, permet d’eclaircir le fonctionnementde ces regles de combinaison.

e1 e2 e3 e4 e5 Max Min Med Prod Som MoyC1 0.1 0.0 0.4 0.2 0.1 0.4 0.0 0.1 0.0 0.8 0.16C2 0.5 0.0 0.3 0.7 0.8 0.8 0.0 0.5 0.0 2.3 0.46C3 0.4 1.0 0.4 0.1 0.1 1.0 0.1 0.1 0.016 2.0 0.4

La decision finale obtenue par les regles minimum, maximum et produitest la classe 3 alors que celle obtenue par la regle de somme et moyenne estla classe 2.

– Moyenne de Bayes

Les methodes bayesiennes sont utilisees pour fusionner des sorties de classi-fieurs exprimees en probabilites a posteriori. Parmi les methodes de fusionles plus simples a appliquer, on trouve la regle moyenne de Bayes. Si chaque


classifieur ej propose une probabilite a posteriori Pj(x ∈ Ci/x) attribuee a laclasse Ci (i=1, ..., N) pour une forme x a reconnaıtre, il est alors possible decalculer la probabilite a posteriori moyenne a partir de tous les classifieurs:

Pmoy(x ∈ Ci/x) =1

L

L∑

j=1

Pj(x ∈ Ci/x) (1.19)

La decision finale est obtenue selon le critere de Bayes: la forme x estclassee Ci si Pmoy(x ∈ Ci/x) est maximale. La probabilite a posteriori Pj(x ∈Ci/x) peut etre directement fournie par les classifieurs de type bayesien. Pourd’autres types de classifieurs, il est possible d’estimer la probabilite a poste-riori a partir de leurs sorties de differentes manieres. Par exemple, pour unclassifieur ej de type k-ppv, la transformation est de la forme suivante:

Pj(x ∈ Ci/x) =ki

knn

(1.20)

ou ki est le nombre d’exemples de la classe Ci (ki ≥ 0) et knn le nombretotal d’exemples les plus proches reconnus par le classifieur ej avec

knn =N∑

j=1

kj (1.21)

Lorsque pour chaque forme x, le classifieur ej propose des mesures di,j

indiquant chacune la distance (Euclidienne, Mahalanobis ou autres) entre xet le centre de la classe Ci, i=1,...,N, alors la probabilite a posteriori peutetre calculee comme suit:

Pj(x ∈ Ci/x) = f(di,j) (1.22)

f est la fonction de transformation des distances proposees par les classifieurs.Par exemple:

Pj(x ∈ Ci/x) =

1di,j

∑Ni=1

1di,j

(1.23)

La qualite de la regle moyenne de Bayes depend donc de la facon dontles probabilites a posteriori sont estimees et donc du type des sorties desclassifieurs a combiner (distance, confiance, ...). Cette regle peut produire uneamelioration significative en terme de performances, en particulier lorsqu’unensemble de reseaux de neurones est considere [Perrone and Cooper, 1993,Perrone, 1994].


1.5 Combinaison parametrique

Par rapport aux methodes precedentes, les methodes de combinaison pa-rametrique sont plus complexes a mettre en oeuvre. Elles utilisent des pa-rametres supplementaires calcules pendant une phase d’apprentissage. Laperformance de ces methodes depend alors de la bonne estimation des pa-rametres donc de la base d’apprentissage. Dans la combinaison parametrique,deux cas d’utilisation de la base d’apprentissage sont possibles:

1. Utiliser la meme base pour entrainer les classifieurs et la methode decombinaison.

2. Utiliser deux parties, l’une pour les classifieurs, l’autre pour la combi-naison.

La reutilisation de la meme base d’apprentissage au niveau de la combinaison(le premier cas) est a eviter. Il est toujours preferable d’utiliser une deuxiemebase de donnees.

1.5.1 Type classe

Les methodes parametriques de type classe ne sont pas tres nombreuses.Les methodes les plus utilisees sont principalement le vote pondere, la theoriede Bayes, la methode de Dempster-Shafer et la methode d’espace de connais-sance du comportement (Behaviour Knowledge Space ou BKS).

– Vote avec ponderation

Dans cette methode, la reponse ei,j de chaque classifieur ej est pondereepar un coefficient wj indiquant son importance dans la combinaison.

E(x) =

Ci si∑L

j=1 wjei,j = maxNt=1

∑Lj=1 wjet,j

rejet sinon(1.24)

Il existe plusieurs facons de determiner les coefficients wj. Ils peuventavoir ete optimises par algorithme genetique [Lam and Suen, 1994]. Dans[Achermann and Bunke, 1996], la forme d’entree est attribuee a la classe pour

laquelle la somme des votes, qui sont ponderes par la fiabilite ( taux de reconnaissance100 - taux de rejet

)

estimee de chacun des experts, est la plus elevee. Cette methode n’introduitpas de critere de rejet.

1.5. Combinaison parametrique 45

Pour plus d’informations sur cette methode, le lecteur peut se refereraussi a [Alpaydin, 1992].

– Theorie de Bayes

L’utilisation de la theorie de bayes consiste a determiner la classe Ci pourlaquelle la probabilite a posteriori P (Ci/e1 = C1,...,eL = CL) est maximum,c’est-a-dire:

E(x) = Ci si P(Ci/e1 = C1,...,eL = CL) = maxNm=1 P (Cm/e1 = C1,...,eL = CL)

(1.25)Pour estimer la probabilite a posteriori, plusieurs etudes supposent que les

classifieurs sont independants [Xu et al., 1992, Kuncheva, 2002, Kittler et al., 1998].Sous cette hypothese, la probabilite a posteriori s’ecrit:

P (Ci/e1 = C1,...,eL = CL) = P (Ci)L∏

l=1

P (Ci/el = Cl)

P (Ci)(1.26)

Les probabilites P (Ci/el = Cl) peuvent etre determinees a partir de lamatrice de confusion obtenue pour les classifieurs sur une base d’apprentis-sage. Si on note nj

Ci,Clle nombre d’elements de cette base pour lesquels le

classifieur ej attribue les elements de la classe Ci a la classe Cl, et nj.,Cl

lenombre total d’elements attribues par le classifier ej a la classe Cl, alors onpeut ecrire:

P (Ci/ej = Cl) =nj

Ci,Cl

nj.,Cl

(1.27)

La solution proposee par [Xu et al., 1992] est simpliste dans la mesure ouelle ignore completement les probabilites a priori des classes (les probabilitesP (Ci) sont supprimees de 1.26).

Pour plus de details sur la theorie de Bayes, on pourra se referer a[Duda and Hart, 1973, Berger, 1985, Moobed, 1996] et pour des exemplesd’applications pratiques a [Kimura and Shridhar, 1991] .

– Dempster-Shafer

Dans le cas ou les classifieurs accordent un certain credit a plusieurs classes,l’utilisation de la regle de bayes peut etre inadaptee a la combinaison deces classifieurs. En effet, la regle de bayes necessite l’utilisation de probabi-lites dont la somme est toujours egale a 1 ce qui n’est pas necessaire dans


la theorie de Dempster et Shafer (D-S), appelee aussi theorie de l’evidenceet des croyances [Dempster, 1985, Shafer, 1976]. Par rapport aux approchesstatistiques, cette methode presente l’avantage d’inclure une modelisationa la fois de l’incertitude et de l’imprecision dans les systemes a plusieursclassifieurs. Par exemple, lorsque la decision d’un classifieur est ambigue, latheorie prend en compte cela en affectant des masses a la reunion de plu-sieurs classes. La theorie de bayes se retrouve comme un cas particulier de latheorie de l’evidence. Cependant, elle se base sur l’hypothese d’independancedes sources a combiner.

Si on definit un ensemble Ω de N hypotheses (classes) Ci, i∈ 1,...,N et2Ω, l’ensemble de toutes les combinaisons de classes, la theorie de l’evidenceest caracterisee par la fonction:

m : 2Ω → [0,1] telle quem(φ) = 0 et

∑

A⊆Ω m(A) = 1(1.28)

La fonction m est appelee fonction d’affectation ou masse de croyance.m(A) exprime le degre d’evidence associe a l’ensemble A. Chaque ensembleA ⊆ Ω pour lequel m(A)6= 0 est appele element focal.

A la structure de croyance m sont associees differentes fonctions dontla credibilite (Bel) et la plausibilite (Pl). Bel(A) est interpretee comme unecroyance totale affectee a A:

Bel : 2Ω → [0,1]Bel(A) =

∑

B⊆A m(B)(1.29)

Pl(A) est interpretee comme une croyance affectee a A definie de lamaniere suivante :

P l : 2Ω → [0,1]P l(A) =

∑

B∩A6=φ m(B)(1.30)

Dans D-S, la methode de combinaison des evidences issues de plusieursclassifieurs supposes independants est:

m(A) =

∑

X∩Y =A m1(X)m2(Y )∑

X∩Y =φ m1(X)m2(Y )(1.31)

La regle 1.31 se generalise pour plus de deux evidences. Elle consistea determiner les intersections des elements focaux de masses de croyanceconsiderees, et a associer a chacune de ces conjonctions le produit de leurmasses respectives. L’ensemble de ces intersections constitue l’ensemble des


elements focaux de la nouvelle masse de croyance m. Dans [Xu et al., 1992],les auteurs ont utilise les performances des classifieurs pour realiser l’affecta-tion des masses de croyance.

Dans [Yamayoka, 1994], la methode de D-S est utilisee pour ameliorerla performance du systeme de reconnaissance de chiffres manuscrits. Pourchaque forme x a reconnaıtre, tous les classifieurs proposant la meme solution(etiquette de classe) sont mis dans un groupe Gq, q=1,..., Q (Q est le nombrede differentes sorties proposees par les classifieurs). Chaque groupe representeun nouveau classifieur avec un nouveau taux de reconnaissance. A partir del’analyse successive des nouveaux classifieurs Gq, deux mesures de croyancesont calculees: la croyance d’une sortie correct Bel(Aj) et la croyance d’unesortie incorrecte Bel(¬Aj). La reponse finale de la combinaison est la classeCj pour laquelle la difference entre les deux mesures de croyance est maximalec’est a dire:

Bel(Aj) − Bel(¬Aj = maxNi=1Bel(Ai) − Bel(¬Ai (1.32)

Pour plus de details sur la methode de D-S, on pourra se referer a[Bloch, 1996] pour une etude theorique et pour des exemples d’applicationspratiques a [Franke, 1992, Gunes, 2001, Quinion and Matsuyama, 1991] .

– Methode d’espace de connaissance du comportement

La methode d’espace de connaissance du comportement, BKS [Huang and Suen, 1995]utilise un espace de connaissance contenant les decisions de tous les classi-fieurs. Cet espace permet de connaıtre le comportement des classifieurs d’ouson nom espace de connaissance du comportement. La methode BKS permetalors de tenir compte des informations de cet espace en les integrant directe-ment dans la regle de decision afin d’obtenir la solution finale. L’hypothesed’independance de classifieurs n’est pas necessaire.

L’espace de connaissance du comportement BKS est un espace a L dimen-sions ou chaque dimension correspond a la decision d’un classifieur. Chaqueclassifieur a N decisions possibles. L’intersection des decisions des classifieursindividuels occupe une unite de l’espace BKS(e1,...,eL) appelee unite focale.Elle accumule le nombre d’entites reconnues par les L classifieurs pour chaqueclasse. Un exemple d’espace de BKS a 2 dimensions est presente dans le ta-bleau 1.1 ou (i,j) represente une unite focale avec e1 = Ci et e2 = Cj.


e(1) / e(2) 1 . . . j . . . N1 (1,1) . . . (1,j) . . . (1,N)...

......

......

...i (i,1) . . . (i,j) . . . (i,N)...

......

......

...N (N,1) . . . (N,j) . . . (N,N)

Tab. 1.1 – Espace de connaissance du comportement a 2 dimensions

Chaque unite focale comporte 3 types d’informations :

– le nombre total d’echantillons ne1,...,eL(Cm) appartenant a la classe Cm.

– le nombre total d’echantillons Te1,...,eLpresents dans l’unite

Te1,...,eL=

N∑

m=1

ne1,...,eL(Cm) (1.33)

– l’ensemble des classes les plus representees Re1,...,eLdans l’unite

Re1,...,eL= Ci/ne1,...,eL

(Ci) = max1≤Cm≤Nne1,...,eL(Cm) (1.34)

La methode BKS est constituee de deux etapes : une etape d’apprentis-sage et une etape de decision. Au cours de l’apprentissage, BKS est construita partir des resultats fournis par les L classifieurs. Les valeurs ne1,...,eL

sontdeterminees apres un passage complet de la base d’apprentissage. Les valeursde Te1,...,eL

et Re1,...,eLde chaque unite de BKS(e1,...,eL) sont ensuite calculees

en utilisant 1.33 et 1.34 respectivement. L’etape de decision repose sur l’utili-sation des reponses des L classifieurs a la forme presentee pour choisir l’unitefocale correspondante. La regle de decision suivante est ensuite utilisee pourdonner le resultat final a propos de la classe x :

E(x) =

Re1,...,eLsi Te1,...,eL

> 0 etne1,...,eL

(Re1,...,eL)

Te1,...,eL

≥ λ

rejet sinon(1.35)

ou λ est un seuil qui controle la fiabilite de la decision finale (0 ≤ λ ≤1).Plusieurs methodes existent pour la recherche automatique de ce seuil. L’etuderealisee dans [Huang and Suen, 1995] presente une recherche optimale du


seuil λ et de la regle de decision finale E(x).

La prise de decision dans BKS peut etre illustree par l’exemple suivant.Soient N=3, L=2, S=100. Une table possible de BKS peut etre presenteecomme suit:

e1 e2 1,1 1,2 1,3 2,1 2,2 2,3 3,1 3,2 3,3ne1e2

10/3/3 3/0/6 5/4/5 0/0/0 1/16/6 4/4/4 7/2/4 0/2/5 0/0/6Te1e2

16 9 14 0 23 12 13 7 6Re1e2

1 3 1,3 0 2 1,2,3 1 3 3

Tab. 1.2 – Exemple d’un espace de connaissance du comportement

La premiere ligne du tableau 1.2 represente toutes les combinaisons pos-sibles des reponses des deux classifieurs e1 et e2. La deuxieme ligne contientle nombre de fois ou les classifieurs proposent la reponse de la premiere lignepour les differentes classes. Par exemple, 10/3/3 (2ieme colonne du tableau)indique que les deux classifieurs proposent 10 fois la reponse (1,1) pour laclasse 1, 3 fois cette meme reponse pour les classes 2 et 3. Supposons main-tenant que pour une forme x a reconnaıtre, le premier classifieur propose3 alors que le deuxieme classifieur propose 1, c’est-a-dire e1 = 3 et e2 = 1(colonne 7 du tableau). Dans ce cas, l’unite focale a considerer est BKS(3,1)et la classe de x est 1.

La version originale de BKS presente l’inconvenient majeur de tirer aleatoirementl’une des classes lorsqu’une unite focale contient plus d’une classe. On pourradans ce cas choisir plutot la classe proposee par le classifieur ayant fait lemoins d’erreur [Wernecke, 1992].

Dans [Huang and Suen, 1995] l’efficacite de la methode BKS en termede taux de reconnaissance a ete montree par rapport a d’autres methodescomme le vote majoritaire, la methode Bayesienne et Dempster-Shafer. Ce-pendant, l’utilisation de cette methode reste dependante de la taille de labase d’apprentissage qui doit etre representative et riche.

1.5.2 Type rang

Nous avons vu dans la section 1.4.2 que la limite des methodes non pa-rametriques de type rang est qu’elles ne tiennent pas compte de la differencedans la performance des classifieurs (tous les classifieurs participent de maniere


egale dans la prise de decision). Or, il est important d’integrer le degre decredibilite des classifieurs dans la combinaison surtout quand on sait qu’undes classifieurs est plus performant que les autres. Les methodes de type rangles plus citees dans ce cas sont la somme ponderee, la regression logistique,l’intersection et l’union.

– Somme ponderee

Dans cette methode, les rangs attribues par les classifieurs pour une classeCi sont ponderes par des coefficients ωj indiquant la credibilite accordee achaque classifieur ej. Il s’agit d’une generalisation du borda count (lorsqueω =1 on obtient la regle du borda count). La somme ponderee (SP) d’uneclasse Ci s’ecrit:

SP (Ci) =L∑

j=1

ωjri,j (1.36)

La methode proposee dans [Verma et al., 2001] permet de prendre en comptela difference entre les classifieurs pour ameliorer la reconnaissance de mots.Il s’agit d’une modification du borda count (MBC). Pour L classifieurs pro-posant chacun des listes a K solutions mots (K ≤ N), le MBC de chaque motCi est calcule comme suit :

MBC(Ci) =L∑

j=1

wj ∗ mij ∗ rij (1.37)

ou wj est le poids attribue a chaque classifieur ej. mi,j est la mesure attribueepar chaque classifieur ej a chaque mot Ci de la liste. ri,j est le rang attribuea chaque mot Ci par le classifieur ej. Il est egal a 0 si la classe Ci ne figurepas dans la liste du classifieur ej. ri,j est calcule comme suit:

ri,j = 1 −posij

K(1.38)

ou posij est la position du mot i dans la liste de solutions du classifieurej.

– Regression logistique

Pour combiner des classifieurs de type rang, on peut utiliser la methodede regression logistique qui utilise les poids comme information refletant l’im-portance relative des classifieurs. La regression logistique se base sur π(Ci),


la probabilite de la classe Ci avec 0 ≤ π(Ci) ≤1. Pour l’estimation de cetteprobabilite, on utilise la fonction logistique qui a la forme suivante :

π(Ci) =exp(α + β1ri,1 + β2ri,2 + ... + βLri,L)

1 + exp(α + β1ri,1 + β2ri,2 + ... + βLri,L)(1.39)

ri,j est le rang attribue par le classifier ej a la classe Ci. Pour obtenir unerelation lineaire, l’equation precedente peut etre transformee comme suit:

L(Ci) = log π(Ci)1−π(Ci)

=α+β1ri,1+β2ri,2+...+βLri,L

1+exp(α+β1ri,1+β2ri,2+...+βLri,L)

(1.40)

Une telle tranformation est appelee fonction logit L(Ci). Les parametresde regression α et βj peuvent etre estimes par les methodes des moindrescarres ou du maximum de vraisemblance [Agesti, 1990]. Une fois les pa-rametres βj calcules, la combinaison des L vecteurs de rang fournis par lesclassifieurs consiste a calculer les fonctions logit L(Ci) pour chaque classeen utilisant l’equation (1.40). Les classes finales de la combinaison seront lesclasses triees selon les valeurs de L(Ci).

Cette methode necessite d’estimer N(L-1) parametres, ce qui rend lamethode de regression logistique tres couteuse. Par consequent, elle ne peutetre utilisee en pratique que pour les problemes de classification a faiblenombre de classes.

La difference entre la regression logistique et la somme ponderee est queles coefficients ωj dans (1.36) sont identiques pour toutes les classes tan-dis qu’ici, les coefficients de ponderation pour une classe (les elements duvecteur βj) sont differents de ceux des autres classes. Dans le cas ou les coef-ficients βj sont identiques, la regression logistique devient exactement iden-tique a la methode de la somme ponderee. Cette technique est utilisee dans[Ho, 1992]. D’autres methodes de combinaison parametrique de type rangcomme les methodes d’intersection et d’union ont egalement ete proposeespar Ho [Ho, 1992].

– Intersection

Dans la methode d’intersection, chaque classifieur propose une liste de classesordonnees selon sa preference. L’intersection de ces listes forme le resultat fi-nal. Ceci veut dire qu’une classe n’appartient a la liste finale que si elle existedans toutes les listes des classifieurs. Les listes a combiner peuvent etre detaille differente. Le seuil qui determine la taille de chaque liste est calcule en


apprentissage.

Ho [Ho, 1992] propose une methode qui delimite la taille des listes avantde les combiner. Pour cela, une base d’apprentissage Ba est utilisee. Chaqueclassifieur propose des rangs aux differentes formes de cette base. Le rangle plus eleve est considere comme le seuil a utiliser dans la phase de test.Pour chaque forme de test, les classifieurs proposent des listes de classes,celles placees avant le seuil sont prises en compte dans l’intersection. Cetteprocedure est illustree dans le tableau 1.3 presentant les rangs attribues par 4classifieurs a 5 donnees d’apprentissage. Selon ce tableau, 34 solutions doiventetre prises du classifieur 1, 36 du classifieur 2, 29 du classifieur 3 et 24 duclassifieur 4.

Ba / e(j) e(1) e(2) e(3) e(4)a1 3 12 1 24a2 1 5 29 12a3 34 3 4 6a4 4 36 5 5a5 16 7 3 4seuil 34 36 29 24

Tab. 1.3 – Exemple de recherche des tailles des listes des classifieurs dansl’intersection [Ho, 1992]

– Union

Dans la methode d’union, chaque classifieur propose aussi une liste des rangsrefletant sa preference pour les classes. L’union de ces listes forme le resultatfinal. Une classe qui existe au moins une fois dans l’une des listes des classi-fieurs, appartient aussi a la liste finale. Contrairement a l’intersection, ici lenombre de classes de chaque classifieur doit etre suffisamment petit pour nepas avoir un ensemble trop important dans la liste finale. Pour selectionnerles seuils des listes des classifieurs, une procedure min-max peut etre uti-lisee [Ho, 1992]. Cette procedure se base sur les performances des classi-fieurs obtenues sur la base d’apprentissage Ba comme precedemment. Elleest illustree dans le tableau 1.4. La moitie gauche du tableau presente lesreponses des classifieurs pour les formes d’apprentissage. Pour chacune deslignes, le meilleur (minimum) rang est determine (la moitie droite du ta-bleau). Le maximum de tous ces minima est calcule pour chaque classifieur(colonne).


Ba / e(j) e(1) e(2) e(3) e(4) e(1) e(2) e(3) e(4)a1 3 12 1 24 0 0 1 0a2 1 5 29 12 1 0 0 0a3 34 3 4 6 0 3 0 0a4 4 36 5 5 4 0 0 0a5 16 2 3 4 0 2 0 0Colmax 4 3 1 0

Tab. 1.4 – Procedure min-max pour determiner les seuils dans l’union[Ho, 1992]

1.5.3 Type mesure

D’autres methodes parametriques qui ont beneficie de l’essor des travauxsur la classification dans plusieurs domaines sont utilisees pour combiner lesclassifieurs de type mesure tels que les regles ponderees, les methodes floues,et les reseaux de neurones.

– Les regles ponderees

Ces methodes consistent tout simplement a appliquer des ponderations auxsorties des classifieurs. Chaque probabilite a posteriori Pi d’une classe Ci

peut etre obtenue par l’une des regles suivantes :

Pi = λ∑L

j=1 wjmi,j

Pi =∏L

j=1 mwj

i,j(1.41)

wj est le coefficient qui determine l’importance attribuee au j ieme classifieurdans la combinaison (j=1,..., L).Avec λ=1, la premiere regle est nommee la somme ponderee. Pour λ= 1

L,

il s’agit de la moyenne ponderee. Xiao [Xiao et al., 2000] a propose unemethode lineaire et adaptative pour la reconnaissance de caracteres chinois(probleme a tres grand nombre de classes) et a montre son efficacite par rap-port a d’autres methodes comme le vote pour l’application consideree. Ontrouve dans [Tresp and Taniguchi, 1995, Hashem, 1997] une application deces methodes lineaires.

La deuxieme regle est le produit pondere. D’autres regles qui se basent surle meme principe que cette methode existent. On peut citer par exemple, laregle appelee produit probabilistique proposee dans [Broadley, 1982]. L’uti-lisation de cette regle necessite que les classifieurs soient independants. Laprobabilite a posteriori qu’une forme x provienne d’une classe Ci (i=1,...,N)


est :

Pi(x) =

∏Lj=1 mi,j(x)

P (i)L−1(1.42)

La classe attribuee a x est celle ayant la probabilite a posteriori Pi la pluselevee. P(i) est la probabilite a priori de chaque classe Ci. Elle peut etre es-timee a partir de la base d’apprentissage. Si on suppose que Si est le nombred’elements de la base d’apprentissage reconnus de la classe Ci et S, le nombretotal d’elements de la base d’apprentissage, dans ce cas la probabilite a prioripeut s’ecrire:

P (i) =Si

S,i = 1,...,N (1.43)

Dans [Kuncheva, 1998], la regle de produit probabilistique a ete etudiee(sur une base reelle) et comparee a d’autres regles simples telles que le vote ala majorite, le maximum, le minimum, la moyenne et le produit. Les resultatsont montre l’efficacite de cette regle meme avec des classifieurs correles. Dans5 experiences sur 8, sa performance est superieure a celle des autres regles.Dans le reste des experiences, c’est la moyenne qui apporte plus de gain a lacombinaison.

Dans [Kim et al., 2000], les regles de somme et de produit pondereesont ete utilisees pour reconnaıtre les mots manuscrits. La comparaison avecla regle simple maximum a montre que c’est la regle de multiplication quiameliore le plus les taux de reconnaissance dans les trois premieres propo-sitions (Top3). A partir du Top5, c’est la somme ponderee qui est la plusperformante.

– Integral flou

Disposant d’un ensemble de L classifieurs sur un probleme a N classes, le prin-cipe de l’integral flou est de calculer des mesures floues H = hi,1,hi,2,...,hi,L,i=1,..., N pour chacune des classes, de les comparer avec les sorties des clas-sifieurs pour retenir la classe ayant la mesure floue la plus elevee. L’integralflou est compose de deux etapes: une phase d’apprentissage et une phase detest.Dans la phase d’apprentissage, on determine les valeurs de densite floueg1,...,gL qui peuvent etre interpretees comme l’importance des classifieurs.Le taux de reconnaissance peut etre utilise dans ce cas [Wang et al., 1998,Cho and Kim, 1995].Pour reconnaıtre une forme x, on trie tout d’abord les reponses des classi-fieurs de maniere decroissante pour chaque classe (on considere la ieme ligne


de la matrice MD(x)). Les densite floues gj correspondantes sont aussi triees.Les mesures floues hi,t de chaque classe Ci, t ∈ 1,...,L sont ensuite calculeespar:

hi,t = gt + hi,t−1 + λgthi,t−1 (1.44)

avec hi,1 = g1. λ est une mesure floue (λ ≥ -1) calculee en se basant surles densites floues gj, j=1 a L en resolvant l’equation:

λ + 1 =L∏

j=1

(1 + λgj) (1.45)

Pour chaque classe, on compare les reponses des classifieurs avec le vecteurH pour determiner la mesure floue f la plus elevee:

fi = maxNi=1

[

minLt=1(hi,t,ei,t)

]

(1.46)

Ceci peut etre vu, pour chaque classe Ci, comme une recherche de l’accordmaximal entre les sorties des classifieurs triees (concernant la forme x) et lesmesures floues de Ci. La classe finale de x est obtenue par:

E(x) = maxNi=1fi (1.47)

Pour plus de details sur cette methode, on pourra se referer a [Cho and Kim, 1995,Gader et al., 1996, Grabisch and Nicolas, 1994, Keller et al., 1994, Verikas et al., 1999,Wang et al., 1998].

– Les reseaux de neurones

La combinaison de classifieurs au niveau mesure peut aussi etre realisee enutilisant un reseau de neurones en tant que fonction de decision [Wolpert, 1992,Huang et al., 1995]. Les classifieurs dans l’ensemble sont au debut appris surla base entiere ou sur des parties de cette base. Ensuite, une base de va-lidation est classee en utilisant cet ensemble de classifieurs. La reponse achaque forme est consideree comme une nouvelle donnee a apprendre parle reseau de neurones ce qui lui permet d’apprendre le comportement desclassifieurs. Chaque forme de la base de test est alors classee au debut parl’ensemble de classifieurs dont les sorties sont ensuite combinees par le reseaude neurones pour fournir la decision finale. Les sorties des classifieurs sontdonc considerees pour le classifieur de fusion comme un nouvel ensemble decaracteristiques de chaque forme de test. On appelle cette approche meta-classifieur [Giacinto, 1998].


La combinaison par reseaux de neurones a ete appliquee a des problemesde reconnaissance tres differents. Par exemple, elle a ete utilisee dans [Lee and Srihari, 1995]pour la reconnaissance de chiffres, dans [Knerr et al., 1996] pour identifierles mots, et dans [Wenzel et al., 1998] pour classer les documents. Dans[Huang et al., 1995], un reseau de neurones est utilise pour combiner 3 clas-sifieurs. Les auteurs constatent d’une part que la conception d’un classifieurqui doit etre appris sur les resultats d’un ensemble de classifieurs n’est pasfacile, et d’autre part que l’apprentissage de ces resultats est tres couteux enterme de calcul. Pour corriger les erreurs inherentes de 2 classifieurs (de typek-ppv), Prevost et al. [Prevost and Milgram, 1998] utilisent la fusion neuro-nale permettant ainsi d’ameliorer notablement la performance d’un systemede reconnaissance de caracteres.

Dans [Giacinto, 1998], le reseau de neurones, le vote a la majorite et lamoyenne de bayes ont ete utilises pour combiner trois reseaux de type MLPayant des architectures differentes. Il est montre que ces trois methodes decombinaison se comportent bien avec des classifieurs independants. Cepen-dant, lorsque les classifieurs sont dependants, le reseau de neurones donne demeilleures performances que celles obtenues avec le vote a la majorite et lamoyenne de bayes.

– Decision Template (DT)

Cette methode a ete proposee dans [Kuncheva et al., 2001]. Pour chaqueclasse Ci (i=1,..., N), une matrice de decision DTCi

est calculee sur unebase d’apprentissage Ba = a1,...,aS . Cette matrice DTCi

represente le centrede la classe Ci dans l’espace de decision des classifieurs en apprentissage.

DTCi=

1

Si

S∑

s=1,as∈Ci

MD(as) (1.48)

Si est le nombre d’elements de Ba provenant de la classe Ci, i=1, ..., N.Pour chaque forme de test x, les matrices DTCi

sont comparees a la matricedes decisions des classifieurs MD(x) en utilisant une mesure de similarite sim:

ECi= sim(DTCi

,MD(x)) (1.49)

La forme x est reconnue de la classe Ci si la similarite entre la matriceDTCi

et MD(x) est la plus elevee. Dans [Kuncheva, 2002], la distance eu-clidienne a ete utilisee pour mesurer cette similarite mais d’autres mesurespeuvent etre appliquees. Dans [Kuncheva et al., 2001], par exemple, 10 me-sures de similarite ont ete comparees, celle de type flou est recommandee.

1.6. Comparaison des methodes de combinaison 57

Cependant, cette methode reste non generalisable et son application dependdes donnees utilisees et de la mesure de similarite choisie.

1.6 Comparaison des methodes de combinai-

son

Les diverses methodes de combinaison que nous avons passees en revuemontrent la diversite des approches qui s’offrent au concepteur de systemesde reconnaissance a plusieurs classifieurs. Ces methodes se distinguent es-sentiellement par le niveau d’information en sortie qu’apporte chacun desclassifieurs. Au niveau classe, la sortie de chaque classifieur est une etiquette.Au niveau rang, chaque classifieur fournit en sortie une liste ordonnee desolutions. Au niveau mesure, les classifieurs proposent en plus des mesuresrefletant la confiance qu’ils ont dans les classes. La combinaison est alorsdifferente si on dispose d’un classifieur produisant des mesures (riche en in-formation), ou seulement des classifieurs donnant des classes (pauvre en in-formation). La combinaison des sorties de type classe a recu de la part deschercheurs une attention plus grande que la combinaison des sorties de typemesure car elles sont tres simples a appliquer et a analyser experimentalementet meme theoriquement. Meme si les methodes de type mesure semblent apriori plus seduisantes (quand on peut les utiliser) puisqu’elles exploitenttoute l’information fournie par le classifieur, cela ne veut pas dire qu’ellessont toujours plus interessantes que les methodes de type rang. Cette ideea ete confirmee recemment par Parker [Parker, 2001] qui a montre que lesmethodes de type rang peuvent etre plus performantes que les methodes detype classe et mesure.

Il faut noter egalement que le probleme du choix entre les methodes pa-rametriques et non parametriques a ete pose recemment [Roli et al., 2002a][Duin, 2002]. D’apres Duin [Duin, 2002], la combinaison parametrique estplus interessante que la combinaison non parametrique surtout lorsque labase d’apprentissage est a la fois informative et representative. Pourtant, cesont les methodes de combinaison non parametriques qui sont les plus uti-lisees par les chercheurs. Cela est du au fait que ces methodes sont simples amettre en oeuvre et n’utilisent pas de traitements supplementaires (appren-tissage).

Certains travaux ont montre l’efficacite des methodes parametriques parrapport aux regles fixes pour des ensembles de classifieurs exhibant des per-formances differentes, en supposant la disponibilite de donnees suffisamment


large pour l’apprentissage de ces methodes de combinaison [Fumera and Roli, 2002].Ceci veut dire que l’avantage des methodes parametriques peut ne pas etregaranti en pratique. Par exemple, l’utilisation de la methode BKS est a evitersi on dispose de bases de donnees de petite taille.

Le tableau 1.5 presente de facon synthetique les principales caracteristiquesdes methodes de combinaison parallele de classifieurs. Ces caracteristiquessont presentees en fonction du type de sorties des classifieurs et de la capa-cite d’apprentissage. Le choix de ce criteres est d’une importance primordialelors de la conception d’un systeme de combinaison de classifieurs.

1.6

.C

om

parais

on

des

meth

odes

de

com

bin

ais

on

59 Methodes de combinaison Type Apprentissage Commentaire

Methode de vote classe non tres simple, utilisable pour un tres grand nombre de classifieursSomme, Mediane, moyenne mesure non robuste et suppose l’independance des classifieursProduit, max, min mesure non suppose l’independance des classifieurs,

utilisable avec des classifieurs performantsBorda count rang non utilisable pour un tres grand nombre de classesRegression logistique rang oui depend des poids de ponderationBKS classe oui demande beaucoup de donnees,

n’utilise pas l’hypothese d’independance de classifieursTheorie de Bayes classe oui utilisee avec l’hypothese d’independance des classifieurs

Tab. 1.5 – Caracteristiques des methodes de combinaison parallele


1.7 Selection de classifieurs

Ce n’est que recemment que les travaux sur la combinaison ont montrel’importance de traiter le probleme de selection des classifieurs comme etantun probleme d’optimisation de l’espace de decisions des classifieurs. Pourtantce probleme n’est pas nouveau.

Lorsqu’on dispose d’un grand nombre de classifieurs, on se pose toujoursla question de savoir combien et quels classifieurs choisir pour ameliorer lareconnaissance. Une approche intelligente de selection de classifieurs est de-venue cruciale pour aboutir a la meilleure performance avec le minimum declassifieurs. Cependant, selectionner les classifieurs ayant les performances lesplus elevees n’est pas forcement la bonne solution pour aboutir au meilleurresultat [Rogova, 1994].

Generalement, les taxonomies proposees dans la litterature permettent dediviser les methodes de selection de classifieurs en deux groupes: statique etdynamique [Kuncheva, 2002]. La selection statique consiste a choisir une foispour toutes le meilleur classifieur ou le meilleur sous-ensemble de classifieurs,parmi un grand nombre de classifieurs disponibles, qui sera utilise lors dela combinaison. La strategie proposee dans [Giacinto and Roli, 2001b] ainsique celle dans [Sharkey et al., 2000] utilise ce type de selection. A l’oppose,la selection dynamique ou adaptative retient les sorties d’un ou de plusieursclassifieurs adaptes a chacune des formes de test a traiter. L’algorithme 3Cpropose dans [Gunes, 2001] est un exemple de ce type de selection. Woods[Woods et al., 1997] et Cao [Cao et al., 1994] ont egalement propose ce typede systeme.

Certains auteurs considerent que les termes de selection adaptative et deselection dynamique ont la meme signification [Ho and Hull, 1994, Giacinto, 1998].Gunes [Gunes, 2001] fait la distinction entre ces deux notions. Dans le casde la selection adaptative, differents classifieurs sont selectionnes en fonctionde l’individu presente en entree du systeme. Plusieurs formes identiques maisissues d’instants differents conduisent a la selection du ou des meme(s) clas-sifieurs. L’aspect temporel, c’est-a-dire le fait qu’un individu soit associe aun instant donne, n’est donc pas pris en compte. La selection dynamiquedoit, au contraire, conduire a des choix differents suivant l’instant considere.Ceci est necessaire lorsque les classes sont evolutives (par exemple, lorsquele centre de classes se deplace au cours du temps).

Duin [Duin, 2002] considere que les methodes de selection font partie

1.7. Selection de classifieurs 61

des methodes de combinaison parametriques (avec apprentissage) puisqueles resultats d’apprentissage des classifieurs sont utilises dans la procedurede selection. Rappelons ici que notre definition des methodes parametriquesest differente. En effet, nous considerons qu’une methode de combinaison estparametique si elle utilise une phase supplementaire permettant d’estimer lesparametres necessaire a la combinaison independamment de l’apprentissagedes classifieurs. La taxonomie de Duin distingue deux groupes de methodesde selection: methode de selection globale et methode de selection locale. Lepremier type de methodes consiste a choisir, non pas le meilleur classifieur,mais le meilleur ensemble de classifieurs [Sharkey et al., 2000]. Le deuxiemetype de methodes divise l’espace de caracteristiques en regions, estime laperformance locale de chaque classifieur dans ces regions et selectionne (pourchaque region) le classifieur le plus performant.

Le sous-ensemble optimal de classifieurs doit etre choisi parmi toutes lespossibilites de combinaison des classifieurs disponibles. Malheureusement, lenombre des sous-ensembles possibles est egal a

L∑

j=1

(

Lj

)

= 2L − 1 (1.50)

Il est evident qu’au dela de trois classifieurs, la generation de tous ces sous-ensembles devient couteuse en temps de calcul. Des methodes de recherchesous optimales sont donc utilisees pour selectionner le ou les meilleurs classi-fieurs (cf. methodes de selection de caracteristiques [Jain and Zongke, 1997]).

Nous presentons maintenant les methodes de selection statique (qui prennenten compte les memes classifieurs pour reconnaıtre toutes les formes) puis lesmethodes de selection dynamique (qui cherchent le meilleur sous-ensemblede classifieurs en fonction des donnees presentees en entree).

1.7.1 Selection statique

Dans la litterature, les travaux qui traitent le probleme de la selectionstatique de classifieurs peuvent etre repartis en 3 groupes selon la strategiede conception:

– surproduire et choisir: cette technique consiste a generer des classifieursdifferents en se basant sur les methodes de creation d’ensembles et achoisir ensuite le groupe de classifieurs dont la combinaison produit lemeilleur resultat.


– regrouper et extraire: elle consiste a regrouper les classifieurs en sous-ensembles qui different selon le niveau de correlation et a extraire en-suite un classifieur representatif de chaque sous-ensemble tout en es-sayant d’avoir un compromis entre diversite d’erreur et performance del’ensemble final.

– rechercher et selectionner: elle se base sur le meme principe des methodesde selection de caracteristiques utilisees en reconnaissance de formesstatistiques (utilisation d’un algorithme de recherche et un ou plusieurscriteres de selection).

1.7.1.1 Surproduire et choisir

Plusieurs methodes pour creer des ensembles de classifieurs divers ont eteproposees. Le meilleur moyen est d’utiliser des caracteristiques differentesadaptees a chacun des classifieurs [Duin, 2002, Kittler et al., 1998]. La generationaleatoire des sous-ensembles de caracteristiques par la methode Random sub-spaces est aussi interessante [Ho and Hull, 1994]. Une autre solution consistea utiliser des sous-bases de donnees differentes [Cohn et al., 1994]. Les tech-niques les plus utilisees pour cela sont essentiellement le bagging et le boosting[Breiman, 1996a, Freund and Schapire, 1996]. Si ces deux methodes ont lememe objectif, qui est l’amelioration de la performance des classifieurs ayantla meme structure, elles sont neanmoins differentes du point de vue proces-sus. Dans la premiere methode, les bases d’apprentissage sont construites demaniere independante par bootstrapping alors que dans la deuxieme methode,la construction des bases d’apprentissage depend systematiquement des resultatsde classification anterieure (nous reviendrons plus en details sur cette ap-proche dans le chapitre 4). On peut egalement introduire de la diversiteentre les sorties des classifieurs en faisant varier la structure des classifieurs,ou leurs parametres comme par exemple le nombre de plus proches voisinsou le nombre des feuilles dans les arbres de decision [Tax et al., 2000].

Disposant d’un grand nombre de reseaux de neurones differents (du pointde vue architecture, initialisation et apprentissage), Sharkey et al. cherchenta identifier et a selectionner le ”meilleur” ensemble de classifieurs en se ba-sant sur sa performance sur une base de validation (autre que la base detest et d’apprentissage) [Sharkey et al., 2000]. Ils en ont deduit une methodetest and select qui se base sur ce principe. En effet, ils considerent quesi l’ensemble de classifieurs choisis donne une meilleure performance (enterme de taux de reconnaissance) sur une base de validation, alors cet en-semble se comporte aussi de la meme facon sur la base de test. Bien quecette methodologie montre comment il est possible de selectionner le groupe


produisant le meilleur resultat, elle possede neanmoins des inconvenients.D’une part, la phase de constitution exhaustive des ensembles de classifieursnecessite un effort de mise au point considerable et d’autre part, l’ensembleretenu est fixe. Ce choix reste dependant de la base de validation utilisee(si on change de base, le meilleur ensemble peut changer). Il est egalementimportant de noter que le principe de la selection dans la methodologie testand select necessite que la repartition de la base de validation soit proche decelle de la base de test. La performance d’un meme ensemble de classifieurssur deux bases differentes (par exemple l’une bruitee et l’autre non) peut etredifferente.

Au lieu de selectionner les classifieurs en se basant uniquement sur leurperformance, certains chercheurs proposent de selectionner les classifieurs enfonction de leur diversite [Aksela, 2003, Partridge and Griffith, 1995][Impedovo and Salzo, 1999, Sharkey and Sharkey, 1997a, Ruta and Gabrys, 2001a,Sharkey and Sharkey, 1997a]. A ce propos, des mesures de diversite differentesont ete utilisees. Aksela [Aksela, 2003], par exemple, compare six mesures dediversite pour la selection de 4 classifieurs differents parmi 8. Trois methodesde combinaison ont ete utilisees pour evaluer ces mesures (le vote a la plura-lite, BKS [Huang and Suen, 1995] et Dynamically Expanding Context (DEC)[Laaksonen et al., 1999]). Toutes les combinaisons des possibilites de 4 clas-sifieurs parmi les 8 ont ete generees (70 combinaisons). Parmi les mesuresde diversite utilisees, l’erreur exponentielle (qui sera presentee de facon plusdetaillee dans le dernier chapitre) est jugee plus efficace permettant de predireles groupes de classifieurs dont la combinaison donne la meilleure perfor-mance. En effet, le meilleur groupe de classifieurs (dont la combinaison donnele taux d’erreur le plus faible) correspond au groupe offrant le plus de diver-site par la mesure de l’erreur exponentielle. Avec l’elimination du plus mau-vais classifieur parmi les 8, il est constate que cette mesure donne le memeresultat. Ceci montre que cette mesure est moins sensible aux performancesdes classifieurs. Cependant, les resultats obtenus ne sont pas generalisables.Ils dependent aussi bien des donnees traitees (bases de caracteres manus-crits) que de la dimension des groupes de classifieurs combines. Il ne faut pasoublier que ces resultats dependent aussi des caracteristiques des methodesde combinaison utilisees. Le fait de tester avec le vote a la pluralite et le BKSne veut pas dire que la mesure recommandee soit la plus efficace pour le restedes methodes de combinaison.

Impedovo et al. [Impedovo and Salzo, 1999] proposent une methodologiepour rechercher le meilleur ensemble de classifieurs pour la combinaison.Cette methodologie utilise l’indice de similarite pour estimer la correlation


stochastique de l’ensemble de classifieurs (mesure de l’accord entre les sor-ties des classifieurs). Cet indice est aussi utilise dans [Dimauro et al., 1995,Kim et al., 1997] pour la selection de classifieurs. Comme il est montre dans[Ruta and Gabrys, 2001a] pour le vote a la majorite, les mesures de diver-site sont particulierement interessantes dans la mesure ou elles permettentde reduire la complexite du systeme de combinaison. Cependant, la selectionreste dependante du choix de ces mesures. De plus, la pertinence de ces me-sures est un probleme actuel, non encore resolu. Nous reviendrons en detailsur ces problemes dans le chapitre 4.

1.7.1.2 Regrouper et extraire

Dans [Giacinto, 1998, Giacinto et al., 2000a], une approche basee sur leprincipe regrouper et extraire a ete proposee. Elle consiste a regrouper lesclassifieurs en sous-ensembles qui different selon le niveau de correlation eta extraire ensuite un classifieur representatif de chaque sous-ensemble touten essayant d’avoir un compromis entre diversite d’erreur et performance del’ensemble final. L’objectif de la premiere phase est de regrouper les classi-fieurs de telle facon que :

1. la combinaison (par vote a la majorite) des classifieurs du meme groupedonne un taux eleve d’erreur. Ceci permet de dire que les classifieursde chaque groupe ont un degre faible de complementarite (sont trescorreles).

2. la combinaison de classifieurs de groupes differents permet d’avoir unpourcentage d’erreur faible.

A ce propos, l’algorithme de clustering hierarchique est utilise [Ripley, 1996,Jain and Dubes, 1988]. Cet algorithme commence par considerer chaque clas-sifieur comme un groupe individuel. A chaque etape, les deux groupes les plusproches sont rassembles dans un meme groupe. Ici, le sens du plus prochechange d’une etape a une autre puisque les distances entre les groupes de-viennent plus grandes. On obtient a la fin du processus un seul groupe. Ilest possible ensuite de choisir le sous-ensemble optimal en selectionnant unclassifieur de chaque groupe (celui dont la distance moyenne avec les autresgroupes est maximale). Pour constituer les ensembles de classifieurs, unemesure de diversite qui se base sur le desaccord entre les classifieurs a eteutilisee. Si p00 est la probabilite que deux classifieurs e1 et e2 proposent si-multanement des reponses incorrectes sur une base de validation, alors ladistance entre ces deux classifieurs est definie par:


de1e2=

1 − p00 e1(x) 6= e2(x)0 e1(x) = e2(x)

(1.51)

La distance entre deux groupes G1 et G2 est definie comme etant la dis-tance maximale entre des classifieurs provenant de ces groupes:

dG1G2= max

es∈G1,et∈G2

d(eset) (1.52)

Dans [Giacinto et al., 2000a], cette approche a ete comparee a deux autresmethodes de selection proposees dans [Partridge and Yates, 1996]. L’une nommee”choisir le meilleur sous ensemble” consiste a selectionner X classifieurs ayantles performances les plus elevees parmi l’ensemble de tous les classifieurs dis-ponibles (X est pre-defini). L’autre methode nommee ”choisir a partir dusous-espace” consiste a selectionner le classifieur qui a la performance laplus elevee dans une certaine region de l’espace. Les resultats ont montreque l’approche de Giacinto et al. permet de selectionner plus de classifieursindependants que les deux autres methodes. Cependant, l’efficacite de cetteapproche reste liee a l’algorithme de clustering et la mesure de distance uti-lises.

Une autre methode simple de selection basee sur le regroupement a eteproposee dans [Kuncheva, 2000a]. Chaque classifieur se prononce sur la based’apprentissage. Celle-ci est divisee ensuite en Q regions en utilisant la procedurede Q-means clustering [Duda and Hart, 1973]. Le centre de chaque region estidentifie. Pour chaque region, la performance des classifieurs est estimee. Leclassifieur ayant la performance la plus elevee est nomine. Pour une formex de test, on l’affecte a la region dont le centre est le plus proche a x. Leclassifieur nomine pour cette region est utilise pour classer x.

1.7.1.3 Rechercher et selectionner

La plupart des methodes de selection qui se base sur ce principe sontdes methodes de selection de caracteristiques utilisees en reconnaissance deformes statistiques [Jain and Zongke, 1997]. L’algorithme de recherche ainsique le critere de selection (performance de la combinaison par exemple) sontles deux elements essentiels dont depend la performance de ces methodes derecherche. On trouve essentiellement les methodes de recherche sequentielleet les algorithmes genetiques qui sont des methodes heuristiques fondees surle principe de la recherche locale. Ce principe consiste a explorer l’espace derecherche compose de toutes les solutions realisables dans le but d’aboutira la solution optimale. Dans [Hao et al., 2003], une comparaison entre cinq


methodes de recherche sequentielle et un algorithme genetique a ete realiseepour la selection de 32 classifieurs. Cette etude a montre que la plupartde ces methodes arrivent a trouver rapidement le meilleur sous-ensemble declassifieurs. Cependant, aucune methode n’est superieure a toutes les autresde maniere consistante. D’autre part, la combinaison des meilleurs classi-fieurs selectionnes sur la base de validation ne donne pas obligatoirementune meilleure performance sur la base de test.

Dans les methodes de recherche sequentielle les classifieurs sont addi-tionnes ou elimines iterativement du sous-ensemble choisi dans l’objectifd’ameliorer le critere de selection. A chaque etape, seulement un classifieurou un petit nombre de classifieurs (2 ou 3) sont traites, ce qui permet delimiter la complexite de la recherche. Parmi les principales methodes de re-cherche sequentielle, on trouve:

– Recherche en avant (forward): dans cette methode, le sous-ensembleinitial est vide. Les classifieurs sont alors additionnes un par un. Achaque etape, un classifieur est retenu dans le sous-ensemble si sonaddition permet d’ameliorer la performance de ce sous-ensemble.

– Recherche en arriere (backward): il s’agit de la direction inverse dela methode de recherche precedente. Elle commence par un ensemblecontenant tous les classifieurs. Ceux-ci sont elimines de maniere iterative.A chaque iteration, un classifieur est elimine de telle sorte que le sous-ensemble de classifieurs restants donne la performance la plus elevee.

Dans [Banfield et al., 2003], trois methodes de selection basees sur leconcept de la recherche sequentielle ont ete proposees. Disposant d’un grandnombre de classifieurs (1000), le but de chacune de ces methodes est d’eliminerles classifieurs inutiles selon un certain critere. La procedure s’arrete lorsquele nombre de classifieurs a enlever est atteint (ce nombre est pre-defini). Dansla premiere methode AID ”‘accuracy in diversity”’, deux valeurs limites, tauxde reconnaissance minimum et maximum, sont calculees en fonction de la di-versite du groupe et du taux de reconnaissance de chacun des classifieurs.Les classifieurs ayant le taux de reconnaissance inferieur a la borne mini-male fixee sont supprimes de l’ensemble. Le deuxieme algorithme se basesur l’accord des classifieurs (mesure de kappa). Pour chaque classifieur ej

de l’ensemble e1,...,eL, on calcule le kappa de l’ensemble e1...ej−1,ej+1,...,eL

(c’est-a-dire sans ce classifieur). Le classifieur qui entraine une faible valeurde kappa est elimine. La troisieme methode elimine a chaque etape le classi-fieur qui cause le taux de reconnaissance le moins eleve. Il est montre que les


deux premieres methodes de selection sont plus interessantes. Bien qu’ellespermettent d’ameliorer la performance de l’ensemble en utilisant des mesuresde diversite, elles restent cependent dependantes de la base qui a servi pourla recherche des classifieurs les plus complementaires.

L’avantage des algorithmes genetiques [Srinvas and Patnaik, 1994] est depermettre de rechercher un optimum dans un espace de donnees de grande di-mension tout en respectant les fonctions de fitness [Kuncheva, 1997, Cho, 1999].Un algorithme genetique peut etre decrit par trois elements essentiels:

1. Un ensemble de solutions potentielles appelees individus ou chromo-somes qui vont evoluer pendant un nombre d’iterations (generations).Cet ensemble de solutions est aussi appele population.

2. Un mecanisme d’evaluation (fonction cout ou fitness) qui permet d’evaluerla performance de chaque individu de la population. Les individus quirespectent les fonctions de fitness ont plus de chance de survire dans lageneration suivante.

3. Une procedure d’evolution qui est basee sur des operateurs genetiquescomme la selection, le croisement ou encore la mutation. Les operationsde mutation et de croisement permettent d’augmenter la variabilite despopulations.

Les conditions d’arret les plus utilisees sont un nombre predefini de generationsou une valeur predefinie a atteindre pour la fonction cout.

Une approche basee sur un algorithme genetique a ete proposee dans[Partridge and Yates, 1996]. Elle peut etre resumee comme suit. Un grandnombre de reseaux de neurones sont d’abord generes en les initialisant differemment,avec differents nombres de neurones et differentes bases d’apprentissage. Lecritere de selection des classifieurs est base sur la performance de la com-binaison (le taux de reconnaissance) ainsi que sur la diversite entre les sor-ties des classifieurs (utilisation d’une mesure de diversite). Deux conclusionsinteressantes sont a mentionner a partir de ce travail: (1) les ensembles declassifieurs qui ont une grande valeur de diversite ne sont pas necessairementceux qui produisent le taux de reconnaissance le plus eleve, (2) l’apprentis-sage des reseaux de neurones sur des donnees differentes permet d’obtenir desclassifieurs ayant une plus grande diversite que les autres types de variationsapportees aux reseaux (initialisation, architecture).

Dans [Ruta and Gabrys, 2001b], trois methodes de selection de classi-fieurs basees sur le principe des algorithmes genetiques ont ete comparees:l’algorithme genetique [Davis, 1991], la methode TS tabu search [Glover and Laguna, 1997]


et PBIL (population-based incremental learning) [Baluja, 1994]. Ces algo-rithmes ont ete utilises pour chercher la population contenant les meilleursgroupes de classifieurs et les combiner ensuite par le vote a la majorite. Laperformance de cette methode de combinaison est prise en compte directe-ment dans la fonction du fitness.

Dans [Giacinto, 1998], une approche capable de selectionner les classi-fieurs sans contraintes sur la taille de l’ensemble de classifieurs a ete pro-posee. Cette approche utilise aussi un algorithme genetique qui cherche dansl’espace des classifieurs, le groupe qui minimise l’erreur de la combinaisonpar vote a la majorite.

Dans [Oliveira et al., 2003], une approche de selection de caracteristiquesbasee sur l’algorithme genetique hierarchique multi-objectifs a ete proposee.En effet, l’algorithme genetique est utilise dans deux etages: dans le premieretage pour la selection des caracteristiques les mieux adaptees aux classifieursutilises et dans le deuxieme etage pour chercher le meilleur sous-ensemble declassifieurs parmi les bons (du premier niveau). Pour selectionner le meilleurensemble de classifieurs, deux criteres ont ete utilises: le taux de reconnais-sance de l’ensemble (combinaison par la moyenne) et le desaccord entre lesclassifieurs. En appliquant cette methode dans le contexte de la reconnais-sance de chiffres manuscrits avec trois classifieurs, il est observe que le sous-ensemble qui presente le meilleur taux de reconnaisance est aussi composedu nombre minimum de classifieurs.

1.7.2 Selection dynamique

Dans le cadre des systemes de classifieurs, le meilleur classifieur (ou lemeilleur ensemble de classifieurs) peut etre different suivant la forme a clas-ser. On parle alors de selection adaptative ou dynamique si l’en prend encompte cette forme pour selectionner le ou les meilleurs classifieurs.

Lee et al. [Lee and Srihari, 1995] identifient deux types de selection dyna-mique: une selection pre-conditionnelle et une selection post-conditionnelle.La selection pre-conditionnelle consiste a choisir le meilleur ensemble de clas-sifieurs en tenant compte de la forme x a reconnaıtre (par exemple en utilisantun selecteur qui recoit cette forme et donne en sortie les poids a attribueraux differents classifieurs). La selection post-conditionnelle, quant a elle, estbasee seulement sur les decisions des classifieurs.


Selon la strategie de conception, nous avons choisi de diviser les methodesde selection dynamique de classifieurs en deux groupes:

– selection locale: elle consiste a diviser l’espace de caracteristiques enregions, estimer la performance locale des classifieurs dans chaque regionet choisir le meilleur classifieur par region. Si une forme a reconnaıtre estattribuee a une region, alors le classifieur representatif de cette memeregion prend la decision finale.

– selection par ponderation: elle consiste a utiliser un selecteur dont lerole est d’attribuer des poids aux classifieurs (le poids le plus eleve aumeilleur classifieur).

1.7.2.1 Selection locale

L’idee originale de la selection dynamique a ete introduite dans [Ho, 1992].Considerons l’oracle comme etant une methode permettant de predire lemeilleur classifieur pour chaque forme a reconnaıtre. Si cela existe, il estpossible de prendre les decisions seulement par ce classifieur et ignorer lareponse des autres classifieurs. D’apres Ho:”c’est le cas ideal de la selectiondynamique de classifieurs”. Une telle selection peut etre realisee de deuxfacons differentes.

Une methode possible consiste a diviser, tout d’abord, la base d’appren-tissage selon le nombre de classifieurs en accord. En effet, pour chaque formede cette base, la reponse de chaque classifieur est comparee a celle des autresclassifieurs et la classe proposee par la majorite des classifieurs en accord estattribuee (la reponse des classifieurs peut etre correcte ou incorrecte). La based’apprentissage est donc divisee en

∑Lj=0 CL−j

L parties selon le nombre de pos-sibilites d’accord entre les classifieurs. Pour chaque partie, les parametres dumodele logistique (c’est a dire les poids de tous les classifieurs) sont estimes.Pour reconnaıtre une forme de test x, les classifieurs proposent d’abord leursreponses. Le nombre de classifieurs en accord definit la partie concernee dex. Le modele logistique (fonction de combinaison), estime pour cette partie,est utilise pour produire la decision de x.

La deuxieme methode considere chaque classifieur comme un expert dansson espace local de caracteristiques d’ou le nom DCS-LA (Dynamic Clas-sifier Selection by Local Accuracy). L’idee de base est de diviser l’espacede caracteristiques < en Q ≥ 2 regions notees par <1,<2,...,<Q. La perfor-mance des classifieurs est ensuite mesuree separement dans chaque region.Le meilleur classifieur, c’est-a-dire celui qui a la performance locale la pluselevee, est determine par region. Un classifieur peut etre selectionne sur plu-


sieurs regions comme il peut ne jamais etre selectionne. Pour une formede test a reconnaıtre, si elle est attribuee a une region alors le classifieurqui represente cette meme region (c’est-a-dire selectionne pour cette region)prend la decision finale. C’est uniquement la sortie du meilleur classifieurqui est prise en compte meme si les autres classifieurs peuvent etre aussiperformants localement. Cette methode a ete adoptee dans plusieurs travaux[Giacinto et al., 2000b, Giacinto and Roli, 2001c, Giacinto and Roli, 2001a,Kuncheva, 2002, Cao et al., 1994, Alpaydin and Jordan, 1996, Lipnickas, 2001].Bien que ces travaux traitent des problemes differents, ils se basent, cepen-dant, sur la meme philosophie de selection.Dans [Woods et al., 1997], les auteurs selectionnent dynamiquement un clas-sifieur parmi un ensemble en se basant sur l’estimation de performance. Ce-pendant, les classifieurs ne sont pas specialises dans differentes regions du-rant la phase d’apprentissage. Tous les classifieurs sont entraines sur la baseentiere et la selection du classifieur specifique est seulement realisee pendantla phase de test.

Gunes [Gunes, 2001] propose une methode 3C (Cooperation Classifica-tion Classement) qui se base sur ce meme principe. Cependant, la decisionfinale peut etre prise soit par un seul classifieur soit par un ensemble de clas-sifieurs. Chaque classifieur est entraine sur une des regions et sur toutes lesregions ambigues a proximite de celle-ci. Pour chaque forme de test, la regiondans laquelle elle se trouve est determinee. Si cette forme appartient a uneregion dans laquelle un seul classifieur a ete entraine alors on utilise ce clas-sifieur pour prendre la decision finale. Alors que si la forme de test est situeedans une region ambigue (contenant des donnees de differentes classes) alorsla prise de decision est effectuee en combinant l’ensemble des classifieurs lesmieux adaptes (c’est-a-dire ayant appris dans la region ou se situe la forme)par la theorie D-S. Dans le cas ou la forme de test est classee dans une regioninexistante (c’est-a-dire aucun element d’apprentissage n’a ete affecte lors dela phase de constitution de regions), elle est alors rejetee.

Dans [Giacinto and Roli, 2000], les auteurs presentent un cadre theoriquepour la selection dynamique et montrent que sous certaines conditions, leresultat du classifieur bayesien optimal peut etre obtenu par la selection declassifieurs non optimaux. Cela consiste a dire que pour chaque partie del’espace de caracteristiques, il y a au moins un classifieur qui produit unedecision optimale de bayes. La performance de ce classifieur est certaine-ment superieure aux autres classifieurs. Par consequent, pour chaque partie,la performance de chacun des classifieurs peut etre estimee sur une base devalidation et le classifieur ayant la performance superieure est selectionne. Ace propos, deux methodes de selection dynamique ont ete proposees : l’une a


priori, l’autre a posteriori. Dans la selection a priori, la performance pj(x) dechaque classifieur ej (j=1,..., L) est calculee a l’aide d’un k-ppv dans la basede validation telle que:

pj(x) =

∑Ss=1 pj(Ci/zs ∈ Ci)ωs

∑Ss=1 ωs

(1.53)

ou pj(Ci/zs ∈ Ci) est le rapport entre le nombre de voisins correctementclasses par le classifieur ej a la classe Ci et le nombre total des voisins de x;ωs = 1/ds avec ds la distance euclidienne entre la forme de la base de valida-tion zs et la forme x a classer. S est la taille totale de la base de validation.Notons ici que la selection est nommee a priori parce que la performancepj(x) de chaque classifieur ej est determinee sans connaıtre sa decision apropos de la forme x. Si dans la selection a priori, la performance de chaqueclassifieur est une mesure globale sur l’ensemble de la base de validation, dansla selection a posteriori, la performance de chaque classifieur est determineepour chacune des classes. Dans la selection a posteriori, chaque forme a re-connaıtre x est classee avant le calcul des performances des classifieurs. SoitCm la classe attribuee a cette forme par un classifieur ej, m=1,..., N. Dansce cas, la performance pj(x) de ce classifieur pour la forme x est

pj(x) =

∑

zs∈Cmp(Cm/zs)ωs

∑Ni=1

∑

zs∈Cip(Cm/zs)ωs

(1.54)

ou p(Cm/zs) est le rapport entre le nombre de voisins zs de x attribues ala classe Cm et le nombre total de voisins S.

L’algorithme de selection utilisant l’une de ces deux techniques peut etrepresente comme suit:Entrees: la forme x a reconnaıtre, les etiquettes de la base de validation(classee), le nombre de voisins, seuil de rejet seuilr, seuil de selection seuilsSortie: la classe de x

1. Si tous les classifieurs attribuent a x la meme classe, alors la classefinale est cette classe

2. Pour chaque classifieur ej (j=1,.., L), calculer pj(x)

3. Si pj < seuilr alors eliminer ej de l’ensemble

4. Identifier le classifieur em ayant la probabilite pm(x) la plus elevee

5. Pour les k classifieurs restants (retenus dans l’ensemble), calculer ladistance entre la probabilite du classifieur em et celle des autres classi-fieurs: dl = pm − pl, l=1, ..., k


6. Si dl > seuils alors choisir em sinon choisir aleatoirement un des kclassifieurs pour lesquels dl < seuilr

L’etape 3 permet d’eliminer dans le processus de selection les classifieurs quiproduisent une performance plus faible que le seuil de rejet pre-defini. L’etape5 calcule la difference entre les performances des classifieurs afin d’evaluerla fiabilite de la selection du classifieur em. Si toutes les differences sontsuperieures au seuil de selection alors le classifieur em est raisonnablementfiable pour classer correctement la forme x. Sinon, une selection aleatoireparmi les classifieurs est realisee. Bien que cette methode de selection dy-namique (a priori et a posteriori) ait donne des resultats meilleurs que cha-cun des classifieurs et meme que le vote majoritaire, elle reste neanmoinsdependante du choix de deux seuils (rejet et selection).

1.7.2.2 Selection par ponderation

La selection par ponderation consiste a utiliser un module enseignanten tant que selecteur dont le role est d’attribuer des poids aux classifieurs(le poids le plus eleve au meilleur classifieur) [Xiao00 , Jacobs91, Ham92,Lee95]. Ce selecteur est generalement de type reseau de neurones. L’approchede selection par ponderation la plus utilisee est la mixture d’experts. Celle-ci se base sur le principe ”diviser et conquerir” [Jordan and Jacobs, 1994,Waterhouse and Robinson, 1994]. Diviser concerne la distribution de la based’apprentissage sur les classifieurs disponibles. Conquerir concerne la competitionentre les classifieurs. Chacun veut etre selectionne pour donner la decisionfinale. Cette approche est utilisee pour la conception des systemes de combi-naison bases sur la selection des reseaux de neurones. Elle est aussi utiliseeavec d’autres types de classifieurs comme les modeles gaussiens par exemple[Jordan and Xu, 1995].

Comme les techniques precedentes de selection dynamique, l’approchemixture des experts depend des donnees d’apprentissage. Cependant, ellene peut pas etre appliquee avec une grande base de donnees puisque celaaugmente la complexite de son architecture. D’autre part, cette approchenecessite une conception supplementaire du selecteur dont le role est primor-dial dans la selection.

Jacobs et al. [Jacobs et al., 1991] presentent une approche adaptative dela mixture des experts. Les experts locaux sont des reseaux de neurones.Chacun d’eux est entraine sur une partie independante de la base d’appren-tissage. Un autre reseau de neurones appele gating network est utilise comme


un selecteur dynamique permettant de choisir l’un des experts pour emettrela decision finale. La figure 1.6 montre un exemple de ce systeme avec troisclassifieurs.

Fig. 1.6 – Schema de mixture adaptative des experts [Jacobs et al., 1991]

Le reseau selecteur recoit la meme forme d’entree que les autres experts.Il fournit en sortie une probabilite de selection pj pour chaque expert ej. Sion considere wj, le poids propose par le reseau selecteur a cet expert, alorsla probabilite pj est calculee comme suit:

pj =expwj

∑Ll=1 expwl

(1.55)

Hampshire et Waibel [Hamsshire and Waibel, 1992] proposent une archi-tecture parallele appelee Meta-pi qui consiste a entraıner un reseau selecteurapres avoir fige l’integralite des architectures des experts. Ce reseau a pourmission de choisir parmi les experts celui qui sera le plus apte a classer le vec-teur d’entree presente a tous les reseaux. Pour avoir un maximum d’efficacite,le selecteur doit faire un minimum d’erreur car sa decision est preponderante.En d’autres termes, les experts font une classification grossiere du vecteur


d’entree que le selecteur va affiner.

La methode de selection propose par Lee et al. [Lee and Srihari, 1995] sebase sur cette meme architecture. Les caracteristiques extraites de chaqueimage a reconnaıtre sont utilisees en entree du selecteur dynamique dont lerole est d’affecter a chaque classifieur participant une mesure (comprise entre0 et 1) indiquant la confiance qu’il a pour ce classifieur. La reponse finaledu systeme de combinaison est obtenue par une fusion neuronale qui tientcompte des sorties de tous les classifieurs ponderees par les confiances at-tribuees par le selecteur.

Dans [Kurzweil, 1990], un expert est propose pour selectionner les solu-tions des classifieurs qui sont basees sur des valeurs de confiance. Le succesde cette methode depend alors de l’efficacite de ces valeurs de confiance.

Kamel et al. [Kamel and Wanas, 2003] proposent une methode hybridenommee architecture basee sur les caracteristiques qui utilise la selection etla fusion. La selection est realisee par un detecteur qui recoit les sorties desclassifieurs ainsi que le vecteur de caracteristiques de la forme a reconnaıtreet genere des poids pour les differents classifieurs. Ces poids refletent laconfiance accordee a chaque classifieur. Ils sont utilises ensuite dans le mo-dule de fusion pour produire la decision finale. Cette methode est donc uneextension de celle proposee par Jacobs. La seule difference est que la decisionfinale n’est pas obtenue par un seul classifieur mais par la combinaison deplusieurs. Empiriquement, il est montre que cette methode fonctionne mieuxque les methodes de fusion (avec et sans apprentissage).

1.7.3 Conclusion

L’expose que nous venons de faire des methodes qui permettent de selectionnerle meilleur sous-ensemble de classifieurs montre que la configuration d’unsysteme de selection depend essentiellement de la facon dont on exploiteles classifieurs (statique ou dynamique). De plus, le fait qu’on dispose ou pasd’une base de validation (en plus de la base de test) ou d’un module de gatinginfluera sur le choix de la configuration. Le tableau 1.6 resume les approchesque nous avons presentees. Il ressort cependant de cette etude qu’il n’existepas une meilleure methode et que l’utilisation de chacune reste dependantedu probleme a traiter.

1.7

.Sele

cti

on

de

cla

ssifi

eurs

75

Methodes de selection statique Commentaires ReferencesSurproduire et choisir utilise les methodes de creation d’ensembles [Sharkey et al., 2000]

pour surproduire et les performances des classifieurs [Aksela, 2003]et/ou la diversite pour choisir

Regrouper et extraire utilise un algorithme de clustering pour regrouper [Giacinto et al., 2000a][Kuncheva et al., 2000]

Rechercher et selectionner utilise un algorithme de recherche pour explorer [Hao et al., 2003]les solutions realisables et selectionner un [Banfield et al., 2003]optimum en se basant sur un certain critere [Partridge and Yates, 1996]

Methodes de selection dynamiqueSelection locale se base sur la division de l’espace de [Ho, 1992]

caracteristiques en regions et selection du meilleur [Woods et al., 1997]sous ensemble pour chaque region [Gunes, 2001]

Selection par ponderation utilise un module de selection dont le role est d’attribuer [Jacobs et al., 1991]des poids aux classifieurs [Kamel and Wanas, 2003]

[Lee and Srihari, 1995]

Tab. 1.6 – Methodes de selection de classifieurs


1.8 Conclusion

Dans ce chapitre, nous avons presente un etat de l’art sur la combinai-son parallele de classifieurs. Nous avons defini ce qu’est un classifieur dans lecadre de la combinaison. Nous avons ensuite presente les strategies de com-binaison possibles qui se differencient essentiellement par l’agencement desclassifieurs. Nous avons presente ensuite l’avantage de l’approche parallelepour la combinaison de classifieurs qui est celle que nous avons choisie pourla suite de nos travaux. Une telle approche se base sur des methodes decombinaison specifiques qui different essentiellement par leur capacite d’ap-prentissage et le type de sortie des classifieurs. Nous avons tente de montrerl’etendue de ces methodes de combinaison (basees aussi bien sur la fusionque la selection). Cependant, nous devons nous rendre a l’evidence qu’ellesne sont pas toutes de meme qualite. Tout comme il est difficile de prouverque tel classifieur est meilleur que tel autre pour tout probleme de classifica-tion, il n’est pas aise non plus de prouver que telle methode de combinaisonconvient mieux que telle autre pour tout probleme de reconnaissance.

Generalement, les methodes de combinaison sont appliquees sur des donneesreelles. Par consequent, les resultats obtenus restent etroitement lies a cesdonnees et donc difficiles a generaliser pour d’autres applications. Par opposi-tion, le nombre d’etudes theoriques [Lam and Suen, 1994, Kittler et al., 1998]qui traitent de la combinaison d’un point de vue general, sans s’attacher aune application particuliere, ni aux types de sorties des classifieurs, reste tresfaible. Bien qu’ils abordent les vrais problemes de combinaison, ils utilisentdes hypotheses rarement verifiees.

Il est donc clair que la diversite des travaux sur la combinaison n’a paspermis d’avoir une approche generale qui traite le probleme de la combinai-son de maniere satisfaisante dans tous les cas de figure. La mise en oeuvred’une telle approche n’ira pas sans poser une question fondamentale: Com-ment et en fonction de quels criteres evaluer la robustesse d’une methodede combinaison donnee sur des applications differentes? Le chapitre suivanttraite ce probleme et presente en particulier un etat de l’art sur l’evaluationdu comportement des methodes de combinaison parallele.

Chapitre 2. Evaluation de performances des methodes de combinaison 77

Chapitre 2

Evaluation de performances desmethodes de combinaison

Ce chapitre concerne le probleme de l’evaluation des performances desmethodes de combinaison parallele de classifieurs. Nous discutons, tout d’abord,du probleme de l’evaluation des performances d’un systeme de reconnais-sance. Nous presentons ensuite une analyse critique des travaux qui ontaborde ce probleme dans le cas des methodes de combinaison parallele, entheorie et en pratique. Nous discutons ensuite de la necessite, pour evaluerde maniere plus robuste le comportement des methodes de combinaison, dedisposer d’une grande variete de performances dans les classifieurs a combi-ner. La simulation de donnees permet entre autres de repondre a ce probleme.

78Chapitre 2. Evaluation de performances des methodes de combinaison

2.1 Introduction

Recemment, la combinaison parallele de classifieurs a ete proposee commeune voie de recherche permettant de fiabiliser la reconnaissance en utilisantla complementarite qui peut exister entre les classifieurs. Sur ce point, nousavons vu dans le chapitre precedent que la litterature abonde de travauxpresentant une variete de schemas de combinaison qui different principale-ment par leur capacite d’apprentissage et le type de sortie des classifieurs[Xu92, Jain00, Zouari02]. Toutefois, le choix de ces methodes ne suit a prioriaucune regle precise, et depend etroitement de l’application que l’on veuttraiter, de la facon dont on veut la traiter et des outils disponibles (basesde donnees, classifieurs et regles de combinaison). En fait, pour un problemede classification quelconque et en utilisant un ensemble de classifieurs ayantdes performances intrinseques differentes et une base de donnees specifique,nous pouvons trouver une methode de combinaison qui permet de donner lemeilleur resultat. Si on change de probleme (par exemple, en changeant debase de donnees ou en changeant les classifieurs a combiner), nous ne pou-vons pas garantir que la methode choisie reste la meilleure. Par consequent,les travaux actuels restent difficile a generaliser en dehors d’un domaine ap-plicatif donne. Ce qui explique bien les limites des systemes developpes dupoint de vue performance pour traiter d’autres applications plus complexes.

Par opposition aux travaux experimentaux, le nombre d’etudes analy-tiques validees sur des problemes synthetiques reste tres faible [Lam97b,Parker00, Srihari82]. Ces etudes analysent le comportement des methodesde combinaison les plus simples et les moins exigeantes (pas d’informationssupplementaires sur le comportement des classifieurs, pas d’apprentissage).Cette evaluation se fait dans le cadre de problemes souvent tres particuliersc’est-a-dire avec le meme nombre de classifieurs, meme nombre de classes oumeme taux de reconnaissance pour tous les classifieurs. Meme si les resultatsobtenus sont interessants, ils restent lies a des hypotheses rarement verifieesen pratique ou se basent sur des mesures calculees de maniere ad hoc commeles mesures de correlation entre les sorties des classifieurs.

Le probleme actuel n’est alors plus de savoir si les methodes de combinai-son pourront ameliorer les resultats de l’application traitee, mais de chercherdans quels cas leur emploi est necessaire. Pour resoudre ce probleme, il fautanalyser le comportement des methodes de combinaison. Pour savoir com-ment, il semble interessant de passer en revue les travaux qui ont tente d’ap-porter des explications theoriques et experimentales a ce sujet. Cela constituel’aspect fondamental que nous abordons dans le present chapitre.

2.2. Performances d’un classifieur 79

Dans ce chapitre, nous discutons tout d’abord du probleme de l’evaluationdes performances d’un systeme de classification. Dans la seconde partie,nous presentons les principaux travaux existants qui ont aborde le problemede l’evaluation du comportement des methodes de combinaison en theorieet en pratique. Nous montrons la difficulte d’etablir des resultats generauxindependamment du domaine applicatif vise. Pour contourner ce problemede l’evaluation des methodes de combinaison, la simulation de donnees ar-tificielles semble justement etre la voie la plus prometteuse. Nous discutonsdonc du probleme de la simulation de donnees et des travaux qui ont utiliseun simulateur de classifieur pour evaluer les methodes de combinaison dansla troisieme partie de ce chapitre.

2.2 Performances d’un classifieur

L’evaluation des performances d’un classifieur est une phase importantedans le processus de sa conception et de sa mise en oeuvre dans la mesure ouelle permet de savoir si le systeme est suffisamment performant pour l’applica-tion visee. Elle permet aussi de le comparer avec d’autres systemes. Elle peutetre theorique ou empirique. L’evaluation theorique permet de caracteriserla performance en se basant sur des hypotheses specifiees. Cette approches’avere souvent tres difficile a realiser. L’evaluation empirique consiste a tes-ter la performance en utilisant des donnees reelles ou artificielles genereespar le systeme.

Une qualite importante d’un classifieur est d’etre capable de generaliserc’est-a-dire de pouvoir fonctionner correctement sur des donnees qu’il n’a pasapprises. Il est evident que ces donnees ne doivent pas etre les memes quecelles sur lesquelles l’apprentissage a ete effectue. Le besoin de generalisationexplique bien pourquoi le fait d’utiliser la meme base est a eviter.

Le plus souvent, on utilise la methode hold-out qui consiste a diviser lesdonnees de depart en deux parties, une pour l’apprentissage et l’autre ser-vant a tester ou evaluer la performance du classifieur. Dans le cas ou lesdonnees sont limitees, on peut obtenir des bases differentes en utilisant l’unedes methodes suivantes:

– La methode tout-sauf-un leave-one-out [Lachenbruch68] realise autantd’essais qu’il y a de formes disponibles au depart. Si la base contient


M formes alors on teste chacune des M formes en ayant effectue l’ap-prentissage sur les (M-1) restantes.

– La methode de validation croisee cross-validation [Wolpert92,Twomey95]procede au decoupage de la base de depart en M sous-bases d’effectifegal. On effectue alors M essais en utilisant a chaque fois (M-1) sous-bases pour l’apprentissage, et la sous-base restante pour le test.

Disposant d’une base de test obtenue par l’une de ces methodes, onprocede generalement a l’evaluation du comportement d’un classifieur a par-tir de certaines mesures qui peuvent etre globales, semi-globales et/ou locales.

2.2.1 Performances globales

La mesure globale classique, la plus utilisee pour evaluer la performanced’un classifieur, est le taux de reconnaissance (TL). Un taux de reconnais-sance se calcule sur des decisions de type classe: on compte les bonnes decisionset les mauvaises decisions. Un taux de reconnaissance ne peut donc avoir desens que vis-a-vis d’une taxonomie exclusive c’est-a-dire lorsqu’une forme nepeut appartenir qu’a une seule classe (sinon, il faudrait definir un taux dereconnaissance flou). Sous cette hypothese, il existe donc une ”verite” (in-connue, qu’on va chercher a approcher par un classifieur reel) c’est-a-dire unefonction h(x) qui a tout x associe la vraie classe:

h(x) → Cvraie (2.1)

Cette verite ne pourra etre fournie que par l’utilisateur d’ou la necessite debases etiquetees.

Un classifieur reel e(x) est un estimateur de h(x). On a une erreur d’es-timation quand e(x)-h(x)6=0. Evaluer les performances d’un classifieur c’estevaluer des parametres permettant de caracteriser cette erreur d’estimation.Les parametres les plus utilises sont sa moyenne C=Ee(x) - h(x) et sa va-riance E(e(x) − h(x) − C)2.

En reconnaissance de formes, les taux de reconnaissance (TL), de confu-sion (TC) et de rejet (TR) correspondent a des estimateurs classiques de lamoyenne C sur une base de test. Ils sont definis par:

TL =nombre d’entites bien reconnues

Nombre total d’entites presentees au classifieur(2.2)


TC =nombre d’entites mal reconnues


TR =nombre d’entites rejetees


Le taux de confusion est lie au taux de reconnaissance (TL) et au tauxde rejet (TR) par la relation (2.5)

TR + TL + TC = 100% (2.5)

Ces mesures peuvent etre utilisees pour calculer d’autres mesures per-mettant d’evaluer les performances comme par exemple la fiabilite [Huang95,Lam97a]. Ce critere, qui n’est pas souvent utilise, consiste a mesurer la fia-bilite de la reponse du classifieur. Generalement, le taux de fiabilite (TF)correspond au nombre d’entites reconnues par rapport au nombre d’entitesnon rejetees (2.6).

TF =TL

100 − TR(2.6)

Ces differents taux peuvent etre definis pour differentes positions des solu-tions dans la liste fournie par le classifieur. On peut alors evaluer le classifieuren mesurant sa capacite a fournir la bonne solution suivant qu’elle est pro-posee en premier choix ou qu’elle se trouve dans les k premiers choix. Lorsquela solution est proposee en premier choix, les mesures du type TL1,TC1,TR1

sont utilisees. Lorsque la solution est proposee dans les deux premiers choix,les mesures TL2,TC2,TR2 sont calculees. De facon generale, si la bonne solu-tion est proposee dans les k premiers choix, les mesures globales TLk,TCk,TRk

sont a determiner. TLk est le rapport du nombre d’entites pour lesquelles labonne classe apparaıt dans les k premieres solutions par rapport au nombretotal d’entites presentees au systeme. TCk est le rapport entre le nombred’entites pour lesquelles la bonne classe n’apparaıt pas dans les k premieressolutions et le nombre total d’entites presentees. TRk est le taux d’entitesrejetees.

2.2.2 Performances semi-globales

Une analyse plus precise du comportement du classifieur peut etre ob-tenue par des matrices de performances semi-globales. La matrice de per-


formances semi-globales n’est qu’une representation quantitative des per-formances globales de chaque classifieur en reconnaissance et en rejet pourchacune des classes. Elle peut etre determinee par la matrice MAT presenteecomme suit :

MAT =

TL11 TL2

1 . . . TLN1 TR1

......

. . ....

...TL1

i TL2i . . . TLN

i TRi...

.... . .

......

TL1N TL2

N . . . TLNN TRN

(2.7)

TLki correspond au nombre d’entites de la classe Ci pour lesquelles la

bonne solution est placee dans les k premieres propositions rapporte aunombre total d’entites de la classe Ci (i,k ∈ [1, N]). TRi est le nombre d’en-tites de la chaque classe Ci rejetees.

La matrice MAT contient en fait des taux de reconnaissance cumules.Par exemple, TL2

1 n’est que le pourcentage d’entites dont la bonne solutionse trouve dans les deux premieres propositions (en premiere ou en deuxieme).En d’autres termes, TL2

1=TL11 + le pourcentage d’entites qui se trouvent en

2ieme position.

A partir de la matrice de performance semi-globale MAT, il est aise d’ob-tenir les mesures de performances globales d’un classifieur.

TLk =1

N

N∑

i=1

TLki (2.8)

TRk =1

N

N∑

i=1

TRi (2.9)

2.2.3 Performances locales

Une analyse encore plus fine du comportement du classifieur peut etre ob-tenue par des mesures locales comme les matrices de confusion. Generalement,on peut definir ces matrices pour differentes positions des solutions dansla liste fournie par le classifieur. Lorsqu’on s’interesse a la bonne solutionproposee en premier choix, la matrice de type MC1 est utilisee. Lorsqu’on


s’interesse a la bonne solution proposee dans les deux premiers choix, la ma-trice MC2 est calculee. De facon generale, si la bonne solution est proposeedans les k premiers choix, la matrice MCk est a determiner. Cette matricen’est qu’une representation quantitative de la performance de chaque classi-fieur ej en reconnaissance et en erreur pour chacune des classes et chacunedes propositions.

MCk =

TLk1 . . . TCk

1j . . . TCk1N−1 TR1

.... . .

.... . .

......

TCki1 . . . TLk

i . . . TCkiN−1 TRi

.... . .

.... . .

......

TCkN1 . . . TCk

Nj . . . TLkN TRN

(2.10)

Chaque matrice MCk est composee de N lignes et N+1 colonnes avec Nle nombre de classes. Les elements de la diagonale sont les taux de recon-naissance TLk

i qui correspondent au nombre d’entites de la classe Ci pourlesquelles la bonne solution apparaıt dans les k premieres propositions. Lamoyenne de ces taux donne le taux de reconnaissance global TLk. La dernierecolonne N+1 est reservee aux taux de rejet TRi qui correspondent au nombred’entites rejetees pour chaque classe Ci. La moyenne de ces taux est TR.Les elements restants sont les taux de confusion TCk

ij qui correspondent aunombre d’entites etiquetees Ci pour lesquelles la solution Cj (j6=i) apparaıtdans les k premieres solutions.

Si on note ni le nombre total d’elements a reconnaıtre pour la classe Ci,on peut passer d’une matrice de pourcentage MCk a une matrice d’effectifsMNk en divisant les elements de chaque ligne i de la matrice MCk par ni.

MNk =

nk11 . . . nk

1j . . . nk1N n1N+1

.... . .

.... . .

......

nki1 . . . nk

ij . . . nkiN niN+1

.... . .

.... . .

......

nkN1 . . . nk

Nj . . . nkNN nNN+1

(2.11)

Chaque element nkij de cette matrice represente le nombre d’entites pour

lesquelles la classe Cj apparaıt dans les k premieres solutions sachant que lavraie classe est Ci, i,j ∈ [1,N]. niN+1 correspond au nombre d’entites rejeteespour chaque classe Ci. Les elements de chaque ligne de la matrice MN k

doivent respecter la formule generale 2.12 puisque la solution rejet prend une


seule etiquette.N∑

j=1

nkij + k ∗ nk

iN+1 = k ∗ ni (2.12)

Ainsi pour k=1, ni =∑N+1

j=1 n1ij. Si on presente 1000 elements a reconnaıtre

pour chaque classe, on peut avoir par exemple pour la classe 1 de la matriceMN1 (2.13), 90% de 1 et 10% de rejet en premiere proposition.

MN1 =

1000 0 0 00 900 0 1000 0 800 200

(2.13)

Dans MN2 (2.14), on peut avoir pour la classe 0, 100% de 0 et 100% de 2dans les deux premieres propositions. Pour la classe 1, on peut avoir 90% de0, 90% de 1 et 10% de rejet (puisque le rejet prend une seule etiquette) dansles deux premieres propositions.

MN2 =

1000 0 1000 0900 900 0 100500 700 800 0

(2.14)

Notons que MCk ne peut etre formellement appelee matrice de confusionque pour k=1. Pour k entre 2 et N, il serait plus rigoureux de l’appeler ma-trice de co-presence.

Au moyen de la matrice MCk, il est aise d’obtenir les mesures des per-formances semi-globales d’un classifieur.

TLki =

nkii

kni(2.15)

TRi =nk

iN+1

kni(2.16)

A partir des performances locales, on peut bien evidemment recalculerles performances globales.

TLk =

∑Ni=1 nk

ii∑N

i=1 kni

(2.17)

TRk =

∑Ni=1 nk

iN+1∑N

i=1 kni

(2.18)


TCk =

∑Ni=1

∑Nj=1,j 6=i n

kij

∑Ni=1 kni

(2.19)

Calculees a partir des bases de test, les matrices de performances localespeuvent servir dans le cadre de la combinaison de classifieurs. En effet, Xuet al. [Xu et al., 1992] et plus recemment Parker [Parker, 2001], ont proposed’utiliser les informations des matrices de confusion pour determiner les pro-babilites a priori (parametres de ponderation) servant a la combinaison.

Notons egalement que le fait de caracteriser un classifieur par des me-sures de plus en plus fines, permet d’avoir une connaissance plus precise surson comportement. Cependant, le nombre de parametres a calculer devientplus important. Par exemple, pour analyser globalement le comportementd’un classifieur, on peut utiliser 3 parametres (TLk, TCk et TRk). Pourune analyse semi-globale, on doit raisonner sur un ensemble de N*(N+1) pa-rametres. Alors que pour une analyse locale, il faut raisonner sur un ensemblede N2 ∗ (N + 1) parametres.

2.2.4 Conclusion

Le choix des mesures globales, semi-globales ou locales est un point es-sentiel pour l’evaluation des performances d’un classifieur. Generalement,les travaux de recherche utilisent les mesures de performance que nous avonspresentees precedemment [Auger, 1993, Rahman and Fairhurst, 2000, Huang et al., 1995].Cependant, ce choix depend du but de l’evaluation et des resultats que leschercheurs veulent obtenir, notamment des contraintes des applications atraiter. Il peut donc varier d’une application a une autre.

D’apres certains chercheurs, un systeme de reconnaissance est performant,s’il presente un bon compromis temps de reponse/ taux d’erreur [Ji and Ma, 1997]ou temps de reponse/ taille d’apprentissage par classe [Skurichina and Duin, 2000b,Tax et al., 2000, Drucker et al., 1994]. Il existe donc des systemes ou les me-sures que nous avons presentees ne semblent pas suffisantes pour les evaluer.Dans [Pereira, 1999] par exemple, l’auteur utilise deux mesures specifiquesafin d’evaluer un systeme de lecture automatique de cheques : le gain de pro-ductivite (le rapport entre le nombre de cheques que le systeme de lecturepeut traiter sans recourir a une saisie manuelle du cheque sur le nombre totalde cheques) et le debit (nombre de cheques traites par heure).

Nous proposons maintenant de passer en revue les travaux permettant de


savoir comment les chercheurs du domaine ont evalue le comportement desmethodes de combinaison qu’ils ont utilisees et en fonction de quels criteres.

2.3 Comportement des methodes de combi-

naison

L’evaluation de performances des methodes de combinaison a eu un interetconsiderable ces dernieres annees. L’analyse bibliographique de ce domainenous a permis de constater l’existence de plusieurs facteurs qui peuvent in-fluer sur le comportement des methodes de combinaison. Ces facteurs sontlies directement aux classifieurs a utiliser et aux problemes de classificationa traiter. Les principaux facteurs sont:

– nombre de classes

– nombre de classifieurs

– performances des classifieurs (taux de reconnaissance, d’erreur, de re-jet)

– nature des caracteristiques, dimension de l’espace de caracteristiques

– niveau de diversite entre les classifieurs

– taille des bases d’apprentissage, de test et d’evaluation

Analyser le comportement d’une methode de combinaison consiste alors aetudier comment elle reagit en fonction de tels facteurs: par exemple, savoircomment se comporte une methode de combinaison lorsque les classifieursont des performances differentes, ou lorsqu’ils ont la meme performance.Comment reagit-elle si les classifieurs sont dependants/independants ? Estce qu’une methode se comporte de la meme maniere lorsque le nombre declasses augmente? Comment se comporte-t-elle lorsque le nombre de classi-fieurs augmente ou lorsqu’on ajoute ou on elimine un classifieur de l’ensembleexistant?

Dans ce qui suit, nous examinons les principales contributions des tra-vaux existants, du point de vue theorique et experimental, sur l’evaluationdes methodes de combinaison parallele de classifieurs. Nous presentons cescontributions en fonction des facteurs cites precedemment.

2.3.1 Influence des performances des classifieurs

C’est surtout en fonction des performances des classifieurs (taux d’er-reurs et de reconnaissance en particulier) que les chercheurs ont analyse lecomportement des methodes de combinaison.

2.3. Comportement des methodes de combinaison 87

Dans [Kittler et al., 1998] par exemple, il est montre theoriquement quela regle de somme est la plus resistante a la mauvaise estimation des er-reurs des classifieurs independants. Une comparaison experimentale entre lesdifferentes regles (somme, produit, maximum, minimum, mediane et vote ala majorite) a ete aussi menee sur une base de chiffres manuscrits pour confir-mer le resultat theorique obtenu. En effet, avec 4 classifieurs independants(utilisant des caracteristiques distinctes), il est constate la superiorite de lasomme sur les autres regles. La mediane et le vote a la majorite donnentdes performances proches de la somme. Alors que le produit et le minimumdonnent de mauvaises performances (inferieures meme aux performances dechacun des classifieurs). En effet, ces deux regles sont sensibles aux erreursproduites par les classifieurs. Il suffit qu’au moins l’un des classifieurs proposedes probabilites faibles (proches de 0) pour que le resultat de la combinaisonsoit proche de 0 (il s’agit du probleme de veto).

Une comparaison des memes regles a ete aussi realisee en fonction duniveau de bruit dans [Alkoot and Kittler, 1999]. En particulier, cette etudea ete menee pour deux problemes a 2 et a 3 classes et des ensembles de 3et de 8 classifieurs independants. Afin d’evaluer la sensibilite des regles decombinaison au bruit, deux generateurs de bruit ont ete utilises: uniformeet gaussien. Les bruits generes respectent une moyenne nulle et une variance(note b pour la distribution uniforme et σ pour la distribution gaussienne)variant entre 0.1 et 1. Il est montre que la performance des regles considereesdepend du niveau de bruit. Dans le cas de bruit uniforme et pour b≤ 0.1 cesont le produit et le minimum qui donnent les meilleures performances alorsque dans le cas contraire c’est la somme qui devient plus performante. L’aug-mentation du nombre de classifieurs n’a pas d’effet sur ces performances. Pourla combinaison de classifieurs affectes par un bruit gaussien, les regles sontsimilaires si σ ≤ 0.4. Au dela de cette valeur, le produit, le minimum et lemaximum donnent de mauvais resultats (inferieure a la moyenne des erreursdes classifieurs). A la presence d’un classifieur qui contrarie tous les autresdans l’ensemble, toutes les performances des regles se degradent. La sommeet la mediane sont generalement stables mais ce sont les autres regles quisont plus sensibles a l’introduction de la mauvaise performance. Le vote ala majorite est similaire a la somme avec 3 classifieurs. Sa performance estcomprise entre celle de la somme et du produit quand le nombre de classi-fieurs augmente. En resume, la somme et la mediane sont les deux meilleuresregles (dont les performances sont superieures a celles des classifieurs). Ce-pendant, l’utilisation d’un seul classifieur est preferable a une combinaisontype produit, minimum et maximum quand σ ≥ 0.5 (cas du bruit gaussien).


Kuncheva [Kuncheva, 2000b] a compare aussi les regles fixes (la moyenne,le minimum, le maximum, la mediane et le vote a la majorite). Dans le cadretheorique, l’auteur a calcule l’erreur de chacune de ces regles sous les hy-potheses suivantes: (1) tous les L classifieurs sont independents (chacun aune performance p ≥ 0.5); (2) dans un probleme a 2 classes, chaque classi-fieur produit une seule solution pour chaque forme x a reconnaıtre; (3) deuxdistributions sont considerees: distribution normale et distribution uniforme.Les principales conclusions de l’etude experimentale (menee dans les memesconditions que l’etude de [Alkoot and Kittler, 1999]) montrent que : (1) lamoyenne, la mediane et le vote ont des performances similaires avec la dis-tibution normale des erreurs mais pour la distribution uniforme, elles sontdifferentes surtout lorsque le nombre de classifieurs augmente (la moyenneest plus performante dans ce cas); (2) contrairement aux etudes existantes, lemaximum et le minimum ont donne les meilleures performances par rapporta toutes les autres methodes dans le cas de distribution uniforme. L’auteurmentionne que le calcul de l’erreur theorique dans le cas de distribution nor-male est tres difficile a obtenir.

Si dans les travaux que nous venons de citer [Kittler et al., 1998, Alkoot and Kittler, 1999],il est montre que la somme est le meilleur choix par rapport au vote a la ma-jorite, dans [Duin00] il est montre que le vote a la majorite se comportemieux que la regle de somme. Afin de lever ce conflit, le comportementde ces deux regles a ete recemment etudie pour des problemes a 2 classesdans [Kittler and Alkoot, 2003]. La contribution principale de cette etudeconsiste a montrer que la performance des regles de somme et du vote ala majorite depend de la distribution des erreurs des classifieurs. L’etudetheorique montre que lorsque la distribution des erreurs est gaussienne (nor-male), c’est la somme qui est toujours meilleure que le vote. Alors que levote peut se comporter mieux que la somme si les erreurs sont distribuees demaniere plus significative dans certaines regions que d’autres (distribution detype ”heavy tail”). Cependant, ces conclusions sont obtenues sous deux hy-potheses: independance des classifieurs et distribution identique des erreurs.En pratique, aucune de ces hypotheses ne peut etre verifiee. Le fait de nepas avoir des classifieurs independants fait que les resultats obtenus sur desdonnees reelles ne coincident pas tout a fait avec la contribution theorique.

Fumera et Roli [Fumera and Roli, 2002] ont etudie l’influence de la differencedes taux d’erreurs sur la moyenne simple. Cette etude a ete conduite en pa-rallele avec la moyenne ponderee afin de savoir laquelle des deux methodes


est la plus performante. Elle se base sur deux hypotheses:

1. pour chaque classifieur, l’erreur estimee pour differentes classes est lameme,

2. les erreurs des classifieurs pour une meme classe sont correlees.

Le principal resultat de cette analyse theorique est que la moyenne pondereeest preferable a la moyenne simple seulement pour des ensembles de classi-fieurs exhibant des performances tres differentes c’est-a-dire que la differenceentre la performance du meilleur classifieur et tous les autres classifieursdoit etre elevee (cas ou p1 = p2 = ... = pL−1 < pL, le classifieur L etant lemeilleur). Cette etude est en accord avec l’analyse experimentale qui a montrequ’avec des classifieurs ayant des performances differentes, la moyenne pondereeest plus interessante que la moyenne simple. Cette idee a ete aussi valideepour les systemes d’identification de personnes (reconnaissance de la parole etdu visage) [Roli and Fumera, 2002]. Avec ces systemes, les classifieurs pro-duisent toujours des performances differentes. C’est dans ce cadre que lacomparaison des regles de combinaison a ete realisee. En particulier, le votea la majorite, la moyenne simple, le maximum, le minimum et la medianeont ete utilisees comme regles fixes, la moyenne ponderee et BKS commeregles parametriques. Les resultats ont montre que les regles fixes donnentde bonnes performances seulement avec des classifieurs ayant des erreurstres proches. A propos des methodes parametriques, la moyenne pondereeest superieure a la methode BKS. Les performances de ces deux methodessont meilleures que celles produites par les regles fixes lorsque les classifieurscombines produisent des performances differentes. Cependant, elles utilisentdes poids optimaux trouves par une recherche exhaustive sur la base de test.Etant difficile d’estimer ces poids, les chercheurs suggerent l’utilisation de lamediane ou le vote a la majorite a la place des methodes parametriques pourla combinaison de classifieurs de performances differentes.

Une autre etude theorique a ete menee par Fumera et Roli [Fumera and Roli, 2004]qui analysent la relation entre taux de rejet et taux d’erreur de la moyennesimple sous la condition que les erreurs des classifieurs sont non correlees.En effet, cette etude n’est qu’une extension des travaux de Tumer et Ghosh[Tumer and Ghosh, 1996a, Tumer and Ghosh, 1999] qui ont etudie le com-portement de la moyenne simple sans l’option de rejet et qui ont prouve quemoins les classifieurs sont correles, plus la performance de la moyenne estelevee. Fumera et Roli ont montre que ce resultat est vrai meme lorsque l’op-tion du rejet est utilisee (par la moyenne simple). Ils montrent aussi que lemeilleur compromis erreur-rejet est obtenu seulement avec les classifieurs quine rejettent pas mais qui ont les memes performances. Cela permet de dire


que meme si l’option du rejet est utilisee, le comportement de la moyennene depend que des performances des classifieurs (produisant des erreurs noncorrelees). Une comparaison avec la moyenne ponderee sur des bases reellesdifferentes a confirme ce constat.

Lin et al. [Lin et al., 2003] ont etudie sur des donnees simulees le compor-tement du vote a la pluralite en fonction des performances des classifieurs.En combinant des classifieurs ayant le meme taux de reconnaissance (p > 1

N

ou N est le nombre de classes), les resultats ont montre que la performancedu vote a la pluralite s’approche de 1 avec un grand nombre de classifieurs.Quand p> 1

N, le taux de reconnaissanc du vote a la pluralite croit propor-

tionellement au nombre de classes. En effet, avec plus de classes, les erreursdes classifieurs sont differentes et la chance d’avoir une reponse erronee avecle maximum de votes diminue. Dans le cas ou les classifieurs ont des per-formances differentes, le comportement du vote a la pluralite reste difficile aanalyser. Cependant, dans le cas extreme, s’il existe dans l’ensemble un clas-sifieur plus performant que les autres alors la decision finale est dominee parce classifieur et l’addition d’autres classifieurs n’ameliore pas la performancede la combinaison.

Dans [Van-Erp and Schomaker, 2000], l’influence de l’estimation des er-reurs des rangs sur le comportement des methodes de type rang a ete menee.En particulier, le borda count, la mediane et la procedure de Nanson ontete utilises. Contrairement aux deux premieres methodes, celle de Nansonest iterative. Dans chaque iteration, le rang le plus faible de la combinaisonpar borda est elimine des sorties des classifieurs. L’idee de base de l’etudeest de generer des rangs R0 consideres comme des rangs corrects, simulerles classifieurs en introduisant des erreurs dans R0, et comparer la combi-naison des Ri avec la version initiale des rangs R0. Chaque classifieur a uneerreur independante Pi des rangs Ri tel que Ri = Pi(R0). Deux methodesont ete utilisees pour introduire les erreurs. La premiere consiste a intro-duire des erreurs sur les rangs. A chaque etape, on permute deux classeschoisies aleatoirement. La distance entre ces deux classes est pre-definie. Lenombre d’etapes ne doit pas depasser le nombre de permutations possibles.La deuxieme methode consiste a injecter du bruit dans les confiances desclasses. Il s’agit d’additionner une valeur aleatoire aux differentes confiancesdes classes qui seront reordonnees par la suite. Les resultats ont montre quela procedure de Nanson est moins sensible (par rapport aux deux autresmethodes) aux erreurs introduites au niveau des rangs. En plus, elle exploitemieux l’information des differentes propositions surtout lorsque le nombrede classifieurs augmente. Cependant, en injectant des erreurs au niveau des


confiances, les resultats ont montre la superiorite du borda count sur lesautres methodes. Notons ici que cette etude se base sur l’hypothese que tousles classifieurs proposent des sorties contenant toutes les classes possibles.Le probleme de l’evaluation des methodes de type rang avec des classifieursproposant des listes de solutions non egales reste ouvert.

En passant en revue ces etudes sur l’evaluation du comportement desmethodes de combinaison, on constate qu’il est tres difficile de pouvoir lescomparer et donc de conclure sur la superiorite d’une methode de combinai-son sur une autre. Ceci est du en effet a l’utilisation de conditions differentes(classifieurs differents, hypotheses differentes, nombre de classes, nombre declassifieurs, type de sorties de classifieurs, ...). Meme si certains chercheurs ontessaye de travailler dans le meme cadre que d’autres, tel est le cas de l’etudede [Kuncheva, 2000a] par rapport a [Alkoot and Kittler, 1999], on constatequ’il y a une certaine difference dans les resultats. Bien que ces deux travauxont montre que dans le cadre de la distribution normale des erreurs des clas-sifieurs, la somme, le vote et la mediane se comportent de la meme maniereet que dans le cadre de la distribution uniforme, la somme est meilleure, ilsaboutissent a des resultats differents concernant les regles de minimum et demaximum. En effet, dans [Kuncheva, 2000a] il est prouve que le maximum etle minimum peuvent donner de meilleures performances quelque soit le niveaudu bruit (distibution uniforme). Alors que dans [Alkoot and Kittler, 1999],il est constate qu’a partir d’un certain niveau de bruit, ces deux regles nefonctionnent pas de la meme maniere.

Bien que les problemes a resoudre soient differents, certains auteurs ontabouti aux memes constats. Par exemple, l’etude des regles fixes dans [Alkoot and Kittler, 1999]et dans [Kittler et al., 1998] a montre que la somme est plus resistante auxerreurs des classifieurs que les autres regles considerees et que les regles duproduit et du minimum sont les plus sensibles aux erreurs des classifeurs.

2.3.2 Independance/dependance des classifieurs

Dans la combinaison de classifieurs, plusieurs termes comme orthogo-nalite, complementarite, non-correlation, et independance ont ete souventutilises pour decrire la qualite desiree de la relation entre les classifieurs acombiner. Ces termes indiquent la tendance des classifieurs a produire desdecisions differentes. Cependant, ils manquent de precision et de definition.

L’independance est plus comprehensible puisqu’elle est frequemment uti-lisee dans la theorie des probabilites. On trouve souvent dans la litterature


l’idee intuitive suivante: ”pour combiner des classifieurs, il faut choisir desclassifieurs independants”[Lamy, 1995]. Cette idee, bien que tres repandue,reste tres vague et n’exprime pas clairement ce qu’on entend par independancedans le cadre de la combinaison.

Tout d’abord, il faut distinguer les notions de correlation et de dependance.Ces deux notions ne sont pas identiques. Quand deux variables X et Ysont decorrelees, on peut dire qu’elles n’ont pas de dependance lineaire,mais on ne peut pas dire qu’elles sont independantes puisqu’elles peuventavoir des dependances non lineaires. Mathematiquement, deux variables sontindependantes si et seulement si:

p(X,Y ) = p(X)p(Y ) (2.20)

X et Y sont non correlees si et seulement si

E(X,Y ) = E(X)E(Y ) (2.21)

ou E(.) indique l’esperance mathematique. L’independance de deux va-riables implique leur non correlation mais la reciproque n’est pas vraie.

En realite c’est la difficulte a estimer les probabilites necessaires a la com-binaison qui force les chercheurs a se baser sur l’hypothese d’independance.Generalement, c’est la probabilite representee par p(e1(x), ..., eL(x) / x)(dans la formule de Bayes) qui est difficile a estimer. Pour pouvoir la cal-culer, les chercheurs supposent que les classifieurs sont independants. Ceciest applique surtout dans les travaux theoriques afin d’analyser le comporte-ment des methodes de combinaison. Tandis qu’en pratique, l’independanceentre les classifieurs est supposee satisfaite en utilisant par exemple des ca-racteristiques ou des bases d’apprentissage differentes [Kittler et al., 1998].Cependant, dans les applications reelles, il est tres difficile d’obtenir des clas-sifieurs independants a 100% [Sharkey and Sharkey, 1997b, Giacinto, 1998].

Expliquer comment se comporte une methode de combinaison en fonctionde la correlation des classifieurs, est l’objectif de certains travaux theoriques[Tumer and Ghosh, 1996a, Kittler et al., 1998, Kuncheva, 2000b]. Dans cecadre, on peut citer l’analyse developpee par Tumer et Ghosh [Tumer and Ghosh, 1996c,Tumer and Ghosh, 1996a, Tumer and Ghosh, 1999] qui se focalise en parti-culier sur l’etude de la distribution des probabilites a posteriori produitespar les classifieurs sur la combinaison lineaire. Sous differentes hypotheses(classifieurs neuronaux independants, non biaises et ayant des distributionsd’erreurs identiques), l’erreur de la combinaison basee sur la moyenne est


derivee comme suit:

Emoy =1 + δ(L − 1)

LEclassif (2.22)

Eclassif est l’erreur des classifieurs individuels (erreur identique pour tousles classifieurs). δ est le coefficient de correlation entre les erreurs des clas-sifieurs. Notons que δ = 0 signifie que les erreurs des classifieurs sont noncorrelees. La combinaison dans ce cas donne une erreur reduite par un fac-teur de L. En pratique, δ tend vers 1 plutot que vers 0 en partie a cause dela dependence des donnees d’apprentissage [Tumer and Ghosh, 1996b]. Tu-mer et Ghosh ont montre aussi que les operateurs d’ordre statistiques sontplus flexibles que la moyenne simple [Tumer and Ghosh, 1999]. Alexandre[Alexandre et al., 2000] presente une extension de ce travail et montre queparmi les methodes lineaires, la moyenne est la regle optimale.

Dans [Fumera and Roli, 2002], il est constate que les regles minimum etmaximum n’ameliorent pas la performance des classifieurs quel que soit leurniveau de correlation. C’est le vote a la majorite qui est plus interessant queles toutes les autres regles fixes (moyenne, maximum, minimum et mediane)surtout lorsque les classifieurs sont moins correles. La sensibilite des reglesde vote a la correlation entre les classifieurs a ete confirmee aussi dans[Lecce et al., 2000]. Le principal resultat de ce travail est que les methodesavec apprentissage (Dempster-Shafer et BKS) sont moins sensibles que levote a la pluralite et donc plus utiles pour la combinaison des classifieurscorreles. Cependant, ces methodes necessitent plus de place memoire surtoutpour le BKS. Plus important, cette methode impose une base d’apprentissagede grande taille.

Recemment, Saranli et al. [Saranli and Demirekler, 2001] ont montre theoriquementque l’independance des classifieurs n’est pas une hypothese necessaire pourobtenir une complementarite entre ces classifieurs dans le cadre de la com-binaison de type rang. L’information mutuelle est utilisee pour quantifier lacomplementarite qui peut exister entre les classifieurs. L’independance desclassifieurs n’implique pas une amelioration de performance de leur combi-naison. Le concept de la dominance d’un classifieur dans l’ensemble est plusimportant que celui de l’independance permettant de decrire les conditionsd’amelioration de performance de la combinaison. En effet, pour que la com-binaison ameliore la performance de chacun des classifieurs, il ne faut pasavoir un classifieur dominant dans l’ensemble a combiner.

Dans [Czyz et al., 2004], une etude de l’effet de la correlation des classi-


fieurs sur la performance des methodes de combinaison fixes et parametriquesa ete menee dans le cadre des problemes a 2 classes. Avec une distribu-tion gaussienne des probabilites a posteriori des classifieurs, il est constateque le produit, la somme et le maximum (equivalente au minimum dans lecas des problemes a 2 classes) sont relativement robustes a la correlationmeme si l’un des classifieurs a une performance plus faible que les autres. Lesmethodes fixes ont ete egalement comparees a des methodes parametriques(moyenne ponderee, parzen et classifieur quadratique). La principale conclu-sion est l’equivalence en terme de performances des deux types de methodes(parametriques et fixes). Cependant, les methodes parametriques sont plussensibles a la presence d’un classifieur faible dans l’ensemble.

2.3.3 Influence du nombre de classifieurs

Un probleme interessant qui se pose dans la combinaison de classifieursest la dimension de l’ensemble a combiner: combien de classifieurs faut-ilfusionner pour obtenir une meilleure performance? Ce probleme a ete poseessentiellement pour les methodes de generation de classifieurs, en particulierbagging, boosting et random subspace 1, pour lesquelles le nombre de classi-fieurs est fixe a priori. Pour etudier bagging et boosting, Freund par exemplea utilise 100 classifieurs [Freund96] alors que Breiman en a utilise la moitie[Breiman96b]. Bauer a combine 25 classifieurs [Bauer99] mais Quinlan s’estcontente d’utiliser 10 classifieurs seulement [Quinlan96]. Tous ces choix sontarbitraires et non justifies.Toujours dans le cadre de l’etude des methodes de generation de classifieursdifferents, Gunter et al. [Gunter and Bunke, 2004] ont constate sur une basede mots manuscrits qu’avec plus de 20 classifieurs la performance de baggingne s’ameliore pas, que 14 classifieurs sont suffisants pour boosting, alors quela methode random subspace necessite un nombre plus grand de classifieurs.

L’objectif principal de l’etude de Van-Erp et al. [Van-Erp et al., 2002] estde comparer les methodes de combinaison afin de selectionner celle qui donnele meilleur resultat avec bagging par rapport au vote a la majorite. 17 classi-fieurs de type MLP ayant des performances faibles ont ete generes avec deuxstructures differentes. Les resultats ont montre qu’avec peu de classifieurs,la somme et le produit sont parmi les meilleures methodes. Cependant, avecun grand nombre de classifieurs, le borda count fonctionne mieux. Le vote ala majorite donne de faibles performances par rapport aux autres methodesdue au fait qu’il rejette plus de donnees.

1. nous presentons ces methodes dans le dernier chapitre


En parallele des analyses experimentales, certaines etudes theoriques ontete realisees. L’idee de developper un tel cadre est attractive. Cependant, laspecification de la plupart des methodes de combinaison fait qu’il est diffi-cile d’aboutir a une analyse theorique de leur comportement comme pourles methodes de type rang. Les methodes les plus simples comme le votea la majorite ont permis d’obtenir des resultats significatifs. Ceci est du ala clarte des hypotheses et a la facilite d’appliquer une analyse mathematique.

Srihari [Srihari, 1982], par exemple, presente une analyse theorique dela performance du vote a la majorite (taux de reconnaissance pmaj) pourun probleme a deux classes dans le cas des classifieurs independants et re-dondants (identiques). Le taux de reconnaissance de chaque classifieur, p,est suppose le meme pour tous les classifieurs. Lorsque les classifieurs sontindependants, la regle du vote a la majorite peut etre ecrite sous la formebinomiale:

pmaj =L∑

j=bL2+1c

(

Lj

)

pj(1 − p)L−j (2.23)

Pour un nombre L impair de classifieurs independants et L ≥ 3, les conclu-sions suivantes ont ete obtenues:

p > 0.5 ⇒ pmaj → 1 lorsque L → ∞ (2.24)

p < 0.5 ⇒ pmaj → 0 lorsque L → ∞ (2.25)

p = 0.5 ⇒ pmaj = 0.5 pour tout L (2.26)

La constatation (2.24) a ete confirmee aussi dans [Hansen and Salamon, 1990]avec des classifieurs de type neuronal. Dans ce travail Hansen et al. ontmontre que si des reseaux de neurones independants sont combines par votea la majorite et que chacun produit un taux de reconnaissance superieur a50% alors l’addition de nouveaux reseaux ameliore la performance de l’en-semble.

Lam et al. [Lam and Suen, 1997] ont examine aussi le mode de fonctionne-ment du vote a la majorite quand les classifieurs sont independants. Ils ontmontre que la combinaison de classifieurs, independants et ayant le memetaux de reconnaissance superieur a 0.5, garantit une meilleure performancepar rapport a chacun des classifieurs. Ils ont montre aussi que la combinaison


d’un nombre pair de classifieurs produit un taux de reconnaissance inferieura celui produit par la combinaison d’un nombre impair de classifieurs.

2.3.4 Influence d’autres facteurs

A part les performances intrinseques des classifieurs et la correlation entreles classifieurs, d’autres facteurs tels que le nombre de classes, la structure desclassifieurs, et la taille de la base d’apprentissage peuvent aussi influer sur lecomportement des methodes de combinaison. Cependant, peu de travaux ontpris en compte ces trois derniers facteurs pour l’evaluation de la combinaison.

2.3.4.1 Influence du nombre de classes

Dans ce cadre, la moyenne et le produit ont ete comparees experimentalementpar Tax et al [Tax97, Tax00]. Les resultats ont montre que dans un probleme a2 classes et avec des classifieurs estimant correctement les probabilites a pos-teriori, les deux regles sont similaires. Dans un probleme a plusieurs classeset avec des classifieurs produisant de faibles erreurs, le produit est meilleur.Dans le cas d’un bruit important, la moyenne arithmetique se revele plusrobuste.

Dans [Lin et al., 2003], une comparaison entre le vote a la pluralite etle vote a la majorite a ete menee. Cette comparaison a revele que pour unprobleme a plusieurs classes, la performance du vote a la pluralite est crois-sante lorsque le nombre de classifieurs augmente. Dans le cas d’un problemea 2 classes et avec un nombre impair de classifieurs, le comportement du votea la pluralite est similaire a celui du vote a la majorite.

2.3.4.2 Influence de la structure des classifieurs

Dans [Tax et al., 2000], une comparaison entre la moyenne et le produit aete realisee en utilisant des classifieurs de differentes structures. Avec des clas-sifieurs gaussiens, le produit a donne des resultats meilleurs que la moyenne.L’elimination du meilleur classifieur de l’ensemble n’a pas influence le com-portement du produit. Ceci est du au fait que tous les classifieurs avaientdes performances tres proches. La meme experience a ete realisee avec desclassifieurs d’autres types (discrimant de Fisher et reseaux de neurones) dontla particularite etait qu’ils presentent de mauvaises performances. Avec lesreseaux de neurones, le produit echoue car la majorite des classifieurs ont


de mauvaises performances. La principale conclusion de ce travail est queseulement dans le cas de classifieurs estimant des probabilites a posteriorielevees, le produit est a utiliser plutot que la moyenne.

Dans [Alexandre et al., 2001], une comparaison entre la somme et le pro-duit est aussi presentee. Il est montre que dans le cas d’un probleme adeux classes et avec deux classifieurs de type k-ppv, les deux regles sontequivalentes c’est-a-dire qu’elles produisent le meme taux d’erreur. Il s’agitdu seul cas ou les deux regles sont similaires puisque la somme des proba-bilites a posteriori, produites par les classifieurs, pour chacune des classesest egale a 1. Cette hypothese n’est verifiee que pour les classifieurs de typek-ppv. Quand plus de deux classifieurs sont combines, le produit fonctionnemieux que la somme avec ce type de classifieurs. Par contre, avec des clas-sifieurs de type neuronal et sur les memes bases de donnees, la somme s’estrevelee plus interessante pour la combinaison.

2.3.4.3 Influence de la taille des bases d’apprentissage

La taille de la base de donnees est un critere qui est utilise pour evalueressentiellement les methodes parametriques. Dans [Roli et al., 2002b] parexemple, les chercheurs ont evalue les performances des methodes de typeclasse (BKS et regle de bayes) en fonction de la taille de la base de valida-tion qui a servi a estimer les parametres necessaires a la combinaison. Cetteetude, menee sur deux problemes reels a 2 et 5 classes, a montre que les per-formances des regles parametriques augmentent pour une base de validationsuffisamment importante. Lorsque celle-ci est de petite taille, il vaut mieuxutiliser les regles simples non parametriques comme le vote a la majorite.

2.3.5 Conclusion

Les travaux theoriques et pratiques que nous venons de presenter montrentqu’il y a eu certains progres, pendant ces dix dernieres annees, dans lacomprehension du comportement des methodes de combinaison parallele. Letableau 2.1 resume les resultats theoriques obtenus sur les methodes avec etsans apprentissage.

98C

hapit

re2.

Evalu

ati

on

de

perfo

rm

ancesdesm

eth

odesde

com

bin

ais

on

Facteurs References RemarquesPerformance [Kittler et al., 1998] La somme est la plus resistante (par rapport aux autres

regles fixes) aux erreurs des classifieurs independantsLe produit et le minimum sont les plus sensibles auxerreurs des classifieurs

[Kuncheva, 2002] Pour un probleme a 2 classes et avec une distributionnormale des erreurs de classifieurs, la moyenne, lamediane et le vote a la majorite sont similaires

[Kittler and Alkoot, 2003] Pour un probleme a 2 classes avec des classifieursindependants et ayant une distribution gaussienne deleurs erreurs, la somme est toujours meilleure quele vote a la majorite

[Fumera and Roli, 2002] La meilleure performance de la moyenne simple estobtenue avec des classifieurs ayant le meme tauxd’erreurs alors que la moyenne ponderee se comportemieux quand les classifieurs ont des performancesdifferentes

[Fumera and Roli, 2004] Avec des classifieurs produisant des erreurs noncorrelees, la performance de la moyenne simple nedepend que des performances des classifieurs meme sil’option du rejet est utilisee

[Srihari, 1982] Avec des classifieurs ayant le meme taux dereconnaissance (p>0.5), les methodes de votegarantissent toujours une amelioration de performance

Independance [Fumera and Roli, 2002] Les regles fixes sont sensibles a la correlation desclassifieurs alors que les methodes parametriquesy sont moins sensibles

Nombre de classifieurs [Lam and Suen, 1997] Pour le vote a la majorite, il est preferable d’utiliserun nombre impair de classifieurs

Tab. 2.1 – Resultats theoriques des methodes de combinaison parallele de classifieurs

2.4. Simulation de donnees 99

Toutefois, on peut exprimer quelques reproches aux travaux existants.Bien que les travaux theoriques soient valides sur des problemes synthetiques,ils se basent sur des hypotheses rarement verifiees (hypothese d’independancepar exemple); d’autre part, les travaux experimentaux sont valides sur desbases de donnees reelles. Generalement, dans de tels travaux, les chercheursevaluent les methodes de combinaison dans des conditions differentes (nombrede classifieurs differents, problemes de classification differents, performancesdes classifieurs differentes, etc.). La comparaison entre les resultats obtenusest bien evidemment difficile a realiser. D’autre part, ces resultats restentetroitement dependants des applications traitees. En d’autres termes, pourun probleme de classification donne et un ensemble de classifieurs ayant desperformances differentes sur une base de donnees specifique, nous pouvonstrouver pratiquement une methode de combinaison qui permet de donner lemeilleur resultat. Si on change de probleme (par exemple, en modifiant labase de donnees ou en changeant les classifieurs a combiner), nous ne pou-vons pas garantir que la methode choisie reste la meilleure. Par consequent,les resultats obtenus restent difficiles a generaliser en dehors d’un domaineapplicatif donne. Or, pour mener a bien l’etude des methodes de combinaison,il est necessaire de disposer d’une grande variete de classifieurs ayant des per-formances differentes. Comment se comporte une methode dans un problemedonne? Il est evident que les travaux existants, theoriques et experimentaux,n’ont pas permis de repondre de maniere claire a ces questions importantes.Meme pour les regles les plus utilisees comme le vote a la majorite et lasomme, les travaux ne convergent pas toujours vers les memes conclusions.Pour pouvoir evaluer les methodes de combinaison de maniere efficace, on ainteret a utiliser des donnees artificielles. L’avantage de la simulation est depouvoir etudier le comportement des methodes de combinaison et de mieuxcomprendre leur mecanisme sans etre lie ni a des donnees reelles, ni a deshypotheses difficiles a justifier.

2.4 Simulation de donnees

Le principe fondamental de la simulation est de pouvoir construire unmodele pilote par un ensemble de parametres et qui fournit des resultatsqui s’approchent du comportement d’un systeme reel. En effet, l’approchepar simulation permet de beneficier de la plupart des avantages habituelsde la modelisation: elle permet de faire varier facilement les parametres dusysteme et d’evaluer l’impact de ces changements, evaluer les systemes pourlesquels on ne dispose pas de solution analytique et pour lesquels la simula-tion constitue donc la seule approche disponible. Selon Auger [Auger, 1993],


”la simulation permet a la fois de faire naıtre l’intuition de ce qui marche etde ce qui ne marche pas et egalement de valider dans une certaine mesureces intuitions que la theorie ne permet pas encore de prendre en compte”.

Recemment, le recours a la simulation est devenu un moyen pratiquepour generer artificiellement de la variabilite dans les donnees permettantainsi d’evaluer le comportement des methodes de combinaison parallele pourlesquelles une evaluation sur des donnees reelles est insuffisante. C’est pour-quoi, le nombre de travaux utilisant cette technique a augmente ces dernieresannees [Parker, 2001, Kuncheva and Kountchev, 2002, Lecce et al., 2000].

Dans le cadre de la combinaison de classifieurs, on peut generalementsimuler des donnees a trois niveaux : a l’entree du classifieur, au niveau del’espace de caracteristiques ou au niveau des sorties du classifieur.

– Niveau des entrees : il s’agit d’introduire des modifications sur les donneesa reconnaıtre afin de produire une variabilite dans l’espace de caracteristiquesutilise par le classifieur [Maclin and Opitz, 1997]. On peut introduire,par exemple, du bruit sur les signaux, des transformations (rotation,ajout ou elimination de pixels) sur les images ou meme combiner deuximages pour obtenir une nouvelle. Cependant, cette technique restespecifique au type de donnees utilisees ce qui ne permet pas toujoursd’avoir une grande variabilite dans les performances.

– Niveau des caracteristiques : ceci consiste a generer de nouveaux vec-teurs de caracteristiques a partir d’un ensemble de vecteurs en injectantpar exemple du bruit (selon une moyenne et une variance donnee) surchacune des caracteristiques [Parker, 2000, Skurichina and Duin, 2000b].

– Niveau des sorties : ceci consiste a utiliser un simulateur permettant degenerer des donnees artificielles selon les performances desirees tellesque le taux moyen de reconnaissance ou une matrice de confusion (reelleou simulee) [Parker, 2000, Kuncheva and Kountchev, 2002].

Parmi ces methodes de generation de donnees, la simulation de classi-fieurs (c’est-a-dire la generation artificielle de sorties) est la mieux adapteepour l’etude de la combinaison en fonction des performances dans la mesureou elle permet de controler directement les entrees des methodes de combinai-son. C’est cette methode que nous avons retenu pour simuler un classifieur.Elle sera detaillee dans les chapitres suivants.


2.4.1 Simulation de sorties de classifieurs

Une revue de la litterature sur cette approche a montre que peu de cher-cheurs ont aborde cette problematique: les seuls travaux a notre connaissancequi ont montre l’importance de la simulation de classifieurs dans le cadre de lacombinaison sont [Lin et al., 2003, Parker, 2000, Kuncheva and Kountchev, 2002][Lecce et al., 2000]. Nous allons donc les decrire de facon detaillee dans lesparagraphes qui suivent. Nous verrons que les simulateurs developpes negenerent pas des sorties proches de celles produites par un classifieur reelpour les raisons que nous evoquons par la suite.

2.4.1.1 Travaux de Lin et al. [Lin et al., 2003]

Peu d’etudes theoriques ont ete consacrees a l’evaluation des performancesdu vote a la pluralite. Nous pouvons mentionner toutefois l’etude menee parLin et al. [Lin et al., 2003] ou les auteurs detaillent les differents cas d’utili-sation du vote a la pluralite. Le vote a la pluralite peut etre utilise dans saversion classique (choisir la classe qui recoit le maximum de votes et dansle cas de conflit, choisir aleatoirement une classe), si les conditions suivantessont respectees:(1) les classifieurs sont independants(2) les erreurs sont distribuees de maniere egale sur les N-1 classes(3) tous les classifieurs ont le meme taux de reconnaissance(4) les formes a reconnaıtre sont a choisir parmi les classes (les classifieurs nerejettent pas)Dans le cas ou les performances p des classifieurs sont inferieures a 1

Nalors la

pluralite inverse (choisir la classe avec le moins de votes) doit etre appliqueee.Ceci s’explique par le fait que la forme a reconnaıtre est probablement parmiles classes n’ayant pas le plus de votes (puisque les classifieurs ont des per-formances tres faibles).Dans le cas ou les hypotheses (3) et (4) ne sont pas satisfaites, l’analysetheorique des performances du vote a la pluralite est, selon les auteurs, tropcomplexe a mener. Pour ces raisons, l’analyse a ete conduite par la simula-tion de classifieurs independants afin de savoir comment la performance duvote a la pluralite peut etre affectee par la variation du nombre de classes,du nombre de classifieurs et de leurs taux de reconnaissance. Les auteursconsiderent qu’avec un grand nombre de sorties, les resultats de la simula-tion peuvent etre tres proches de ceux obtenus par les formules theoriques.C’est pourquoi ils proposent un simulateur permettant de generer des sorties(type classe) en fonction d’un seul parametre qui est le taux de reconnais-


sance p. Pour chaque forme x en entree (provenant de la classe Ci), une valeurR est generee aleatoirement. Pour R < p, la forme x est attibuee a la classecorrecte Ci. Dans l’autre cas, x est attribuee a une autre classe Cm avec m∈ [1,..i − 1,i + 1,...,N ].Pour des problemes a 2, 3 et 50 classes et avec des classifieurs ayant le memetaux de reconnaissance, la simulation a permis de constater que:(1) lorsque p > 1

Nalors la performance du vote a la pluralite s’approche de

1 surtout avec un nombre important de classifieurs(2) pour un probleme a plusieurs classes (N >2), le taux de reconnaissancedu vote a la pluralite est croissant avec le nombre de classifieursLa simulation a permis aussi de montrer l’avantage du vote a la pluralite parrapport au vote a la majorite (moins d’erreur et de rejet).

2.4.1.2 Travaux de Parker [Parker, 2000, Parker, 2001]

Parker [Parker, 2000] suggere aussi que l’utilisation de donnees reellesn’est pas suffisante pour evaluer de maniere robuste les methodes de com-binaison. Il propose un simulateur de classifieur base sur des matrices deconfusion construites selon un taux de reconnaissance et une variance fixes.Ce simulateur recoit une matrice de confusion MC en entree et genere dessorties (type classe) en fonction de cette matrice.Pour reconnaıtre une forme x, la generation consiste a :(1) determiner un histogramme H des frequences cumulatives pour chaqueclasse Ci avec H[0]=MC[x][0] et H[i]=H[i-1]+ MC[x][i], i = 1, ..., N(2) tirer aleatoirement un nombre Z entre 0 et 1L’etiquette de x est le premier indice i ∈[1,..., N] qui satisfait la conditionH[i]≥ Z.Les matrices de confusion sont construites de maniere differente. Les elementsde la diagonale de chacune de ces matrices (les taux de reconnaissance parclasse) peuvent etre egaux au taux de reconnaissance fixe ou tires aleatoirementselon une moyenne et une variance. Les taux de confusion (y compris le tauxde rejet) de chaque ligne peuvent etre aussi identiques ou tires aleatoirement(la somme totale de chaque ligne doit etre egale a 100%).L’auteur considere qu’il est important de generer des classifieurs correles quiont un certain niveau d’accord (dans les erreurs et les bonnes classifications).Pour generer deux classifieurs e1 et e2 ayant un accord de 95%, Parker utilisela procedure suivante:

– generer le premier classifieur e1 selon la performance desiree

– Pour 95% de sorties de e1, tirer aleatoirement un nombre x entre 0 et


1

– si x < 0.95 alors sauvegarder la sortie du e1 dans la sortie de e2

– sinon generer une autre sortie differente de celle de e1

Cette methode de simulation a ete utilisee dans [Parker, 2001] afin demontrer l’importance de la simulation dans l’etude de la combinaison declassifieurs differents. Un ensemble de regles fixes de differents types a eteconsidere (vote a la majorite, borda count, wborda, somme, produit, mediane,...). Pour evaluer la performance de ces methodes (en terme de taux d’erreur),deux experiences ont ete realisees. Dans la premiere experience, l’auteur a uti-lise 5 classifieurs differents, dont chacun est appris sur 5 bases reelles (digit,Iris, segment, vehicule, waveform). Il a observe que les performances des clas-sifieurs varient d’une base a une autre. Par exemple, avec la base digit, leserreurs des classifieurs sont tres proches. Alors qu’avec la base segment, leserreurs sont tres eloignees. En observant ce comportement, l’auteur a genere1000 ensembles de 5 classifieurs identiques (meme taux de reconnaissance),ayant des taux proches de 10% et des taux differents (ecart de 20%). Lesresultats de la combinaison sur les donnees reelles ont montre l’efficacite dela regle de somme (en donnant de meilleure performance par rapport auxclassifieurs) sur les bases utilisees alors que les resultats obtenus sur desdonnees simulees n’ont pas permis de mettre en evidence la superiorite d’unemethode sur les autres. Cependant, il a montre l’avantage des regles de typerang sur le vote a la majorite. Afin d’examiner l’influence de la correlationdes classifieurs sur la performance des methodes utilisees, Parker a generedes ensembles de 5 classifieurs dont 3 sont correles a 95%. Les resultats ontmontre l’efficacite de certaines regles comme la somme et wborda (moinssensibles a la correlation) en produisant moins d’erreurs.

2.4.1.3 Travaux de Lecce et al. [Lecce et al., 2000]

Lecce et al. [Lecce et al., 2000] presentent une methode de constructiondes ensembles de classifieurs afin d’etudier l’influence de la correlation surle vote a la pluralite, BKS et Dempster-Shafer. Chaque ensemble de classi-fieurs se caracterise par un taux de reconnaissance moyen et un niveau decorrelation. Pour chaque groupe A de L classifieurs, un indice de similariteρA est defini presentant la moyenne de la correlation entre les paires de clas-sifieurs du groupe.

ρA =

∑Li,j=1(i<j) ρei,ej(

L2

) (2.27)


ρei,ejest l’indice de similarite entre deux classifieurs. Il s’agit du nombre

de sorties pour lesquelles les deux classifieurs sont d’accord c’est-a-dire pro-posent la meme reponse. De plus, pour chaque groupe de L classifieurs ayantchacun un taux de reconnaissance pi, les valeurs possibles de l’indice de si-milarite ρA varient dans [ρmin, 1].

ρmin =

k′p′ +k′

2(

L2

) (2.28)

ou:

k′ =

⌊

L∑

i=1

pi

⌋

(2.29)

p′ =L∑

i=1

pi −

⌊

L∑

i=1

pi

⌋

(2.30)

Pour chaque valeur de ρ variant de ρmin a 1 par pas de 0.01, des ensemblesde classifieurs (ayant des nombres d’experts et des taux de reconnaissancedifferents) ont ete generes. La premiere phase de cette procedure consiste agenerer une liste initiale de sorties d’un ensemble de L classifieurs. En se ba-sant sur cet ensemble initial, de nouveux groupes de classifieurs sont generesen modifiant leurs listes de sorties. Le principe est de generer de nouveauxgroupes de classifieurs ayant des valeurs de correlation differentes mais avecla meme performance (tous les classifieurs ont le meme taux de reconnais-sance). Par consequent, la modification concerne seulement les etiquettes desclasses incorrectes. La procedure de modification continue jusqu’a ce que lavaleur de correlation moyenne de chaque groupe soit atteinte.Les trois methodes de combinaison ont ete comparees (en terme de taux dereconnaissance et de fiabilite) en simulant 1000 groupes differents de L clas-sifieurs pour l’apprentissage et 1000 autres pour le test, L=3, 4, 5. Le tauxde reconnaissance est fixe a 90% (sans rejet). La similarite des groupes si-mules varie entre 0.8 et 1. Les resultats ont montre qu’avec des classifieursfaiblement correles, le vote a la pluralite donne de meilleures performancespar rapport aux deux autres methodes. Lorsque la correlation augmente,la methode D-S devient plus efficace, alors que la methode de BKS pro-duit de meilleurs resultats avec des classifeurs tres correles. Ces resultatsmontrent que la methode de combinaison parametrique est moins sensible ala correlation des classifieurs que les regles fixes. L’experience realisee sur desdonnees reelles utilisant 5 classifieurs differents a confirme ce constat.


2.4.1.4 Travaux de Kuncheva et al. [Kuncheva and Kountchev, 2002,Kuncheva and Whitaker, 2003]

Dans [Kuncheva and Kountchev, 2002], une methode de generation sequentiellede sorties (type binaire) de classifieurs dependants a ete proposee. En se ba-sant sur la matrice de dependance entre les classifieurs a simuler et leurtaux de reconnaissance, le generateur produit le nombre de sorties desireespour chaque classifieur. Le principe de la methode est de calculer des perfor-mances intermediaires de chaque paire de classifieurs, a partir de la matricede dependance et des taux de reconnaissance a respecter, et de generer en-suite les sorties de classifieurs selon ces performances.Considerons deux classifieurs ei et ej produisant chacun S sorties selon lestaux de reconnaissance respectifs pi et pj. La mesure utilisee pour determinerla dependance entre les paires des classifieurs est le Q statistique (nouspresentons cette mesure dans le chapitre 4). Pour generer les sorties dedeux classifieurs ei et ej, l’auteur se base sur des taux de reconnaissanceintermediaires P1 et P2 calcules en fonction des valeurs de diversite Qi,j etdes performances desirees pi et pj. P1 est la probabilite du changement d’unelement ’1’ des sorties du classifieur ei en ’0’ dans les sorties du classifieur ej.P2 est la probabilite du changement d’un element ’0’ des sorties du classifieurei en ’1’ dans les sorties du classifieur ej.

P1 = 1 − P2 −pj

pi+ P2

pi

P2 =−(1−Qi,j+2Qi,j(pi−pj))±

√Discr

4Qi,j(1−pi)

(2.31)

avec

Discr = (1 − Qi,j + 2Qi,j(pi − pj))2 − 8Qi,j(1 − pi)pj(Qi,j − 1) (2.32)

La procedure de generation d’un ensemble de L classifieurs consiste a calculertout d’abord les valeurs de P1 et P2 pour chaque paire de classifieurs. Ensuite,pour chaque sortie, une permutation des classifieurs est realisee. Ceci permetde fixer la liste d’ordre selon lequel les classifieurs seront generes. C’est seule-ment la sortie du premier classifieur de la liste qui est generee en fonctiondu taux de reconnaissance desire. La generation des sorties des classifieurssuivants est realisee en fonction des probabilites P1 et P2.

Les resultats de simulation ont montre qu’il n’est pas toujours possible degenerer des sorties respectant exactement les valeurs desirees. Une procedurede selection a ete utilisee pour remedier a ce probleme. Elle consiste a n’ac-cepter, parmi les ensembles generes, que ceux dont Q et la moyenne des tauxde reconnaissance sont suffisamment proches des valeurs desirees.


Cette methode de simulation a ete utilisee dans [Kuncheva and Whitaker, 2003]pour etudier la relation entre 10 mesures de diversite et la performance dela combinaison de l’ensemble de classifieurs. L’objectif de cette etude est desavoir si une mesure de diversite permet de predire l’erreur de l’ensemble.Pour cela, 4 experiences differentes ont ete realisees.

Dans la premiere experience, 15 ensembles de 3, 5 et 9 classifieurs ayantla meme performance (0.6 et 0.7) ont ete generes pour chaque valeur de Qvariant de -1 a 1. La dependance entre les paires de chaque ensemble estidentique. L’interet de cette generation est de pouvoir obtenir des valeursdifferentes des mesures de diversite. Les resultats ont montre que toutes lesmesures ont approximativement une forte et meme relation avec l’ameliorationde la performance du vote a la majorite. D’autres constations ont ete re-levees: (1) l’utilisation des ensembles de classifieurs ayant une correlationnegative conduit a une meilleure performance du vote a la majorite quel’utilisation de classifieurs independants (2) la combinaison de classifieursidentiques (Q=1) ne permet pas d’avoir une amelioration de performance(par rapport au meilleur classifieur de l’ensemble) mais elle n’est pas le plusmauvais cas de la combinaison par le vote a la majorite. Ce constat est enaccord avec l’etude theorique presentee dans [Kuncheva et al., 2003].

Dans la deuxieme experience, toutes les configurations possibles des sor-ties pour 3 classifieurs ayant une meme performance fixee a 0.6 et produisant30 sorties chacun ont ete generees. Pour chaque configuration (ensemble), lesperformances du vote a la majorite pmaj et les valeurs des mesures de diver-site sont determinees. Les resultats ont montre la faible correlation entre lesmesures de diversite et (pmaj−p). Cependant, il est constate que pour chaquemesure de diversite, il existe une valeur seuil a partir de laquelle le vote ala majorite peut garantir une amelioration de performance. La correlationentre les mesures de diversite est aussi elevee.

Dans la troisieme experience, une base de donnee reelle est utilisee afind’examiner la correlation entre les mesures de diversite et la performancedes ensembles de classifieurs dans le cas reel et la comparer aux resultatsobtenus par simulation. Pour generer des ensembles de classifieurs differents,l’espace de caracteristiques en entree des classifieurs a combiner est divise enrepartitions. Pour chaque repartition, 3 classifieurs de meme nature (lineaireet quadratique) sont utilises. Contrairement a l’etude simulee qui a montrel’existence d’une correlation importante entre les mesures de diversite etl’amelioration de performance par rapport au meilleur classifieur, l’utilisa-tion de donnees reelles n’a pas permis de confirmer ce constat. D’apres les


auteurs, la difference entre simulation et pratique est due d’une part a l’utili-sation de 3 classifieurs seulement puisque le nombre de classifieurs peut etreun facteur de prediction des valeurs de mesures de diversite. D’autre part,l’amelioration de performance du vote, par rapport au meilleur classifieur,est faible et il est possible que les mesures de diversite ne soient pas aussisensibles aux ameliorations faibles.

Dans la quatrieme experience, deux autres bases de donnees ont ete uti-lisees pour construire des ensembles de 9 classifieurs par bagging et randomsubspace (nous presentons ces methodes dans le chapitre 4). La encore, ilest constate qu’il n’existe pas une relation claire entre les mesures de diver-site et la moyenne des performances des classifieurs (p). De plus, l’idee qued’avoir des classifieurs moins performants permet d’obtenir des ensemblesplus divers n’est pas confirmee par cette experience. Ceci n’est pas en accordavec l’observation faite dans [Dietterich, 2000] ou l’auteur indique l’existenced’un certain compromis entre diversite et performance de la combinaison de2 classifieurs.Bien que ces experiences ont prouve l’importance de la diversite dans l’ameliorationdes performances de l’ensemble, ils n’ont pas permis toutefois de repondreau probleme du choix d’une telle mesure pour predire l’erreur de l’ensemble.

Inspire par le travail de Kuncheva et al. [Kuncheva and Kountchev, 2002],nous avons propose une methode de generation de sorties de classifieurscorreles de type classe [Zouari et al., 2004b, Zouari et al., 2004d]. L’idee debase de cette methode est de generer des ensembles de classifieurs selon desperformances fixees et des accords pre-definis. Pour determiner la dependanceentre les classifieurs a simuler, la mesure de diversite kappa a ete utilisee. Laprocedure de generation des sorties de deux classifieurs ei et ej se base surle calcul des probabilites de la matrice de diversite MDi,j representant lepoucentage d’accord et de desaccord entre les deux classifieurs ei et ej (voirtableau 2.2).

ej correcte (c) ej incorrect (w)ei correcte (c) P cc P cw

ei incorrecte (w) P wc P ww

P cc + P cw + P wc + P ww=1

Tab. 2.2 – Matrice de diversite MDi,j de deux classifieurs ei et ej

P ab est la probabilite representant le nombre de sorties pour lesquelles le


classifieur ei propose ’a’ et le classifieur ej propose ’b’. Les probabilites dela matrice de diversite MDi,j sont calculees a partir des valeurs κi,j desireeset les performances pi et pj fixees en entree de la procedure. L’accord, dansle cas de deux classifieurs ei et ej ayant les performances pi et pj peut etrecalcule en utilisant l’equation suivante:

κi,j = 1 −Pcw + Pwc

2p(1 − p)(2.33)

p est la moyenne des performances des deux classifieurs. En utilisant lamatrice du tableau 2.2, les probabilites P ab peuvent etre exprimees en fonc-tion de pi, pj, p et κi,j:

Pcw = (pi−pj)+(1−κi,j )2p(1−p)

2

Pwc = Pcw − (pi − pj)

Pww = [(1−pi)+(1−pj)]−(Pcw+Pwc)

2

Pcc = 1 − (Pcw + Pwc + Pww)

(2.34)

Pour generer un ensemble de L classifieurs, les valeurs de Pab pour chaquepaire de classifieurs sont tout d’abord calculees. Les sorties du premier classi-fieur sont ensuite produites selon le taux de reconnaissance desire. La generationdes sorties des classifieurs suivants est realisee en fonction des probabilitesPab. Cette methode de simulation a ete utilisee pour analyser le compor-tement des methodes de combinaison de type classe, en particulier le votea la pluralite en le comparant au vote a la majorite [Zouari et al., 2004a,Zouari et al., 2004b, Zouari et al., 2004d]. Il est montre que quelque soit leniveau de dependance de classifieurs, le vote a la pluralite est plus efficaceque le vote a la majorite permettant de realiser un bon compromis entre letaux de reconnaissance et le taux de rejet.

2.4.1.5 Discussion

Les simulateurs de classifieur que nous venons de presenter permettent desimuler une variete de problemes en terme de nombre de classes et de tauxmoyen de reconnaissance. Bien qu’ils peuvent servir a evaluer les methodesde type classe puisqu’ils fournissent une etiquette unique a chaque sortie, ilssont neanmoins limites. L’une des limites majeures est qu’ils ne permettentpas de generer des listes de solutions. Par consequent, ils ne peuvent passervir a evaluer les methodes de combinaison de type rang ou type mesure.


Les simulateurs developpes ont tous en commen comme seul indicateurde performance le taux moyen de reconnaissance en premiere proposition.Cependant, il n’est pas possible de generer une quelconque variabilite dansce taux par classe. La distribution de ces taux est la meme pour toutes lesclasses. Or, un classifieur reel peut produire des sorties dont les classes sontdistribuees differemment. Cette distribution peut varier d’un probleme dereconnaissance a un autre.

Un classifieur reel peut egalement avoir la capacite de rejeter en cas deconflit entre les classes et peut donner un taux de rejet different pour chacunedes classes. Generalement, les travaux que nous avons evoques ne traitent pasle probleme de rejet. Bien que le simulateur propose par Parker permette degenerer des sorties rejet pour chacune des classes (en se basant sur la matricede confusion), il est neanmoins limite. La generation des taux de rejet dansla matrice de confusion se fait de maniere implicite (suit celle des taux deconfusion). Pour simuler un comportement proche de la realite, le rejet doitetre traite independemment des taux de confusion. L’utilisation du simula-teur propose par Parker ne permet pas de contoler ni le rejet, ni sa variabilitepar classe.

Disposer d’un simulateur permettant de generer un comportement prochede la realite (en produisant une liste de solutions, en etant capable de reje-ter, en produisant une variabilite dans les taux de reconnaissance et de rejetpar classe), est indispensable pour etudier les methodes de combinaison. Lessimulateurs de classifieurs developpes sont tres loins de generer des com-portements proches de la realite et sont en ce sens limites pour aborder leprobleme. Ceci nous a amene a developper un nouveau simulateur qui depasseces limites. Nous le presentons dans le chapitre suivant et nous verrons qu’ilest capable, a partir d’un jeu reduit de parametres, de generer une grandevariabilite de comportements qu’on contole parfaitement.

Les simulateurs que nous avons evoques plus haut (mis a part celui de Linet al [Lin et al., 2003]) ont aussi genere des sorties correlees afin d’etudier lerole de la diversite entre les classifieurs dans l’amelioration des performancesdes methodes de combinaison. La encore, la simulation presente un interetmajeur dans l’evaluation du comportement des methodes de combinaison enfonction de la diversite. Les travaux [Lecce et al., 2000, Kuncheva and Kountchev, 2002]en sont un exemple puisqu’ils permettent par la simulation de construire desensembles de classifieurs en controlant a la fois la diversite dans l’ensembleet les performances des classifieurs a combiner. Nous proposons une nouvellemethode de simulation de sorties correlees dans le chapitre 4. L’avantage


notable de notre simulateur est qu’il permet de generer des sorties de typemesure et non pas des sorties de type classe.

2.5 Conclusion

Dans ce chapitre, nous avons discute du probleme de l’evaluation des per-formances des methodes de combinaison parallele de classifieurs. Nous avonspropose une categorisation des mesures de performances (globales, semi-globales et locales) permettant de caracteriser le comportement d’un clas-sifieur. Nous avons presente une analyse critique des travaux qui ont abordece probleme, en theorie et en pratique. Nous avons pu mettre en evidencequ’il est encore difficile de comparer les resultats obtenus puisque l’evaluationdu comportement des methodes est realisee dans des conditions differentes.Nous avons ensuite discute du probleme de la simulation de donnees et lanecessite de generer des donnees artificielles. L’examen des travaux qui ontaborde ce probleme montre en premier lieu que la simulation de classifieursau niveau des sorties a recu recemment de la part des chercheurs du domaineune attention plus particuliere que la simulation au niveau des entrees declassifieurs. Ceci s’explique par le fait que la generation des donnees au ni-veau des sorties de classifieurs permet de controler directement les entreesdes methodes de combinaison.

Nous avons montre que les quelques generateurs proposes dans la litteratureont ete developpes dans des cadres tres particuliers: generation de sorties detype classe, controle des performances au moyen d’un seul parametre (tauxde reconnaissance), eventuellement controle de la diversite entre les classi-fieurs. Ces generateurs ne peuvent donc pas etre utilises pour simuler desproblemes reels de classification dans lesquels les classifieurs proposent, leplus souvent, des listes de solutions. Le generateur que nous proposons dansle chapitre suivant a donc pour objectif de depasser ces limitations en simu-lant un classifieur dont le comportement est proche de la realite.

Chapitre 3. Simulation d’un classifieur 111

Chapitre 3

Simulation d’un classifieur

Ce chapitre traite le probleme de la simulation des sorties d’un classi-fieur. A ce propos, nous presentons une nouvelle methode de simulation per-mettant de generer des sorties artificielles d’un classifieur pour un problemede classification donne. Nous decrivons d’abord les differentes etapes et lesalgorithmes sur lesquels repose cette methode de simulation. Nous evaluonsensuite les performances du simulateur a partir de quelques exemples. Nousmontrons enfin comment etudier le comportement des methodes de combinai-son en exploitant le simulateur developpe.

112 Chapitre 3. Simulation d’un classifieur

3.1 Introduction

Pour mener a bien l’etude des methodes de combinaison, il est necessairede disposer d’une grande variete de classifieurs ayant des performances differentes.Dans le cas reel, la performance d’un classifieur depend toujours de la baseutilisee. Par consequent, avoir beaucoup de resultats differents pour un memeprobleme donne reste tres difficile a realiser.D’autre part, l’analyse des methodes de combinaison n’a d’interet que si elleest realisee en dehors d’un contexte applicatif donne. En effet, les resultats ob-tenus sur des applications pratiques restent dependants des donnees considereesce qui rend difficile la generalisation des resultats. C’est pourquoi l’utili-sation de donnees artificielles generees par un simulateur de classifieur estdevenue recemment un moyen essentiel pour analyser experimentalement lecomportement des methodes de combinaison parallele de classifieurs. A tra-vers cette analyse, il est possible de repondre a plusieurs questions tellesque : les resultats de telle ou telle methode restent-ils les memes si le nombrede classes augmente? Et si les performances des classifieurs a combiner sontdifferentes? Comment se comporte alors une telle methode si on change letype des classifieurs?

Nous avons vu dans le chapitre 2 que differentes caracterisations des per-formances d’un classifieur peuvent etre envisagees (section 2.2.1 a 2.2.3).Nous avons defini:

– ses performances globales: TL1, TL2, ..., TLN et TR pour chaque po-sition de la bonne solution dans la liste de solutions, le taux de confu-sion TCK etant envisage de facon globale, et etant simplement obtenucomme satisfaction de la contrainte TLK+TCK+TR=100%;

– ses performances semi-globales qui precisent le comportement du classi-fieur en detaillant les taux precedents pour chacune des classes et pourchacune des positions de la bonne solution dans la liste de solutions;

– ses performances locales qui, pour chaque profondeur, precisent le detaildes confusions entre les differentes classes par definition d’une matricede confusion complete.

C’est a partir de cette categorisation que nous allons construire notresimulateur. Celui-ci aura donc plusieurs comportements envisageables cor-respondant aux differentes facons possibles de definir ses performances.

Remarquons que, bien que notre approche soit nettement plus generale

3.2. Le simulateur 113

que toutes celles proposees jusqu’alors dans la litterature, elle comporte elleaussi ses limites: nous n’envisagerons pas, par exemple, l’etude de comporte-ment temporel (temps de reponse) des classifieurs construits.

La methode de simulation que nous proposons dans ce chapitre consistea generer des listes de solutions a partir des matrices des performances semi-globales ou locales. Ces matrices nous sont soit donnees, soit generees defacon a respecter les performances globales ou semi-globales que nous vou-lons imposer. De plus, chaque solution a une confiance associee (sorties detype mesure). Notons que nous avons choisi de generer ce type de sorties parcequ’il peut etre facilement transforme en type rang (en ne tenant compte quede l’ordre des etiquettes), en type ensemble (pas d’ordre sur les etiquettes)ou en type classe (en ne retenant que la premiere solution de chaque liste).

La premiere partie de ce chapitre est consacree a la presentation de lastrategie de simulation que nous avons mise en place et qui permet de genererartificiellement des sorties (listes de solutions) de classifieur en fonction desperformances desirees (taux de reconnaissance, taux de rejet,...) pour unprobleme de classification quelconque. Nous presentons trois modes de simu-lation correspondant a trois caracterisations de performances differentes:

– performances semi-globales pour des listes de profondeur 1 a K

– performances locales pour une seule profondeur K

– performances locales a deux profondeurs differentes K et K’

Nous justifions egalement dans cette partie le choix de parametres complementairesnecesssaires au fonctionnement de la simulation.La seconde partie est consacree, quant a elle, a la validation experimentaledu classifieur simule que nous proposons. Nous montrons dans la troisiemeet derniere partie comment le simulateur peut etre utilise pour etudier lecomportement de methodes de combinaison.

3.2 Le simulateur

3.2.1 Objectifs

La principale caracteristique de notre strategie de simulation est de genererdes comportements proches de la realite. Mais qu’est ce qu’on entend pargenerer un comportement proche de la realite? Il suffit pour cela de revenira ce que produit un classifieur reel lorsqu’il est amene a se prononcer surune base de test donnee. Dans le cas le plus general, un classifieur reel peutfournir des sorties de type mesure comme le montre la figure 3.1. L’analyse


des resultats fournis par un classifieur se fait en associant a chaque sortiel’etiquette de la vraie classe (la classe de la forme d’entree a reconnaıtre)fournie par l’utilisateur. Chaque sortie peut comporter une, deux ou N solu-tions. Chaque solution est associee a un score qui peut etre une probabilite,une distance ou une confiance. Le classifieur peut egalement avoir des capa-cites de rejet.

Fig. 3.1 – Exemples de sorties proposees par un classifieur reel

Disposant de telles sorties, l’evaluation du comportement du classifieurreel consiste a calculer l’une des 3 mesures de performances (parametres)que nous avons definies: globable, semi-globale ou locale. Si l’on veut pou-voir simuler des comportements proches de la realite, il faut donc prendre encompte ces indicateurs de performances comme parametres d’entree de la si-mulation afin de produire artificiellement le type de sorties de la figure 3.1. Sion veut simuler un comportement et donc generer aleatoirement des sorties,on doit respecter des contraintes (parametres imposes). Plus on s’impose deparametres a respecter (c’est-a-dire que l’on s’impose un comportement deplus en plus fin), alors les contraintes deviennent de plus en plus fortes, voiredifficiles a respecter. Ceci montre bien la difficulte a generer aleatoirementdes sorties a partir des mesures de performance. La simulation n’est pas uneoperation triviale. Pour simuler, il faut donc faire des choix, c’est-a-dire trou-ver un compromis entre d’une part l’aleatoire (la generation) pour avoir ladiversite dans les sorties des classifieurs generes et d’autre part le respect descontraintes pour avoir les performances souhaitees.

Comme illustre sur la figure 3.2, l’analyse des performances d’un classi-fieur exploite les sorties pour en deduire des indicateurs de performance. Dans


la simulation, nous realisons l’operation inverse: on fixe tout d’abord des ma-trices de performances semi-globales ou locales, decrivant le comportementdesire du classifieur, et on genere ensuite la liste des sorties a partir de cesmatrices. Celles-ci nous seront donnees ou nous les genererons en respectantdes performances globales ou semi-globales que nous voulons imposer.

Fig. 3.2 – Principe de la methode de simulation

Selon le comportement qu’on veut simuler, trois cas d’utilisation du simu-lateur sont possibles. En effet, le simulateur que nous avons developpe peutgenerer :

1. N comportements: de la meme facon qu’a partir des sorties d’un clas-sifieur reel, nous pouvons determiner son comportement pour differentestailles de la liste de solutions (en premiere proposition, dans les deuxpremieres et dans les N premieres), notre simulateur permet de fournirdes sorties respectant un comportement dans tout point des listes desolutions en utilisant des parametres de performances semi-globales.


Cette simulation nous permet ainsi de controler toutes les informationsdes listes de sorties.

2. un seul comportement: le simulateur peut produire des sorties res-pectant un comportement dans les K premieres solutions (K est comprisentre 1 et N). Ce comportement est controle a partir des performanceslocales presentees sous forme d’une matrice de co-presence. Bien quecette simulation nous permette de controler plus d’informations (confu-sion), elle necessite neanmoins plus de contraintes a respecter dans lageneration de sorties.

3. deux comportements: le simulateur permet egalement de controlerun certain niveau de correlation a l’interieur meme de la liste de so-lutions en offrant la possibilite de respecter a la fois un comporte-ment dans les K’ premieres solutions et un comportement dans les Kpremieres solutions (K ′ < K). Ceci nous permet ainsi de generer deslistes de solutions a l’interieur desquelles nous controlons la correlationentre les solutions.

Notons immediatement l’interet qu’il peut y avoir a generer des sortiesa partir de matrices de co-presence imposees par l’utilisateur. Ceci peutpermettre par exemple, a partir de matrices obtenues par un classifieurreel, d’augmenter la taille de la base de donnees. Ceci peut s’averer par-ticulierement utile lorsque l’on utilise des methodes de combinaison avecapprentissage. En effet, dans ce cas, il faut pouvoir disposer de donneessupplementaires pour apprendre les parametres necessaires a la combinaison.L’interet est alors de pouvoir generer un volume beaucoup plus importantde donnees (qui servira a l’apprentissage ou au test de la methode de combi-naison) et dont les caracteristiques statistiques, en termes de performances,seront les memes que sur la base de test reelle qui a servi a etablir la matricede confusion.

Pour terminer ce paragraphe introductif, precisons deux parametres in-dispensables si l’on veut pouvoir utiliser le simulateur (dans les differents cascites precedemment) pour l’evaluation du comportement des methodes decombinaison de classifieurs: on doit pouvoir fixer en entree du simulateur lenombre de classes pour un probleme de classification quelconque ainsi que lenombre de sorties a generer pour chacune des classes.

Si on appelle N le nombre de classes possibles, ce parametre va nous


permettre de simuler n’importe quel probleme de reconnaissance. Il changed’une application a une autre et depend surtout des donnees disponibles(voir tableau 3.1). On peut par exemple simuler un probleme a 2 classes, unprobleme a 10 classes ou un probleme a 300 classes.

References Applications N[Kittler et al., 1998] identification de personnes 2[Xu et al., 1992] reconnaissance de chiffres 10[Kim et al., 2000] reconnaissance de mots 21[Xiao et al., 2000, Hao et al., 1997] caractere Coreens 3755

Tab. 3.1 – Variabilite du nombre de classes en fonction de l’application

On appellera S le nombre total de sorties a generer par le classifieur.S =

∑Ni=1 Si ou Si est le nombre de sorties a generer pour chacune des classes

Ci. Par souci de simplicite, on choisira generalement dans nos exemplesd’utilisation du simulateur un nombre fixe d’elements par classe mais rienn’empeche de generer un nombre d’elements different par classe.

3.2.2 Simulation de N comportements

Une facon de simuler un classifieur reel est de generer des sorties encontrolant les performances dans toutes les positions de la bonne solutiondans la liste de solutions. Dans les sections suivantes, nous detaillons le prin-cipe de la simulation de N comportements en presentant les parametres, lescontraintes a respecter et les algorithmes necessaires a leur realisation.

3.2.2.1 Principe

Dans le cas reel, les mesures de performance semi-globales peuvent etrecalculees a partir des resultats fournis par le classifieur. Pour generer des sor-ties respectant N comportements, on procede dans l’autre sens: on se donneune matrice de performances semi-globales (appelee la matrice MAT) quisera le parametre d’entree de la simulation. On genere ensuite les sorties duclassifieur (etiquettes de la bonne solutions et liste de solutions associees avecconfiances) en respectant les contraintes imposees par la matrice MAT (voirfigure 3.3). L’operation consiste donc a generer des listes de solutions donton a controle la presence (via la matrice MAT) de la bonne solution dans


chacune des listes de solutions.

Deux cas d’utilisation du simulateur peuvent etre possibles:

– on se donne explicitement la matrice MAT (on se fixe les taux de re-connaissance TLK

i pour chaque K et chaque classe, et les taux de rejetTRi, i de 1 a N.

– on ne se donne comme parametre que les performances globales (TL1,TL2, ..., TLN) et on construit la matrice MAT a partir d’un algorithmepresente en 3.2.2.3.

Fig. 3.3 – Principe de simulation de liste de comportements

3.2.2.2 Generation de sorties a partir de MAT

Cette procedure consiste a generer tout d’abord les listes de solutions(les etiquettes de classes et le rejet) en respectant la matrice de performancesemi-globale MAT (3.1) et a affecter ensuite des valeurs de confiance a chaquesolution.


MAT =

TL11 TL2

1 . . . TLN1 TR1

......

. . ....

...TL1

i TL2i . . . TLN

i TRi...

.... . .

......

TL1N TL2

N . . . TLNN TRN

(3.1)

– Generation de listes de solutions

Disposant d’une matrice MAT, la question importante qui se pose est com-ment generer les sorties? Pour generer les listes de solutions respectant lestaux de reconnaissance et de rejet de la matrice MAT, nous placons pourchacune des classes les solutions en premiere position, puis en deuxieme po-

sition, ..., jusqu’a la N ieme position. Pour cela, on doit connaıtre le nombred’etiquettes a distribuer dans les listes de sorties pour chacune des classeset chacune des positions. Or, la matrice MAT contient des taux de recon-naissance cumules: TL2

i est le nombre d’elements dont la bonne solution setrouve dans les deux premieres propositions (en premiere ou en deuxieme).D’une maniere generale,

TLK+1i = TLK

i + nombre d’elements qui se trouvent enK iemeposition(3.2)

Pour cela, la premiere etape a realiser consiste a determiner a partir dela matrice MAT, une autre matrice MATV contenant la variation du nombred’etiquettes entre le rang K et le rang K+1 pour chaque classe. Le remplis-sage de cette matrice est presente par l’algorithme 1.

Lorsque la matrice MATV est determinee, l’etape suivante consiste agenerer les listes correlees de solutions. Chaque sortie peut etre composeed’une solution rejet ou d’une liste de N solutions. Ici, on traite tout d’abordles solutions rejet ensuite les listes de solutions des classes. Les sorties sontdonc remplies de maniere verticale puis de maniere horizontale. Pour chacunedes classes Ci, on tire une sortie aleatoirement (sans remise) parmi les Si eton lui affecte la solution rejet. Ceci est repete tant qu’il reste des solutionsrejet a distribuer. Toujours pour la meme classe et pour chaque proposi-tion K (K=1 a N), on choisit une sortie aleatoirement et on place l’etiquetterepresentant la bonne solution. On distribue ensuite les etiquettes des autresclasses (c’est a dire de confusion). De cette facon, on determine les sortiesdont la bonne solution figure en premiere proposition, ensuite en deuxiemeproposition, jusqu’a la proposition N. Cette procedure est representee parl’algorithme 2.


Algorithme 1 Remplissage de la matrice MATVEntrees :

N : nombre de classesMAT : matrice des performances semi-globales

Sorties :

MATV : matrice des nombre des etiquettes pour chaque classe et proposition

Debut

Pour i de 1 a N faire

Debut

MATV[i][1]= MAT[i][1]MATV[i][N+1]= MAT[i][N+1] /* copier le rejet aussi */Pour k de 2 a N faire

Debut

MATV[i][k]= MAT[i][k]- MAT[i][k-1]

Fin pour

Fin pour

Fin

– Generation de confiances

Cette procedure consiste a associer a chaque etiquette generee la confiancecorrespondante. Les confiances de chaque sortie s sont normalisees (leursomme est egale a 100%) et ordonnees de maniere decroissante. En d’autrestermes, chaque confiance ms

ik (i=1..., N et k=1,..., N) doit etre superieure ala confiance placee a la proposition suivante de la liste de solutions c’est a dire:

msik > ms

i(k+1) (3.3)

La confiance de la premiere solution de chaque liste doit etre superieure a100N

. Cette contrainte n’est appliquee que pour les sorties qui sont composeespar deux solutions au moins. Pour les sorties contenant une seule solution(etiquette de classe ou rejet), la confiance est fixee a 100%. La procedurede generation des confiances d’une liste de solutions est presentee par l’algo-rithme 3.

La figure 3.4 montre un exemple des sorties generees (10 sorties par classe)pour un probleme a 2 classes avec TL1 = 50%, TR=20%, α1 = 30% et β = 0%(TL2 est a 80%). La premiere colonne de cette figure presente les vraiesclasses. Les colonnes suivantes forment les solutions du classifieur. Nous pou-vons constater que la moyenne des taux de reconnaissance en premiere pro-position est egale a 50%. Le taux de rejet pour chacune des classes est a 20%.On peut constater egalement que les confiances generees sont decroissantes


Algorithme 2 Generation de listes de solutions correleesEntrees :

N : nombre de classesSi: nombre de sorties a generer pour chaque classe Ci

MATV : matrice des nombres d’etiquettes a generer

Sorties :

Sli : liste des solutions a generer (i de 1 a N et l de 1 a Si)

Debut


Debut

Initialiser Liste par Si numeros des sorties

/* traitement du rejet */Tant que MATV [i][N + 1] > 0 faire

Debut

Tirer sans remise un numero s dans Liste

Placer la solution rejet dans Ssi

Fin Tant que

/* traitement des listes de solutions de classes */Pour chaque proposition K de 1 a N faire

Debut

Tant que MATV [i][k] >0 faire

Debut

Tirer sans remise un numero s dans Liste

Placer Ci dans la kieme proposition de Ssi

Placer les etiquettes des classes restantesdans Ss

i

Fin Tant que

Fin pour

Fin pour

Fin


Algorithme 3 Choix des confiances d’une liste de solutions d’une sortie sEntrees:

N : nombre de classes

Sorties:

msij : la jieme confiance (j=1..N) de la liste de solutions de la sortie s

Debut

Tirer aleatoirement la premiere confiance msi1 entre 100

Net 100%

Initialiser W a msi1

Pour k de 2 a N faire

Debut

Tirer aleatoirement une confiance msik entre ms

i(k−1) et 100−WN−k+1

Incrementer W de msik

Fin

et que la somme des solutions de chaque sortie (ligne) est egale a 100% (ycompris la solution rejet).

3.2.2.3 Construction de la matrice MAT

Nous avons vu dans le chapitre 2 qu’on peut recalculer un vecteur desperformances globales, contenant les taux de reconnaissance de bonne clas-sification (TL) et le taux de rejet (TR) dans les differentes propositions, apartir d’une matrice des performances semi-globales MAT. Simuler la matriceMAT, necessite donc de prendre en compte les deux taux TL et TR (dans lesdifferentes propositions) comme parametres d’entree du module de construc-tion de MAT afin de produire des parametres respectant le comportementdesire (decrit par le vecteur).

– Parametres utilises

En plus du nombre de classes et le nombre de sorties par classe, quatre pa-rametres supplementaires doivent etre fournis au simulateur dans ce cas: deuxparametres fixant des performances intrinseques et deux parametres fixantdes variations relatives. Nous allons les definir ci-dessous.

Les parametres fixant les performances intrinseques sont les parametresqui permettent de decrire les performances semi-globales (performance moyenne)tels que le taux de rejet global et les taux de reconnaissance globaux.


Fig. 3.4 – Exemples de sorties respectant 2 comportements

TR: correspond au taux de rejet qui represente le rapport entre le nombrede sorties rejetees et le nombre total de sorties. Notons ici que nous avonschoisi de n’associer en sortie qu’une seule etiquette (rejet) lorsque le classi-fieur rejette si bien que TR = TR1 = TR2 = ... = TRN .

T : correspond au vecteur des taux moyen de reconnaissance dans toutesles propositions, T=[TL1,TL2,..., TLN−1]. TLk est le rapport entre le nombrede sorties dans lesquelles la bonne classe apparaıt dans les k premieres so-lutions et le nombre total de sorties. En passant d’une colonne a une autrede la matrice MAT, le nombre d’elements correspondant a la bonne solutionaugmente ce qui veut dire que les taux de reconnaissance du vecteur T sontcroissants. Autrement dit chaque taux TLk doit respecter la contrainte:

TLk ≤ TLk+1 (3.4)

N etant le nombre de classes, la valeur du taux de reconnaissance TLN dependdu taux de rejet TR. TLN et TR sont relies par la relation suivante : TLN +TR = 100%. Lorsqu’il n’y a pas de sorties rejetees, alors la bonne solutionexiste obligatoirement dans toutes les listes a N solutions. Dans ce cas, TLN

=100%.


Notons aussi qu’on n’introduit pas le taux de confusion TCK commeparametre d’entree puisque TLK, TR et TCK sont relies par la relation sui-vante : TLK + TR + TCK = 100%.

En plus des performances globales, nous avons voulu egalement controlerla variabilite dans les performances sur chacune des classes. Pour cela, il fautdisposer de parametres permettant de limiter la marge de variation des tauxde reconnaissance et de rejet par classe. Nous avons utilise deux parametresfixant les variations relatives:

β: limite la marge des taux de rejet TRi pour chacune des classes Ci.

α: vecteur des marges de variation des taux de reconnaissance, α =[α1,α2,...,αN−1]. αK permet de limiter le champs de variation du taux dereconnaissance TLK

i pour chaque classe Ci.

Ayant defini ces parametres, on construit la matrice MAT afin de fixerles performances semi-globales d’un classifieur.

– Algorithme de construction

Il s’agit de remplir, a partir d’un vecteur T donne, contenant tous les tauxmoyen de reconnaissance et un taux de rejet TR donne, une matrice MAT.Cette construction se fait en deux etapes: generation des taux de rejet pourchacune des classes puis generation des taux de reconnaissance. Determinerles taux de rejet consiste a respecter la performance globale de rejet TRainsi que sa borne de variation β. Respecter la moyenne TR revient a choisiraleatoirement des taux TRi avec :

N∑

i=1

TRi = TR ∗ N (3.5)

Respecter une borne de variation β revient a tirer aleatoirement des taux derejet TRi avec

TRi ∈ [TR − β; TR + β] (3.6)

A chaque tirage, on choisit une ligne aleatoirement parce que si on remplitla matrice ligne par ligne en commencant de 1 a N, les derniers taux (durejet ou de reconnaissance) seront toujours tires dans des intervalles reduits.En effet, plus on effectue de tirages, plus les bornes se retrecissent et lestirages deviennent restrictifs. Pour eviter cette repartition de taux dans la


Algorithme 4 Generation des taux de rejetEntrees:

TR : taux de rejet moyen a respecterβ: ”variance” du taux de rejetN: nombre de classes

Sorties:

TRi : taux de rejet pour chaque classe (i de 1 a N)

Debut

Initialiser SOM a TR*NPour i de 1 a N faire

Debut

Tirer sans remise un numero l entre 1 et NInitialiser MIN a SOM - (N-i-1)*(TR + β)Initialiser MAX a SOM - (N-i-1)*(TR - β)if MIN < TR - β alors MIN = TR - β

if MAX > TR + β alors MAX = TR + β

Tirer aleatoirement un taux TRl entre MIN et MAXDecrementer SOM de TRl

Fin faire

Fin

matrice, on tire un numero de ligne aleatoirement avant chaque tirage. Cetteprocedure est presentee dans l’algorithme 4.

Ayant fixe le rejet pour chaque classe, on determine ensuite les elementsTLK

i selon TLK et αK (K de 1 a N-1). Ce tirage se fait de la meme faconque pour les taux de rejet c’est-a-dire en respectant une moyenne TLK etune borne de variation αK. A chaque tirage d’un taux TLK

i (K ∈[1..N]), nousdevons respecter les contraintes suivantes

∑Ni=1 TLK

i = TLK ∗ NTLK

i ∈ [TLK − αK; TLK + αK]TLK

i ≤ 100 − TRi

(3.7)

En plus de ces contraintes, le taux de reconnaissance TLKi doit etre

inferieur ou egal a TLK+1i puisque chaque taux moyen de reconnaissance

TLK ≤ TLK+1.

TLK ≤ TLK+1 ⇒ TLK ∗ N ≤ TLK+1 ∗ N⇒ N ∗

∑Ni=1 TLK

i ≤ N ∗∑N

i=1 TLK+1i

⇒ TLKi ≤ TLK+1

i

(3.8)

Le tableau 3.2 presente un exemple de matrice MAT generee pour unprobleme a 5 classes avec 1000 elements par classe selon les parametres sui-vants: TL1=50.0, α1=7, TL2=60.0, α2= 3, TL3=81.5, α3= 10, TL4=93.0,


α4=1, TR=3.0 et β=3.

Classes top 1 top 2 top 3 top 4 top 5 TRC1 487 627 764 922 961 39C2 457 622 749 931 997 3C3 525 571 886 927 944 56C4 466 591 801 934 999 1C5 565 589 875 936 949 51

Val moy 500 600 815 930 970 30Val min 466 571 749 922 944 1Val max 565 627 875 936 999 56

Tab. 3.2 – Exemple de matrice MAT pour un probleme a 5 classes

D’apres le tableau 3.2, nous pouvons constater que les taux moyens de re-connaissance et leurs variances sont bien respectes. Par exemple, la moyenne(Val moy) des elements de la colonne top1 est egale a 500 (pour TL1 de 50%).Les valeurs minimum et maximum (Val min et Val max) de cette colonnesont dans l’intervalle [430;570]. La contrainte TLN+TR=100% est aussi res-pectee: pour toutes les classes, la somme de l’element en top5 et celui dutaux de rejet est egale a 1000.

3.2.2.4 Conclusion

Nous avons presente un algorithme de simulation de sorties de classi-fieurs. Cette simulation se base sur une matrice des performances semi-globales MAT pour generer une listes de sorties correlees. Ce comportementest interessant dans l’analyse de l’influence des performances des classifieurssur certaines methodes de combinaison puisqu’on controle ses performancesdans toutes les positions de la liste de solutions (performances semi-globales).

Bien que la construction de la matrice MAT permette de generer des com-portements plus proches de la realite, elle necessite neanmoins un nombreimportant de parametres (2N+4) surtout lorsque le nombre de classes Naugmente. Nous verrons dans ce qui suit une autre facon de caracteriser unclassifieur utilisant moins de parametres mais respectant plus de contraintesen ce qui concerne les performances locales.


3.2.3 Simulation d’un seul comportement

Dans certains problemes de reconnaissance, les chercheurs peuvent s’interesseruniquement aux performances du systeme de reconnaissance dans les Kpremieres propositions (en top K) sans regarder les performances au debutde la liste (en premiere proposition ou dans les deux premieres, etc.). Etu-dier les methodes de combinaison dans ce cas necessite de disposer d’unsimulateur permettant de generer des sorties respectant une seule perfor-mance. Pour cela, nous avons choisi de simuler un seul comportement dansles K premieres solutions (K est compris entre 1 et N) [Zouari et al., 2003a,Zouari et al., 2003b].

3.2.3.1 Principe

Dans le cas reel, certaines mesures de performance peuvent etre calculeesa partir des resultats fournis par le classifieur pour evaluer les methodes decombinaison. Pour generer des sorties respectant un seul comportement dansles K premieres solutions, on procede dans l’autre sens. A partir d’une ma-trice de confusion ou de co-presence MCK , on genere les sorties desirees (voirfigure 3.5). La matrice MCK , decrivant le comportement du classifieur a si-muler dans chacune des classes, peut etre soit specifiee par l’utilisateur, soitsimulee de facon a ce que les performances globales imposees comme le tauxde reconnaissance et le taux de rejet soient respectees.

3.2.3.2 Generation de sorties a partir de MCK

Pour generer des sorties respectant un seul comportement dans les Kpremieres propositions, on utilise la matrice MCK presentee comme suit :

MCK =

TLK1 . . . TCK

1j . . . TCK1N−1 TR1

.... . .

.... . .

......

TCKi1 . . . TLK

i . . . TCKiN−1 TRi

.... . .

.... . .

......

TCKN1 . . . TCK

Nj . . . TLKN TRN

(3.9)

Rappelons que les elements de la diagonale sont les taux de reconnaissanceTLK

i qui correspondent au nombre de sorties de la classe Ci pour lesquellesla bonne solution apparaıt dans les K premieres propositions. La moyenne deces taux donne le taux de reconnaissance global TLK . Le taux de rejet TRi

correspond au nombre de sorties rejetees pour chaque classe Ci. La moyennede ces taux est TR. Les elements restants sont les taux de confusion TCK

ij qui


Fig. 3.5 – Principe de simulation d’un comportement dans les K premieressolutions

correspondent au nombre de sorties etiquetees Ci pour lesquelles la solutionCj (j6=i) apparaıt dans les K premieres solutions.

Disposant d’une matrice de confusion ou de co-presence MCK , la procedurede simulation consiste a generer tout d’abord les listes de solutions (lesetiquettes de classes et le rejet) a partir de la matrice MCK et d’affecterensuite des valeurs de confiance a chaque solution.

– Generation de listes de solutions

Pour generer les sorties qui, en moyenne, doivent respecter un taux de recon-naissance et un taux de rejet dans les K premieres solutions, on doit connaıtrele nombre d’etiquettes a distribuer dans les listes de sorties de chacune desclasses. Pour cela, la premiere etape a realiser consiste a calculer les effectifsa partir de la matrice MCK selon le nombre de sorties desire Si pour chacunedes classes Ci. Cette phase permet de passer d’une matrice de probabilitesMCK a une matrice d’effectifs MNK . Pour remplir la matrice des effectifsMNK , il suffit de multiplier les probabilites de chaque ligne i de la matriceMCK par (Si*K).


L’etape suivante consiste a generer Si sorties pour chacune des classes. Sion tire au hasard, on peut facilement obtenir des listes de solutions conte-nant plusieurs etiquettes de la meme classe. Or, il ne faut pas oublier quechaque liste de solutions doit contenir des etiquettes de classes differentes.Une classe ne peut pas figurer deux fois dans une meme liste de solutions.Des lors, comment faire pour respecter en meme temps cette contrainte et leseffectifs des classes? Une facon de faire pour resoudre ce probleme consiste atirer pour chaque sortie choisie aleatoirement, les etiquettes des classes ayantles effectifs les plus eleves.

Maintenant, une sortie peut etre composee d’une solution rejet ou d’uneliste de K solutions au plus. Pour affecter l’un de ces deux types de solu-tions a chaque sortie, on utilise un mecanisme simple qui depend a la fois dunombre des sorties restantes a traiter et du nombre des sorties restantes arejeter pour chaque classe. L’algorithme 5 presente ce mecanisme.

Dans le cas de la generation des listes de solutions, certaines questions seposent. La premiere est combien de solutions peut-on placer dans chacunedes listes? Notons Y l

i le nombre de solutions a generer pour une sortie l etpour une classe Ci. Y l

i varie entre 1 et K. Pour comprendre comment chercherla valeur de Y l

i , prenons un exemple simple de generation de 2 sorties pourchacune des classes a partir d’une matrice MN 3 pour un probleme a 3 classes(voir figure 3.6).

Fig. 3.6 – Exemple de generation de deux sorties a partir d’une matrice MN 3

Si on s’interesse a la generation des sorties dont la vraie classe est 0, dansce cas, nous devons determiner le nombre d’etiquettes de classes Y 1

0 a placerdans la sortie s1. Si on choisit Y 1

0 =1 alors nous devons placer dans la sorties2 4 etiquettes de classes puisque le nombre total d’etiquettes a placer dansles deux sorties est 5. Or, on ne peut placer que 3 etiquettes maximum danschaque sortie (puisque K=3). Si Y 1

0 est egal a 2 ou 3, alors on devra placer 3


Algorithme 5 Choix du type des sorties a genererEntrees:

N: nombre de classesMNK : matrice des effectifs des etiquettes a genererSi : nombre de sorties a generer pour chaque classe Ci

Ei: nombre des sorties restantes a genererRi: nombre des sorties (etiquettes) restantes a rejeterTab : liste des numeros des sorties a generer contenant une liste de solutions

Sorties:

Sli : liste de solutions pour i=1 a N et l=1 a Si

Debut


Debut

Initialiser Ri a MNK [i][N + 1]Initialiser Ei a Si − Ri

Tant que toutes les sorties ne sont pas traitees faire

Debut

Tirer sans remise un numero l entre 1 et Si

Tirer aleatoirement une valeur X dans [1..Ei + Ri]Si X ∈ [Ei..Ei + Ri] alors

Placer une solution rejet dans Sli

Decrementer Ri de 1

sinon

Sauvegarder l dans TabDecrementer Ei de 1

Fin faire

Fin faire

Fin


ou 2 solutions dans s2, ce qui est possible. On voit tres bien ici qu’il faut fixerles valeurs limites minY et maxY de Y 1

0 afin de respecter en meme tempsles contraintes imposees par la matrice des effectifs (le choix des etiquettesde classes) et le tirage aleatoire de Y 1

0 . Le calcul de ces valeurs limites prenden compte le nombre de sorties et le nombre des etiquettes restantes a generer.

Apres avoir determine la valeur Y li , une deuxieme question se pose: quelles

sont les etiquettes de classes a placer dans la sortie sl? Rappelons ici (commepour la generation de sorties respectant N comportements) qu’on doit tirerles etiquettes de classes ayant les effectifs les plus eleves afin de respecterla matrice des effectifs et d’eviter le probleme d’avoir pour une meme classeplus d’une etiquette dans une sortie. Si on reprend l’exemple de la figure 3.6en fixant Y 1

0 =2, on constate bien qu’on ne peut pas choisir les etiquettes desclasses 1 et 2 pour la sortie s1 puisqu’on obtient dans s2 deux fois l’etiquettede la classe 0 (cas 1 de la figure 3.7). Le fait de choisir, pour la premieresortie, les etiquettes de classes ayant les effectifs les plus eleves (c’est a dire0 et 1) permet d’eviter ce probleme (cas 2 de la figure 3.7). L’algorithme 6presente le mecanisme de la generation des etiquettes pour chaque classe Ci,i=1 a N.

Fig. 3.7 – Choix des etiquettes de classes pour deux sorties a partir d’unematrice MN3


Algorithme 6 Generation des etiquettes de classes des sorties contenant deslistes de solutions pour une classe Ci

Entrees:

Ei: nombre des sorties a generer contenant des listes de solutionsT l

i :nombre des sorties deja traiteesZi:nombre des etiquettes restantes a genererTab : liste des numeros des sorties a generer contenant une liste de solutions

Sorties:

STab[s]i : liste de solutions de la sortie Tab[s] pour s=1 a Ei

Debut

Initialiser Zi a∑N

j=1 MNK [i][j]Initialiser Ti a 1Pour s de 1 a Ei faire

Debut

minY = max(1,Zi − (Ei − TTab[s]i ) ∗ K)

maxY = min(K,Zi − (Ei − TTab[s]i ))

Tirer aleatoirement YTab[s]i entre minY et maxY

Choisir YTab[s]i etiquettes des classes ayant les effectifs les plus

elevesPlacer ces etiquettes aleatoirement dans S

Tab[s]i

Decrementer Zi de YTab[s]i

Incrementer Ti de 1

Fin pour

Fin


– Generation de confiances

Cette etape consiste a associer une confiance a chaque etiquette tiree dansla liste de solutions. Elle se realise de la meme maniere que celle presenteepour la generation de sorties correlees (algorithme 3). En d’autres termes,chaque confiance doit etre inferieure a celle placee en amont dans la liste desolutions. La seule difference est que le nombre N dans l’algorithme 3 estremplace par Y

Tab[s]i (nombre de solutions dans la liste).

La figure 3.8 montre un exemple des sorties generees pour un probleme a5 classes avec K=3, TL3 = 86%, TR=5%, α3 = 10% et β = 2%. La premierecolonne de cette figure presente les vraies classes. Les colonnes suivantesforment les solutions du classifieur. Nous pouvons constater que les confiancesgenerees sont decroissantes et que la somme des solutions de chaque sortie(ligne) est egale a 100% (y compris la solution rejet).

Fig. 3.8 – Exemples de sorties composees de 3 solutions au plus pour unprobleme a 5 classes

3.2.3.3 Construction de la matrice MCK

Nous avons vu que notre simulateur recoit en entree une matrice MCK .Disposer des matrices differentes pour un meme probleme, ou seule les per-formances globales sont imposees, n’est pas facile a obtenir. Une solutionpossible est de simuler des matrices respectant le meme comportement glo-bal desire. Dans les paragraphes suivants, nous detaillons la construction dela matrice MCK (qui peut etre une matrice de confusion ou de co-presence)en presentant les parametres, les contraintes et les algorithmes necessaires a


sa realisation.


Pour respecter un seul comportement, nous avons besoin tout d’abord deconnaıtre le nombre maximal K de solutions. Ceci est important pour lacombinaison qui doit prendre la decision en tenant compte des premieres so-lutions et non seulement de la premiere puisque la vraie classe peut apparaıtredans cette liste a differentes positions. La figure 3.9 montre des exemples desorties qu’un classifieur reel peut proposer pour 3 valeurs differentes de K.

Fig. 3.9 – Exemples de sorties proposees par un classifieur reel pour unprobleme a 3 classes (a) avec K = 1 ; (b) avec K = 2 ; (c) avec K = 3

Pour construire la matrice MCK (que nous avons defini dans la section3.2.3.2), il faut disposer de parametres decrivant les performance globalestelles que le taux de rejet TR et le taux moyen de reconnaissance TLK .


Rappelons que le taux de reconnaissance TLK represente le rapport entrele nombre de sorties dans lesquelles la bonne classe apparaıt dans les Kpremieres solutions et le nombre total de sorties.

Rappelons egalement qu’on n’introduit pas comme parametre d’entree letaux de confusion TCK representant le rapport entre le nombre de sortiesdans lesquelles la bonne classe n’apparaıt pas dans les K premieres solutionset le nombre total de sorties. En effet, TCK est un parametre lie a TLK etTR par TCK = 100% - TLK- TR.

Rappelons que TLK et TR permettent de simuler la performance globaledu classifieur et que pour controler la variabilite dans les performances surchacune des classes, il faut disposer de parametres permettant de limiter lamarge de variation des taux de reconnaissance et de rejet par classe. Nousutilisons alors αK pour limiter la marge de variation des taux de reconnais-sance et βK pour le taux de rejet.

Apres avoir defini les parametres fixant un seul comportement dans les Kpremieres solutions, nous presentons maintenant la construction de la matriceMCK en fonction de ces parametres.

– Algorithme de construction

La construction de la matrice MCK (pour K variant de 1 a N) se fait en troisetapes : generation des taux de rejet pour chacune des classes puis generationdes taux de reconnaissance et enfin generation des taux de confusion. Dansla premiere etape, on tire aleatoirement un taux de rejet par classe suivantla moyenne TR et la variance β. Pour respecter ces parametres, on utilisel’algorithme 4 comme dans la construction de la matrice des performancessemi-globales MAT. Dans la deuxieme etape, on tire les taux de reconnais-sance par classe en respectant les contraintes (3.7).

Ayant fixe les taux de rejet et les taux de reconnaissance pour chaqueclasse (ligne) dans la matrice MCK , on remplit ensuite les colonnes restantes”confusion”. Pour cela, on tire aleatoirement des valeurs comprises entre 0et ST K

i , ST Ki etant la somme totale des taux de confusion de chaque ligne i

de la matrice MCK .

ST Ki =

N∑

j=1,i6=j

TCKi,j (3.10)


La valeur de ST Ki depend du nombre de propositions K. Dans le cas ou K=1,

la somme des taux de chaque ligne (ST 1i ) doit etre egale a 100% puisque

les sorties a generer par la matrice MC1 sont formees d’une seule solution(figure 3.9(a)). Donc, pour generer les taux de confusion de MC1, nous devonsrespecter la contrainte suivante:

ST 1i = 100% − TRi − TL1

i (3.11)

Dans le cas ou K = N, chaque sortie contient N etiquettes a l’exception de lasolution rejet qui est composee d’une seule etiquette ’?’ (figure 3.9(c)). Lestaux de chaque ligne de la matrice MCN sont egaux a N*100%. Les tauxde confusion TCN

ij sont egaux au taux de reconnaissance TLNi puisque le

nombre des etiquettes dans les sorties est le meme pour toutes les classes (ycompris la vraie classe). Par la suite, pour generer ce type de sorties, nousdevons respecter la contrainte suivante pour chacune des classes Ci:

ST Ni = N ∗ 100% − N ∗ TRi − TLN

i

= N ∗ (100% − TRi) − TLNi

= (N − 1) ∗ TLNi

(3.12)

De plus, les taux de confusion TCNij de chaque ligne doivent etre egaux a

100% - TRi.

Pour K variant entre 2 et N-1, on peut generer des sorties dont chacunepeut contenir une, deux, ..., ou K solutions au plus (figure 3.9(b)). Dansce cas, la somme des taux pour chaque classe de la matrice MCK doit etrestrictement inferieure a K*100. Pour cela, nous devons respecter la contrainte3.13 pour calculer les taux de confusion dans la matrice MCK .

ST Ki ≤ K ∗ 100% − K ∗ TRi − TLK

i

≤ K ∗ (100% − TRi) − TLKi

(3.13)

Notons que l’utilisation de la derniere contrainte 3.13 ne permet pas(seule) de fixer la quantite de confusion a generer puisque la borne inferieuren’est pas fixee. Pour controler cette borne, on utilise un parametre tc enentree du simulateur (tc ≤ 1). Par exemple, tc=0.5 signifie que la quantitede solutions de confusion a generer est la moitie de la quantite obtenue parla contrainte 3.13.

La figure 3.10 montre un exemple de matrices generees pour un probleme a10 classes avec K=1, K=5 et K=10 respectivement. TLK = 95.5%, TR=4.5%et β = 2%. La matrice (a) respecte la contrainte 3.11. La somme des tauxde chaque ligne de cette matrice est egale a 100%. La matrice (b) respecte la


contrainte 3.13 ce qui veut dire que la somme des taux peut etre inferieurea 3*100%. Alors que dans la matrice (c) qui respecte la contrainte 3.12, lasomme totale des taux de chaque ligne est egale a 300% et les taux de confu-sion sont les memes que le taux de reconnaissance.

Fig. 3.10 – Exemples de matrices de co-presence (a)K=1 (b) K=5 (c) K=10

Notons egalement que les colonnes ”confusion” peuvent etre remplies se-lon une repartition choisie en entree. En effet, dans une matrice reelle, on peuttrouver des classes representant une forte confusion entre elles et d’autresayant une faible confusion. Pour avoir cette distribution, il faut controlerla repartition des taux de confusion c’est-a-dire choisir le nombre de classesles plus confondues. Si on ne veut pas controler la distribution des taux de


confusion dans la matrice, on peut les repartir de maniere aleatoire. C’estpour cela qu’on utilise trois type de repartitions:

– aleatoire : dans ce cas, tous les taux de confusion (N-1 colonnes) sonttires aleatoirement.

– equiprobable : les taux de confusion de chaque ligne de la matricesont tous egaux.

– deterministe : selon le nombre de colonnes a remplir qui peut varierde 1 a N-2, on calcule d’une maniere equiprobable les taux de confu-sion. Les colonnes restantes sont a 0.

L’interet de l’utilisation de plusieurs repartitions est d’obtenir pour lememe comportement desire des performances differentes. L’utilisation de laderniere repartition permet d’eviter la presence de plusieurs taux de confusiontres faibles. Ce cas se presente souvent pour des problemes a plusieurs classes.

La figure 3.11 montre un exemple de matrices generees avec ces 3 typesde repartition pour un probleme a 5 classes en fixant TL1 = 80%, α1 = 10%,TR=5% et β = 5%.

Fig. 3.11 – Exemples de matrices de co-presence (a)aleatoire (b) equiprobable(c) deterministe


3.2.3.4 Conclusion

Nous avons presente une methode de simulation d’un classifieur respec-tant un seul comportement dans les K premieres solutions. Cette methodeconsiste a generer automatiquement des sorties en fonction d’une matrice deconfusion ou de co-presence MCK fixant le comportement interne du clas-sifieur. Cette matrice peut nous etre donnee ou construite a partir d’un jeureduit de parametres decrivant les performances globales a respecter.

Adopter cette meme approche pour generer une liste de comportements,c’est-a-dire construire une matrice de co-presence pour chaque liste de solu-tions, n’est pas facile a realiser. Le nombre de contraintes a respecter devientimportant surtout lorsque la taille de la liste de solutions augmente. Nousverrons dans ce qui suit une autre facon de caracteriser un classifieur per-mettant de generer des sorties respectant deux comportements et donc dessorties plus proches de la realite. Cette methode permet de controler plusd’informations dans les sorties mais doit respecter plus de contraintes en cequi concerne les performances locales (on utilise alors deux matrices de co-presence).

3.2.4 Simulation de deux comportements

De la meme facon qu’a partir des sorties d’un classifieur reel, nous pou-vons determiner son comportement pour differentes tailles de la liste de so-lutions (en premiere proposition, dans les deux premieres, ..., dans les Kpremieres), notre simulateur permet de controler non seulement le compor-tement dans les K premieres solutions mais aussi, et en meme temps, soncomportement dans les K ′ premieres (avec K ′ < K) [Zouari et al., 2004c].Ce point est particulierement interessant si l’on veut etudier le comportementde certains operateurs de combinaison lorsque les classifieurs a combiner ontpar exemple un taux de reconnaissance en premiere position relativementfaible mais qu’ils presentent systematiquement la bonne solution dans les Kpremieres propositions (TLK >> TL1). Ces problemes sont bien connus enreconnaissance de caracteres et de mots lorsque la combinaison est utiliseepour faire remonter en tete de liste les bonnes solutions.

3.2.4.1 Principe

La generation de deux comportements consiste a utiliser deux matricesde co-presence MCK′

et MCK en entree du similateur pour generer la liste


des sorties desirees (figure 3.12). Des mesures de performances globales tellesque les taux de reconnaissance et de rejet peuvent etre utilises pour simulerles deux matrices afin de fixer les performances dans chacune des classes. Lastructure du simulateur est donc constituee des etapes suivantes :

1. Pour chaque sortie, generation d’une liste a K’ solutions en utilisant lamatrice MCK′

2. Pour chaque sortie, generation des K-K’ solutions restantes en utili-sant la matrice MCK et affectation des valeurs de confiance a chaquesolution.

Fig. 3.12 – Principe de simulation des sorties respectant deux comportementsdans les K premieres solutions

3.2.4.2 Generation des sorties respectant deux comportements

Dans cette section, nous presentons les procedures necessaires pour lageneration de sorties du simulateur de classifieur a partir des matrices donneesen entree du simulateur. Rappelons ici que nous generons d’abord les sortiesa K ′ solutions a partir du comportement fixe par MCK′

puis nous generonsles (K − K ′) solutions restantes a partir du comportement fixe par MCK .


La premiere etape peut etre realisee en appliquant les algorithmes 5 et 6en remplacant la matrice MCK par MCK′

et K par K ′. La deuxieme etapepermet de generer les K − K ′ solutions restantes en utilisant la matrice deco-presence MCK et en tenant compte des solutions generees dans la listedes sorties S l

i (i de 1 a N et l de 1 a S). Pour cela, la matrice des effectifsest construite a partir de la matrice de co-presence MCK et la differenceentre cette matrice et celle que nous avons construite precedemment a partirde MCK′

(c’est-a-dire MNK′

) est obtenue. Soit MNK la matrice contenantles effectifs restants. Les effectifs du rejet ne sont pas pris en compte danscette etape puisque les solutions rejetees sont deja generees dans la phaseprecedente.

Pour chaque sortie choisie aleatoirement (differente du rejet), on tire unnombre d’etiquettes restantes a placer dans cette sortie. Ce nombre peutetre egal a 0 mais ne doit pas depasser la valeur K-K’. Bien evidemment, lessolutions a tirer sont les etiquettes des classes ayant les effectifs les plus eleveset doivent etre differentes de celles deja tirees dans la liste de K’ solutions.Cette generation peut etre illustree par l’algorithme 7.

Notons que le calcul des confiances pour les solutions generees se realise dela meme maniere que celle presentee pour la generation des sorties respectantun comportement ou une liste de comportements.

3.2.4.3 Construction des matrices MCK et MCK′

Pour generer des sorties respectant deux comportements, le simulateurse base sur deux matrices MCK et MCK′

. Ces deux matrices peuvent etrespecifiees par l’utilisateur comme elles peuvent etre simulees. Notons quela construction de la matrice MCK a deja ete presentee dans la sectionconsacree a la generation d’un seul comportement. Dans les paragraphessuivants, nous detaillons uniquement la construction de la matrice MCK′

enpresentant les parametres, les contraintes et les algorithmes necessaires a sarealisation.


De la meme facon que pour simuler une matrice respectant un comportementdans les K premieres propositions, nous avons utilise les parametres K, TLK

et αK, pour simuler une matrice respectant un comportement dans les K’premieres propositions, les parametres de type K ′, TLK′

et αK′

sont utilises.

K ′: correspond au nombre de solutions respectant le premier comporte-ment. Ce nombre est le meme pour toutes les sorties.


Algorithme 7 Generation des sorties respectant deux comportements dansles K premieres propositionsEntrees :

MNK : matrice des effectifs restants des classesSi: nombre de sorties par classe (i de 1 a N)

Sorties :

Sli : liste des solutions restantes a generer (i de 1 a N et l de 1 a S)

Debut


Debut

Tant que toutes les sorties ne sont pas traitees faire

Debut

Tirer sans remise un numero l entre 1 et Si

Si Sli ne contient pas une solution rejet alors

Tirer un nombre d’etiquettes dans les classesayant les effectifs les plus eleves dans MNK

Placer ces etiquettes aleatoirement dans S li

(apres les K ′ etiquettes)Decrementer le nombre des etiquettes choisiesdans MNK

Fin si

Fin Tantque

Fin pour

Fin


TLK′

: correspond au taux moyen de reconnaissance dans les K ′ premieressolutions du classifieur. Il s’agit plus precisement du rapport entre le nombrede sorties dans lesquelles la bonne classe apparaıt dans les K ′ premieres so-lutions et le nombre total de sorties.

Controler la variabilite dans les performances sur chacune des classesconsiste ici a utiliser un autre parametre permettant de limiter la marge devariation des taux de reconnaissance .

αK′

: permet de limiter le champs de variation des taux de reconnaissanceTLK′

i pour chaque classe Ci.

– Construction de MCK′

Nous avons vu dans la section consacree a la generation d’un seul compor-tement que la construction de chaque matrice de co-presence necessite troisetapes: generation des taux de rejet puis des taux de reconnaissance et enfindes taux de confusion. Bien que la construction de la matrice MCK′

res-pecte ces trois etapes, elle est differente de celle de MCK . Les performancesglobales de MCK′

doivent etre inferieures a celles de la matrice MCK .

TLK′

< TLK

TCK′

< TCK (3.14)

A part les taux de rejet qui sont les memes que ceux de la matrice MCK

(puisque la solution rejet est representee toujours par une seule proposition),toutes les performances locales de MCK′

doivent alors etre inferieures a cellesde la matrice MCK . Nous devons donc construire la matrice MCK′

a partirde MCK en respectant les contraintes suivantes :

TLK′

i ≤ TLKi

TLK′

i ≤ 100 − TRi

TLK′

i ∈ [TLK′

− αK′

; TLK′

+ αK′

](3.15)

La generation des taux de confusion est realisee de la meme maniereque celle presentee dans la section 3.2.3.3 en utilisant la contrainte 3.12 (enremplacant N par K’) puisque la matrice MCK′

sera utilisee pour genererdes listes composees exactement de K’ solutions. Chaque taux TCK′

i,j doitetre aussi inferieur ou egal a TCK

i,j. Notons egalement que la repartition des

taux de confusion (aleatoire, equiprobable ou deterministe) dans MCK′

est lameme que celle dans MCK . Cependant, le calcul des taux de reconnaissance


se fait d’une maniere differente de celui de la matrice de MCK . Pour calculerTLK′

i , il suffit de connaıtre la difference δi par rapport au taux TLKi . Pour

cela, on ecrit la somme totale des differences entre les taux de reconnaissancedes deux matrices MCK′

et MCK :

D =∑N

i=1 δi

= (TLKi − TLK′

i ) ∗ N(3.16)

D = 0 signifie que chaque taux de reconnaissance TLK′

i doit etre egal a ce-lui de la matrice MCK . Pour que le taux de reconnaissance TLK′

i respectela moyenne TLK′

et la variance αK′

, il faut verifier que la valeur TLKi - δi

appartient a l’intervalle [TLK′

± αK′

]. Pour cela, nous devons connaıtre lavaleur minimale et maximale de δi. Soient δmin et δmax ces deux valeurs cal-culees apres chaque tirage aleatoire d’une ligne. Ces deux valeurs permettentde connaıtre la difference entre le taux de reconnaissance TLK

i et les bornesde l’intervalle [TLK′

− αK′

; TLK′

+ αK′

] (figure 3.13). Dans ce cas,

δmin = max(0,TLK − (TLK′

+ αK′

))δmax = min(D,TLK − (TLK′

− αK′

))(3.17)

Fig. 3.13 – Determination de la difference entre les taux de reconnaissance

Cependant, le calcul de ces deux valeurs n’est pas suffisant pour realiserle tirage de δi. Prenons l’exemple de deux matrices MC1 et MC2 suivantes:

MC1 =

6575

80

MC2 =

8590

95


Les trois taux de reconnaissance de la matrice MC1 respectent les bornesδmin=15 et δmax=25 (δ1 =20, δ2=25 et δ3=15). Cependant, le dernier tauxde cette matrice n’appartient pas a l’intervalle [65; 75]. Pour resoudre ceprobleme, on doit tenir compte de la difference entre les taux de reconnais-sance TLK

j non encore traites et la borne maximale TLK′

+ αK′

. δmax s’ecrit:

δmax = min(δmax,D −∑

j

[TLKj − (TLK′

+ αK′

)]) (3.18)

La figure 3.14 montre un exemple de matrice MC2 construite a partird’une autre matrice MC3 avec la repartition aleatoire pour un probleme a 7classes. Ces matrices ont les caracteristiques suivantes : TL3 =90%, α3=7%,TR3=1% et β3=1%, TL2=75%, α2=25%.

3.2.4.4 Conclusion

Nous venons de presenter un algorithme de simulation d’un classifieurpermettant de generer des sorties (listes de propositions) respectant deuxmatrices de co-presence. Celles-ci peuvent etre simulees en fonction des pa-rametres decrivant les performances globales desirees (taux global de reco-naissance, taux de rejet, ...). Associer a chaque position dans la liste unematrice de co-presence est une autre solution de simulation interessante carelle permet de controler les performances en tout point de la liste. Cependant,la question ouverte qui se pose consiste a savoir si cette solution est possiblea realiser pour un probleme de classification quelconque. Ceci semble etreune suite interessante a envisager dans la perspective d’amelioration de lasimulation afin de s’approcher encore plus du comportement d’un classifieurreel.

3.2.5 Conclusion

Nous avons propose un simulateur de classifieur permettant de genererdes sorties pour un probleme de classification quelconque. Ce simulateur sebase sur l’utilisation d’un jeu reduit de parametres decrivant le comporte-ment a simuler. Le controle des differents parametres permet de produireune grande variabilite de performances. Le simulateur peut fournir des sor-ties respectant une liste de comportements, un seul comportement ou deuxcomportements. Les sorties du premier type respectant une liste de compor-tements sont les plus proches de celles produites par un classifieur reel dansla mesure ou les performances sont controlees a toutes les positions dans la


Fig. 3.14 – Exemple de matrice MC2 generee a partir d’une autre matrice depresence MC3 avec une repartition aleatoire (a) matrice MC3; (b) matriceMC2 construite a partir de MC3

3.3. Verification du simulateur 147

liste. En respectant un ou deux comportements, on peut controler plus d’in-formations (confusion). Cependant, cela necessite plus de contraintes pourla construction des matrices de co-presence ainsi que pour la generation desorties.

Si l’on souhaite etudier des methodes de combinaison, il faudra alorssimuler un ensemble de L classifieurs en repetant L fois la simulation. Lageneration des sorties d’un classifieur est donc realisee independamment desautres. On voit ici qu’avec cette simulation, on ne peut pas controler lacorrelation entre les sorties des classifieurs. Ce probleme de controle de lacorrelation sera aborde dans le chapitre suivant.

Nous allons maintenant presenter les resultats experimentaux montrantla fiabilite du simulateur propose.

3.3 Verification du simulateur

Les tests que nous presentons dans cette section ont pour but de verifierque le simulateur developpe parvient aux memes resultats que les perfor-mances desirees quel que soit le comportement a simuler. Il est important denoter que le simulateur ne peut respecter fidelement les parametres qu’on luiimpose que s’il genere un nombre suffisant de sorties. Nous analyserons plusprecisement l’influence du nombre de sorties dans la section 3.3.5. Dans lesautres tests de simulation, nous fixerons toujours a 1000 le nombre de sortiesa generer par classe.

3.3.1 Verification avec des matrices donnees

La premiere phase de test vise a montrer que notre simulateur est ca-pable de generer des sorties a partir de matrices qui nous sont donnees. Nousverrons au paragraphe suivant des tests ou ces matrices seront generees auto-matiquement de facon a respecter les performances globales ou semi-globalesque nous voudrons imposer. Pour ces premieres verifications, nous avonsrealise trois experiences selon le comportement a respecter:

– on se fixe une matrice MAT et on regarde si les donnees generees parle simulateur respectent ces performances. On va donc calculer les per-formances semi-globales une fois les sorties generees et les comparer aMAT.


– on se fixe une matrice de confusion MC1 et on fait la meme chosec’est-a-dire on verifie que le simulateur produit des sorties selon lesperformances locales de la matrice de confusion.

– on se fixe deux matrices de co-presence MCk′

, MCk et on fait la memechose.

Dans la premiere experience, nous generons 50 classifieurs en utilisantla matrice MAT de la figure 3.15(a). Cette matrice de performances semi-globales est introduite en entree du simulateur pour respecter 5 compor-tements. La matrice d’erreurs entre les sorties generees et les performancessemi-globales desirees de la matrice MAT est presentee dans la figure 3.15(b).Notons ici que les faibles erreurs sont dues aux calculs d’effectifs. Mais celan’empeche pas le simulateur de generer les sorties selon les performancesfixees a son entree. En fait, lorsque nous avons genere 10000 sorties parclasse (au lieu de 1000) en utilisant toujours la matrice 3.15(a), nous avonsconstate qu’il n’y a pas d’erreurs mesurables.

Fig. 3.15 – Verification de la simulation de 5 comportements en utilisantune matrice de performances semi-globales (a) matrice a simuler (b) matriced’erreurs

Dans la deuxieme experience, nous avons simule 100 classifieurs en utili-sant la matrice de confusion de la figure 3.16(a). Cette matrice de confusionest introduite en entree du simulateur permettant de respecter un seul com-portement. En calculant les erreurs moyennes entre les sorties generees et lesperformances locales desirees, nous avons obtenu la matrice d’erreurs 3.16(b).Ces resultats montrent que notre simulateur est capable de generer les sorties


selon les performances locales souhaitees.

Fig. 3.16 – Verification de la simulation d’un seul comportement (a) matricede confusion utilisee (b) matrice d’erreurs

Dans la troisieme experience, nous avons genere 50 classifieurs respectantdeux comportements en top3 et en top7 pour un probleme a 10 classes. Lesfigures 3.17 et 3.18 presentent les matrices de co-presence utilisees en entreedu simulateur ainsi que les matrices d’erreurs moyennes en top3 et en top7.La encore, les faibles erreurs sont dues aux calculs d’effectifs.

3.3.2 Generation de liste de comportements

Nous supposons ici que seules des performances globales (taux de re-connaissance) sont imposees. Afin de valider la strategie de simulation desperformances semi-globales, nous proposons un protocole (algorithme 8) quiconsiste a generer les sorties des classifieurs a partir des matrices de perfor-mances semi-globales simulees et respectant les taux de reconnaissance fixeset de comparer ensuite les performances obtenues par le simulateur et lesperformances a respecter. Le premier taux de reconnaissance TL1

desire est tirealeatoirement entre marge et 100%. Nous avons introduit le parametre margeafin de fixer la limite inferieure du TL1

desire. Les taux de reconnaissance sui-vants c’est-a-dire TLk

desire (k de 2 a N-1) sont ensuite choisis aleatoiremententre TL1

desire et 100%. Chaque taux TLkdesire doit etre inferieur ou egal a

TLk+1desire. Le dernier taux TLN

desire est a 100% puisqu’il n’y a pas de rejet.


Fig. 3.17 – Simulation d’un comportement dans les 3 premieres solutions (a)matrice a simuler (b) matrice d’erreurs


Fig. 3.18 – Simulation d’un comportement dans les 7 premieres solutions (a)matrice a simuler (b) matrice d’erreurs


Algorithme 8 Verification de la simulation des performances semi-globalesa partir des performances globalesEntrees:

L: nombre de classifieurs a generermarge: valeur minimale du premier taux de reconnaissance a tirerListeTL: liste des taux de reconnaissance a respecterN: nombre de classes

Debut

/* choix des taux de reconnaissance a respecter */Choisir TL1

desire entre marge et 100Sauvegarder TL1

desire dans ListeTLPour k de 1 a N-2 faire

Debut

Tirer aleatoirement une valeur Vk entre TL1desire et 100

Sauvegarder Vk dans ListeTL

Fin pour

Trier ListeTL de maniere croissante

Pour L de 1 a 50 faire

Debut

Generer les sorties du Lieme classifieur en fonction des taux dereconnaissance de ListeTL


Debut

Calculer les performances TLkL

Ajouter TLkL au taux moyen TLk

moy

Fin pour

Fin pour


Debut

Comparer ListeTL[k] et TLkmoy

Fin pour

Fin


Dans la figure 3.19, nous presentons un exemple de performances genereespour trois problemes de classification a 10, 50 et 100 classes. Nous avonsconstate que les performances obtenues par simulation etaient toujours lesmemes que celles de reference, quel que soit le probleme de classificationtraite. Ces resultats montrent aussi que notre simulateur peut etre utilisepour simuler des sorties pour des problemes differents de classification (pourn’importe quel N).

Fig. 3.19 – Simulation de liste de comportements pour des problemes a 10classes (a) a 50 classes (b) et a 100 classes (c)

3.3.3 Generation d’un seul comportement

Pour verifier la simulation de sorties a K solutions au plus, nous avons uti-lise un protocole (algorithme 9) qui consiste a tirer aleatoirement un taux de


reconnaissance TLKdesire (αK 6= 0) entre une borne inferieure marge et 100%,

generer les sorties en fonction de ce taux, calculer les performances a partirde ces sorties et les comparer avec le taux de reconnaissance global desire.Nous avons genere les sorties avec des valeurs differentes de tc variant de 0.5a 1. Rappelons ici que tc est un parametre utilise en entree du simulateurpour controler la quantite de classes confondues dans les sorties a generer(tc<=1). L’utilisation de ce parametre permet d’avoir une variabilite dansles sorties des classifieurs.

Algorithme 9 Verification de la simulation d’un seul comportementEntrees :

L : nombre de classifieurs a genererN: nombre de classesmarge : valeur minimale du taux de reconnaissance a tirertc : variation du taux de confusion, tc varie entre 0.5 et 1K: nombre de solutions maximales

Debut

Tirer aleatoirement TLkdesire entre marge et 100

Tirer aleatoirement αK entre 0 et 100− TLk

Pour k de 1 a 50 faire

Debut

Generer les sorties du kieme classifieur en fonction N, K, tc,TLk

desire et αk

Calculer les performances TLkobtenu a partir des sorties generees

Comparer TLkdesire a TLk

obtenu

Fin pour

Fin

Le tableau 3.3 presente les taux moyens de reconnaissance et leurs va-riances (50 iterations) obtenus dans les 5 premieres propositions pour unprobleme a 10 classes avec des valeurs de tc qui varient entre 0.5 et 1. Letaux de reconnaissance en top5 TL5 a ete tire aleatoirement et est egal a90.9% (α5=0). La encore, les resultats que nous avons obtenus montrent queles performances calculees en top 5 sont les memes que les performances at-tendues. C’est pourquoi, nous n’avons pas place les taux en top5 dans letableau 3.4. Les resultats de ce tableau montrent bien que lorsque la valeurde tc augmente, le taux de confusion augmente et donc le taux de reconnais-sance diminue.


tc top1 top2 top3 top40.5 37.8 ± 0.84 63.4 ± 0.24 79.4 ± 0.28 87.5 ± 0.090.6 33.6 ± 1.56 57.7 ± 0.76 74.7 ± 0.35 85.3 ± 0.180.7 29.7 ± 1.29 52.3 ± 1.03 69.3 ± 0.30 82.0 ± 0.160.8 25.8 ± 0.43 46.7 ± 0.37 64.0 ± 0.21 78.5 ± 0.110.9 21.6 ± 0.36 41.3 ± 0.27 59.2 ± 0.20 75.5 ± 0.151 18.1 ± 0.11 36.3 ± 0.15 54.5 ± 0.19 72.7 ± 0.13

Tab. 3.3 – Performances des sorties respectant un TL5 a 90.9%

La figure 3.20 presente trois matrices de co-presence en top 2 obtenues surles sorties generees pour TC=0.5, 0.7 et 1, respectivement. Pour TC=0.5, lessorties a generer contiennent moins de solutions confondues ce qui expliquela variation des taux de confusion dans la premiere matrice (a). Plus TCcroit, plus les sorties contiennent de solutions de confusion ce qui expliqueles valeurs proches des taux de confusion. Ceci est illustre par l’augmentationdes taux de confusion de la matrice (a) a la matrice (c).

Nous avons egalement genere des classifieurs avec une meme valeur detc=0.9 mais ayant des performances differentes en top5. Le tableau 3.4 presenteles taux moyens de reconnaissance et leur variances obtenus dans les 5 premierespropositions. La encore les resultats montrent que le simulateur respecte bienles performances globales fixees en top5. On constate egalement que les va-riations des taux de reconnaissance sont faibles. En effet, ceci est du a l’uti-lisation de la meme valeur tc pour tous les classifieurs de chaque ensemble(respectant un meme taux de reconnaissance).

TL5 top1 top2 top3 top4 top543.9 8.8 ± 0.08 17.6 ± 0.12 26.4 ± 0.16 35.2 ± 0.07 43.9 ± 0.0052.5 10.7 ± 0.06 21.3 ± 0.13 31.9 ± 0.18 42.4 ± 0.11 52.5 ± 0.0061.0 12.7 ± 0.13 25.3 ± 0.24 37.8 ± 0.24 49.8 ± 0.14 61.0 ± 0.0087.3 20.4 ± 0.37 39.4 ± 0.42 56.7 ± 0.30 72.5 ± 0.12 87.3 ± 0.00

Tab. 3.4 – Performances des sorties respectant un comportement dans les 5premieres solutions avec tc=0.9

Pour chacun des taux du tableau 3.4, nous avons genere 50 classifieursayant des valeurs differentes de tc (le choix de tc pour chaque classifieurest aleatoire). Le tableau 3.5 presente les performances moyennes et leurs


Fig. 3.20 – Matrices de co-presence en top2 (a) TC=0.5 (b) TC=0.7 (c)TC=1


variations obtenues par la simulation dans les 5 premieres propositions. Cesresultats montrent que l’utilisation de valeurs differentes de tc permet d’avoirune garande variabilite de sorties respectant la meme performance (taux dereconnaissance).

TL5 top1 top2 top3 top443.9 10.2 ± 2.12 20.0 ± 5.80 29.4 ± 8.39 37.5 ± 4.9052.5 12.0 ± 3.26 23.6 ± 9.23 34.8 ± 13.52 44.5 ± 6.7561.0 15.4 ± 9.79 29.8 ± 27.23 42.7 ± 29.61 52.9 ± 12.6487.3 26.7 ±48.00 48.0 ± 91.73 64.8 ± 80.83 77.5 ± 30.37

Tab. 3.5 – Performances des sorties respectant un comportement dans les 5premieres solutions avec des valeurs differentes de tc

Pour verifier la capacite du simulateur a generer des sorties selon lesperformances desirees pour des problemes differents de classification, nousavons simule 20 classifieurs avec K=7 et N=10, 50 et 200 classes. Le tauxde reconnaissance a respecter pour les trois problemes est TL7=73.5. Letableau 3.6 presente les performances moyennes obtenues dans les 7 premierespropositions. Ces resultats indiquent que notre simulateur respecte bien letaux de reconnaissance en top 7 et qu’il est capable de simuler des sortiespour des problemes differents de classification.

K N=10 N=50 N=2001 13.0 ± 11.89 14.3 ± 6.09 14.9 ± 7.902 25.5 ± 36.26 27.9 ± 19.37 29.0 ± 25.283 37.4 ± 53.44 40.4 ± 29.08 41.6 ± 38.814 48.2 ± 51.59 51.1 ± 28.60 52.3 ± 39.035 57.8 ± 31.59 60.1 ± 18.93 61.0 ± 26.026 66.2 ± 10.27 67.5 ± 6.38 68.0 ± 8.717 73.5 ± 0.00 73.5 ± 0.00 73.5 ± 0.00

Tab. 3.6 – Performances moyennes des classifieurs respectant un seul com-portement dans les 7 premieres solutions

3.3.4 Generation de deux comportements

Nous proposons dans cette section d’evaluer la capacite du simulateur agenerer des sorties respectant deux comportements selon les performances


qu’il recoit en entree. Pour ce faire, nous avons utilise un autre protocole (al-gorithme 10) en fixant cette fois deux taux de reconnaissance TLK′

et TLK

aleatoirement.

Algorithme 10 Verification de la simulation de deux comportementsEntrees :

L : nombre de classifieurs a genererN : nombre de classesmarge : valeur minimale du premier taux de reconnaissance a tirerK ′: nombre de solutions maximalesK: nombre de solutions maximales

Debut

Tirer aleatoirement TLK′

entre marge et 100

Tirer aleatoirement TLK entre TLK′

et 100

Pour L de 1 a 50 faire

Debut

Generer les sorties du Lieme classifieur en fonction N,K ′,K,TLK′

et TLK

Calculer les performances globales a partir de ces sorties

Comparer les performances desirees et obtenues

Fin pour

Fin

Nous avons genere 50 classifieurs pour des problemes differents a 10 et50 classes avec les performances suivantes: K’=3, K=7, TL3= 50.2 et TL7 =69.4. Le tableau 3.7 presente les taux moyens de reconnaissance ainsi que lesvaleurs minimales et maximales obtenus dans les 7 premieres solutions pourchaque probleme. Ces resultats montrent que les performances en top3 et entop7 ont ete respectees pour les deux problemes. Cependant, sans contolerles autres comportements dans la liste de solutions, on peut obtenir des per-formances differentes.

Notons egalement que dans la generation de sorties respectant deux com-portements, seule la matrice MCK peut etre construite avec differentes va-leurs de tc (permettant d’introduire une variabilite dans les taux de confu-sion). Or, le fait de generer des classifieurs en faisant varier tc (comme pourle cas d’un seul comportement) ne permet pas de respecter les taux de recon-naissance en topK (puisqu’on respecte d’autres contraintes en topK’). Pour


N=10 N=50K moyenne min max moyenne min max1 16.77 16.23 17.34 16.73 16.42 16.972 33.45 32.70 34.22 33.45 33.13 33.913 50.20 50.18 50.21 50.20 50.20 50.204 54.96 54.44 55.47 54.98 54.80 55.185 59.79 59.22 60.28 59.80 59.60 60.016 64.58 63.89 65.01 64.60 64.46 64.767 69.40 69.38 68.20 69.41 69.40 69.40

Tab. 3.7 – Performances des classifieurs respectant deux comportements pourdes problemes a 10 et 50 classes

respecter les performances desirees dans la simulation de deux comporte-ments, tc doit etre egal a 1. Mais, la generation de classifieurs respectantdeux comportements avec tc=1 ne permet pas d’avoir une grande variabilitedans les sorties ce qui explique les faibles variances des performances obte-nues dans le tableau 3.7.

Nous avons aussi genere 50 classifieurs en faisant varier les valeurs de K’et K. Le tableau 3.8 presente un exemple des taux de reconnaissance moyensobtenus dans les differentes propositions entre K’ et K pour un probleme a10 classes (marge=20). La encore, les performances desirees en topK’ et entopK ont ete respectees.

Nombre de K’-Kpropositions 1-5 4-7 3-10

1 40.70 ± 0.000 23.1 ± 0.155 18.4 ± 0.1283 46.81 ± 0.025 69.5 ± 0.158 55.4 ± 0.0004 49.91 ± 0.019 92.7 ± 0.000 61.7 ± 0.0365 53.00 ± 0.000 94.8 ± 0.016 68.1 ± 0.0797 99.2 ± 0.000 80.8 ± 0.11210 100.0 ± 0.000

Tab. 3.8 – Exemples de performances des sorties respectant deux comporte-ments avec des valeurs differentes de K’ et K

Ces resultats montrent que le simulateur peut respecter les performancesfixees dans les K’ et K premieres propositions. Cependant, sans controler les


autres comportements dans la liste de solutions, on peut obtenir des per-formances differentes. La figure 3.21 presente deux matrices differentes deco-presence en top1 et en top3 (du dernier cas du tableau 3.8). Ici, les tauxde reconnaissance de la matrice (b) sont controles.

Fig. 3.21 – Exemples de matrices de co-presence (a) en top1 (b) en top3

3.3.5 Precision du simulateur

Nous etudions ici l’influence du nombre de sorties generees sur la precisiondes parametres reellement obtenus lors de la simulation. Pour cela, nous al-lons generer quelques exemples simples pour lesquels on mettra en evidencecette influence sur quelques parametres.

Dans le premier exemple, nous avons regarde l’influence du nombre desorties sur la simulation par la matrice MAT generee a partir du taux globalde reconnaissance et du taux de rejet. Le tableau 3.9 presente les resultats destaux de reconnaissance obtenues pour un probleme a 5 classes avec des valeursdifferentes de sorties par classe Si=50, 150, 500, 1000 et 10000, (i=1, ..., 5).Les resultats montrent qu’a partir de 500 elements par classe, le simulateurrespecte exactement le taux de reconnaissance donne.

Dans le deuxieme exemple, nous avons regarde l’influence du nombre desorties sur la simulation par la matrice de co-presence MCK generee a par-


Nombre de sorties par classeTaux desire Si= 50 Si= 150 Si = 500 Si=1000

top1 52.00 52.00 52.00 52.00 52.00top2 52.60 52.00 52.00 52.60 52.60top3 72.80 72.00 72.70 72.80 72.80top4 82.10 82.00 82.00 82.10 82.10top5 100.00 100.00 100.00 100.00 100.00

Tab. 3.9 – Performances globales de la simulation par la matrice MAT enfonction du nombre d’elements par classe

tir du taux global de reconnaissance et du taux de rejet. Le tableau 3.10presente les resultats des taux de reconnaissance obtenues pour un problemea 5 classes avec des valeurs differentes de sorties par classe Si=50, 150, 500,1000 et 10000, (i=1, ..., 5). La encore, les resultats montrent que le simula-teur respecte exactement le taux de reconnaissance donne a partir de 1000elements par classe,.

Nombre de sorties par classeTaux desire Si= 50 Si= 150 Si = 500 Si=1000 Si= 10000

25.1 26.00 25.33 25.00 25.10 25.1036.9 36.00 36.66 36.80 36.90 36.9045.0 45.00 45.00 45.00 45.00 45.0074.8 74.00 74.66 74.80 74.80 74.8086.5 86.0 86.66 86.39 86.50 86.5091.3 91.99 91.33 91.20 91.30 91.30

Tab. 3.10 – Performances gloables de la simulation par la matrice de co-presence en fonction du nombre d’elements par classe

3.3.6 Correlation des sorties

Avec le simulateur propose, il est evident qu’on ne peut pas obtenirdes sorties avec une correlation fixee puisqu’on ne la controle pas, maison peut la mesurer a posteriori. Nous avons genere 50 ensembles de deuxclassifieurs pour un probleme a 3 classes avec des performances differentesTL1 = 60,70,80,90 et nous avons utilise la mesure de diversite kappa pourcalculer la relation (l’accord ou le desaccord) entre les sorties simulees (onpresentera cette mesure dans le chapitre suivant quand on parlera de la diver-site). kappa est comprise entre -1 et 1. La valeur -1 indique que les sorties des


classifieurs sont totalement differentes alors que la valeur 1 indique qu’ellessont identiques. La valeur 0 indique que les classifieurs sont independents.La figure 3.22 presente les resultats de la simulation que nous avons realisee.Nous pouvons constater que les sorties ne sont pas totalement independantes.Le niveau de diversite peut changer en fonction des performances fixees enentree du simulateur. Par exemple, lorsque les classifieurs ont un taux dereconnaissance TL1=90%, les sorties sont presque independentes alors quelorsque les taux de reconnaissance diminue, les sorties sont differentes.

Pour generer des classifieurs correles (etre encore plus exigeant), il fautcontroler la diversite a priori et donc utiliser un parametre supplementaireindiquant le niveau de correlation desiree. Nous discutons de ce problemedans le chapitre suivant dans lequel nous proposons une nouvelle methodede simulation qui utilise une mesure de diversite en entree du simulateur.

Fig. 3.22 – Correlation des sorties simulees (type classe) en fonction desperformances desirees

3.3.7 Conclusion

Les tests presentes ci-dessus indiquent qu’a partir des performances donnees,notre simulateur est capable de generer des sorties respectant ces memes per-formances pour un probleme de classification quelconque. Nous allons mon-

3.4. Apports de la simulation 163

trer dans les paragraphes suivants l’apport de cette strategie de simulationdans les trois niveaux de combinaison: type classe, rang et mesure.

3.4 Apports de la simulation

Le but de cette section est de montrer comment on peut utiliser notre si-mulateur pour etudier le comportement des methodes de combinaison. Nousnous focalisons en particulier sur l’analyse du comportement des methodesnon-parametriques. Les chercheurs sont d’accord sur le fait que ces methodessimples (ou fixes) sont plus robustes que les methodes ponderees puisqu’il estdifficile dans les applications reelles d’estimer de facon fiable les poids opti-maux [Roli et al., 2002a]. Toutefois, il est encore difficile de dire de maniereclaire dans quelles conditions une telle methode se comporte mieux qu’uneautre pour la plupart des problemes de classification.

Par ailleurs, il nous paraıt important d’etudier le comportement des operateursde combinaison par simulation en fonction des parametres influant sur leurperformance tels que le nombre de classifieurs, leur performance (en termede taux de reconnaissance et de taux de rejet) et le nombre de classes.

3.4.1 Evaluation type classe

A partir des travaux reportes dans la litterature sur les methodes de votes,nous pouvons remarquer que le vote a la majorite est plus utilise que le votea la pluralite dans les systemes de combinaison, en particulier dans bagging.D’autre part, beaucoup d’etudes experimentales et theoriques ont ete meneespour le vote a la majorite. Cependant, peu d’analyses experimentales ont eterealisees sur le vote a la pluralite [Lin et al., 2003].

Dans cette section, nous presentons une etude comparative entre le votea la pluralite et le vote a la majorite (qui ont ete definis dans le chapitre1) sous la condition que tous les classifieurs aient le meme taux de recon-naissance. Pour cela, nous avons realise trois experiences. Dans la premiereexperimentation, nous avons utilise notre simulateur de classifieur pour exa-miner le comportement des regles de votes en fonction du nombre de clas-sifieurs et de leur performance. Dans la deuxieme experience, nous avonsgenere des ensembles de classifieurs pour des problemes differents de classifi-cation afin d’examiner l’influence du nombre de classes sur les performancesdes methodes de votes. Notons que dans ces deux experiences, le vote a lapluralite ne rejette pas puisque nous sommes interesses a etudier la perfor-


mance des regles de votes en terme de taux de reconnaissance. S’il y a plusd’une classe avec le meme vote, on selectionne aleatoirement l’une d’elles.L’objectif de la troisieme experience est donc d’examiner le comportementdes regles de votes en terme de taux de rejet.

Influence du nombre de classifieurs:

Pour examiner l’effet du nombre de classifieurs sur le comportement des reglesde votes, nous avons genere puis combine des ensembles de L classifieurs, Lvarie de 3 a 25 par pas de 2 pour un probleme a 3 classes. Chaque ensemblese caracterise par une valeur du taux de reconnaissance TL1 = 60,70,80,90.Les tests sont repetes 50 fois et les resultats sont moyennes. La figure 3.23presente les taux de reconnaissance moyens des deux regles de vote.

Si on considere les resultats de la figure 3.23a, nous remarquons que bienque les methodes de vote donnent des performances meilleures que chacundes classifieurs, le vote a la pluralite est toujours plus performant que le votea la majorite pour tous les ensembles. Avec 3 classifieurs, la difference entreles deux regles est faible. Lorsque le nombre de classifieurs augmente, cettedifference augmente aussi. Le vote a la pluralite donne une amelioration plussignificative que le vote a la majorite avec un nombre croissant de classi-fieurs. En combinant des classifieurs ayant des taux de reconnaissance pluseleves (figure 3.23b et c), la performance du vote a la majorite s’approche decelle du vote a la pluralite. Mais cette derniere donne toujours la meilleureperformance. Lorsque les taux de reconnaissance des classifieurs a combineraugmente (figure 3.23d), nous constatons que le comportement du vote a lapluralite est tres similaire de celui du vote a la majorite.

Nous pouvons constater a travers ces resultats que le vote a la majoriteest plus sensible aux performances des classifieurs que le vote a la pluralite.En effet, avec des classifieurs faibles (TL1 <80%), le vote a la pluralite estplus performant que le vote a la majorite. On peut emettre l’hypothese qu’ilest preferable d’utiliser le vote a la pluralite que le vote a la majorite dans lecas de la combinaison d’un grand nombre de classifieurs faibles. Nous pou-vons constater egalement qu’avec des classifieurs performants, il est inutile decombiner plus de 10 classifieurs par le vote a la pluralite dont la performancepeut atteindre les 100%, idee aussi confirmee dans [Lin et al., 2003].

Influence du nombre de classes:

Dans la premiere experience, nous avons constate que le vote a la pluralitese comporte bien avec des classifieurs a 80% pour un probleme a 3 classes.Le but de la deuxieme experience est d’examiner l’effet du nombre de classes


Fig. 3.23 – Relation entre les taux de reconnaissance des methodes de voteet le nombre de classifieurs (a) TL1=60% (b) TL1=70% (c) TL1=80% (d)TL1=90%


sur le comportement de cette methode. Pour cela, nous avons simule desensembles de classifieurs (TL1=80%) pour des problemes de classificationa 3, 10 et a 50 classes. La figure 3.24 presente les performances du vote ala pluralite pour ces trois problemes. A travers cette figure, nous pouvonstout d’abord constater que quel que soit le nombre de classes (c’est a dire leprobleme de classification), le vote a la pluralite donne de meilleures perfor-mances par rapport a chacun des classifieurs. La combinaison de 4 classifieurspour un probleme a 3 classes produit moins de performances que pour unprobleme a 10 ou 50 classes. Ceci s’explique par le fait que pour N=3, nouspouvons avoir plus de conflits entre les classes (plus de deux classes ont lemaximum de votes). Lorsque le nombre de classes augmente, les reponsesdes classifieurs peuvent etre differentes et la chance de choisir la vraie classeparmi ces reponses augmente. Avec un grand nombre de classifieurs, le vote ala pluralite produit des performances similaires pour les differents problemesde classification.

Fig. 3.24 – Performances du vote a la pluralite pour trois problemes de clas-sification

Fiabilite en terme de taux de rejet:

Afin d’etudier la fiabilite du vote a la pluralite par rapport au vote a lamajorite, nous avons utilise le vote a la pluralite avec rejet pour la combi-naison des ensembles de L classifieurs ayant la meme performance TL1=60%et 80%, (L varie toujours de 3 a 25 par pas de 2). La figure 3.25 presenteles performances des deux regles de votes en terme de taux de rejet pour un


probleme a 3 classes.

Si on regarde la figure 3.25a, on constate que le vote a la pluralite produitmoins de rejet que le vote a la majorite pour des classifieurs faibles. Ceci estdu a la nature de la regle de vote a la majorite qui est plus stricte du point devue decision. En effet, il suffit qu’une classe soit majoritaire pour que le votea la pluralite l’accepte alors que pour le vote a la majorite, il faut de plusque cette classe soit proposee par plus de la moitie des classifieurs. Lorsquele nombre de classifieurs augmente, les taux de rejet des deux regles dimi-nuent. Mais le taux du rejet du vote a la majorite reste eleve. En combinantdes classifieurs ayant un TL1 a 80% (figure 3.25b), les deux regles de voterejettent la meme quantite. Ce comportement persiste lorsque le nombre declassifieurs augmente.

En resume, nous pouvons emettre les hypotheses que le vote a la pluraliteest plus interessant a utiliser que le vote a la majorite, en particulier quandon a beaucoup de classifieurs avec des performances faibles. De plus, le votea la pluralite est plus efficace que le vote a la majorite dans la mesure ou ilpermet d’obtenir un bon compromis entre taux de reconnaissance et taux derejet.

3.4.2 Evaluation type rang

Dans cette section, nous presentons une etude comparative entre deuxmethodes de type rang: le Borda Count et le meilleur rang. A partir destravaux reportes dans la litterature sur ces deux methodes, nous pouvonsconstater que le borda count est beaucoup plus utilise. Pourtant le meilleurrang peut s’averer utile dans certains cas comme nous allons le voir par lasuite. Dans [Ho, 1998], 4 classifieurs produisant des performances differentesa l’interieur de la liste de solutions ont ete combines pour ameliorer la reco-naissance de mots. Il est constate que le borda count ameliore la performanceau debut de la liste alors que le meilleur rang l’ameliore a la fin de la liste.Cependant, il est difficile de generaliser ce resultat puisqu’il est obtenu surdes donnees reelles particulieres. Il nous paraıt donc interessant de regardercomment le borda count et le meilleur rang se comportent a l’interieur deslistes de solutions. En d’autres termes, comment elles exploitent l’informationpresente dans les k premieres propositions (Topk) des sorties de classifieurs.Topk represente le taux de reconnaissance d’un classifieur pour lequel la vraieclasse est presente parmi les k etiquettes des solutions a combiner.

De par leur specificite, le borda count et le meilleur rang exploitent a priori


Fig. 3.25 – Relation entre les taux de rejet des methodes de vote et le nombrede classifieurs (a) TL1=60% (b) TL1=80%


de facons differentes les sorties des classifieurs a combiner. Pour verifier cettehypothese, nous avons realise une serie d’experiences dans deux cas. Dans lepremier cas, nous nous sommes focalises sur l’etude du borda et du meilleurrang avec des classifieurs produisant les memes performances a l’interieur dela liste de solutions. Les experiences menees dans le deuxieme cas ont pourobjectif d’analyser le comportement des deux regles de combinaison lorsqueles classifieurs produisent des performances differentes a l’interieur de la listede solutions.

Cas 1:

Pour evaluer l’influence du nombre de classifieurs sur le comportement desmethodes du borda count et du meilleur rang, nous avons envisage un problemede classification a N=10 classes et nous avons combine des ensembles de Lclassifieurs (L=2,3,...,10) ayant la meme performance de reconnaissance dansles 3 premieres propositions (TL1=TL2=TL3=50%). Pour chaque ensemble,l’evaluation est repetee 25 fois. Le comportement de chacune des methodesde combinaison est evalue en terme de taux de reconnaissance moyen en sor-tie de combinaison. La figure 3.26 presente les resultats obtenus par les 2methodes de combinaison en top1 et en top3.

Fig. 3.26 – Performances du borda et du meilleur rang pour TLK′

=50% (a)K’=1 (b) K’=3

Si on considere les resultats en Top 1 de la figure 3.26a, on constateque les deux methodes se comportent differemment. Le meilleur rang pro-duit la meilleure performance pour les ensembles dont le nombre de classi-fieurs est inferieur a 5. Avec un grand nombre de classifieurs cette methoden’ameliore pas la performance des classifieurs individuels. Le borda count est


plus performant que le meilleur rang avec les ensembles composes de plus de5 classifieurs. Ceci montre que le meilleur rang exploite mieux la premieresolution que la methode du borda count avec peu de classifieurs produisantdes performances faibles (50%). En Top3 (figure 3.26b), une amelioration deperformance des deux methodes est obtenue. Cependant, leur comportementressemble a celui en top1. Ces resultats indiquent que le meilleur rang ex-ploite mieux l’information des classifieurs dans les 3 premieres propositionsque la methode du borda count avec un petit nombre de classifieurs. Avecun grand nombre de classifieurs, le borda est meilleur quelque soit le nombrede propositions.

Une deuxieme experimentation a ete menee afin d’examiner l’influencede l’augmentation des performances des classifieurs sur le comportement duborda count et du meilleur rang. Elle consiste a combiner des ensembles deL classifieurs (L=2,3,...,10) ayant la meme performance de reconnaissancedans les 3 premieres propositions (TL1=TL2=TL3=90%). Pour chaque en-semble, l’evaluation est repetee 25 fois. La figure 3.27 presente les resultatsmoyens des deux methodes de combinaison en top1 et en top3. En regar-dant les resultats de la figure 3.27(a), on constate que les deux methodes decombinaison ameliorent la performance des classifieurs individuels ayant untaux de reconnaissance a 90%. Le meilleur rang se comporte mieux en top1que le borda count avec des ensembles de moins de 4 classifieurs. Lorsquele nombre de classifieurs augmente, le borda count devient plus interessantpour la combinaison. La figure 3.27(b) confirme cette idee et montre que leborda count exploite mieux l’information dans les 3 premieres rangs que lemeilleur rang pour L≥5.

Une autre experimentation a ete realisee pour examiner le comportementdes deux regles de combinaison lorsque les classifieurs produisent plus de 3solutions. Des ensembles de 3 et 9 classifieurs ont ete generes et combines pourN=10. Chaque classifieur produit la meme performance dans les 7 premierespropositions (=90%). La figure 3.28 presente les resultats moyens des deuxmethodes de combinaison dans les differentes propositions.

Dans la figure 3.28a, on constate que le meilleur rang exploite mieuxl’information dans les 7 premieres propositions que le borda count avec desensembles de 3 classifieurs. On constate aussi que la grande amelioration deperformance du borda count et du meilleur rang est obtenue en top3. Alorsqu’au dela du top3, l’amelioration de performance des deux methodes estfaible. Avec plus de classifieurs (3.28b), le borda count se comporte mieuxque le meilleur rang dans les 3 premieres propositions. En top5 et 7, les deuxmethodes sont similaires.


Fig. 3.27 – Performances du borda et du meilleur rang avec TLK′

=90% (a)en top1 (b) en top3

Fig. 3.28 – Performances du borda et du meilleur rang avec TLK′

=90% (K’de 1 a 7) (a) L=3 (b) L=9


Nous pouvons constater a travers ces resultats que le borda count et lemeilleur rang ameliorent de maniere tres significative leur performance dansles 3 premieres rangs. Avec peu de classifieurs (moins de 5), le meilleur rangse comporte mieux que le borda. Alors que le borda exploitent mieux l’infor-mation des classifieurs avec un nombre plus eleve de classifieurs.

Cas 2:

L’objectif de cette etude est d’examiner le comportement du borda countet du meilleur rang avec des ensembles de classifieurs produisant des per-formances differentes dans la liste de solutions. En d’autres termes, nousvoulons regarder comment elles exploitent l’information presente dans les kpremieres propositions des sorties de classifieurs. A priori, les deux methodesexploitent de maniere differente les performances des classifieurs a combiner.Pour verifier cette hypothese, l’experimentation menee consiste a envisagerun probleme a N=10 classes et a generer des ensembles de 2 classifieurs. Lesperformances moyennes des classifieurs dans les 10 premieres propositionssont choisies aleatoirement selon les trois profils du tableau 3.11. Pour leprofil 1, les taux de reconnaissance du debut de la liste sont tres eloignesalors que ceux de la fin de la liste sont tres proches. Pour le profil 2, les 4premiers taux de reconnaissance sont tres proches et lorsque le nombre depropositions augmente, la difference entre les taux augmente aussi. Alors quela distance entre les taux de reconnaissance des differentes propositions duprofil 3 est presque constante (les taux sont places sur la diagonale). Pourchaque profil, nous avons genere 50 ensembles de classifieurs dont les perfor-mances varient entre les intervalles indiques dans le tableau 3.11.

La figure 3.29 presente les performances des classifieurs generes pour lestrois profils. Cette figure montrent que les performances de classifieurs res-pectent les bornes des taux de reconnaissance desires.

La question qu’on peut se poser ici, est comment se comporte le borda etle meilleur rang avec des classifieurs du meme profil et de profils differents?Pour repondre a cette question, nous avons combine tout d’abord les en-sembles de classifieurs respectant le meme profil et ensuite des ensembles declassifieurs dont chacun respecte un profil different.

Notons que dans la combinaison parallele, l’ordre des classifieurs n’estpas pris en compte. Cela veut dire que les combinaisons des classifieurs (ei,ej) ou (ej, ei) sont les memes. Pour eviter de traiter les memes ensemblesde classifieurs, nous avons combine des paires de classifieurs de meme profildont le numero du premier classifieur (i) varie de 1 a L (L est le nombre total


Fig. 3.29 – Performances des classifieurs generes pour un probleme a 10classes (a) profil 1 (b) profil 2 (c) profil 3


TopK Profil 1 Profil 2 Profil 3TopK moyenne variation moyenne variation moyenne variationtop1 50 [50.0;50.0] 50 [50.0;50.0] 50 [50.0;50.0]top2 69 [68.5;69.5] 51 [50.5;51.5] 55 [53.0;57.0]top3 79 [78.0;80.0] 53 [52.0;54.0] 61 [59.0;63.0]top4 83 [81.5;84.5] 55 [54.0;56.0] 68 [66.0;70.0]top5 87 [85.0;89.0] 59 [57.0;61.0] 74 [72.0;76.0]top6 91 [89.0;93.0] 63 [61.0;65.0] 80 [78.0;82.0]top7 95 [93.5;96.5] 67 [65.5;68.5] 85 [83.0;87.0]top8 97 [96.0;98.0] 72 [71.0;73.0] 90 [88.0;92.0]top9 99 [98.5;99.5] 80 [79.5;80.5] 95 [93.0;97.0]top10 100 [100;100] 100 [100;100] 100 [100;100]

Tab. 3.11 – Performances des classifieurs pour les trois profils

des classifieurs a generer pour chaque profil) alors que celui du deuxiemeclassifieur (j) varie de i+1 a 50. La combinaison, par borda ou par le meilleurrang, des classifieurs d’un meme profil est realisee par la procedure 11.

Algorithme 11 Combinaison des classifieurs du meme profilEntrees :

L : nombre de classifieurs a generer

Debut

Pour i de 1 a L-1 faire

Debut

Pour j de i+1 a L faire

Debut

combiner les classifieurs ei et ej

evaluation fusion de ei et ej

Fin pour

Fin pour

Fin

Le fait de generer 50 classifieurs (par la procedure 11) permet d’avoir50(50−1)

2ensembles possibles de classifieurs pour chaque profil. Au total, nous

avons combine 3675 ensembles de deux classifieurs de meme profil. Les per-formances moyennes des methodes de combinaison pour le profil 1 sontpresentees dans la figure 3.30. La courbe du meilleur classifieur indique les


taux de reconnaissance les plus eleves obtenus par les classifieurs pour chaqueproposition.

Les resultats de la figure 3.30 montrent que les deux methodes de com-binaison se comportent differemment au debut de la liste, cas ou la perfor-mance des classifieurs en top 1 est tres differente de celle en top2 (differencede 19%). Le borda count produit de meilleures performances dans toutes lespropositions. Le meilleur rang ameliore la performance des classifieurs indi-viduels a partir du top 2. Lorsque le nombre de propositions augmente, lesdeux methodes produisent des performances similaires. Ceci montre que leborda exploite mieux la premiere solution que la methode du meilleur ranglorsque les performances des classifieurs en debut de liste sont tres differentes.

Fig. 3.30 – Performances de la combinaison de classifieurs ayant le profil 1

Si on considere maintenant les resultats pour le profil 2 de la figure 3.31,on constate que la methode du meilleur rang donne de meilleures perfor-mances dans les 4 premieres propositions. Dans ce cas, le borda count donnedes taux inferieurs a ceux des classifieurs combines. Ce comportement changelorsque les taux des classifieurs augmentent. A partir du top 5, les perfor-mances du borda count et du meilleur rang sont tres similaires. Ces resultatsmontrent que le meilleur rang exploite mieux l’information lorsque les tauxde reconnaissance des classifieurs au debut de la liste sont tres proches.

En regardant maintenant les resultats de la figure 3.32 presentant la com-



binaison des classifieurs du profil 3, on constate que le meilleur rang donnede meilleures performances dans les 4 premieres propositions. Alors que leborda count ameliore le taux de reconnaissance seulement dans les 5 dernierespropositions. Les performances des classifieurs au debut de la liste du profil3 sont aussi proches (comme au profil 2) c’est pourquoi le meilleur rang secomporte mieux que le borda count.

Les resultats presentes pour la combinaison de classifieurs de meme profilmontrent bien que la methode du meilleur rang expolite mieux l’informationsur la classe correcte lorsque les performances des classifieurs au debut dela liste sont tres proches. Le borda count est interessant lorsque ces perfor-mances sont tres differentes.

Nous allons maintenant traiter la combinaison des paires de classifieursde profils differents. Chaque classifieur du premier profil est combine avec unclassifieur du deuxieme profil. Cette procedure est realisee par l’algorithme12.

La combinaison de 50 ensembles de deux classifieurs ayant deux profilsdifferents permet d’avoir 2500 ensembles possibles. Le fait d’avoir 3 profils,consiste a utiliser l’algorithme 12 trois fois (profils 1-2, profils 1-3 et profils2-3). Nous obtenons donc au total 7500 ensembles de deux classifieurs. Lesperformances moyennes des methodes de combinaison pour le profil 1-2 sontpresentees dans la figure 3.33. La courbe du meilleur classifieur indique les



Algorithme 12 Combinaison des classifieurs de profils differentsEntrees :

L: nombre de classifieurs a generer

Debut

Pour i de 1 a L faire

Debut

Pour j de 1 a L faire

Debut

combiner les classifieurs ei et ej

evaluation fusion de ei et ej

Fin pour

Fin pour

Fin


taux de reconnaissance les plus eleves obtenus par les classifieurs (des deuxprofils) a chaque proposition.

Fig. 3.33 – Resultats de la combinaison des ensembles de classifieurs du profil1 et 2

Les resultats de la figure 3.33 montrent que la combinaison d’un classifieurde profil 1 avec un autre du profil 2 par la methode du meilleur rang donnedes performances tres proches de celles produites par le meilleur classifieur.L’amelioration produite par la methode du meilleur rang est tres faible dansles 5 premieres propositions. Au dela, cette methode donne des performancesinferieures a chacun des classifieurs. Le borda count ne produit pas de bonsresultats: pour tous les ensembles, ses taux de reconnaissance sont inferieursa la performance du meilleur classifieur.

La figure 3.34 presente les performances de la combinaison des classifieursdu profil 2 et 3 par le borda et le meilleur rang. Cette figure montre que leborda donne des taux inferieurs a ceux du meilleur rang et du meilleur classi-fieur dans toutes les propositions. Le meilleur rang exploite bien l’informationsur la bonne classe a partir de la deuxieme proposition. Par exemple, unedifference de 2% entre les taux de reconnaissance des classifieurs en top1 et


en top2 a permis d’obtenir une amelioration de 18% par le meilleur rang. Cesresultats confirment ce que nous avons montre precedemment c’est a dire quelorsque les performances des classifieurs sont tres proches, le meilleur rangdonne de meilleures performances.


En remplacant les classifieurs du profil 2 par ceux du profil 1 c’est a dire enaugmentant les performances des classifieurs (figure 3.35), les performancesdu meilleur rang restent presque constantes alors que les taux de reconnais-sance du borda count augmentent de maniere significative surtout dans les 5premieres propositions. Ceci montre que le borda count est plus sensible auxperformances des classifieurs que le meilleur rang.

A travers les resultats que nous venons de presenter sur la combinaisondes classifieurs produisant des performances selon deux profils differents, nouspouvons conclure que le meilleur rang se comporte bien (c’est a dire ameliorela performance de chacun des classifieurs) lorsque les performances des clas-sifieurs sont tres proches. Alors que le borda ne se comporte bien que lorsqueles performances des classifieurs a l’interieur de la liste sont differentes.


Notons que ces resultats sont obtenus avec la combinaison de deux classi-fieurs seulement. Nous avons vu dans les experiences du cas 1 que le meilleurrang se comporte mieux que le borda avec peu de classifieurs. A priori, si onaugmente le nombre de classifieurs, le borda count peut se comporter mieuxque le meilleur rang. Pour verifier cela, nous avons combine trois classifieursdont deux ont le meme profil. Avec 50 classifieurs par profil, nous avons ob-tenu au total 61250 ( 50∗49

2∗ 50) combinaisons c’est a dire groupes de trois

classifieurs. La figure 3.36 presente les resultats moyennes de la combinaisonpar le borda et le meilleur rang de deux classifieurs du profil 1 et un classi-fieur du profil 3.

Fig. 3.36 – Resultats de la combinaison de deux classifieurs du profil 1 et unclassifieur du profil 3

En comparaison avec les resultats de la figure 3.35, la figure 3.36 montreque l’addition d’un classifieur du profil 1 a l’ensemble de deux classifieurs(du profil 1 et 3) ameliore les performances du borda count. Dans les deuxpremieres propositions, cette methode se comporte mieux que le meilleurrang et ses taux de reconnaissance sont superieurs a ceux des classifieurscombines. Le meilleur rang ne produit pas de bons resultats dans ce cas. Apartir de la troisieme proposition, les performances des deux methodes sontsimilaires. Ceci montre que le borda count exploite mieux l’information (plus


de capacite a faire avancer les bonnes solutions vers la premiere proposition)que le meilleur rang lorsqu’on a plus de classifieurs dont les performances audebut de la liste sont tres differentes.

Notons que nous avons genere des ensembles de classifieurs ayant desperformances faibles (50%) au debut de leurs listes de solutions. Or, nousavons vu que le borda count est sensible a ces performances. A priori, leborda count se comporte mieux que le meilleur rang quand les performancesdes classifieurs a combiner sont elevees au debut de la liste de solutions. Cetteidee reste a confirmer avec des ensembles contenant plusieurs classifieurs.

3.4.3 Evaluation type mesure

Le but de cette section est de montrer comment on peut utiliser notresimulateur pour etudier le comportement des methodes de combinaison detype mesure telles que la somme et le produit. A partir des travaux realisesdans la litterature, nous pouvons constater que bien que ces deux operateurssoient tres utilises, leurs resultats experimentaux sont encore en conflit. Parexemple, dans [Kittler et al., 1998], il est montre que (sous l’hypothese d’independancede classifieurs) la somme est toujours meilleure que le produit. Alors quedans [Tax et al., 1997], les chercheurs trouvent que la combinaison basee surle produit donne le meilleur resultat quand les classifieurs produisent peud’erreurs.De plus, ces travaux sont limites puisqu’ils utilisent un nombre fixe de clas-sifieurs produisant une seule solution ce qui ne permet pas de repondre abeaucoup de questions interessantes comme par exemple: comment se com-portent le produit et la somme avec un grand nombre de classifieurs? Et siles classifieurs produisent une liste de solutions, comme le cas pour la recon-naissance de mots, qu’elle est la methode la plus interessante a exploiter?

Pour comprendre un peu plus le comportement de la somme et le pro-duit, nous avons realise deux experiences. L’objectif de la premiere experienceest d’examiner l’influence du nombre de classifieurs sur les performances desdeux regles. Celui de la deuxieme experience est d’evaluer la somme et le pro-duit en fonction des performances des classifieurs. Dans les deux experiences,nous avons simule des classifieurs produisant une liste de solutions et nonseulement une seule solution. A priori, le comportement de la somme peutetre different que celui du produit a l’interieur de la liste de solutions.

Influence du nombre de classifieurs

Notre premiere experimentation consiste a evaluer la combinaison en fonction


du nombre de classifieurs. Pour cela, nous avons simule des ensembles de Lclassifieurs (L=2,3,...,10) ayant la meme performance dans les trois premierespropositions (TL1 = TL2 = TL3 = 90%). Chaque classifieur produit 5000sorties pour un probleme a 5 classes.

La figure 3.37 presente les performances de la somme et du produit entop1 en fonction du nombre de classifieurs. Ces resultats indiquent que lesdeux methodes se comportent differemment en premiere proposition. Avectous les ensembles de classifieurs, la somme exploite mieux l’information.Le produit donne de moins bons resultats. En revanche, son comportements’approche de celui de la somme avec un grand nombre de classifieurs. Eneffet, cet operateur elimine les classes pour lesquelles un classifieur donne uneconfiance faible (proche de 0). Lorsque le nombre de classifieurs augmente,la chance que la vraie classe apparaisse en premiere proposition augmente.

Fig. 3.37 – Performance de la somme et du produit en top1 en fonction dunombre de classifieurs

Si on considere maintenant les resultats en top3 de la figure 3.38, onremarque que la somme est plus performante uniquement avec des ensemblescomposes de moins de 5 classifieurs. Au dela, le comportement des deuxoperateurs est tres similaire. Ceci montre qu’avec plus de solutions dans leslistes de sorties, la performance du produit devient tres proche de celle de lasomme surtout avec plusieurs classifieurs.


Fig. 3.38 – Performance de la somme et du produit en top3 en fonction dunombre de classifieurs

Influence des performances de classifieurs

Dans le cas reel (en particulier en reconnaissance de caracteres et de mots),on peut avoir des classifieurs qui proposent un taux de reconnaissance relati-vement faible en premiere position mais presentant la bonne solution dans lesK premieres propositions (K>1). Notre seconde experimentation a consistea evaluer la somme et le produit pour ce probleme. L’objectif est d’etudierle comportement de ces regles de combinaison avec des classifieurs propo-sant des performances differentes a l’interieur de leurs listes de solutions.Pour cela, nous avons genere des ensembles de 5 classifieurs ayant une per-formance faible en top1 egale a 50%. Les taux de reconnaissance en top3varient de 50% a 90% par pas de 10%. La figure 3.39 presente les tauxmoyens de reconnaissance en top3 de la somme et du produit en fonctiondes performances des classifieurs. En regardant les resultats de cette figure,on constate que les deux methodes se comportent differemment bien qu’ellesdonnent des performances superieures a chacun des classifieurs. La sommeproduit la meilleure performance lorsque les taux de reconnaissance des clas-sifieurs en top3 sont inferieurs a 80%. Alors que le produit se comporte mieuxpour des ensembles de classifieurs dont le taux moyen de reconnaissance entop3 est superieur a 80%. Nous pouvons constater a travers ces resultats quela somme est moins sensible aux erreurs dans les trois premieres proposi-tions. Cette idee est confirmee dans [Kittler et al., 1998] avec des classifieursproposant une seule solution. Elle se comporte mieux que le produit quand

3.5. Conclusion 185

les performances a l’interieur de la liste sont egaux ou proches (par exemple50% en top1 et 50% en top3 ou 50% en top1 et 70% en top3). Lorsque ladifference entre les performances a l’interieur de la liste de solutions est tresimportante (50% en top1 et 90% en top3), le produit se comporte mieux quela somme.

Fig. 3.39 – Resultats de la combinaison par la somme et le produit en fonctiondes performances des classifieurs en top3

Les resultats obtenus montrent bien que l’utilisation des sorties des classi-fieurs varie d’un operateur de combinaison a l’autre. En particulier, la sommeexploite mieux l’information pour des classifieurs dont les performances al’interieur de la liste de solutions sont proches. Cependant, le produit n’estinteressant qu’avec des classifieurs dont les performances a l’interieur de laliste sont tres differents. De plus, avec beaucoup de classifieurs produisantdes erreurs faibles, le produit se comporte comme la somme.

3.5 Conclusion

Dans ce chapitre, nous avons propose un simulateur de classifieur capablede generer artificiellement des sorties de classifieur pour un probleme quel-conque de reconnaissance a partir d’un jeu de parametres tels que les tauxmoyens de reconnaissance et de rejet, leurs bornes de variation, le nombrede solutions maximal a generer, etc. L’utilisation de ces parametres differentselon le type de comportement a simuler. En effet, le simulateur peut generer


des sorties respectant des performances semi-globales (liste de comporte-ments) ou des performances locales (une ou deux matrices de co-presence).De plus, si le probleme est incompletement specifie (comportement unique-ment defini par des performances globales, ou listes de comportements in-completes), une phase supplementaire permet alors de generer aleatoirementles performances non specifiees. Cette generation est faite de telle facon quel’ensemble des contraintes a respecter soient satisfaites.

Nous avons presente aussi un ensemble de tests verifiant la capacite dusimulateur propose a generer les performances desirees. Sur des exemplesdifferents, nous avons montre comment le simulateur de classifieur peut etreutilise pour etudier le comportement de quelques operateurs de combinaison.

Bien que le simulateur propose permette de produire une grande varia-bilite de performance pour des problemes de reconnaissance differents entermes de nombre de classes, de types de sorties, de taille des listes de solu-tions, il ne permet pas de generer des ensembles de classifieurs dont on peutcontroler la diversite. Or la diversite entre les sorties de classifieurs est connuecomme un facteur important qui a une influence particuliere sur le compor-tement des methodes de combinaison: il vaut mieux combiner des classifieursmoins performants (voire faibles) mais qui presentent des erreurs differentesplutot que des classifieurs tres performants mais qui font des erreurs iden-tiques. Nous passons donc maintenant en revue ce concept et proposons unenouvelle methode de generation de classifieurs correles en se basant sur lesimulateur developpe dans ce chapitre.

Chapitre 4. Simulation de classifieurs correles 187

Chapitre 4

Simulation de classifieurscorreles

Ce chapitre traite le probleme de la diversite des classifieurs. En par-ticulier il presente une etude sur l’effet de la diversite des classifieurs surle comportement des methodes de combinaison. Ce chapitre est donc diviseen deux parties. Dans la premiere partie, nous presentons les mesures uti-lisees pour estimer la diversite entre les sorties de classifieurs. Nous passonsen revue les principales techniques permettant de renforcer la diversite entreles classifieurs. Dans la deuxieme partie, nous proposons une methode degeneration de classifieurs correles selon des performances et un niveau dediversite desire. Cette methode se base sur le simulateur de classifieur decritdans le chapitre precedent. Nous evaluons les performances de cette methodeet nous montrons a partir de quelques exemples comment l’exploiter pouretudier le comportement des methodes de combinaison.

188 Chapitre 4. Simulation de classifieurs correles

4.1 Introduction

”Classifiers should be different, but they should also be comparable” [Duin, 2002]”Classifiers in an ensemble should be different from each other, otherwise

there is no gain in combining them”[Kuncheva, 2003]

Les experts du domaine sont maintenant convaincus que la combinaisonde classifieurs ne peut etre efficace que si les classifieurs individuels sontdifferents et pas necessairement independants. Ainsi, l’etude du role de la di-versite, appelee aussi complementarite ou orthogonalite, dans l’ameliorationdes performances d’un ensemble de classifieurs est identifiee comme une di-rection de recherche importante, mais pas nouvelle, par plusieurs chercheurs[Krogh, 1995, Partridge and Krzanowski, 1997, Rosen, 1996]. Littlewood etal. [Littlewood and Miller, 1989] suggerent que ”il est toujours preferable deforcer les differents classifieurs a utiliser des methodologies aussi diverses quepossible”. Par exemple, si on dispose de trois versions de classifieurs A, B etC alors il est plus interessant de construire un systeme comme ABC que AAB,BBA, ACC, CCA, etc. Comme il est montre dans [Petrakos and Benediktsson, 2001],il est preferable de combiner des classifieurs moins performants mais qui fontdes erreurs differentes plutot que des classifieurs tres performants mais quipresentent des erreurs identiques. En effet, plus les classifieurs sont divers(c’est a dire qu’ils exhibent une ”diversite distincte”[Partridge and Krzanowski, 1997]),meilleur sera le resultat de leur combinaison.

De nombreux travaux ont suppose que l’independance de classifieurs estune hypothese necessaire et meme obligatoire pour obtenir une ameliorationsignificative de performances [Rogova, 1994, Kittler et al., 1998, Duin, 2002].Mais, recemment, le probleme de l’hypothese d’independance a ete pose: ”isindependence good for combining classifiers” [Kuncheva et al., 2000]. Cer-tains chercheurs ont prouve qu’avec des classifieurs dependants, il est pos-sible d’avoir des resultats interessants et meme meilleurs qu’avec des classi-fieurs independants. D’apres Krogh [Krogh, 1995], l’ensemble ideal est celuicompose de classifieurs tres performants mais le plus possible en desaccord.Kuncheva et al. [Kuncheva et al., 2003] par exemple, ont montre l’efficacitede la correlation negative sur les erreurs des classifieurs dans la combinai-son de type classe. Inspiree de cette etude, Oh [Oh, 2003] a explore la rela-tion entre le vote a la majorite et la dependance pour trois classifieurs. Il amontre que les classifieurs negativement dependants sont plus interessants autiliser dans les systemes de combinaison que les classifieurs independants.Dans [Demirekler and Altincay, 2004], l’auteur montre que l’independance declassifieurs ne doit pas etre une hypothese obligatoire dans la conception des

4.1. Introduction 189

systemes de combinaison par vote a la pluralite. Dans [Kuncheva and Whitaker, 2003],il est montre egalement que le meilleur resultat de la combinaison par votea la majorite (par rapport a chacun des classifieurs) ne peut etre obtenu quesi toutes les paires de classifieurs ont la meme valeur de diversite negative.

On ne peut pas etudier le role de la diversite dans un ensemble de clas-sifieurs sans tenir compte de la performance des classifieurs a combiner:c’est ce que certains chercheurs appellent le compromis diversite-performance.Comme il est explique dans [Kuncheva et al., 2002], lorsque les performancesdes classifieurs augmentent, la diversite de l’ensemble diminue. Il est alorsinteressant d’avoir un bon compromis entre diversite et performance. Jus-qu’a present, il n’y a pas eu d’etude theorique montrant la relation entreles mesures de diversite et la performance de l’ensemble de classifieurs. Parcontre, par manque de cadre theorique pour ce type d’etude, de nombreuxtravaux ont aborde de facon experimentale l’etude de la diversite:

– quelle mesure choisir pour tenir compte de la diversite?

– comment predire les performances a partir de la diversite?

L’objectif de ce chapitre est de dresser tout d’abord une revue des travauxqui ont aborde l’etude de la diversite (choix de mesure, relation entre diversiteet performance de l’ensemble,...), mais aussi des techniques qui permettentde renforcer la diversite dans les ensembles. Donc la premiere partie de cechapitre presente une taxonomie des mesures de diversite et les methodesutilisees qui cherchent a renforcer la diversite afin d’ameliorer les perfor-mances de l’ensemble. Il y a aussi des travaux qui controlent la diversite parsimulation et qui ont pour principe de generer des classifieurs correles selonune diversite donnee pour expliquer son role dans l’amelioration des perfor-mances d’un ensemble de classifieurs (nous les avons passe en revue dans lasection 2.4.1 du chapitre 2). Basee sur cette idee, nous proposons dans ladeuxieme partie de ce chapitre notre methode de simulation de classifieurscorreles. Le principe de cette methode est d’utiliser le simulateur presentedans le chapitre precedent pour generer des sorties selon les performances etle niveau de correlation desires. Nous avons vu que ce simulateur est capablede generer des sorties de type mesure (une confiance associee a chaque so-lution) et de simuler une grande variete de problemes de reconnaissance entermes de nombre de classes, de taille des listes de solutions et de perfor-mances fixees pour differentes positions de la bonne solution dans la liste.Cependant, ce simulateur est limite et l’une de ses limites est qu’il ne permetpas de generer des ensembles de classifieurs dont on peut controler la diver-site. La methode de simulation que nous proposons dans ce chapitre permet


en effet de construire des ensembles de classifieurs correles. Dans la troisiemepartie de ce chapitre, nous evaluons les performances de notre methode desimulation et nous montrons sur quelques exemples comment l’utiliser pouretudier le comportement des methodes de combinaison.

4.2 Mesures de diversite

Il existe de nombreuses mesures de diversite dans la litterature qui peuventetre distinguees selon le type des sorties des classifieurs. On trouve les me-sures de diversite de type: binaire, rang et mesure.

4.2.1 Type binaire

Dans la litterature, ces mesures sont classees en deux categories: les me-sures pairwise se calculent pour chaque paire de classifieurs. La diversite d’unensemble a L classifieurs est obtenue en faisant la moyenne de L(L−1)

2mesures

calculees sur les paires de classifieurs. Les mesures non pairwise sont baseessur la correlation ou l’entropie permettant de calculer la diversite de toutl’ensemble de classifieurs. Pour utiliser ces deux types de mesures, il faut queles sorties des classifieurs soient representees sous forme d’un vecteur binairede taille S (S est le nombre de sorties) ej = [e1,j ,...,eS,j] sachant que es,j =1si le classifieur ej propose la bonne solution, et 0 sinon (s=1 a S, j=1,..., L).

4.2.1.1 Mesures ”pairwise”

Ces mesures consistent a calculer la diversite entre chaque couple de clas-sifieurs et ensuite faire la moyenne des valeurs calculees. Pour L classifieurs,la moyenne M de chacune des mesures ”pairwise” Mij pour toutes les paires(ei,ej) est calculee par:

M =2

SL(L − 1)

L−1∑

i=1

L∑

j=i+1

Mi,j (4.1)

Pour calculer M, il faut tout d’abord determiner la relation entre chaquecouple de classifieurs (voir tableau 4.1).

Notons Nab le nombre de sorties s (s=1,..., S) pour lesquelles es,i = a etes,j =b.

4.2. Mesures de diversite 191

ej correcte (1) ej incorrect (0)ei correcte (1) N 11 N10

ei incorrecte (0) N 01 N00

N00 + N11 + N01+N10=S

Tab. 4.1 – Relation entre les sorties de deux classifieurs de type binaire

Il existe une variete de mesures statistiques qui se basent directement surles valeurs de Nab pour estimer la (dis)similarite entre les sorties de deuxclassifieurs [Sneath and Sokal, 1973].

– Q statistique [Yule, 1900]

Mi,j =N11N00 − N01N10

N11N00 + N01N10(4.2)

– Coefficient de correlation ρ [Kuncheva and Whitaker, 2003]

Mi,j =N11N00 − N01N10

√

(N11 + N10)(N01 + N00)(N11 + N01)(N10 + N00)(4.3)

– Mesure de desaccord D [Skalak, 1996]

Mi,j =N01 + N10

N11 + N10 + N01 + N00(4.4)

– Mesure de similarite SI [Lecce et al., 2000]

Mi,j =N00 + N11

N11 + N00 + N01 + N10(4.5)

Q statistique et ρ varient entre -1 et 1. La valeur -1 indique que les clas-sifieurs propsent des solutions differentes. La valeur 1 indique que les classi-fieurs sont identiques. Pour des classifieurs statistiquement independants, lavaleur est egale a 0.

D ∈ [0, 1]. Cette mesure a ete utilisee par Giacinto et Roli [Giacinto et al., 2000a]afin de selectionner le groupe de classifieurs ayant le moins de similarite etdans [Zenobi and Cunningham, 2001] comme une composante de la fonctionde fitness afin de guider le processus de construction de l’ensemble de classi-fieurs.

SI=1 indique que les classifieurs sont identiques et SI=0 indique qu’ilsproposent des reponses differents. Lecee et al. [Lecce et al., 2000] ont utilise


cette mesure pour generer des groupes de classifieurs dont chacun differe parle taux de reconnaissance et le niveau de similarite.

Les mesures suivantes (kappa, ratio entre les erreurs et WCEC) prennenten compte des informations supplementaires (et non uniquement N 00, N10,N01 et N11).

– Mesure de kappa κ [Cohen, 1960]

La mesure de kappa a ete introduite par Cohen [Cohen, 1960]. Soit N ij lenombre d’exemples reconnus de la classe Ci par le premier classifieur et de laclasse Cj par le deuxieme classifieur, N i∗, le nombre d’exemples reconnus Ci

par le premier classifieur et N ∗i, le nombre d’exemples reconnus de la classeCi par le deuxieme classifieur. On peut alors definir κ comme

Mi,j =Θ1 − Θ2

1 − Θ2(4.6)

Θ1 =

∑Ni=1 N ii

S(4.7)

Θ2 =N∑

i=1

(

N i∗

S.N∗i

S

)

(4.8)

Θ1 estime la probabilite que les deux classifieurs soient d’accord et Θ2 estimela probabilite que les deux classifieurs soient d’accord simplement par chance(puisque chaque classifieur propose sa decision aleatoirement sans connaıtrela reponse de l’autre classifieur). La valeur de kappa peut etre definie commesuit: κ est compris entre -1 et 1. κ=-1 indique que les classifieurs sont tresdifferents et κ=1 indique le contraire.

– Ratio entre les erreurs R [Aksela, 2003]

Mi,j =N00

different

N00meme

(4.9)

N00different est le nombre de fois ou deux classifieurs proposent en meme

temps des erreurs differentes. N 00meme est le nombre de fois ou deux classi-

fieurs proposent les memes erreurs. Une valeur elevee de R signifie que lesclassifieurs sont differents.

– Weighted Count of Errors and Correct results (WCEC) [Aksela, 2003]


Il s’agit d’une mesure qui tient compte en meme temps du resultat correctet incorrect des classifieurs. Une valeur faible de cette mesure signifie que lesclassifieurs sont identiques [Aksela, 2003].

Mi,j = N11 +1

2

(

N01 + N10)

− N00different − 5N00

meme (4.10)

4.2.1.2 Mesures ”non-pairwise”

Pour comprendre les mesures ”non-pairwise”, notons par l(bs) le nombrede classifieurs proposant, pour une forme a reconnaıtre bs (s de 1 a S), unereponse correcte.

– L’entropie E [Kuncheva and Whitaker, 2003]

Pour un ensemble de L classifieurs, l’entropie peut etre calculee comme suit:

E =1

S

2

L − 1

S∑

i=1

min l(bi),L − l(bi) (4.11)

Pour l’entropie, E varie entre 0 et 1. E=0 indique qu’il n’y a pas de differenceentre les classifieurs alors que E=1 indique une diversite elevee. Alors quela valeur 0 peut etre obtenue pour n’importe quel ensemble de classifieurs,la valeur 1 ne peut etre atteinte que lorsque le taux de reconnaissance desclassifieurs (s’il est le meme) appartient a [(L-1/2L), (L+1/2L)].

– Mesure de difficulte θ [Hansen and Salamon, 1990]

Elle consiste a definir une variable aleatoire X ayant une valeur dans

0L, 1L,...1

indiquant la proportion de classifieurs qui classent correctement une forme xparmi L classifieurs.

θ = var(X) =L∑

j=1

(

i

L− p

)2

p(

i

L

)

(4.12)

p est la moyenne des taux de reconnaissance des classifieurs. p(

iL

)

est la pro-babilite que exactement i classifieurs parmi les L proposent la bonne reponse.Quand cette mesure est elevee, elle indique que les classifieurs sont similaires.

– Diversite generalisee DG [Partridge and Yates, 1996]


Soient p(1) la probabilite qu’un classifieur, choisi aleatoirement dans l’en-semble de L classifieurs, propose une reponse incorrecte pour la forme a clas-ser et p(2) la probabilite que au moins deux classifieurs, tires aleatoirementdans l’ensemble, proposent une reponse incorrecte pour la forme a classer.

DG = 1 −p(2)

p(1)(4.13)

p(1) =L∑

j=1

j

Lpj (4.14)

p(2) =L∑

j=1

j(j − 1)

L(L − 1)pj (4.15)

pj est la probabilite que exactement j classifieurs parmi les L proposent desreponses incorrectes pour une forme de test selectionnee aleatoirement. DG=1 signifie que la diversite est maximale. Ce cas se produit quand p(2)=0c’est a dire que la probabilite que deux classifieurs proposant une reponse in-correcte pour la meme forme a reconnaıtre est egale a 0. DG =0 quand tousles classifieurs proposent des erreurs pour les memes formes a reconnaıtre.Cela signifie que la diversite est minimale puisque la probabilite qu’un clas-sifieur echoue p(1) est egale a la probabilite que deux classifieurs proposentune reponse incorrecte p(2).

– Coincident failure CF [Partridge and Krzanowski, 1997]

Elle consiste a mesurer les erreurs proposees par coincidence pour un en-semble de L classifieurs.

CF =

11−p0

∑Lj=1

L−jL−1

pj si p0 < 1

0 si p0 = 1(4.16)

CF =0 indique que les classifieurs sont tous d’accord, c’est a dire pas dediversite, soit parce qu’ils proposent les memes erreurs, soit parce que leurreponse est correcte. CF=1 quand un seul classifieur parmi l’ensemble pro-pose une reponse incorrecte pour toutes les formes a reconnaıtre, c’est a direp1 =1.

– Percentage correct diversity measure (PCDM) [Banfield et al., 2003]

Elle est basee sur le nombre total de votes correct des classifieurs dans labase de test.

PCDM =1

S

S∑

s=1

l(ts) (4.17)


l(ts) est le nombre de votes des classifieurs proposant une reponse correctepour chaque forme ts de la base de test. Si ce nombre est compris entre 0.1Let 0.9L, il est alors pris en compte dans le nombre total. Le choix des valeurs0.1 et 0.9 est empirique.

PCDM est comprise entre 0 et 1. Quand PCDM est elevee, elle indiqueque l’ensemble des classifieurs presente plus de diversite dans les reponses.Cette mesure varie proportionellement avec le taux de reconnaissance.

– Exponentiel du nombre d’erreurs [Aksela, 2003]

Notons par N 0jsame, le nombre de formes pour lesquelles j classifieurs pro-

posent la meme erreur (j= 1, ..., L, s= 1, ..., S) et par N 1all, le nombre de

formes reconnues correctement par tous les classifieurs (en meme temps).L’exponentiel est:

rEXP =

∑Lj=1(N

0jsame)

j

N1all

(4.18)

Cette mesure est proposee dans [Aksela, 2003] pour penaliser les classifieursayant les memes erreurs. La comparaison de cette mesure avec d’autres me-sures de diversite pairwise a revele que l’exponentiel est la mesure qui per-met de predire les meilleurs sous-groupes de classifieurs a combiner dansl’experimentation menee par Aksela.

– Erreur relative (ER)

D’apres Ruta et Gabrys [Ruta and Gabrys, 2002], ”Plus la mesure de diver-site est correlee (lie) a l’erreur de l’ensemble, mieux elle est utilisee”. C’estpourquoi, ils proposent une mesure qui se base directement sur l’erreur de lamethode de combinaison. Notons respectivement Emin

comb et Emaxcomb, les bornes

minimale et maximale de l’erreur de l’ensemble par le vote a la majorite.L’erreur relative (ER) se calcule comme suit:

ER =

Ecomb−E0

E0−Emincomb

siEcomb ≤ E0

Ecomb−E0

Emaxcomb

−E0siEcomb > E0

(4.19)

Emincomb = max0,LE−dL/2e+1

L−dL/2e+1

Emaxcomb = min LE

dL/2e(4.20)

E0 est l’erreur du systeme de combinaison pour lequel ER est egale a 0. E estl’erreur moyenne des classifieurs. Deux possibilites pour la valeur de E0 ontete considerees: l’erreur du vote a la majorite supposant que les classifieurs


sont independants ou l’erreur moyenne des classifieurs. Notons que pour cesdeux versions, la mesure ER est toujours comprise entre -1 et 1. ER=1 cor-respond a l’erreur maximale du vote a la majorite. ER=-1 correspond a lavaleur de l’erreur minimale de la meme regle de combinaison.

4.2.2 Type rang

L’objectif des mesures de type rang est d’estimer la correlation entre lesclassifieurs produisant des listes de rangs. Les mesures de type rang les plusutilisees sont: le coefficient de Spearman, le taux de Kendall et le momentdu produit de Person.

– Coefficient de Spearman CS

Le coefficient de Spearman CS est une mesure qui estime le degre decorrelation entre les rangs [Spearman, 1906, Griffiths, 1980]. Pour calculer lecoefficient de Spearman, on se base directement sur le calcul de la distanceentre les rangs des classes. En general, cette distance est faible lorsqu’il y aun grand accord entre les classifieurs. Elle prend la valeur minimale 0 seule-ment dans le cas d’une correlation complete. Pour un probleme a N classes,le coefficient de Spearman entre les sorties de deux classifieurs e1 et e2 est :

CS = 1 −6∑N

i=1(ri,1 − ri,2)2

N(N2 − 1)(4.21)

ri,j est le rang attribue a la classe Ci (i=1,...,N) par le classifieur ej.Le coefficient de Spearman prend la valeur maximale 1 seulement dans lecas d’une correlation positive (accords entre les classifieurs). Dans le cas dedesaccord complet entre les classifieurs, la mesure atteint sa valeur minimale-1. Les classifieurs sont independants quand CS = 0.

– Coefficient de Kendall

Le coefficient de Kendall [Wilkie, 1980] mesure la tendance ou la relationentre deux rangs. Si ri,1 − ri,2 est positive, on dit que cette paire est concor-dante, 1 ≤ i ≤ N . Si elle est negative, on dit qu’elle est discordante. Dansun exemple contenant N classes, on peut former N(N-1)/2 paires correspon-dantes. Soit C le nombre de paires concordantes et D le nombre de pairesdiscordantes. Une facon simple de mesurer la relation est de calculer S =C - D, S est la quantite de Kendall dependante de la taille de N. En effet,S peut varier entre −N(N−1)

2et +N(N−1)

2. Si on calcule alors t = 2S

N(N−1),

on aura toujours −1 ≤ t ≤ 1. La quantite t (ou taux) est connue sous le


nom de coefficient de Kendall. La valeur maximale +1 est obtenue si tous lesN(N−1)

2paires sont concordantes. La valeur minimum -1 est obtenue si toutes

les paires sont discordantes.

– Moment de produit de Pearson

Cette mesure de correlation entre les rangs notee r est comprise entre -1 et1. Elle est donnee par:

r =N∑N

i=1 ri1ri2 −∑N

i=1 ri1∑N

i=1 ri2√

[N∑N

i=1 r2i1 − (

∑Ni=1 ri1)2][N

∑Ni=1 r2

i2 − (∑N

i=1 ri2)2](4.22)

4.2.3 Type mesure

– Correlation

Comme pour les sorties de type rang, on peut calculer la correlation entreles sorties de classifieurs de type mesure. La correlation entre les confiancesde deux classifieurs e1 et e2 est donnee par:

ρe1,e2=

N∑N

i=1 mi1mi2 −∑N

i=1 mi1∑N

i=1 mi2√

[N∑N

i=1 m2i1 − (

∑Ni=1 mi1)2][N

∑Ni=1 m2

i2 − (∑N

i=1 mi2)2](4.23)

– Information mutuelle

Comme il a ete suggere dans [Kang and Lee, 2000], la diversite entre les clas-sifieurs peut etre estimee par l’information mutuelle. Minimiser l’informationmutuelle permet de maximiser la diversite de l’ensemble de classifieurs. L’in-formation mutuelle entre deux classifieurs e1 et e2 peut etre calculee commesuit:

Ie1,e2=

N∑

i=1

N∑

j=1

p(Ci,Cj)log(p(Ci,Cj)

pe1(Ci)pe2

(Cj)) (4.24)

– Mesures de dissemblance

Si on considere deux classifieurs e1 et e2 produisant chacun un vecteur de me-sure [m1,j ,...,mN,j] (j=1,2), on peut alors calculer les distances de (dis)semblancesuivantes entre ces vecteurs [Perlibakas, 2004]

Distance de Minkowski (metrique Lp avec p ≥ 1)

D (e1e2) =

(

N∑

i=1

|mi,1 − mi,2|p

)1/p

(4.25)


Pour p=1, il s’agit de la distance de Manhattan ou de Hamming:

D (e1e2) =N∑

i=1

|mi,1 − mi,2| (4.26)

Pour p=2, il s’agit de la distance euclidienne:

D (e1e2) =N∑

i=1

(

[mi,1 − mi,2]2)

1

2 (4.27)

D’autres variantes de la distance euclidienne sont: la somme au carre (sumsquare SS) et la moyenne au carre (mean square MS)

SS (e1e2) =∑N

i=1 (mi,1 − mi,2)2

MS (e1e2) = 1N

∑Ni=1 (mi,1 − mi,2)

2 (4.28)

Distance de Chebychev:

D (e1e2) =N

maxi=1

|mi,1 − mi,2| (4.29)

Distance basee sur l’angle

D (e1e2) = −cos (m1m2) ,

= −∑N

i=1mi,1mi,2

√

∑N

i=1m2

i,1

∑N

i=1m2

i,2

(4.30)

Distance Chi square χ2

D (e1e2) =N∑

i=1

(mi,1 − mi,2)2

mi,1 + mi,2(4.31)

Distance de Canberra

D (e1e2) =N∑

i=1

|mi,1 − mi,2|

|mi,1| + |mi,2|(4.32)

4.2.4 Conclusion

Comme nous le constatons, plusieurs mesures de diversite incluant lacorrelation, la similarite, l’accord, le desaccord, ont ete proposees dans lalitterature. Ce sont les mesures binaires qui ont ete les plus utilisees. Dans[Kuncheva and Whitaker, 2003], dix de ces mesures ont ete examinees dansl’objectif d’analyser la performance du vote a la majorite en fonction dela diversite des classifieurs. Les resultats obtenus ont montre qu’aucune de

4.3. Comment renforcer la diversite? 199

ces mesures de diversite ne permet de donner une idee claire sur la relationentre performance du vote a la majorite et diversite entre les classsifieurs.Cependant, l’utilisation du Q statistique a ete recommandee pour des rai-sons de simplicite (facile a calculer) et d’interpretation facile (=0 dans lecas d’independance de classifieurs). Toutes les mesures de diversite peuventetre utilisees pour estimer la dependance entre les sorties de classifieurs.Recemment dans [Tsymbal et al., 2004], il est montre que la question de lasuperiorite d’une mesure de diversite sur une autre depend du contexte deson utilisation et des donnees traitees.

Les mesures de diversite ont ete utilisees dans plusieurs problemes differentscomme l’analyse de la relation entre l’erreur de classification et la perfor-mance des classifieurs [Tumer and Ghosh, 1999], l’identification du sous-ensemblede classifieurs donnant la performance predictive la plus elevee, la selectionde caracteristiques [Tsymbal et al., 2004] ou la construction des ensembles declassifieurs correles [Cunningham and Carney, 2000, Cohn et al., 1994, Rosen, 1996,Kuncheva and Kountchev, 2002, Liu and Yao, 1999]. Pour cette derniere di-rection, c’est a dire la construction de classifieurs differents, plusieurs travauxintroduisent des modifications sur les bases de donnees ou sur les classi-fieurs. Dans la section suivante, nous presentons les etudes qui ont aborde ceprobleme: renforcer la diversite entre les sorties des classifieurs pour ameliorerla performance de l’ensemble.

4.3 Comment renforcer la diversite?

Cette question a ete posee au depart dans la communaute reseaux de neu-rones [Partridge and Yates, 1996] qui a constate que les systemes de com-binaison ne produisent pas toujours de meilleures performances que cellesdes classifieurs a combiner. Ceci est du au fait que les membres de telssystemes sont fortement correles et tendent a produire les memes erreurssimultanement. C’est pourquoi, plus d’attention et d’efforts ont ete portesces dernieres annees sur la construction de classifieurs en generant implici-tement ou explicitement la diversite necessaire pour optimiser l’ensemble declassifieurs.

Dans [Knight and Levson, 1986], les auteurs ont evalue deux groupesde reseaux : dans le premier groupe, les reseaux sont appris sur la memebase mais initialises differemment. Alors que dans le deuxieme groupe, lesreseaux ont les memes poids initiaux mais utilisent des bases d’apprentissage


differentes. Ils ont montre que l’erreur de la combinaison de deux reseauxavec initialisation differente est plus faible que celle obtenue par deux reseauxavec initialisation identique. Ceci etait le premier travail sur la constructionde reseaux de neurones dont les sorties sont differentes. Depuis, plusieurstechniques ont ete developpees permettant de renforcer la diversite entre lesclassifieurs.

Partridge et al. [Partridge and Yates, 1996] ont explore plusieurs possibi-lites de construction des reseaux de neurones differents. Ils ont constate quele gain de diversite produit par ces techniques est limite. Ils ont ordonne cestechniques dans l’ordre decroissant de production de la diversite:

type du reseau de neurones > base d’apprentissage > architecture ≥ ini-tialisation.

Cet ordre est aussi confirme dans [Littlewood and Miller, 1989] indiquantque les classifieurs implementes avec differentes methodologies peuvent pro-duire un gain plus eleve de diversite que les autres variations.

D’apres Maclin et al. [Maclin and Opitz, 1997], l’initialisation differentedes classifieurs de type neuronal peut donner les memes resultats que l’ap-prentissage sur des bases generees par bootstrapping.

Dans [Wang et al., 2000], par exemple, differents systemes de combinai-son ont ete construits: des systemes composes de reseaux de neurones ap-pris sur differentes bases et utilisant des sous-ensembles de caracteristiquesdifferents (en faisant aussi varier les poids et le nombre de neurones); dessystemes d’arbres de decision et des systemes hybrides (contenant les deuxtypes de classifieurs). Les reseaux de neurones generes sont plus performantsmais moins divers que les arbres de decision. La mesure CF (coincident fai-lure) a ete utilisee pour comparer le niveau de diversite entre ces classifieurset les resultats de la combinaison. Le groupe le plus performant et le plusdivers est obtenu par la combinaison de tous les reseaux de neurones et lamoitie des arbres de decision.

Recemment, Duin [Duin, 2002] liste les principales strategies et les classepar ordre croissant de priorite:

– Initialisations differentes : Initialiser les classifieurs de differentesfacons peut donner des sorties differentes. Ceci peut etre applique


specialement pour les reseaux de neurones.

– Choix de parametres : comme le nombre de voisins k dans le clas-sifieur de type k-plus proches voisins (kppv) [Giacinto et al., 2000a],le nombre de neurones dans les reseaux, la taille de la fenetre pour leclassifieur Parzen, etc.

– Architectures differentes : ceci est utilise plus particulierement pourles reseaux de neurones qui peuvent etre caracterises par un ensemblede couches cachees differentes. Ce qui engendre une variete de classi-fieurs par exemple RBF, MLP.

– Structures differentes : dans certains cas, les chercheurs sont amenesa utiliser le meme espace de caracteristiques ou la meme base d’appren-tissage [Duin and Tax, 2000]. Afin d’eviter la redondance dans la prisede decision, ils utilisent des classifieurs de differentes structures. Dansla litterature, plusieurs types de classifieurs existent. On peut citerpar exemple Bayesien, Gaussien, reseau de neurones, kppv, arbre dedecision.

– Bases d’apprentissage differentes : ceci consiste a former a partirde la base d’origine, des sous-bases de donnees differentes. Les tech-niques les plus utilisees pour cela sont essentiellement le bootstrapping[Breiman, 1996a] et le boosting 1. Construire des groupes de donneesspecifiques a chacune des classes par exemple par clustering est aussiune autre facon d’avoir des bases differentes.

– Caracteristiques differentes: l’utilisation d’une ou de plusieurs fa-milles de caracteristiques adaptees a chacun des classifieurs peut pro-duire des sorties differentes [Duin and Tax, 2000, Xu et al., 2002].

D’autres chercheurs [Kittler et al., 1998] pensent aussi que l’utilisationde caracteristiques ou de bases d’apprentissage differentes sont les meilleursmoyens d’obtenir des classifieurs independants. Dans ce qui suit, nous decrivonsces deux techniques. Cependant, ce choix n’est pas generalisable. En effet, iln’y a pas d’etude comparative claire qui justifie ce choix sans qu’il soit lie aun contexte applicatif donne.

1. voir section suivante


4.3.1 Caracteristiques differentes

Dans certaines applications, les donnees peuvent etre representees sousforme de primitives. L’identification d’une personne par exemple, peut sefaire par la parole et/ou par l’image. L’utilisation d’une ou de plusieurs fa-milles de caracteristiques adaptees a chacun des classifieurs peut produire dessorties differentes [Duin and Tax, 2000, Tax et al., 2000, Xu et al., 2002].

Une facon d’obtenir des sorties differentes avec des classifieurs homogenes(meme structure) est d’utiliser des sous-ensembles de caracteristiques differentesdont chacun permet de discriminer une classe des autres (le nombre de clas-sifieurs est egal au nombre de classes [Oza and Tumer, 1999]). La recherchede ces sous-ensembles de caracteristiques est aussi connue comme selectionde caracteristiques [Opitz, 1999]. Les methodes traditionnelles de selectionde caracteristiques sont utilisees pour ca. Leur objectif n’est pas seulementla recherche du meilleur groupe de caracteristiques, mais aussi la recherchedu sous-ensemble de caracteriques permettant de produire plus de desaccordentre les classifieurs. Les methodes de selection de caracteristiques necessitentgeneralement une strategie de recherche et un critere de selection (fonction defitness par exemple). Le but de la strategie de recherche est de trouver le sous-ensemble de caracteristiques qui maximise ou minimise le critere de selection.Une possibilite est d’utiliser un critere de selection qui tient compte en memetemps de la diversite entre les classifieurs et leur performance. La mesure defitness proposee dans [Opitz, 1999] est basee sur ces deux criteres permet-tant de selectionner les ensembles de caracteristiques les mieux adaptees auxclassifieurs.

Ho [Ho, 1998] a montre qu’une simple selection aleatoire des sous-ensemblesde caracteristiques peut etre efficace puisque le manque de performance desclassifieurs est compense par la diversite des caracteristiques. Cette tech-nique appelee Random Subspacing (RS) permet de modifier les donneesdans l’espace de caracteristiques. Disposant d’un ensemble initial F de ca-racteristiques, on selectionne au hasard p∗ caracteristiques de F. Ceci estrepete L fois pour obtenir des sous-ensembles de caracteristiques differents.Les L classifieurs sont ensuite construits dans les sous-espaces et combinespar la regle de vote a la majorite.

Au lieu de selectionner un nombre fixe F pour tous les sous-ensemblesde caracteristiques comme dans [Ho, 1998] (elle utilise approximativement lamoitie des caracteristiques pour chaque classifieur), dans [Tsymbal et al., 2003]chaque sous-ensemble contient un nombre de caracteristiques different choisie


aleatoirement. Il est constate que cette technique permet de construire desclassifieurs avec une diversite et des performance elevees.

Skurichina et al. [Skurichina and Duin, 2000a] ont montre que la methodeRS permet de maintenir une erreur faible en apprentissage et d’ameliorer l’er-reur de generalisation pour des classifieurs lineaires.

4.3.2 Bases d’apprentissage differentes

D’apres Hansen et Salamon (dans le cadre de la combinaison des reseauxde neurones)[Hansen and Salamon, 1990], meme si les classifieurs sont iden-tiques, l’amelioration de performance peut etre obtenue si l’apprentissagedes classifieurs est realise sur des donnees independantes (c’est a dire siles bases sont constituees de maniere differente). Les travaux sur la vali-dation croisee et le bootstrapping [Raviv and Intrator, 1996, Krogh, 1995,Parmanto et al., 1996], l’algorithme de boosting [Drucker et al., 1994], la trans-formation non-lineaire des donnees [Sharkey et al., 1996] et l’injection dubruit dans la base d’apprentissage [Raviv and Intrator, 1996] vont dans cettedirection. Toutes ces methodes sont capables de produire, a partir d’unebase d’apprentissage initiale, des ensembles de donnees qui peuvent etreutilises pour apprendre des classifieurs differents. Cependant, il est suggereque la validite de chacune de ces methodes depend des donnees utilisees[Sharkey et al., 1996]. Le boosting, par exemple, necessite une large base dedonnees.

Probablement, bagging et boosting sont les methodes de constructiond’ensembles les plus utilisees dans la litterature. Initialement, ces deux tech-niques etaient concues pour ameliorer la performance des arbres de decisionqui sont des classifieurs faibles (dont les performances ne sont pas stables)[Breiman, 1996a, Freund and Schapire, 1996, Quinlan, 1996]. Cependant, ilest constate qu’elles sont aussi efficaces pour d’autres types de classifieurstels que les classifieurs lineaires [Skurichina, 2001], les reseaux de neurones[Avnimelech and Intrator, 1999, Maclin and Opitz, 1997] et les k-plus prochesvoisins [Breiman, 1996b]. Pour les classifieurs lineaires, la performance debagging et boosting est affectee par la taille de la base d’apprentissage, lechoix du classifieur ainsi que la regle de combinaison [Skurichina, 2001].


4.3.2.1 Bagging

Bagging [Breiman, 1996a] est basee sur les concepts de Bootstrappinget d’aggregating. Le bootstrapping [Efron and Tibshirani, 1993] est concupour generer au hasard et avec remise L copies independantes de S objetsappelees bootstrap a partir de l’ensemble initial des echantillons d’apprentis-sage de taille S. Un objet de la base initiale peut etre selectionne plusieurs foiscomme il peut etre absent dans les copies generees. Le meme classifieur estappris sur chacune des copies. On obtient par la suite L classifieurs avec desperformances differentes. L’aggregation consiste a combiner ces classifieursen utilisant le vote a la majorite comme regle de combinaison. L’algorithme13 illustre le fonctionnement de bagging.

Algorithme 13 Description generale de la methode de baggingEntree:

Ba: base d’apprentissageS: taille de la base d’apprentissagex: forme a reconnaıtre

Debut


Debut

Generer la sous-base bj a partir de Ba.Construire le classifieur ej(x) en utilisant la base bj

Fin faire

Combiner les L classifieurs construits par le vote a la majorite afin d’obtenirla decision finale de x.

Fin

L’etude simulee de Skurichina [Skurichina and Duin, 1998] a montre que,generalement, bagging est une technique qui permet d’ameliorer la perfor-mance des classifieurs lineaires instables. Cette conclusion a ete deja montreedans [Breiman, 1996a] ou l’auteur note que: ”The vital element is the in-stability of the prediction method. If perturbing the learning set can causesignificant changes in the predictor constructed, then bagging can improveaccuracy”. La reduction de l’erreur de classification ne peut donc etre ob-tenue que dans le cas d’une combinaison de classifieurs instables. Pour desclassifieurs stables, elle deteriore la performance de la combinaison.

Differentes modifications du bagging ont ete etudiees. Par exemple, latechnique dite nice bagging consiste a combiner les meilleurs classifieurs (c’esta dire les classifieurs dont les erreurs obtenues sur les versions de boots-


trap sont les plus faibles) [Taniguchi and Tresp, 1997]. Cette methode estpreferable a la version originale de bagging dans la mesure ou elle permetde construire le classifieur avec le minimum d’erreur de classification. Uneautre version de Bagging nommee half-and-half bagging [Breiman, 1998] a etedeveloppee. L’idee de base est simple. Supposons que la base d’apprentissagecontienne S points. Supposons aussi que l classifieurs sont deja construits.Pour obtenir la base d’apprentissage suivante, on tire aleatoirement un pointx. Ce point est presente a l’ensemble de classifieurs qui n’ont pas utilise xdans leur base d’apprentissage. La combinaison par vote a la majorite de leurresultats donne une decision a propos de la classe du point x. Si x est malclassse alors il est mis dans une base MC. Sinon il est mis dans une autrebase CC. On arrete le processus quand les effectifs des deux bases MC et CCsont egaux a M avec M = S/4.

Dans bagging, approximativement 1/3 des exemples ne font pas partiedes donnees tirees dans les copies de bootstrap. Breiman [Breiman, 1996a]les appelle ”‘out of bag”’. Dans [Hothorn and Lausen, 2003], cette base estutilisee pour estimer les coefficients de la fonction lineaire. A chaque iteration,le classifieur de type arbre de decision est construit tout d’abord en utilisantses parametres d’apprentissage (obtenus sur la version de boostrapping) etensuite avec les variables determinees par la fonction lineaire qui combinel’ensemble de classifieurs (obtenues sur les exemples qui n’apprtiennent pasa la version de boostrapping). Par consequent, on obtient deux classifieursdifferents a chaque etape, c’est pourquoi la methode est nommee double-bagging.

4.3.2.2 Boosting

Contrairement au bagging ou les ensembles d’apprentissage de boots-trap et les classifieurs sont construits de maniere independante, dans boos-ting, les echantillons d’apprentissage sont construits incrementalement parle meme classifieur et de maniere sequentielle [Freund and Schapire, 1996].Initialement, tous les echantillons d’apprentissage ont des poids egaux etle classifieur est construit sur cette base. Ensuite pour chaque etape, lesechantillons sont ponderes de facon a ce que les objets mal classes (qui setrouvent generalement aux frontieres des classes) aient des poids eleves etle classifieur est lance sur le nouvel ensemble d’apprentissage ainsi pondere.De cette maniere, on obtient finalement un ensemble de classifieurs qui sontcombines par un vote pondere pour avoir la decision finale (voir algorithme14).


Algorithme 14 Description generale de la methode de boostingEntree:

Ba: base d’apprentissageS: taille de la base d’apprentissagex: forme a reconnaıtre

Debut

Initialiser tous les poids w1s (s=1,...,S) des elements de la base d’apprentissage

Ba a 1S.


Debut

Generer la sous-base bj a partir de Ba.Construire le classifieur ej en utilisant la base bj

Calculer l’erreur de l’ensemble

εj =S∑

s=1

wjs(1 − es,j) (4.33)

es,j =1 si le classifieur ej reconnaıt correctement le sieme

element et es,j = 0 sinon. Si εj = 0 ou εj ≥ 0.5 alors reinitialiserwj

s a 1S

Calculer le coefficient de ponderation a utiliser dans la regle decombinaison

βj =εj

1 − εj

(4.34)

Calculer le poids de chaque element de la base suivante

wj+1s =

wjsβj

∑Sl=1 w

jl βj

(4.35)

Fin faire

Combiner les L classifieurs construits par le vote pondere afin d’obtenir ladecision finale de x. Le vote de chaque classifieur ej est pondere par unpoids de log(βj).

Fin


D’autres versions du boosting ont ete etudiees par certains chercheurs[Drucker et al., 1994, Ji and Ma, 1997, Maclin and Opitz, 1997] pour ameliorerla performance des classifieurs. Les plus utilisees sont : Arcing [Breiman, 1996b]et Ada-Boosting [Freund and Schapire, 1996]. La difference d’ada-boosting(Adaptive Boosting), par rapport a boosting, reside dans la condition d’arret:si εj est superieure a 0.5 alors la procedure s’arrete et L est egal a j-1 (c’est adire que le dernier classifieur ne sera pas pris en compte dans la combinaisonde l’ensemble). Si au contraire, tous les elements sont bien classes et donc εj

= 0, alors on passe a la combinaison. Dans ada-boosting, le vote de chaqueclassifieur ej est pondere par log( 1

βj), βj est definie dans l’equation 4.34 de

l’algorithme 14.

Dans Arcing (Adaptive Re-weighting and Combining), la selection de labase d’apprentissage se realise de maniere un peu differente. Pour chaqueelement bi,j de la base d’apprentissage, la valeur mi indique le nombre defois que cet element a ete mal classe par les classifieurs deja construits. Laprobabilite pi de selection de bi,j dans la base du prochain classifieur ej+1 estdefinie par:

pi =1 + m4

i∑S

k=1 1 + m4i

(4.36)

Breiman [Breiman, 1996b] choisit d’elever mi a la puissance 4 dans laformule 4.36 empiriquement apres plusieurs tests. Contrairement a Ada-Boosting, Arcing combine les classifieurs par le vote simple (sans ponderation).

L’algorithme de boosting propose dans [Ji and Ma, 1997] est teste sur desbases artificielles et reelles en fonction de certains parametres (le nombre declassifieurs, le facteur de faiblesse permettant de selectionner les classifieursfaibles a combiner et le seuil de partition de la base d’apprentissage). L’ana-lyse theorique presentee a permis de fournir des solutions pour le problemede choix du facteur de faiblesse et le seuil de partition de la base d’appren-tissage. Cependant le probleme de choix du nombre de classifieurs reste unprobleme ouvert.

4.3.2.3 Evaluation de bagging et boosting

Dans [Skurichina et al., 2002], bagging et boosting ont ete etudies pourdes problemes a 2 classes. Par ces deux methodes, 250 classifieurs ont etegeneres et combines par le vote pondere. Il est montre que la diversite de l’en-semble de classifieurs depend de la taille de la base d’apprentissage. Dans bag-


ging, les classifieurs sont plus dependants quand la taille de la base d’appren-tissage est large. En effet, le bootstrap est moins efficace avec beaucoup dedonnees. Les versions construites par cette technique ont des caracteristiquessimilaires puisque leur distribution est souvent proche de la distribution desdonnees d’origine. Dans boosting, les donnees d’apprentissage sont modifieesde telle sorte que les elements mal classes dans la copie precedente ont despoids eleves dans la nouvelle copie. L’utilisation d’une grande base de donneessignifie un grand nombre de donnees aux frontieres des classes. La construc-tion des classifieurs sequentiellement permet de modifier les poids de cesdonnees. Par consequent, les frontieres des classes deviennent mieux definies.C’est pour cette raison que les versions construites par boosting sont plusdiverses. Il est donc preferable d’utiliser peu de donnees pour bagging maisbeaucoup de donnees pour boosting.

Dans [Quinlan, 1996], l’auteur compare bagging et boosting (Ada-boost)en combinant 10 copies d’un classifieur de type arbre de decision C4.5 apprissur 27 bases de donnees (reelles) differentes. Il est constate que bien que cesdeux techniques permettent de reduire l’erreur du classifieur initial, elles secomportent differemment. Bagging reduit l’erreur de C4.5 de 10% en moyennedans 24 bases parmi les 27. Boosting reduit l’erreur de 15%, mais ameliorela performance des classifieurs dans 21 bases. Il est egalement remarque quela deterioration de performance de boosting est due en grande partie a laredondance des versions generees. Pour plusieurs bases de donnees, boostingnecessite moins de copies que ce qui est pre-defini pour arriver a classer cor-rectement la base d’apprentissage. Le choix de la regle de combinaison (ici levote pondere et surtout les poids des classifieurs) influe aussi sur la perfor-mance de boosting.

Contrairement a l’etude de Friedman [Friedman, 1989] ou il est difficiled’utiliser d’autres regles de combinaison a part le vote simple ou pondere,celle de Skurichina [Skurichina and Duin, 2000a] fait appel a d’autres methodesde combinaison, a savoir l’analyse discriminante lineaire (LDA), la reglemoyenne et la regle du produit. Les resultats de cette etude ont montre queboosting est meilleur que bagging pour toutes les methodes de combinaisonutilisees et sur des bases d’apprentissage de grande taille.Dans [Nishimura et al., 1999], l’auteur propose aussi d’utiliser d’autres reglesde combinaison dans Bagging a la place du vote a la majorite. Avec desdonnees reelles (base de lettres), il est apparu que bagging avec le vote restepreferable.

Dans [Maclin and Opitz, 1997], les deux versions de boosting (Arcing et


Ada-Boosting) ont ete comparees a bagging sur 23 bases differentes. Lesresultats ont montre que:

1. Bagging donne toujours une performance meilleure que chacun des clas-sifieurs.

2. Les deux versions de boosting sont plus sensibles au bruit.

Sur certaines bases, arcing et ada-boosting n’apportent aucun gain par rap-port a chacun des classifieurs et sur d’autres bases, elles ameliorent la per-formance de maniere significative, meme par rapport a bagging. D’apres cesresultats, il est preferable d’utiliser boosting (surtout ada-boosting) si la basede donnees est non bruitee, dans le cas contraire c’est le bagging qu’il faututiliser (puisqu’elle est moins sensible au bruit).

Dans [Melville and Raymond, 2003], bagging et boosting (version Ada-boosting) ont ete compares sur 15 bases de donnees differentes a une autretechnique nommee DECORATE (Diverse Ensemble Creation by Opposi-tional Relabeling of Artificial Training Exemples). La difference de cettemethode par rapport a bagging et a boosting, est qu’elle genere plus dedonnees d’apprentissage afin d’obtenir des classifieurs plus differents et n’integredans le processus de combinaison que les classifieurs qui minimisent le tauxd’erreur de tout l’ensemble. Elle utilise donc ce taux d’erreur comme criterede selection de classifieurs. L’ensemble de depart est compose du premierclassifieur (de type arbre de decision) construit sur toute la base d’appren-tissage Ba. Son erreur est egalement calculee. Dans chaque etape successive,une nouvelle base d’apprentissage Ba′

est creee constituant l’union de la based’origine et une fraction de celle-ci (Ba′

= Ba(1+R), R varie entre 0.1 et 1).La partie supplementaire de la base d’apprentissage est construite de tellemaniere qu’elle contienne le plus possible d’elements differents de la based’origine. Elle est eliminee apres l’apprentissage du classifieur sur Ba′

(c’esta dire, on revient a la base d’origine Ba). L’integration de ce classifieur dansle groupe final depend de la nouvelle erreur calculee. Il s’agit du pourcentagedu nombre d’elements de la base d’apprentissge pour lesquels les classifieursde l’ensemble proposent (en meme temps) une reponse incorrecte. Si cetteerreur est inferieure a l’erreur de l’iteration precedente, le classifieur est ac-cepte, sinon il est rejete. La combinaison de l’ensemble final de classifieursest realisee avec la regle moyenne simple. L’avantage de cette methode, parrapport a bagging et a boosting, est qu’elle apporte plus de gain de perfor-mance avec peu d’exemples d’apprentissage.


4.3.3 Conclusion

En resume, il existe plusieurs facons de construire de classifieurs dont lessorties sont differentes. On peut obtenir ces classifieurs en introduisant desmodifications sur les bases d’apprentissage, l’espace de caracteristiques, lesstructures des classifieurs, etc. Il est important de souligner que malgre lavariete de ces techniques, il est encore difficile de dire laquelle est meilleure.Ceci s’explique (en grande partie) par le fait que le nombre de comparaisonsentre les differentes techniques est limite. La plupart des travaux s’interessenta la modification des bases d’apprentissage et se concentrent en particuliersur la comparaison de adaboost a bagging. Il est clair qu’il faut plus d’etudescomparatives afin de connaıtre les conditions d’utilisation de chacune desmethodes.

Il est egalement reconnu que l’evaluation des methodes de combinaisonen fonction de la diversite obtenue par ces techniques est limitee dans lamesure ou on ne peut pas avoir une grande variabilite de correlation entre lesclassifieurs qu’elles construisent. La diversite ne peut etre mesuree qu’apresla construction des classifieurs (a posteriori). Elle peut etre renforcee maispas controlee. Tenir compte a priori de la correlation ou de la dependanceentre les classifieurs est bien evidemment plus interessant pour construiredes ensembles de classifieurs avec des niveaux differents de correlation. Cen’est que par simulation qu’il est possible de controler cette correlation. Ceciconsiste a utiliser une mesure de diversite dans le processus de generationde classifieurs. Comment simuler des classifieurs correles? C’est ce que nouspresentons dans la section suivante.

4.4 Methode proposee

Il existe peu de travaux qui ont traite le probleme de simulation de classi-fieurs correles et encore moins qui ont utilise une mesure de diversite dans lasimulation. Nous avons passe en revue ces travaux dans le chapitre 2. Tenircompte de la correlation ou de la dependance entre les classifieurs dans cestravaux s’avere interessant; cependant, les generateurs developpes ne peuventetre utilises que pour etudier les methodes de combinaison de type classe. Sil’on veut etudier les methodes de type rang ou les methodes de type mesureen fonction de la diversite, nous devons disposer d’un simulateur qui permetde generer des sorties correlees de type mesure.

Notre objectif est de construire des ensembles de classifieurs produisant

4.4. Methode proposee 211

des listes de solutions differentes en se basant sur le simulateur de classifieurque nous avons developpe dans le chapitre precedent. Nous sommes donc facea plusieurs problemes: quelle mesure de diversite utiliser? Comment obtenirdes sorties de type mesure respectant en meme temps le niveau de correlationsouhaite et les performances desirees?

Nous avons evoque l’existence d’un lien entre la diversite et les perfor-mances des classifieurs: quand les performances augmentent, la diversitediminue. Simuler des classifieurs correles consiste a controler la diversitedesiree entre les sorties des classifieurs ainsi que leurs performances. Devantle nombre de parametres a prendre en compte dans cette simulation, il estdifficile de controler tout a la fois. Nous montrerons dans les paragraphessuivants la difficulte de ce controle de diversite entre deux classifieurs. Side plus, on souhaite controler simultanement la diversite, non pas de deux,mais de trois classifieurs voire plus, il faudrait controler la diversite entrechaque couple ainsi que les performances de chacun des classifieurs. Nousnous concentrons donc essentiellement ici sur le controle de la diversite d’uncouple de classifieurs et de leurs performances.

Notons ici que certains chercheurs n’ont utilise que deux classifieurs poureclaircir certaines conditions d’utilisation des methodes de combinaison. Dans[Skalak, 1996] par exemple, l’auteur propose deux algorithmes de boostingpermettant de construire un classifieur different a partir d’un autre classi-fieur (de type k-ppv) afin d’etudier l’apport de cette difference sur la com-binaison. Le but du premier algorithme est de creer des classifieurs avec desperformances plus elevees que le classifieur de base. Alors que le deuxiemealgorithme permet de construire des classifieurs moins performants mais pro-posant des reponses differentes (complementaires). Ces deux algorithmes ma-nipulent les bases d’apprentissage de maniere differente permettant ainsi decreer des classifieurs avec differents degres de diversite et de performance.Notons egalement qu’il existe plusieurs applications reelles qui ne necessitentque deux classifieurs seulement. On peut citer par exemple l’identification depersonnes par leur voix et leur visage [Kittler et al., 1998].

Nous nous interessons donc ici a la generation de couples de classifieursayant une diversite controlee. Le premier classifieur (classifieur de base) dechaque couple est genere par le simulateur propose dans le chapitre precedent.Le deuxieme classifieur est construit a partir des sorties du premier classifieuren fonction de la diversite desiree et des performances fixees. Dans ce qui suit,nous commencons par presenter la mesure de diversite que nous avons utiliseepour cette generation. Ensuite, nous presentons les etapes de mise en place de


l’approche de generation proposee. Nous presentons enfin quelques resultatspermettant de verifier les donnees generees par le deuxieme classifieur etmontrons comment notre approche peut etre utile pour l’etude de l’influencede la diversite sur les performances des methodes de combinaison.

4.4.1 Mesure utilisee

Construire un ensemble de classifieurs correles necessite l’utilisation d’unemesure de diversite appropriee afin de controler la diversite entre les confiancesproposees par les classifieurs. La distance, la correlation ainsi que l’informa-tion mutuelle sont des mesures possibles qui peuvent etre utilisees pour esti-mer la diversite. Bien qu’elles soient utilisees dans plusieurs travaux, il n’estpas possible de distinguer la superiorite d’une mesure sur une autre.

Dans notre methode, nous utilisons la distance pour estimer la diver-site entre deux classifieurs. Precisement, considerons deux classifieurs eA eteB produisant chacun S sorties pour un probleme a N classes. Chaque sor-tie sA

i (respectivement sBi ) peut etre representee sous forme d’un vecteur

de confiances [mAi1,...,m

AiN ] ou mA

ij est la confiance associee a la classe Cj.

Puisque les confiances sont normalisees, nous avons∑N

j=1 mAij = 100% avec

mAij ∈ [0,100].

La distance entre deux classifieurs eA et eB produisant des sorties de typemesure, est definie par:

DeAeB=

1

S

S∑

i=1

d(sAi ,sB

i ) (4.37)

ou d(sAi ,sB

i ) est la distance de Hamming entre les sorties sAi et sB

i calculeede la facon suivante:

dsAi

,sBi

=1

200

N∑

j=1

∣

∣

∣mAij − mB

ij

∣

∣

∣ (4.38)

Diviser par 200 (distance maximale entre deux vecteurs de confiances) per-met de normaliser la distance d(sA

i ,sBi ). Cette distance varie donc entre 0 et

1.d(sA

i ,sBi ) =0 signifie que les sorties sA

i et sBi sont identiques c’est-a-dire

qu’elles contiennent les memes solutions avec les memes confiances.d(sA

i ,sBi )=1 signifie que les deux sorties sont totalement differentes (il n’y a

aucune etiquette de classes en commun comme il est montre dans l’exemple


suivant pour un probleme a 5 classes).

Classifieur eA Classifieur eB

1: 1 [ 75.34] 2 [ 24.66] 1: 3 [ 60.00] 4 [ 40.00]1: 1 [100.00] 1: 2 [ 50.00] 5 [ 50.00]1: 2 [100.00] 1: 4 [100.00]

Nous avons choisi de controler la diversite en utilisant la mesure de dis-tance DeAeB

parce qu’elle est une mesure simple et ne depend pas des per-formances des classifieurs.

4.4.2 Principe de la methode de generation des sorties

Le probleme de la generation peut se poser de la maniere suivante: dispo-sant des sorties d’un premier classifieur eA dont on a fixe la performance pA

et une mesure de diversite moyenne δ, comment peut-on generer les sorties(listes de solutions) d’un deuxieme classifieur eB selon une performance pB

fixee? Notons ici que pA et pB sont des performances globales estimees par lerapport entre le nombre total de sorties dans lesquelles la classe correcte ap-paraıt dans les K premieres propositions et le nombre total de sorties (TLK).

Pour illustrer le principe de notre methode, considerons la generation duclassifieur eB pour un probleme a 3 classes. Soit un plan P (figure 4.1) reliantles 3 points (100, 0, 0), (0, 100, 0) et (0, 0, 100). Ce plan (qui forme un tri-angle en dimension 3) est l’ensemble des points admissibles du classifieur eA.Chaque point de ce plan P represente un vecteur de confiances d’une sortiedu classifieur eA.

Soit un point sAi du plan P. Le principe de la methode consiste a generer

une sortie sBi (i de 1 a S) du classifieur eB a une distance δ a partir du

point sAi (figure 4.2). L’intersection entre le plan P et l’ensemble des points

situes a une distance δ du point sAi forme tous les points admissibles pour

sBi (en gras). Selon le principe de notre methode, la procedure de generation

consiste donc a fournir automatiquement, pour un probleme a N classes, Ssorties de deux classifieurs, eA et eB selon les performances et le niveau dediversite fixes. Les sorties du premier classifieur sont tout d’abord genereesselon le taux de reconnaissance pA desire en se basant sur le simulateur declassifieur que nous avons presente dans le chapitre precedent. Ces sorties sontutilisees pour generer les sorties du deuxieme classifieur. Les sorties generees


Fig. 4.1 – Espace des sorties du classifieur eA pour un probleme a 3 classes

par le simulateur doivent donc respecter globalement l’ensemble suivant decontraintes:

– la performance pA du classifieur eA

– la distance moyenne δ desiree entre les sorties de eA et celles de eB

– la performance pB a respecter pour generer les sorties du classifieur eB

– le nombre de classes N pour traiter un probleme de classification quel-conque

– le nombre maximal de propositions K puisqu’on genere une liste desolutions

Nous verrons dans la section suivante qu’il n’est pas toujours possible derespecter ces differentes contraintes notamment lorsque l’on demande unedistance moyenne δ tres grande (proche de 1). Par exemple, il est impossiblede respecter la distance δ=1 pour generer un classifieur eB avec pB=80% apartir des sorties d’un classifieur eA ayant un taux de reconnaissance pA a90%. Nous verrons qu’il existe une limite maximum δmax a la diversite quidepend de pA et pB. Si la distance δ souhaitee est superieure a δmax, le si-mulateur ne pourra pas respecter cette contrainte. Dans ce cas, la meilleuresolution qu’il est capable de generer est un classifieur eB pour lequel δ=δmax.


Fig. 4.2 – Principe de la generation de sorties correlees

Notons ici que les distances entre les sorties des deux classifieurs peuventetre differentes. Nous noterons δi la distance entre les sorties generees pourles classifieurs eA et eB. Pour respecter la distance δ entre eA et eB, il fautque la moyenne des δi soit egale a δ. Notons egalement qu’il faut avoir Ksolutions au plus dans chaque sortie sB

i . Pour un probleme a N classes, si onconsidere V B

i le vecteur des N confiances associe a une sortie sBi , on devra

avoir N-K composantes nulles dans ce vecteur (pour que la liste des classesde la sortie sB

i ne comporte que K propositions).

La generation d’une sortie sBi demande donc de choisir tout d’abord une

distance δi et de determiner ensuite les N-K classes qui ne seront pas dans laliste de solutions de sB

i , et enfin de generer les solutions restantes respectant δi

et pB. Pour generer les sorties de eB, nous commencons par choisir l’ensembledes sorties sB

i dans lesquelles devra figurer la bonne classe Cvraie de facon arespecter le taux de reconnaissance pB. Notons ici que deux alternatives sontenvisageables pour respecter les deux contraintes δ et pB. Soit on determinedes sorties respectant pB puis on les modifie pour qu’elles respectent la dis-tance δ. Soit on commence par respecter la distance et on modifie ensuite lessorties pour respecter pB. Il est apparu que commencer par respecter pB estplus efficace dans le sens ou cela permet de controler plus facilement les deux


parametres δ et pB c’est pourquoi nous retenons cette solution. Respecterla performance pB consiste a avoir pB*S solutions correctes dans les sortiesde eB(S est le nombre total de sorties). Cela se fait simplement en tirantaleatoirement pB*S sorties dans lesquelles la bonne solution doit exister. Laprocedure de generation de sorties du classifieur eB a partir du classifieur eA

est presentee dans l’algorithme 15.

Algorithme 15 Generation des sorties du classifieur eB a partir de eA enfonction d’un taux de reconnaissance pB et d’une distance δEntree:

S : nombre de sorties a genererN : nombre de classesK : nombre de solutions maximales a generer pour chaque sortiepA: le taux de reconnaissance desire du classifieur eA

pB : le taux de reconnaissance desire du classifieur eB

δ: distance fixee entre eA et eB

Sorties:

sBi : sorties du classifieur eB (i=1 a S)

Debut

Generer les sorties du premier classifieur eA en fonction de N, S, K et pA

Placer les solutions correctes de eB pour respecter pB

Calculer la distance maximale δmax entre les sorties de eA et eB

Si δ ≤ δmax alors

Determiner les distances δi pour respecter δ

Determiner les N-K classes qui ne doivent pas figurer dans lessorties sB

i pour respecter KDeterminer les confiances des solutions de sB

i en respectant δi

Sinon

Determiner les sorties sBi du classifieur eB selon δmax

Fin

Dans la section suivante, nous detaillons la generation des sorties duclassifieur eB et nous presentons les algorithmes sur lesquels reposent cettegeneration.

4.4.3 Generation de sorties correlees

Dans les paragraphes suivants, nous detaillons les etapes de l’algorithme15. Nous presentons tout d’abord le calcul de la distance maximale δmax

dans la section 4.4.3.1. Nous determinons ensuite les valeurs des distancesδi en fonction de δ dans la section 4.4.3.2. La determination des etiquettes


de classes qui ne doivent pas figurer dans les sorties de eB permettant derespecter K est detaillee dans la section 4.4.3.3. La generation des confiancesde ces etiquettes est detaillee dans la section 4.4.3.4. Enfin, nous presentonsla generation des sorties de eB selon δmax dans la section 4.4.3.5.

4.4.3.1 Calcul de δmax

Rappelons que la distance δ entre deux classifieurs eA et eB est donneepar:

δeAeB=

1

S

S∑

i=1

d(sAi ,sB

i ) (4.39)

ou d(sAi ,sB

i ) est la distance de Hamming entre les sorties sAi et sB

i calculeede la facon suivante:

dsAi

,sBi

=1

200

N∑

j=1

∣

∣

∣mAij − mB

ij

∣

∣

∣ (4.40)

Determiner une distance maximale δmax entre les sorties de eA et eB

consiste a chercher comment maximiser la difference entre les confiancesdes solutions des sorties des deux classifieurs. La borne superieure de cettedifference est 1. Pour constituer la liste de classes presentes dans la sortie sB

i

du classifieur eB, plusieurs situations sont a envisager selon que :

1. la liste de classes fournie par sAi est complete (K=N) ou non

2. quand K<N, la vraie classe Cvraie peut appartenir a la liste de solutionsde sA

i ou non

3. quand K<N, la vraie classe Cvraie peut appartenir a la liste de solutionsde sB

i ou non (pour respecter la performance pB)

– Dans le premier cas, si la vraie classe Cvraie ne doit pas figurer danssB

i alors il faut tenir compte de l’etiquette de la classe Cj ayant laconfiance minimum dans la sortie sA

i . Pour que la distance puisse etrerendue maximale, il suffit d’affecter a Cj dans sB

i une confiance de100%. Dans ce cas, δmax n’est que la somme des confiances des classesde sA

i et celles de sBi c’est-a-dire (100-mA

ij)+100.

– Pour le deuxieme cas, si la vraie classe Cvraie n’existe pas dans sAi alors

il suffit d’avoir au moins une etiquette de classes differente de cellespresentes dans la sortie du premier classifieur pour que la distanceatteigne la valeur maximale (=1).


– Dans le dernier cas, si la vraie classe Cvraie doit figurer dans les sor-ties des deux classifieurs alors il faut chercher une classe Cj qui soitdifferente de la vraie classe et qui n’existe pas dans eA. Dans ce cas,δmax est obtenue en affectant a la vraie classe Cvraie une confiance tresfaible (ε) mais une confiance de 100-ε a la classe Cj dans sB

i .

La procedure de calcul de δmax est presentee dans l’algorithme 16. Nouspresentons ici quelques exemples de sorties pour montrer comment les dis-tances maximales peuvent etre calculees pour un probleme a 3 classes. Dans lepremier groupe d’exemples, nous supposons que la bonne solution (l’etiquettede la classe ”1”) ne doit pas figurer dans la sortie du classifieur eB. Remar-quons que si nous avons eu une distance de 1 pour la premiere sortie c’estparce qu’on peut avoir une etiquette de classe (l’etiquette ”3”) differente decelles existantes dans la sortie de eA. Notons egalement que le fait d’avoirtoutes les classes presentes dans la sortie du premier classifieur ne permetpas d’obtenir δmax=1: δmax ne peut etre obtenue qu’en affectant a la classe,dont la confiance est la plus faible dans sA

i , une confiance de 100 dans sBi a

condition qu’elle soit differente de la vraie classe.

Classifieur eA Classifieur eB δmax

1: 1 [m1] 2 [m2] 1: 3 [100] 1

1: 1 [m1] 2 [m2] 3 [m3] 1: 3 [100] m1+m2+(100−m3)200

1: 3 [m1] 2 [m2] 1 [m3] 1: 2 [100] m1+(100−m2)+m3200

Supposons maintenant que la bonne solution doit apparaıtre dans la sortiedu classifieur eB. Nous l’illustrons sur l’exemple suivant. Remarquons qu’ilsuffit que la classe correcte soit absente dans la sortie de eA (la premieresortie) pour qu’on obtienne une distance maximale egale a 1. Maintenant,si la bonne solution existe dans les deux sorties et qu’il existe en plus desclasses qui sont differentes de celles de eA (sortie 2), alors le fait d’affectera la bonne solution de eB une confiance tres faible (ε) permet d’avoir unedistance maximale. Pour avoir une distance maximale dans le cas ou toutesles classes existent dans la sortie de eA (sorties 3 et 4), il faut ne tenir compteque de la confiance de la derniere solution de la sortie de eA.

Classifieur eA Classifieur eB δmax

1: 3 [m1] 2 [m2] 1: 1 [100] 1

1: 2 [m1] 1 [m2] 1: 3 [100-ε] 1 [ε] m1+(100−ε)+(m2−ε)200

1: 3 [m1] 2 [m2] 1 [m3] 1: 1 [100] m1+m2+(100−m3)200

1: 3 [m1] 1 [m2] 2 [m3] 1: 2 [100-ε] 1 [ε] m1+(m2−ε)+(m3−(100−ε))200


Algorithme 16 Calcul de la somme des distances maximales δmax entre lessorties de eA et eB

Entree:

sAi : sortie du classifieur eA

n: nombre de solutions de la sortie sAi

Cvraie: la vraie classe de la ieme sortieε: confiance tres faible attribuee a la solution correcte

Sorties:

δmax: la somme des distances maximales entre les sorties de eA et eB

Debut

Initialiser δmax a 0Pour chaque sortie i de 1 a S faire

Chercher le nombre d’etiquettes de classes qui n’existent pas danssA

i

Sauvegarder ces etiquettes dans une liste LChercher la position k de Cvraie dans sA

i

Si sAi contient toutes les classes alors

Si Cvraie ne doit pas figurer dans sBi alors

Si la derniere solution est differente de Cvraie

alors

δmaxi = 2(100-mA

in)

Sinon

δmaxi = 2(100 - mA

i(n−1))

Sinon

Si la derniere solution est differente de Cvraie

alors

δmaxi = (100 - (mA

ik+ mAin)) + (mA

ik-ε) +(mA

in - (100-ε))

Sinon

δmaxi = 2(100-mA

in)

Sinon

Si la vraie classe ne doit pas figurer dans sBi alors

Si L n’est pas vide alors

δmaxi = 1

Sinon

δmaxi = 2(100-mA

in)

Sinon

Si la vraie classe n’existe pas dans sAi alors

δmaxi = 1

Sinon

δmaxi =(100 - mA

ik) + (100-ε)+ (mAik-ε)

Incrementer δmax de δmaxi

Fin pour

Fin


4.4.3.2 Respecter la distance δ

Respecter seulement le taux de reconnaissance est facile. Nous avons vuqu’il suffit de chercher les sorties qui doivent contenir la classe correcte. Ce-pendant, quand on a a respecter en meme temps la performance et la distance,le processus devient plus complexe.

Si on considere un probleme a 3 classes, chaque sortie du classifieur eA,notee sA

i =(mAi1, ..., mA

iN ) avec i=1 a S, peut appartenir au plan P (plan gris)defini par

∑Nj=1 mA

ij = 100% avec mAij ∈ [0,100] comme illustre dans la figure

4.2.

Maintenant, generer une sortie sBi du classifieur eB a une distance δi de

la sortie du classifieur eA avec 1S

∑Si=1 δi = δ, consiste a determiner les points

sBi qui respectent les contraintes suivantes:

∑Nj=1

∣

∣

∣mAij − mB

ij

∣

∣

∣ = δi∑N

j=1 mAij =

∑Nj=1 mB

ij = 100%mA

ij,mBij ∈ [0,100]

(4.41)

Il existe une infinite de solutions. Pour une sortie sAi donnee du classi-

fieur eA, toutes les solutions possibles sBi appartiennent au plan P et sont,

au plus a une distance δmaxi de sA

i , δmaxi ayant ete determinee au paragraphe

precedent. On ne pourra donc respecter δi que si δi ≤ δmaxi .

Pour respecter δ, on utilise un mecanisme qui consiste a choisir aleatoirementles valeurs δi de telle sorte que leur somme soit egale a δ*S et qu’elles nedoivent pas depasser δmax

i . Chaque valeur δi est tiree entre deux bornes infet sup. Dans la majorite des cas, ces bornes sont egales a 0 et δmax

i respec-tivement. Mais ces valeurs seront ajustees de facon a pouvoir respecter lesdistances maximales des sorties non encore traitees:

∑Sj=i+1 δmax

i (les sortiesde i+1 a S etant celles non encore traitees).

Notons egalement que pour les valeurs faibles de δmaxi , le choix des valeurs

de δi est limite. Afin de garder plus de liberte dans le choix des valeurs de δi,les valeurs de δmax

i sont tout d’abord triees de maniere croissante. Le tiragedes valeurs de δi est realise selon ce tri (en tirant d’abord les valeurs de δi lesplus faibles). Ce mecanisme est presente par l’algorithme 17.


Algorithme 17 Recherche des distances δi entre les sorties sAi de eA et sB

i

de eB

Entree:

δ: distance moyenne a respecterS: nombre de sortiesδmaxi : distance maximale entre les sorties sA

i et sBi (i=1 a S)

R: distance restante a distribuer

Sorties:

δi: les distances entre les sorties de eA et eB

Debut

Trier les valeurs de δmaxi de maniere croissante

Initiliser R a δ*SInitialiser δmax

res a∑S

m=1 δmaxm

Pour i de 1 a S faire

Decrementer δmaxres de δmax

i

inf = max(0, min(R, R-δmaxres ))

sup = min(δmaxi , R)

Tirer aleatoirement δi entre inf et supDecrementer R de δi

Fin pour

Fin

4.4.3.3 Respecter K

Notons V Ai et V B

i les vecteurs des confiances associes aux sorties sAi et

sBi respectivement. Chaque vecteur V A

i est compose de N confiances vAij.

Respecter K revient a associer une confiance nulle a N-K etiquettes de classes(parmi les N) dans chaque vecteur V B

i . Une question qui se pose ici estcomment placer ces N-K ”0” dans chaque vecteur V B

i ? Placer un zero a uneposition p de V B

i augmente la distance entre les vecteurs V Ai et V B

i d’une

quantite devA

ip

200(confiance dans V A

i ayant la meme position). Pour l’exemple

suivant, la distance obtenue apres avoir place deux zeros estvA

i1+vA

i4

200.

V Ai V B

i

12345

vAi1

vAi2

0vA

i4

0

0−−0−

Nous noterons λi la distance entre V Ai et V B

i due au deplacement des zerosdans V B

i . Notre objectif est de placer les N-K ”0” de maniere aleatoire touten respectant la distance δi. Par consequent, il faut garder pendant le choixdes positions des zeros dans V B

i une valeur λi inferieure a δi. Mais avec le


tirage aleatoire, λi peut facilement depasser δi. Une solution possible pourrespecter δi < λi est de revenir sur le choix des zeros deja places lorsqu’onviole cette contrainte. Pour cela, on choisit aleatoirement un zero deja placeet on le replace face a un zero de V A

i . Si ce zero est en regard d’une confiance

vAik de V A

i , alors λi diminue devA

ik

200lors de ce deplacement. S’il n’y a pas de

confiance nulle dans V Ai , on choisit la confiance minimale. En fin de processus

d’attribution des zeros dans V Bi , si λi depasse δi, on cherche le zero de V B

i

pour lequel la confiance en regard vAik de V A

i est maximale et on deplace cezero.

Concernant la bonne solution, si elle ne doit pas exister dans sBi , alors il

suffit avant le tirage d’affecter un zero dans la position correspondante. Parcontre, le fait qu’elle doit exister necessite d’empecher le choix de cette classepour y affecter un zero. La repartition des N-K ”0” permettant de respecterK est presentee par l’algorithme 18.

Nous illustrons cette procedure dans l’exemple suivant. Pour respecterK=2 et δi= 0.2, nous devons tout d’abord placer 3 zeros dans le vecteur V B

i .Notons ici que la vraie classe ”3” doit figurer dans la sortie sB

i . Dans ce cas,la distance maximale entre les deux vecteurs V A

i et V Bi est δmax

i =1 (puisqu’ilexiste des classes differentes de celles de V A

i y compris la vraie classe). Si ontire au debut p= 2, on sauvegarde cette valeur dans une liste L et λi devientegale a 0.4 (= 80

200). Le fait d’enlever p’=p de la liste L et de chercher une autre

position p” qui peut etre 1 ou 5 (puisque les confiances correspondantes dansV A

i sont nulles) permet d’avoir une distance entre les deux vecteurs egale a 0.

V Ai V B

i

12345

0800200

−0−−−

Maintenant si on tire p = 2 apres avoir place un zero dans la position4, λi devient egale a 0.5. Le fait de tirer une autre position p”=1 (puisquela confiance dans V A

i est nulle) a laquelle on place un zero ne permet pasde diminuer la valeur de λi. Dans ce cas, la sortie V B

i respecte K avec λi

superieure a la distance desiree. Le deplacement d’un zero de la position 2(ayant la confiance maximale dans V A

i ) a la position 1 permet d’avoir unedistance λi inferieure a la distance voulue.


Algorithme 18 Respecter K dans les sorties sBi

Entree:

S: nombre de sortiesN : nombre de classesV A

i : vecteurs de confiances vAij des sorties du classifieur eA (j de 1 a N, i de

1 a S)δi: les distances entre les sorties de eA et eB

L: liste contenant les N-K etiquettes de classes auxquelles sont attribuees”0” comme confiances

Sorties:

V Bi : vecteurs de confiances vB

ij des sorties du classifieur eB

Debut

1. Pour i de 1 a S faire

Initialiser λi a 0Initialiser µi a δi

Initialiser nb a N-KSi la classe correcte ne doit pas exister dans sB

i alors

vBii =0

Decrementer nb de 1

Finsi

2. Pour t de 1 a nb faire

Tirer sans remise une position p entre 1 et NSauvegarder p dans L

Incrementer λi devA

ip

200

Decrementer µi devA

ip

2003. Si λi > µi alors

/* abondon d’un des zeros mis dans V Bi */

Si t < nb alors

Tirer aleatoirement un element p’ de L

Sinon

Choisir l’element p’ de L pour lequel laconfiance vA

ip′ est maximale

Incrementer λi devA

ip′

200

Decrementer µi devA

ip′

200Recherche d’une position p” dans V A

i pourlaquelle la confiance est nulleSi p” n’existe pas alors

Choisir p” dans V Ai pour laquelle la

confiance est minimale

Finsi

Sauvegarder p” dans LvB

ip”=0

Fin sinon Sinon

vBip=0

Fin pour

Si t = nb et λi > µi alors Retourner a 3

Fin pour

Fin


V Ai V B

i

12345

0800200

0−−00

4.4.3.4 Respecter δi

La question qui se pose apres avoir respecte K, est comment remplir lereste du vecteur V B

i pour que la distance δi soit toujours respectee. Le faitde reporter dans V B

i les confiances presentes dans V Ai qui ne sont pas en

face des zeros choisis pour V Bi permet de ne pas modifier la distance λi entre

V Ai et V B

i (on ajoute uniquement des termes nuls au calcul de la distance).Pour passer de λi a δi, il faut ensuite distribuer sur les differentes confiancesnon nulles de V B

i une quantite δ′

i ∗ 200 avec δ′

i = δi − λi. Une facon defaire est de la distribuer de maniere egale sur deux confiances de V B

i choisies

aleatoirement. On peut alors soustraireδ′

i

2d’une confiance situee a une posi-

tion p1 et ajouterδ′

i

2a une autre confiance placee a une position p2. Cela veut

dire que la premiere confiance selectionnee doit etre superieure aδ′

i

2. La valeur

de δ′

i etant generalement faible (du fait de l’algorithme de determination deλi), cette operation ne pose en general aucune difficulte. Toutefois, il peut

arriver que la confiance a la position p1 soit inferieure aδ′

i

2. Dans ce cas, il

faut pouvoir modifier les confiances de V Bi de telle sorte que la confiance

en p1 devienne superieure ou egale aδ′

i

2. Mais il faut egalement modifier les

confiances correspondantes de V Ai de facon a conserver la valeur de λi. Pour

cela, on modifie tout d’abord les confiances de V Ai en tenant compte de la

valeur a ajouter a la confiance placee en p1 et on elimine ensuite cette valeurdes autres confiances. Cette modification des confiances est presentee dansl’algorithme 19. On peut ensuite reporter de nouveau les confiances de V A

i

modifiees dans V Bi . La procedure de generation de confiances des solutions

de V Bi permettant de respecter δi est presentee par l’algorithme 20.

4.4.3.5 Generation de sorties respectant δmax

Nous avons evoque dans le paragraphe 4.4.2 que si la distance a respecterδ est superieure a δmax, on positionne alors chaque sortie sB

i de eB a la plus


Algorithme 19 Modification des vecteurs de confiances V Ai et V B

i pourrespecter δ

′

i

Entree:

N: nombre de classesV A

i : vecteurs de confiances de sorties du classifieur eA

V Bi : vecteurs de confiances de sorties du classifieur eB

p1: position de la premiere confiance a modifier dans V Bi

p2: position de la deuxieme confiance a modifier dans V Bi

δ′

i: distance restante a respecterX: valeur minimale a ajouter a la prmiere confianceY: valeur maximale a ajouter a la premiere confianceZ: valeur a ajouter a la premiere confiance

Sorties:

V Ai : vecteurs de confiances de sorties du classifieur eA


Debut

/* Chercher la valeur a ajouter a la premiere confiance */

X =δ′

i

2 - vBip1

Y = 100 - vBip1

Tirer aleatoirement une valeur W entre X et Y-XZ = X+WInitialiser R a ZInitialiser som a

∑Nj=1 vA

ij

Chercher les M confiances non nulles dans V Ai

Sauvegarder les positions de ces confiances dans LPour m de 1 a M faire

/* distribution de Z sur les M confiances */Tirer aleatoirement une position p de LDecrementer vA

ip de som

inf = min(vAip, R)

sup = min(R-som, R)Tirer une valeur V entre inf et supDecrementer V de vA

ip /* reporter la valeur dans V Bi */

Si vBip > 0 alors

Reporter la confiance vAip dans V B

i

Fin


Algorithme 20 Generation des confiances restantes de V Bi

Entree:

N: nombre de classesδ

′

i: distance restante a distribuerV A

i : vecteurs de confiances de sorties du classifieur eA


L: Liste des positions des confiances restantes a determiner

Sorties:


Debut

/* Reporter les confiances de V Ai */

Pour j de 1 a N faire

Si vBij 6= 0 alors

vBij = vA

ij

Sauvegarder j dans L

Tirer sans remise une position p1 dans L

Si p1 6= Ci alors

/* choisir la position de la bonne solution si elle doit exister */p2 = Ci

Sinon

Tirer sans remise p2 dans L

Si p1 < δ′

i/2 alors

Modifier les sorties V Ai et V B

i

Decrementer vBip1

de δ′

i/2

Incrementer vBip2

de δ′

i/2

Fin


grande distance possible δmax tout en respectant pB. Dans le paragraphe sui-vant, nous presentons la generation de ces sorties. Cette generation consistea determiner les sorties du classifieur eB a une distance maximale δmax dessorties du premier classifieur eA. La question qui se pose ici est quelles sontles solutions (etiquettes et confiances) a placer dans chaque sortie sB

i per-mettant de respecter δmax et la performance pB. Bien evidemment, ce choixne peut pas etre arbitraire puisqu’on doit respecter le nombre maximal depropositions K pour la sortie sB

i .

Comme nous l’avons vu dans le calcul de δmax, la determination des so-lutions a une distance maximale depend de la presence ou de l’absence dela bonne solution dans sB

i . Quand la bonne solution doit exister dans sBi ,

on cherche les etiquettes de classes qui n’existent pas dans la sortie sAi . Ces

etiquettes peuvent etre placees aleatoirement dans sBi . Le nombre Z de ces

etiquettes doit etre inferieur ou egal a K. Lorsque toutes les classes existentdans sA

i , la derniere solution de sAi doit etre placee dans sB

i .Notons ici que les confiances a attribuer aux etiquettes sont normalisees (leursomme est egale a 100%) et ordonnees de maniere decroissante. En d’autrestermes, chaque confiance mB

ij (j=1,..., Z) doit etre superieure a la confianceplacee a la proposition suivante de la liste de solutions c’est a dire:

mBij > mB

i(j+1) (4.42)

La confiance de la premiere solution de chaque liste doit etre superieure a100Z

. La procedure de generation d’une sortie sBi peut etre presentee par l’al-

gorithme 21.

Maintenant si la bonne solution doit exister dans la sortie sBi , on doit tenir

compte en plus de son existance dans sAi pour determiner toutes les solutions

de sBi . Si cette solution est absente dans sA

i alors le fait de la placer dans sBi

est suffisant pour respecter la distance maximale. Mais ceci n’empeche pasde placer egalement les classes qui n’existent pas dans sA

i .Si les deux sorties sA

i et sBi contiennent la bonne solution alors pour respecter

la distance maximale, il faut que la confiance de la bonne solution dans sBi

soit la plus faible possible (on note ε la valeur de cette confiance). Cette solu-tion doit donc etre placee a la fin de la liste de solutions de sB

i . Les solutionsqui peuvent etre placees en amont peuvent etre soit les classes qui n’existentpas dans sA

i , soit la derniere solution de sAi . La procedure de cette generation

peut etre presentee par l’algorithme 22.


Algorithme 21 Generation d’une sortie sBi ne contenant pas la bonne solu-

tionEntree:


Ci: la bonne solution de la ieme sortie

Sorties:

sBi : sortie du classifieur eB

Debut

Sauvegarder dans L les X etiquettes de classes qui n’existent pas dans sAi

Si L est vide alors

Placer la derniere etiquette (6= Ci) de sAi dans sB

i

Associer a cette etiquette une confiance egale a 100

Sinon

Choisir un nombre Z d’etiquettes entre 1 et min(K, X)Tirer sans remise Z etiquettes dans LPlacer ces etiquettes aleatoirement dans sB

i

Associer les confiances correspondantes

Fin

4.4.4 Conclusion

Nous avons presente dans cette partie une methode de generation desensembles de classifieurs correles en utilisant une mesure de distance permet-tant de controler la diversite entre chaque paire de classifieurs. Nous montre-rons dans les paragraphes suivants tout l’interet d’avoir une telle methode degeneration de sorties correlees pour evaluer le comportement des methodesde combinaison en fonction de la diversite.

Avec L classifieurs (L>2), il est difficile de generer des listes de solutionsen respectant en meme temps la diversite entre les paires de classifieurs etleur performance. Des reflexions sur la maniere d’etendre notre methode pourqu’elle soit applicable a L classifieurs sont a envisager afin de pouvoir exami-ner la relation entre diversite et performance. Une methodologie particulierepermettant de mesurer la variabilite entre ces parametres est aussi a envisa-ger.

Il est egalement interessant d’apporter des ameliorations au niveau dela simulation afin de s’approcher encore plus du cas reel. Par exemple, lamethode de simulation pourrait etre modifiee pour generer des sorties correleesde classifieurs respectant chacun un nombre different de solutions (K). En te-nant compte de cette amelioration, il semble tout a fait envisageable d’evaluer


Algorithme 22 Generation d’une sortie sBi contenant la bonne solution

Entree:


Ci: la bonne solution de la ieme sortieε: confiance tres faible attribuee a la solution correcte permettant d’avoir ladistance maximale

Sorties:

sBi : sortie du classifieur eB

Debut

Chercher X etiquettes de classes qui n’existent pas dans sAi

Sauvegarder ces etiquettes dans une liste LSi la classe correcte n’existe pas dans sA

i alors


Choisir un nombre Z entre 1 et min(K-1, X)Tirer sans remise Z etiquettes dans LPlacer ces etiquettes aleatoirement dans sB

i

(y compris l’etiquette de Ci)Associer les confiances correspondantes

Sinon

Placer l’etiquette Ci avec une confiance egale a 100

Sinon /* la classe correcte existe dans sAi */


Choisir un nombre Z entre 1 et min(K-1, X)Tirer sans remise Z etiquettes dans LPlacer ces etiquettes aleatoirement dans sB

i

(sans l’etiquette de Ci)Associer les confiances dont la somme est 100-εPlacer l’etiquette Ci avec une confiance egale a ε

Sinon

Placer la derniere etiquette (6= Ci) de sAi dans sB

i

Associer une confiance egale a 100-εPlacer l’etiquette Ci avec une confiance egale a ε

Fin


le comportement des operateurs de combinaison en fonction de la diversite,ce que nous esperons realiser dans un proche avenir.

Nous allons maintenant montrer la validite de notre approche de simula-tion et son apport dans le cadre de la combinaison.

4.5 Verification de la methode

Dans cette section nous presentons quelques tests permettant une premiereverification de la validite de la methode de generation de classifieurs correles.Des tests supplementaires seront necessaires pour evaluer la methode de si-mulation proposee.

Nous avons mentionne dans le paragraphe 4.2.4 la difficulte a choisir unemesure de diversite parmi d’autres parce que toutes ces metriques semblentse comporter de maniere analogue. Nous avons compare la distance avecla correlation pour montrer que construire des ensembles de classifieurs encontrolant la diversite par la distance est equivalent a la creation de classi-fieurs dont la diversite est controlee par la correlation. Cette idee est illustreepar la figure 4.3 montrant la relation entre la correlation et la distance me-surees entre 50 couples de classifieurs pour un probleme a 5 classes. Cesclassifieurs ont la meme performance (taux de reconnaissance de 60%).

Pour verifier les distances entre les sorties des classifieurs ayant les memesperformances, nous avons simule 50 couples de classifieurs ayant les memestaux de reconnaissance en top3, pA=pB=50, 60, 70, 80, 90 pour un problemea 5 classes. Les valeurs de la distance D varient de 0 a 0.9 par pas de 0.1.Chaque classifieur produit 1000 sorties par classe. Les resultats que nousavons obtenu ont montre que les distances sont bien respectees avec des va-riances tres faibles (inferieures a 10−3).

Pour verifier les distances entre les sorties des classifieurs ayant des per-formances differentes, nous avons simule 50 couples de classifieurs avec desvaleurs differentes de la distance D variant de 0 a 0.9 par pas de 0.1 pour unprobleme a 5 classes. Le taux de reconnaissance pA (dans les trois premierespropositions) du premier classifieur est egal a 50%. Par contre, celui dudeuxieme classifieur pB varie de 60% a 90%. La encore, les distances ob-tenues par simulation etaient toujours les memes que celles de reference.

Pour savoir si l’ordre des classifieurs a une influence sur la distance a res-

4.5. Verification de la methode 231

Fig. 4.3 – Relation entre les mesures de distance et de correlation avec50 paires de classifieurs (l’axe des X represente la distance, l’axe des Yrepresente la correlation)


pecter c’est-a-dire s’il y a une difference entre les couples de classifieurs ayantdes taux de reconnaissance (50%, 60%) et (60%, 50%), nous avons simule 50classifieurs en faisant varier le taux de reconnaissance du premier classifieurentre 60% et 90% mais en fixant la performance du deuxieme classifieur a50%. Les resultats que nous avons obtenu ont montre que l’ordre des perfor-mances des classifieurs n’influe pas sur la distance a respecter.

Nous avons realise d’autres tests afin de verifier la methode proposee surdes problemes differents de classification. Nous avons genere 50 ensembles declassifieurs pour N=5, 10, 20 et 50 classes et D=0, 0.1, ..., 0.9. Le taux dereconnaissance du premier classifieur de chaque ensemble est fixe a 60% etcelui du deuxieme classifieur a 80%. A partir des resultats obtenus nous avonsconstate que notre methode permet de generer des sorties qui respectent lesdistances desirees pour les differents problemes.

Notre methode permet de generer des classifieurs proposant un nombredifferent de propositions. Afin de verifier que le nombre de solutions n’in-fluence pas la distance desiree, nous avons genere des ensembles de classi-fieurs proposant 3, 5, 7 et 9 solutions pour un probleme a 10 classes. Pourcette experience, nous avons egalement constate que les distances calculeesont ete bien respectees.

4.6 Contribution experimentale

Deux questions peuvent etre posees lorsqu’on dispose de classifieurs pro-duisant des sorties de type mesure: est ce que la combinaison des confiancesest toujours plus interesssante que la combinaison des rangs? Et sinon, dansquels cas la combinaison des rangs se comporte-t-elle mieux que celle desconfiances? Notre objectif principal est de savoir comment la diversite desconfiances a un effet sur le comportement des operateurs de combinaison telsque la somme, le maximum et le borda count. Lorsque l’on analyse le com-portement de ces operateurs, la diversite est rarement prise en consideration.Dans le cadre de classifieurs independants [Kittler et al., 1998, Alkoot and Kittler, 1999],il est toujours constate que la somme est plus performante que le maximum.Mais, est ce qu’elle est aussi meilleure lorsque les classifieurs fournissent dessorties differentes? Concernant la comparaison entre les operateurs de com-binaison de type mesure et de type rang notamment la somme et le borda,les travaux realises [Parker, 2001] n’ont pas abouti a des conclusions clairessur les conditions d’utilisation de ces regles en fonction de la correlation desclassifieurs. A priori, la combinaison des confiances et la combinaison des

4.6. Contribution experimentale 233

rangs fonctionnent differemment. Afin de comprendre le comportement deces trois methodes (borda, somme et maximum), nous avons realise 4 seriesd’experience. L’objectif de toutes ces experiences est d’etudier le lien entre ladiversite dans l’ensemble de classifieurs et quelques parametres tels que lesperformances des classifieurs a combiner, le nombre de classes, le nombre desolutions dans la liste et la performance du deuxieme classifieur. Dans toutesces experiences, nous faisons varier la diversite dans l’ensemble D=0.2, 0.6,1. Ces valeurs ont ete choisies pour representer differents niveaux de diver-site: pour D=0.2, on combine donc des classifieurs tres correles, pour D=0.6,les classifieurs sont tres proches de l’independance, et pour D=1 les classi-fieurs sont non correles.

La premiere experience cherche donc a examiner l’influence de la diversitesur le comportement des operateurs de combinaison lorsque les classifieursont la meme performance. Pour cela, nous avons simule 50 couples de classi-fieurs avec pA=pB=50, 60, 70, 80, 90. Chaque classifieur propose 5 solutionspour un probleme a 10 classes.La deuxieme experience a pour objectif d’examiner la relation entre la diver-site et le nombre de solutions. Pour cela, nous avons simule des classifieursproposant 3, 5, 7 et 9 solutions pour un probleme a 10 classes. Le taux dereconnaissance de chaque classifieur est fixe a 80%.La troisieme experience a pour but de savoir comment les operateurs decombinaison se comportent quand le nombre de classes augmente. Pour cela,nous avons genere 30 couples de classifieurs proposant chacun 5 solutionspour trois problemes differents de classification avec N= 10, 20 et 50 classes.Les performances des classifieurs sont fixees a 80%.La quatrieme experience a pour but d’analyser le comportement des operateursde combinaison tout en relachant la condition que les classifieurs ont lesmemes taux de reconnaissance. Pour cela, nous avons simule 50 couples declassifieurs. Le premier classifieur de chaque couple a un taux de reconnais-sance pA fixe a 50%, alors que la performance du deuxieme classsifieur varie:pB=60, 70, 80, 90. Le tableau 4.2 resume les experiences que nous avonsrealisees.

– Experience 1

L’objectif de cette premiere experience est d’examiner l’influence de la di-versite sur le comportement de la somme, du borda et du maximum sousl’hypothese que les classifieurs ont la meme performance dans les 5 premierespropositions. Dans ce test, nous avons genere 50 couples de classifieurs selonla performance fixee en top 5 a 50, 60, 70, 80 et 90% pour chaque valeur dediversite D=0.2, 0.6, 1. La figure 4.4 presente les performances moyennes


Experiences Diversite Performances K N1 0.2, 0.6, 1 pA=pB=50, 60, 70, 80, 90 5 102 0.2, 0.6, 1 pA=pB=80 3, 5, 7, 9 103 0.2, 0.6, 1 pA=pB=80 5 10, 20, 504 0.2, 0.6, 1 pA=50 5 10

pB=60, 70, 80, 90

Tab. 4.2 – Experiences realisees pour evaluer le comportement des operateursde combinaison

(en top5) des methodes de combinaison.

Si on considere les resultats de la combinaison de classifieurs dependants(figure 4.4(a)), on constate que les trois operateurs produisent une ameliorationsignificative de performance par rapport a chacun des classifieurs. Le gain ap-porte par les trois methodes diminue lorsque la performance des classifieursaugmente. La somme et le borda se comportent de maniere similaire. Memesi ca n’apparaıt pas clairement dans la figure, la somme donne une legereamelioration par rapport au borda. Ceci montre bien que la somme est moinssensible a la correlation des classifieurs que le borda. Ces deux regles donnentdes taux de reconnaissance superieurs a ceux obtenus par la regle du maxi-mum. Ce comportement persiste meme avec des classifieurs independants(figure 4.4(b)). Dans ce cas, on constate bien la superiorite de la regle de lasomme par rapport a la regle du maximum, idee confirmee par les travauxexistants. Lorsque les classifieurs produisent des sorties tres differentes (fi-gure 4.4(c)), les methodes de combinaison se comportement differemment. Leborda produit de meilleures performances pour tous les ensembles de classi-fieurs. La regle du maximum donne egalement de bons resultats et elle estplus performante que la somme. Pour des classifieurs ayant des performanceselevees (>80%), la somme donne un taux de reconnaissance inferieur a celuides classifieurs a combiner. On constate egalement une diminution de perfor-mance pour les differents operateurs en comparaison avec la combinaison declassifieurs tres correles et independants (D=0.2 et 0.6). Cette degradation deperformance s’explique par le fait que lorsque la diversite augmente, les per-formances des classifieurs a l’interieur de la liste de solutions diminuent. End’autres termes, la difference entre TLk et TL5 (pour k de 1 a 4) augmente.Dans ce cas, si le borda a l’avantage de faire avancer la bonne solution versle debut de la liste finale, la somme et le maximum ont moins la capacite dele faire surtout s’il existe des classes differentes dans les sorties a combiner.

A travers les resultats de la figure 4.4, nous pouvons donc constater que ladiversite joue un role plus important sur les rangs que sur les confiances. Par


Fig. 4.4 – Relation entre diversite et performances des classifieurs (a) D=0.2(b) D=0.6 (c) D=1


consequent, si on dispose de classifieurs produisant des sorties tres differentes(quelles que soient leurs performances), il est plus efficace de les combiner parle borda. Si on s’interesse a la combinaison des confiances de ces classifieurs,il est plus interessant de les combiner par la regle du maximum que par lasomme. Alors que si on dispose de classifieurs tres correles, il est preferabled’utiliser la somme.

– Experience 2

L’objectif de cette experience est d’examiner le comportement des operateursde combinaison consideres lorsque le nombre de solutions augmente. Pourcela, nous avons simule 50 couples de classifieurs selon la performance fixeea 80% pour chaque valeur de diversite D=0.2, 0.6, 1. Chaque couple peutproduire un nombre different de solutions (K=3, 5, 7 et 9). Les resultats deces operateurs de combinaison apparaıssent dans la figure 4.5.

Si on considere les resultats de la figure 4.5(a), on constate que les troismethodes de combinaison ameliorent la performance des classifieurs indivi-duels pour les differentes valeurs de K. Le borda et la somme produisentles meilleures performances. Ceci montre que le borda et la somme exploitemieux les K premieres solutions que le maximum pour des classifieurs correles.Pour D=0.6 (4.5(b)), le comportement de la somme reste similaire a celui duborda. Une petite degradation de performance du maximum est obtenue dansle cas de la combinaison de classifieurs produisant trois solutions. Mais cettemethode se comporte mieux lorsque le nombre de solutions augmente. En re-gardant maintenant les resultats de la figure 4.5(c), on constate que le bordaproduit la meilleure performance pour les differents couples de classifieurs.Alors que la somme ameliore le taux de reconnaissance seulement pour descouples de classifieurs produisant plus de 7 solutions. Le maximum dans cecas se comporte mieux que la somme. Nous pouvons constater a travers cesresultats que la somme n’exploite pas l’information a l’interieur de la listede solutions lorsqu’elle combine des classifieurs non correles. Nous pouvonsdonc emettre l’hypothese que lorsque la diversite augmente, le borda countexploite mieux la liste de solutions que la somme et le maximum.

– Experience 3

Rappelons que le but de cette experience est d’examiner le comportementde la somme, du borda et du maximum pour des problemes differents declassification. Pour cela, nous avons genere 30 couples de classifieurs en fixantleur performance en top5 a 80% avec une diversite D=0.2, 0.6, 1. Lesperformances moyennes des methodes de combinaison sont presentees dansle tableaux 4.3.


Fig. 4.5 – Relation entre diversite et nombre de solutions (a) D=0.2 (b)D=0.6 (c) D=1


D=0.2N Somme Borda Maximum10 97.145 ± 0.160 97.145 ± 0.159 87.811 ± 0.76620 95.836 ± 0.149 95.830 ± 0.149 82.510 ± 0.51250 95.902 ± 0.031 95.895 ± 0.033 81.089 ± 0.034

D=0.6N Somme Borda Maximum10 89.892 ± 0.406 90.000 ± 0.402 82.031 ± 0.98720 87.282 ± 0.451 87.402 ± 0.448 75.464 ± 0.76550 86.315 ± 0.087 86.430 ± 0.083 72.040 ± 0.099

D=1N Somme Borda Maximum10 81.253 ± 9.205 92.993 ± 0.828 87.576 ± 1.06920 73.376 ± 45.887 90.417 ± 3.704 82.618 ± 0.77850 72.228 ± 10.096 90.084 ± 0.852 80.959 ± 0.058

Tab. 4.3 – Taux de reconnaissance des operateurs de combinaison pour troisproblemes differents de classification

A partir des resultats de la premiere partie du tableau 4.3 (D=0.2), nousconstatons que la somme produit des taux de reconnaissance legerementsuperieurs a ceux du borda lorsque le nombre de classes augmente. Alors quele maximum produit des taux de reconnaissance inferieurs a ces deux regles(difference de 10%). Nous constatons egalement qu’avec moins de classes(N=10), les performances des trois methodes de combinaison sont plus eleveesque celles obtenues pour un probleme a plusieurs classes (N=50). Ceci s’ex-plique par le fait qu’avec plus de classes, la chance que la bonne solution soitplacee par la combinaison a la fin de la liste de solutions (apres les 5 premierespropositions) augmente. Si on regarde maintenant la deuxieme partie du ta-bleau (D=0.6), on remarque que les performances du borda sont meilleuresque celles de la somme pour les differents problemes. Pour N>20, le maxi-mum produit des performances inferieures a celles de chacun des classifieurs.Avec des classifieurs non correles (D=1), la somme ameliore les taux de re-connaissance seulement pour N=10. Le maximum produit des performancessuperieures a la somme pour les differents problemes. Par consequent, onpeut conclure que la somme exploite bien l’information sur la classe correctelorsque les classifieurs sont fortement dependants (quelque soit le nombre declasses). Avec des classifieurs non correles, elle n’est efficace que pour desproblemes a peu de classes. Dans ce cas, le borda est plus efficace.

– Experience 4


Dans les experiences precedentes, nous avons evalue le comportement desoperateurs de combinaison sous l’hypothese que les classifieurs ont la memeperformance. Dans cette experience, nous examinons l’influence de la diver-site sur le comportement de la somme, du borda et du maximum sous l’hy-pothese que les classifieurs ont des performances differentes en top 5. A cepropos, 50 couples de classifieurs ont ete generes pour chaque valeur de diver-site D=0.2, 0.6, 1. La performance du premier classifieur de chaque coupleest fixee a 50% alors que celle du deuxieme classifieur varie pB=50, 60, 70,80, 90. Les taux de reconnaissance (en top5) des methodes de combinaisonsont presentes dans la figure 4.6.

Si on regarde les resultats de la figure 4.6(a), on constate que lorsque lesclassifieurs sont dependants (D=0.2), la combinaison que ce soit par la sommedes confiances ou par la somme des rangs produit une amelioration en recon-naissance par rapport a chacun des classifieurs. Alors que le maximum ne pro-duit une amelioration que pour pB=60%. Ceci montre la sensibilite de cetteregle aux performances des classifieurs par rapport a la somme et au borda.Avec des classifieurs independants (figure 4.6(b)), le maximum n’ameliorepas la reconnaissance pour tous les couples. Le borda et la somme donnentdes performances similaires mais moins elevees que dans le cas de classifieurscorreles. Nous remarquons egalement que le gain apporte par ces deux reglesest plus important quand les classifieurs a combiner ont des performancestres proches que quand les classifieurs ont des performances tres differentes.Cette idee a ete aussi montree dans [Fumera and Roli, 2002] dans le cadrede la comparaison de la moyenne simple a la moyenne ponderee. Lorsqueles classifieurs proposent des sorties differentes (D=1), le borda donne lesmeilleures performances. Cette methode apporte un gain plus important (de12%) lorsque la performance du deuxieme classifieur est proche de celle dupremier classifieur (pB=60%). Ce gain est de 4% seulement pour pB=80%.La somme produit une amelioration faible pour pB=60%. Avec un taux dereconnaissance superieur a 60%, la somme et le maximum n’ameliorent pasla performance des classifieurs individuels.

Les resultats de l’experience 4 indiquent que le comportement des methodesde combinaison varie en fonction des performances des classifieurs et du ni-veau de diversite entre leurs sorties. En particulier, la somme et le bordafonctionnent bien lorsque les classifieurs sont correles surtout s’ils ont desperformances tres proches. Si les classifieurs sont non correles mais ont desperformances differentes, la combinaison par le borda est plus efficace. Quandles taux de reconnaissance des classifieurs sont tres differents, il est preferabled’utiliser le meilleur classifieur de l’ensemble que de combiner.


Fig. 4.6 – Influence de la performance du deuxieme classifieur sur la combi-naison (a) D=0.2 (b) D=0.6 (c) D=1

4.7. Comparaison avec la simulation independante 241

Les resultats que nous venons de presenter doivent etre confirmes avec unegeneration intensive de classifieurs (50 repetitions ne sont pas suffisantes)mais ils montrent que notre methode peut etre utilisee pour mieux com-prendre l’effet de la diversite de classifieurs sur le comportement des methodesde combinaison.

4.7 Comparaison avec la simulation independante

Dans le chapitre precedent, nous avons vu qu’on peut simuler des clas-sifieurs de maniere independante sans controler la correlation entre les sor-ties des classifieurs. Le degre de diversite entre les classifieurs simules peutetre tres different. L’objectif de cette section est de montrer l’importance denotre methode de generation de classifieurs correles par rapport a la simu-lation independante (c’est-a-dire l’importance du controle explicite de la di-versite). Pour cela, nous avons simule des ensembles de deux classifieurs dansles memes conditions que celles des trois experiences de la section precedente.

– Experience 1

Dans cette premiere experience, nous proposons d’examiner le comportementde la somme, du borda ainsi que du maximum lorsque les classifieurs ont lameme performance. Pour cela, nous avons simule 50 couples de classifieursavec pA=pB=50, 60, 70, 80, 90. Chaque classifieur propose 5 solutions pourun probleme a 10 classes. Nous avons ensuite calcule la distance entre chaquepaire de classifieurs. Le tableau 4.4 presente la distance minimale et maximaledeterminees pour chaque performance ainsi que les taux de reconnaissancedes methodes de combinaison.

pB D min D max somme borda maximum50 0.810 0.891 62.170 ± 53.952 63.142 ± 53.361 61.934 ± 53.36260 0.816 0.882 71.662 ± 43.528 73.340 ± 41.597 71.244 ± 43.87270 0.800 0.861 78.603 ± 34.976 81.328 ± 26.426 77.972 ± 36.55180 0.796 0.847 85.100 ± 23.417 88.927 ± 13.448 84.289 ± 24.94390 0.760 0.823 90.279 ± 16.893 95.091 ± 4.336 89.208 ± 19.603

Tab. 4.4 – Resultats de la simulation independante de l’experience 1

Les resultats du tableau 4.4 montrent que les sorties generees par le si-mulateur de classifieur sont differentes (D=0.8). On peut remarquer que la


diversite entre les sorties simulees depend ici des performances des classi-fieurs. En effet, la distance entre les sorties diminue quand les performancesdes classifieurs augmente. Les resultats du tableau 4.4 indiquent egalementl’efficacite de la combinaison des rangs par rapport a la combinaison desconfiances dans le cas de classifieurs non correles. La methode de simulationindependante de classifieurs permet bien de montrer qu’avec des classifieursnon correles, il est plus interessant de combiner par le borda que par lesautres regles. Toutefois, cette methode ne peut pas etre utilisee pour evaluerles methodes de combinaison dans toutes les conditions etant donnee qu’onne controle pas explicitement la diversite. Par exemple, avec le simulateur ilest difficile de verifier que le maximum est meilleur que la somme pour D=1puisqu’on ne peut pas avoir des sorties completement differentes.

– Experience 2

L’objectif de cette experience est d’examiner le comportement des operateursde combinaison consideres en fonction du nombre maximal de solutions. Pourcela, nous avons simule 50 couples de classifieurs ayant un taux de recon-naissance fixe a 80%. Chaque couple peut produire un nombre different desolutions (K=3, 5, 7 et 9). Les resultats de ces operateurs de combinaisonainsi que les distances calculees entre les sorties generees sont presentes dansle tableau 4.5.

K D min D max somme borda maximum3 0.693 0.827 84.338 ± 18.597 88.049 ± 8.543 82.990 ± 22.3315 0.794 0.841 85.578 ± 31.099 89.266 ± 17.572 84.769 ± 33.6037 0.803 0.850 89.590 ± 31.635 91.609 ± 24.472 89.024 ± 33.0679 0.800 0.842 94.325 ± 21.640 94.578 ± 22.972 94.161 ± 18.884


Les resultats du tableau 4.5 montre que les sorties generees par le simu-lateur de classifieur sont differentes. La distance entre ces sorties augmentelorsque les classifieurs produisent plus de solutions. Nous constatons que lacombinaison des sorties generees par les trois operateurs ameliore la per-formance des classifieurs individuels. La encore, le borda count donne destaux de reconnaissance superieurs a ceux de la somme et du maximum.Les resultats montrent egalement que pour tous les ensembles simules lasomme est plus performante que le maximum. Cependant, avec la simulationindependante, on ne peut pas montrer que le maximum exploite mieux l’in-formation dans les differentes propositions que la somme pour D=1. Cette

4.8. Conclusion 243

conclusion ne peut etre verifiee qu’avec la simulation de classifieurs correlesqui permet de generer des sorties avec des niveaux differents de diversite.

– Experience 3

Le but de l’experience 3 est de regarder l’influence de la performance dudeuxieme classifieur sur la combinaison par la somme, le borda count et lemaximum. Pour cela, nous avons simule de maniere independante 4 groupesde 50 paires de classifieurs. La performance du premier classifieur pA est fixeea 50% alors que celle du deuxieme classifieur pB= 60, 70, 80, 90. Nous avonsensuite calcule la distance entre chaque paire de classifieurs. Le tableau 4.6presente la distance minimale et maximale determinees pour chaque groupeainsi que les taux de reconnaissance des methodes de combinaison.

pB D min D max somme borda maximum60 0.816 0.887 67.636 ± 41.251 69.083 ± 39.451 67.327 ± 41.60370 0.801 0.889 72.506 ± 51.597 74.146 ± 48.224 72.132 ± 51.62180 0.806 0.877 77.580 ± 48.581 79.495 ± 42.769 77.173 ± 48.66390 0.814 0.871 81.197 ± 40.932 83.544 ± 33.636 80.716 ± 41.612


Nous constatons a travers les resultats du tableau 4.6 qu’avec des clas-sifieurs proposant des sorties non-correlees (D=0.8), le borda se comportemieux que la somme et le maximum. Bien que ces resultats confirment ce quenous avons obtenus dans l’experience 4 de la section precedente, ils montrenttoutefois la limite de la simulation independante dans la generation de sor-ties de classifieurs avec des niveaux differents de diversite. Ceci montre leveritable interet de controler la diversite dans la simulation de classifieurspour une evaluation plus robuste du comportement des methodes de combi-naison.

4.8 Conclusion

Les resultats theoriques et experimentaux releves dans la litterature montrentclairement que la combinaison de classifieurs ne peut etre efficace que si lesclassifieurs individuels sont differents. Cette difference ou diversite est deve-nue recemment un concept essentiel a prendre en compte dans la conceptiondes systemes a plusieurs classifieurs puisqu’il a une influence certaine sur lesperformances de la combinaison.


Dans ce chapitre, apres avoir passe en revue les mesures de diversiteles plus utilisees ainsi que les principales techniques cherchant a optimiserl’ensemble de classifieurs en renforcant la diversite entre les sorties des clas-sifieurs, nous avons propose une methode de generation de couples de clas-sifieurs correles. Chaque couple est caracterise par les performances indivi-duelles de chacun des classifieurs ainsi que par un niveau de correlation fixe.Nous avons utilise une mesure de distance indiquant le degre de similitudeentre les classifieurs de chaque groupe. Nous avons egalement decrit la facondont les sorties des classifieurs etaient generees en fonction de cette mesure.La methode de simulation proposee a ete evaluee sur quelques problemesde classification, en determinant l’influence de la correlation sur le compor-tement de certains operateurs de combinaison. Les resultats experimentauxobtenus montrent la difficulte de la generation de classifieurs correles de typemesure mais aussi l’importance de la generation des ensembles contenantplus de deux classifieurs pour l’evaluation du comportement des methodesde combinaison. Il faut noter ici que cette generation n’est pas evidente. Ellenecessitera bien evidemment plus de reflexion puisque nous devons respec-ter la distance entre chaque paire de classifieurs ainsi que leurs performances.

D’autres perspectives a ce travail peuvent etre citees. Il serait tout d’abordsouhaitable d’utiliser notre methode de generation pour evaluer la perfor-mance d’autres regles de combinaison (parametrique ou non) dans des condi-tions differentes en fonction de la diversite et des performances des classi-fieurs. Controler la performance des classifieurs a l’interieur de la liste desolutions (c’est a dire respecter deux comportements ou une liste de compor-tements) peut egalement etre envisage. En d’autres termes utiliser les autresconfigurations du simulateur pour pouvoir evaluer les methodes de combi-naison pour des problemes differents de reconnaissance. L’algorithme de lageneration des sorties du deuxieme classifieur que nous avons presente doitetre ameliore principalement pour prendre en compte la generation des solu-tions rejet. L’utilisation de cet algorithme peut etre interessante pour l’etudedu comportement des methodes de combinaison dans le cas du rejet.


Conclusion generale

Les travaux presentes dans ce memoire abordent le probleme de la com-binaison de classifieurs et concernent en particulier l’etude des methodes decombinaison parallele. L’objectif etait d’apporter une contribution a l’evaluationet a la comprehension du comportement des methodes de combinaison. L’ap-proche que nous avons proposee pour atteindre ce but repose essentiellementsur l’utilisation de donnees artificielles generees par un simulateur de classi-fieur.

Dans ce contexte, la premiere partie du travail a concerne l’analyse destravaux existants du domaine. Nous avons restreint notre etude a l’approcheparallele qui distingue principalement deux grandes familles. Les methodesde fusion qui sont basees sur la dichotomie parametrique / non parametriqueet les methodes de selection qui sont basees sur la dichotomie statique / dyna-mique. L’etude bibliographique de ces methodes de combinaison nous a per-mis de degager les differentes caracteristiques de chacune de ces methodes etde comprendre comment les chercheurs ont aborde le probleme de l’evaluationdu comportement des methodes de combinaison. Cette analyse nous a egalementpermis de montrer l’importance de caracteriser les conditions d’utilisation desmethodes de combinaison avec des donnees simulees.

Ainsi, la premiere contribution apportee dans le cadre de cette theseconcerne la simulation de donnees (sorties de classifieur). L’originalite de lamethode proposee reside dans la capacite du simulateur a generer une grandevariabilite de performances en respectant des comportements differents pourun probleme de classification quelconque. A partir de matrices de perfor-mances semi-globales ou locales, le simulateur peut fournir des sorties res-pectant un ou deux comportements dans les K premieres solutions. Nouspouvons egalement controler la correlation a l’interieur meme de la liste desolutions en generant des sorties respectant a la fois un comportement enpremiere proposition, dans les deux premieres, ..., dans les N premieres. Notresimulateur peut egalement generer des sorties a partir de matrices provenant

246 Conclusion generale

de l’evaluation du comportement d’un classifieur reel traitant un nombre li-mite de donnees. La validation experimentale a montre le bien fonde de notresimulateur de classifieur et le reel interet a l’exploiter dans l’evaluation desmethodes de combinaison.

La deuxieme contribution concerne la mise en oeuvre d’une methode degeneration de classifieurs correles. Cette methode a consiste a generer lessorties du premier classifieur en se basant sur le simulateur de classifieur pro-pose. Les sorties du deuxieme classifieur sont ensuite generees en utilisantune mesure de distance entre les confiances des classifieurs. Cette approcheest interessante dans la determination de la relation entre le comportementde la methode de combinaison et la diversite des classifieurs. Dans cetteperspective, il conviendrait toutefois d’etudier les methodes de combinaisonavec des ensembles contenant un nombre different de classifieurs. Neanmoins,la methodologie proposee ne permet de generer que des ensembles de deuxclassifieurs. Une approche de generation des ensembles contenant plus de 2classifieurs reste a developper. Bien evidemment, cela necessitera beaucoupde reflexion puisque la generation doit tenir compte de la diversite entre tousles paires des classifieurs ainsi que de leurs performances.

Ces travaux ont mis en evidence l’interet d’aborder l’evaluation des methodesde combinaison parallele de classifieurs par simulation. L’approche de simu-lation que nous avons developpee permet de controler le comportement d’unclassifieur a partir d’un jeu reduit de parametres (nombre de classes, typedes sorties, taux de reconnaissance, de confusion et de rejet, matrices deconfusion, correlation dans les listes de solutions, accord entre les classi-fieurs, ...). Les premieres experimentations realisees ont donne des resultatsinteressants. Toutefois, devant la difficulte qu’il y a a prendre en comptetous les parametres mis en jeu pour evaluer le comportement des operateursde combinaison, ces experimentations ont ete limitees a l’etude de quelquesoperateurs simples en ne prenant en compte qu’un ou deux parametres. L’ob-jectif de la suite est d’etendre ces travaux a la recherche des parametrespermettant d’expliquer les conditions dans lesquelles l’emploi d’un operateurde combinaison donne est optimal. Pour cela, les methodes stochastiquesd’optimisation combinatoire (du type algorithmes genetiques), permettantde formaliser le probleme comme un probleme d’optimisation multi-criteres,peuvent etre utilisees.

Si le domaine de l’evaluation du comportement des methodes de com-binaison a un peu progresse ces dernieres annees, de nombreuses questionsrestent sans reponse. Ceci est lie d’une part a la difficulte de mener des etudes


theoriques dans ce domaine et d’autre part au manque d’etudes comparativesqui peuvent apporter des contributions permettant d’avancer dans l’etude ducomportement des methodes de combinaison. Les quelques resultats obtenusdans la litterature ne peuvent que montrer la diversite des problemes a trai-ter dans ce domaine.

Avec un peu de recul et d’experiences sur le comportement des methodesde combinaison, nous pouvons degager quelques perspectives de recherche aenvisager pour notre travail. Ces perspectives portent sur les differents fac-teurs qui peuvent influencer le comportement des methodes de combinaison.

Performances des classifieurs: L’analyse du comportement des methodesde combinaison avec des classifieurs ayant des performances differentes n’estpas encore traitee de maniere claire. En effet, les travaux theoriques etexperimentaux realises jusqu’a maintenant ne traitent que les cas extremes:classifieurs avec les memes performances, un classifieur parmi l’ensemble aune performance tres elevee ou tres faible. Notons que les resultats concer-nant l’influence des performances des classifieurs sur le comportement desmethodes de combinaison sont obtenus avec peu de classifieurs. Il est interessantdonc de regarder l’influence des performances des classifieurs sur le compor-tement des differentes methodes de combinaison dans le cas ou de nombreuxclassifieurs sont combines. Il est interessant egalement de regarder l’influencede la repartition des performances entre les classes sur le comportement desdifferentes methodes de combinaison. Comment ces performances doiventetre distribuees pour qu’une methode de combinaison donnee produise unemeilleure performance?

Un probleme qui nous semble interessant a etudier concerne l’influence desperformances des classifieurs en terme de taux de rejet sur le comportementdes methodes de combinaison. D’apres nos connaissances, cette analyse n’apas recu une attention particuliere dans les etudes realisees sur l’evaluationde la combinaison. Pourtant dans la pratique, on peut disposer d’un ensemblede classifieurs reels qui rejettent. Grace a sa capacite a tenir compte du rejet,le simulateur pourra servir pour analyser ce probleme.

Concernant la decision des methodes de combinaison, la liste finale desolutions peut contenir plusieurs classes presentant le meme score (en parti-culier pour les methodes de type rang). Traiter ce probleme consiste a utiliserl’option du rejet au niveau de la decision de la regle de combinaison. Quelleest la methode qui realise le meilleur compromis entre taux de rejet et tauxde reconnaissance? Comment les performances des classifieurs peuvent-ellesinfluer sur ce compromis? Une etude approfondie sur ce sujet permettra demieux comprendre le comportement des methodes de combinaison et donc


d’augmenter la fiabilite des systemes de reconnaissance.

Diversite entre les classifieurs: Il serait interessant d’analyser lecomportement des methodes de combinaison en fonction de la diversite entreles sorties des classifieurs. En effet, il faut plus d’etudes comparatives parexemple pour les regles non adaptatives en fonction de la diversite pourconnaıtre a quel niveau de correlation, une regle de combinaison peut etremeilleure que les autres et quelles sont les regles qui sont plus sensibles a lacorrelation que d’autres. Notons ici que trop peu de travaux ont ete realisesdans ce contexte. En fonction de la diversite, on peut egalement expliquer lesconflits entre les resultats obtenus concernant le comportement des methodesde combinaison. Par exemple, certaines etudes montrent que le maximum nepeut pas ameliorer les performances des classifieurs alors que d’autres etudesmontrent que cette regle peut donner de meilleures performances meme parrapport aux autres regles de combinaison comme la somme. En effet, commenous l’avons montre dans les experiences du chapitre 4, il est possible de trou-ver des situations ou la regle du maximum se comporte mieux que la somme.Plus de travaux doivent donc etre envisages dans ce sens pour resoudre cetype de conflit. Pour cela, la methode de generation de classifieurs correlespourra etre utilisee pour eclaircir les conditions d’utilisation de ces methodesde combinaison.

Nombre de classifieurs: Un probleme interessant qui n’a toujourspas de reponse est: Combien de classifieurs faut-il utiliser pour obtenir demeilleure performance avec une methode de combinaison donnee? Dans lamajorite des travaux existants, le nombre de classifieurs est fixe de manierestatique sans justification a priori. Si l’evaluation complete permettant deconnaıtre le nombre exact de classifieurs a fusionner n’est pas pour le momentenvisageable, il est toutefois possible de savoir si une methode se comportemieux avec peu de classifieurs ou avec un grand nombre de classifieurs. Plusinteressant encore est de savoir le nombre de classifieurs a utiliser lorsqu’ilsont des performances faibles avec un niveau de diversite donne. Cela servira acomprendre le comportement non seulement des operateurs de combinaisonmais aussi des methodes de generation de classifieurs notamment bagginget boosting qui sont tres utilisees actuellement dans plusieurs applications.On comprend donc tout l’interet qu’il y a a traiter le probleme de choix dunombre de classifieurs surtout qu’une analyse theorique dans ce cadre estdifficile a mener.

Nombre de classes: Le nombre de classes peut egalement avoir uneinfluence sur le comportement des methodes de combinaison. Ce sont souvent


les problemes a peu de classes (2 a 10 classes) qui sont les plus traites dans lecas de l’evaluation des performances des methodes de combinaison pourtantbeaucoup d’applications utilisent un grand nombres de classes. Quelle peutetre la methode de combinaison parmi celles existantes la plus efficace pourun probleme comportant un grand nombre de classes (centaines)?

Nombre de solutions: Les travaux existants qui traitent le problemede l’evaluation des methodes de combinaison de type rang et mesure utilisentdes classifieurs proposant une seule solution ou toutes les classes possibles.L’etude du comportement de ces methodes avec des listes de solutions nonegales reste encore ouverte. Il est interessant de regarder si les resultats deces etudes restent valables dans ce cas. Il est interessant egalement de re-garder comment se comporte une methode de combinaison donnee avec desclassifieurs proposant un nombre different de solutions.

Structure de classifieurs: L’analyse de l’influence des structures desclassifieurs (kppv, neuronal, bayesien, gaussien, discrimination lineaire, ..) aete realisee uniquement pour comparer le produit et la somme. Il est doncinteressant de regarder comment les autres methodes de combinaison se com-portent avec des classifieurs ayant une structure donnee et des structuresdifferentes. Pour cela, l’utilisation de matrices reelles en entree du simulateurpeut nous aider a comprendre le comportement des methodes de combinaisonpour une structure donnee.

Les travaux existants montrent qu’aucune methode de combinaison n’estactuellement capable de donner de meilleures performances dans tous lesproblemes de reconnaissance. En revanche, l’etude du comportement desmethodes de type rang semble la plus realiste et correspond a un besoinreel pour les problemes de reconnaissance. Une etude plus approfondie etcomparative de ces methodes en fonction des differents facteurs permettrade faciliter la caracterisation des situations de leur utilisation. L’idee est doncd’etudier le comportement de ces methodes de combinaison en fonction desperformances des classifieurs (taux de reconnaissance differents, taux de re-jet, variation par classe), de la correlation, pour plusieurs classifieurs et pourdes problemes a plusieurs classes. Ces objectifs fixent donc le cadre des tra-vaux que nous devons mener a terme sur cette problematique.

Pour conclure sur ces perspectives, nous pensons que le probleme del’evaluation des methodes de combinaison constitue l’un des axes des tra-


vaux les plus importants dans les annees a venir. Malgre l’importance del’utilisation des donnees reelles pour cette evaluation, force est de constaterque la simulation reste le moyen le plus adapte pour obtenir des resultatspossedant une reelle utilite pratique pour la reconnaissance. Grace a cettetechnique, des conditions d’utilisation des methodes de combinaison pour-raient etre identifiees a long terme.

Bibliographie 251

Bibliographie

[Achermann and Bunke, 1996] Achermann, B. and Bunke, H. (1996). Com-bination of classifiers on the decision level for face recognition. Technicalreport, University of Bern.

[Agesti, 1990] Agesti, A. (1990). Categorical data analysis. John Wiley etSons.

[Aksela, 2003] Aksela, M. (2003). Comparison of classifier selection methodsfor improving committee performance. In Lecture Notes in ComputerScience, 4th International Workshop, Multiple Classifier Systems (MCS),volume 2709, pages 84–93, 11-13 June, Guildford, UK.

[Alexandre et al., 2000] Alexandre, L., Campilho, A., and Kamel, M. (2000).Combining independent and unbiased classifiers using weighted average.pages 495–498.

[Alexandre et al., 2001] Alexandre, L., Campilho, A., and Kamel, M. (2001).On combining classifiers using sum and product rules. Pattern RecognitionLetters, 22:1283–1289.

[Alkoot and Kittler, 1999] Alkoot, F. and Kittler, J. (1999). Experimen-tal evaluation of expert fusion strategies. Pattern Recognition Letters,20(11):11–13.

[Alkoot and Kittler, 2002] Alkoot, F. and Kittler, J. (2002). Modified pro-duct fusion. Pattern Recognition Letters, 23:957–965.

[Alpaydin, 1992] Alpaydin, E. (1992). Multiple neural networks and weigh-ted voting. In 11th IAPR International Conference on Pattern Recognition,pages 29–32, The Hague, The Netherlands.

[Alpaydin, 1993] Alpaydin, E. (1993). Multiple networks for function lear-ning. In IEEE International Conference on Neural Networks, volume 1,pages 27–32.

[Alpaydin and Jordan, 1996] Alpaydin, E. and Jordan, M. (1996). Local li-near perceptrons for classification. IEEE Transactions Neural Networks,7(3):788–792.

252 Bibliographie

[Auger, 1993] Auger, J.-M. (1993). Methodes neuronales pour la reconnais-sance de caracteres manuscrits: comparaison et cooperation. These de doc-torat, Universite Paris 6.

[Avnimelech and Intrator, 1999] Avnimelech, R. and Intrator, N. (1999).Boosted mixture of experts: an ensemble learning scheme. Neural Compu-tation, 11:475–490.

[Bajaj and Chaudhury, 1997] Bajaj, R. and Chaudhury, S. (1997). Signatureverification using multiple neural classifiers. Pattern Recognition, 30(1):1–7.

[Baluja, 1994] Baluja, S. (1994). Population-based incremental learning: amethod for integrating genetic search based function optimization andcompetitive larning. Technical Report 163, Carnegie Melon University,Pittsburgh PA.

[Banfield et al., 2003] Banfield, R., Hall, L., Bowyer, K., and Kegelmeyer, W.(2003). A new ensemble diversity measure applied to thinning ensembles.In Windett, T. and Roli, F., editors, 4th International Workshop, MultipleClassifier Systems, volume 2709, pages 306–316.

[Battati and Colla, 1994] Battati, R. and Colla, A. (1994). Democracy inneural nets : voting schemes for classification. Neural Networks, 7(4):691–707.

[Beiraghi et al., 2000] Beiraghi, S., Ahmadi, M., Shridhar, M., and Ahmed,M. (2000). Application of fuzzy integrals in fusion of classifiers for lowerror rate handwritten numerals recognition. In International Conferencein Pattern Recognition, page pp.

[Bellili et al., 2002] Bellili, A., Gilloux, M., and Gallinari, P. (2002). Re-connaissance de chiffres manuscrits par un systeme hybride mlp-svm. In13eme Congres Francophone AFRIF-AFIA de Reconnaissance des Formeset d’Intelligence Artificielle, volume 3, pages 761–769, Angers, France.

[Benediktsson et al., 1997] Benediktsson, J., Sveinsson, J., Ingimundarson,J., Sigurdsson, H., and Ersoy, O. (1997). Multistage classifiers optimizedby neural networks and genetic algorithms. Non-linear Analusis TheoryMethods Application, 30(3):1323–1334.

[Berger, 1985] Berger, J. (1985). Statistical decision theory and bayesian ana-lysis. Springer-Verlag.

[Bishop, 1995] Bishop, C. (1995). Neural networks for pattern recognition.Clarendon Press, Oxford.

[Black, 1958] Black, D. (1958). The theory of committees and elections. Cam-bridge University Press.

Bibliographie 253

[Bloch, 1996] Bloch, I. (1996). Information combination operators for datafusion: a comparative review with classification. IEEE Tansactions onSystems Man Cybernetics - Part A: Systems Humans, 26:52–67.

[Borda, 1781] Borda, J.-C. (1781). Memoire sur les elections au scrutin.Histoire de l’Academie Royale des Sciences, Paris.

[Breiman, 1996a] Breiman, L. (1996a). Bagging predictors. Machine Lear-ning, 24(2):123–140.

[Breiman, 1996b] Breiman, L. (1996b). Bias, variance, and arcing classifiers.Technical Report 460, UC-Berkeley, Berkeley, CA.

[Breiman, 1998] Breiman, L. (1998). Halfandhalf bagging and hard boun-dary points. Technical Report 534, Statistics Department, University ofCalifornia, Berkeley.

[Broadley, 1982] Broadley, R. (1982). A multiplicative formula for aggrega-ting probability assessments. Management Science, 28:1137–1148.

[Brunelli and Falavigna, 1995] Brunelli, R. and Falavigna, D. (1995). Personidentification using multiple cues. IEEE Transactions on Pattern AnalysisMachine Intelligence, 17(10):955–966.

[Cao et al., 1994] Cao, J., Ahmadi, M., and Shridhar, M. (1994). Hand-written numerals with multiple features and mltistage classifiers. IEEEInternational Journal on Circuits and Systems, 6:323–326.

[Cao et al., 1995] Cao, J., Ahmadi, M., and Shridhar, M. (1995). Fusion ofclassifiers with fuzzy integrals. In International Conference in DocumentAnalysis and Recognition (ICDAR), page pp.

[Carney and Cunningham, 1999] Carney, J. and Cunningham, P. (1999). Tu-ning diversity in bagged neural network ensembles. Technical report, Uni-versity of Dublin (department of Computer Science).

[Chen et al., 1997] Chen, K., Wang, L., and Chi, H. (1997). Methods of com-bining multiple classifiers with different features and their applications totext-independent speaker identification. International Journal of PatternRecognition and Artificial Intelligence, 11(3):417–445.

[Chiang and Fu, 1994] Chiang, C.-C. and Fu, H. (1994). A divide-and-conquer methodology for modular supervised neural network design. InIEEE International Conference on Neural Networks, pages 119–124, Or-lando, FL.

[Chibelushi et al., 1993] Chibelushi, C., MAson, J., and Deravi, F. (1993).Integration of acoustic and visual speech for speaker recognition. Euros-peech, pages 157–160.

[Cho, 1999] Cho, S.-B. (1999). Pattern recognition with neural networkscombined by genetic algorithm. Fuzzy Sets Systems, 103:339–347.

254 Bibliographie

[Cho and Kim, 1995] Cho, S.-B. and Kim, J. (1995). Combining multipleneural network by fuzzy integral for robust classification. IEEE Transac-tion on Systems, Man, And Cybernetics, 25(2):pp.

[Chou et al., 1994] Chou, K., Tu, L., and Shyu, I. (1994). Performance ana-lysis of a multiple classifiers system for recognition of totally unconstrai-ned handwritten numerals. In 4th International Workshop on Frontiers ofHandwriting Recognition, pages 480–487, Taiwan.

[Clavier et al., 2000] Clavier, E., Trupin, E., Laurent, M., Diana, S., and La-biche, J. (2000). Classifier combination for forms sorting. In InternationalConference on Pattern Recognition, volume 1, page 193, Barcelona.

[Clemen, 1989] Clemen, R. (1989). Combining forecasts: A review and an-notated bibliography. Journal of Forecasting, 5:559–583.

[Cohen, 1960] Cohen, J. (1960). A coefficient of agreement for nominal scales.Educational and Psychological Measurement, 20:37–46.

[Cohn et al., 1994] Cohn, D., Atlas, L., and Ladner, R. (1994). Improvinggeneralization with active learning. Machine Learning, 15(2):201–221.

[Condorcet, 1785] Condorcet, M. (1785). Essai sur l’application de l’analysea la probabilite des decisions rendues a la pluralite des voix. Paris.

[Cordella et al., 1998] Cordella, L., Foggia, P., Sansone, C., Tortorella, F.,and Vento, M. (1998). Optimizing the error/reject trade-off for a multi-expert system using the bayesian combining rule. In Advances in Patternrecognition, pages 716–725.

[Cranor, 1996] Cranor, L. (1996). Declared-strategy voting: an instrumentfor group decision-making. Phd thesis, Washington University.

[Cunningham and Carney, 2000] Cunningham, P. and Carney, J. (2000). Di-versity versus quality in classification ensembles based on feature selection.In 11th European Conference on Machine Learning, pages 109–116.

[Czyz et al., 2004] Czyz, J., Kittler, J., and Vandendorpe, L. (2004). Mul-tiple classifier combination for face-based identity verification. PatternRecogntion, 37:1459–1469.

[Davis, 1991] Davis, L. (1991). Handbook of genetic algorithms. Van Nos-trand Reinhold, New York.

[Demirekler and Altincay, 2004] Demirekler, M. and Altincay, H. (2004).Plurality voting-based multiple classifier systems: statistically independentwith respect to dependent classifier sets. Pattern Recognition, pages 2365–2379.

[Dempster, 1985] Dempster, A. (1985). Probability, evidence, and judgment,pages 119–132. ed. par J.M. Bernardo, M.H. De-Goot, D.V. Lindley,A.F.M. Smith, Elsevier Science Publishers.

Bibliographie 255

[Dietterich, 2000] Dietterich, T. (2000). An experimental comparison ofthree methods for constructing ensembles of decision trees: bagging, boos-ting and randomization. Machine Learning, 40(2):139–157.

[Dimauro et al., 1995] Dimauro, G.and Impedovo, S., Pirlo, G., and Rizzo,S. (1995). Multiple experts: a new methodology for the evaluation of thecombination processes. International (a completer), pages 131–136.

[Drucker et al., 1994] Drucker, H., Cortes, C., Jackel, L., Lecun, Y., and Vap-nik, V. (1994). Boosting and other ensemble methods. Neural Computa-tion, 6(6):1289–1301.

[Duda and Hart, 1973] Duda, R. and Hart, P. (1973). Pattern classificationand scene analysis. John Wiley Sons.

[Duin, 2002] Duin, R. (2002). The combining classifier: to train or not totrain? volume II of 16th International Conference on Pattern Recognition(ICPR), IEEE Computer Society Press, Los Alamitos,, pages 765–770,Quebec City, Canada.

[Duin and Tax, 2000] Duin, R. and Tax, D. (2000). Experiments with clas-sifier combining rules. In J. Kittler, F. R., editor, 1st InternationalWorkshop, Multiple Classifier Systems (MCS), Lecture Notes in ComputerScience, volume 1857, pages 16–29, Cagliari, Italy. Springer, Berlin.

[Duin and Tax, 1998] Duin, R. and Tax, D. M. J. (1998). Classifier conditio-nal posterior probabilities. Advances in Pattern Recognition, 1451:611–619.

[Efron and Tibshirani, 1993] Efron, B. and Tibshirani, R. (1993). An intro-duction to the bootstrap. Chaman and Hall.

[ElMalek et al., 2002] ElMalek, J., Alimi, A., and Tourki, R. (2002). Pro-blems in pattern classification in high domensional spaces: behavior of aclass of combined neuro-fuzzy classifiers. Fuzzy Sets and Systems, 128:15–33.

[Filippi et al., 1994] Filippi, E., Costa, M., and Pasero, E. (1994). Multi-layer percepton ensembles for increased performance and fault-tolerancein pattern recognition tasks. In IEEE International Conference on NeuralNetworks, pages 2901–2906, Orlando, FL.

[Franke, 1992] Franke, J. annd Mandler, E. (1992). A comparison of twoapproaches for combining the votes of cooperating classifiers. In 11th In-ternational Conference on Pattern Recognition, pages 611–614, Den Haag,Netherlands.

[Freund and Schapire, 1996] Freund, Y. and Schapire, R. (1996). Experi-ments with a new boosting algorithm. In 13th International ConferenceMachine Learning, pages 148–156.

[Friedman, 1989] Friedman, J. (1989). Regularized discriminant analysis.Journal of American Statistical Association (JASA), 84:165–175.

256 Bibliographie

[Fumera and Roli, 2002] Fumera, G. and Roli, F. (2002). Performance ana-lysis and comparison of linear combiners for classifier fusion. In IAPRInternational Workshop on Statistical Pattern Recognition (SPR), pages424–432, Windsor, Canada. Springer-Verlag, LNCS.

[Fumera and Roli, 2004] Fumera, G. and Roli, F. (2004). Analysis of error-reject trade-off in linearly combined multiple classifiers. Pattern Recogn-tion, 37:1245–1265.

[Gader et al., 1991] Gader, L., Forester, B., Ganzberger, M., Gillies, A., Mit-chell, B., Whalen, M., and Yocum, T. (1991). Recognition of handwrittendigits using template and model matching. Pattern Recognition, 24(5):421–431.

[Gader et al., 1996] Gader, P., Mohamed, M., and Keller, J. (1996). Fusionof hadwritten word classifiers. Pattern Recognition Letters, 17:577–584.

[Giacinto, 1998] Giacinto, G. (1998). Design of multiple classifier systems.PhD thesis, Universite de Salerno, Italy.

[Giacinto and Roli, 2000] Giacinto, G. and Roli, F. (2000). Dynamic clas-sifier selection. In J. Kittler, F. R., editor, Lecture Notes in Compu-ter Science, 1st International Workshop on Multiple Classifier Systems(MCS), volume 1857, pages 155–159, Cagliari, Italy.

[Giacinto and Roli, 2001a] Giacinto, G. and Roli, F. (2001a). An approachto the automatic design of multiple classifier systems. Pattern RecognitionLetters, 22(1):25–33.

[Giacinto and Roli, 2001b] Giacinto, G. and Roli, F. (2001b). Design of ef-fective neural network ensembles for image classification processes. ImageVision and Computing Journal, 19(9):699–707.

[Giacinto and Roli, 2001c] Giacinto, G. and Roli, F. (2001c). Dynamic clas-sifier selection based on multiple classifier behaviour. Pattern Recognition,34(9):1879–1881.

[Giacinto et al., 2000a] Giacinto, G., Roli, F., and Fumera, G. (2000a). De-sign of effective multiple classifier systems by clustering of classifiers. InInternational Conference Document Analysis and Recognition (ICDAR),pages 160–163.

[Giacinto et al., 2000b] Giacinto, G., Roli, F., and Fumera, G. (2000b). Se-lection of classifiers based on multiple classifier behaviour. In Lecture Notesin Computer Science, Joint IAPR International Workshops on Syntacti-cal and Structural Pattern Recognition and Statistical Pattern Recognition(S+SSPR), volume 1876, pages 87–93, Alicante, Spain.

[Gilbert et al., 1999] Gilbert, W., Bassett, J., and Persky, J. (1999). Robustvoting. Public Choice, 99:299–310.

Bibliographie 257

[Glover and Laguna, 1997] Glover, F. and Laguna, M. (1997). Tabu search.Kluver Academic Publishers, Boston.

[Gosselin, 1997] Gosselin, B. (1997). Cooperation of multilayer perceptronclassifiers. 8th Workshop on Circuits, Systems and Signal Processing, pages187–190, Mierlo, Pays-Bas.

[Grabisch and Nicolas, 1994] Grabisch, M. and Nicolas, J.-M. (1994). Clas-sification by fuzzy integral. Fuzzy Sets and Systems, 65:255–271.

[Griffiths, 1980] Griffiths, D. (1980). A pragmatic approach to spearman’srank correlation coefficient. Teaching Statistics, 2:10–13.

[Gunes, 2001] Gunes, V. (2001). Reconnaissance des formes evolutives parcombinaison, cooperation et selection de classifieurs. PhD thesis, Univer-site de la Rochelle.

[Gunter and Bunke, 2004] Gunter, S. and Bunke, H. (2004). Off-line cursivehandwriting recognition using mutiple classifier systems- on the influenceof vocabulary, ensemble, and training set size (in press). Optics and Lasersin Engineering.

[Hamsshire and Waibel, 1992] Hamsshire, J. and Waibel, A. (1992). Themeta-pi network: Building distributed knowledge representations for ro-bust multisource pattern recognition. IEEE Transactions on Pattern Ana-lysis and Machine Intelligence, 14:751–769.

[Hansen and Salamon, 1990] Hansen, L. and Salamon, P. (1990). Neural net-work ensembles. IEEE Transactions on Pattern Analysis and MachineIntelligence, 12(10):993–1001.

[Hao et al., 2003] Hao, H., Liu, C., and Sako, H. (2003). Comparison of gene-tic algorithm and sequential search methods for classifier subset selection.In 7th International Conference on Document Analysis and Recognition,volume 2, pages 765–769.

[Hao et al., 1997] Hao, H.-W., Xiao, X.-H., and Dai, R.-W. (1997). Hand-written chinese chararcter recognition by metasynthetic approach. PatternRecognition, 30(8):1321–1328.

[Hare, 1873] Hare, T. (1873). The election of representatives, parliamentaryand municipal. 4th edn London: Longmans.

[Hashem, 1997] Hashem, S. (1997). Optimal linear combinations of neuralnetworks. Neural Networks, 10(4):599–614.

[Heutte, 1994] Heutte, L. (1994). Reconnaissance de caracteres manuscrits :application a la lecture automatique des cheques et des enveloppes postales.PhD thesis, Universite de Rouen, France.

[Ho, 1992] Ho, T. (1992). A theory of multiple classifier systems and its ap-plication to visual word recognition. PhD thesis, Department of ComputerScience, Suny at Buffalo, New York.

258 Bibliographie

[Ho, 1998] Ho, T. (1998). The random subspace method for constructingdecision forests. IEEE Transactions on Pattern Analysis and MachineIntelligence, 20(8):832–844.

[Ho and Hull, 1994] Ho, T. and Hull, J.J. ad Srihari, S. (1994). Decisioncombination in multiple classifier systems. IEEE Transactions on PatternAnalysis and Machine Intelligence, 16(1):66–75.

[Hothorn and Lausen, 2003] Hothorn, T. and Lausen, B. (2003). Double-bagging: combining classifiers by bootstrap aggregation. Pattern Recogn-tion, 36:1303–1309.

[Huang et al., 1995] Huang, Y., Liu, K., and Suen, C. (1995). The combi-nation of multiple classifiers by neural network approach. InternationalJournal of Pattern Recognition and Artificial Intelligence, 9(3):579–597.

[Huang and Suen, 1995] Huang, Y. and Suen, C. (1995). A method of com-bining multiple experts for the recognition of unconstrained handwrittennumerals. IEEE Transactions on Pattern Analysis and Machine Intelli-gence, 17(1):90–94.

[Hull, 1988] Hull, J. (1988). A computatonal theory of visual word recogni-tion. PhD thesis, Department of Computer Science, SUNY at Buffalo.

[Hull et al., 1983] Hull, J., Srihari, S., and Choudhuri, R. (1983). An integra-ted algorithm for text recognition : comparison with a cascaded algorithm.IEEE Transactions on Pattern Analysis and Machine Intelligence (PAMI),5(4):384–395.

[Impedovo and Salzo, 1999] Impedovo, S. and Salzo, A. (1999). Evaluationof combination methods. International Conference in Document Analysisand Recognition, pages 394–397.

[Jacobs et al., 1991] Jacobs, R., Jordan, M., Nowlan, S., and Hinton, G.(1991). Adaptive mixtures of local experts. Neural computation, 3(1):79–87.

[Jain and Dubes, 1988] Jain, A. and Dubes, R. (1988). Algorithms for clus-tering data. Prentice Hall.

[Jain et al., 2000] Jain, A., Duin, R., and Mao, J. (2000). Statistical pat-tern recognition : a review. IEEE Transactions on Pattern Analysis andMachine Intelligence, 22(1):4–37.

[Jain and Zongke, 1997] Jain, A. and Zongke, D. (1997). Feature selection:evaluation, application, and small sample performance. IEEE Trans. Pat-tern Analysis and Machine Intelligence, 19(2):153–158.

[Ji and Ma, 1997] Ji, C. and Ma, S. (1997). Combinations of weak classi-fiers. Special Issue of Neural Networks and Pattern Recognition, IEEETransactions on Neural Networks, 8(1):32–42.

Bibliographie 259

[Jordan and Jacobs, 1994] Jordan, M. and Jacobs, R. (1994). Hierarchicalmixtures of experts and the em algorithm. Neural Computation, 6:181–214.

[Jordan and Xu, 1995] Jordan, M. and Xu, L. (1995). Convergence resultsfor the em approach to mixtures of experts architectures. Neural Networks,8:1409–1431.

[Kamel and Wanas, 2003] Kamel, M. and Wanas, N. (2003). Data depen-dence in combining classifiers. In T. Windeatt, F. R., editor, 4th Inter-national Workshop, Multiple Classifier Systems (MCS), Lecture Notes inComputer Science, volume 2709, pages 1–14, Guildford, UK. Springer, Ber-lin.

[Kang and Lee, 2000] Kang, H. and Lee, S. (2000). An information-theoreticstrategy for constructing multiple classifier systems. In 15th InternationalConference on Pattern Recognition, volume 2, pages 483–486.

[Keller et al., 1994] Keller, J., Gader, P., Tahani, H., Chiang, J.-H., and Mo-hamed, M. (1994). Advances in fuzzy integration for pattern recognition,fuzzy sets and systems. Fuzzy Sets and Systems, 65:273–283.

[Kim et al., 2000] Kim, J., Kim, K., Nadal, C., and Suen, C. (2000). Amethodology of combining hmm anf mlp classifiers for cursive word re-cognition. International Conference Document Analysis and Recognition(ICDAR), 2:319–322.

[Kim et al., 1997] Kim, J., Seo, K., and Chung, K. (1997). A systematicapproach to classifier selection on combining multiple classifiers for hand-written digit recognition. In International Conference Document Analysisand Recognition (ICDAR), pages 459–462.

[Kimura and Shridhar, 1991] Kimura, F. and Shridhar, M. (1991). Hand-written numeral recognition based on multiple algorithms. Pattern Recog-nition, 24(10).

[Kittler and Alkoot, 2003] Kittler, J. and Alkoot, F. (2003). Sum versusvote fusion in multiple classifier systems. IEEE Transactions on PatternAnalysis and Machine Intelligence, 25(1):110–115.

[Kittler et al., 1998] Kittler, J., Hatef, M., Duin, R., and Matas, J. (1998).On combining classifiers. IEEE Transactions on Pattern Analysis andMachine Intelligence, 20(3):226–239.

[Kittler et al., 1997] Kittler, J., Hojjatoleslami, A., and Windeatt, T. (1997).Strategies for combining classifiers employing shared and distinct patternrepresentations. Pattern Recognition Letters, 18:1373–1377.

[Knerr et al., 1996] Knerr, S., Baret, O., Price, D., Simon, J., Anisimov, V.,and Gorski, N. (1996). The a2ia recognition system for hadwritten checks.In IAPR Workshop on Document Analysis Systems, pages 431–494, Mal-vern, Penn, USA.

260 Bibliographie

[Knight and Levson, 1986] Knight, C. and Levson, N. (1986). An experi-mental evaluation of the assumption of independence in multiversion pro-gramming. IEEE Transactions on Software Engineering, 12(1):96–109.

[Krogh, 1995] Krogh, A. ad Vedelsby, J. (1995). Neural network ensembles,cross validation, and active learning. In G. Tesauro, D. Touretzky, T. L.,editor, Advances in Neural Information Processing Systems, volume 7,pages 231–238, Cambridge, MA:MIT Press.

[Kuncheva, 1993] Kuncheva, L. (1993). Change-glasses approach in patternrecognition. Pattern Recognition Letters, 14:619–623.

[Kuncheva, 1997] Kuncheva, L. (1997). An application of owa operators tothe aggregation of multiple classification decisions. In R.R. Yager, J. K.,editor, The Ordered Weighted Averaging Operators, pages 330–343. Klu-wer, Dordrecht, USA.

[Kuncheva, 1998] Kuncheva, L. (1998). On combining multiple classifiers. In7th International Conference on Information Processing and Managementof Uncertainty (IPMU), pages 1890–1891, Paris, France.

[Kuncheva, 2000a] Kuncheva, L. (2000a). Clustering and selection model forclassifier combination. In Knowldge-Based Intelligent Engineering Systemand Allied Technologies, pages 185–188, Brighton, UK.

[Kuncheva, 2000b] Kuncheva, L. (2000b). A theoretical study on expert fu-sion strategis. IEEE Transactions on Pattern Ananlysis and Machine In-telligence, 4(4):327–336.

[Kuncheva, 2002] Kuncheva, L. (2002). Switching between selection and fu-sion in combining classifiers: an experiment. IEEE Transactions on Sys-tems Man, and Cybernetics, Part B-cyberneics, 32(2):146–156.

[Kuncheva, 2003] Kuncheva, L. (2003). That elusive diversity in classifierensembles. In IbPRIA 2003, Lecture Notes in Computer Science, Springer-Verlag, pages 1126–1138, Mallorca, Spain.

[Kuncheva et al., 2001] Kuncheva, L., Bezdek, J., and Duin, R. (2001). De-cision templates for multiple classifier fusion : an experimental comparison.Pattern Recognition, 34(2):299–314.

[Kuncheva and Kountchev, 2002] Kuncheva, L. and Kountchev, R. (2002).Generating classifier outputs of fixed accuracy and diversity. Pattern Re-cognition Letters, 23:593–600.

[Kuncheva et al., 2002] Kuncheva, L., Skurichine, M., and Duin, R. (2002).An experimental study on diversity for bagging and boosting with linearclassifiers. Information Fusion, 3(2):245–258.

[Kuncheva and Whitaker, 2003] Kuncheva, L. and Whitaker, C. (2003).Measures of diversity in classifier ensembles and their relationship withthe ensemble accuracy. Machine Learning, 51:181–207.

Bibliographie 261

[Kuncheva et al., 2003] Kuncheva, L., Whitaker, C., and Duin, R. (2003).Limits on the majority vote accuracy in classifier fusion. Pattern Analysisand Applications, 6:22–31.

[Kuncheva et al., 2000] Kuncheva, L., Whitaker, C., Shipp, C., and Duin,R. (2000). Is independence good for combining classifiers? In 15th In-ternational Conference on Pattern Recognition (ICPR), volume 2, pages168–171.

[Kurzweil, 1990] Kurzweil, R. (1990). The age of intelligent machines, pageCahpterVII. The MIT Press.

[Laaksonen et al., 1999] Laaksonen, J., Aksela, M., Oja, E., and Kangas, J.(1999). Dinamically expanding context as committee adaptation methodin on-line recognition of handwritten latin characters. In InternationalConference on Documen Analysis and Recognition, pages 796–799.

[Lam and Suen, 1988] Lam, L. and Suen, C. (1988). Structural classificationand relaxation matching of totally unconstrained handwritten zip-codenumbers. Pattern Recognition, 21(1):19–31.

[Lam and Suen, 1994] Lam, L. and Suen, C. (1994). A theoretical analysis ofthe application of majority voting to pattern recognition. In InternationalConference on Pattern Recognition, pages 418–420, Jerusalem.

[Lam and Suen, 1997] Lam, L. and Suen, C. (1997). Application of majorityvoting to pattern rcognition: an analysis of its behavior and performance.IEEE Transactions on System, Man, and Cybernetics, Part A: Systemsand Humans, 27(5):553–568.

[Lamy, 1995] Lamy, B. (1995). Reconnaissance de caracteres manuscrits parcombinaison de modeles connexionnistes. PhD thesis, Universite Paris 6.

[Laplace, 1847] Laplace, P. (1847). Deuxieme supplement a la theorie ana-lytique ds probabilites. Oeuvre Completes de Laplace, 7:531–580.

[Lecce et al., 2000] Lecce, V., Dimauro, G., Guerrierro, A., Impedovo, S.,Pirlo, G., and Salzo, A. (2000). Classifier combination : the role of a-prioriknowledge. In 7th International Workshop on Frontiers in HandwritingRecognition (IWFHR), pages 143–152, Amsterdam, the Netherlands.

[Lee and Srihari, 1995] Lee, D.-S. and Srihari, S. (1995). A theory of clas-sifier combination: the neural network approach. In IEEE InternationalConference in Document Analysis and Recognition (ICDAR), pages 42–45.

[Li and Jain, 1998] Li, Y. and Jain, A. (1998). Classification of text docu-ments. The Computer Journal, 41(8):537–546.

[Lin et al., 2003] Lin, X., Yacoub, S., Burns, J., and Simske, S. (2003). Per-formance analysis of pattern combination by plurality voting. PatternRecognition Letters, 24:1959–1969.

262 Bibliographie

[Lipnickas, 2001] Lipnickas, A. (2001). Classifiers fusion with data dependentaggregation schemes. In 7th International Conference on Information Net-works, Systems and Technologies (ICINST), pages 147–153.

[Littlewood and Miller, 1989] Littlewood, B. and Miller, D. (1989). Concep-tual modelling of coincident failures in multiversion software. IEEE Tran-sactions on Software Engineering, 15(12):1596–1614.

[Liu and Yao, 1999] Liu, Y. and Yao, X. (1999). Ensemble learning via ne-gative correlation. Neural Networks, 12.

[Maclin and Opitz, 1997] Maclin, R. and Opitz, D. (1997). An empirical eva-luation of bagging and boosting. In for Artificial Intelligence (AAAI) Press,A. A., editor, 14th National Conference on Artificia Intelligence, pages546–551, Providence, Rhode Island. MA., AAAI Press/MIT Press.

[Mandler and Schuermann, 1988] Mandler, E. and Schuermann, J. (1988).Combining the classification results of independent classifiers based onthe dempster-shafer theory of evidences. International Journal of patternRecognition and Artificial Intelligence, pages 381–393.

[Melville and Raymond, 2003] Melville, P. and Raymond, J. (2003).Constructing diverse classifier ensembles using artificial training exemples.In IJCAI, pages 505–510, Acapulco, Mexico.

[Moobed, 1996] Moobed, B. (1996). Combinaison de classifieurs, une nou-velle approche. Informatique, Universite Paris sud, UFR Scientifique d’Or-say.

[Nadal et al., 1990] Nadal, C., Legault, R., and Suen, C. (1990). Complemen-tary algorithms for the recognition of totally unconstrained handwrittennumerals. In 10th International Conference on Pattern Recognition, pages443–449, Atlantic City.

[Nanson, 1882] Nanson, E. (1882). Methods of election. Trans. Proc. R. Soc.Victoria, 18:197–240.

[Nilsson, 1965] Nilsson, N. (1965). Learning Machines. McGraw-Hill, NewYork.

[Nishimura et al., 1999] Nishimura, H., Kobayashi, M., Maruyama, M., andNakano, Y. (1999). Off-line character recognition using hmm by multipledirectional feature extraction and voting with bagging algorithm. Interna-tional Conference Document Analysis Recognition (ICDAR), pages 49–52.

[Oh, 2003] Oh, S.-B. (2003). On the relationship between majority vote ac-curacy and dependency in multiple classifier systems. Pattern RecognitionLetters, 24:359–363.

[Oliveira et al., 2003] Oliveira, L., Sabourin, R., Bortolozzi, F., and Suen,C. (2003). Feature selection for ensembles: a hierarchical multi-objective

Bibliographie 263

genetic algorithm. In 7th International Conference on Document Analysisand Recognition, volume 2, pages 676–680.

[Opitz, 1999] Opitz, D. (1999). Feature selection for ensembles. In 16thNational conference on Artificial Intelligence, AAAI Press, pages 379–384.

[Oza and Tumer, 1999] Oza, N. and Tumer, K. (1999). Dimensionality re-duction through classifier ensembles. Technical Report NASA-ARC-IC-1999-126, Computational Sciences Dvision, NASA Ames research Center.

[Parker, 1997] Parker, J. (1997). Multiple/parallel handprinted digit recog-nition. Vision Interface.

[Parker, 1999] Parker, J. (1999). Multiple sensors, voting methods and targetvale analysis. In Signal Processing Sensor Fusion and Target Recognition,Orlando, Florida.

[Parker, 2000] Parker, J. (2000). Evaluating classifier combination using si-mulated classifiers. Technical report, Department of Computer Science,University of Calgary, Canada.

[Parker, 2001] Parker, J. (2001). Rank and response combination from confu-sion matrix data. Information Fusion, 2:113–120.

[Parmanto et al., 1996] Parmanto, B., Munro, P., and Doyle, H. (1996).Reducing variance of committee prediction with resampling techniques.Connection Science, 8(3/4):405–416.

[Partridge and Griffith, 1995] Partridge, D. and Griffith, N. (1995). Stra-tegies for improving neural net generalization. Neural Computing andApplictions, 3:27–37.

[Partridge and Griffith, 2002] Partridge, D. and Griffith, N. (2002). Multipleclassifier systems: software engineered, automatically modular leading toa taxonomic overview. Patten Analysis and Applications, 5:180–188.

[Partridge and Krzanowski, 1997] Partridge, D. and Krzanowski, W. (1997).Software diversity: practical statistics for its measurement and exploita-tion. Information and Software Technology, 39:707–717.

[Partridge and Yates, 1996] Partridge, D. and Yates, W. (1996). Engineeringmultiversion neural-net systems. Neural Computation, 8:869–893.

[Pereira, 1999] Pereira, P. (1999). Optimisation d’un systeme de lecture au-tomatique de cheques. PhD thesis, Universite de Rouen, France.

[Perlibakas, 2004] Perlibakas, V. (2004). Distance measures for pca-basedface recognition. Pattern Recognition Letters, 25:711–724.

[Perrone, 1994] Perrone, M. (1994). General averaging results for convex op-timization. In et al., M. M., editor, Connectionist Models Summer School,pages 364–371, Lawrence Erlbaum, Hillsdale, NJ.

264 Bibliographie

[Perrone and Cooper, 1993] Perrone, M. and Cooper, L. (1993). When net-works disagree: ensemble methods for hybrid neural networks. In Chap-man et Hall, L., editor, Artificial Neural Networks for Speech and Vision,pages 126–142.

[Petrakos and Benediktsson, 2001] Petrakos, M. and Benediktsson, J.(2001). The effect of classifier agreement on the accuracy of the com-bined classifier in decision level fusion. IEEE Transactions on Geosciencesand Remote Sensing, 39(11):2539–2546.

[Prevost et al., 2003] Prevost, L., Michel-Sendis, C., Moises, A., Oudot, L.,and Milgram, M. (2003). Combining model-based and discriminative clas-sifiers: application to hadwritten character recognition. In 7th InternatinalConference on Dcument Analysis and Recognition, volume 1, pages 31–35.

[Prevost and Milgram, 1998] Prevost, L. and Milgram, M. (1998).Cooperations pour la reconnaissance de caracteres dynamiques isoles.In 11eme Congres Reconnaissance de Formes et Intelligence Artificielle,volume 3, pages 233–240.

[Quinion and Matsuyama, 1991] Quinion, P. and Matsuyama, T. (1991).Random closed sets : a unified approach to the representation of impre-cision and uncertaity. In In European Conf. On Symb. And Quant. Appro.To Uncer., pages 282–286, France.

[Quinlan, 1996] Quinlan, J. (1996). Bagging, boosting and c4.5. In Press,A. A. A. I. A., editor, 13th National Conference on Artificial Intelligence,pages 725–730.

[Rahman and Fairhurst, 1999] Rahman, A. and Fairhurst, M. (1999). Astudy of some multi-expert recognition strategies fo rindustrial applica-tions: issues of processing speed and implementability. In Vision Interface,Tros-Rivieres, Canada.

[Rahman and Fairhurst, 2000] Rahman, A. and Fairhurst, M. (2000). Mul-tiple expert classification : a new methodology for parallel decision fusion.International Journal on Document Analysis and Recognition, IJDAR,3:40–55.

[Rahman and Fairhurst, 2003] Rahman, A. and Fairhurst, M. (2003). Mul-tiple classifier decision combination strategies for character recognition: areview. Journal Document Analysis and Recognition JDAR, pages 166–194.

[Raviv and Intrator, 1996] Raviv, Y. and Intrator, N. (1996). Bootstrappingwith noise: an effectivereguarisation technique. Connection Science, 8:355–372.

[Ripley, 1996] Ripley, B. (1996). Pattern recognition nd neural networks.Cambridge University Press.

Bibliographie 265

[Rogova, 1994] Rogova, G. (1994). Combining the results of several neuralnetwork classifiers. Neural Networks, 7(5):777–781.

[Roli and Fumera, 2002] Roli, F. and Fumera, G. (2002). Analysis of linearand order statistics combiners of fusion of imbalanced classifiers. In LectureNotes in Computer Science, International Workshop on Multiple ClassifierSystems, pages 252–261, Cagliari, Italy.

[Roli et al., 2002a] Roli, F., Fumera, G., and Kittler, J. (2002a). Fixed andtrained combiners for fusion of imbalanced pattern classifiers. In 5th In-ternational Conference on Information Fusion, pages 278–284, Annapolis(Washington) USA.

[Roli et al., 2002b] Roli, F., Raudys, S., and Marialis, G. (2002b). An ex-perimental comparison of fixed and trained fusion rules for crisp classifieroutputs. In J. Kittler, F. R., editor, Lecture Notes in Computer Science,International Workshop on Multiple Classifier Systems, pages 232–241.

[Rosen, 1996] Rosen, B. (1996). Ensemble learning using decorrelated neuralnetworks. Connection Science, 8(3/4):373–383.

[Ruta and Gabrys, 2000] Ruta, D. and Gabrys, B. (2000). An overview ofclassifier fusion methods. Computing and Information Systems, 7:1–10.

[Ruta and Gabrys, 2001a] Ruta, D. and Gabrys, B. (2001a). Analysis of thecorrelation between majority voting errors and the diversity measures inmultiple classifier systems. In International Symposium on Soft Computing(SOCO).

[Ruta and Gabrys, 2001b] Ruta, D. and Gabrys, B. (2001b). Applicationof the evolutionary algorithms for classifier selection in multiple classifiersystems with majority voting. In J. Kittler, F. R., editor, 2nd Interna-tional Workshop on Multiple Classifier Systems (MCS), pages 399–408,Cambridge, UK.

[Ruta and Gabrys, 2002] Ruta, D. and Gabrys, B. (2002). New measure ofclassifier dependency in multiple classifier systems. In 3rd InternationalWorkshop on Multiple Classifier System (MCS), Lecture Notes ComputerScience, volume 2364, pages 127–136, Calgary, Sardinia, Italy.

[Sabourin and Genest, 1994] Sabourin, M. and Genest, G. (1994).Cooperation de classificateurs pour la verification automatique dessignatures. In 3eme Colloque National sur l’Ecrit et le Document, pages89–98, Rouen.

[Saranli and Demirekler, 2001] Saranli, A. and Demirekler, M. (2001). A sta-tistical unified framework for rank-based multiple classifier decision com-bination. Pattern Recognition, 34:865–884.

[Shafer, 1976] Shafer, G. (1976). A mathematical theory of evidence. Prin-ceton University Press.

266 Bibliographie

[Sharkey, 1999] Sharkey, A. (1999). Combining artificial neural nets: en-semble and modular multi-net systems. In Sharkey, A., editor, Springer-Verlag, pages 1–30.

[Sharkey and Sharkey, 1997a] Sharkey, A. and Sharkey, N. (1997a). Combi-ning diverse neural nets. The Knowledge Engineering Review, 12(3):231–247.

[Sharkey and Sharkey, 1997b] Sharkey, A. and Sharkey, N. (1997b). Diver-sity, selection, and ensembles of artificial neural nets. In Neural Networksand their applications, pages 205–212.

[Sharkey et al., 1996] Sharkey, A., Sharkey, N., and Chandroth, G. (1996).Diverse neural net solutions to a fault diagnosis problem. Neural Compu-ting and Applications, 4:218–227.

[Sharkey et al., 2000] Sharkey, A., Sharkey, N., Gerecke, U., and Chandroth,G. (2000). The ”test and select” approach to ensemble combination. InJ. Kittler, F. R., editor, 1st International Workshop, Multiple ClassifierSystems (MCS), Lecture Notes in Computer Science, volume 1857, pages30–44, Cagliari, Italy. Springer, Berlin.

[Skalak, 1996] Skalak, D. (1996). The sources of increased accuracy for twoproposed boosting algorithms. In American Association for Artificial In-telligence, AAAI-96, Integrating Multiple Learned Models Workshop.

[Skurichina, 2001] Skurichina, M. (2001). Stabilizing weak classifiers. PhDthesis, Delft University of Technology, Delft, The Netherlands.

[Skurichina and Duin, 1998] Skurichina, M. and Duin, R. (1998). Baggingfor linear classifiers. Pattern Recognition, 31(7):909–930.

[Skurichina and Duin, 2000a] Skurichina, M. and Duin, R. (2000a). Boostingin linear discriminant analysis. In J. Kittler, F. R., editor, InternationalWorkshop on Multiple Classifier Systems, MCS, volume 1857, pages 190–199.

[Skurichina and Duin, 2000b] Skurichina, M. and Duin, R. (2000b). The roleof combining rules in bagging and boosting. In Springer-verlag, B., editor,Advances in Pattern Recognition, Joint LAPR, volume 1876, pages 631–640.

[Skurichina et al., 2002] Skurichina, M., Kuncheva, L., and Duin, R. (2002).Bagging and boosting for the nearest mean classifier: effects of sample sizeon diversity and accuracy. In J. Kittler, F. R., editor, 3th InternationalWorkshop, Multiple Classifier Systems, LNCS, volume 2364, pages 62–71.

[Sneath and Sokal, 1973] Sneath, P. and Sokal, R. (1973). Numerical Taxo-nomy. W.H. Freeman, Co.

[Spearman, 1906] Spearman, C. (1906). A footrule for measuring correlation.British Journal Psychology, 2(89).

Bibliographie 267

[Srihari, 1982] Srihari, S. (1982). Reliability analysis of majority vote sys-tems. Information Sciences, 26:243–256.

[Srinvas and Patnaik, 1994] Srinvas, M. and Patnaik, L. (1994). Genetic al-gorithms: a survey. Computer, pages 17–26.

[Taniguchi and Tresp, 1997] Taniguchi, M. and Tresp, V. (1997). Averagingregularized estimators. Neural Computation, 9:1163–1178.

[Tax et al., 2000] Tax, D., Breukelen, V., Duin, R., and Kittler, J. (2000).Combining multiple classifiers by averaging or by multiplying? PatternRecognition, 33(9):1475–1485.

[Tax et al., 1997] Tax, D., Duin, R., and Breukelen, M. (1997). Comparisonbetween product and mean classifier combination rules. In InternationalWorkshop, Statistical Techniques in Pattern Recognition, pages 165–170,Prague, CR.

[Tresp and Taniguchi, 1995] Tresp, V. and Taniguchi, M. (1995). Combiningestimators using non-constant weighting functions. Advances in NeuralInformation Processing Systems, 7. (eds) G. Tesauro, D.S. Touretzeky,T.K. Leen, MIT Press, Cambridge, MA.

[Tsymbal et al., 2004] Tsymbal, A., Pechnizkiy, M., and Cunningham, P.(2004). Diversity in search strategies for ensemble feature selection. Infor-mation Fusion.

[Tsymbal et al., 2003] Tsymbal, A., Puuronen, S., and Patterson, D. (2003).Ensemble feature selection with the simple bayesian classification. Infor-mation Fusion, 4(2):87–100.

[Tumer and Ghosh, 1996a] Tumer, K. and Ghosh, J. (1996a). Analysis ofdecision boundaries in linearly combined neural classifiers. Pattern Recog-nition, 29(2):341–348.

[Tumer and Ghosh, 1996b] Tumer, K. and Ghosh, J. (1996b). Error cor-relation and error reduction in ensemble classifiers. Connection Science,8:385–404.

[Tumer and Ghosh, 1996c] Tumer, K. and Ghosh, J. (1996c). Estimating thebayes error rate through classifier combining. In International Conferencein Pattern Recognition, pages 695–699.

[Tumer and Ghosh, 1999] Tumer, K. and Ghosh, J. (1999). Linear and or-der statistics combiners for pattern classification. In Sharky, A., editor,Combining Artificial Neural Nets, Springe-Verlag, pages 127–161, London.

[Van-Erp and Schomaker, 2000] Van-Erp, M. and Schomaker, L. (2000). Va-riants of the borda count method for combining ranked classifier hypo-theses. In Schomaker, L. and Vuurpijl, L., editors, 7 th InternationalWorkshop on Frontiers in Handwriting Recognition, pages 443–452, Am-sterdam.

268 Bibliographie

[Van-Erp et al., 2002] Van-Erp, M., Vuurpijl, L., and Schomaker, L. (2002).An overview and comparison of voting methods for pattern recognition.In 8th International Workshop on Frontiers in Handwriting Recognition,pages 195–200, Niagara-on-the-Lake, Ontario.

[Verikas et al., 1999] Verikas, A., Lipnickas, A., Malmqvist, K., Bacauskiene,M., and Gelzinis, A. (1999). Soft combination of neural classifiers : a com-parative study. Pattern Recognition Letters, 20:429–444.

[Verma et al., 2001] Verma, B., Gader, P., and Chen, W. (2001). Fusion ofmultiple handwritten word recognition techniques. Pattern RecognitionLetters, 22(9):991–998.

[Vuurpijl and Schomaker, 1998] Vuurpijl, L. and Schomaker, L. (1998). Aframework for using multiple classifiers in a multiple agent architecture.In 3rd European International Workshop on Handwriting Analysis andRecognition, pages 1–6, Brussels, Belgium.

[Wang et al., 1998] Wang, D., Keller, J., Carson, C., McAdoo-Edwards, K.,and Bailey, C. (1998). Use of fuzzy-logic-inspired featues to improve bacte-rial recognition through classifier fusion. IEEE Transactions Systems ManCybernetics - Part B, 28(4):583–591.

[Wang et al., 2000] Wang, W., Jones, P., and Partridge, D. (2000). Diversitybetween neural networks and decision trees for building multiple classifiersystems. In J. Kittler, F. R., editor, Lecture Notes in Computer Science,1st International Workshop on Multiple Classifier Systems (MCS), volume1857, pages 240–249, Cagliari, Italy. Springer, Berlin.

[Waterhouse and Robinson, 1994] Waterhouse, S. and Robinson, A. (1994).Classification using hierarchical mixtures of experts. In IEEE Workshopon Neural Networks for Signal Processing IV, pages 177–186.

[Wenzel et al., 1998] Wenzel, C., Baumann, S., and Jager, T. (1998). Ad-vances in document classification by voting of competitive approaches. InIAPR Workshop on Document Analysis Systems II, pages 385–405.

[Wernecke, 1992] Wernecke, K. (1992). A coupling procedure for discrimina-tion of mixed data. Biometrics, 48:497–506.

[Wilkie, 1980] Wilkie, D. (1980). Pictorial representation of kendall’s, ra,kcorrelation coefficient. Teaching Statistics, 2:76–78.

[Wolpert, 1992] Wolpert, D. (1992). Stacked generalization. Neural Net-works, 5(2):241–260.

[Woods et al., 1997] Woods, K., Kegelmeyer, W., and Bowyer, K. (1997).Combination of multiple classifiers using local accuracy estimates. IEEETransactions on Pattern Analysis and Machine Intelligence, 19(4):405–410.

Bibliographie 269

[Xiao et al., 2000] Xiao, B., Wang, C., and Dai, R. (2000). Adaptive combi-nation of classifiers and its application to handwritten chinese charactersrecognition. In International Conference on Pattern Recognition (ICPR),volume 2, pages 2327–2330, Barcelona, Spain.

[Xu et al., 1992] Xu, L., Krzyzak, A., and Suen, C. (1992). Methods of com-bining multiple classifiers and their applications to handwriting recogni-tion. IEEE Transactions on Systems, Man, and Cybernetics, 22(3):418–435.

[Xu et al., 2002] Xu, Q., Kim, J., Lam, L., and Suen, C. (2002). Recognitionof handwritten month words on bank cheques. In Interntioanl Workshopin Frontiers Handwriting Recognition (IWFHR), pages 111–116.

[Yamayoka, 1994] Yamayoka, F. (1994). Integration of handwritten digitrecognition results using evidential reasoning. In International Workshopon Frontiers Handwritten Recognition, pages 456–463.

[Yu et al., 2000] Yu, K., Jiang, X., and Bunke, H. (2000). Combining acous-tic and visual classifiers for the recognition of spoken sentences. In In-ternational Conference in Pattern recognition, volume 2, pages 491–498,Barcelona.

[Yule, 1900] Yule, G. (1900). On the association of attributes in statistics.Phil. Trans., A, (194):257–319.

[Zenobi and Cunningham, 2001] Zenobi, G. and Cunningham, P. (2001).Using diversity in preparing ensembles of classifiers based on different fea-ture subsets to minimize generalization error. In Raedt, L. and Flach, P.,editors, 12th European Conference on Machine Learning, volume LNCS2167, pages 576–587.

[Zois and Anastassopoulos, 1999] Zois, E. and Anastassopoulos, V. (1999).Fusion of correlated decisions for writer verification. Pattern Recognition,32:1821–1823.

[Zouari et al., 2002a] Zouari, H., Heutte, L., Lecourtier, Y., and Alimi, A.(2002a). Un bref panorama de la combinaison de classifieurs en reconnais-sance de formes. In 2eme Journees Scientifiques des Jeunes chercheurs enGenie Electrique et Informatique, page 12, Hammamet, Tunisie.

[Zouari et al., 2002b] Zouari, H., Heutte, L., Lecourtier, Y., and Alimi, A.(2002b). Un panorama des methodes de combinaison de classifieurs enreconnaissance de formes. In Reconnaissance de Formes et IntelligenceArtificielle (RFIA), pages 499–508, 8-10 Janvier, Angers.

[Zouari et al., 2003a] Zouari, H., Heutte, L., Lecourtier, Y., and Alimi, A.(2003a). A new classifier simulator for evaluating parallel combinationmethods. In 7th International Conference on Document Analysis and Re-cognition, ICDAR, volume I, pages 26–30, Edinburgh, Scotland.

270 Bibliographie

[Zouari et al., 2003b] Zouari, H., Heutte, L., Lecourtier, Y., and Alimi, A.(2003b). Simulating classifier outputs for evaluating parallel combina-tion method. In Lecture Notes in Computer Science, 4th InternationalWorksho, Multiple Classifier Systems (MCS), volume 2709, pages 296–305,Guildford, UK.

[Zouari et al., 2004a] Zouari, H., Heutte, L., Lecourtier, Y., and Alimi, A.(2004a). Generating classifier outputs with fixed diversity for evaluatingvoting methods. In International Workshops on Structural, Syntactic,and Statistical Pattern Recognition (SSPR), Lecture Notes in ComputerSciences, volume 3138, pages 1001–1009, August, Lisbon, Portugal.

[Zouari et al., 2004b] Zouari, H., Heutte, L., Lecourtier, Y., and Alimi, A.(2004b). Simulating classifier ensembles of fixed diversity for studyingplurality voting performance. In 17th International conference on PatternRecognition (ICPR), pages 232–235, 23-26 august, Cambridge, UK.

[Zouari et al., 2004c] Zouari, H., Heutte, L., Lecourtier, Y., and Alimi, A.(2004c). Un simulateur de classifieur pour evaluer les methodes de combi-naison. In Reconnaissance de Formes et Intelligence Artificielle (RFIA),pages 1461–1470, 28-30 Janvier, Toulouse.

[Zouari et al., 2004d] Zouari, H., Heutte, L., Lecourtier, Y., and Alimi, A.(2004d). Using diversity measure in building classifier ensembles to exa-mine the effect of classifier agreement on the plurality voting performance.In Conference Internationale Sciences Electroniques, Technologies de l’In-formation et des Telecommunications (SETIT), 15-20 mars, Sousse, Tuni-sie.

contribution a l’ evaluation des m etho des de combinaison...

Documents