these lefort

164
N° d’ordre : 2010telb0164 Sous le sceau de l’Université européenne de Bretagne Télécom Bretagne En habilitation conjointe avec l’Université de Rennes 1 Co-tutelle avec l’Ifremer Ecole Doctorale – MATISSE Apprentissage et classification faiblement supervisée : Application en acoustique halieutique Thèse de Doctorat Mention : Traitement du signal Présentée par Riwal Lefort Département : Signal et Communication Laboratoire : Labsticc Pôle : CID Directeur de thèse : Jean-Marc Boucher Soutenue le 29 novembre 2010 Jury : M. Frédéric Jurie, professeur, université de Caen (Rapporteur) Mme Pascale Kuntz, professeur, université de Nantes (Rapporteur) M. Jean-Marc Boucher, professeur, Telecom Bretagne (Directeur de thèse) M. Laurent Miclet, professeur, université de Rennes1 (Examinateur) M. Ronan Fablet, enseignant-chercheur, Telecom Bretagne (Examinateur) M. Carla Scalabrin, chercheur, Ifemer (Examinateur) M. Laurent Berger, Ifremer (Invité)

Upload: fatmakarem

Post on 18-Dec-2014

577 views

Category:

Documents


0 download

DESCRIPTION

thèse lefort

TRANSCRIPT

Page 1: These lefort

N° d’ordre : 2010telb0164

SSoouuss llee sscceeaauu ddee ll ’’UUnniivveerrssii ttéé eeuurrooppééeennnnee ddee BBrreettaaggnnee

Télécom Bretagne

En habilitation conjointe avec l’Université de Ren nes 1

Co-tutelle avec l’Ifremer

Ecole Doctorale – MATISSE

Apprentissage et classification faiblement supervis ée : Application en acoustique halieutique

Thèse de Doctorat

Mention : Traitement du signal

Présentée par Riwal Lefort

Département : Signal et Communication

Laboratoire : Labsticc Pôle : CID

Directeur de thèse : Jean-Marc Boucher

Soutenue le 29 novembre 2010 Jury : M. Frédéric Jurie, professeur, université de Caen (Rapporteur) Mme Pascale Kuntz, professeur, université de Nantes (Rapporteur) M. Jean-Marc Boucher, professeur, Telecom Bretagne (Directeur de thèse) M. Laurent Miclet, professeur, université de Rennes1 (Examinateur) M. Ronan Fablet, enseignant-chercheur, Telecom Bretagne (Examinateur) M. Carla Scalabrin, chercheur, Ifemer (Examinateur) M. Laurent Berger, Ifremer (Invité)

Page 2: These lefort
Page 3: These lefort

Table des matières

Table des matières v

1 Introduction générale vii

I Classi�cation automatique et apprentissage faiblement su-pervisé xi

2 Les modèles de classi�cation usuels : état de l'art xiii

2.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . xiii

2.2 Classi�cation supervisée . . . . . . . . . . . . . . . . . . . . . . . . . . xiv

2.2.1 Modèle génératif . . . . . . . . . . . . . . . . . . . . . . . . . . xv

2.2.2 Modèle discriminant . . . . . . . . . . . . . . . . . . . . . . . . xvi

2.2.3 Modèle hybride : arbres de classi�cation . . . . . . . . . . . . . xix

2.3 Classi�cation non supervisée . . . . . . . . . . . . . . . . . . . . . . . . xxi

2.4 Classi�cation faiblement supervisée . . . . . . . . . . . . . . . . . . . . xxii

2.5 Classi�cation semi-supervisée . . . . . . . . . . . . . . . . . . . . . . . xxiii

2.6 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . xxvi

3 Classi�cation faiblement supervisée : modèles proposés xxvii

3.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . xxvii

3.1.1 Généralités . . . . . . . . . . . . . . . . . . . . . . . . . . . . . xxvii

3.1.2 Notations . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . xxviii

3.2 Modèle génératif . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . xxviii

3.2.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . xxviii

3.2.2 Classi�cation supervisée . . . . . . . . . . . . . . . . . . . . . . xxviii

3.2.3 Classi�cation faiblement supervisée . . . . . . . . . . . . . . . . xxx

3.3 Modèle discriminant . . . . . . . . . . . . . . . . . . . . . . . . . . . . xxxiii

Page 4: These lefort

iv TABLE DES MATIÈRES

3.3.1 Classi�cation supervisée . . . . . . . . . . . . . . . . . . . . . . xxxiv

3.3.2 Classi�cation faiblement supervisée . . . . . . . . . . . . . . . . xli

3.4 Arbres de classi�cation . . . . . . . . . . . . . . . . . . . . . . . . . . . xlii

3.4.1 Classi�cation supervisée . . . . . . . . . . . . . . . . . . . . . . xlii

3.4.2 Classi�cation faiblement supervisée . . . . . . . . . . . . . . . . xliv

3.5 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . xlv

4 Association de classi�eurs xlvii

4.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . xlvii

4.2 Ensemble de classi�eurs . . . . . . . . . . . . . . . . . . . . . . . . . . xlvii

4.2.1 Etat de l'art . . . . . . . . . . . . . . . . . . . . . . . . . . . . . xlviii

4.2.2 Random forest : apprentissage supervisé . . . . . . . . . . . . . xlix

4.2.3 Random forest : apprentissage faiblement supervisé . . . . . . . l

4.3 Classi�cation itérative . . . . . . . . . . . . . . . . . . . . . . . . . . . li

4.3.1 Apprentissage itératif simple . . . . . . . . . . . . . . . . . . . . li

4.3.2 Apprentissage itératif amélioré . . . . . . . . . . . . . . . . . . . lii

4.4 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . liii

5 Evaluations et performances des modèles lv

5.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . lv

5.2 Procédure de simulation . . . . . . . . . . . . . . . . . . . . . . . . . . lv

5.3 Jeux de données . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . lvi

5.4 Performances . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . lvii

5.4.1 Choix des paramètres . . . . . . . . . . . . . . . . . . . . . . . . lvii

5.4.2 Performances en fonction de la complexité des données d'appren-tissage . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . lix

5.4.3 Performances en fonction du nombre de classes dans les mélanges lx

5.5 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . lxiii

II Classi�cation automatique en acoustique halieutique lxvii

6 Sondeurs acoustiques et logiciels de traitement lxix

6.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . lxix

6.2 Sondeur monofaisceau . . . . . . . . . . . . . . . . . . . . . . . . . . . lxx

6.3 Sondeur multifaisceaux . . . . . . . . . . . . . . . . . . . . . . . . . . . lxxii

6.4 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . lxxiii

Page 5: These lefort

TABLE DES MATIÈRES v

7 Classi�cation et reconnaissance des structures lxxvii

7.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . lxxvii

7.2 Etat de l'art . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . lxxviii

7.3 Classi�cation et reconnaissance des bancs de poissons . . . . . . . . . . lxxix

7.3.1 Descripteurs des bancs 2D . . . . . . . . . . . . . . . . . . . . . lxxix

7.3.2 Descripteurs des bancs 3D . . . . . . . . . . . . . . . . . . . . . lxxx

7.3.3 Performances de classi�cation : Bancs 2D . . . . . . . . . . . . . lxxxiii

7.4 Classi�cation et reconnaissance des ensembles de bancs de poissons . . lxxxiv

7.4.1 Préambule . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . lxxxiv

7.4.2 Descripteur global proposé . . . . . . . . . . . . . . . . . . . . . lxxxv

7.4.3 Performances . . . . . . . . . . . . . . . . . . . . . . . . . . . . xc

7.4.4 Synthèse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . ci

7.5 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . cii

8 Application à l'évaluation des biomasses des espèces halieutiques dansle Golfe de Gascogne cv

8.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . cv

8.2 Méthode de l'expert pour l'évaluation de biomasses . . . . . . . . . . . cvi

8.3 Méthodes algorithmiques d'évaluation de biomasses . . . . . . . . . . . cix

8.4 Classi�cation de bancs de poissons pour l'évaluation de biomasses . . . cx

8.4.1 Comment évaluer la biommasse . . . . . . . . . . . . . . . . . . cx

8.4.2 Un critère d'optimisation des paramètres des classi�eurs . . . . cxii

8.5 Performances . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . cxiii

8.5.1 Simulation d'un scénario . . . . . . . . . . . . . . . . . . . . . . cxiii

8.5.2 Campagne PELGAS00 . . . . . . . . . . . . . . . . . . . . . . . cxiv

8.5.3 Discussion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . cxxi

8.6 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . cxxvi

9 Conclusion Générale cxxvii

III Annexes et Bibliographie cxxxiii

Page 6: These lefort
Page 7: These lefort

CHAPITRE1 Introduction générale

Cette thèse traite, d'une part, de la classi�cation automatique dans un cadre d'ap-prentissage faiblement supervisé, et d'autre part, de l'acoustique halieutique. Le ma-nuscrit est scindé en deux parties principales : les méthodes d'apprentissage d'un pointde vue théorique (partie I) et l'application de ces méthodes dans le contexte de l'acous-tique halieutique (partie II). Dans ce premier chapitre introductif, nous commençonspar dé�nir la problématique de l'intelligence arti�cielle dans son ensemble, puis, celle del'apprentissage faiblement supervisé, ensuite, nous introduisons le domaine de l'acous-tique halieutique, et en�n, le plan de cette thèse est présentée succinctement.

Dans l'ensemble des domaines de recherche, celui de l'intelligence arti�cielle estexcessivement proli�que. L'intelligence arti�cielle consiste à analyser et traiter des si-gnaux numériques, tels que des photographies, des vidéos, des sons, des radiographies,des échographies, des images radar (satellites, aéronautique, automobile, etc), des pagesweb, des documents manuscrits (analyse de la sémantique), ou encore, toute entité quise décrit de manière numérique.Les méthodes proposées s'inspirent souvent de l'homme, l'objectif étant de développerdes outils d'analyse et de traitement dont les performances sont au moins équivalentesà celles du cerveau humain. La question fondamentale est résumée dans l'exemple sui-vant : si l'homme arrive à di�érencier un objet d'un autre dans une image, pourquoi unordinateur n'y arriverait-il pas ? Cet acharnement scienti�que est principalement mo-tivé par le très fort potentiel des outils informatiques. Ainsi, l'importance de parvenirà ce but et qui justi�e que l'intelligence arti�cielle concentre une majorité de regardset d'intérêts, réside dans l'énorme capacité de calculs et de mémoires des ordinateurs.Le domaine de l'intelligence arti�cielle peut être scindé en une multitude de catégories.Parmi les disciplines communes, on peut citer le tracking (suivi des structures défor-mables ou indéformables dans une vidéo), la détection de texture dans des images, laclassi�cation (attribution d'une classe à une image, à une portion d'image, à un pixel,et à toute entité qui peut être classée dans une catégorie), la reconnaissance de formes(détection du contour d'un objet dans une image), la réduction de la dimension desdonnées (par exemple en compression de données), la fusion de données (la réponse àune question posée se base sur une observation multi-capteur et contextuelle), etc.En intelligence arti�cielle, les chercheurs proposent des modélisations mathématiquesplus ou moins complexes qui donnent la solution à une question posée. Ces modèlespeuvent être représentés par une boite noire dont l'entrée est le signal issu du capteuret dont la sortie fournit une réponse à la question posée. La plupart des modèles et

Page 8: These lefort

viii CHAPITRE 1. INTRODUCTION GÉNÉRALE

des approches proposés sont transverses : ils sont utilisés dans plusieurs disciplines enmême temps. Par exemple, le même modèle mathématique de suivi d'objet peut êtreutilisé pour suivre une cible dans une image radar ou pour suivre un objet dans unevidéo. De la même manière, un modèle mathématique peut servir à la fois, de classi-�eur d'objets dans des images, de classi�eur de types de sons, de classi�eur de pagesweb, de classi�eur de documents manuscrits, etc. Cette remarque justi�e le plan gé-néral de la thèse : plutôt que de proposer des méthodes de traitement du signal dansun cadre applicatif, nous nous plaçons d'abord dans le cas général qui autorise toutetransversalité, puis nous étudions une application possible des méthodes proposées.

Dans cette thèse, dans la partie I dédiée à l'approche théorique et générale, nousnous plaçons dans le cas de la classi�cation d'objets, ceux-ci étant des entités dé�niespar un ensemble de descripteurs, par exemple les caractéristiques des formes des ob-jets préalablement détectés dans une image. La question théorique principale que nousnous posons est : Comment ranger ces objets dans des classes ? Ou comment attribuerun label à chaque objet ? Nous dé�nissons un label comme étant la classe associée àun objet. Imaginons-nous une boite noire qui prend un objet sans label en entrée etdont la sortie renseigne sur les classes probables. Cette boite noire contient un modèlede classi�cation. Ceux-ci sont très nombreux et les approches sont très variables. Cesmodèles de classi�cations dépendent de paramètres (propres à chaque méthode) quisont déterminés lors d'une phase d'apprentissage. L'apprentissage des modèles de clas-si�cation est e�ectué à partir d'un ensemble d'objets (ou de données) d'apprentissagequi sont plus ou moins labélisés. En e�et, il existe plusieurs types d'apprentissage quidépendent de la connaissance plus ou moins exacte des labels des données d'apprentis-sage. Si tous les labels sont connus, on parle d'apprentissage supervisé. En apprentissagesemi-supervisé, seule une partie des données est labélisée, l'autre ne l'est pas. En ap-prentissage non supervisé, les données ne sont pas labélisées, l'objectif est de regrouperles objets en paquets de données similaires. En�n, l'apprentissage faiblement superviségénéralise le cas supervisé et semi-supervisé : les données d'apprentissage sont associéesà un vecteur dont chaque composante donne la probabilité a priori d'attribution del'objet considéré à chaque classe respectivement. L'originalité de cette partie se situedans ce formalisme d'apprentissage faiblement supervisé qui considère un modèle declassi�cation dont l'apprentissage agrège d'autres formes d'apprentissage.Comme nous l'avons présenté dans le paragraphe introductif, un grand nombre demodélisations mathématiques est envisagé pour chacun des types d'apprentissage. Cesgrandes familles de modèles sont transverses : le plus souvent, moyennant quelques re-formulations méthodologiques ou mathématiques, elles s'appliquent pour tous les typesd'apprentissage. Dans cette thèse, nous reprenons trois grandes familles de modèles : lesmodèles génératifs, les modèles discriminants, et des modèles hybrides de classi�cation.Notre objectif est de proposer, pour chacune des approches mathématiques envisagées,un modèle de classi�cation dont les paramètres sont évalués dans le cadre de l'appren-tissage faiblement supervisé, et donc, qui généralise toutes les formes d'apprentissage.Dans le domaine de la classi�cation d'objets, d'autres méthodes ont vu le jour. Celles-ci exploitent les modèles mathématiques fondamentaux précédemment décrits en lescombinant de plusieurs façons. Ainsi, ils peuvent être concaténés en cascade de classi-�eurs, les résultats de classi�cation issus de plusieurs classi�eurs peuvent être fusionnés

Page 9: These lefort

ix

pour prodiguer une seule proposition de classi�cation, l'estimation des paramètres d'unmodèle de classi�cation peut s'e�ectuer itérativement, etc. Une multitude d'approchesest envisageable pour e�ectuer une combinaison. Dans cette thèse nous abordons lesméthodes de combinaisons les plus connues et nous proposons des solutions pour l'ap-prentissage faiblement supervisé. Les performances de classi�cation des modèles etdes méthodes de combinaison proposés dans la partie I sont évaluées sur des jeux dedonnées d'apprentissage synthétiques dont nous maitrisons les probabilités a priori declassi�cation. Ce contrôle total des données d'apprentissage permet de comparer etd'analyser les di�érentes approches relativement à des conditions particulières.

Dans la partie II de cette thèse, nous étudions l'apprentissage statistique dansle cadre de l'acoustique halieutique. L'acoustique halieutique est largement étudiéepar l'Institut Français de Recherche pour l'Exploitation de la MER (IFREMER) quia �nancé en partie cette thèse, ce domaine scienti�que fait partie de la famille del'acoustique sous-marine. Parmi l'ensemble des énergies possibles (électrique, électro-magnétique, lumineuse, etc), seule l'énergie acoustique possède des caractéristiques depropagation adéquates dans le milieu sous-marin. Ainsi, dans l'environnement aqua-tique, l'acoustique est utilisée en télécommunication comme support de transmission,en géoscience pour l'étude des fonds marins et de leur sous-sols (les applications étant lasédimentologie, la bathymétrie et la prospection pétrolière), en océanographie physiquepour l'étude et la caractérisation des courants marins, et en biologie avec l'étude ducomportement des espèces sous-marines. Ce dernier point est traité dans cette thèse :l'observation acoustique des espèces halieutiques et l'analyse de ces observations.Un sondeur acoustique, placé sous la coque d'un navire, est le seul outil qui permetd'obtenir une image de résolution correcte, dans laquelle �gure le fond de la mer ettous les objets présents dans la colonne d'eau. Deux facteurs principaux motivent l'uti-lisation des sondeurs acoustiques en biologie halieutique. Premièrement, l'exploitationdes ressources halieutiques doit être encadrée a�n d'éviter tout problème de surexploi-tation et donc de disparition des espèces. Dans ce contexte, les sondeurs acoustiquespermettent de dimensionner les stocks des espèces concernées a�n de �xer des quotasde pêche. Notons qu'il existe d'autres moyens d'évaluation des stocks, comme l'échan-tillonnage en criées. Deuxièmement, d'un point de vue biologique, pour comprendre lefonctionnement de l'écosystème sous marin dans son ensemble, et ainsi l'étude de lavie sur terre, il est nécessaire d'étudier le comportement des espèces halieutiques et duplancton. Par exemple, on peut se demander comment vont se comporter les sardinesrelativement au réchau�ement climatique : vont-elles migrer ? Leur nombre va-t-il évo-luer ? Toutes ces questions nécessitent une observation acoustique de la colonne d'eau,seul moyen de déterminer la composition des océans.Ces observations acoustiques sont e�ectuées lors de campagnes océanographiques dontle protocole inclut un point crucial et critique : l'identi�cation des structures de l'imageacoustique. Actuellement, cette étape d'identi�cation est e�ectuée par un expert à par-tir des images acquises par un sondeur acoustique monofaisceau, cependant, il existeune forte demande d'automatisation du processus qui se justi�e par le fait que l'expertest confronté à une masse d'informations de plus en plus importante. Premièrement, ilexiste plusieurs types de sondeurs monofaisceau caractérisés par des fréquences d'im-pulsions acoustiques di�érentes, ce qui modi�e les morphologies des structures dans les

Page 10: These lefort

x CHAPITRE 1. INTRODUCTION GÉNÉRALE

images et leurs attributs énergétiques. Deuxièmement, l'arrivée du sondeur multifais-ceaux permet l'acquisition d'une image en trois dimensions de la colonne d'eau qui estbeaucoup plus précise et plus riche en informations, mais qui rend l'analyse des donnéesplus complexe. Ainsi l'expert est supposé considérer les informations cumulées de tousles types de sondeurs à la fois. Même si le cerveau humain est puissant et très perfor-mant, il possède ses limites, et l'analyse conjuguée de l'ensemble de ces informationsest complexe. Cette application illustre le transfert homme/machine qui a été décritdans le paragraphe précédent et justi�e l'automatisation du processus d'identi�cationdes structures dans les images acoustiques.Dans ce contexte de classi�cation d'images et/ou de structures dans des images acous-tiques, nous proposerons des méthodes d'apprentissage de modèles de classi�cationpour l'acoustique halieutique, nous proposerons aussi des descripteurs d'agrégation depoissons dans les échogrammes, et une application à l'évaluation des stocks de poissonsdu Golfe de Gascogne sera présentée.

Ce mémoire de thèse est organisé en deux grandes parties (les parties I et II quisont elles-mêmes scindées en plusieurs chapitres). Premièrement, la partie I traite duproblème de la classi�cation automatique d'objets dans le cadre de l'apprentissage fai-blement supervisé. Après un état de l'art général sur les méthodes de classi�cation(chapitre 2), trois modèles de classi�cation dont les philosophies sont opposées serontétudiés dans le chapitre 3. Le chapitre suivant (chapitre 4) concentre des méthodes decombinaisons de classi�eurs élémentaires et de fusion de classi�eurs. En�n, des expé-riences sont menées dans le chapitre 5 a�n d'analyser et de comparer les performancesde classi�cation des modèles et des méthodes proposées. Toutes ces expériences sonte�ectuées à partir de jeux de données synthétiques qui nous permettent de maîtriserles complexités des ensembles d'apprentissage. Deuxièmement, la partie II traite dedonnées qui proviennent essentiellement de l'acoustique halieutique. Dans le chapitre6, les caractéristiques techniques des sondeurs acoustiques sont présentées brièvement,ainsi que la technique d'obtention des images de la colonne d'eau. Les descripteurs desagrégations sont étudiés dans le chapitre 7. Deux types d'analyses sont envisagés : uneanalyse locale qui consiste en l'emploi des descripteurs des bancs de poissons et uneanalyse globale pour laquelle nous calculons des descripteurs globaux pour une imagede bancs de poissons. En�n, une application à l'évaluation des stocks de poissons dansle Golfe de Gascogne est e�ectuée (chapitre 8). Nous en pro�tons pour appliquer lesméthodes d'apprentissage faiblement supervisé proposées dans la partie I du mémoireet pour utiliser les descripteurs de bancs de poissons présentés dans la partie II. Uneconclusion générale (chapitre 9) et une partie qui contient les annexes et la bibliographie(partie III) clos ce mémoire de thèse.

Page 11: These lefort

Première partie

Classi�cation automatique et

apprentissage faiblement supervisé

Page 12: These lefort
Page 13: These lefort

CHAPITRE2 Les modèles de

classi�cation usuels : état

de l'art

2.1 Introduction

Le chapitre 1 est consacré à l'état de l'art des modèles de classi�cation usuels.Les méthodes existantes sont présentées succinctement, l'objectif n'étant pas de toutexpliciter en détail mais de faire état des connaissances existantes en classi�cationd'objets a�n de situer les apports méthodologiques.

La problématique porte sur l'apprentissage statistique et la classi�cation automa-tique probabiliste d'un ensemble d'objets. Un modèle de classi�cation est un outilmathématique qui permet d'a�ecter une classe à une entité en fonction de ses pro-priétés intrinsèques. L'approche étudiée dans ce mémoire est purement probabiliste :chaque objet appartient à une classe et nous manipulons des vecteurs qui traduisentles probabilités d'a�ectation à chaque classe. Notons que, comme notre approche estprobabiliste, et, comme nos connaissances initiales sur les données d'apprentissage sontdes probabilités de classi�cation a priori, nous n'étudierons pas des méthodes plus gé-nérales comme la théorie de Dempster-Shafer [1] qui combine des connaissances a prioridistinctes sur les données d'apprentissage.

En classi�cation automatique, on distingue les données d'apprentissage qui éta-blissent le modèle de classi�cation, et les données de test qui sont classées à l'aidedu modèle. Pour apprendre un modèle de classi�cation, il existe plusieurs types d'ap-proches qui dépendent de la nature des données d'apprentissage. Si les classes d'originedes données d'apprentissage sont connues, nous parlons d'apprentissage " supervisé ".Nous parlons d'apprentissage " non supervisé " (ou de partitionnement de données)dans le cas où les classes d'origine ne sont pas connues. Un troisième groupe rassembleles cas pour lesquels il existe une incertitude sur le label des données d'apprentissage,par exemples, le cas où seuls les a priori des classes sont connus, ou le cas de la classi�-cation d'objets dans des images pour lesquelles la présence et l'absence des classes sontconnues [2]. Dans ce cas, nous parlons d'apprentissage " faiblement supervisé " ou d'ap-prentissage " partiellement supervisé ". L'apprentissage " semi-supervisé " est utiliséquand il y a peu de données labélisées [3]. Des exemples sans label sont alors ajoutésà l'ensemble d'apprentissage qui ne contient que des exemples de classes connues dans

Page 14: These lefort

xivCHAPITRE 2. LES MODÈLES DE CLASSIFICATION USUELS : ÉTAT DE

L'ART

le but d'accroître la quantité d'informations.

L'apprentissage faiblement supervisé généralise les cas supervisés et semi-supervisés.Le principe de l'apprentissage faiblement supervisé est d'attribuer, à chaque exempled'apprentissage, un vecteur qui indique les probabilités a priori d'a�ectation à chaqueclasse. Par exemple, en considérant 12 objets pour l'apprentissage et 3 classes possibles,alors les vecteurs qui fournissent les probabilités d'a�ectation pourraient être :(

0.40.60

)(100

)(0.10.10.8

)(0

0.50.5

)(010

)(0.330.330.33

)(0.20.50.3

)(0.40.30.3

)(001

)(0.20.6.2

)(0.40.50.1

)(001

)(2.1)

En apprentissage supervisé, les probabilités d'a�ectation pourraient être :(100

)(100

)(100

)(100

)(010

)(010

)(010

)(010

)(001

)(001

)(001

)(001

)(2.2)

En apprentissage semi-supervisé, les probabilités d'a�ectation pourraient être :(100

)(100

)(010

)(010

)(001

)(001

)(0.330.330.33

)(0.330.330.33

)(0.330.330.33

)(0.330.330.33

)(0.330.330.33

)(0.330.330.33

)(2.3)

Pour la classi�cation semi-supervisée, les exemples initialement sans label peuvent êtreconsidérés comme labélisés à l'aide d'un vecteur qui traduit le fait que les classes sontéquiprobables. Ainsi, les composantes du vecteur, qui donnent la probabilité des classes,sont égales. L'apprentissage semi-supervisé peut aussi être vu comme un cas d'appren-tissage faiblement supervisé pour lequel on aurait e�ectué un seuillage sur les a priori(si les probabilités de classi�cation a priori sont similaires pour un objet d'apprentis-sage, alors les classes sont considérées comme équiprobables, et si une probabilité declassi�cation a priori domine dans l'ensemble, alors la classe considérée est attribuéeà l'exemple concerné). En�n, en apprentissage non supervisé, le nombre de classe estinconnu et aucun label n'est disponible.

Il va de soit que la complexité des modèles d'apprentissage augmente avec l'incer-titude sur les labels. Cependant, un algorithme complexe ou un apprentissage à partird'un jeu de données très incertains n'engendre pas nécessairement de mauvaises per-formances de classi�cation. Par exemple, dans certains cas, on montre que l'ajout dedonnées sans label au jeu de donnée d'apprentissage (apprentissage semi-supervisé [3])permet d'améliorer les performances de classi�cation.

Pour l'apprentissage supervisé, l'apprentissage non supervisé, l'apprentissage fai-blement supervisé, et l'apprentissage semi-supervisé, respectivement étudiés dans lessections 2.2, 2.3, 2.4, et 2.5, nous explicitons les modèles de classi�cation associés etcaractérisons leurs di�érences. Chaque méthode présentée est classée dans une desgrandes familles de modèles, à savoir les modèles génératifs, les modèles discriminantset les modèles hybrides que nous dé�nirons dans la section 2.2.

2.2 Classi�cation supervisée

Rappelons que l'apprentissage supervisé consiste à établir un modèle de classi�ca-tion, à partir d'un ensemble d'apprentissage constitué de données dont les classes sontparfaitement connues.

Page 15: These lefort

2.2. CLASSIFICATION SUPERVISÉE xv

2.2.1 Modèle génératif

Prenons la dé�nition du mot " génératif " : " Qui engendre, qui a rapport à lagénération " (Centre National de Ressource Textuelles et Lexicales). Dans ce cas, lemodèle est proche des données. Si la loi considérée (Normale, Bêta, Gamma, mélangede Gaussienne, exponentielle, Poisson, . . . ) pour le modèle de classi�cation est conve-nablement choisie, la seule connaissance du modèle peut permettre de reconstituer unensemble d'observations possibles. Ainsi, pour le modèle génératif, le classi�eur estune fonction mathématique qui décrit au mieux l'organisation spatiale des donnéesdans l'espace des descripteurs. Par exemple, si un jeu de données forme un ensemblede boules dans l'espace des attributs, nous pouvons modéliser le nuage de points parun mélange de Gaussiennes. L'objectif de l'apprentissage étant alors de déterminer lespositions (moyennes) et les tailles (variances) de chaque mode. Plus généralement, l'ap-prentissage consiste à estimer les paramètres d'une loi cible et, pour la classi�cation,la probabilité a posteriori donne les probabilités de chaque classe.

Ayant choisi une densité de probabilité cible paramétrique, une technique connueconsiste à utiliser le maximum de vraisemblance (MV) pour estimer les paramètres [4][5] [6] [7] [8] [9] [10] [11] [12] [13]. Les paramètres optimaux sont ceux qui maximisentla vraisemblance. Le cas multimodal fait que la maximisation est très complexe, dansce cas, on utilise un autre estimateur du maximum de vraisemblance : l'algorithme "Expectation Maximization " (EM) [14] [15] [16]. Cette méthode générative permet detrouver le maximum de vraisemblance des paramètres d'un modèle probabiliste lorsquele modèle dépend de variables latentes non observables (les proportions des modes dumélange). Plutôt que de trouver le jeu de paramètres du modèle qui maximise la vrai-semblance, l'espérance de la log-vraisemblance complétée par la variable cachée estmaximisée conditionnellement à un jeu de paramètres initial. Cela conduit au calculitératif de cette espérance (étape E) et des paramètres qui maximisent cette espérance(étape M). La procédure est détaillée dans la section 3.2 du chapitre 3 et dans letableau 3.1. La version stochastique de l'algorithme [17], appelée algorithme SEM, pré-vient des maximums locaux de vraisemblance. D'autres améliorations de l'algorithmeportent sur la rapidité de convergence de l'algorithme [18] [19]. Dans l'algorithme "Expectation Conditional Maximization " (ECM) [20], l'étape M est remplacée par uneétape de maximisation conditionnelle des paramètres. Chaque paramètre est maximiséindividuellement conditionnellement aux autres qui sont �xés. Basé sur le même prin-cipe que l'algorithme ECM, l'algorithme EM " généralisé " (GEM) [14] [15] [16] estune alternative employée quand l'étape M est di�cilement réalisable, notamment sile calcul des dérivées premières est di�cile. Dans ce cas, les paramètres ne sont pasceux qui maximisent l'espérance de la log-vraisemblance, mais n'importe quel jeu deparamètres tel que cette espérance soit supérieure à celle de l'itération précédente.

Malgré des performances assez moyennes, le classi�eur bayésien naïf [21] [22] [23] estsouvent utilisé pour comparer des méthodes de classi�cation entre elles, expérimenterles ensembles de classi�eurs [24] ou les processus itératifs [25] (chapitre 4). S'appuyantsur le théorème de Bayes, les prédictions de toutes les hypothèses sont pondérées parles probabilités a priori. L'autre particularité est de supposer l'indépendance entre lesdescripteurs. Ainsi, la méthode du Maximum de Vraisemblance peut être employée

Page 16: These lefort

xviCHAPITRE 2. LES MODÈLES DE CLASSIFICATION USUELS : ÉTAT DE

L'ART

pour estimer les paramètres d'une loi liée à chaque descripteur indépendamment [26].Cette dépendance est restreinte par le classi�eur AODE (" Average One-DependenceEstimator " en anglais) [27] qui choisit un seul descripteur dont il estime la dépendanceavec les autres. Les performances sont alors accrues par rapport au classi�eur bayésiennaïf.

L' " Allocation de Dirichlet Latente " (LDA) [28] est une nouvelle technique issuede l' " Analyse Sémentique Latente Probabiliste " (PLSA) [29]. Contrairement à la mé-thode LDA, la méthode PLSA est limitée par son impossibilité à générer de nouveauxexemples, cela va à l'encontre du principe des modèles génératifs. Ces procédures sontutilisées en classi�cation de documents qui sont classés par " concept " (un documentpouvant être associé à plusieurs concepts). La technique est basée sur la corrélationentre les termes des documents, les documents et les concepts. La probabilité des docu-ments et des termes qui les composent est fonction d'un mélange de lois (probabilité desconcepts, probabilité de chaque terme relativement à chaque concept, et probabilité dechaque document relativement à chaque concept). L'inférence bayésienne, qui permetde déduire chacune des distributions et la distribution a posteriori, peut être e�ectuéepar approche variationnelle [28], à l'aide d'un échantillonnage de Gibbs [30], ou parpropagation de l'espérance (" Expectation Propagation " en anglais) [31]. Le forma-lisme mathématique se rapproche fortement des modèles de mélange, cependant, enclassi�cation de documents cette technique trouve de nombreux adeptes étant donnéeque les observations (les documents) sont projetées dans une base particulière qui cor-respond au dictionnaire des concepts. Une analogie avec la classi�cation d'objets peutêtre réalisée si les objets sont contenus dans des images associées à plusieurs classes.

Ces modèles génératifs ont le défaut qu'ils nécessitent la connaissance de la loi cible.En pratique, une sélection subjective de lois est e�ectuée, puis un critère de sélectionpermet de retenir la loi la mieux adaptée [32]. Le critère le plus utilisé est la validationcroisée [33] (évaluations et statistiques des erreurs sur plusieurs expériences), maisd'autres critères existent comme le " Critère d'Information d'Akaike " (AIC) [34] ou le" Critère d'Information bayésien " (BIC) [35].

2.2.2 Modèle discriminant

L'approche di�ère pour le modèle discriminant. La dé�nition de l'adjectif " discri-minant " est : " Qui établit ou permet d'établir une distinction entre des éléments" (Centre National de Ressource Textuelles et Lexicales). Ainsi, dans le cadre de laclassi�cation automatique d'objets, le modèle vise exclusivement à la di�érenciationdes classes entre elles. Un tel modèle ne dépend pas de l'organisation intrinsèque desdonnées. Seules la manière et la capacité à di�érencier les classes comptent. La ma-jorité des méthodes discriminantes est basées sur le principe du calcul des coe�cientsdes hyperplans qui séparent les classes entre elles. L'espace des attributs étant scindépar les hyperplans, il su�t de déterminer de quelle côté de l'hyperplan se situe unexemple pour connaître sa classe. Après un bref inventaire de ces méthodes (" l'Ana-lyse Discriminante de Fisher, les SVM, la régression logistique, . . . ), nous évoqueronsdes modèles discriminants plus singuliers comme les réseaux de neurones et les " k plusproches voisins ".

Page 17: These lefort

2.2. CLASSIFICATION SUPERVISÉE xvii

L' " Analyse Discriminante de Fisher " [36] [37] [38] (ou LDA pour " Linear Discri-minant Analysis ") fait partie des méthodes populaires. Basée sur un critère statistiquedu second ordre, cette technique, optimale dans le cas Gaussien, part du principe que lesmoments du second ordre sont identiques d'un groupe à l'autre. La procédure consisteà trouver les coe�cients de l'hyperplan qui maximisent le rapport entre la varianceinter classe et la variance intra classe. La méthode est détaillée dans la section 3.3.1du chapitre 3.

Un autre modèle très célèbre est la méthode des SVM (" Support Vector Machine") [39] [40] qui est détaillée dans la section 3.3.1 du chapitre 3. Elle résulte de lacombinaison de deux approches : l'idée de maximiser les marges (distance entre l'hy-perplan séparateur et l'exemple le plus proche) [41] [42] et l'idée des fonctions noyaux[43] [44] qui déforment l'espace des descripteurs et permettent de passer des cas nonlinéairement séparables aux cas linéairement séparables. Il existe une méthode dite des" marges souples " qui tolère une certaine quantité d'erreurs lors de la recherche del'hyperplan optimal et qui permet de résoudre les cas de recouvrement entre classes[45] [46].

Parmi les méthodes de régression, la " régression logistique " [47] [48] [49] [50] sedistingue par le fait que la variable à prédire est une classe, i.e. une valeur discrèteet non une valeur continue comme en régression linéaire. Dans le cas de deux classes,l'équation de l'hyperplan séparateur s'exprime en fonction du logarithme du rapport desprobabilités a posteriori des observations. Di�érentes méthodes comme l'algorithme dumaximum de vraisemblance [48] peuvent alors être utilisées pour estimer les coe�cientsde l'hyperplan séparateur. Cette méthode a pour avantage de ne pas être paramétriqueet de modéliser directement une probabilité. En revanche, elle ne s'applique qu'auxdonnées sans valeur manquantes et elle est sensible aux individus hors norme.

Ces trois méthodes (LDA, SVM, régression logistique) sont développées dans lecas binaire, i.e. seulement deux classes sont considérées. Comment faire dans le casde plusieurs classes ? Deux principales approches existent. La méthode " one-versus-all" consiste à attribuer un classi�eur à chaque classe (le classi�eur discrimine la classeconsidérée de toutes les autres). La classe attribuée à un exemple test est la plus pro-bable au sens des classi�eurs. L'autre méthode, appelée " one-versus-one ", consisteà établir un classi�eur pour chaque couple de classes possible. La phase de test étantsimilaire à la méthode one-versus-all. Dans [51], le cas des classes non majoritairesest traité, i.e. le cas où après la classi�cation de l'exemple test, plusieurs classes sontéquiprobables. Une méthode [52] propose de résoudre le problème en s'appuyant surles techniques employées pour les codes correcteurs d'erreurs. Une autre propose l'uti-lisation des SVM dans le cas multi-classes en changeant le critère d'optimisation en uncritère matriciel [53].

Une majorité de méthodes de classi�cation basées sur les fonctions noyaux est pré-sentée dans le livre " Learning with Kernel " [46]. La méthode K-pca (" Kernel PrincipalComponent Analysis ") [54] [55] y �gure notamment. Cette technique n'est pas un mo-dèle de classi�cation à part entière, mais un moyen d'améliorer les performances declassi�cation des modèles linéaires déjà existant. L'idée est simple : en associant lesfonctions noyaux avec une " analyse en composante principale " (PCA) [56], l'espacedes descripteurs est transformé tel que des groupes non linéairement séparables dans

Page 18: These lefort

xviiiCHAPITRE 2. LES MODÈLES DE CLASSIFICATION USUELS : ÉTAT DE

L'ART

l'espace de départ puissent le devenir dans l'espace d'arrivée. Dès que l'on dispose d'unclassi�eur discriminant linéaire, à l'instar du modèle LDA, de la régression logistique,ou de n'importe quel classi�eur à maximum de marge, alors la méthode K-pca peut êtreappliquée en amont et permet ainsi de passer d'un classi�eur linéaire à un classi�eurnon linéaire. Les détails de la méthode sont donnés dans la section 3.3.1 du chapitre 3.

Les premiers réseaux de neurones accomplis (on parle alors de réseaux multicouches) [57] [58] [59] sont apparus à partir de 1985 et sont utilisés depuis en clas-si�cation automatique d'objets. Un neurone prend en entrée les sorties des neuronesprécédents. La sortie est une fonction, appelée " fonction d'activation ", d'une combi-naison linéaire des entrées. Plusieurs neurones peuvent être mis en parallèle et plusieurscouches de neurones peuvent être considérées. Une caractéristique importante d'un ré-seau de neurones est le compromis entre la complexité de son architecture, dé�nie parle nombre de couches et le nombre de neurones par couche, et entre sa capacité d'ap-prentissage qui est liée au sur apprentissage. Notons que les réseaux de neurones sontsujets aux sur apprentissages, il est alors nécessaire de supprimer des connexions (al-gorithme " optimal brain damage" [60] ou algorithme " optimal brain surgeon " [61]).Une fois que l'architecture du réseau est choisie, l'apprentissage consiste à trouver lesvaleurs des poids de la combinaison linéaire des entrées de chaque neurone. Pour cela,une minimisation de la fonction de coût (souvent l'erreur quadratique), qui déterminel'objectif à atteindre, est e�ectuée. La di�érence entre les méthodes proposées portesur le choix de la fonction coût, sur la manière de minimiser cette fonction, sur le choixde l'architecture du réseau ou sur le choix de la fonction d'activation. Par exemple,dans [58], une descente de gradient est e�ectuée, l'originalité étant la façon de calculerle gradient de la fonction de coût. Notons que l'analyse discriminante de Fisher ou lesSVM linéaires sont des réseaux de neurones à un seul neurone dont les poids a�ectés àchaque entrée correspondent aux coe�cients de l'hyperplan séparateur.

La méthode des " K plus proches voisins " [62] di�ère des autres modèles discrimi-nants par l'absence d'hyperplans séparateurs, l'unique idée génératrice reste cependantd'a�ecter une classe à un individu inconnu. La procédure est très simple : il faut trou-ver, dans l'ensemble d'apprentissage, la classe majoritaire parmi les K plus prochesvoisins de l'exemple à classer. Cela passe par la dé�nition d'une distance entre objets[63], qui dépend de la nature des descripteurs de l'objet. Par exemple, une distance eu-clidienne peut convenir pour des descripteurs prenant leur valeur dans l'ensemble desréels, mais dans le cas de descripteurs formés de densités de probabilité une distancede Bhattacharyya [64] ou de Kullback-Leibler [65] est préférable. La di�culté se trouvedans la procédure de recherche des plus proches voisins, notamment si l'ensemble d'ap-prentissage est volumineux, entraînant des longueurs dans le temps de calcul. Pourcela des algorithmes de recherche ont été développés [66] [67], leur principe étant destocker les exemples proches en distance et de procéder par regroupement hiérarchiquedes données.

Parmi les méthodes discriminantes, la méthode SVM est celle qui remporte le plusfranc succès dans le domaine de la vision par ordinateur. Cela est principalement dûau fait que le modèle de classi�cation est non linéaire, produisant de très bonnes per-formances de classi�cation pour la plupart des expériences. Cependant, les SVM sontdépendants d'un grand nombre de paramètres liés à la souplesse des marges, la dy-

Page 19: These lefort

2.2. CLASSIFICATION SUPERVISÉE xix

namique de probabilisation, et le choix du noyau, par conséquent, certains domainesscienti�ques préfèrent l'emploi de modèles plus autonomes comme les régressions lo-gistiques (c'est le cas des études statistiques dans le domaine bancaire, dans celui desassurances ou des sondages, et en médecine).

2.2.3 Modèle hybride : arbres de classi�cation

Des modèles hybrides existent. Leur démarche s'appuie à la fois sur les approchesgénératives et discriminantes. Parmi eux, on trouve les modèles basés sur les arbresde classi�cation (ou de décision). Premièrement, la méthode est fondée sur un échan-tillonnage de l'espace des attributs à l'aide d'hyper volumes d'échantillonnage de tailledi�érente et de dimension �nie ou in�nie. L'échantillonnage décrit l'occupation de l'en-vironnement et dépend directement de la forme des nuages de points des di�érentesclasses. Ajoutons que, comme pour un histogramme, le nombre d'individus est connudans chaque volume d'échantillonnage, ce qui autorise la génération aléatoirement desdonnées dans ces volumes élémentaires. Ceci permet de nous positionner dans le casgénératif. Deuxièmement, les volumes échantillonnés sont obtenus par discriminationssuccessives de sous ensembles de données, le principe étant de scinder un volume del'espace en deux parties homogènes en classe. Cette scission n'a qu'un seul objectif :séparer les classes entre elles. Cela nous positionne dans le cas discriminant.

Un arbre de classi�cation comporte des noeuds qui sont associés à des règles dedécision. La totalité forme un ensemble de chemins qui partent du noeud principal versles noeuds terminaux auxquels sont attribués des classes. Un noeud donné renvoie versdes noeuds �ls en fonction de la règle de décision �xée. Ce même noeud est engendrépar un noeud parent. Le principe de construction d'un arbre repose sur la scissiond'un groupe d'exemples pour un descripteur donné. Au noeud considéré, la meilleureassociation entre un descripteur et une valeur de coupure, est celle qui maximise le gaind'information. Autrement dit, la scission doit donner des groupes qui sont homogènesen classes. En pratique, chaque valeur de coupure est testée pour chaque descripteur,puis le couple formé par le descripteur et la valeur de coupure qui maximise le gaind'information est retenu et associé au noeud considéré. Un noeud est choisi commeétant un noeud �nal si son niveau d' " impureté " est faible, i.e. si une classe dominelargement. Une fois l'arbre construit, un exemple test parcourt l'arbre jusqu'au noeudterminal qui dé�nit la classe attribuée. Le formalisme et les détails mathématiquessont présentés dans la section 3.4.1 du chapitre 3 pour le cas usuel de l'apprentissagesupervisé.

Les méthodes connues di�èrent par le choix du critère de gain d'information. Cer-tains cherchent à maximiser le critère de Gini [68] (méthode CART : " Classi�cationAnd Regression Trees "), d'autres préconisent l'entropie de Shannon [69] [70] (méthodeID3 et C4.5), et certaines méthodes proposent d'utiliser un test statistique fondé surla loi du χ2 (méthode CHAID [71] : " CHi-square Automatic Interaction Detection "et méthode QUEST [72] : " Quick, Unbiased, E�cient, Statistical Tree "). La méthodeQUEST permet de construire un arbre de décision plus rapidement. Dans QUEST,le meilleur descripteur est d'abord choisi en combinant une analyse de la variance ("ANOVA ") avec le test du χ2 ou le test de Levene [73] (en fonction de la nature dis-

Page 20: These lefort

xxCHAPITRE 2. LES MODÈLES DE CLASSIFICATION USUELS : ÉTAT DE

L'ART

crète ou continue du descripteur. Notons que C4.5 est une évolution directe de ID3, lesaméliorations portant sur la gestion des données numériques, sur la prise en comptedes données manquantes et sur la rapidité d'exécution.

Plutôt que de chercher la valeur de coupure sur chaque descripteur indépendam-ment, des méthodes proposent des critères de " séparation obliques " [74] qui s'appuientsur un modèle de classi�cation à plusieurs descripteurs. Le modèle choisi peut être detype SVM [75] [76] ou s'appuyer sur l'analyse discriminante linéaire de Fisher [77].

Quelques papiers abordent les arbres de classi�cation dans le cadre de la logique" �oue ". Par exemple, un arbre est construit à l'aide de la méthode CART, puis desrègles de décisions �oues sont élaborées à partir des frontières des échantillons d'hypervolumes [78]. Le même procédé est employé pour l'algorithme ID3 [79]. Pour d'autresexemples [80], la logique �oue intervient dans le calcul des valeurs de coupure. Plutôtque d'avoir une scission nette et précise, la frontière est incertaine telle que le degréd'appartenance à un groupe dépend de la distance entre l'exemple considéré et la valeurde coupure considérée. Les règles de décision sont alors directement liées à l'applicationconsidérée [81].

L'un des défauts majeurs des arbres de classi�cation est leur disposition à ne consi-dérer que les classes majoritairement représentées dans l'ensemble d'apprentissage. Parexemple, la méthode CART privilégie les classes dominantes d'un jeu de données dis-tribuées inégalement [82]. Si le modèle d'une classe sous-représentée est mal évalué,alors cette classe est souvent classée parmi la classe majoritaire de l'ensemble d'ap-prentissage. Pour remédier à ce problème, le critère de scission peut être amélioréen choisissant, par exemple, une entropie décentrée [83], ou en e�ectuant, soit un sur-échantillonnage de l'ensemble sous-représenté [84], soit un sous-échantillonnage de l'en-semble sur-représenté [85].

Des travaux [68] ont montré qu'après construction, il est souvent nécessaire d'élaguerl'arbre. En e�et, lors de l'apprentissage, une contrainte permet de déterminer si unnoeud est raisonnablement homogène (si tel est le cas, alors le noeud est un noeudterminal). Dans le cas où cette contrainte est trop forte et qu'il y a du recouvremententre classes, certains volumes élémentaires sont insigni�ants et n'impliquent qu'unseul exemple. Dans ce cas, il apparaît des phénomènes de sur-apprentissage et de sur-échantillonnage de l'espace des descripteurs. Ceux-ci sont résolus grâce à l'élagage. Ilexiste deux grandes familles de méthodes [86] [87] : soit l'arbre obtenu est simpli�éen coupant toutes les branches d'un noeud, soit un noeud est remplacé par l'un dessous-arbres qui en descend, les exemples des sous-arbres disparus étant reclassés.

Il est généralement admis qu'aucune de ces propositions (choix du critère de scis-sion, arbres obliques, logique �oue, élagage . . . ) ne devance une autre de manière sys-tématique en termes de performance de classi�cation. Cela dépend du jeu de donnéesemployé, de la nature discrète ou continue des variables, de l'organisation intrinsèquedes classes dans l'espace des descripteurs, du fait d'être en grande dimension ou non,de la taille de l'ensemble d'apprentissage, de la distribution des classes . . .

Page 21: These lefort

2.3. CLASSIFICATION NON SUPERVISÉE xxi

2.3 Classi�cation non supervisée

En apprentissage non supervisé, seules les valeurs données par les descripteurs sontobservables. Les exemples ne disposent d'aucun étiquetage et le nombre de classes estinconnu. Cela constitue les principales interrogations : combien y a-t-il de classes ? Et,en supposant le nombre de classes �xé, comment établir un classi�eur ?

La première question trouve peu de réponse. Le nombre de classes réellement obser-vées est di�cilement déterminable sans informations a priori et il dépend de l'applica-tion considérée. La di�culté se résume dans le problème suivant : comment di�érencierle cas de plusieurs regroupements de données qui correspondent à plusieurs classes etle cas de regroupements qui correspondent à des modes d'une seule classe. Sans au-cune information a priori ou contextuelle, cela semble impossible. En revanche, descritères de qualité mesurent la pertinence du choix du nombre de classes [88]. Parmices critères, certains s'appuient sur l'indice BIC (" Bayesian Information Criterion ")[35] ou sur le critère AIC (" Akaike's Information Criterion ") [89], ou encore sur descritères statistiques de distances [90] [91] . . . En�n, d'autres méthodes sont basées surle principe de la validation croisée [92].

La deuxième question trouve beaucoup de solutions. Les premiers travaux [93] [94]en regroupement non supervisé de données conduisent à des méthodes de classi�cationhiérarchiques. Le principe est de considérer la partition à une seule classe qui comprendtoutes les observations jusqu'à la partition où chaque observation est une classe. Entresles deux extrémités, l'utilisateur doit choisir la partition la plus réaliste. Pour cela, lescritères de qualité qui mesurent la pertinence du choix du nombre de classes sont utilisés[88] [35] [89] [90] [91]. Ce type de classi�cation hiérarchique est similaire aux arbres declassi�cations. Breiman [95] propose une méthode d'apprentissage non supervisé pourles arbres de classi�cation. L'idée est originale : partant d'un ensemble de points sanslabel qui constitue la première classe, une seconde classe est créée arti�ciellement surla base d'un tirage aléatoire des descripteurs de la première classe. En construisantun arbre qui sépare les deux classes, on espère que la première classe sera scindée engroupes homogènes qui constituent les " clusters " souhaités. La technique consisteensuite à déterminer quels sont les groupes qui sont reliés entre eux, par exemple viaune matrice de proximité [96]. Peu d'articles ont été publiés à ce sujet et le procédé estdi�cilement applicable pour les cas de données dont l'organisation spatiale n'est pastriviale.

Parmi les modèles de mélanges, la méthode la plus célèbre d'apprentissage non su-pervisé est la méthode des " K-moyennes " [97] [98]. Partant d'un nombre de pointsd'initialisation égal au nombre de regroupements souhaités, on cherche simplementà regrouper les exemples en groupes homogènes au sens des descripteurs. La mé-thode consiste à étiqueter itérativement les individus en fonction de leur distance avecles points d'initialisation qui changent d'une itération à l'autre. Divers modi�cationscontribuent à l'accélération de l'algorithme [99] ou cherchent la meilleure initialisation[100]. La méthode des " K-moyennes " est étendue à la logique �oue à l'aide l'algo-rithme FCM (" Fuzzy C-Means ") [101]. Après avoir regroupé les données par paquetsà l'aide de l'algorithme des K-moyennes, l'aspect �ou se caractérise par la possibilitéd'attribuer plusieurs classes par élément [102]. D'autres méthodes mélangent l'algo-

Page 22: These lefort

xxiiCHAPITRE 2. LES MODÈLES DE CLASSIFICATION USUELS : ÉTAT DE

L'ART

rithme FCM avec des approches �oues de l'estimation du maximum de vraisemblance[103]. L'algorithme EM [14] [15] [16] et ses dérivées SEM, ECM, GEM [17] [18] [19][20] constituent l'extension probabiliste des " K-moyennes ". Ils permettent de trouverles proportions et les paramètres des modes d'une loi cible. Mais, contrairement au casde l'apprentissage supervisé qui considère que chaque classe peut être modélisée parun mélange de lois, en apprentissage non supervisé une classe correspond à l'un desmodes du mélange. L'apprentissage consiste donc à apprendre les paramètres des lois dechaque classe ainsi que les probabilités a priori de façon à maximiser la vraisemblancedes données.

En�n, les réseaux de neurones possèdent aussi leur version de classi�cation nonsupervisée. Initialisés par les travaux de Grossberg [104], les LVQ (" Learning VectorQuantization ") sont un cas particulier des réseaux de neurones. La méthode qui enrésulte (SOM pour " Self-Organization Map " ou encore appelée les " Cartes de Ko-honen ") [105] [106] [107], forme un réseau composé de deux couches, l'une pour lesentrées, l'autre qui décrit l'organisation des neurones de manière topologique. Lors del'apprentissage, les neurones cibles de la seconde couche forcent leurs voisins à modi�erleurs poids en faveur de l'exemple concerné. Finalement, les poids décrivent la densitéet la structure de la répartition des vecteurs d'entrée.

L'utilisation de l'une ou l'autre de ces méthodes dépend de l'application visée et del'organisation intrinsèques des données dans l'espace des descripteurs. De manière gé-nérale, l'algorithme des K-moyennes est le plus utilisé, pour sa simplicité et sa rapidité,mais aussi car il n'est pas sujet à aux soucis d'optimisations.

2.4 Classi�cation faiblement supervisée

En classi�cation faiblement supervisée, il existe une incertitude sur la classe desexemples d'apprentissage. Cette incertitude se caractérise par un vecteur dont les com-posantes sont les probabilités de classi�cation a priori de chaque classe. L'ensembled'apprentissage est donc constitué des exemples dans l'espace des descripteurs et desvecteurs de probabilité de classi�cation associés (cf. équation 2.1).

Peu de papiers abordent le cas de l'apprentissage faiblement supervisé sous ce for-malisme probabiliste. Le cas le plus populaire, le plus traité, et ayant fait l'objet d'unemajorité de publications, est le cas particulier des annotations qui indiquent quellesclasses sont possibles de manière équiprobable. Par exemple, on parle du cas " pré-sence/absence " en indexation d'images : étant donnée une base d'images dont laprésence ou l'absence de " concepts " (classes) est connue dans chaque image [108][109], un modèle de classi�cation des objets doit être établi. Des modèles probabilistesgénératifs s'appuyant sur l'algorithme EM [2] [110] [108] [109] ou sur les champs deMarkov aléatoires gaussien [111] ont été développés, mais aussi des modèles discrimi-nants qui emploient des techniques de type SVM [112] [113], ou encore des modèlesbasés sur du " boosting " [114] [115] (voir chapitre 4 pour le boosting). Les di�érencesentre ces méthodes portent sur le nombre de concepts traités dans les images, sur lenombre d'exemples d'apprentissage, sur la complexité des images, et sur les hypothèsesretenues relativement aux transformations des fragments d'une image à l'autre. Par

Page 23: These lefort

2.5. CLASSIFICATION SEMI-SUPERVISÉE xxiii

exemple, certains considèrent que les régions d'intérêts sont constantes en échelle maisqu'elles subissent des rotations et des translations [116] [117], d'autres [118] [119], sousles mêmes hypothèses, examinent les interactions spatiales entre fragment d'images a�nde parfaire le modèle. Des modèles génératifs plus complets [120] [121] permettent delocaliser l'objet tout en prenant en compte sa translation, sa rotation et son échelledans les images d'apprentissage. A l'instar de l'apprentissage semi-supervisé, Rosenberg[122] montre qu'en ajoutant des images annotées en présence/absence (faiblement su-pervisée) à des images annotées de manière précise (supervisée), alors les performancesde classi�cation peuvent être améliorées. Les mêmes modèles génératifs sont utilisés ensegmentation d'images [123] ou pour la détection de concepts dans des vidéos annotées[124].

D'autres exemples particuliers proposent un apprentissage faiblement supervisé. Cesle cas d'objets d'apprentissage directement annotés par des experts [125], ou encore,des applications en télédétection, et notamment en interprétation d'images [81]. Lecas de l'acoustique halieutique est un cas typique d'apprentissage faiblement supervisé[126], il est étudié dans la partie II.

En�n, certains cas d'associations de classi�eurs nécessitent l'utilisation d'un ap-prentissage faiblement supervisé. Par exemple, en apprentissage semi-supervisé itératif[3], les paramètres du classi�eur d'une itération donnée sont estimés sur la base desprobabilités de classi�cation issues de l'itération précédente.

Comme dans la plupart des problèmes de classi�cation, il n'existe pas un modèle quiest meilleur que les autres, chaque jeu de données correspond à un type de classi�euren fonction des ses caractéristiques propres. De plus, en classi�cation faiblement su-pervisée, il existe la notion de complexité de l'ensemble d'apprentissage, qui est dé�nitpar la nature des probabilités de classi�cation a priori. Si ces probabilités a priori sontfaibles, alors le jeu de données est complexe car les informations sur les classes sont peuinformatives, en revanche, avec un a priori fort, le jeu de données d'apprentissage estpeu complexe du fait de la précision forte des informations liés aux labels. Les travauxcités précédemment ne font pas d'étude des réponses des classi�eurs relativement àla complexité des labels, l'idée étant plutôt de trouver le meilleur classi�eur pur unensemble d'apprentissage donnée. Dans le chapitre 5, nous apportons des éléments deréponses.

2.5 Classi�cation semi-supervisée

Cet état de l'art est largement inspiré du livre de Chapelle [3] et de l'étude bi-bliographique de Zhu [127]. Cependant, leurs états de l'art ne font pas mention desméthodes d'apprentissage semi-supervisé utilisées pour la classi�cation des donnéescorrélées (traduction de l'anglais " relational data "), dont les principales applicationssont la classi�cation de pages web.

L'apprentissage semi-supervisé est utilisé quand peu de données labélisées sont dis-ponibles. Dans ce cas, il a été montré que l'introduction de données sans label dansl'ensemble d'apprentissage peut améliorer les performances de classi�cation [3]. Il existeplusieurs familles de méthodes, à savoir, les modèles génératifs, les modèles qui s'ap-

Page 24: These lefort

xxivCHAPITRE 2. LES MODÈLES DE CLASSIFICATION USUELS : ÉTAT DE

L'ART

puient sur des graphes, les modèles discriminants et les modèles itératifs qui s'appuientsur n'importe quel classi�eur de base.

La première famille de méthodes regroupe les modèles génératifs [3]. Le modèleemployé usuellement se base sur l'algorithme EM. Le principe est d'estimer la den-sité de probabilité jointe des observations et des labels. Comme en classi�cation nonsupervisée (cf. la section 2.3 du chapitre 2), on suppose que chaque classe suit une den-sité de probabilité paramétrique, dont on estime les paramètres. Mais contrairementau cas non supervisé, les classes sont connues, il su�t donc de connaître un exemplelabélisé par classe pour déduire les paramètres associés à chacune des classes. Nouspouvons citer les articles de Nigam qui propose, via l'algorithme EM, d'estimer lesparamètres de modèles Bayésien naïf Gaussien dans le cas mono modal [128] ou multimodal [129], et dont les méthodes sont regroupées dans le chapitre "Semi-supervisedtext classi�cation using EM" du livre "Semi-supervised learning" [3]. Notons que l'al-gorithme génératif d'apprentissage faiblement supervisé de la section 3.2.3 du chapitre3 est l'un de ces modèles génératifs qui peut être appliqué au cas de l'apprentissagesemi-supervisé. Ces modèles possèdent l'avantage d'avoir beaucoup été étudiés dansla littérature et d'être appréciés pour leur structure probabiliste. En revanche, il estdi�cile d'évaluer la justesse des modèles génératifs et il faut connaître la loi cible pourchaque jeux de données. De plus, l'algorithme EM est sujet à la question des minimaslocaux et certaines organisations intrinsèques des données conduisent l'algorithme versde mauvaises solutions [130].

La deuxième grande famille de modèles est l'approche discriminante. Parmi les mé-thodes discriminantes, la méthode des machines à vecteurs de support semi-superviséeest la plus utilisée [3]. En anglais, on trouve les termes " semi-supervised SVM "(S3VM) ou encore " Transductive SVM " (TSVM). La méthode consiste à trouverles coe�cients de l'hyperplan qui sépare les classes entre elles et tel que la marge soitmaximale (cf. la section 3.3 du chapitre 3). Par rapport à l'apprentissage supervisé,un terme de régularisation est ajouté dans l'équation d'optimisation. Celui-ci tientcompte des données non labélisées. Les premières propositions [131] manquaient derobustesse, notamment vis-à-vis de la quantité d'exemples sans label. Joachims [132]propose la première version robuste. D'autres papiers proposent des améliorations,comme par exemple, une adaptation au cas multi-classes [133], un algorithme rapidepour les S3VM linéaires [134], une dynamique de probabilisation gaussienne à la placed'une dynamique linéaire [135] . . .Malgré un formalisme mathématique appréciable etde bonnes performances, notamment pour les jeux de données pour lesquels les SVMsupervisés sont très performants, cette méthode reste sujette aux points optimaux lo-caux et donne des performances modestes pour beaucoup de jeux de données. Chapelle,Sindhwani et Keerthi [136], proposent une bibliographie et compare les résultats desméthodes d'apprentissage semi-supervisé qui emploient les SVM.

Les modèles basés sur les graphes de similarité constituent une autre grande famillede méthodes d'apprentissage semi-supervisé [3]. Il existe plusieurs façons de construireun graphe [137] [138] [139]. Imaginez des noeuds de l'espace reliés entre eux par desbranches. Les noeuds représentent les exemples avec et sans labels, tandis que lesbranches représentent les similarités entre exemples. L'algorithme des k-plus-proches-voisins [62] [66] [67] peut être vu comme un cas particulier des graphes de similarité, la

Page 25: These lefort

2.5. CLASSIFICATION SEMI-SUPERVISÉE xxv

classe attribuée correspondant à la classe majoritaire des k exemples labélisés les plussimilaires. Avec les graphes de similarité, s'ajoute la notion de distance entre donnéessans label. Par exemple, le jeu des similarités fait qu'une observation sans label, éloignéeen distance de tout exemple labélisé, peut être considérée comme proche de l'un d'entreeux par l'intermédiaire d'une autre observation sans label. L'objectif est de trouverune fonction de classi�cation pour le graphe. La méthode consiste en un problèmede régularisation où le premier terme de la fonction de coût porte sur les donnéeslabélisées et le second terme permet de lisser les solutions sur l'ensemble du graphe àl'aide des exemples sans label. La di�érence entre les méthodes se situe sur la formedes fonctions de coût. Par exemple, la fonction de coût peut s'exprimer en fonction del'erreur quadratique de classi�cation pondérée pour une classi�cation dite " dure " (nonprobabiliste) [140]. De la même façon, la version probabiliste exprime le coût en fonctiondes champs aléatoires Gaussiens [141] [142]. Un papier propose d'utiliser l'algorithmede régularisation de Tikhonov [143]. Le graphe peut aussi être modélisé comme unchamp de Markov discret [144]. Il existe beaucoup de propositions pour les modèlesbasés sur les graphes de similarité. L'inventaire présent n'est pas exhaustif mais donneune idée des approches possibles. Notons que, comme pour les modèles discriminants,ces modèles sont binaires et peuvent s'étendre au cas multi-classes en utilisant uneapproche " one-versus-all ". Malgré l'élégance des modèles mathématiques et les bonnesperformances de classi�cation, ce modèle possède quelques défauts. Tout d'abord cesmodèles sont fortement dépendants de la façon dont sont construits les graphs. S'ilsne sont pas correctement édi�és, cela peut entraîner de très mauvaises performances.En�n, ces modèles ont le défaut d'être performants en classi�cation uniquement sur lesdonnées d'apprentissage [3], pas sur les données de test, cela nécessite de réapprendreun classi�eur pour chaque nouvelle donnée.

La dernière grande famille de méthodes d'apprentissage semi-supervisé repose surl'emploi itératif de classi�eurs. La version simpliste est le " self training " introduitdans les années 70 [145] et qui est employé dans quelques applications de vision parordinateur. Par exemple, un papier [146] propose de combiner un classi�eur génératif(via l'algorithme EM) avec un processus de self training. Le principe est le suivant. Aune itération donnée, les exemples labélisés de l'ensemble d'apprentissage établissent unmodèle de classi�cation. Les exemples sans label sont classés à l'aide de ce classi�eur, delà, les exemples sans label deviennent labélisés. Parmi ces exemples fraichement labéli-sés, les plus probables au sens de la probabilité de classi�cation, sont considérés commedé�nitivement labélisés et ils contribueront à l'élaboration du classi�eur de l'itérationsuivante. L'algorithme est présenté plus en détail dans la section 4.3 du chapitre 4.Les avantages de cette méthode sont la simplicité de l'algorithme et l'applicabilité àtout classi�eur probabiliste. Les inconvénients sont la possible propagation d'une er-reur commise lors des premières itérations et la di�culté de l'étude de la convergence[147] [148] et du comportement de l'algorithme. Le modèle génératif qui s'appuie surl'algorithme EM peut être vu comme un cas particulier du self training dans le sensoù le modèle de classi�cation évolue à chaque itération, au fur et à mesure que lesexemples sont correctement classés. La di�érence se situe dans l'attribution d'un la-bel à tous les exemples à chaque itération, tandis que pour le self training, seuls lesexemples dont l'indice de con�ance de classi�cation est su�samment élevé se voient

Page 26: These lefort

xxviCHAPITRE 2. LES MODÈLES DE CLASSIFICATION USUELS : ÉTAT DE

L'ART

attribuer une classe. L'algorithme itératif le plus célèbre est le " co-training " [149].Par rapport au self training, le co-training suppose que l'espace des descripteurs peutêtre scindé en deux sous-espaces indépendants tels que, à chaque itération, deux classi-�eurs apprennent chacun un modèle de classi�cation sur la base des deux sous espaces.La scission est e�ectuée pour réduire la complexité, surtout si l'un des deux sous-ensembles est fortement bruité. D'autres versions du co-training proposent de scinderaléatoirement l'espace des descripteurs à chaque itération [150]. Pierce et Cardie [151]emploient un classi�eur Bayésien naïf avec un processus de co-training. Ils proposentaussi quelques modi�cations comme, par exemple, le choix aléatoire d'une classe (ausens de la distribution des classes des exemples labélisés) pour laquelle on cherchel'exemple le plus probable parmi les exemples fraichement classi�és. Cette propositionest discutable dans le cas des arbres de classi�cation dont on sait qu'ils favorisent lesclasses majoritaires (cf. la section 2.2.3 du chapitre 2).

Pour conclure, les performances de toutes ces méthodes sont liées à la nature des jeuxde données (nombre de descripteurs, nombre d'exemples labélisés et nombre d'exemplessans label, recouvrement entre classes, organisation spatiale des données . . . ). Il n'y apas vraiment de méthode idéale qui domine les autres et une étude doit être menéeà chaque fois. De plus, l'apprentissage semi-supervisé fonctionne mal quand le jeu dedonnées est complexe en terme de recouvrement entre classe. Ainsi, dans la plupart despapiers, les méthodes sont testées sur des jeux de données pour lesquels la classi�cationest aisée en apprentissage supervisé. Dans la communauté de la classi�cation de pagesweb [25] [152], on emploie les termes " données corrélées " pour parler d'apprentissagesemi-supervisé. Un papier [153] montre que les deux méthodes utilisées par cette com-munauté sont les modèles basés sur les graphes de similarité et les modèles itératifs.Dans ce même papier, pour un jeu de données particulier, on montre que les graphessont plus performants que les modèles itératifs si la quantité d'individus labellisés esttrès faible.

2.6 Conclusion

Dans cet état de l'art, nous avons présenté les quatre types d'apprentissage cou-ramment utilisés : l'apprentissage supervisé, l'apprentissage non supervisé, l'apprentis-sage faiblement supervisé et l'apprentissage semi-supervisé qui se déclinent en grandesfamilles de modèles (génératifs, discriminants, hybrides). Le but étant d'éto�er lesconnaissances et de se situer méthodologiquement, les méthodes associées à chacun deces apprentissages ont été présentées succinctement et nous avons exposé les principalesdi�érences.

Le chapitre 3 est plus formel quant à la compréhension des méthodes et aux dé-veloppements mathématiques. Nous allons choisir trois modèles de base (un génératif,un discriminant et un hybride) que nous déclinerons sous leurs formes supervisées etfaiblement supervisées.

Page 27: These lefort

CHAPITRE3 Classi�cation faiblement

supervisée : modèles

proposés

3.1 Introduction

3.1.1 Généralités

L'objectif de ce chapitre est de déterminer quelle méthode usuelle répond au mieuxen apprentissage faiblement supervisé et de comprendre le fonctionnement propre àchacune de ces méthodes. Nous choisissons donc volontairement un large spectre deméthodes (dans le sens où les approches méthodologiques se distinguent fortement).Nous avons choisi un modèle génératif, un modèle discriminant et un modèle hybrideque nous déclinons sous leur forme connue d'apprentissage supervisé, puis sous uneforme d'apprentissage faiblement supervisé. Les deux types d'apprentissage sont pré-sentés conjointement de manière à bien comprendre les fondements des méthodes etles liens étroits existant entre l'apprentissage supervisé et l'apprentissage faiblementsupervisé.

Le cas de l'apprentissage faiblement supervisé considéré dans ce chapitre est di�é-rent de celui rencontré habituellement dans la littérature. Contrairement aux donnéesd'apprentissage dont l'information sur les classes est donnée par des vecteurs binairesqui indiquent quelles sont les classes possibles, nous nous plaçons dans le cas générald'un vecteur qui donne les probabilités de classi�cation a priori pour chaque classe.Plus généralement encore, nous considérons un ensemble d'images ou de documentscontenant des objets, telles que les distributions a priori des classes sont connues dansles images ou les documents.

Avant de présenter les modèles de classi�cation dans les sections 3.2 3.3 3.4, lesnotations seront introduites. Les performances de classi�cation de ces modèles serontprésentées dans le chapitre 5 pour plusieurs jeux de données du domaine public.

Page 28: These lefort

xxviiiCHAPITRE 3. CLASSIFICATION FAIBLEMENT SUPERVISÉE :

MODÈLES PROPOSÉS

3.1.2 Notations

En classi�cation supervisée, l'ensemble d'apprentissage est noté {xn, yn}1≤n≤N , oùxn représente l'observation dans l'espace des descripteurs, tandis que yn = i indiqueque xn est de la classe i. Dans le cas des classi�eurs binaires (classi�cation à deuxclasses), yn peut prendre les valeurs +1 ou −1.

En classi�cation faiblement supervisée, K indique le nombre d'images d'apprentis-sage. L'image d'apprentissage indicée par k contient N(k) objets décrits dans l'espacedes descripteurs par {xkn}1≤k≤K,1≤n≤N(k). Chaque image d'apprentissage est associée àun vecteur label πk. Les composantes πki du vecteur label donnent la proportion de laclasse i dans l'image k. Ces proportions peuvent être vues comme l'a priori de la classei dans l'image k telle que πki = p (ykn = i), ∀n. Nous notons ykn = i si l'objet xkn estassocié à la classe i. Notons que

∑i πki = 1. L'étiquette globale de l'image est ramenée

à l'échelle de l'objet, donnant un label individuel a priori. L'ensemble d'apprentissagepeut donc s'écrire : {xkn, πk}1≤k≤K,1≤n≤N(k).

L'objectif des méthodes est d'établir un modèle de classi�cation des objets à partirdu jeu de données d'apprentissage. Si Θ sont les paramètres du modèle, alors nousévaluons Θ̂ dans un premier temps, puis la probabilité de classi�cation p

(y = i|x, Θ̂

)étant donné l'exemple test x.

3.2 Modèle génératif

3.2.1 Introduction

Dans le chapitre 3.2, nous étudions un modèle génératif basé sur l'algorithme EM.La méthode consiste à considérer que les données sont constituées de modes gaussiensdont nous cherchons à évaluer les moments d'ordre 1 et 2.

Tout d'abord, dans la section 3.2.2, nous présentons la méthode sous sa forme laplus connue : dans le cas de l'apprentissage supervisé. Puis, dans la section 3.2.3, laprocédure est étendue au cas de l'apprentissage faiblement supervisé.

3.2.2 Classi�cation supervisée

En guise de modèle génératif, nous étudions les mélanges de Gaussiennes dont lesparamètres sont estimés à l'aide de l'algorithme EM qui maximise la vraisemblance àchaque itération. On se place dans le cas de N réalisations {x1, . . . , xN} d'une variablealéatoire X dont la densité est un mélange de gaussiennes. Cela suppose que nousconsidérons les données d'une classe réparties de manière modale, chaque mode étantmodélisé par une gaussienne. L'objectif de l'apprentissage est d'estimer les paramètresde chacune des gaussiennes.

Soit la variable aléatoire S telle que snim = 1 si la réalisation xn provient dumode m de la classe i, et snim = 0 sinon. Nous en déduisons que ρim = p (sim), avec∑M

m=1 ρim = 1.

Page 29: These lefort

3.2. MODÈLE GÉNÉRATIF xxix

Soit Θ = {ρim, µim,Σim}i,m les paramètres d'un modèle de mélange gaussien, où Mest le nombre de modes par classe, ρim est la proportion du mode m de la classe i, µimest la moyenne du mode m de la classe i et Σim est la matrice de covariance du modem de la classe i. La fonction densité s'écrit :

p (x|y = i,Θ) =M∑m=1

ρimN (x|µim,Σim) (3.1)

X est une observation incomplète que l'on peut compléter par la variable cachéeS. Ainsi fait, le critère du maximum de vraisemblance a posteriori peut être employé.Cependant, la maximisation de la log-vraisemblance complétée est di�cile. L'astucede l'algorithme EM est de contourner ce calcul via la maximisation de l'espéranceconditionnelle de la log-vraisemblance complétée par rapport à Θ. En notant Θc lesparamètres courants obtenus soit par calcul, soit par initialisation, l'estimé des para-mètres à l'itération suivante s'écrit donc :

Θ̂ = arg maxΘ{Q(Θ,Θc)} (3.2)

Q(Θ,Θc) = E [log p (x, s|Θ) |x,Θc] =

∫s

p(s|x,Θc) log p(x, s,Θ) (3.3)

. Or, en supposant les observations {xn} indépendantes, nous pouvons écrire :log p(x, s,Θ) = log

[N∏n=1

p(xn, sn,Θ)

]=

N∑n=1

log [N (x|µ,Σ)p(sn)]

p(s|x,Θc) =N∏n=1

p(sn|xn,Θc)

. (3.4)

Finalement, en substituant les éléments de l'équation (3.3) et en se focalisant sur laclasse i, nous obtenons l'expression suivante :

Q(Θ,Θc) =N∑n=1

M∑m=1

log [ρimN (x|µim,Σim)] p(snim|xn,Θc) (3.5)

Nous voulons maximiser Q(Θ,Θc) par rapport à Θ. Ainsi, en considérant Θc commeun paramètre constant, et comme préliminaire à la maximisation nous calculonsp(snim|xn,Θc) dans une première étape. La règle d'inversion de Bayes donne :

p(snim|xn,Θc) =ρimp (xn|snim,Θc)M∑l=1

ρilp (xn|snil,Θc)

(3.6)

Pour trouver le paramètre ρim qui maximise Q(Θ,Θc), nous utilisons les multipli-cateurs de Lagrange avec la contrainte

∑Mm=1 ρim = 1. Nous obtenons :

ρim =1

N

N∑n=1

p(snim|xn,Θc) (3.7)

Page 30: These lefort

xxxCHAPITRE 3. CLASSIFICATION FAIBLEMENT SUPERVISÉE :

MODÈLES PROPOSÉS

Les moyennes et variances sont obtenues par dérivation :

µim =

N∑n=1

p (snim|xn,Θc)xn

N∑n=1

p (snim|xn,Θc)

(3.8)

Σim =

N∑n=1

p (snim|xn,Θc) (xn − µim) (xn − µim)T

N∑n=1

p (snim|xn,Θc)

(3.9)

Puis les paramètres courants sont estimés à nouveau, et le processus est itéré jusqu'àconvergence. L'algorithme est résumé dans le tableau 3.1.

Lors de la phase de test, la probabilité pour qu'un individu quelconque x soit de laclasse i est donnée par la probabilité de classi�cation a posteriori :

p(y = i|x,Θ) =M∑m=1

ρimN (x|µim,Σim) (3.10)

Il existe une version stochastique de cet algorithme. L'algorithme SEM [17] a pourobjectif d'éviter d'aboutir à un maximum local de vraisemblance. Pour cela, entre lesétapes E et M, les individus sont classés par rapport aux di�érents modes à l'aide d'untirage aléatoire suivant la densité de probabilité discrète {p(snim|xn)}i.

3.2.3 Classi�cation faiblement supervisée

Pour le cas de l'apprentissage faiblement supervisé, nous nous sommes appuyés surles travaux développés dans [154]. Ce papier propose de résoudre l'algorithme EM pourdes données faiblement labellisées. Ce dernier traite uniquement le cas d'observationdont le label indique la présence ou l'absence de classes dans un groupe d'objets. Nousavons adapté l'algorithme au cas des labels qui indiquent la proportion des classes dansun groupe d'objets.

Soit Θ = {ρim, µim,Σim}i,m les paramètres d'un modèle de mélange de gaussiennes :

p (x|y = i,Θ) =M∑m=1

ρimN (x|µim,Σim) (3.11)

Pour un ensemble d'apprentissage de la forme {xkn, πk} qui est labellisé en proportion,le critère de maximisation de la vraisemblance peut être dé�nit par :

Θ̂ = arg maxΘ

p(π|x,Θ) = arg maxΘ

K∏k=1

N(k)∏n=1

p(πk|xkn,Θ) (3.12)

Page 31: These lefort

3.2. MODÈLE GÉNÉRATIF xxxi

1/ Initialisation des paramètres Θc.2/ Jusqu'à convergence, e�ectuer successivement les étapes E et M :Etape E :

γnim =ρimp (xn|snim,Θc)M∑l=1

ρilp (xn|snil,Θc)

Etape M : (Mise à jour des paramètres Θc)

ρim =1

N

N∑n=1

γnim

µim =

N∑n=1

γnimxn

N∑n=1

γnim

Σim =

N∑n=1

γnim (xn − µim) (xn − µim)T

N∑n=1

γnim

Tableau 3.1 � Algorithme EM dans le cas de l'apprentissage supervisé.

Comme dans la section 3.2.2, nous maximisons l'espérance de la log-vraisemblancecomplétée qui s'écrit :

Q(Θ,Θc) = E [log p (x, y|Θ) |x, π,Θc] =

∫y

p(y|x,Θc) log p(x, y,Θ) (3.13)

Soit K images, composées de N(k) objets. En supposant les observations {xkn} indé-pendantes, nous pouvons écrire :

log p(x, y,Θ) = log

K∏k=1

N(k)∏n=1

p(xkn, ykn,Θ)

=K∑k=1

N(k)∑n=1

log [p(xkn|ykn,Θ)p(ykn|Θ)]

p(y|x,Θc) =K∏k=1

N(k)∏n=1

p(ykn|xkn,Θc)

.

(3.14)Par substitution dans l'équation (3.13), nous obtenons :

Q(Θ,Θc) =K∑k=1

N(k)∑n=1

{∑i

p (ykn = i|xkn,Θc) log [πkip (x|ykn = i,Θ)]

}(3.15)

Ainsi, quand la proportion d'individus dans chaque image constitue la labellisation,cette proportion donne un a priori sur chaque image pour chaque classe, de telle sorteque l'étape E de l'algorithme EM prendre en compte l'a priori πki :

p (ykn = i|xkn,Θc) =πkip (xkn|ykn = i,Θc)∑l

πklp (xkn|ykn = l,Θc)(3.16)

Page 32: These lefort

xxxiiCHAPITRE 3. CLASSIFICATION FAIBLEMENT SUPERVISÉE :

MODÈLES PROPOSÉS

Pour l'étape M de l'algorithme, la log vraisemblance complétée (3.15) est optimiséeen fonction de Θ. Remarquons que la dépendance de (3.15) par rapport à Θ porteessentiellement sur p (x|ykn = i,Θ) :

Q(Θ,Θc) =K∑k=1

N(k)∑n=1

{∑i

p (ykn = i|xkn,Θc) log[p (x|ykn = i,Θ)

]+ cste

}(3.17)

Ce point constitue la di�érence principale avec [154]. Pour notre problématique, leparamètre πki est connu puisqu'il constitue le label des individus xkn. Dans [154], lesproportions ne sont pas considérées connues et doivent être estimées lors de l'étape M.

En séparant le problème en I problèmes élémentaires, maximiser 3.17 revient àmaximiser la log vraisemblance d'un mélange de gaussiennes pondérées par le termep (ykn = i|xkn,Θc) :

K∑k=1

N(k)∑n=1

p (ykn = i|xkn,Θc) log[p (x|ykn = i,Θ)

](3.18)

Une nouvelle fois, la maximisation de (3.18) est e�ectuée via l'algorithme EM. La mé-thode consiste donc à insérer un algorithme EM dans l'étape M d'un autre algorithmeEM. On peut voir dans ce procédé comme l'expression d'un "mélange de mélange".

Comme précédemment, plutot que de maximiser l'expression de la log-vraisemblance pondérée (3.18), nous maximisons celle de l'espérance de la log-vraisemblance complétée :

Q′(Θ,Θc) =K∑k=1

N(k)∑n=1

p (ykn = i|xkn,Θc)M∑m=1

log [ρimN (xkn|µim,Σim)] p(sknim|xkn,Θc)

(3.19)Où sknim, dé�nie par p(sim) = ρim, indique la probabilité, pour l'objet n de l'image k,d'être apparenté au mode m de la distribution de la classe i.

L'étape E de ce second algorithme EM est alors donnée par :

p (sknim|xkn,Θc) =ρimp (xkn|sknim,Θc)M∑l

ρknilp (xkn|sknil,Θc)

(3.20)

Les nouveaux paramètres sont obtenus à l'aide de la méthode des multiplicateurs deLagrange ou par dérivation de l'espérance de la log vraisemblance complétée, leursexpressions sont :

ρim =

∑k

∑n

p (ykn = i|xkn,Θc) p (sknim|xkn,Θc)∑k

∑n

p (ykn = i|xkn,Θc)(3.21)

µim =

∑k

∑n

p (ykn = i|xkn,Θc) p (sknim|xkn,Θc)xkn∑k

∑n

p (ykn = i|xkn,Θc) p (sknim|xkn,Θc)(3.22)

Page 33: These lefort

3.3. MODÈLE DISCRIMINANT xxxiii

σim =

∑k

∑n

p (ykn = i|xkn,Θc) p (sknim|xkn,Θc) (xkn − µim)(xkn − µim)T∑k

∑n

p (ykn = i|xkn,Θc) p (sknim|xkn,Θc)(3.23)

L'algorithme est résumé dans le tableau 3.2.

Lors de la phase de test, la probabilité pour qu'un individu quelconque x soit de laclasse i est donné par la probabilité de classi�cation a posteriori :

p(y = i|x,Θ) =M∑m=1

ρimN (x|µim,Σim) (3.24)

Notons que cet algorithme est peu robuste pour des jeux de données complexes,dont le recouvrement entre classes est élevé. De plus, dans le cas de distributions multimodales avec des matrices de covariances complexes, l'algorithme peine à converger. Enpratique, pour gagner en performance, les matrices de variance-covariance sont considé-rées diagonales. Cela suppose que les descripteurs sont indépendants. Si pour certainstypes de données ce n'est pas le cas, le fait de choisir un modèle de mélange peutcompenser ce type de simpli�cation. Par exemple, un nuage de points diagonal dansun espace à deux dimensions pourrait être représenté par plusieurs nuages de pointscirculaires i.e. par un mélange de gaussiennes dont les matrices de covariance sont dia-gonales. En considérant I = 4 classes,M = 5 modes et D = 20 descripteurs, le nombrede paramètres à estimer s'élève à IMD

(1 + D

2

)= 4400 dans le cas d'une matrice de

variance-covariance pleine, et à 2IMD = 800 paramètres dans le cas d'une matrice dia-gonale. En comparant aux ID = 80 paramètres qui représentent les coe�cients d'unhyperplan séparateur d'un modèle discriminant, et en supposant que plus il y a de pa-ramètres moins les algorithmes sont robustes et plus les performances de classi�cationdiminues, cela nous laisse entrevoir les futurs performances des algorithmes.

3.3 Modèle discriminant

Le chapitre 3.3 est consacré à l'élaboration de modèles discriminants. Dans unpremier temps, des méthodes classiques d'apprentissage supervisé sont présentées dansla section 3.3.1. Nous verrons notamment l'analyse discriminante de Fisher, puis laméthode K-pca qui permet d'étendre l'analyse de Fisher du cas linéaire au cas nonlinéaire, les machines à vecteur de support seront ensuite étudiées dans le cas linéaire,et en�n dans le cas non linéaire. Dans un second temps, nous proposons des modèlesde classi�cation pour le cas de l'apprentissage faiblement supervisé. Nous proposonsd'adapter l'analyse discriminante de Fisher au cas des probabilités de classi�cation apriori, en�n, nous indiquons comment obtenir une version non linéaire du modèle.

Page 34: These lefort

xxxivCHAPITRE 3. CLASSIFICATION FAIBLEMENT SUPERVISÉE :

MODÈLES PROPOSÉS

1/ Initialisation des paramètres Θc.2/ Jusqu'à convergence, e�ectuer successivement les étapes E et M :Etape E :

τkni =πkip (xkn|ykn = i,Θc)∑l

πklp (xkn|ykn = l,Θc)

Etape M :

Etape M-E :

γknim =ρimN (xkn|skni = m,Θc)M∑l=1

ρilp (xkn|skni = l,Θc)

Etape M-M :

ρim =

∑k

∑n

τkniγknim∑k

∑n

τkniet µim =

∑k

∑n

τkniγknimxkn∑k

∑n

τkniγknim

σ2im =

∑k

∑n

τkniγknim(xkn − µim)(xkn − µim)T∑k

∑n

τkniγknim

Tableau 3.2 � Algorithme EM dans le cas de l'apprentissage faiblement su-

pervisé.

3.3.1 Classi�cation supervisée

Le modèle

Ce modèle est une paramétrisation directe de la classi�cation. Dé�ni comme uneversion probabiliste du modèle discriminant, i.e. à l'instar de celui proposé dans [154],le modèle linéaire peut être exprimé de la manière suivante :

p (y = i|x,Θ) ∝ F (〈ωi, x〉+ bi|{ωi}) (3.25)

Où < ωi, x > +bi est la distance entre l'objet à classer et l'hyperplan qui sépare la classei des autres classes. L'équation de cet hyperplan est donnée par < ωi, x > +bi = 0 dansl'espace des descripteurs. F est une fonction positive et croissante qui permet d'ajusterla dynamique de probabilisation. Dans ce manuscrit, F est choisie comme étant lafonction exponentielle :

p (y = i|x,Θ) =exp(〈ωi, x〉+ bi)∑l

exp(〈ωl, x〉+ bl)(3.26)

Page 35: These lefort

3.3. MODÈLE DISCRIMINANT xxxv

Figure 3.1 � L'objectif de l'analyse discriminante de Fisher est de trouver un

axe de projection Zω qui minimise le recouvrement des nuages de points entre

classes.

A chaque classe, correspond un hyperplan qui sépare la classe considérée des autresclasses. Pour un individu test x, cela permet d'établir un vecteur de probabilité declassi�cation. La classe la plus probable est attribuée à l'individu x.

Il existe plusieurs méthodes d'apprentissage pour obtenir les coe�cients Θ = {ωi, bi}des hyperplans. Nous étudions ici l'analyse discriminante de Fisher qui est un mo-dèle linéaire, puis la méthode K-pca (kernel principal component analysis) qui permetd'étendre l'analyse de Fisher au cas non linéaire. En�n, la méthode des SVM (SupportMachine Vector) sera présentée, et pour �nir, la version non linéaire des SVM.

Analyse discriminante de Fisher

Dans cette section, l'apprentissage est e�ectué à l'aide de l'analyse discriminante deFisher. La philosophie de la méthode est résumée dans la �gure 3.1. Dans cet exemple,nous souhaitons trouver l'hyperplan qui sépare les losanges des étoiles qui sont exprimésdans un espaces de deux descripteurs (X1 et X2). Pour cela, nous allons chercher l'axeZω, porté par le vecteur ω, qui minimise le recouvrement des projections des nuages depoints sur cet axe. La première étape consiste à trouver ω, il faut ensuite positionnerle vecteur dans l'espace.

De manière plus formelle, pour un ensemble d'apprentissage {xn, yn}n∈[1...N ],yn∈[1...I],en dé�nissant :

Page 36: These lefort

xxxviCHAPITRE 3. CLASSIFICATION FAIBLEMENT SUPERVISÉE :

MODÈLES PROPOSÉS

le nombre d'individus par classe : Ni

le point moyen global : µ = 1N

N∑n=1

xn

le point moyen de la classe i : µi = 1Ni

∑n/yn=i

xn

la variance inter groupe : U =I∑i=1

Ni

N(µi − µ)(µi − µ)T

la matrice de variance-covariance

mesurée pour la classe i : Σi

la variance intra groupe : Σ̂ =I∑i=1

Ni

NΣi

alors, sur l'axe Zw engendré par le vecteur ω, les variances inter et intra classes ontrespectivement pour expression : U(ω) = ωTUω et Σ̂(ω) = ωT Σ̂ω. Par principe, lecritère de Fisher consiste à trouver le vecteur ω qui maximise le rapport entre lavariance inter classe U(ω) et la variance intra classe Σ̂(ω) :

arg maxω

ωTUω

ωT Σ̂ω(3.27)

Le critère (3.27) est résolu à l'aide des multiplicateurs de Lagrange, sous la contraintede normalisation ωT Σ̂ω = 1. Nous obtenons la solution générale : Σ̂−1Uω = λω. Or, lemodèle dé�ni par l'expression (3.25) est un modèle de classi�cation à deux classes (uneclasse contre toutes les autres). Dans ce cas, la matrice Σ̂−1U n'a qu'une seule valeurpropre λ et un seul vecteur propre associé :

ω = (Σ1 + Σ2)−1 (µ1 − µ2) (3.28)

Nous en déduisons aisément la valeur de bi :

b = ω(µ1 + µ2)

2(3.29)

Le principal avantage de cette méthode est son faible coût de calcul. Nous avonsvu que l'apprentissage du modèle se résume au calcul de (3.28) et (3.29). Mais l'in-convénient majeur se situe dans la faible complexité du modèle et notamment dans lalinéarité du modèle.

Kernel-principal component analysis (K-pca)

L'analyse discriminante de Fisher est présentée dans le paragraphe précédent pourle cas linéaire, mais certaines situations ne permettent pas de trouver de telle solution.Nous présentons dans ce paragraphe la méthode K-pca qui permet d'étendre un modèlede classi�cation linéaire au cas non linéaire.

Page 37: These lefort

3.3. MODÈLE DISCRIMINANT xxxvii

Figure 3.2 � Pour des modèles non-linéaires, l'espace des observations est

transformé a�n que, dans l'espace d'arrivée, il existe une solution linéaire.

Plutôt que d'imaginer un autre modèle de classi�cation, le principe est de trans-former l'espace des observations pour que, dans le nouvel espace, il existe une solutionlinéaire. Par exemple, dans la Figure 3.2, dans l'espace des descripteurs {X1, X2} iln'existe pas d'hyperplan séparateur pour les losanges et les étoiles. Une transformationde l'espace est e�ectuée, via la fonction (X ′1, X

′2) = ϕ (X1, X2), telle qu'il existe un

hyperplan séparateur dans le nouvel espace (X ′1, X′2).

Si la fonction ϕ est connue, alors le modèle de classi�cation s'écrit :

p (y = i|ϕ(x),Θ) ∝ F (〈ωi, ϕ(x)〉+ bi|{ωi}) (3.30)

L'originalité de la méthode réside dans le fait qu'il n'est pas nécessaire d'expliciter lafonction ϕ mais uniquement le produit scalaire associé.

L'idée est d'e�ectuer une Analyse en Composante Principale (ACP) dans le nouvelespace a�n d'extraire les composantes les plus signi�catives. Pour cela, nous devonsdéterminer les valeurs propres λ ≥ 0 et les vecteurs propres non nuls v qui satisfont :

λv = Cv (3.31)

où C est la matrice de covariance qui s'écrit :

C =1

N

N∑n=1

< ϕ(xn), ϕ(xn) > (3.32)

pour N exemples d'apprentissage. v est une combinaison linéaire des {ϕ(xn)} que nousnotons :

v =N∑n=1

αnϕ(xn) (3.33)

Page 38: These lefort

xxxviiiCHAPITRE 3. CLASSIFICATION FAIBLEMENT SUPERVISÉE :

MODÈLES PROPOSÉS

En injectant l'expression de v calculée dans l'équation (3.33) et en e�ectuant un produitscalaire sur l'équation (3.31) comme suit :

λ 〈ϕ(xn), v〉 = 〈ϕ(xn), Cv〉 ,∀n (3.34)

alors l'équation (3.31) peut être réécrite de la manière suivante :

λN∑n=1

〈ϕ(xn), ϕ(xn)〉 =1

N

N∑n=1

αn

⟨ϕ(xn),

N∑m=1

ϕ(xm), 〈ϕ(xm), ϕ(xn)〉

⟩(3.35)

Soit K la matrice de Gram dont les composantes sont Kmn = 〈ϕ(xm), ϕ(xn)〉, alors(3.35) prend la forme :

NλKα = K2α (3.36)

où α est un vecteur colonne de composantes {αn}. Pour trouver les solutions de (3.36),nous résolvons le problème dual :

Nλα = Kα (3.37)

Le calcul des valeurs propres λ1 ≥ λ2 ≥ . . . ≥ λN et des vecteurs propres corres-pondants {αn} est e�ectué, puis la n-ième composante ϕ(x)n d'un vecteur test ϕ(x)est donnée par projection sur le vecteur vn qui est engendré par αn :

ϕ(x)n = 〈vn, ϕ(x)〉 =N∑m=1

αnm 〈ϕ(xm), ϕ(x)〉 =N∑m=1

αnmK(xm, x) (3.38)

où αnm sont les composantes du neme vecteur propre.

Le nouvel espace peut être réduit en ne considérant que les Npca premières valeurspropres {λn}. Cela revient à considérer que les valeurs propres inférieures à λNpca ontdes valeurs très faibles et sont donc négligeables.

Le produit scalaire K(x1, x2) est une fonction noyau [46]. Parmi les noyaux les plusemployés [46], on trouve le noyau linéaire :

K(x1, x2) = x1Tx2 (3.39)

et le noyau gaussien :

K(x1, x2) = exp

(||x1 − x2| |2

2σ2

)(3.40)

La transformation de l'espace des observations dépend directement du choix dunoyau. Pour le cas de la �gure 3.2, si les données sont centrées et si le paramètre σ estcorrectement choisi, alors le noyau gaussien peut être très performant. Cela s'expliquepar la forme des nuages de points (dans le cas où les données sont centrées) qui fait queles mesures de similarités sont sensiblement équivalentes au sein des losanges et au seindes étoiles dans le cas du noyau gaussien. Cet exemple montre que les performances declassi�cation sont fortement liées au choix du noyau et des paramètres associés.

Page 39: These lefort

3.3. MODÈLE DISCRIMINANT xxxix

Figure 3.3 � Exemple de 4 classes qui ne sont pas linéairement séparables

(�gure de gauche) dans un processus " one-versus-all ". Après application de la

méthode Kpca avec un noyau gaussien (�gure de droite), les données deviennent

linéairement séparables.

Dans la �gure 3.3, un exemple pratique montre comment 4 classes qui ne sontpas linéairement séparables dans un processus " one-versus-all " le deviennent aprèsapplication de la méthode.

La méthode K-pca peut directement être appliquée pour des données faiblementlabellisées. En e�et, la méthode ne requière pas la connaissance de labels. Il s'agit uni-quement d'e�ectuer une transformation non linéaire de l'espace des attributs. Ainsi,une fois la transformation e�ectuée, l'analyse discriminante de Fisher peut être appli-quée dans le cas faiblement supervisé, et d'un modèle faiblement supervisé linéaire,nous obtenons un modèle faiblement supervisé non-linéaire.

SVM

La méthode SVM est une autre technique de calcul des coe�cients d'un hyperplanséparateur. SVM veut dire "Machine à Vecteur de Support". Nous dé�nissons la margecomme étant la distance entre l'hyperplan séparateur et les points les plus proches del'hyperplan. Ces points sont appelés "vecteurs de support". Un exemple est représentédans la Figure 3.4, le but étant de discriminer deux classes (les losanges et les étoiles).Les vecteurs supports sont entourés d'un cercle pointillé. L'idée fondamentale de laméthode SVM est de trouver l'hyperplan qui maximise la marge.

Soit l'ensemble d'apprentissage {xn, yn}n∈[1...N ], où yn = +1 si xn est de classe i etyn = −1 sinon. En choisissant de normaliser Θ = {ωi, bi} de telle sorte que ωTi x+bi = 1si x est le vecteur support de la classe i et que ωTi x + bi = −1 sinon, alors le critèreprimal qui donne l'hyperplan séparateur de marge maximale est :

Θ̂ = arg minΘ

1

2||ωi||2 (3.41)

Page 40: These lefort

xlCHAPITRE 3. CLASSIFICATION FAIBLEMENT SUPERVISÉE :

MODÈLES PROPOSÉS

Figure 3.4 � L'objectif de la méthode SVM est de trouver l'hyperplan qui

maximise la marge.

Sous la contrainte, yn(ωTi xn + bi

)≥ 1, ∀n.

Une formulation duale du critère est obtenue en introduisant les multiplicateurs deLagrange pour chaque contrainte (une contrainte par exemple d'apprentissage) [39] :

α̂ = arg maxα

{∑n

αn −1

2

∑p,q

αpαqypyq 〈xp, xq〉

}(3.42)

sous les contraintes, αn ≥ 0, ∀n et∑

n αnyn = 0. Notons que les dérivées partielles dulagrangien donnent la relation suivante :∑

n

αnynxn = ω̂ (3.43)

La fonction de décision est �nalement obtenue par substitution de la valeur estiméede ω dans l'équation (3.25) :

p (y = i|x,Θ) ∝ F

(N∑n=1

α̂nyn 〈x, xn〉+ bi

)(3.44)

Comme pour l'analyse discriminante de Fisher, le paramètre bi est obtenu en utilisantl'expression (3.29).

SVM non linéaire

L'extension de la méthode SVM au cas non linéaire suit la même philosophie quela méthode K-pca. L'exemple de la �gure 3.2 peut à nouveau être considéré. Ainsi,s'il n'existe pas de solution discriminante linéaire dans l'espace des attributs, celui-ci est transformé via une fonction ϕ telle que le nouvel espace propose des solutions

Page 41: These lefort

3.3. MODÈLE DISCRIMINANT xli

linéairement séparables. L'extension au cas non linéaire est intrinsèquement plus directedans le cas des SVM.

Tout d'abord, nous remarquons que la fonction de décision (3.44) du modèle li-néaire s'exprime en fonction du produit scalaire entre l'individu test x et l'ensembledes données d'apprentissage {xn}. L'idée est de remplacer ce produit scalaire par unproduit scalaire qui est dé�nit dans un autre espace des attributs. Ce nouvel espaceest en fait l'espace cible dans lequel des solutions linéaires seront possibles. Le produitscalaire est une fonction noyau que nous notons K(x1, x2) = 〈ϕ(x1), ϕ(x2)〉.

Les remarques e�ectuées sur le choix de la fonction noyau sont les mêmes que pourla méthode K-pca : le choix du noyau et les paramètres associés doivent correspondreà l'organisation spatiale des données.

3.3.2 Classi�cation faiblement supervisée

Dans cette section nous proposons une méthode d'apprentissage faiblement super-visé des paramètres du modèle discriminant. Une méthode consiste à développer unclassi�eur SVM faiblement supervisé, au lieu de ça, nous proposons une méthode plustriviale : la modi�cation du critère de Fisher. Le cas non linéaire est ensuite obtenuà l'aide de la méthode K-pca. Finalement, la seule di�érence qu'il existe entre le clas-si�eur SVM non linéaire et l'analyse de Fisher non linéaire réside dans le calcul descoe�cients de l'hyperplan séparateur linéaire, la transformation de l'espace des attri-buts étant e�ectuée de la même manière pour les deux approches.

Optimisation de Fisher

Nous avons vu que pour un jeux de données d'apprentissage supervisé {xn, yn}, oùyn = i si xn est de la classe i, l'analyse discriminante de Fisher dans le cas de 2 classesconsiste à calculer les moyennes µ1 et µ2, et les matrices de covariances Σ1 et Σ2,respectivement de la classe i et du regroupement des autres classes. Les paramètres dumodèle discriminant Θ = {ωi, bi} sont alors calculés comme indiqué dans les expressions(3.28) et (3.29).

En apprentissage faiblement supervisé, le jeu de données est constitué d'objetsassociés à un vecteur d'a priori sur les classes : {xkn, πk}. Etant donné que les classesdes objets ne sont pas connues, nous ne pouvons pas calculer directement les pointsmoyens et les matrice de covariances.

Pour le calcul des moments, nous proposons de calculer une espérance conditionnellerelative aux a priori. Ainsi, la moyenne µ1 et la matrice de covariance Σ1 de la classei prennent respectivement pour expression :

µ1 =

K∑k

N(k)∑n

πkixkn

K∑k

N(k)∑n

πki

(3.45)

Page 42: These lefort

xliiCHAPITRE 3. CLASSIFICATION FAIBLEMENT SUPERVISÉE :

MODÈLES PROPOSÉS

et

Σ1 =

K∑k

N(k)∑n

πki(xkn − µ1)(xkn − µ1)T

K∑k

N(k)∑n

πki

(3.46)

Tandis que la moyenne µ2 et la matrice de covariance Σ2 du regoupement des autresclasses prennent respectivement pour expression :

µ2 =

K∑k

N(k)∑n

(1− πki)xkn

K∑k

N(k)∑n

(1− πki)

(3.47)

et

Σ2 =

K∑k

N(k)∑n

(1− πki)(xkn − µ2)(xkn − µ2)T

K∑k

N(k)∑n

(1− πki)

(3.48)

Cette méthode présente trois avantages. Tout d'abord, seules les informations dispo-nibles sont exploitées : le calcul des moyennes et des matrices de covariance est e�ectuéà l'aide des toutes les données d'apprentissage. D'autre part, la méthode proposée esttrès simple puisqu'elle ne modi�e en rien la démonstration de l'analyse de Fisher. En-�n, une analyse plus �ne du modèle accrédite le choix d'une telle pondération. Parexemple, pour le calcul de la moyenne µ1 dans l'expression (3.45), les individus qui ontun a priori fort contribuent davantage au calcul de la moyenne contrairement à ceuxdont l'a priori est plus faible. Cela permet de donner d'avantage de poids aux donnéesdont les informations sur la classe d'origine sont plus importantes.

3.4 Arbres de classi�cation

Dans le chapitre 3.4, nous traitons le cas des arbres de classi�cation, encore appelésarbres de décision. Dans un premier temps, dans la section 3.4.1, nous détaillons lecas de l'apprentissage supervisé. Le cas de l'apprentissage faiblement supervisé seratraité dans la section 3.4.2 et une méthode de construction d'un arbre de classi�ca-tion/décision est proposée pour des données faiblement labellisées.

3.4.1 Classi�cation supervisée

Le principe de l'apprentissage des arbres de classi�cation repose sur un échantillon-nage de l'espace tel que la taille des échantillons dépend de l'organisation des données.

Page 43: These lefort

3.4. ARBRES DE CLASSIFICATION xliii

Figure 3.5 � Exemple en deux dimensions d'un arbre de classi�cation qui

sépare les étoiles et les losanges.

Partant d'un jeu de données contenu dans un hyper volume de taille in�ni, la méthodeconsiste à créer des sous-échantillons de l'espace des descripteurs itérativement. La scis-sion d'un volume échantillonné est e�ectuée de telle sorte que les sous-volumes obtenussoient les plus homogènes possibles vis-à-vis des classes. Si un volume n'est pas assezhomogène, il est scindé à son tour. Quand un sous espace est su�samment homogèneen classes, on lui attribue l'étiquette de la classe la plus fréquente. Finalement, lors dela classi�cation, tout individu test contenu dans ce volume élémentaire est considérécomme étant de la classe correspondante.

L'exemple de la �gure 3.5 illustre ces propos. Dans cette �gure, l'objectif est deséparer les étoiles et les losanges représentés dans un espace de dimension deux. L'ap-prentissage produit l'arbre représenté par cinq noeuds. Le premier noeud est un noeud"père" qui a deux noeuds "�ls" associés, dont l'un est un noeud "terminal" et l'autreest aussi un noeud père qui est associé à deux noeuds �ls terminaux. L'arbre ainsicréé produit une scission de l'espace in�ni en trois sous-échantillons in�nis. Le premiervolume échantillonné est l'espace X2 > c2 qui est associé aux losanges, tandis que lesdeux autres sont les espaces (X2 < c2, X1 > c1) et (X2 < c2, X1 < c1) respectivementassociés aux losanges et aux étoiles.

L'exemple précédent signi�e que la construction d'un arbre revient à établir unesuccession de conditions liées à des valeurs de coupure pour di�érents attributs. Plusprécisément, en un noeud donné, il faut déterminer la valeur de coupure cd associéeau descripteur d telle que les noeuds �ls soient le plus homogènes possible en classe.Si G est le gain d'information mesurée entre le noeud père et les noeuds �ls, alors lameilleur valeur de coupure cd sera celle qui maximise ce gain. Il en ressort le critère desélection de d et cd :

arg max{d,cd}

G (3.49)

La mesure de l'homogénéité des classes est une quantité d'informations que nous notons

Page 44: These lefort

xlivCHAPITRE 3. CLASSIFICATION FAIBLEMENT SUPERVISÉE :

MODÈLES PROPOSÉS

Im au noeud �ls m et I0 au noeud père. Le gain d'informations se calcule alors de lamanière suivante :

G =

(∑m

Im

)− I0 (3.50)

Dans la méthode C4.5 [70], la quantité d'informations Im du noeud m correspond àl'entropie de Shannon :

Im = −∑i

pmilog(pmi) (3.51)

où pmi est la probabilité de la classe i dans le noeud m. Dans la méthode C.A.R.T.[68], cette quantité d'informations s'exprime en fonction de l'indice de Gini [155] :

Im = −∑i

pmi (1− pmi) (3.52)

La lisibilité des règles de décision, basée sur de simples seuils, fait que les arbresde classi�cation ont l'avantage de décrire explicitement les données. La rapidité d'exé-cution et la facilité d'implémentation sont d'autres atouts importants. Malgré tout,ces méthodes sont très instables d'une expérience à l'autre. Les arbres obtenus et lesperformances de classi�cation di�èrent fortement si le jeu de données d'apprentissagesubit quelques variations. Par exemple, dans la �gure 3.5, l'arbre obtenu n'est pas ex-clusif, une multitude d'arbres auraient pu convenir. Nous verrons que les techniquesd'ensemble de classi�eurs constituent une solution à ce problème (cf. chapitre 4).

3.4.2 Classi�cation faiblement supervisée

Les arbres de classi�cation ont été développés dans un cadre d'apprentissage super-visé. Nous souhaitons développer une technique d'arbres de classi�cation adaptée auxdonnées d'apprentissage du type {xkn, πk}1≤k≤K,1≤n≤N(k), où n indice les objets dansl'image k.

L'approche consiste à établir un nouveau critère de scission des données lors del'apprentissage. En s'appuyant sur la méthode C4.5 [70], un critère de séparation desdonnées basé sur l'a priori des classes est proposé. Nous cherchons toujours à maximiserle gain d'information par rapport à la valeur de coupure cd et au descripteur d associé,et en exprimant la quantité d'information Im au noeud �ls m ∈ (N)∗ tel que :

Im = −∑i

pmilog(pmi) (3.53)

où pmi est la probabilité de classe i dans le noeud m. Dans le cas de l'apprentissagesupervisé, pmi est la proportion d'individus de la classe i au noeud �ls m par rapport àl'ensemble des individus de la classe i au noeud père. Dans le cas faiblement supervisé,le nombre d'individus de la classe i est indéterminé. Nous proposons donc d'estimer laprobabilité pmi plutôt en tenant compte des a priori πkn. Pour un attribut d, en notantxdkn la projection de xkn sur l'attribut d, alors dans le premier noeud �ls m1 qui est tel

Page 45: These lefort

3.5. CONCLUSION xlv

xdkn ≤ cd où cd est la valeur de coupure du descripteur d, la probabilité de la classe is'exprime ainsi :

pm1i =

∑{k,n}|{xkn}≤cd

(πki)α

I∑j=1

∑{k,n}|{xkn}≤cd

(πkj)α

(3.54)

Dans le second noeud �ls m2, tel que xdkn ≥ cd, la probabilité de la classe i s'exprimeainsi :

pm2i =

∑{k,n}|{xkn}≥cd

(πki)α

I∑j=1

∑{k,n}|{xkn}≤cd

(πkj)α

(3.55)

α ∈ R+ est un paramètre de pondération qui a pour objectif de diminuer l'apportdes exemples dont l'a priori est faible et, inversement, d'augmenter la contribution desexemples dont l'a priori est fort. Cela revient à faire con�ance aux individus dont onest presque sûr de la classe, par exemple des individus dont la probabilité est voisine deπkn = 0, 8, et à négliger ceux dont la probabilité est voisine de πkn = 0. Si α tend vers 0,les exemples de probabilité nulle ont une contribution nulle, les contributions des autresétant sensiblement équivalentes entre elles. Si α tend vers l'in�ni, seuls les exemplesde probabilité très proches de 1 contribuent au calcul de pmi. Cette proposition estinspirée de l'entropie de Rényi [156], qui quanti�e la diversité et la complexité d'unsystème, et qui utilise un paramètre α de façon similaire.

Le choix de la somme dans les expressions (3.54) et (3.55) se justi�e par la volontéde n'exclure aucune classe possible. En e�et, si le produit est choisi et s'il existe aumoins un individu par classe dont l'a priori est nul, alors l'information Im est nullequelque soit α. Un grand nombre d'individus labélisés très probablement peuvent ainsivoir leur contribution annulée du fait de quelques exemples dont les a priori sont nuls.Les dénominateurs des équations (3.54) et (3.55) sont des coe�cients de normalisation.

En classi�cation supervisé, lors de la phase de test, i.e. après l'apprentissage, àchaque noeud est associée une classe (qui correspond à la classe majoritaire dans lenoeud). En classi�cation faiblement supervisée, comme les classes ne sont pas connues,nous attribuons un vecteur de probabilité de classi�cation à chaque noeud dont lescomposantes sont pmi. Ceci est d'autant plus important que l'étiquette �nale associéeau dernier noeud, celle qui sera attribuée aux exemples de test, est donc un vecteurde probabilité de classi�cation, et non plus directement la classe comme dans le cas del'apprentissage supervisé.

3.5 Conclusion

Dans ce chapitre, nous avons étudié trois méthodes élémentaires de classi�cationtrès étudiés dans la littérature. Ces modèles proviennent de notions et d'approches

Page 46: These lefort

xlviCHAPITRE 3. CLASSIFICATION FAIBLEMENT SUPERVISÉE :

MODÈLES PROPOSÉS

nettement opposées. Nous avons présenté les formalismes mathématiques et proposé desextensions aux cas de l'apprentissage faiblement supervisé. En termes de performancesde classi�cation, pour chaque modèle, il existe au moins un jeu de données tel que lesperformances du classi�eur considéré soient supérieures.

Cependant, d'autres méthodes utilisent ces modèles élémentaires pour accroitre lesperformances de classi�cation. Ces techniques constituent l'objet du chapitre 4 : l'étudede l'association de classi�eurs sous la forme de classi�cation itérative ou de fusion deprobabilité.

Page 47: These lefort

CHAPITRE4 Association de classi�eurs

4.1 Introduction

Dans cette thèse, plutôt que de manipuler des labels, des vecteurs de probabilitésde classi�cation décrivent la nature des objets. L'introduction des probabilités induitdes notions usuelles d'apprentissage itératif et de fusion d'informations (cf. algorithmeEM [14], apprentissage semi-supervisé itératif [149], etc). Ajoutons que le cadre généralde l'association de classi�eurs multiples est largement exploité dans le domaine de laclassi�cation automatique (Random forest [95], Boosting [157], etc). Dans ce chapitre,nous étudions ces deux aspects de combinaisons de classi�eurs : l'association de clas-si�eurs multiples et l'apprentissage itératif, le point commun étant que des classi�eurssont combinés entre eux.

Premièrement, dans la section 4.2, nous étudions les ensembles de classi�eurs quifont partie des méthodes qui remportent actuellement un franc succès dû aux excel-lentes performances de classi�cation. L'idée est de générer un ensemble de classi�eursqui proposent chacun une solution, puis une probabilité de classi�cation �nale est pro-posée en fusionnant chaque solution élémentaire. On distingue deux grandes familles deméthodes : celles fondées sur le " bagging " (les classi�eurs générés sont indépendants)et celles fondées sur le " boosting " qui considère une modi�cation dynamique des clas-si�eurs (l'apprentissage d'un classi�eur donnée dépend des performances du classi�eurprécédent).

Deuxièmement, dans la section 4.3, nous étudions les schémas itératifs. Les classi-�eurs peuvent être combinés de manière itérative, l'idée étant d'utiliser l'informationintrinsèque donnée par un classi�eur à une itération donnée a�n de renforcer l'appren-tissage du classi�eur suivant. Un classi�eur à une itération donnée peut alors être vucomme un �ltre : si la connaissance probabiliste du label est peu informative, i.e. lesprobabilités a priori de classi�cation sont faibles, alors le classi�eur est utilisé pourfournir une nouvelle probabilité de classi�cation qui est plus probable et moins bruitée.

4.2 Ensemble de classi�eurs

Nous commençons par un bref état de l'art dans lequel nous donnons quelquesdé�nitions. Cette présentation synthétique a pour objectif d'introduire les méthodesles plus connues et les plus performantes. En revanche, dans les sections 4.2.2 et 4.2.3,

Page 48: These lefort

xlviii CHAPITRE 4. ASSOCIATION DE CLASSIFIEURS

nous choisissons un type de méthode : les forêts aléatoires, que nous développons plus endétail respectivement pour les cas de l'apprentissage supervisé et faiblement supervisé.

4.2.1 Etat de l'art

Les classi�eurs sont plus ou moins performants, plus ou moins stables. De manièregénérale, les ensembles de classi�eurs exploitent l'instabilité de certains modèles declassi�cation. Dans ce cas, un classi�eur très instable est préféré à un classi�eur trèsperformant, stable et robuste. Un classi�eur peu performant, seul, n'est pas béné�quemais quand plusieurs de ces classi�eurs sont regroupés ensemble, ils deviennent com-pétitifs. Plus ils sont instables, plus la quantité d'informations est riche, le but étant desavoir saisir l'information utile fournie par chacun des classi�eurs. Ceci justi�e l'emploide classi�eurs dits " faibles " (peu robustes et peu performants) tels que les arbres declassi�cation et les classi�eurs bayésiens naïfs (voir section 2.2.1 du chapitre 2).

La première famille de méthodes a pour origine la proposition de Breiman de com-biner des classi�eurs à l'aide du Bagging [158]. L'idée est de générer un ensemble declassi�eurs qui sont chacun obtenus à partir d'un sous ensemble aléatoire des donnéesd'apprentissage. La sélection aléatoire d'un sous ensemble d'apprentissage a but decréer de l'instabilité entre classi�eurs. Le choix de classi�cation �nal est obtenu envotant sur l'ensemble des propositions. Si Breiman utilise des ensembles d'arbres declassi�cation, d'autres méthodes mêlent bagging et modèles discriminants ou bagginget modèles génératifs. Par exemple, Kim [159] et Zhang [160] proposent de combinerdes classi�eurs SVM à l'aide du bagging, dans d'autres papiers [161] [162], des modèlesbayésiens naïfs, issus de sous échantillons de données d'apprentissage sont associés entreeux.

Le bagging a montré que l'association de classi�eurs pouvait améliorer nettementles performances de classi�cation. Cependant, le processus de fusion du bagging corres-pond à une règle extrêmement simple. Ainsi sont apparues d'autres méthodes qui sontregroupées sous le nom de " boosting ". Le principe général est de générer un ensemblede classi�eurs dont les résultats de classi�cation sont pondérés en fonction du pouvoirdiscriminant de chaque classi�eur. L'algorithme le plus célèbre est " adaboost " [157][163] [164] (en anglais, abréviation de " Adaptive Boosting "). L'idée est de calculerune probabilité de classi�cation qui résulte d'une somme pondérée des probabilités declassi�cation de chaque classi�eur élémentaires. Les poids sont déterminés en fonctiondes performances de classi�cation du classi�eur élémentaire considéré. Le processusest itératif tel que, d'une itération à l'autre, les classi�eurs concentrent leur faculté dediscrimination sur les exemples di�ciles issus du recouvrement entre classes. Ainsi, lesclassi�eurs issus des premières itérations auront de bonnes performances globales, tan-dis que les classi�eurs issus des dernières itérations seront uniquement performants surles exemples di�ciles. Le meilleur classi�eur Cr d'une itération r donnée est celui quiminimise une fonction de coût qui est fonction des poids attribués à chaque exemple.L'algorithme complet est donné dans le tableau 4.1 dans le cas de l'apprentissage su-pervisé et pour 2 classes. De nombreuses autres versions et extensions sont issues deadaboost. Par exemple, " logitboost " [165] est la version stochastique d'adaboost.Plutôt que d'attribuer une classe binaire aux exemples (l'exemple " appartient " ou

Page 49: These lefort

4.2. ENSEMBLE DE CLASSIFIEURS xlix

" n'appartient pas " à la classe considérée), une régression logistique donne une va-leur intermédiaire probabiliste. Par exemple, des classi�eurs bayésiens naïfs [24] ou desarbres de classi�cation [166] peuvent être employés dans le cadre de logitboost. Diversalgorithmes (" brownboost " [163], " madaboost" [167], DOOM [168]) sont conçus pourêtre plus robustes aux bruits de certains jeux de données (ceux dont le taux de recou-vrement entre classes est élevé). Les di�érences par rapport à adaboost et logitboost sesituent dans la fonction de coût qui peut être exponentielle [157] [165], sigmoïdale [168],exponentielle bornée [167], monotone [163], . . . Des travaux [169] montrent que brown-boost est meilleur qu'adaboost pour des jeux de données bruitées, mais globalement,ces méthodes ne donnent pas de gain signi�catif.

Soit l'ensemble d'apprentissage {xn, yn}1≤n≤N tel que yn = {+1,−1} et M itérations,

1. Initialisation uniforme des poids des exemples :P1(n) = 1/N

2. Pour r allant de 1 à R :� Trouver le classi�eur Cr qui minimise l'erreur de classi�cation en fonction de ladi�culté des exemples Pr :

εr = arg minCr

N∑n=1

Pr(n) [δ (yn, Cr(xn))] où Cr(xn) = {+1,−1} indique la classe

estimée par Cr et δ (y1, y2) = 1 si y1 = y2.� Si εm ≥ 0, 5 aller à l'étape 3.� Choix du poids du classi�eur : αr = 1

2ln(

1−εrεr

)� Mise à jour de la pondération des exemples d'apprentissage :Pr+1 = Pr(n)exp[−αrynCr(xn)]

Zr

où Zr est un coe�cient de normalisation.

3. Le classi�eur �nal C(x) qui attribue une classe à l'exemple x est :

C(x) = sign

(R∑r=1

αrCr(x)

)

Tableau 4.1 � Algorithme adaBoost.

Dans les sections suivantes, nous choisissons l'une de ces méthodes d'associationde classi�eurs que nous développons dans le cas de l'apprentissage supervisé et faible-ment supervisé. Nous choisissons les forêts aléatoires. Notons que des travaux [170] ontmontré que les méthodes fondées sur le bagging donnent de meilleurs résultats pourdes jeux de données bruitées que les méthodes de boosting. Réciproquement on préfèreemployer des techniques de boosting pour des données faiblement bruitées.

4.2.2 Random forest : apprentissage supervisé

Dans le cadre du bagging avec des arbres de décision, Ho propose d'améliorer laméthode en créant encore plus d'instabilité entre les arbres [171]. Pour cela, il proposed'utiliser un sous-échantillon des descripteurs en chaque noeud de chaque arbre dela forêt. Le nombre de variable choisi en un noeud est dé�ni de manière empirique

Page 50: These lefort

l CHAPITRE 4. ASSOCIATION DE CLASSIFIEURS

Figure 4.1 � Dans le cadre des forêts aléatoires, les frontières imprécises et

grossières des classi�eurs faibles sont moyennées pour donner une frontière

plus précise.

[172] [95]. Certains préconisent√D [172], d'autres round(log2(D) + 1) [95], où D est le

nombre total d'attributs et round() sélectionne l'entier le plus proche. Globalement, lesperformances décroissent si le nombre d'attributs choisit pour chaque noeud est soittrop faible, soit trop élevé. L'association du bagging d'arbre de décision avec le choixd'un sous-échantillon de descripteurs en chaque noeud forme les " forêts aléatoires". Des extensions de la méthode permettent de gagner en instabilités et en rapidité.Par exemple, les " extra-trees " [172] proposent de prendre le premier sous-échantillonaléatoire de descripteurs en un noeud donné, contrairement aux forêts aléatoires quisélectionnent le meilleur des sous-échantillons de descripteurs.

De manière intuitive, la forte variabilité des arbres obtenus et la fusion des clas-si�eurs font qu'il se détache une frontière moyenne qui réduit les problèmes de sur-apprentissage intrinsèques aux arbres de classi�cation (section 3.4). L'exemple de la�gure 4.1 illustre le procédé. Dans cet exemple, les frontières générées individuellementpar les arbres de la forêt sont imprécises et grossières, alors que la frontière moyenne,issue de la fusion des classi�eurs, est beaucoup plus appropriée. Tout exemple test estclassé par chacun des arbres de la forêt qui lui attribue un label, puis la fusion desclassi�eurs est e�ectuée par un simple vote en faveur de la classe majoritaire.

4.2.3 Random forest : apprentissage faiblement supervisé

Nous considérons ici une forêt d'arbres comme ceux décrits dans la section 3.4.2 duchapitre 3, i.e. des arbres obtenus à l'aide de données d'apprentissage dont l'informationsur les labels est données par un vecteur de probabilité de classi�cation a priori. Cesarbres prennent un vecteur de probabilités en entrée, i.e. pour l'apprentissage, et ilsproposent un vecteur de probabilités de classi�cation en sortie, i.e. pour la phase de

Page 51: These lefort

4.3. CLASSIFICATION ITÉRATIVE li

test. Le problème est de fusionner ces probabilités.

Dans le cas supervisé, un vote est e�ectué entre les arbres de la forêt pour déterminerquelle est la classe majoritaire. De manière très analogue, dans le cas de l'apprentissagefaiblement supervisé, nous proposons d'e�ectuer la moyenne des probabilités des classesproposées par chacun des arbres de la forêt. En notant pt = [pt1 . . . ptI ], l'étiquetteattribuée à l'individu test x par l'arbre de la forêt indicé par t, la probabilité a posterioride classi�cation s'écrit :

p(y = i|x) =1

T

T∑t=1

pti (4.1)

où T est le nombre d'arbres de la forêt. L'étape de classi�cation consiste à sélectionnerla classe la plus probable au sens de la probabilité a posteriori (4.1).

Notons que si nous considérons un seul arbre, le fait d'attribuer un vecteur deprobabilité de classi�cation peut poser problème si le label obtenu donne une situationd'équiprobabilité. Quelle classe attribuer alors à l'individu test ? Les forêts aléatoiresrésolvent le problème si au moins un des arbres de la forêt ne donne pas une situationd'équiprobabilité.

En�n, de manière générale, la di�culté est d'établir un classi�eur élémentaire dontles paramètres sont estimés à partir de probabilités de classi�cation a priori. Une foiscette tâche accomplie, des classi�eurs élémentaires peuvent être combinés via les forêtsaléatoires ou le boosting. Ici, nous avons choisi ici les forêts aléatoires qui se prêtentdavantage à la classi�cation de données complexes qui se caractérisent par un fort tauxde recouvrent inter classe [170].

4.3 Classi�cation itérative

Dans cette section, nous proposons un processus itératif inspiré de l'apprentissagesemi-supervisé, plus particulièrement du " self-training ". Le " self-training " est étenduau cas de l'apprentissage faiblement supervisé. Deux méthodes sont envisagées, uneméthode simple et naïve qui présente des problèmes de sur-apprentissage (section 4.3.1)et une méthode améliorée qui élimine les e�ets de sur-apprentissage (section 4.3.2).

4.3.1 Apprentissage itératif simple

Nous proposons un apprentissage itératif du classi�eur. Le processus est unique-ment appliqué à l'ensemble d'apprentissage, l'idée étant de modi�er itérativement lesprobabilités de classi�cation a priori de l'ensemble d'apprentissage. En utilisant lesinformations fournies par chaque classi�eur, les labels convergent vers les classes réellesdes exemples d'apprentissage. Ainsi, le classi�eur à une itération donnée peut être vucomme un �ltre qui agit sur les labels bruités et accroit les probabilités de classi�-cation. Cette idée vient de l'apprentissage semi-supervisé, avec le " self-training ". Achaque itération, les données labélisées génèrent un classi�eur probabiliste qui attribueune classe aux données sans label. Les données qui ont les plus fortes probabilités declassi�cation sont ajoutées aux données labellisées pour l'itération suivante.

Page 52: These lefort

lii CHAPITRE 4. ASSOCIATION DE CLASSIFIEURS

Les procédures itératives sont appliquées dans di�érents contextes, mais le classi�eurutilisé est souvent un classi�eur probabiliste génératif [25] [3] qui prend des classes enentrée (pour l'apprentissage) et fournit des probabilités à la sortie. Le point négatif decette approche est la possibilité de propager des erreurs dès les premières itérations(du fait de l'a�ectation d'une classe sur la base des probabilités de classi�cation). Pourréduire les e�ets de propagation d'erreurs, nous n'attribuons pas de classe dé�nitiveaux exemples sans labels, mais les probabilités de classi�cation sont conservées.

Voici comment est implémentée la procédure itérative d'apprentissage que nous ap-pelons " Iter1 ". A l'itération r, étant donné l'ensemble d'apprentissage faiblementsupervisé {xn, πrn}, un classi�eur Cr est constitué. Le classi�eur Cr est ensuite utilisépour mettre à jour les données d'apprentissage {xn, πrn} et fournir de nouvelles pro-babilités de classi�cation πr+1. Cette mise à jour des labels probabilistes πr+1 doitexploiter, à la fois les informations fournies par le classi�eur Cr, i.e. la probabilité declassi�cation a posteriori p(xn|yn = i, Cr), et l'information a priori initiale π1. La miseà jour des labels est ainsi donnée par l'expression suivante :

πr+1n ∝ π1

np(yn = i|xn, Cr) (4.2)

L'algorithme est présenté dans le tableau 4.2. Notons que le classi�eur �nal est apprisà l'aide de l'ensemble d'apprentissage {xn, πR+1

n }.

Soit l'ensemble d'apprentissage T1 = {xn, π1n} et R itérations,

1. Pour r allant de 1 à R :� Apprendre un classi�eur Cr à l'aide de l'ensemble d'apprentissage Tr.� Classer l'ensemble d'apprentissage Tr en utilisant le classi�eur Cr.� Mise à jour de l'ensemble d'apprentissage Tr+1 = {xn, πr+1

n }avec πr+1

n ∝ π1np(yn = i|xn, Cr).

2. Apprendre le classi�eur �nal avec l'ensemble d'apprentisage TR+1.

Tableau 4.2 � Procédure itérative simple pour l'apprentissage faiblement su-

pervisé (Iter1).

4.3.2 Apprentissage itératif amélioré

Le principal défaut de la procédure itérative Iter1, présentée dans la section 4.3.1, estle sur-apprentissage, i.e. le classi�eur �nal est uniquement performant pour les donnéesd'apprentissage et les performances de classi�cation sont mauvaises pour les donnéesde l'ensemble de test. Pour la procédure itérative Iter1, l'origine de ce phénomènevient du fait que les données qui sont classées par le classi�eur Cr sont aussi celles quipermettent d'apprendre le classi�eur Cr. Ainsi, l'optimisation des classi�eurs n'est pasassez générale car elle se focalise uniquement sur les données d'apprentissage.

A�n de résoudre le problème, une autre procédure itérative est proposée, nous l'ap-pelons Iter2. L'idée est de séparer la mise à jours des probabilités de classi�cation apriori et la règle d'apprentissage de la probabilité de classi�cation a posteriori. Nousproposons de séparer aléatoirement l'ensemble d'apprentissage en deux sous-ensembles,

Page 53: These lefort

4.4. CONCLUSION liii

l'un étant employé pour apprendre un classi�eur, et les données de l'autre étant classéespar ce classi�eur. Plus précisément, nous procédons de la façon suivante. A l'itérationr, l'ensemble d'apprentissage Tr = {xn, πrn} est scindé aléatoirement en deux sous-ensembles : le sous-ensemble d'apprentissage Trr et le sous ensemble de test Ttr. Trrpermet d'apprendre le classi�eur probabiliste Cr. Les données de Ttr se voit attribuerdes probabilités de classi�cation a posteriori à l'aide de Cr et les probabilités de classi-�cation a priori sont mises à jour en utilisant la même règle de mis à jour que pour leprocessus itératif Iter1 (expression (4.2)). La scission de Tr est e�ectuée relativementà β qui donne la proportion des exemples placés dans le sous-ensemble d'apprentissageTrr, alors que la proportion des exemples placés dans le sous-ensemble de test Ttrest (1 − β). Le choix de β mène au compromis suivant. A�n que le classi�eur Cr soitcorrectement éstimé, le nombre d'exemples qui constitue Trr doit être su�sammentélevé. Mais si β est trop grand, seuls quelques exemples verront leur label mis à jour àchaque itération et le temps de convergence peut alors être long.

L'algorithme est présenté dans le tableau 4.3. Notons que le classi�eur �nal estappris à l'aide de l'ensemble d'apprentissage {xn, πR+1

n }.

Soit l'ensemble d'apprentissage T1 = {xn, π1n} et R itérations,

1. Pour r allant de 1 à R :� Scinder aléatoirement Tr en deux groupes : Trr = {xn, πrn} et Ttr = {xn, πrn}selon la proportion β.

� Apprendre un classi�eur Cr à l'aide de l'ensemble d'apprentissage Trr.� Classer l'ensemble d'apprentissage Ttr en utilisant le classi�eur Cr.� Mise à jour de Ttr+1 = {xn, πr+1

n }avec πr+1

n ∝ π1np(yn = i|xn, Cr).

� Reformer l'ensemble d'apprentissage Tr+1 tel que Tr+1 = {Trr, T tr+1}.2. Apprendre le classi�eur �nal avec l'ensemble d'apprentisage TR+1.

Tableau 4.3 � Procédure itérative améliorée pour l'apprentissage faiblement

supervisé (Iter2).

Notons que le processus itératif proposé est doublement assoupli par rapport auxméthodes de " self-training " utilisées en apprentissage semi-supervisé. D'une part lesclassi�eurs employés sont probabilistes tant à l'entrée qu'à la sortie, et d'autre part,tous les exemples participent à l'élaboration d'un classi�eur, le poids de chaque exempledans l'apprentissage étant lié à la nature intrinsèque des classi�eurs.

4.4 Conclusion

La manipulation des probabilités de classi�cation a priori comme informations surles labels implique l'emploi de classi�eurs élémentaires dont l'apprentissage est faible-ment supervisé. Dans le cas de la classi�cation faiblement supervisé, ces classi�eursélémentaires, étudiés dans le chapitre 3, peuvent aussi être combinés entre eux. Ce futl'objet de ce chapitre.

Page 54: These lefort

liv CHAPITRE 4. ASSOCIATION DE CLASSIFIEURS

Trois types de combinaison ont été étudiés : les ensembles de classi�eurs qui com-prennent les deux grandes familles du " boosting " et du " bagging ", et l'apprentis-sage itératif pour lequel nous avons proposé une méthode qui supprime les e�ets desur-apprentissage.

Dans le chapitre suivant, nous comparons toutes ces méthodes sur di�érents jeuxde données.

Page 55: These lefort

CHAPITRE5 Evaluations et

performances des modèles

5.1 Introduction

Dans ce chapitre, nous présentons des résultats de simulations sur des jeux dedonnées connus provenant de la base de données UCI [173]. Comme les performancesde la classi�cation faiblement supervisée dépendent largement de la complexité desdonnées d'apprentissage, nous devons maitriser ce paramètre. Ainsi, à partir d'un jeu dedonnées supervisées, des ensembles d'apprentissage faiblement supervisés sont simulésavec plusieurs niveaux d'incertitude qui s'exprime par les probabilités de classi�cation apriori des données d'apprentissage. Le protocole de simulation, qui inclut la générationd'un ensemble d'apprentissage et d'un ensemble de test, est présenté dans la section5.2 et les jeux de données supervisées sont présentés dans la section 5.3.

Les performances de classi�cation sont évaluées en termes de taux de bonne clas-si�cation et en termes de robustesse du modèle vis-à-vis du niveau de bruit dans leslabels. En e�et, le classi�eur idéal est performant en taux de réussite et ses résultats declassi�cation sont identiques en apprentissage supervisé et en apprentissage faiblementsupervisé. Ainsi, deux types de résultats sont présentés : les performances de classi�ca-tion en fonction du niveau de bruit (section 5.4.3) et les performances de classi�cationen fonction du nombre de classes possibles pour chaque exemple (section 5.4.2).

Notons que, en plus des 5 modèles présentés dans les chapitres précédents (la pro-cédure itérative simple associée aux forêts aléatoires (FA+Iter1), la procédure itérativeaméliorée associée aux forêts aléatoires (FA+Iter2), les forêts aléatoires seules (FA), lemodèle discriminant non linéaire (Fisher), et le modèle génératif (EM)), nous propo-sons l'emploi de la procédure itérative simple qui combine deux classi�eurs (d'abordle modèle discriminant non linéaire, puis les forêts aléatoires) sur deux itérations (Fi-sher+FA).

5.2 Procédure de simulation

Une part importante de l'évaluation consiste à mesurer la réponse des modèlesde classi�cation en fonction du niveau de complexité des données d'apprentissage. Ceniveau de complexité est dé�ni par rapport à l'incertitude lié à la connaissance des labels

Page 56: These lefort

lvi CHAPITRE 5. EVALUATIONS ET PERFORMANCES DES MODÈLES

des données d'apprentissage, représentée par les valeurs des probabilités de classi�cationa priori associées aux données d'apprentissage. Un jeu de données dont les probabilitésa priori de classi�cation sont fortes est peu complexe, et un jeu de données pour lequelles classes sont équiprobables est très complexe.

Il est donc nécessaire de maitriser le niveau de complexité pour chaque expérience.Pour cela, un jeu de données supervisées est choisi à partir duquel nous créons un en-semble d'apprentissage faiblement labélisé. Les données sont regroupées par groupes deproportions de classes tels que les proportions indiquent le label probabiliste attribuéà chaque membre du groupe. Plus précisément, la première étape consiste à choisirun jeu de proportions {πk} pour chaque groupe {k} d'exemples, puis les exemplessont distribués dans les groupes pour atteindre les proportions souhaitées. En�n, l'en-semble d'apprentissage {xn, πn} est construit en attribuant à chaque exemple le labelcorrespondant à la proportion de classes de son groupe d'appartenance. Notons qu'ilest préférable de choisir un jeu de données équilibré en classes (qui contient le mêmenombre d'exemples par classe) a�n de faciliter la répartition des données dans lesgroupes et de pouvoir créer un grand nombre de mélanges (plus la base de donnéescontient d'exemples, plus on peut créer de mélanges di�érents).

Deux types d'expérimentations sont présentés. Tout d'abord (section 5.4.2), nousévaluons les performances de classi�cation en fonction du niveau de bruit du label,allant du cas supervisé au cas totalement bruité. Dans un deuxième temps (section5.4.3), nous évaluons les performances de classi�cation en fonction du nombre de classesprésentes dans le mélange. Les jeux de données sont présentés dans la section 5.3.

Une fois qu'un jeu de données est choisi, une validation croisée permet d'évaluer letaux moyen de bonnes classi�cations. La validation croisée consiste à scinder le jeu dedonnées plusieurs fois pour générer l'ensemble d'apprentissage et l'ensemble de test.Après chaque scission, un taux de bonne classi�cation est extrait pour chaque modèle.Les résultats fournis dans ce manuscrit sont les taux moyens de bonnes classi�cationssur l'ensemble de dix expériences.

5.3 Jeux de données

Les jeux de données proviennent de la base de données UCI [173]. Quatre jeuxde données ont été sélectionnés en fonction de critères particuliers. Tout d'abord, ilsdoivent contenir plusieurs classes a�n de créer des a priori complexes impliquant ungrand nombre de classes. Typiquement, nous avons choisi des jeux de données contenantentre 2 et 7 classes. Ensuite, la base de données doit contenir su�samment d'exemplespar classe pour créer un grand nombre de mélanges et une grande variété de types deproportions (section 5.2). En�n, les jeux de données doivent être équilibrés en classespour que les mélanges obtenus suivent les proportions imposées par les proportionscibles (section 5.2). Ces critères spéci�ques nous ont permis de retenir quatre jeux dedonnées dont les caractéristiques sont données dans le tableau 5.1.

D1 est un jeu de données provenant de la communauté de vision par ordinateur.Il contient sept classes de texture d'images (mur de briques, ciel, feuillage, ciment, fe-nêtre, chemin, et herbe), qui sont représentées par 19 descripteurs de texture (intensité,

Page 57: These lefort

5.4. PERFORMANCES lvii

saturation, . . . ). L'intérêt de ce jeu de données est la possibilité de créer des mélangescomplexes à sept classes. D2 est une base de données contenant des mesures extraitessur une �eur (Iris). Trois classes d'Iris sont représentées par les dimensions des pétaleset des sépales portant à quatre le nombre de descripteurs. Le jeu de données D3 estcomposé de graphiques (courbes). Les courbes des graphiques sont classées parmi 6classes : normales, périodiques, plutôt décroissantes, plutôt croissantes, discontinuesvers le haut, ou discontinues vers le bas. Chaque courbes est représentées par un vec-teur de 60 valeurs. Comme pour D1, l'intérêt de ce jeu de données se situe dans le grandnombre de classes proposé. En�n, D4 est le jeu de données proposé par Breiman [68],formé des descripteurs de formes d'ondes. 19 descripteurs continus décrivent 3 classesd'ondes formées de la combinaison de plusieurs bases d'ondes auxquelles s'ajoute dubruit Gaussien.

Base de Nature Nombre Exemples Descripteursdonnées de classes par classe

D1 Texture 7 330 19 (Continus)D2 Végétal 3 50 4 (Continus)D3 Graphique 6 100 60 (continus)D4 Forme d'onde 3 200 19 (Continus)

Tableau 5.1 � Caractéristiques des jeux de données avec leur nature (thème

de classi�cation), I (le nombre de classe), le nombre d'exemples par classe, et

le nombre de descripteurs.

5.4 Performances

5.4.1 Choix des paramètres

La première expérience consiste à choisir les valeurs des paramètres des modèles declassi�cation. La procédure repose sur l'évaluation des performances de classi�cation àpartir d'un ensemble de points possibles (cette approche empirique est souvent e�ectuéequand il n'existe pas de méthode formelle pour le calcul des paramètres [136]), puisle choix de la meilleure valeur du paramètre résulte du calcul des moyennes sur lesjeux de données. Les résultats sont donnés dans l'annexe 1. Notons qu'il est naturel deconsidérer que l'apprentissage supervisé constitue une référence (borne supérieure) pourl'évaluation des performances. Ainsi, tous les paramètres sont évalués sur la base d'unapprentissage supervisé, puis ils sont utilisés pour l'apprentissage faiblement supervisé.Cela est e�ectué pour l'ensemble des expériences à suivre.

Dans le tableau 9.1 de l'annexe 1, nous évaluons les performances de classi�cationsupervisée pour le modèle génératif en fonction du paramètre M , le nombre de Gaus-siennes considérées dans chaque mélange, i.e. le nombre de Gaussiennes par classe (cf.section 3.2 et tableau 3.2). La moyenne des performances de classi�cation sur l'ensembledes jeux de données, nous incite à choisir M = 5.

Page 58: These lefort

lviii CHAPITRE 5. EVALUATIONS ET PERFORMANCES DES MODÈLES

Pour l'évaluation du paramètre Npca, la dimension de l'espace non linéaire dumodèle discriminant (cf. la méthode Kpca dans la section 3.3.1), et du paramètre σ2,le paramètre d'échelle du noyau Gaussien (cf. équation 3.40), une analyse conjointeest e�ectuées. Dans les tableaux 9.2 et 9.3 de l'annexe 1, nous reportons les courbesillustrant les sensibilités des paramètres. Finalement, nous choisissons Npca = 50 etσ2 = 5.

Pour l'évaluation du paramètre T , le nombre d'arbres dans un forêt (cf. section4.2.3), et de la proportion d'exemples d'apprentissage utilisés pour la construction d'unarbre de la forêt par rapport au nombre total d'exemples d'apprentissage (cf. section4.2.3), une analyse conjointe est e�ectuées. Dans les tableaux 9.4 et 9.5 de l'annexe1, nous reportons les courbes illustrant les sensibilités des paramètres. Finalement,nous choisissons T = 100 et une proportion de l'ensemble d'apprentissage de 0,8 pourl'apprentissage d'un arbre.

Dans le tableau 9.6 de l'annexe 1, nous évaluons les performances de classi�cationsupervisée pour les forêts aléatoires, en fonction de α, le paramètre de pondération desprobabilités a priori dans le calcul des entropies en chaque noeud des arbres de décision(cf. section 3.4 et les équations (3.54) et (3.55)). Pour cette expérience, étant donné queα n'a aucun impact si le jeu de données est supervisé, nous avons généré arti�ciellementdes jeux de données pour l'apprentissage faiblement supervisé dont les probabilités apriori impliquent 3 classes possibles (ces expériences sont expliquées plus en détailsdans la section 5.4.3, ils correspondent aux résultats obtenus dans la colonne " 3 " dutableau 5.3). La moyenne des performances de classi�cation sur l'ensemble des jeuxde données, nous incite à choisir α = 1. Notons que ce paramètre est peu in�uent surles résultats de classi�cation, en e�et α impacte sur la dynamique des probabilités quiconservent malgré tout la même organisation hiérarchique. Notons que le paramètre α,relatif à l'apprentissage faiblement supervisé, est le seul paramètre supplémentaire quiest introduit par rapport à l'apprentissage supervisé.

Le nombre R d'itérations pour les processus itératifs (section 4.3) est �xé de manièreempirique en se référant aux résultats expérimentaux (�gure 5.1 de la section 5.4.3).Les résultats indiquent que la convergence est rapide, nous choisissons donc R = 15 engage de réussite.

En�n, le choix du paramètre β (section 4.3.2 du chapitre 4) résulte d'un compromisentre le temps de convergence de la procédure itérative et la quantité d'exemples pourl'apprentissage. Pour les expériences à suivre, nous choisissons de mettre en avantla précision de la classi�cation au détriment du temps de calcul, alors nous �xonsβ = 0, 75. Ce choix se justi�e principalement en fonction du jeu de données D2 quine contient que 50 exemples par classe (cf. tableau 5.1), ainsi, avec β = 0, 75, lesclassi�cateurs seront constitués à partir d'un jeu de données qui contient environ 37exemples par classe. Si nous avions choisi β = 0.5, alors le jeu de données partield'une itération donnée ne contiendrait que 25 exemples par classe. Ce choix est en faitune manière évidente d'obtenir à chaque fois des taux de bonne classi�cation quasi-optimaux pour le classi�cateur donné.

Page 59: These lefort

5.4. PERFORMANCES lix

5.4.2 Performances en fonction de la complexité des données

d'apprentissage

Dans un second temps, nous étudions les performances de classi�cation en fonctionde la complexité de l'ensemble d'apprentissage. Quatre niveaux de complexité sont dé-�nis, allant du cas de l'apprentissage supervisé au cas où la distribution des classes estuniforme. Dans l'annexe 2, nous donnons l'exemple des probabilités a priori généréespour un jeu de données qui contient 4 classes. Dans le cas de l'apprentissage faiblementsupervisé, une seule classe est présente dans le mélange. Dans celui de l'apprentissagefaiblement supervisé (1), une classe domine dans les mélanges mais certaines classessont probables. Dans le cas de l'apprentissage faiblement supervisé (2), le niveau d'in-certitude est supérieur à celui de l'apprentissage faiblement supervisé (1), cela se traduitpar une distribution des probabilités a priori de classi�cation qui tend vers une distri-bution uniforme (cf. annexe 2). Pour éviter un quelconque déséquilibre, chaque classedomine au moins une fois dans un ensemble de données. En�n, le dernier cas traité estcelui où les classes ont la même probabilité a priori de classi�cation. Cette expériencemontre bien comment le formalisme de l'apprentissage faiblement supervisé présentédans ce mémoire généralise les autres types d'apprentissage.

Les résultats sont reportés dans le tableau 5.2 pour 6 modèles de classi�cation : laprocédure itérative simple associée aux forêts aléatoires (FA+Iter1), la procédure itéra-tive améliorée associée aux forêts aléatoires (FA+Iter2), la procédure itérative simplequi combine deux classi�eurs (d'abord le modèle discriminant non linéaire, puis lesforêts aléatoires) sur deux itérations (Fisher+FA), les forêts aléatoires seules (FA), lemodèle discriminant non linéaire (Fisher), et le modèle génératif (EM). De manièreprévisible, les performances de classi�cation décroissent quand le niveau de complexitédes labels augmente, passant de 90% de taux de réussite moyen dans le cas de l'ap-prentissage supervisé, à 24% de taux de réussite moyen dans le cas équiprobable. Celamontre l'importance des valeurs des probabilités a priori des classes. Fort logiquement,sans information a priori sur les classes, les modèles répondent très di�cilement. Seulela connaissance d'un a priori permet d'améliorer nettement les performances de clas-si�cation par rapport au cas équiprobable. Ainsi, dans le cas de " faiblement supervisé(1) pour lequel une classe domine dans le mélange, les performances de classi�cationne sont dégradées que de 11% en moyenne par rapport au cas de l'apprentissage su-pervisé. En termes de comparaison des modèles de classi�cation, la procédure itérativeassociée aux forêts aléatoires (FA+Iter2) est la plus pertinente pour l'" apprentissagefaiblement supervisé (1) " et l'" apprentissage faiblement supervisé (2) ". En revanche,l'algorithme EM est moins robuste à l'introduction d'incertitudes liées au label. Lemodel discriminant se situe entre les deux.

Nous proposons de combiner le modèle discriminant et les forêts aléatoires (Fi-sher+FA) pour deux raisons. La première est que les forêts aléatoires sont très per-formantes en classi�cation supervisée, il semble donc pertinent d'essayer d'obtenir desrésultats équivalents pour des apprentissages plus complexes. La seconde vient de laconstatation d'une certaine robustesse du modèle discriminant (Fisher) vis-à vis de lacomplexité de l'ensemble d'apprentissage, par exemple, nous remarquons que l'écartdes performances diminue assez peu entre le cas de l'apprentissage supervisé et celui

Page 60: These lefort

lx CHAPITRE 5. EVALUATIONS ET PERFORMANCES DES MODÈLES

de l'apprentissage faiblement supervisé. La conjugaison de ces deux propriétés peutêtre pro�table pour certains jeux de données. D'ailleurs, nous verrons dans le chapitre7 que les meilleures performances de classi�cation de bancs de poissons sont obtenuesavec ce modèle.

Type Supervisé Faiblement Faiblement Nond'apprentissage supervisé (1) supervisé (2) supervisé

D1

FA+Iter1 0.96 0.85 0.72 0.14FA+Iter2 0.96 0.91 0.89 0.14Fisher+FA 0.96 0.89 0.74 0.14FA 0.96 0.85 0.73 0.14Fisher 0.90 0.87 0.86 0.14EM 0.83 0.83 0.82 0.19

D2

FA+Iter1 0.97 0.80 0.64 0.33FA+Iter2 0.97 0.92 0.81 0.33Fisher+FA 0.97 0,88 0.72 0,33FA 0.97 0,78 0.60 0,33Fisher 0,89 0,82 0.54 0,33EM 0,94 0,72 0.36 0,38

D3

FA+Iter1 1 0.74 0.63 0.16FA+Iter2 1 0.95 0.90 0.16Fisher+FA 1 0.82 0.74 0.16FA 1 0.76 0.63 0.16Fisher 0.78 0.63 0.57 0.17EM 0.77 0.48 0.38 0.18

D4

FA+Iter1 0.79 0.81 0.33 0.33FA+Iter2 0.79 0.82 0.78 0.33Fisher+FA 0.87 0.75 0.78 0.33FA 0.79 0.81 0.69 0.33Fisher 0.85 0.82 0.64 0.33EM 0.82 0.48 0.63 0.23

Moyennes 0.90 0.79 0.67 0.24

Tableau 5.2 � Evolution du taux moyen de classi�cation en fonction de la

complexité des labels de l'ensemble d'apprentissage. La complexité des données

d'apprentissage évolue du cas de l'apprentissage supervisé au cas équiprobable,

en passant par des cas d'apprentissage faiblement supervisé plus ou moins com-

plexes (cf. annexe 2).

5.4.3 Performances en fonction du nombre de classes dans les

mélanges

Pour cette nouvelle expérience, nous évaluons les performances de classi�cation enfonction du nombre de classes possibles qui dé�nit aussi le niveau de complexité desprobabilités a priori. Cette fois, une grande variété de proportions cibles est créée detelle sorte à trouver des situations de labels faiblement bruités et fortement bruités à lafois, la seule variable étant le nombre de classes présentes dans chaque mélange. Dansl'annexe 3, nous donnons un exemple de proportions cibles pour un jeu de données quicontient 4 classes. Comme précédemment, un nombre su�sant de groupes est considéréa�n que chaque classe domine au moins une fois dans un mélange.

Les résultats sont a�chés dans le tableau 5.3. Le taux moyen de bonne classi�cationest reporté pour chaque jeu de données en fonction du nombre de classes probablesdans le mélange pour chaque exemple de l'ensemble d'apprentissage. La moyenne destaux de réussite et l'écart type des taux de réussite sont reportés pour 6 modèles declassi�cation : la procédure itérative simple associée aux forêts aléatoires (FA+Iter1), laprocédure améliorée associée aux forêts aléatoires (FA+Iter2), la procédure itérative qui

Page 61: These lefort

5.4. PERFORMANCES lxi

combine le modèle discriminant et les forêts aléatoires sur deux itérations (Fisher+FA),les forêts aléatoires seules (FA), le modèle discriminant non linéaire (Fisher), et lemodèle génératif (EM). Les résultats sont positifs si cette moyenne est élevée, ce quiindique que les performances globales sont bonnes, et si l'écart type des taux de réussiteest faible, ce qui signi�e que le classi�eur est robuste vis-à-vis de la complexité desdonnées d'apprentissage.

Globalement, concernant la moyenne des taux de réussite, la méthode FA+Iter2 estla plus performante pour tous les jeux de données. En termes de robustesse relativementà la complexité des données d'apprentissage, la méthode FA+Iter2 est aussi la plusperformante, sauf pour le jeu de données D1 pour lequel le modèle discriminant produitl'écart type des taux de bonne classi�cation le plus faible (0,01 contre 0,04 pour lemodèle FA+Iter2).

L'analyse des résultats obtenus à l'aide des classi�eurs élémentaires montre quele modèle discriminant et les forêts aléatoires présentent des performances sensible-ment équivalentes. Par exemple, pour le jeu de données D1, le modèle discriminantest meilleur avec une moyenne des taux de réussite valant 0,88 (contre 0,86 pour lesforêts aléatoires), et un écart type des taux de réussite qui vaut 0,01 (contre 0,11 pourles forêts aléatoires). Inversement, pour le jeu de données D2, la moyenne des taux debonne classi�cation atteint 89% pour les forêts aléatoires, contre 79% pour le modèlediscriminant, et l'écart type des taux de bonne classi�cation est de 8%, contre 10% pourle modèle de classi�cation. Cela s'explique par l'organisation intrinsèque des donnéesqui requière l'emploi d'un classi�eur particulier. Dans le domaine de la classi�cationautomatique, il est admis que, à un jeu de données, correspond un type de classi�eur.Ainsi, le choix du noyau est essentiel, si les performances de classi�cation sont moinsbonnes avec le modèle discriminant, cela peut venir du fait que les similarités spa-tiales induites par le noyau Gaussien ne correspondent pas à la distribution spatialedes données.

La combinaison de classi�eurs, soit par un processus itératif (FA+Iter2), soit par lacombinaison de classi�eurs probabilistes (Fisher+FA), permet d'améliorer nettementles performances de classi�cation. En e�et, si les performances des forêts aléatoiresdécroissent avec la complexité de l'ensemble d'apprentissage, la combinaison de clas-si�eurs garantit d'avantage de robustesse, diminuant l'écart type des taux de réussite,et en conséquence, augmentant le taux de réussite moyen. Cela est dû au fait que lesprobabilités a priori sont corrigées, soit de manière itérative (pour les modèles Iter1 etIter2), soit en combinant les probabilités a posteriori des classi�eurs (pour le modèleFisher+FA). Par exemple, pour le jeu de données D1, l'écart type des taux de réussitediminue de 6% pour FA+Iter2 (par rapport à FA), tandis qu'il diminue de 7% pourFisher+FA (par rapport à FA), béné�ciant ainsi de l'apport de robustesse du modèlediscriminant (l'écart type des taux de réussite vaut 0,01 pour le modèle discriminant).Notons que les combinaisons de modèles discriminants ou de modèles génératifs, viades procédures itératives n'ont pas donné de résultats convaincants, étant données lesperformances relativement moyennes obtenues en classi�cation supervisée (les résultatsde classi�cation faiblement supervisée sont logiquement inférieurs à ceux obtenus enclassi�cation supervisée).

En revanche, pour ces jeux de données, les performances obtenues à l'aide du modèle

Page 62: These lefort

lxii CHAPITRE 5. EVALUATIONS ET PERFORMANCES DES MODÈLES

génératif sont moins bonnes, en moyenne, que celles obtenues à l'aide des autres mo-dèles. Cela peut s'expliquer par la distribution spatiale des données qui ne correspondpas à une organisation de mélange de Gaussiennes. Cependant, pour le jeu de donnéesD2, malgré la supériorité des modèles basés sur les forêts aléatoires, les performancesde classi�cation du modèle génératif sont meilleures que celles du modèle discriminant,atteignant 90% de taux de réussite moyen et un écart type des taux de réussite de 5%.

Nombre de Moyennes /classes dans 1 2 3 4 5 6 7 Ecart typele mélange

D1

FA+Iter1 0.96 0.90 0.88 0.88 0.85 0.75 0.55 0.80 - 0.13FA+Iter2 0.96 0.96 0.96 0.94 0.94 0.92 0.81 0.92 - 0.05Fisher+FA 0.96 0.95 0.94 0.93 0.93 0.92 0.81 0.92 - 0.04FA 0.96 0.92 0.91 0.88 0.88 0.84 0.62 0.86 - 0.11Fisher 0.90 0.89 0.89 0.89 0.89 0.89 0.84 0.88 - 0.01EM 0.83 0.83 0.84 0.83 0.83 0.83 0.75 0.82 - 0.03

D2

FA+Iter1 0.97 0.97 0.84 0.90 - 0.09FA+Iter2 0.97 0.97 0.92 0.94 - 0.03Fisher+FA 0.97 0.95 0.88 0.93 - 0.04FA 0.97 0.90 0.81 0.89 - 0.08Fisher 0.89 0.80 0.69 0.79 - 0.10EM 0.94 0.95 0.85 0.90 - 0.05

D3

FA+Iter1 1 0.90 0.91 0.82 0.74 0.74 0.86 - 0.07FA+Iter2 1 1 0.99 0.98 0.97 0.98 0.98 - 0.01Fisher+FA 1 0.96 0.93 0.84 0.90 0.91 0.92 - 0.05FA 1 0.9 0.89 0.75 0.82 0.88 0.87 - 0.08Fisher 0.78 0.72 0.68 0.62 0.62 0.73 0.69 - 0.06EM 0.77 0.62 0.62 0.45 0.47 0.58 0.58 - 0.11

D4

FA+Iter1 0.79 0.74 0.35 0.54 - 0.27FA+Iter2 0.79 0.83 0.81 0.82 - 0.01Fisher+FA 0.87 0.83 0.80 0.81 - 0.02FA 0.79 0.83 0.81 0.81 - 0.02Fisher 0.85 0.81 0.77 0.81 - 0.04EM 0.82 0.8 0.74 0.79 - 0.04

Tableau 5.3 � Evolution du taux moyen de classi�cation en fonction du

nombre de classes dans chaque mélange. Des jeux de proportions sont créés,

allant du cas supervisé au cas où toutes les classes sont probables (annexe 3).

Une comparaison entre les processus itératifs Iter1 et Iter2 est e�ectuée (section4.3). Iter1 est une méthode simple d'apprentissage des labels qui peut introduire une�et de sur-apprentissage. La méthode améliorée Iter2 élimine ce phénomène de sur-apprentissage. La comparaison s'e�ectue en traçant l'évolution du taux de bonnes clas-si�cations en fonction des itérations pour les deux approches. Cela est proposé dansla �gure 5.1 pour les deux jeux de données D1 et D3. A chaque itération, les donnéesd'apprentissage sont mises à jour, un modèle de classi�cation est appris, et �nalementles données de test sont classées pour fournir un taux de bonnes classi�cations. Lamise à jour des labels permet une meilleure estimation des modèles de classi�cation.Par exemple, en considérant la méthode Iter2, un gain de 10% de réussite est obtenuentre l'itération 1 et l'itération 15 pour le jeu de données D3. De la même façon, Iter2permet d'améliorer les performances de classi�cation d'environ 4% pour D1. L'impor-tance d'éviter les e�ets de sur-apprentissage induit par la procédure itérative Iter1 estclairement justi�ée dans cette �gure. En e�et, pour Iter2, alors que les performancessont améliorées à chaque itération, celles produites par Iter1 sont quasi-régulières etpeu convaincantes.

Ce résultat justi�e les performances de classi�cation obtenues dans les tableaux 5.2et 5.3.

Page 63: These lefort

5.5. CONCLUSION lxiii

(a) D1

(b) D3

Figure 5.1 � Evolution du taux moyen de classi�cation en fonction des ité-

rations.

5.5 Conclusion

Synthèse.

Dans ce chapitre, pour plusieurs jeux de données, nous testons les performancesde classi�cation des modèles d'apprentissage faiblement supervisée. A�n de mesurer lecomportement des classi�eurs vis-à-vis de la complexité de l'ensemble d'apprentissage(en termes de connaissance des labels), nous avons choisi de générer arti�ciellementdes ensembles d'apprentissage dont la connaissance des labels est donnée par des vec-teurs de probabilités de classi�cation a priori. Cela nous permet d'ajuster la complexitédu jeu de données pour mieux comparer les méthodes entre elles. L'analyse des perfor-mances de classi�cation montre que les forêts aléatoires associées à un processus itératifdonnent souvent les meilleurs résultats en termes de compromis entre les performancesde classi�cation et la robustesse vis-à-vis de la complexité des données d'apprentis-sage. La condition principale de réussite de l'apprentissage faiblement supervisé (telque les performances de classi�cation soient similaires à celle obtenue en apprentissagesupervisé) est la présence d'a priori forts associés aux données d'apprentissage.

Points à améliorer.

Premièrement, il faut envisager une étude théorique du critère de convergence qui

Page 64: These lefort

lxiv CHAPITRE 5. EVALUATIONS ET PERFORMANCES DES MODÈLES

permette de dé�nir le cadre qui valide, ou non, la convergence du processus. Un critèred'arrêt semble aussi essentiel pour que la méthode soit transférable dans le domaine del'application.Deuxièmement, nos modèles de classi�cation sont très dépendants des probabilités declassi�cation a priori. Par exemple, nous constatons que, quand les probabilités declassi�cation a priori tendent vers le cas équiprobable, les performances des classi�eurssont très mauvaises (cas équiprobable dans le tableau 5.2). Ainsi, nos méthodes sontdavantage fondées sur le �ltrage des exemples dont les a priori de classi�cation sontfaibles, le plus souvent en utilisant le principe des sommes pondérées.Troisièmement, certaines améliorations peuvent être apportées sur les méthodes d'ap-prentissage. Par exemple, le critère de fusion des probabilités de chaque arbre d'uneforêt pourrait prendre en compte un paramètre de pondération issu du chemin par-couru par les exemples de l'ensemble de test dans chaque arbre de la forêt. En outre,la méthode itérative améliorée proposée repose sur un principe de scission aléatoiredes données qui permet d'éviter le sur-apprentissage. Cela peut poser problème si lesexemples d'apprentissage sont peu nombreux. D'autres méthodes permettraient de sé-parer la mise à jour des probabilités de classi�cation a priori et la règle d'apprentissagede la probabilité de classi�cation a posteriori, notamment, les exemples d'apprentissagepourraient être sélectionnés en fonction de leur degré de con�ance.

En�n, nous présentons l'apprentissage faiblement supervisé comme étant une géné-ralisation de l'apprentissage semi-supervisé. Il est donc nécessaire de montrer le com-portement des modèles dans ce cadre. Dans la �gure 5.2, nous a�chons des résultatsqui mettent en avant l'utilisation de notre approche par rapport au " self-training ", ilreste cependant à comparer les performances de classi�cation à celles des modèles del'état de l'art.

Page 65: These lefort

5.5. CONCLUSION lxv

(a) D2

(b) D3, classe " normale " contre classe " cyclique "

Figure 5.2 � Pour l'apprentissage semi-supervisé, évolution du taux moyen de

classi�cation en fonction des itérations pour D2 et D3. Cinq modèles de classi-

�cation sont comparés : le processus itératif amélioré avec les forêts aléatoires

assouplies (FA+Iter2), l'algorithme " self-training " (ST) (cf. section 2.5 du

chapitre 2) associé aux forêts aléatoires assouplies (FA+ST), l'algorithme ST

associé aux forêts aléatoires usuelles qui ne prennent pas de probabilités en en-

trées (hard FA+ST), l'algorithme ST associé à l'algorithme EM (EM+ST), et

l'algorithme EM présenté dans la section 3.2.3 du chapitre 3.

Page 66: These lefort
Page 67: These lefort

Deuxième partie

Classi�cation automatique en

acoustique halieutique

Page 68: These lefort
Page 69: These lefort

CHAPITRE6 Sondeurs acoustiques et

logiciels de traitement

6.1 Introduction

Le sondeur acoustique est actuellement l'outil le plus adapté pour observer le mi-lieu sous marin. Parmi les di�érents types d'ondes comme les ondes électromagnétiqueou celles fondées sur l'énergie électrique, seule les ondes acoustiques possèdent des ca-ractéristiques de propagation adéquates dans le milieu aquatique. Non seulement lesconditions de propagation sont correctes, mais les cibles potentielles comme les pois-sons, le plancton, ou le fond de la mer, ré�échissent une partie des ondes acoustiques.Les ondes acoustiques sont alors émises depuis le sondeur et une partie se ré�échit surchaque cible telle que l'échantillonnage des signaux issus des di�érents échos des ciblespermet de construire une image appelée échogramme. Ainsi, chaque pixel de l'imagereprésente un échantillon de l'espace sous marin tel que la valeur du pixel est fonctionde l'énergie moyenne qui est ré�échie dans cet échantillon spatial (on parle d'énergierétrodi�usée par cet échantillon).

Les applications du sondeur acoustique sont multiples. En biologie, le sondeur trouvede nombreuses applications. Celui-ci peut être un outil de pêche sélective, le pêcheurchoisissant par exemple de sélectionner une espèce de poissons rentable tout en préser-vant une espèce protégée. Les campagnes d'évaluation des stocks de certaines espèceshalieutiques sont aussi e�ectuées à l'aide des sondeurs acoustiques [126]. La biomasse dechaque espèce est alors déduite de l'observation des échogrammes et de la classi�cationdes images. Le sondeur acoustique est également très utilisé en géoscience [174] : pourla caractérisation verticale des sédiments, par exemple pour la prospection pétrolière,ou en bathymétrie, par exemple pour mesurer le relief et déterminer la nature du fond.En océanographie physique, en utilisant l'e�et Doppler, le sondeur acoustique permetde mesurer la vitesse et la structure des masses d'eau [175]. En�n, la catastrophe aé-ronautique de juin 2009, dans laquelle un avion a disparu en plein océan atlantique, amontré que le sondeur acoustique reste l'un des principaux outils (avec le sonar) utiliséspour la fouille des océans (l'idée était de retrouver les boites noires de l'appareil à l'aidedes sondeurs acoustiques).

Dans ce chapitre, nous présentons les caractéristiques essentielles des sondeursacoustiques. Ces caractéristiques doivent être appréhendées a�n de comprendre com-ment sont construites les images et quelles sont les contraintes liées aux sondeurs. Deux

Page 70: These lefort

lxxCHAPITRE 6. SONDEURS ACOUSTIQUES ET LOGICIELS DE

TRAITEMENT

Figure 6.1 � Diagramme de rayonnement des sondeurs acoustiques mono-

faisceau.

types de sondeur sont présentés : le sondeur monofaisceau (section 6.2) et le sondeurmultifaisceaux (section 6.3).

6.2 Sondeur monofaisceau

Les sondeurs acoustiques monofaisceau sont �xés sur la coque des navires etémettent une onde acoustique verticale du bateau vers le centre de la terre. Plus pré-cisément, à l'instar des antennes électromagnétiques, l'onde se propage dans toutes lesdirections mais avec des gains d'atténuation plus ou moins variables en fonction del'orientation. Ainsi, comme illustré dans la �gure 6.1, le lobe principal du diagrammede rayonnement qui contient la majeure partie de l'énergie acoustique émise et re-çue, est orienté du sondeur vers le centre de la terre (axe Z). Les lobes secondairesdu diagramme de rayonnement produisent du bruit acoustique que nous considéronsnégligeable dans ce manuscrit. En ne considérant que la partie du diagramme de rayon-nement comprise dans l'angle d'ouverture à -3dB, cela revient à voir le diagramme derayonnement de l'antenne comme un cône dont le sommet est situé sur la base dusondeur, dont la droite génératrice est parallèle à l'axe Z et dont l'angle correspond àl'angle d'ouverture à -3dB du diagramme de rayonnement réel (cf. �gure 6.1). Notonsque dans tout le document, X représente le déplacement du navire, Y la transversaleau navire, et Z l'axe qui va du navire vers le fond de la mer.

L'onde acoustique est un pulse d'une fréquence donnée. Par exemple, sur le navireThalassa, il existe 5 sondeurs monofaisceau qui se distinguent par la fréquence despulses (18kHz, 38 kHz, 70 kHz, 120 kHz, et 200kHz). L'intérêt d'une analyse multi-fréquentielle réside dans le fait que les cibles répondent di�éremment en fonction dela fréquence. Par exemple, les maquereaux, qui n'ont pas de vessie natatoire (poched'air qui permet aux poissons de modi�er leur �ottabilité en fonction de la profondeur),

Page 71: These lefort

6.2. SONDEUR MONOFAISCEAU lxxi

rétrodi�usent plus facilement l'énergie acoustique des impulsions de fréquences élevées.Ici, nous supposons que le sondeur émet une onde acoustique homogène dans le côned'émission (�gure 6.1). Après émission d'un pulse, le sondeur se place en mode d'écouteet acquière le signal ré�échi. Les instants des échos du signal ré�échi renseignent sur ladistance de la cible par rapport au sondeur tandis que l'amplitude des échos du signalré�échi donne le pouvoir ré�échissant de la cible [126]. Le signal ré�échi est converti enénergie électrique, puis il est ampli�é et échantillonné. La fréquence d'échantillonnagedonne directement la hauteur du volume élémentaire de l'espace. Ce volume élémentaireest un morceau de cône, tel que son diamètre croît avec la profondeur. Par exemple, lafréquence d'échantillonnage vaut 7,5kHz, soit une hauteur constante du volume élémen-taire de 0,1m. Pour le sondeur à 38kHz, l'angle d'ouverture à -3dB est de 7° conduisantà un diamètre de 6,1m pour une profondeur de 50m et un diamètre de 12,2m pourune profondeur de 100m. L'amplitude de chaque échantillon du signal électrique estdonc proportionnelle à l'énergie rétrodi�usée dans le volume élémentaire considéré enprenant en compte les pertes de propagation.

Nous appellons " ping " l'émission d'un pulse. Par pings successifs, avec la pro-gression du bateau, une image peut être construite. Les pixels représentent les volumesspatiaux élémentaires. Chaque colonne de l'image représente un ping et chaque ligne re-présente une plage de profondeur (de taille 0,1m), de telle sorte que les valeurs des pixelssoient proportionnelles à l'énergie rétrodi�usée dans le volume élémentaire. Ainsi, pourune image en niveau de gris, l'intensité des pixels est relative à l'énergie rétrodi�uséedans le volume élémentaire considéré. Dans la �gure 6.2, nous représentons un exempled'images obtenues après plusieurs pings de deux sondeurs monofaisceau (un sondeurde fréquence d'impulsion 18kHz et un sondeur de fréquence d'impulsion 200kHz). A�nde discerner les formes, un seuil de -70dB est appliqué, i.e. les valeurs d'énergie infé-rieures à -70dB sont forcées à une valeur d'énergie très basse (-120dB). Finalement, ondistingue dans les images le fond de la mer, des taches qui correspondent à des agré-gations de poissons, et des couches de planctons. Nous remarquons également que lesniveaux de gris ont changé pour certains pixels d'une image à l'autre. Cela est dû à laréponse acoustique des cibles qui di�ère en fonction de la fréquence des pulses. Ainsi,les couches de planctons, bien visibles à 200kHz, ont quasiment disparues à 18kHz.De même, comme l'angle d'ouverture est variable d'une fréquence à l'autre (10° pour18KHz et 7° pour 200KHz), des agrégations ne sont plus intégrées dans le faisceau à200KHz alors qu'elles le sont à 18kHz.

Il existe plusieurs cas ambigus liés au système. Premièrement, il se peut que levolume élémentaire contienne seulement une partie d'un objet rétrodi�usant, l'autrepartie étant vide d'objet. Dans ce cas, l'énergie rétrodi�usée ne correspond pas réelle-ment à celle de l'objet, mais elle est sous-estimée. Par exemple, il se peut que l'énergierétrodi�usée soit la même dans le cas d'un volume élémentaire qui contient quelquespoissons épars répartis dans le volume et dans le cas d'un volume élémentaire occupépartiellement par un banc très dense. Cet e�et de résolution, qui est accentué dans lesgrandes profondeurs pour lesquelles la taille du volume élémentaire augmente, provoqueune forte imprécision horizontale sur les mesures des objets de ces images. Deuxième-ment, le bateau se déplace suivant l'axe des X en émettant des pings à intervallesréguliers. Etant donnée la forme conique du diagramme de rayonnement, certaines

Page 72: These lefort

lxxiiCHAPITRE 6. SONDEURS ACOUSTIQUES ET LOGICIELS DE

TRAITEMENT

Figure 6.2 � Exemple d'une image obtenue après plusieurs pings d'un sondeur

monofaisceau.

zones de l'espace sont invisibles (celles qui sont situées proches de la coque du na-vire), et d'autres sont vues plusieurs fois par plusieurs pings successifs (celles qui sontproches du fond). Un compromis est �xé par la fréquence des pings qui est fonctionde la profondeur. L'e�et de chevauchement des diagrammes de rayonnement des pingssuccessifs entraine une imprécision sur la mesure de l'énergie rétrodi�usée par l'objet.Pour les bancs de poissons, l'énergie associée à un banc est obtenue en moyennant lesénergies rétrodi�usées de chaque ping du banc de poissons considéré. Donc, pour unbanc, plus il y a de pings et plus il y a de chevauchement inter-ping, plus l'énergie estcorrectement estimée.

6.3 Sondeur multifaisceaux

Le principe du sondeur multifaisceaux est très proche de celui du sondeur mono-faisceau. Outre certaines caractéristiques techniques internes à l'appareil, la di�érencese situe dans le diagramme de rayonnement qui contient plusieurs cônes indépendants.L'idée est de juxtaposer plusieurs sondeurs monofaisceau tel que une plus grande partiede l'espace sous le navire soit couvert. Chacun des sondeurs est responsable d'une zonesous le navire et à chaque ping, chaque sondeur renvoie un signal ré�échi. Ainsi, parpings successifs une image en trois dimensions est construite. Comme dans la �gure6.1, nous considérons que chaque faisceau est un cône. Dans la �gure 6.3, à gauche,nous présentons le cas d'un diagramme de rayonnement d'un sondeur à 5 faisceaux. Lebateau se déplace suivant les X, l'axe Y représente la transversale au bateau, et l'axe Zva du bateau jusqu'au centre de la terre. En pratique, dans les con�gurations usuellesdu système utilisé, il y a 21 faisceaux tels que les angles d'ouverture à -3dB variententre 3° et 6°, et tels que l'angle formé par les axes des deux faisceaux extrêmes soitd'environ 85°, i.e. Φ=42,5°. Pour éviter que les faisceaux interagissent entre eux (un

Page 73: These lefort

6.4. CONCLUSION lxxiii

faisceau pourrait capter l'écho produit par un faisceau voisin), la fréquence des pulsesest di�érente d'un faisceau à l'autre. Un �ltre passe bande est donc associé à chaquefaisceau pour ne garder que la fréquence correspondante. En pratique, l'ensemble dessous-bandes s'étalent sur une plage de fréquence de 50kHz.

Dans la partie droite de la �gure 6.3, la zone insoni�ée est représentée en pointillédans le plan (Y, Z). Dans cette zone, deux parties sont discernables : une zone quine contient que du signal utile et une zone qui contient du signal utile et du bruit.Le bruit est produit par les faisceaux dépointés, i.e. les faisceaux qui ne sont pasorientés parallèlement à l'axe Z, et plus particulièrement par leurs lobes secondaires.En e�et, prenons l'exemple d'un faisceau orienté à Φ=45°, alors les lobes secondairessont orientés verticalement avec un maximum de rétrodi�usion. Pour ce faisceau, leséchos du fond de la mer reçu par les lobes secondaires parviennent avant ceux perçuspar le lobe principal, cela a pour e�et de créer une zone demi-sphérique dans laquelledu bruit se mélange au signal. Notons que ce bruit disparaît si l'image est seuillée à uncertain niveau d'énergie.

Comme pour le sondeur monofaisceau, les pings successifs du sondeur multifaisceauxpermettent de construire une image en trois dimensions. Un exemple d'image en troisdimensions est montré dans le haut de la �gure 6.4. Il s'agit de la même zone insoni�éeque dans la �gure 6.2. Premièrement, nous constatons que la quantité d'informationest beaucoup plus importante pour le sondeur multifaisceaux. Cela est dû au fait quela zone insoni�ée est plus large et au fait que le sondeur monofaisceau passe à côté decertaines agrégations de poissons. Ainsi, l'image fournie par le sondeur multifaisceauxest plus riche en informations. Deuxièmement, l'image obtenue à l'aide des sondeursmultifaisceaux est beaucoup plus précise quant à la forme des agrégations de poissons.Par exemple, dans le zoom de la partie basse à gauche de la �gure 6.4, alors que l'imagerévèle des formes complexes et particulières des agrégations de poissons, celle obtenueà l'aide du sondeur monofaisceau (�gure 6.2) ne donne qu'un aperçu d'une coupelongitudinale dans le plan (X,Z). Les apports du sondeur multifaisceaux par rapport ausondeur monofaisceau sont donc la meilleure représentation de la distribution spatialedes agrégations et un aperçu plus informatif de la morphologie des agrégations depoissons.

Il existe des problèmes de résolution spatiale. Tout d'abord, on trouve les mêmesproblèmes que pour le sondeur monofaisceau : les zones invisibles proches du bateauentre chaque ping, les zones où les faisceaux se chevauchent d'un ping à l'autre à partird'une certaine profondeur, et la taille du volume élémentaire qui augmente avec laprofondeur. S'ajoute à cela le cas des faisceaux extérieurs pour lesquels les volumesélémentaires sont inclinés d'un angle Φ correspondant à l'orientation de l'axe du cônede rayonnement. Ce phénomène est visible dans le bas à droite de la �gure 6.3. Lameilleure résolution n'est donc pas verticale mais suivant l'axe du cône de rayonnement.

6.4 Conclusion

Comme entrevu dans la section 6, il est indispensable de développer des outils�ables et robustes d'observation du milieu sous marin. Les raisons peuvent être d'ordre

Page 74: These lefort

lxxivCHAPITRE 6. SONDEURS ACOUSTIQUES ET LOGICIELS DE

TRAITEMENT

Figure 6.3 � Diagramme de rayonnement des sondeurs acoustiques multifais-

ceaux.

Figure 6.4 � Exemple d'un échogramme acquis à l'aide d'un sondeur multi-

faisceaux.

écologique, environnemental, commercial, ou scienti�que. Dans ce contexte, le son-deur acoustique monofaisceau est un instrument d'observation idéal qui permet, viaun échantillonnage de l'espace, de construire une image dans laquelle sont visibles lesagrégations de planctons, les bancs de poissons, et le fond de la mer. Le sondeur mul-tifaisceaux fait encore mieux : l'image obtenue est en trois dimensions et les volumesélémentaires sont plus petits. Ces progrès, en termes de résolution d'image, donnentlieu à une meilleure description morphologique et énergétique des agrégations. A�nde générer des images exploitables, le sondeur acoustique est associé à un logiciel detraitement du signal qui met en forme les images et en extrait des paramètres comme

Page 75: These lefort

6.4. CONCLUSION lxxv

ceux des bancs de poissons.

Dans ce chapitre, les outils d'observations utilisés pour cette thèse sont présentésgrossièrement. L'objectif est de bien conceptualiser le contexte d'acquisition des images.Nous avons volontairement peu développé certains aspects liés aux capteurs comme leproblème des lobes secondaires des sondeurs acoustiques, ou celui de la détection dufond, ou encore les problèmes liés à l'étalonnage des appareils. Dans les prochainschapitres, nous mettrons l'accent sur les descripteurs associés aux bancs de poissonsextraits de ces images (chapitre 7) et nous traiterons le cas pratique des évaluations destocks (chapitre 8).

Page 76: These lefort
Page 77: These lefort

CHAPITRE7 Classi�cation et

reconnaissance des

structures

7.1 Introduction

Les applications usuelles de traitement d'échos acoustiques sont, par exemple, laclassi�cation des bancs de poissons (à chaque agrégation correspond une espèce de pois-son ou un regroupement d'espèces de poissons), la classi�cation des images (à chaqueimage correspond une proportion de biomasse par espèce ou d'énergie par espèce), ouencore l'étude des distributions des agréations (soit spatialement, soit dans l'espace desdescripteurs des bancs de poissons), l'objectif étant d'e�ectuer des analyses généralesd'un écosystème [126]. Dans cette thèse, nous nous plaçons dans le cas de la classi�-cation des bancs de poissons. Cela nécessite d'extraire préalablement des descripteurspour chaque banc de poissons. Ces descripteurs sont les paramètres morphologiquesdes bancs, les paramètres relatifs à l'énergie rétrodi�usée, et les caractéristiques depositionnement spatial des agrégations.

Un bref état de l'art sur la caractérisation des structures est e�ectué dans la section7.2.

Ensuite, dans la section 7.3, nous étudions les descripteurs associés aux bancs depoissons et discutons des approximations e�ectuées. Un test de reconnaissance desbancs 2D est e�ectué pour retrouver, et étendre les résultats présentés dans la thèsede Carla Sclalabrin [176].

La dimension " bancs " semble trop élémentaire pour appréhender une organisationspatiale des bancs de poissons à l'échelle d'un écosystème ou plus simplement d'unerégion. Cela devient d'autant plus important avec les données issues du sondeur mul-tifaisceaux pour lesquelles la notion de bancs de poissons est moins fondée. Dans cecontexte, nous préférons une analyse globale de l'image et nous proposons un descrip-teur statistique qui modélise à la fois l'organisation spatiale des bancs de poissons, etla composition du mélange d'espèces (section 7.4).

Page 78: These lefort

lxxviiiCHAPITRE 7. CLASSIFICATION ET RECONNAISSANCE DES

STRUCTURES

7.2 Etat de l'art

Les premiers travaux sur l'analyse des réponses acoustiques des bancs de poissonssont e�ectués de manière manuelle. Par exemple, Renou, Tchernia, Hodgson et Per-cier [177] [178] [179] montrent de manière quantitative que les réponses acoustiquesdes bancs de poissons sont fonction des espèces insoni�ées. Les travaux étaient e�ec-tués à partir de l'étude des formes des échotraces obtenus. A l'époque, il n'y avaitpas de logiciels informatiques et les paramètres explicatifs des bancs étaient extraitsmanuellement à partir du graphique fourni par une table traçante.

Dans les années 70, une avancée considérable est réalisée quant à la modélisationdes indices de rétrodi�usion des cibles individuelles et des bancs de poissons [180][181] [182] [183] [184]. Ces travaux mettent en relation la taille du poisson, l'espèce dupoisson, et la densité du banc de poissons, avec l'indice de rétrodi�usion de l'énergieacoustique. Par exemple, connaissant l'intensité de l'écho, le type et la taille du poisson,alors l'expert est en mesure d'évaluer la biomasse du banc de poissons insoni�é.

Les années 80 et l'avènement de l'informatique ont permis l'échantillonnage dusignal issu du sondeur et le stockage des échantillons. De là, les premiers travaux post-extraction [185] [186] sont apparus : à l'instar des travaux de Fisher sur les Iris [36],des paramètres sont extraits manuellement des bancs de poissons (longueur, hauteur,position dans la colonne d'eau, énergie moyenne rétrodi�usée, . . . ) et des processus declassi�cation permettent l'analyse des données.

Le développement de logiciels d'extraction automatiques des bancs de poissons etde traitement des données constitue une étape importante en acoustique halieutique.Parmi ces logiciels [187], on peut citer des logiciels français comme Movies+ [188] etces divers évolutions [189] [190], des logiciels utilisés par la communauté internationalcomme EchoView 1, Bergen Integrator (BI) 2, . . .

Dès lors, le processus de traitement n'a jamais cessé de s'améliorer et des protocolesde classi�cation d'espèces ou d'estimation de biomasse sont établis [187]. Par exemple,dans ses travaux, Carla Scalabrin dé�nit le banc de poissons et propose une liste ex-haustive de descripteurs associés aux sondeurs monofaisceau [191] [192] [193] [194] [195][176]. Ses travaux marquent aussi le début de l'automatisation complète du processusde reconnaissance, allant de l'extraction automatique des bancs de poissons, jusqu'à laclassi�cation automatique par espèce. Noël Diner, via des outils de simulation d'agré-gations, propose des méthodes de correction des descripteurs des bancs de poissons[196].

Avec l'avènement du sondeur multifaisseaux, la caractérisation des structuresconnaît un renouveau. Les développements technologiques récents permettent d'amé-liorer en résolution et en dimension l'observation de la colonne d'eau. L'analyse de cesimages en 3 dimensions ont déjà fait l'objet de publications [197] [198]. Récemment,de nouveaux outils sont apparus pour l'a�chage des agrégations en trois dimensions[199] [200]. Par exemple, on peut citer le logiciel Movies 3D, développé par l'Ifremer,

1www.echoview.com2BI est développé par l'IMR (" Institut of Marine Research ", en Norvège) et commercialisé par la

société norvégienne SIMRAD qui conçoit la majorité des sondeurs actuellement utilisés.

Page 79: These lefort

7.3. CLASSIFICATION ET RECONNAISSANCE DES BANCS DE POISSONSlxxix

qui contient des modules comme la détection du fond [201] ou l'extraction automatiquedes descripteurs des bancs de poissons en trois dimensions [202].

7.3 Classi�cation et reconnaissance des bancs de pois-

sons

7.3.1 Descripteurs des bancs 2D

Dans cette section, les descripteurs de bancs de poissons qui sont extraits d'uneanalyse par sondeur monofaiseau sont présentés succinctement. Une analyse plus ap-profondie de ces descripteurs est disponible dans la thèse de Carla Scalabrin [176].

Notons que les paramètres des bancs de poissons sont liés à la notion de seuild'extraction : l'ensemble des pixels de l'image sont seuillés a�n d'exclure les informa-tions considérées comme étant relatives à du bruit (poissons isolés, plancton, . . . dontl'énergie acoustique rétrodi�usée est faible) et de ne conserver que celles liées à uneagrégation de poissons (avec une forte énergie rétrodi�usée qui correspond à des ni-veaux d'intensité de pixels élevés dans l'image). La forme et la taille des agrégationssont fortement liées au seuil d'extraction. En e�et, des bancs distincts à un certainseuil, peuvent ne former qu'une seule et même entité à un seuil inférieur. De même,à cause des variabilités de rétrodi�usion inter espèces, certaines espèces de poissonssont invisibles pour un seuil donné, alors que d'autres restent détectables. En pratique,pour les campagnes d'évaluation de stocks d'espèces, le seuil d'extraction est �xé àSv =-60dB. Une fois le seuillage e�ectué, les bancs de poissons regroupent les pixelsvoisins.

Tout d'abord, à chaque banc, sont associés des paramètres temporels et géogra-phiques : année, mois, jour, heure, latitude et longitude. Les descripteurs morpholo-giques caractérisent la forme du banc de poissons. En deux dimensions, les paramètressont la longueur, la hauteur, le périmètre, l'aire, l'élongation, et la dimension fractale.La troisième classe de descripteurs contient les paramètres bathymétriques : la sonde,la profondeur du banc, l'altitude du banc, et l'indice d'altitude qui exprime la positionrelative du banc dans la colonne d'eau. En�n, les descripteurs énergétiques sont desparamètres directement issus des échantillons du signal numérisé fourni par le sondeur.De cette succession d'échantillons sont extraits la valeur maximale d'amplitude, lamoyenne des valeurs d'amplitude, l'écart type des valeurs d'amplitude, le coe�cient devariation des valeurs d'amplitude [192], l'énergie globale rétrodi�usée [192], et l'indicede rétrodi�usion de volume [192]. L'indice de rétrodi�usion de volume sera étudié plusprécisément dans le chapitre 8. Il sera alors utilisé pour convertir l'énergie acoustiqueen biomasse.

Quelques descripteurs morphologiques et bathymétriques sont représentés de ma-nière schématique à gauche de la �gure 7.1. De même, à droite de la �gure 7.1, nousreprésentons l'enveloppe simpli�ée du signal échantillonné. Cette enveloppe fait appa-raître les échos dus au banc de poissons et ceux dus au fond de la mer. Seuls les échosassociés au banc de poissons sont utilisés pour l'extraction des paramètres, comme par

Page 80: These lefort

lxxxCHAPITRE 7. CLASSIFICATION ET RECONNAISSANCE DES

STRUCTURES

Figure 7.1 � A gauche, quelques descripteurs morphologiques et bathymé-

triques. A droite, l'enveloppe temporelle simpli�ée du signal rétrodi�usé corres-

pondante et quelques descripteurs énergétiques.

exemple le calcul des moments d'ordre 1 et 2 de la distribution des valeurs d'amplitude.

Il existe certaines imprécisions bien connues en acoustique halieutique. Nous avonsabordé dans la section 6.2 le cas des énergies rétrodi�usées sous-estimées à cause del'occupation partielle des volumes élémentaires par les bancs de poissons. Cet échan-tillonnage de l'espace entraîne aussi une imprécision dans les mesures des longueursdes bancs. En e�et, il est impossible de savoir à quel endroit exact sont positionnésles bancs dans le volume élémentaire. Plus la sonde est grande, plus le diamètre duvolume élémentaire augmente, et plus ces phénomènes d'imprécision prennent de l'am-pleur. Ainsi, si L est la longueur réelle du banc, et D3dB le diamètre du faisceau àla profondeur considérée, alors la longueur mesurée du banc de poissons Lm est unevariable aléatoire de densité de probabilité uniforme sur l'intervalle ]L,L+2D3dB[. Celaentraine une erreur de mesure allant de 0 à 2D3dB, i.e. la longueur est surestimée. Enreprenant l'exemple de la section 6.2, pour une profondeur de 50m, l'erreur de mesurepeut atteindre 12,2m, et pour profondeur de 100m, elle peut atteindre 24,4m. De plus,notons que l'augmentation du volume élémentaire avec celle de la sonde, provoque lacorrélation des descripteurs " profondeur du banc de poissons " et " longueur du bancde poissons ", mais aussi des descripteurs " profondeur du banc de poissons " et "énergie du banc de poissons ". Ces problèmes d'imprécision des mesures liée aux bancsde poissons ont largement été évoqués dans des travaux antérieurs [176] [196] [126][203].

7.3.2 Descripteurs des bancs 3D

L'exploitation et le traitement des données acquises par ces sondeurs sont des thèmesémergents [197] [198] [199] [200] [202]. Dans cette section, la méthode d'extraction des

Page 81: These lefort

7.3. CLASSIFICATION ET RECONNAISSANCE DES BANCS DE POISSONSlxxxi

Figure 7.2 � A gauche, un exemple d'agrégation intra-ping. A droite, deux

exemples successifs d'agrégation intra-ping qui illustrent l'agrégation inter-ping.

bancs de poissons par le sondeur multifaisceaux est présentée de manière simpli�ée.Ensuite, nous présentons les descripteurs associés à chaque banc.

Voici les principales étapes constitutives de l'extraction des bancs de poissons :

1. Extraction des données 1D (intra-faisceau). En un ping donné, dans chaquefaisceau indépendamment, on cherche à relier entre eux les échantillons d'un mêmebanc. Pour un certain seuil d'extraction (cf. section 7.3), cela est e�ectué à l'aided'un critère de contiguïté, i.e. deux échantillons sont considérés comme étant issusdu même banc de poissons si leur distance relative n'excède pas une valeur donnée.

2. Agrégation des données 2D (intra-ping ou inter-faisceau). En un pingdonné, les blocs indépendants identi�és à l'étape 1 sont, ou bien regroupés entreeux d'un faisceau à l'autre, ou bien identi�és comme ne faisant pas partie du mêmebanc de poissons. L'uni�cation de deux ensembles de données dépend de critèresde contiguïté verticaux et horizontaux. Par exemple, dans la partie gauche dela �gure 7.2, trois bancs de poissons ont été identi�és. Le banc 1 regroupe cinqblocs préalablement dé�nis à l'étape 1, tel que le regroupement implique des blocsissus du même faisceau ou de faisceaux voisins. En revanche, à l'instar du banc 2,certains blocs identi�és à l'étape 1 peuvent rester isolés, i.e. ils ne sont regroupésavec aucune autre entité.

3. Agrégation des données 3D (inter-ping). Cette étape consiste à identi�er lesbancs de poissons qui peuvent être fusionnés d'un ping à l'autre. Soit deux pingsi et j issus de l'étape 2, i.e. pour lesquels les agrégations 2D sont connues. Alors,un critère de contiguïté permet d'uni�er une agrégation identi�ée dans le ping iavec une agrégation identi�ée dans le ping j. Il se peut même qu'une agrégationdu ping i fasse le lien entre deux agrégations du ping j qui n'étaient pas réuniesensemble lors de l'étape 2. Par exemple, dans la partie droite de la �gure 7.2, lebanc 4 du ping i est associé aux bancs 1 et 2 du ping j pour ne former qu'un seul

Page 82: These lefort

lxxxiiCHAPITRE 7. CLASSIFICATION ET RECONNAISSANCE DES

STRUCTURES

Figure 7.3 � Les descripteurs morphologiques sont ceux de la boîte englobante.

Cette �gure montre un banc de poissons avec sa boîte englobante.

et même banc de poissons. Plus simplement, les bancs 5 et 3, respectivement despings i et j, sont agrégés pour ne former qu'un seul et même banc. Cette méthodeest étendue à l'ensemble des pings de l'échogramme, de telle sorte qu'un banc depoissons peut inclure un grand nombre de pings (autant que nécessaire). Cetteétape clôt l'extraction de bancs, il reste maintenant à extraire les paramètres dechaque banc.

Les formes des bancs de poissons pouvant être particulièrement complexes et aléa-toires, il a été convenu qu'une boîte englobante orientée servirait de référence pourles dimensions principales des agrégations. L'orientation de la boîte est calculée enmoyennant les angles des vecteurs qui relient entre elles les sous-zones identi�ées lorsde l'étape 2 de l'extraction des bancs de poissons. Comme représentés dans la �gure7.3, dans laquelle un banc de poissons est représenté avec sa boîte englobante, les pa-ramètres de longueur, de hauteur, et de largeur de l'agrégation sont ceux de la boîteenglobante. En revanche, le volume et le périmètre du banc de poissons sont extraitsdirectement des positions des volumes élémentaires du banc de poissons. C'est aussile cas des descripteurs bathymétriques, énergétiques, temporels, et géographiques quisont dé�nis comme pour le sondeur monofaisceau (section 7.3).

Comme pour le sondeur monofaisceau, la taille des volumes élémentaires croît avecla profondeur, conduisant à une possible sur-estimation de la longueur et de la largeurdes bancs de poissons, et à une possible sous-estimation des descripteurs énergétiques.De plus, bien que la zone insoni�ée soit importante et bien échantillonnée, il se peut queseule une partie in�me d'un banc de poissons soit observée par le sondeur. Ainsi, commepour le sondeur monofaisceau, l'image représentative de la zone de prospection dépendde la trajectoire du navire. Par la suite, nous négligeons ce phénomène en considérantque l'approche stochastique permet malgré tout de faire valoir les variabilités entreplusieurs groupes de poissons.

Page 83: These lefort

7.3. CLASSIFICATION ET RECONNAISSANCE DES BANCS DE POISSONSlxxxiii

7.3.3 Performances de classi�cation : Bancs 2D

Dans cette section, a�n d'illustrer le pouvoir discriminant des descripteurs de bancsde poissons 2D, nous retrouvons les résultats obtenus dans la thèse de Carla Scalabrin[176] pour le jeu de données D5. Le jeu de données D5 est celui utilisé par Carla Scala-brin dans sa thèse [176]. Il est issu de 11 campagnes de pêches et d'observations acous-tiques (sondeur monofaisceau) dans le golfe de Gascogne : METEVAC (02/11/1989,22 chalutages), DAAG (13/04/1990, 28 chalutages), AURA (11/08/1990, 26 chalu-tages), ETAP (03/09/1990, 24 chalutages), DAAG (10/04/1991, 33 chalutages), ETAP(26/06/1001, 23 chalutages), AURA (08/10/1991, 24 chalutages), DAAG (14/04/1992,38 chalutages), ETAP (04/11/1992, 20 chalutages), ETAP (21/05/1993, 16 chalutages),ERAG (05/06/1993, 27 chalutages). Chacun des bancs de la base de données a été iden-ti�é par un expert de la manière suivante. Etant donné un chalutage monospéci�que, lesagrégations des échogrammes acquis au moment du chalutage sont considérées commeétant des bancs de poissons de l'espèce pêchée. De cette façon, à partir des 60 chalu-tages monospéci�ques des 11 campagnes, 1419 bancs de poissons ont été identi�és (179bancs de sardine, 478 bancs d'anchois, 667 bancs de chinchard, et 95 bancs de merlanbleu).

La simulation consiste à scinder aléatoirement l'ensemble des données en un sousensemble d'apprentissage et sous ensemble de test. Une fois la classi�cation e�ectuée,un taux de bonne classi�cation est calculé. Cette scission aléatoire avec remise este�ectuée 100 fois et un taux moyen de bonne classi�cation est déterminé. Dans sathèse, Carla Scalabrin utilisait un classi�eur simple : une analyse discriminante linéairede Fisher. Dans le tableau 7.1, les taux moyens de bonne classi�cation sont a�chés pourl'analyse discriminante linéaire de Fisher (ADLF) (page xxxv du présent manuscrit),l'algorithme EM (page xxviii du présent manuscrit), les machines à vecteur de support(SVM) (page xxxix du présent manuscrit), et les forêts aléatoires (FA) (page xlix duprésent manuscrit). Le code SVM (" Lib-SVM ") est disponible en ligne sur internet[204]. Le paramètre du noyau vaut 5, celui qui autorise des erreurs sur les marges est�xé à 100. Avant tout traitement, les données sont normées et centrées.

ADLF EM SVM FA70,6% 66,9% 84,9% 89,3%

Tableau 7.1 � Comparaison des performances de classi�cation du jeu de don-

nées de bancs de poissons D5 pour di�érents classi�eurs. Le taux moyen de

bonne classi�cation est reporté pour l'analyse discriminante linéaire de Fisher

(ADLF) , l'algorithme EM (EM), les machines à vecteur de support (SVM),

et les forêts aléatoires (FA).

Tout d'abord, ces résultats montrent à quel point le choix du classi�eur est impor-tant. En e�et, les conclusions générales après l'utilisation de l'analyse discriminantede Fisher (ADLF) sont assez pessimistes : seuls 70% des bancs de poissons sont cor-rectement classés. Il est alors légitime de se demander si la classi�cation de bancs estpossible. En revanche, les résultats obtenus avec les forêts aléatoires (FA) sont beau-coup plus optimistes : 9 bancs de poissons sur 10 sont correctement labellisés. Dans ce

Page 84: These lefort

lxxxivCHAPITRE 7. CLASSIFICATION ET RECONNAISSANCE DES

STRUCTURES

cas, la classi�cation de bancs de poissons semble donc être une voie prometteuse. Cesrésultats montrent aussi la pertinence du choix des forêts aléatoires comme classi�eurpour ces données par rapport à des classi�eurs du type EM ou SVM. Cela justi�e lefait que nous ayons développé un classi�eur faiblement supervisé qui s'appuie sur lesarbres de décision et les forêts aléatoires. Dans la thèse de Carla Scalabrin [176], les ma-trices de confusion étaient représentées. Nous faisons de même dans la �gure 7.4 pourl'analyse discriminante de Fisher et pour les forêts aléatoires. Concernant le modèlede classi�cation ADLF, les conclusions sont quasiment les mêmes que dans la thèse deCarla Scalabrin : les taux de classi�cation sont bas et la confusion la plus forte se situeentre l'anchois et le chinchard (27% des anchois sont classés parmi les chinchards). Enrevanche, la matrice de confusion obtenue avec les forêts aléatoires donne un tout autreregard des performances de classi�cation (à droite, dans la �gure 7.4). Cette fois, lestaux de classi�cation intra espèces sont élevés et la confusion la plus importante sesitue entre la sardine et le chinchard (15% des bancs de sardines sont classés parmi lesbancs chinchards).

Ainsi, nous constatons de manière quantitative que, sous condition du choix d'unclassi�eur correct, les descripteurs de bancs de poissons fournis par le sondeur mono-faisceau permettent d'e�ectuer une classi�cation automatique plus qu'acceptable. Cetaux de reconnaissance (89,3%) est acceptable du point de vue du domaine applicatif.En e�et, avec un taux d'erreur d'environ 10%, les méthodes automatiques permettentde consolider une expertise ou d'e�ectuer un choix.

Cependant, la classi�cation de bancs de poissons par apprentissage supervisé auto-matique possède des limites intrinsèques. Premièrement, la représentativité des bancsest di�érentes durant les périodes de chalutage et de prospection (la vitesse du navireest di�érente ce qui change la résolution des images). Deuxièmement, cette approcheest restreinte aux chalutages mono-spéci�ques dont l'obtention est di�cile et qui nepermettent pas de modéliser les mélanges d'espèces.

7.4 Classi�cation et reconnaissance des ensembles de

bancs de poissons

7.4.1 Préambule

La campagne CLASS083 avait pour but d'acquérir de la donnée multifaisceaux a�nde mieux appréhender ce nouveau type d'informations et d'en extraire des composantesdescriptives. Cependant, l'analyse visuelle des échogrammes 3D observés a changé laperception de l'organisation des bancs de poissons. Il est admis que la distribution spa-tiale des bancs de poissons est fondamentale pour des objectifs de discriminations [195],mais le sondeur multifaisceaux intensi�e cette idée. Alors que les bancs de poissons ap-paraissaient distincts et dé�nis avec le sondeur monofaisceau, l'ajout d'une troisièmedimension spatiale fait apparaître une multitude de bancs satellites di�us et des formes

3Campagne océanographique d'une semaine opérée par l'Ifremer en juin 2008 à bord du Thalassa,l'objectif était l'acquisition de données multifaisceaux.

Page 85: These lefort

7.4. CLASSIFICATION ET RECONNAISSANCE DES ENSEMBLES DE BANCSDE POISSONS lxxxv

Figure 7.4 � Matrices de confusion obtenues après la classi�cation du jeu

de données monofaisceau D5 pour deux classi�eurs : l'analyse discriminante

linéaire de Fisher (ADLF) et les forêts aléatoires (FA).

insoupçonnées. La notion même de bancs est remise en cause, laissant la place à unconcept plus générale : les " agrégations ". Par exemple, dans la �gure 7.5, plusieurs casd'agrégations sont représentés : la grosse boule dense (en haut, à gauche), les nappes debancs de poissons torsadés de formes aléatoires (en haut, à droite), la nuée de poissons(en bas, à gauche), et les petits bancs denses éparses (en bas, à droite). La vision dusondeur monofaisceau sera pertinente pour la boule dense, pas pour les autres cas : àla place des bancs torsadés, le sondeur monofaisceau peut détecter des petites tachesaccolées, et à la place d'une nuée de Merlans Bleus, le sondeur monofaisceau peutdétecter un banc central environné de bruit.

Pour mieux appréhender l'information contenue dans les images, on peut envisa-ger une approche alternative qui tient compte à la fois de l'organisation spatiale desagrégations et des caractéristiques des bancs de poissons. Contrairement aux analysesantérieures 2D, toute l'information doit être exploitée. Ainsi, nous n'e�ectuons pas de�ltrage des bancs trop petits. Cela permet de prendre en considération les échos isolésqui peuvent être des poissons éloignés du banc central. En outre, si ces échos isoléssont du plancton, il faut les prendre en compte dans l'analyse globale car ils peuventêtre représentatifs de l'écosystème local qui fait que certaines espèces sont présentes etqui contraint le comportement de ces espèces. Dans le comportement, sont inclues laposition des bancs dans la colonne d'eau, la taille des bancs, leur morphologie, et leurdistribution spatiale.

7.4.2 Descripteur global proposé

Certains travaux proposent l'analyse de descripteurs globaux simples à partir dedonnées issues du sondeur monofaisceau [205] [206]. Par exemple, dans [206], l'extrac-

Page 86: These lefort

lxxxviCHAPITRE 7. CLASSIFICATION ET RECONNAISSANCE DES

STRUCTURES

Figure 7.5 � Il existe di�érents types d'agrégations allant de la grosse sphère

dense, à la nuée de voxels.

tion préliminaire des bancs de poissons est rejetée car le �ltrage des bancs trop petitsest vu comme une suppression d'informations discriminantes. A la place, une autre mé-thode pour extraire des structures est proposée (on ne parle alors plus de bancs maisde " patch "). Ensuite, des descripteurs globaux sont suggérés et associés à l'imageconsidérée. Parmi ces descripteurs globaux, on peut citer l'énergie moyenne rétrodi�u-sée par tous les patchs de l'image, la distance moyenne entre les patchs de l'image, ladensité des patchs, l'occupation spatiale des patchs, etc.

Nous proposons une approche analogue qui repose sur l'analyse statistique de la dis-tribution de structures élémentaires au sens d'un critère de seuillage et de contigüité.L'organisation spatiale de ces structures élémentaires (les bancs de poissons) dépendde la nature des poissons observés. Par exemple, la distribution des bancs dans l'imagepeut être homogène ou hétérogène. Ainsi, l'image des agrégations peut être vue commeune réalisation d'un processus stochastique ponctuel, chaque point du processus repré-sentant le centre de gravité d'un banc de poissons. Dans ce contexte, nous proposonsun descripteur statistique qui caractérise l'organisation spatiale du processus ponctuel.De plus, les bancs peuvent être catégorisés, en fonction de leur nature, de telles sortesqu'une analyse plus �ne de la distribution est e�ectué : il s'agit alors de caractérisé ladistribution de bancs de même catégorie, ou de catégorie di�érente. Cette extension dela méthode correspond à l'étude d'un processus ponctuel marqué.

K de Ripley.

Le K de Ripley [207] [208] regroupe une famille de méthodes qui exprime des sta-tistiques sur les distances entre les exemples du processus. Par exemple, l'analyse devoisinage du premier ordre [207] conduit à rechercher la quantité moyenne de points(K) dans un volume élémentaire B de l'espace :

K =

∫B

ρ(v)dv (7.1)

Page 87: These lefort

7.4. CLASSIFICATION ET RECONNAISSANCE DES ENSEMBLES DE BANCSDE POISSONS lxxxvii

où ρ(v)dv est la probabilité du nombre de points dans un volume in�nitésimal dvcentré en v. Cette analyse du premier ordre manque de �nesse. Ainsi, il existe une perted'information sur les distances inter-exemples. De plus, les informations essentielles desstructures complexes, qui impliquent des distributions hétérogènes avec plusieurs motifsemboités à plusieurs échelles, sont noyées dans la moyenne. L'analyse de voisinage dusecond ordre [209] [210], qui considère des statistiques sur les paires de points, est mieuxadaptée pour la caractérisation des structures complexes. Cette fois, l'analyse consisteà rechercher la quantité moyenne de couple de points dans un volume élémentaire B :

K =1

V

∫V

∫B

ρ(2)(x1, x2)dx1dx2 (7.2)

où ρ(2)(x1, x2)dx1dx2 est la densité du nombre de paires de points dans les volumesin�nitésimaux dx1 et dx2 centrés en x1 et x2. V est le volume total de l'espace d'analyse.La densité ρ(2)(x1, x2) exprime la corrélation entre les points. Si le processus aléatoireest isotrope (invariance en translation) et stationnaire au second ordre, alors la densitéρ(2)(x1, x2) ne dépend que de la distance entre les points : ||x1 − x2| |. En pratique Best une boule de rayon r et la statistique K(r) peut être estimée comme suit :

K(r) =1

V

N∑i 6=j

δij (||xi − xj| | ≤ r) (7.3)

où δij est une fonction qui renvoie 1 si la condition ||xi − xj| | ≤ r est respectée, 0sinon.

Processus ponctuel marqué.

L'approche précédente peut être étendue au cas des processus ponctuels marqués[210]. Soit {xn}1≤N une réalisation particulière d'un processus aléatoire. Si une étiquetteest attribuée à chaque point xn, alors le processus est marqué. Une réalisation duprocessus marqué est notée {xn,mn}1≤N . Un marquage est obtenu par catégorisationdes objets en sous classes. Par exemple [211], pour l'analyse de la distribution deszones forestières, les arbres sont préalablement classés dans des catégories distinctes.De cette façon, il est concevable de ranger les arbres par catégorie de taille. A l'instarde Wen [212] qui mêle les processus ponctuels marqués avec du Krigeage (une méthoded'interpolation), nous envisageons d'e�ectuer une classi�cation non supervisée a�n deregrouper les points observés en catégories. Voici comment nous procédons. Chaquebanc de poissons est caractérisé par un centre géographique dont les coordonnées sontxn, et par un ensemble de descripteurs (les paramètres morphologiques et énergétiques).Ces descripteurs prennent leur valeur dans l'ensemble continu des réels. A�n d'obtenirun ensemble discret de marques, nous appliquons l'algorithme des K-moyennes qui estprésenté dans la section 2.3 du chapitre 2. Finalement les bancs de poissons ne sontplus associés à un vecteur de paramètres continus, mais un entier naturel résume sescaractéristiques.

L'expression (7.3) du K de Ripley dans le cas sans marque est adaptée au casdes processus ponctuels marqués. Cette fois, plutôt que d'évaluer le nombre moyend'exemples dans le volume élémentaire B, la matrice de cooccurrence des couples demarques dans le volume élémentaire est estimée. Cela revient à estimer le nombre

Page 88: These lefort

lxxxviiiCHAPITRE 7. CLASSIFICATION ET RECONNAISSANCE DES

STRUCTURES

Figure 7.6 � Volume d'intersection entre une boule et un prisme trapézoïdal.

d'occurrence moyen de chaque couple de marque dans un volume élémentaire B. SoitΓ(r) = {Γp,q(r)}1≤p,q≤M la matrice de cooccurrence avec M le nombre de marques,alors les composantes de la matrice de cooccurrence s'expriment comme suit :

Γp,q(r) =N∑i

1

Vi(r)

N∑j 6=i

δi(mi = p)δj(mj = q)δij (||xi − xj| | ≤ r) (7.4)

où δij est une fonction qui renvoie 1 si la condition ||xi − xj| | ≤ r est respectée, 0sinon, et δi est une fonction qui renvoie 1 si la condition mi = p est respectée, 0 sinon.Vi(r) est un coe�cient de normalisation, il représente l'intersection entre le volumeV et la boule B de rayon r. L'avantage du marquage est de regrouper ensemble desdonnées similaires. Lors de la construction de la matrice de cooccurrence, la questionest de savoir quels sont les groupes qui interagissent entre eux. Par exemple, il n'estpas absurde de penser qu'une classe d'images implique plusieurs types de groupesd'exemples.

Correction des e�ets de bord.

Le coe�cient de pondération Vi(r) dans l'expression (7.4) permet de considérer lese�ets de bord. Dans le cas du sondeur monofaisceau, le volume V peut être estimépar un rectangle et le volume B est un disque centré en xi, alors il existe des formulespour calculer Vi(r) pour tout xi [209]. Dans le cas du sondeur multifaisceaux, ce calculest moins évident. En e�et, une fois que les zones aveugles générées par le sondeurmultifaisceaux sont supprimées, V est un prisme à base de trapèze comme représentédans la �gure 7.6. B est une boule centrée en xi. Plusieurs cas de �gure sont possiblesen fonction du rayon r de la boule et de la position du centre xi de la boule. Troisexemples sont représentés dans le haut, à droite, de la �gure 7.6 dans le plan {Y, Z} :le cas de la boule qui coupe à la fois le plan inférieur et un plan latéral du prismetrapézoïdal, le cas de la boule qui coupe les deux plans latéraux et le plan supérieurdu prisme trapézoïdale, et le cas de la boule qui coupe tous les plans à la fois. D'autres

Page 89: These lefort

7.4. CLASSIFICATION ET RECONNAISSANCE DES ENSEMBLES DE BANCSDE POISSONS lxxxix

exemples pourraient être signalés, comme la boule qui englobe totalement le prismetrapézoïdal. Ces di�érents cas posent problème pour le calcul de Vi(r) et nous voulonséviter de traiter chaque cas indépendamment. De ce fait, nous proposons une formulegénérale qui permet, quelque soit la taille de la boule et quelque soit la position xi dansle prisme trapézoïdal, de calculer le volume Vi(r). Voici la méthode. Plaçons-nous dansle plan {Y, Z} transverse au navire, nous dé�nissons les grandeurs suivantes :

1. S11 : Surface extérieure du disque B par rapport au premier plan latéral du prismetrapézoïdal.

2. S12 : Surface extérieure du disque B par rapport au plan supérieur du prismetrapézoïdal.

3. S13 : Surface extérieure du disque B par rapport au deuxième plan latéral duprisme trapézoïdal.

4. S14 : Surface extérieure du disque B par rapport au plan inférieur du prismetrapézoïdal.

5. S21 : Surface intérieure du disque B par rapport à l'intersection du premier planlatéral et par rapport au plan inférieur du prisme trapézoïdal.

6. S22 : Surface intérieure du disque B par rapport à l'intersection du premier planlatéral et par rapport au plan supérieur du prisme trapézoïdal.

7. S23 : Surface intérieure du disque B par rapport à l'intersection du deuxième planlatéral et par rapport au plan supérieur du prisme trapézoïdal.

8. S24 : Surface intérieure du disque B par rapport à l'intersection du deuxième planlatéral et par rapport au plan inférieur du prisme trapézoïdal.

S11, S12, S13, S14, S21, S22, S23 et S24 sont représentées dans la �gure 7.6. On montreaisément que la surface d'intersection Ai(r) entre le disque centré en xi de rayon r et lacoupe transversale du prisme trapézoïdale (dans le plan {Y, Z}), s'exprime en fonctionde {Sij}1≤i≤2,1≤j≤4 de la manière suivante :

Ai(r) = −3S +2∑i=1

4∑j=1

Sij (7.5)

Où S est la surface du disque de rayon r. Il reste ensuite à intégrer sur la troisièmedimension (X) pour obtenir le volume d'intersection �nal :

Vi(r) =

∫X

Ai(r(x))dx (7.6)

Interprétation et sens physique.

La première conclusion qui se dégage des observations acoustiques est que, en fonc-tion des espèces de poissons présentes dans les images et des spéci�cités environnemen-tales et géographiques, les bancs de poissons se caractérisent par des formes, des tailles,des réponses énergétiques, et des positions variables. De plus, la plupart des imagessont constituées de mélanges d'espèces donnant naissance à des images qui concentrentdes mélanges de bancs de poissons de nature di�érente. Par exemple, certains écho-grammes sont constitués à la fois de gros bancs de sardines très rétrodi�usants et de

Page 90: These lefort

xcCHAPITRE 7. CLASSIFICATION ET RECONNAISSANCE DES

STRUCTURES

petits bancs de chinchards moins énergétiques et plus di�us. Le marquage permet demodéliser ces observations. En e�et, le clustering est un moyen d'agréger entre eux desbancs d'une même catégorie, par exemple des bancs semblables en taille et en énergie.Ainsi, l'histogramme des clusters permet d'identi�er quels sont les types de bancs pré-sents dans les images. Par exemple, dans le cas idéal, des images mono-spéci�ques nesont composées que d'un seul type de bancs de poissons, alors que des images pluri-spéci�ques regroupent plusieurs types d'agrégations. L'histogramme des clusters doitdonc être représentatif des mélanges de types d'agrégations, et par conséquent desmélanges d'espèces.

La seconde conclusion des experts, relativement aux observations des images acous-tiques, concerne la distribution des agrégations. Premièrement, ils ont constaté quel'organisation spatiale des bancs de poissons dépend des espèces présentes dans lesimages et des caractéristiques environnementales et géographiques. Par exemple, lesmélanges d'anchois et de chinchards peuvent s'organiser par couches, les bancs d'an-chois étant au-dessus des bancs de chinchards. Ces couches sont plus ou moins dé�nies,pouvant être la source de couches pluri-spéci�ques. Deuxièmement, les échogrammesmontrent que la densité des bancs de poissons dans les images peut être variable :homogène ou hétérogène par endroit. Par exemple, la distribution spatiale des bancsde sardines est assez homogène dans les images, alors que celle des mélanges d'anchoiset de chinchards peut se caractériser par une densité qui décroît du fond vers la surfacede la mer. L'utilisation du K de Ripley, étendu au cas d'un processus marqué, permetnon seulement de caractériser l'existence de certaines classes de bancs de poissons dansles images, mais aussi de modéliser la variabilité des distributions. En e�et, cette tech-nique exprime quels types de bancs de poissons sont regroupés entre eux et avec quellefréquence moyenne. Prenons le cas idéal de deux couches de poissons dont les bancssont marqués distinctement, alors le K de Ripley permet de spéci�er les densités danschacune des couches, mais aussi la densité de l'intersection des deux couches via lescooccurrences.

7.4.3 Performances

Jeu de données

Le jeu de données D6 provient de la campagne CLASS08 d'observation acoustiqueet de pêche dans le golfe de Gascogne. L'avantage de ces données est l'insoni�cation del'espace par les deux types de sondeur en même temps (sondeur monofaisceau et son-deur multifaisceaux). Cela permet de comparer le pouvoir discriminant des descripteurs3D proposés par rapport à des approches 2D classiques. Trois classes d'échogramme ontété identi�ées, et pour que la base d'apprentissage soit su�samment volumineuse, leséchogrammes sont divisés par quarts de milles. Ainsi, la base de données est composéde : (a) 63 images de sardines et de chinchards, (b) 72 images d'agrégations denses ettorsadées d'anchois et de chinchards, et (c) 87 images correspondants à des agrégationsd'anchois et de chinchards peu denses et éparses. Dans la �gure 7.7, nous donnons desexemples d'images pour chacune de ces trois classes. Notre objectif est que le descrip-teur global puisse di�érencier des images en fonction de l'organisation des agrégations

Page 91: These lefort

7.4. CLASSIFICATION ET RECONNAISSANCE DES ENSEMBLES DE BANCSDE POISSONS xci

Figure 7.7 � En bas à droite : Histogramme des sondes moyennes pour la

classe (a) (gros bancs de sardines bien dé�nis), la classe (b) (bancs épars pou-

vant être très denses mais plutôt de forme sphérique), et la classe (c) (bancs

di�ormes tels que la densité des bancs dans l'image est importante).

mais aussi en fonction de la forme des agrégations des images. Ainsi, la classe (a) secaractérise par des gros bancs de sardines bien dé�nis noyés dans des nuées de voxelsisolés qui correspondent à des poissons isolés, des petits bancs de poissons isolés ou desnuées de plancton. La classe (b) est constituée de bancs épars pouvant être très densesmais plutôt de forme sphérique. En�n, la classe (c) est composée de bancs di�ormestels que la densité de bancs dans l'image soit importante. L'objectif est d'avoir un des-cripteur global qui renseigne à la fois sur la nature des bancs de l'image, mais aussi surl'organisation des bancs dans l'image, donc si le descripteur global arrive à di�érencierces trois classes, notre objectif est atteint. Pour information, dans la �gure 7.7, l'histo-gramme des sondes moyennes des images est tracé pour chacune des trois classes. Demême, pour mieux se représenter la donnée, nous a�chons les distributions spatialeset temporelles dans la �gure 7.8. D'ores et déjà, l'observation des sondes moyenneset des distributions spatiales et temporelles nous permet de conclure qu'une classe sedétache des autres : la sardine, alors que les deux autres classes, composées d'anchoiset de chinchards, sont similaires en distributions spatiales, temporelles, et de sondes.

Analyse statistique des descripteurs

Dans un premier temps, a�n de mesurer l'importance de chaque descripteur dansle processus de discrimination, nous e�ectuons une analyse de la variance [213] (Anovaen anglais pour " ANalysis Of Variance "). Sous conditions que les variances des dis-tributions de chaque classe sont égales et que les observations sont indépendantes, cetest permet de quanti�er l'écart des moyennes des distributions de chaque classe pourun descripteur donné. Ainsi, plus cet écart est important, plus le descripteur est dis-criminant pour les classes considérées. Le principe est le suivant. Un test d'hypothèse

Page 92: These lefort

xciiCHAPITRE 7. CLASSIFICATION ET RECONNAISSANCE DES

STRUCTURES

Figure 7.8 �Distribution spatiale (à gauche) et temporelle (à droite) du jeu de

données D6 issu de la campagne CLASS08. A gauche, un zoom est e�ectué pour

montrer la distribution spatiale des deux classes composées de mélange d'an-

chois et de chinchards, l'une étant composée d'images denses avec des bancs

torsadés (représentées par des points), l'autre d'images peu denses avec des

bancs di�us (représentées par des cercles).

statistique permet de tester l'égalité entre la variance inter-classes et la variance intra-classes (cf. section 3.3.1 du chapitre 3). Le rapport F entre ces deux variances donneune idée de la séparation des distributions de chaque classe. Plus F est grand, plusl'hypothèse d'égalité des moyennes des distributions est faible, et plus la chance qu'uneclasse se détache des autres est élevée. En outre, un taux d'erreur de 5% est �xé tel queF ne peut pas dépasser un seuil théorique. Au-delà de ce seuil théorique, l'hypothèsed'égalité des moyennes est rejetée. La probabilité que F soit inférieur au seuil théoriqueest donnée par la valeur p. Si p est proche de 1, alors les moyennes des distributions dechaque classe sont identiques pour le descripteur considéré. Si p est proche de 0, alorsau moins une des moyennes des distributions des classes di�ère des autres. Finalement,une Anova se résume en deux étapes : (a) véri�er la valeur p pour évaluer la �abilité dutest statistique et (b) mesurer F qui renseigne sur le degré de séparation. Notons quele résultat de l'étude est biaisé si les distributions sont multi-modales, si les variancesdes distributions ne sont pas égales entre les classes et si les observations ne sont pasindépendantes.

Les résultats sont a�chés dans le tableau 7.2. Pour le jeu de données D6, nouscomparons le pouvoir discriminant de quelques descripteurs issus des images 3D et desimages 2D correspondantes. Cinq descripteurs globaux sont extraits : la densité (lenombre de bancs de poissons divisé par le volume de l'échogramme), le pourcentaged'occupation spatiale (le volume total occupé par les bancs de poissons divisé par levolume de l'échogramme), la distance médiane entre les bancs de poissons, l'indice de

Page 93: These lefort

7.4. CLASSIFICATION ET RECONNAISSANCE DES ENSEMBLES DE BANCSDE POISSONS xciii

Image Image Image ImageDescripteur Nature 3D, 2D, 3D, 2D,

classes classes classes classes{1,2,3} {1,2,3} {1,2} {1,2}

Densité global p = 0 p = 1e− 16 p = 0.1 2e− 5F = 172 F = 45 F = 2 F = 19

Occupation global p = 1e− 8 p = 2e− 6 p = 1e− 9 p = 1e− 16spatiale F = 19 F = 13 F = 42 F = 93globaleDistance global p = 1e− 14 p = 0.6 p = 0.8 p = 0.8médiane F = 37 F = 0.5 F = 1e− 2 F = 4e− 2Indice de global p = 1e− 11 p = 7e− 5 p = 1e− 7 p = 6e− 6fragmentation F = 29 F = 9 F = 30 F = 22Sonde global p = 0 p = 0 p = 9e− 8 p = 2e− 8moyenne F = 526 F = 410 F = 32 F = 35Profondeur local p = 0 p = 0 p = 0 p = 0

F = 6900 F = 778 F = 2300 F = 140Longueur local p = 0 p = 0 p = 1e− 4 p = 1e− 3

F = 247 F = 44 F = 14 F = 10Largeur local p = 0 p = 0 p = 0 p = 1e− 6

F = 484 F = 1900 F = 124 F = 23Hauteur local p = 0 p = 2e− 16 p = 0 p = 0.8

F = 217 F = 36 F = 74 F = 5e− 2Volume local p = 0 p = 1e− 5 p = 0.4 p = 3e− 5

F = 73 F = 11 F = 0.5 F = 12Occupation local p = 0 p = 0 p = 0.2 p = 4e− 7spatiale F = 242 F = 60 F = 1 F = 25localeSv local p = 0 p = 0 p = 1e− 7 p = 0.4

F = 612 F = 45 F = 28 F = 0.6

Tableau 7.2 � Analyse de la variance (Anova) sur le jeu de données D6, en

considérant les classes " Anchois-chinchard peu dense ", " Anchois-chinchard

dense " et " Sardine ", respectivement annotées 1, 2, et 3.

fragmentation de l'échogramme :

1−∑i

(viV

)(7.7)

, où vi est le volume du banc i et V le volume de l'échogramme (pour une mêmeoccupation spatiale, l'image peut contenir un gros banc de poissons ou plusieurs petitsbancs), et la profondeur moyenne de l'échogramme. Sept descripteurs locaux, i.e. desdescripteurs de bancs de poissons, sont extraits : la profondeur, la longueur, la largeur,la hauteur, le volume, l'occupation spatiale locale (le volume du banc divisé par levolume de l'échogramme), et l'énergie rétrodi�usée (Sv). Parmi les trois classes testées(" Anchois-Chinchard peu dense ", " Anchois-Chinchard dense ", et " Sardine "), on saitque la sardine donnera peu d'erreurs de classi�cation. Cela se véri�e en remarquant que,dans l'histogramme des sondes moyennes des échogrammes (�gure 7.7), nous constatonsque la distribution des sondes des échogrammes contenant des agrégations de sardinesest largement écartée des distributions des deux autres classes. Ainsi, comme le teststatistique est positif si au moins une des classes se détache des autres, alors nouse�ectuons le test à la fois pour l'ensemble des classes (classes {1,2,3} dans la �gure 7.2)et pour les classes di�cilement séparables (classes {1,2} dans la �gure 7.2).

Globalement, les résultats sont positifs vis-à-vis de l'apport d'informations discrimi-nantes par le sondeur multifaisceaux. Comme supposé, l'ajout d'une troisième dimen-sion spatiale augmente la �nesse de la description des agrégations, et par conséquence,

Page 94: These lefort

xcivCHAPITRE 7. CLASSIFICATION ET RECONNAISSANCE DES

STRUCTURES

le pouvoir discriminant. Cela se véri�e en observant que la statistique F est souventsupérieure dans le cas des images 3D par rapport aux images 2D, et en notant que lavaleur p est souvent inférieure dans le cas des images 3D. Comme attendu, une foisque la classe facilement séparable des sardines est retirée du test, nous constatons queles probabilités d'erreurs augmentent. Cela est dû au fait que les classes 1 et 2 sontdi�cilement séparables.

Plus précisément, pour le jeu de données D6, les descripteurs de bancs de poissonsles plus discriminants semblent être la profondeur et la largeur des bancs de poissons(la largeur des bancs de poissons étant fortement corrélée à la profondeur, ce résultatest juste), et les descripteurs globaux les plus discriminants sont l'occupation spatialeet la sonde moyenne. Une illustration est proposée dans la �gure 7.9. Pour le sondeurmultifaisceaux (image 3D), nous représentons en haut à gauche de la �gure 7.9 l'his-togramme de la profondeur des bancs de poissons qui présente une statistique F trèsfavorable (F = 2300), et nous représentons en bas à gauche de la �gure 7.9 l'histo-gramme de l'énergie rétrodi�usée par les bancs (Sv) dont la statistique F est moinsfavorable (F = 28). Comme attendu, pour l'énergie rétrodi�usée (Sv) il y a superpo-sition des distributions, et pour la profondeur des bancs de poissons, les distributionsne se recouvrent pas. Cependant, nous constatons que la distribution de la classe "Anchois-Chinchard dense " est multi-modale ce qui fausse le test. Mais si une analyseglobale est considérée, ce descripteur est particulièrement intéressant car il conduit àl'idée suivante : si des bancs de poissons sont présents dans les deux modes à la fois,alors l'image est classée dans la catégorie " Anchois-Chinchard dense ". Ce principejusti�e l'emploi d'un clustering qui constitue la première étape pour obtenir le des-cripteur global que nous avons proposé dans la section 7.4. De la même façon, maiscette fois pour le sondeur monofaisceau, nous traçons en haut à droite de la �gure7.9 les histogrammes de l'occupation spatiale globale dans les images qui présente unestatistique F élevée (F = 93), et nous traçons en bas à droite de la �gure 7.9 les histo-grammes des distances médianes dans les images qui présentent une statistique F trèsfaible (F = 0.04). Les conclusions sont les mêmes que pour le sondeur multifaisceaux.

Cette analyse statistique donne une idée générale de la relation entre les classesd'espèces considérées par le jeu de données D6 et des descripteurs globaux ou locaux.Cela nous permet aussi de quanti�er l'apport d'informations des images 3D par rapportaux images 2D. Cependant, n'oublions pas que, en plus des conditions nécessaireset propres à cette analyse statistique (absence de prise en compte des corrélationsentre descripteurs et mono-modalité des distributions), nous avons dû équilibrer lesclasses en termes de cardinalité ce qui peut produire des changements moyens dans leshistogrammes et qui produit quelques imprécisions.

Cette analyse de la variance est utilisée dans la section suivante pour justi�er lesrésultats.

Application à la reconnaissance des ensembles de bancs

Dans un deuxième temps, nous proposons d'e�ectuer une étude quantitative dupouvoir discriminant du descripteur global proposé. Cette fois, plutôt que de classer desbancs de poissons, nous classons des images composées de bancs de poissons. Les tests

Page 95: These lefort

7.4. CLASSIFICATION ET RECONNAISSANCE DES ENSEMBLES DE BANCSDE POISSONS xcv

Figure 7.9 � Pour le sondeur multifaisceaux et le sondeur monofaisceau, his-

togrammes de quelques descripteurs dont le test de Fisher est soit très positif,

soit très négatif.

sont e�ectués avec le jeu de données D6 pour les images 2D et 3D. Comme précédement,une validation croisée permet de calculer un taux moyen de bonne classi�cation. Leprincipe d'évaluation des descripteurs est le suivant : nous considérons que le meilleurdescripteur est celui qui propose le meilleur taux de bonne classi�cation.

Plusieurs descripteurs sont comparés :

1. Sonde moyenne (Sonde). A cause de la géométrie des faisceaux des sondeurs,les descripteurs sont souvent corrélés à la sonde d'observation. La di�érence entrele taux de reconnaissance obtenu avec la sonde et celui obtenu à l'aide d'un descrip-teur donné est une mesure qui permet d'évaluer l'apport de pouvoir discriminantdu descripteur considéré. Ainsi, de chaque image, les profondeurs moyennes sontextraites, et elles constituent l'unique descripteur pour l'apprentissage du classi-�eur. Par ailleurs, la sonde est un indicateur robuste de l'habitat d'une espèce.

2. Descripteurs globaux proposées par Burgos et Horne [206] (Burgos).Burgos propose d'associer plusieurs descripteurs statistiques à chaque image 2D :la densité des bancs dans l'image, le pourcentage d'occupation spatiale, l'indicede fragmentation de l'image (pour une même occupation spatiale, l'image peutcontenir un gros banc de poissons ou plusieurs petits bancs), les 10eme, 50eme, et90eme centiles de la densité de probabilité de l'aire des bancs de poissons, les 10eme,50eme, et 90eme centiles de la densité de probabilité de l'aire relative des bancs depoissons (relativement à l'aire totale des images), les 10eme, 50eme, et 90eme cen-tiles de la densité de probabilité de la profondeur pondérée des bancs de poissons(pondérée par le rapport entre la densité de l'énergie volumique rétrodi�usée etla sonde), la distance médiane des bancs de poissons, l'énergie rétrodi�usée vo-lumique moyenne, les 10eme, 50eme, et 90eme centiles de la densité de probabilitéde l'énergie rétrodi�usée volumique des bancs de poissons. Burgos présente aussideux paramètres qui sont liés à la densité de poissons dans un volume élémentaire

Page 96: These lefort

xcviCHAPITRE 7. CLASSIFICATION ET RECONNAISSANCE DES

STRUCTURES

[214]. Cependant, pour estimer cette densité, il est nécessaire de connaître l'espècedu poisson dans le banc. Et, comme nous essayons de prédire la classe des bancsde poissons, nous supposons que cette donnée est inconnue. Ces deux descripteursne sont donc pas utilisés. Tous ces paramètres sont facilement étendus aux casd'image 3D. Ces 17 paramètres forment un vecteur qui est associé à chaque imageet qui permet d'apprendre des classi�eurs.

3. Histogramme des descripteurs (Hist-Descr). Chaque banc est paramétrépar un certain nombre de descripteurs (sections 7.3 et 7.3.2). Pour chacun desdescripteurs, dans chaque image, un histogramme disjoint est calculé. En considé-rant l'histogramme comme un vecteur de paramètres et en concaténant les histo-grammes de chaque descripteur, nous obtenons un vecteur qui décrit chaque imageet qui permet d'apprendre un classi�eur.

4. Histogramme des clusters (Hist-Clust). L'approche est la même que pour ledescripteur précédent. Dans la section 7.4.2, les bancs sont regroupés par cluster.Dans chaque image, l'histogramme des clusters est e�ectué, donnant un vecteurde descripteurs associé à chaque image. Ces vecteurs permettent d'e�ectuer l'ap-prentissage d'un classi�eur.

5. K de Ripley (Ripley). Le descripteur proposé dans la section 7.4.2 permetd'obtenir une matrice de cooccurrence associée à chaque image. En concaténantles lignes (ou les colonnes) de ces matrices, nous obtenons un vecteur qui permetd'apprendre un classi�eur.

Burgos [206] montre qu'une analyse multi-seuils est plus pertinente qu'une analysequi s'appuie sur plusieurs valeurs de contiguïtés (lors de la détection des bancs depoissons, cf. sections 7.3 et 7.3.2). Ainsi, pour deux valeurs de seuillage distinctes(cf. section 7.3), les formes des agrégations changent, deux pixels isolés peuvent êtreagrégés ensemble si le niveau de seuil baisse. De plus, comme la réponse acoustique despoissons di�ère d'une espèce à l'autre, certaine espèce voit leur énergie rétrodi�uséefortement modi�ée d'un niveau de seuillage à l'autre. Cet aspect produit des élémentsde discrimination entre les espèces de poissons. Les descripteurs proposés sont doncassociés à une analyse multi-seuils. Le vecteur de descripteurs associé à une image pourun seuil donné est concaténé aux vecteurs de descripteurs issus de seuillages di�érents.L'apprentissage et la classi�cation sont e�ectués à partir du vecteur �nal qui contientles informations de chaque seuil. Pour cette expérience, sous conseil de l'expert, nouschoisissons les seuils −60dB et −54dB (l'analyse de sensibilité montre une grandevariabilité entre -60dB et -54dB). De la même façon, pour le descripteur " K de Ripley", plusieurs tailles de boules sont choisies, donnant plusieurs matrices de cooccurrencesdont les valeurs sont concaténées pour construire le vecteur des descripteurs. Le choixde la taille des boules est e�ectué en traçant l'histogramme des distances entre lesindividus (�gure 7.10). Deux types de distances se dégagent : les distances très prochesinférieures à 5 mètres et des distances plus importantes inférieures à 20 mètres. Ainsi,nous choisissons deux types de boules : une dont le rayon vaut 2,5 mètres, et l'autredont le rayon vaut 10 mètres.

Les résultats sont a�chés dans le tableau 7.3 pour le sondeur monofaisceau et dansle tableau 7.4 pour le sondeur multifaisceaux. Les classi�eurs choisis sont les forêtsaléatoires. Dans ce tableau, le taux moyen de bonne classi�cation issu d'une validation

Page 97: These lefort

7.4. CLASSIFICATION ET RECONNAISSANCE DES ENSEMBLES DE BANCSDE POISSONS xcvii

Figure 7.10 � Histogramme des distances entre individus d'une même image

pour chaque classe.

croisée est représenté en fonction du nombre d'images utilisées pour apprendre un clas-si�eur. Il est prévisible que les performances de classi�cation croissent avec le nombred'images considérées pour l'apprentissage (plus il y a d'exemples labélisés, meilleureest l'estimation du classi�eur). En ordonnée, le taux moyen de bonne classi�cationest a�ché pour chacun des descripteurs utilisés (Prof, Burgos, Hist-Descr, Hist-Clust,Ripley).

Cardinal del'ensemble 30 60 90 120d'apprentissage

Burgos 79,5% 83,8% 85,7% 87,0%Hist-Clust 78,1% 81,7% 84,3% 86,0%Hist-Descr 52,5% 63,0% 69,9% 73,2%Ripley 76,7% 79,9% 83,3% 84,0%Sonde 71,3% 72,4% 72,9% 71,0%

Tableau 7.3 � Pour le sondeur monofaisceau (images 2D), comparaison du

pourvoir discriminant des descripteurs globaux. Le taux moyen de bonne clas-

si�cation est représenté en fonction de la taille de l'ensemble d'apprentissage.

Les descripteurs résultent d'une analyse multi seuils (-60dB et -54dB).

Commençons par une analyse globale des résultats. Premièrement, les performancesdes méthodes relativement au cardinal de l'ensemble d'apprentissage renseignent sur larobustesse des méthodes. Ici les performances augmentent avec la taille de l'ensembled'apprentissage. La conclusion logique est que, plus nous disposons d'images annotées,meilleures sont les taux de classi�cation. Deuxièmement, comme pour le test statistiquede la section 7.4.3, l'apport d'informations discriminantes par le sondeur multifaisceaux

Page 98: These lefort

xcviiiCHAPITRE 7. CLASSIFICATION ET RECONNAISSANCE DES

STRUCTURES

Cardinal del'ensemble 30 60 90 120d'apprentissage

Burgos 89,8% 90,9% 91,3% 91,3%Hist-Clust 91,2% 92,7% 93,8% 93,7%Hist-Descr 79,6% 83,7% 85,2% 85,5%Ripley 91,4% 93,4% 94,3% 94,4%Sonde 71,3% 72,4% 72,9% 71,0%

Tableau 7.4 � Pour le sondeur multifaisceaux (images 3D), comparaison du

pourvoir discriminant des descripteurs globaux. Le taux moyen de bonne clas-

si�cation est représenté en fonction de la taille de l'ensemble d'apprentissage.

Les descripteurs résultent d'une analyse multi seuils (-60dB et -54dB).

ne fait aucun doute. Pour chacune des méthodes d'analyse globale, le gain moyen deperformance de classi�cation de l'analyse 2D à l'analyse 3D augmente signi�cativement(allant de 7% d'amélioration pour le descripteur global " Burgos " à 20% d'améliorationpour le descripteur Hist-Descr). Un troisème point important est la contribution desdescripteurs vis-à-vis de la sonde. Bien que les descripteurs globaux soient corrélés àla sonde (plus la sonde est grande, plus la profondeur des bancs de poissons augmente,ce qui impacte à la fois sur l'histogramme des descripteurs des bancs de poissons, etsur l'histogramme des clusters), les descripteurs globaux introduisent d'autres infor-mations discriminantes qui contribuent à améliorer largement le taux de classi�cationpar rapport à celui de la sonde (23,4% dans le meilleur des cas).

Maintenant nous apportons quelques éléments d'analyse qui expliquent les di�é-rences entre Burgos et les descripteurs basés sur les histogrammes des clusters (Hist-Clust et Ripley). En e�et, nous constatons que les descripteurs globaux de Burgos sontmeilleurs pour des images issues du sondeur monofaisceau, tandis que le descripteurproposé (Ripley) produit les meilleurs résultats de classi�cation dans le cas d'image3D. L'explication vient du contenu et de la nature des images : les images 3D sontplus denses et beaucoup plus riches en informations que les images 2D (il su�t decomparer les images des �gures 6.2 (monofaisceau) et 6.4 (multifaisceaux)). Ainsi, lesdescripteurs de Burgos sont plus adaptés à des images simples dont la densité des bancsde poissons est faible, en revanche le descripteur proposé (Ripley) nécessite davantaged'informations, notamment pour le calcul des cooccurrences (plus l'image est complexe,plus les cooccurrences portent de l'information discriminante). Une autre explicationest donnée à partir de l'analyse des descripteurs. Tout d'abord, notons que le descrip-teur Burgos contient des informations communes avec les descripteurs basés sur leshistogrammes des clusters (Hist-Descr et Ripley). En e�et, les informations de densité,de volume, d'énergie et de profondeur des bancs de poissons sont communes aux deuxdescripteurs. Ajoutons que, même si le descripteur Ripley est plus précis, l'informationde distance entre bancs de poissons est commune aux deux approches. En revanche,seul Burgos considère le pourcentage d'occupation spatiale et l'indice de fragmentation,et seules les méthodes basées sur les histogrammes considèrent la longueur, la largeuret la hauteur des bancs de poissons. Or, si nous nous référons au tableau 7.2 dans lequel

Page 99: These lefort

7.4. CLASSIFICATION ET RECONNAISSANCE DES ENSEMBLES DE BANCSDE POISSONS xcix

�gurent les résultats de l'ANOVA, nous constatons que les paramètres morphologiquesdes bancs de poissons (hauteur, longueur, largeur) sont beaucoup plus discriminantsque l'occupation spatiale et l'indice de fragmentation dans le cas 3D pour les classes{1, 2} (les valeurs de la statistiques F sont respectivement {F = 14, F = 124, F = 74}contre {F = 42, F = 30}). Cela explique que les méthodes basées sur les histogrammessont meilleures que Burgos dans le cas des images 3D (tableau 7.4), tout simplementcar les descripteurs élémentaires sont plus discriminants. Inversement, dans le cas 2D,pour les classes {1, 2} les statistiques F deviennent {F = 10, F = 23, F = 0, 05} pourla longueur, la largeur, et la hauteur des bancs de poissons et {F = 93, F = 22} pourl'occupation spatiale et l'indice de fragmentation. Cela justi�e que Burgos soit meilleurdans le cas 2D (tableau 7.3).

A�n d'expliquer les bonnes performances obtenues avec l'histogramme des cluster(Hist-Clust) et les cooccurences des clusters dans les boules (Ripley), pour les images3D, nous traçons l'histogramme des clusters pour chaque classe (�gure 7.11). Ce résul-tat n'est pas absolu, dans le sens où le clustering résulte d'une initialisation aléatoirede la position des clusters, ainsi deux clustering di�érents peuvent produire des résul-tats totalement éloignés. Cependant, la �gure 7.11 montre bien comment l'étape declustering est déterminante et ajoute du pouvoir discriminant (notamment par rap-port à l'histogramme des descripteurs Hist-Descr). Dans cette �gure, on remarqueque les distributions sont relativement bien détachées les unes des autres, et que lesclasses sont associées à plusieurs clusters. Par exemple, pour les images de Sardine, lesclusters {1, 2, 5, 11, 12, 13} sont majoritairement présents, tandis que pour les Anchois-Chinchard peu denses et les Anchois-Chinchard denses, les ensembles de clusters ma-joritairement présents sont {17, 18, 19, 20} et{11, 12, 18, 19}. Dans ces ensembles, plu-sieurs paires de clusters peuvent être choisis pour dé�nir une classe : la paire de cluster{11, 18} est probablement associée à la classe " Anchois-Chinchard, dense ", la paire{18, 20} est probablement associée à la classe " Anchois-Chinchard, peu dense ", etcomme dernier exemple, la paire {2, 12} est probablement associée à la classe " Sar-dine ". Cela explique que les couples de cluster, qui sont la base de notre descripteurglobal qui s'appuie sur les matrices de cooccurrences, sont déjà localisés à l'aide duclustering. Cependant, l'analyse d'une information de distance entre ces couples, viale K de Ripley, produit une légère amélioration des performances de classi�cation.Cela illustre comment le clustering produit de très bonnes performances et pourquoi lamarge d'amélioration des performances de classi�cation reste peu importante (de 0,2%à 0,7%) avec le descripteur proposé (" Ripley ").

Expliquons maintenant pourquoi le clustering produit de meilleurs résultats quel'histogramme des descripteurs des bancs de poissons. La question est légitime car cesdeux descripteurs globaux prennent les mêmes descripteurs de bancs de poissons en en-trée. La di�érence se situe dans la prise en compte, ou non, du caractère " dépendant "des descripteurs. En e�et, les histogrammes des descripteurs sont obtenus pour chaquedescripteur indépendamment en considérant qu'ils sont disjoints. Au contraire, le clus-tering permet de prendre en compte toutes les corrélations possibles entre descripteurs,quelle que soit la dimension de l'espace des descripteurs. Ainsi, étant données les fortescorrélations qui existent entre tous les descripteurs considérés (cf. section 7.3, section7.3.2, et chapitre 6), la prise en compte du caractère " dépendant " des descripteurs

Page 100: These lefort

cCHAPITRE 7. CLASSIFICATION ET RECONNAISSANCE DES

STRUCTURES

Figure 7.11 � Pour un clustering donné, histogramme des clusters dans les

images pour chaque classe.

d'agrégations est un plus non négligeable. Cette explication est aussi valide vis-à-vis desdescripteurs globaux proposés par Burgos. Par exemple, la prise en compte de certainsquantiles de l'énergie rétrodi�usée (Sv), n'exprime en rien les di�érentes corrélationspossibles entre le Sv et les autres descripteurs qui peuvent être discriminantes.

Dans le tableau 7.5, nous reportons les taux moyens de bonne classi�cation pour lesdescripteurs Burgos, Hist-Clust, et Ripley, en fonction du seuil d'extraction des bancsde poissons dans l'image. La moyenne est e�ectuée sur la validation croisée mais aussisur la taille de l'ensemble d'apprentissage. De manière générale, la première constata-tion est que les performances chutent avec l'augmentation du seuil. Cela est cohérent :plus le seuil d'extraction augmente, moins il y a de bancs de poissons dans l'image etdonc d'informations discriminantes. Deuxièmement, nous observons moins de stabilitéque sur la classi�cation multi seuils de la �gure 7.4. En e�et, même si l'histogrammedes descripteurs donne les meilleurs résultats pour les seuils -60dB, -51dB, et -48dB,aucune méthode ne domine vraiment les autres. Finalement, ces résultats traduisentl'importance d'une analyse multi seuils. En e�et, la concaténation des descripteursissus d'analyses multi seuils (tableau 7.4) permet d'améliorer les résultats de classi�ca-tion. Cela est particulièrement vrai pour le descripteur proposé (Ripley) pour lequel lemeilleur taux de classi�cation (90,1%) en analyse mono seuil (tableau 7.5) est atteintpour le seuil -60dB, et pour lequel les performances sont nettement améliorées (93,3%en moyenne, tableau 7.4) en analyse multi seuils (concaténation des descripteurs desseuils -60dB et -54dB). Pour conclure, l'analyse multi seuils est très favorable à notredescripteur, et permet de gagner en stabilité.

Page 101: These lefort

7.4. CLASSIFICATION ET RECONNAISSANCE DES ENSEMBLES DE BANCSDE POISSONS ci

Seuil -60dB -58dB -54dB -51dB -48dBd'extraction

Burgos 85,6% 90,2% 88,8% 84,4% 80,9%Hist-Clust 91,7% 90,1% 88,3% 85,6% 81,2%Ripley 90,1% 89,3% 89,0% 83,9% 80,3%

Tableau 7.5 � Pour le sondeur multifaisceaux (images 3D), comparaison du

pouvoir discriminant des descripteurs globaux. Le taux moyen de bonne classi-

�cation est représenté en fonction du seuil d'extraction des bancs de poissons

dans les images (-60db, -57dB, -54dB, -51dB, -48dB).

7.4.4 Synthèse

Les nouvelles technologies d'acoustique sous marine, symbolisées par le sondeurmultifaisceaux, permettent de décrire les zones insoni�ées de manière beaucoup plusprécise. Notamment, la force du sondeur multifaisceaux est l'ajout d'une troisièmedimension de l'espace qui révèle des formes complexes, instables et diverses. Dans cettesection, nous avons comparé des descripteurs globaux de ces images qui se basent surune analyse multi seuils. La première conclusion issue de l'ANOVA est que les images3D contiennent beaucoup plus d'informations discriminantes que les images 2D, celaest con�rmé par les performances de classi�cation qui sont largement en faveur d'uneanalyse multifaisceaux plutôt qu'une analyse monofaisceau. La seconde conclusion estque le descripteur proposé, qui décrit l'organisation spatiale des bancs de poissonsdans l'image, permet d'améliorer les performances de classi�cation par rapport à desdescripteurs issus de l'état de l'art. Cette amélioration est constaté pour des images 3D,en revanche, le manque d'informations des images issues des sondeurs monofaisceau nepermet pas d'améliorer les performances.

Cependant, l'évaluation des méthodes demande à être approfondie. Plus particuliè-rement, le principe selon lequel des descripteurs fortement discriminants présentent unfort taux de classi�cation pose quelques problèmes. En e�et, les classi�eurs sont sujetsà des phénomènes de bruits. Pour résumer, nous avons constaté par simulation que,plus nous ajoutons de descripteurs, moins les performances sont bonnes. L'idée étaitinitialement de concaténer les matrices de cooccurrences pour une grande variété deseuils et de tailles de boules, mais nous étions alors sujets à des problèmes de capacitémémoire et de saturation des classi�eurs. L'exemple le plus signi�catif se trouve dansle tableau 7.5 : la concaténation des histogrammes des clusters (Hist-Clust) avec lesmatrices de cooccurrences (Ripley) produit de moins bons résultats que l'emploi deshistogrammes seuls. Toutefois, l'analyse multi-seuils permet d'améliorer les résultats.La conclusion est que le classi�eur employé n'est pas assez robuste, l'ajout de descrip-teur ne doit pas altérer les performances. Dans le futur, si ces descripteurs sont utilisés,une analyse des performances plus �ne devra être envisagé, soit en utilisant un classi-�eur plus robuste, soit en changeant la méthode d'évaluation. Par exemple, plutôt quede concaténer les ensembles de descripteurs pour ne former qu'un seul descripteur, onpeut imaginer plusieurs classi�eurs associés à chaque con�guration de seuil ou de taillede boule (pour les statistiques de cooccurrences), puis un vote serait e�ectué à l'instar

Page 102: These lefort

ciiCHAPITRE 7. CLASSIFICATION ET RECONNAISSANCE DES

STRUCTURES

des méthode de " boosting " et de " bagging ".

L'analyse de l'ANOVA et des performances de classi�cations ont montré que lesdi�érences de performances entre les descripteurs peuvent venir des aspects méthodo-logiques des descripteurs mais aussi des informations contenus dans les descripteurs.Ainsi, si en 3D notre descripteur est plus performant du fait de l'utilisation de descrip-teurs morphologiques comme la longueur ou la largeur, alors ceux-ci doivent être inclusdans la méthode de Burgos. De même, si en 2D les descripteurs proposés par Burgossont meilleurs que notre descripteur, les informations complémentaires contenues dansBurgos doivent être inclues dans les histogrammes. Cela constitue les futurs travaux etapprofondissements de cette thématique.

En�n, les performances de classi�cation peuvent être améliorées en considérant uneanalyse multi-résolutions et multi-fréquentielles. Par exemple, l'ANOVA montre quecertains descripteurs 2D sont plus discriminants que certains descripteurs 3D (c'estle cas du volume des bancs de poissons pour les classes {1, 2} pour lequel les statis-tiques F valent F = 0, 5 et F = 12 respectivement pour la 3D et la 2D). En réalité,comme l'échantillonnage du sondeur multifaisceaux est plus précis que celui du son-deur monofaisceau, l'information 2D peut être retrouvé dans les images 3D, le toutest comprendre quelle information doit être sous échantillonnée. Par exemple, l'extrac-tion 2D des bancs de poissons peut donner une multitude de bancs, là où le sondeurmultifaisceaux n'en verrait qu'un (l'information de volume des bancs et de fragmenta-tion est alors complètement di�érente pour les images 2D). De même, malgré l'absenced'analyse multi-fréquentielle, il est bien établi qu'une analyse multi-fréquentielle (2D)permet de discriminer plus facilement les espèces [126]. Finalement, la combinaisonde tous les aspects multi-résolutions, multi-fréquentielles, multi-seuils, locaux et glo-baux, constitue l'enjeu majeur qui permettrait d'obtenir une description optimale desagrégations.

7.5 Conclusion

La description des bancs de poissons est un sujet vaste, qui nécessite de l'atten-tion et de la retenue. Plusieurs approches peuvent être considérées : une descriptionlocale de l'agrégation (paramètres morphologiques, paramètres énergétiques, etc), ouplusieurs échelles globales (à l'échelle d'une portion d'échogramme, ou à l'échelle d'unerégion géographique, etc). Toutes les informations possibles et disponibles constituentun descripteur potentiellement intéressant et discriminant pour le banc de poissons, levoxel dans l'image, ou l'image elle-même.

Dans ce contexte, dans ce chapitre, nous avons montré comment peuvent se mêlerles descripteurs locaux et les descripteurs globaux. En utilisant des descripteurs usuelsde bancs de poissons et des descripteurs usuels globaux auxquels nous avons ajouténos propres propositions de descripteurs, nous avons montré comment peuvent êtredécrites des images qui contiennent des agrégations de la même espèce, mais dont lesformes sont di�érentes.

Ces descripteurs globaux peuvent être envisagés pour la classi�cation des bancsde poissons. En plus des descripteurs locaux des bancs de poissons, sont ajoutées des

Page 103: These lefort

7.5. CONCLUSION ciii

composantes descriptives de l'environnement des bancs de poissons. Ce procédé estutilisé dans le chapitre suivant, dans lequel nous e�ectuons une classi�cation de bancsde poissons, à partir de descripteurs à la fois locaux et globaux.

Page 104: These lefort
Page 105: These lefort

CHAPITRE8 Application à l'évaluation

des biomasses des espèces

halieutiques dans le Golfe

de Gascogne

8.1 Introduction

Dans les chapitres précédents, des méthodes automatiques ont été suggérées pourapprendre des modèles de classi�cation d'objets dont le label est imprécis (cf. partie Idu présent manuscrit). Ensuite, après avoir présenté les descripteurs usuels des agréga-tions de poissons, et le nouveau sondeur multifaisceaux, de nouveaux descripteurs ontété proposés (chapitre 6 et chapitre 7). Comme l'analyse première du comportement desmodèles de classi�cation, ou des descripteurs d'images, requiert des approches simpleset élémentaires, toutes ces méthodes sou�rent d'un manque de validation. Notamment,cela est dû au fait que des scénarios ont été générés pour évaluer les performancesglobales des méthodes de classi�cation et leurs réponses relativement aux complexitésdes ensembles d'apprentissage (cf. chapitre 5). Il a aussi fallu tester les nouveaux des-cripteurs sur un jeu de données partielles qui n'est pas représentatif de l'étendu desobservations possibles en acoustique halieutique, mais dont la con�guration permetmalgré tout d'entériner la contribution. Il est donc légitime de se demander si toutesces méthodes fonctionnent sur des cas pratiques, réels, et exhaustifs.

En guise d'application, dans ce chapitre, nous proposons une étude expérimentalequi valide à la fois l'utilisation des méthodes d'apprentissage et celle des descripteursdes agrégations. Les outils développés sont ainsi appliqués à l'évaluation de la biomassedes espèces halieutiques dans le Golfe de Gascogne qui est pratiquée de manière ex-perte. Cette application permet de juger les performances de classi�cation des bancsde poissons relativement aux méthodes de classi�cation employées et aux descripteursutilisés. L'idée générale est que, si les bancs de poissons sont convenablement classés,alors la biomasse déterminée doit être la même que celle estimée par l'expert.

Dans un premier temps, nous exposons la méthode de l'expert et le fonctionne-ment d'une campagne de pêche acoustique (section 8.2). Dans un second temps, lesméthodes automatiques d'évaluation de biomasse sont présentées (section 8.3). Puis,dans un troisième temps, nous présentons la méthode pour appliquer les algorithmes

Page 106: These lefort

cviCHAPITRE 8. APPLICATION À L'ÉVALUATION DES BIOMASSES DES

ESPÈCES HALIEUTIQUES DANS LE GOLFE DE GASCOGNE

de classi�cation de bancs de poissons à l'évaluation de biomasse (section 8.4). En�n,une analyse des performances d'estimation de biomasse est e�ectuée dans la section8.5.

8.2 Méthode de l'expert pour l'évaluation de bio-

masses

Le Golfe de Gascogne, comme d'autres régions du monde, est soumis à la surexploi-tation de ses ressources halieutiques. La forte pression médiatique qui en découle, vient,pour une partie de la population, de la peur de voir disparaître de leurs assiettes desmets de choix, pour les pêcheurs, de voir leur métier disparaitre, pour les écologistes,de la crainte de voir disparaître à tout jamais une espèce de la surface du globe, etpour les politiques, de devoir proposer des solutions qui conviennent à l'ensemble desparties. Dans ce contexte, des campagnes annuelles d'évaluation des stocks des espèceshalieutiques ont vu le jour. Elles permettent de rendre compte de l'état des ressourceset de suivre ainsi l'évolution et les tendances des quantités observées chaque année.

L'évolution fondamentale qui suit le développement des outils d'observations acous-tiques, est l'estimation des stocks d'espèces. La première étape consiste à classer lesagrégations observées par catégorie qui représentent des classes d'espèces [192]. Dansle cas de mélanges d'espèces, la proportion de biomasse des espèces qui est obtenuepar chalutage, est ramenée au niveau de l'image pour dé�nir la proportion d'énergieacoustique par espèce [215]. Pour améliorer la classi�cation dans le cas des mélangesd'espèces, certains descripteurs globaux ont été développés [216]. Le livre de Simmondset MacLennan [126] fait o�ce de référence quant à la méthodologie d'évaluation desstocks des espèces halieutiques. La méthode utilisée par l'Ifremer [217] s'en inspire lar-gement. A�n de connaître les aspects essentiels de la procédure d'évaluation et pourmieux analyser le comportement des méthodes automatiques, la méthode experte estprésentée dans cette section.

Soit une région du globe dans laquelle nous souhaitons e�ectuer une évaluation dustock de certaines espèces de poissons (�gure 8.1). Voici les étapes essentielles de laméthode d'évaluation de la biomasse :

1. La première étape est la campagne d'acquisition des données de pêche et desdonnées acoustiques. Chaque année, un navire océanographique e�ectue le mêmeparcours tel que représenté dans la partie gauche de la �gure 8.1. L'évaluation destock est e�ectuée sur cette campagne de 45 jours. Des chalutages sont e�ectuésà chaque nouvelle détection. Si la même détection continue après la pêche, il n'ya pas de nouveau chalutage, sauf si la détection change. Après tout changementde transversale (cf. partie gauche de la 8.1), pour toute détection, même si cettedétection est connue et prolonge une observation, un chalutage est e�ectué. Enprospection (période d'acquisition et d'analyse de la donnée acoustique), le bateause déplace à 10 noeuds, et au moment des chalutages, le bateau se déplace à 4noeuds (cf. la partie droite de la �gure 8.1). Les bancs ne sont donc pas les mêmesen prospection et en période de pêche. Ceci est dû aux perturbations apportées

Page 107: These lefort

8.2. MÉTHODE DE L'EXPERT POUR L'ÉVALUATION DE BIOMASSES cvii

Figure 8.1 � A�n d'estimer la biomasse des espèces halieutiques dans le Golfe

de Gascogne, le navire océanographique acquière de la donnée acoustique et

e�ectue des chalutages suivant un protocole précis.

par le chalut et à la vitesse du bateau réduite (le bateau reste plus longtemps audessus du banc de poissons qui plonge). Comme les agrégations sont classées enpériode de prospection, les informations de chalutage sont ramenées à la zone deprospection correspondante. En pratique, une fois que la décision de pêcher estprise, le bateau fait demi-tour comme illustré dans la partie droite de la �gure 8.1,et le chalutage est e�ectué dans la zone de prospection visée. Après le chalutage,un dernier demi-tour permet de reprendre la transversale à l'endroit où elle a étéquittée.

2. La seconde étape est la classi�cation des échos par classes d'espèces. Les bancsextraits par le logiciel movies (chapitre 6) sont classés par classes qui dé�nissentdes espèces de poissons ou des groupements d'espèces de poissons. Par exemple,dans la partie gauche de la �gure 8.2, la catégorie D1 de bancs di�us regroupele Chinchard et le Maquereau collés au fond, D2 rassemble les bancs souventdenses de Sardine, d'Anchois ou de Sprat qui sont dans le milieu de la colonned'eau ou collés au fond, D3 est constitué de bancs de Merlan Bleu au bord duplateau continental, et D4 réunit les bancs surfaciques d'Anchois et de Sardine.Ces groupes sont susceptibles de changer d'une campagne à l'autre, au gré dessituations nouvelles et indécises. D'autres peuvent être créés.

3. La troisième étape est la strati�cation de la zone de prospection (partie droite dela �gure 8.2). Cela consiste à scinder cette zone en strates à la fois homogènes entaille de poissons par espèce et en proportion d'espèces. En pratique, les expertsdé�nissent les strates homogènes de manière empirique, l'une des contraintes étantqu'une strate soit composée d'au moins deux chalutages. Un vecteur de taillesde poissons et un vecteur de proportions d'espèces sont associés à chaque strateen moyennant les données de chalutage de la strate considérée [126] [217]. Lasigni�cation biologique est la notion d'habitat homogène : l'Anchois se situe plutôt

Page 108: These lefort

cviiiCHAPITRE 8. APPLICATION À L'ÉVALUATION DES BIOMASSES DES

ESPÈCES HALIEUTIQUES DANS LE GOLFE DE GASCOGNE

Figure 8.2 � Dans le processus d'estimation de la biomasse des espèces ha-

lieutiques, les bancs de poissons observés sont classés par catégories, et la zone

de prospection est divisée en strates homogènes.

en face de la Gironde, tandis que le Merlan Bleu se trouve sur le bord du plateaucontinental. Chaque ESDU 1 d'une strate est associé au vecteur moyen de taillesde poissons dans la strate et au vecteur moyen de proportions d'espèces.

Notons que, dans une strate, il peut y avoir plusieurs chalutages moyens qui cor-respondent à des chalutages particuliers, comme par exemple les chalutages de sur-face. Ainsi, tous les bancs d'un ESDU ne sont pas forcément associés aux mêmescaractéristiques de tailles de poissons et de proportion d'espèces. Par exemple, pourles chalutages surfaciques, seuls les bancs associés à la catégorie D4 sont concer-nés. De même, si au moment du chalutage, le chalut est positionné au milieu dela colonne d'eau, seuls les bancs de la catégorie D2 sont associés à ce chalutage.Cette note justi�e la seconde étape.

4. La quatrième étape est, pour chaque ESDU, la conversion de l'énergie acoustiquepar espèce en biomasse par espèce. Connaissant l'énergie totale acoustique rétrodif-fusée par un groupe de bancs de poissons, et connaissant la proportion relative debiomasse par espèce, nous en déduisons la biomasse totale par espèce dans l'ESDUconsidéré [217]. Etant donnée l'énergie totale rétrodi�usée dans une image (Etot)et une constante liée au sondeur (C), l'expression de la biomasse de l'espèce i dansl'image considérée (BMi) s'exprime de la manière suivante :

BMi = Cωi

I∑j=1

ωjσj

Etot (8.1)

1Un ESDU correspond à une portion élémentaire du parcours de prospection. En anglais, ESDUsigni�e " echo sampling distance unit ". En pratique, un ESDU correspond à un échogramme, i.e. uneimage, sur 1 mille marin (1 mille = 1852 mètres).

Page 109: These lefort

8.3. MÉTHODES ALGORITHMIQUES D'ÉVALUATION DE BIOMASSES cix

où ωi est la ieme composante du vecteur moyen de proportions d'espèces associéeà l'image, et σi est l'indice de ré�exion moyen de l'espèce i [218]. L'indice deré�exion σi traduit la réponse de chaque espèce relativement à l'énergie acoustique.Son expression dépend de la taille moyenne des poissons de l'espèce i (Li) et deparamètres propres à chaque espèce {ai, bi} :

σi = 10(ai+bilog(Li))/10 (8.2)

8.3 Méthodes algorithmiques d'évaluation de bio-

masses

L'automatisation du processus d'évaluation des stocks d'espèces se fonde sur lemême principe que la méthode de l'expert : l'estimation de la biomasse des espècesdans chaque image élémentaire (ESDU). Bien que les performances de ces méthodesaient été prouvées, elles sont très peu appliquées. Leur dépendance à certains para-mètres et les dangers de propagation d'erreurs font que la présence des experts resteindispensable. L'automatisation du processus est donc envisageable pour corroborerl'analyse de l'expert [126].

Petitgas et all. [219] ont comparés plusieurs méthodes automatiques. Chacune d'ellerepose sur la notion de distance entre image, l'idée générale étant d'associer le mêmevecteur de proportion d'espèces et le même vecteur de taille de poissons à des imagesqui sont similaires. Une méthode consiste simplement à associer les images aux para-mètres du chalutage le plus proche. Une autre méthode (AICASA) rassemble les imageséquivalentes par groupe d'images semblables. Chaque image d'un groupe étant associéeà un chalutage (le chalutage le plus proche), un chalutage moyen fédère l'ensemble dugroupe d'images. La méthode THC est la version contraire d'AICASA, dans le sensoù plutôt que de commencer par regrouper les images entre elles, les chalutages sontrassemblés en groupes de chalutages équivalents, puis chaque image est associée à l'undes groupes de chalutages.

Les paramètres importants de ces méthodes automatiques sont le nombre de ca-tégories de chalutages ou le nombre de catégories d'images, et la façon de créer lesregroupements. En e�et, il est nécessaire de dé�nir un ensemble de descripteurs as-sociés aux images, de déterminer une fonction de distance, et en�n une méthode declassi�cation non supervisée est e�ectuée. Pour AICASA et THC [219], les paramètresdes images sont les paramètres moyens des bancs de poissons des images, puis une clas-si�cation hiérarchique non supervisée est utilisée pour e�ectuer le " clustering ". Dansd'autres travaux [220], les paramètres des images sont les histogrammes des paramètresdes bancs dans les images, et les distances sont dé�nies par la divergence de Bhattacha-ryya [64]. Cependant, cette méthode se distingue des autres car le regroupement desdonnées s'e�ectue par une approche variationnelle. Le point commun de ces méthodesest la propagation d'une information de chalutage (un vecteur de proportions de bio-masse d'espèces et un vecteur de tailles de poissons) dans les images, puis le calcul dela biomasse se fait comme pour l'équation (8.2).

Peu de tests et de comparaisons ont été e�ectués. On peut se demander, par exemple,

Page 110: These lefort

cxCHAPITRE 8. APPLICATION À L'ÉVALUATION DES BIOMASSES DES

ESPÈCES HALIEUTIQUES DANS LE GOLFE DE GASCOGNE

quels sont les descripteurs les plus pertinents : certains quantiles des histogrammesdes descripteurs des bancs de poissons (comme le fait Burgos [206]), les histogrammescomplets des descripteurs des bancs de poissons (comme nous le faisons dans le chapitre7), des paramètres globaux descriptifs de l'image (comme le pourcentage d'occupationspatiale dans l'image, etc), ou la combinaison de tous ces paramètres ? On peut aussi sedemander quelle est la meilleure méthode de regroupement des données : la méthode desk-moyennes, une classi�cation hiérarchique, les graphes de similarité, ou alors vaut-ilmieux considérer une approche variationnelle ?

8.4 Classi�cation de bancs de poissons pour l'évalua-

tion de biomasses

8.4.1 Comment évaluer la biommasse

A�n d'entériner sur un cas pratique les algorithmes d'apprentissage faiblement su-pervisé proposés dans la partie I et les descripteurs globaux proposés dans le chapitre7, nous proposons une méthode d'évaluation de la biomasse des espèces halieutiquesdans le Golfe de Gascogne. De manière générale, l'analyse fonctionne de la manièresuivante : notre méthode permet de classer des bancs de poissons, et donc, une foisles bancs classés, les biomasses par espèce peuvent être estimées dans chaque image.De là, les résultats de biomasse peuvent être comparés avec ceux de l'expert ou desméthodes automatiques, donnant une indication des performances de classi�cation. Deplus, les descripteurs pour la classi�cation de bancs de poissons sont, soit des descrip-teurs locaux (section 7.3 du chapitre 7), soit des descripteurs globaux (section 7.4 duchapitre 7), soit des combinaisons de descripteurs locaux et globaux. Cela permet devalider l'emploi des descripteurs globaux présentés dans le chapitre 7.

Soit une campagne de pêche et d'observation acoustique telle que présentée dansla section 8.2. La zone de prospection est divisée en images élémentaires (ou ESDU :images élémentaires de 1 mille marin) qui contiennent chacune des bancs de poissons.L'ensemble d'apprentissage est constitué en associant une image à un chalutage (parexemple le chalutage le plus proche, ou alors, un chalutage moyen peut être consi-déré comme pour la méthode AICASA de la section 8.3). Une image d'apprentissageest donc labélisée à l'aide d'un vecteur de probabilités a priori des classes qui cor-respondent aux proportions de biomasse par espèce dans l'image. Tous les bancs depoissons d'une image d'apprentissage sont associés à ce vecteur de probabilités a prioride telle sorte que l'ensemble d'apprentissage �nal se note {xn, πn}, où xn est un bancde poissons et πn le vecteur des probabilités a priori correspondant. Ce formalismenous permet d'appliquer les méthodes d'apprentissage faiblement supervisé de la par-tie I. L'observation xn comprend soit des descripteurs locaux, soit des descripteursglobaux, ou les deux. Une fois que le modèle de classi�cation est appris, tous les bancsde poissons sont classés. Ensuite, pour chaque banc de poissons, ayant déterminé leurclasse, l'énergie acoustique est convertie en biomasse. Finalement, dans une image, lasomme des biomasses calculée pour chaque banc de poissons donne la biomasse totalepar espèce.

Page 111: These lefort

8.4. CLASSIFICATION DE BANCS DE POISSONS POUR L'ÉVALUATION DEBIOMASSES cxi

La méthode de conversion de l'énergie acoustique d'un banc de poissons en biomasseest la suivante [126]. Cette méthode permet de donner le poids (en kilogramme) d'unbanc de poissons de longueur L, de surface S (dans le cas d'images bidimensionnelles),d'énergie rétrodi�usée de volume Sv et dont la longueur des poissons lp est connue.Les paramètres L, S et Sv sont obtenus à l'aide de l'extraction des bancs de poissonspar le logiciel movies et le paramètre lp est déterminé par échantillonnage des individuspêchés. La biomasse BMi en kilogramme de l'espèce i s'exprime en fonction du nombrede poissons dans le banc (N), et du poids d'un poisson p̄i comme suit :

BMi = N.p̄i/1000 (8.3)

Le nombre de poissons s'exprime en fonction de la densité ρ (en nombre de poissonspar m3) et du volume du banc (V ) : N = ρ.V . En considérant le volume d'un bancellipsoïdale, alors :

V =2

3S.L (8.4)

. De plus, la densité ρ s'exprime en fonction de l'énergie rétrodi�usée Sv et de l'indexde ré�exion TSi = ai + bi.log(lp) de la manière suivante :

ρ = 10Sv−TSi

10 (8.5)

où ai et bi sont des paramètres propre à chaque espèce. En�n, la relation entre le poidsp̄i d'un poisson et la longueur lp d'un poisson étant donnée par p̄i = ci.l

dip , où ci et di

sont des paramètres propres à chaque espèce, alors l'expression �nale de la biomasseest :

BMi =2

3.S.L.ci.l

dip .10

Sv−TSi10 /1000 (8.6)

Deux approches sont abordées pour le calcul de la biomasse �nale BM end ={BM end

i } d'un banc de poissons : une approche " dure " et une approche " souple". Soit le vecteur BM = {BMi} qui contient les poids du banc considéré pour toutesles classes. L'approche " dure " revient à considérer que le banc de poissons n'est consti-tué que d'une seule espèce. Si Θ est le classi�eur et p(y = i|x,Θ) est la probabilité aposteriori de classi�cation dans la classe i du banc de poissons x, alors la biomasse�nale du banc est un vecteur dont les composantes valent :{

BM endi = BMi si i = arg maxj p(y = j|x,Θ)

BM endi = 0 sinon

(8.7)

Dans le cas de l'approche souple, les composantes du vecteur �nal BM end de biomassesont :

BM endi = p(y = i|x,Θ).BMi (8.8)

En faisant cela, comme dans le papier de Hammond [221], nous considérons qu'un bancde poissons est composé de plusieurs espèces. D'un point de vue mathématique, celapermet de diminuer les erreurs d'attribution de biomasse.

Page 112: These lefort

cxiiCHAPITRE 8. APPLICATION À L'ÉVALUATION DES BIOMASSES DES

ESPÈCES HALIEUTIQUES DANS LE GOLFE DE GASCOGNE

8.4.2 Un critère d'optimisation des paramètres des classi�eurs

En complément de la partie I, dans laquelle nous considérons un ensemble de don-nées dont les a priori sont connus pour chaque classe, une nouvelle information estdisponible : la proportion de biomasse dans les images. Dans cette section, nous propo-sons une méthode d'optimisation des paramètres des classi�eurs, dans le cas d'imagespour lesquelles les proportions des classes sont connues. Etant donnés les paramètresΘ d'un classi�eur, la méthode consiste à trouver un jeu de paramètres optimisés Θ̂ quisatisfont un certain critère.

Nous partons du postulat que si les paramètres Θ d'un modèle de classi�cationidéal (qui classe parfaitement les données) sont optimaux, et si les objets des imagesd'apprentissage sont classés à l'aide de ce modèle, alors la proportion des classes estiméedans les images d'apprentissage, notée π̂k (Θ) où k indice l'image, doit être identique àla proportion réelle des classes dans les images d'apprentissage. Ainsi, nous obtenonsπ̂k (Θ) = πk. Le critère consiste donc à trouver le jeu de paramètres Θ̂ qui minimise unedistance entre les proportions réelles πk et les proportions estimées π̂k (Θ). Ce critèrepeut s'écrire :

Θ̂ = arg minΘ

∑k

D(π̂k(Θ), πk) (8.9)

où D(•, •) est la distance considérée. Parmi les distances possibles, on peut citer ladistance de Bhattacharyya [64] [222] :

D(π̂k(Θ), πk) = 1− 1

I

∑i

√π̂ki(Θ) · πki (8.10)

, la distance de Kullback-Leibler [223] [65] [224] :

D(π̂k(Θ), πk) =1

I

∑i

πki logπki

π̂ki(Θ)(8.11)

, et la distance euclidienne :

D(π̂k(Θ), πk) =

√∑i

|πki − π̂ki(Θ)|2 (8.12)

Une descente de gradient permet de résoudre le critère (8.9). En se ramenant à un kproblèmes élémentaires, l'expression du gradient de la fonction à minimiser s'exprimepour la distance de Battacharyya par :

∂π̂ki(Θ)=

1

2

√πki

π̂ki(Θ)(8.13)

, pour la distance de Kullback-Leibler par :

∂π̂ki(Θ)=−πkiπ̂ki(Θ)

(8.14)

Page 113: These lefort

8.5. PERFORMANCES cxiii

, et pour la distance de euclidienne par :

∂π̂ki(Θ)=

π̂ki(Θ)− πki√∑j

|πkj − π̂kj(Θ)|2(8.15)

Le principal inconvénient de cette méthode est intrinsèque à la méthode du gradient.En e�et, une descente de gradient permet de trouver un minimum local d'une fonctionqui est proche du point d'initialisation. Dans ce chapitre, l'optimisation est appliquéeau modèle discriminant qui se prête aisément à la méthode contrairement aux modèlesbasés sur les arbres de classi�cation dont la quantité de paramètres (le nombre denoeuds dans les arbres et les valeurs de coupures associées à chaque noeud) est unevariable aléatoire. Les paramètres du modèle sont donc Θ = {ωi, bi}, l'ensemble descoe�cients des hyperplans qui séparent la classe i des autres classes.

8.5 Performances

8.5.1 Simulation d'un scénario

Pour déterminer comment se comportent les modèles de classi�cation développésdans la partie I vis-à-vis de données issues de l'acoustique halieutique, nous e�ectuonsune simulation de scénario comme dans la partie I. Ainsi, le jeu de données D5 (pagexc) est utilisé pour générer des ensembles d'apprentissage faiblement supervisés.

La première expérience concerne les paramètres des modèles de classi�cation. Lesrésultats de simulations sont reportés dans l'annexe 2. Les conclusions sont les mêmesque dans la partie I (page lvii).

La seconde expérience concerne la robustesse des classi�eurs relativement au niveaude bruit des probabilités a priori des exemples d'apprentissage (comme dans la section5.4.2 du chapitre 5). Pour cela, 4 niveaux de complexité des données d'apprentissagesont créés, allant de l'apprentissage supervisé, au cas équiprobable, en passant par desniveaux intermédiaires. Les proportions cibles qui permettent de générer ces ensemblesd'apprentissage sont données dans l'annexe 2. Les résultats de simulations sont don-nés dans le tableau 8.1. Les conclusions sont semblables à celles de la partie I. Sanssurprise, plus les probabilités a priori des classes sont faibles, plus les performances declassi�cation chutent. Parmi les classi�eurs élémentaires (FA, Fisher, et EM), le modèlediscriminant (Fisher) est le plus robuste vis-à-vis de la complexité des mélanges. Ainsi,malgré de très bonnes performances en classi�cation supervisée, les forêts aléatoires(FA) sont peu performantes dès que les probabilités a priori de classi�cation baissent.Cependant, la combinaison de classi�eurs, soit par l'utilisation d'un processus itératif(FA+Iter1), soit par la fusion de classi�eurs (Fisher+FA) dans un processus itératif,permet d'approcher les excellentes performances obtenues par les forêts aléatoires (FA)en classi�cation supervisée. Le faible taux de réussite obtenu par la méthode itérative" Iter2 " s'explique par la scission de l'ensemble d'apprentissage à chaque itération, telque les données d'apprentissage ne soient plus assez nombreuses pour que l'organisationspatiale de l'ensemble de toutes les données soit convenablement modélisée.

Page 114: These lefort

cxivCHAPITRE 8. APPLICATION À L'ÉVALUATION DES BIOMASSES DES

ESPÈCES HALIEUTIQUES DANS LE GOLFE DE GASCOGNE

La troisième expérience concerne la robustesse des classi�eurs relativement aunombre de classes probables pour un exemple d'apprentissage (comme dans la section5.4.3 du chapitre 5). Pour cela, 4 niveaux de complexité des données d'apprentissagesont créés. Les proportions cibles qui permettent de générer ces ensembles d'appren-tissage sont données dans l'annexe 3. Les résultats de simulation sont donnés dans letableau 8.2. Cette fois, contrairement à la tendance générale qui se dégage de la partieI, donnant la méthode " FA+Iter2 " plus performante, nous constatons que la fusionitérative du classi�eur discriminant avec les forêts aléatoires (Fisher+FA) permet d'ob-tenir les meilleurs résultats avec une moyenne générale de 84% de réussite et un écarttype de 5%. Pour ce jeu de données, les performances de classi�cation ne dépassentpas 70% en moyenne avec le processus itératif. Cela illustre d'une part les di�cultésde l'apprentissage automatique quant au choix du classi�eur, et d'autre part commentles performances d'un classi�eur dépendent de l'organisation intrinsèque des nuages depoints pour chaque classe.

Type Supervisé Faiblement Faiblement Nond'apprentissage supervisé (1) supervisé (2) supervisé

D5

FA+Iter1 0.89 0.81 0.38 0.25FA+Iter2 0.89 0.47 0.32 0.25Fisher+FA 0.89 0.75 0.62 0.24FA 0.89 0.59 0.35 0.25Fisher 0.70 0.72 0.61 0.27EM 0.66 0.47 0.46 0.28

Tableau 8.1 � Evolution du taux moyen de classi�cation du jeu de données

D5 en fonction de la complexité des labels de l'ensemble d'apprentissage. La

complexité des données d'apprentissage évolue du cas de l'apprentissage su-

pervisé au cas équiprobable, en passant par des cas d'apprentissage faiblement

supervisé plus ou moins complexes (cf. annexe 2).

Nombre de Moyennes /classes dans 1 2 3 4 Ecart typele mélange

D5

FA+Iter1 0.89 0.72 0.62 0.45 0.67 - 0.18FA+Iter2 0.89 0.79 0.71 0.42 0.70 - 0.20Fisher+FA 0.89 0.86 0.86 0.77 0.84 - 0.05FA 0.89 0.71 0.68 0.58 0.71 - 0.12Fisher 0.70 0.71 0.65 0.56 0.65 - 0.06EM 0.66 0.52 0.51 0.47 0.54 - 0.08

Tableau 8.2 � Evolution du taux moyen de classi�cation du jeu de données D5

en fonction du nombre de classes dans chaque mélange. Des jeux de proportions

sont créés, allant du cas supervisé au cas où toutes les classes sont probables

(annexe 3).

8.5.2 Campagne PELGAS00

Le jeu de données

Les données sont celles de la campagne PELGAS00. L'expert fournit un ensembled'ESDU (de 1 mille) pour lesquels l'estimation de biomasse est connue et auxquels estjointe la liste des paramètres des bancs de poissons. Nous disposons aussi de l'ensembledes chalutages, qui renseignent sur les espèces présentes au moment du chalutage, et

Page 115: These lefort

8.5. PERFORMANCES cxv

Figure 8.3 � Bancs de poissons de la campagne PELGAS00. Ceux dont l'a

priori est connu constituent l'ensemble d'apprentissage, les autres sont classés.

surtout, qui déterminent la taille des poissons par espèce a�n d'e�ectuer la conver-sion entre l'énergie d'un banc de poissons et sa biomasse. Notons que les biomassesdes images d'apprentissage sont celles évaluées par l'expert, et non celles issues duchalutage. Cette pratique est admise par les experts [126] [217] qui ont la volonté deminimiser les erreurs possibles induites par un chalutage dont l'échantillonnage ne seraitpas représentatif de l'écosystème environnant. Les bancs de poissons sans annotationet ceux dont l'a priori est connu sont représentés dans la �gure 8.3. Dans ce jeu dedonnées, les échos isolés, qui correspondent à du plancton ou à des poissons isolés, nesont pas considérés comme étant des bancs de poissons et ne sont pas pris en comptedans cette expérience. Cela explique l'aspect morcelé des transversales de prospectiondont ont été supprimés les ESDU sans bancs de poissons avérés.

L'étude des performances de classi�cation des modèles de classi�cation faiblementsupervisés a montré que les taux de réussite sont bas quand l'ensemble des a priorides classes sont bas. En revanche, les taux de réussite restent convenables si, dansl'ensemble des données d'apprentissage, il existe quelques a priori forts pour chaqueclasse. Les modèles de classi�cation peuvent alors être vus comme des �ltres qui at-ténuent l'in�uence des exemples bruités dans l'apprentissage en maintenant celle des

Page 116: These lefort

cxviCHAPITRE 8. APPLICATION À L'ÉVALUATION DES BIOMASSES DES

ESPÈCES HALIEUTIQUES DANS LE GOLFE DE GASCOGNE

exemples dont l'a priori est fort. De ce fait, il est nécessaire d'analyser les mélangesobtenus lors de la campagne PELGAS00 pour déterminer si les classes sont représen-tées par des a priori forts en nombres su�sants. Ainsi, dans l'annexe 4, les probabilitésa priori et les biomasses associées sont tracées pour chaque chalutage et pour chaqueespèce : la Sardine (�gure 9.2), le Maquereau (�gure 9.4), le Chinchard (�gure 9.3),l'Anchois (�gure 9.5), et les espèces négligeables (�gure 9.6). Les espèces négligeablesregroupent des poissons comme le Merlan Bleu et le Sprat dont la biomasse est peureprésentée. A�n d'établir si le nombre de bancs de poissons est su�sant pour chaqueclasse, le nombre de bancs par image est aussi tracé en fonction de l'indice du chalutage(dans l'annexe 4, �gure 9.7).

Nombre d'image Nombre total Poids moyenpour lesquelles de bancs de poissons par{πni} ≥ 0.8 telles que chalutage (en kg)

{πni} ≥ 0.8Sardine 6 167 256Chinchard 23 562 212Maquereau 13 468 312Anchois 16 791 147Espèces 0 0 59négligeables

Tableau 8.3 � Pour la sardine, le chinchard, le maquereau, l'anchois et les

espèces négligeables, le nombre d'images pour lesquelles les probabilités a priori

sont supérieures à 0.8 est reporté, ainsi que le nombre total de bancs de poissons

dans les images telles que les probabilités a priori sont supérieures à 0.8, et le

poids moyen des poissons par chalutage.

Les principales informations sont résumées dans le tableau 8.3. Tout d'abord, pourles 4 espèces principales, les images d'apprentissage contiennent su�samment de bancsde poissons pour estimer correctement les paramètres d'un modèle de classi�cation. Parexemple, pour la sardine, 167 bancs de poissons ont une probabilité a priori supérieure à0,8 d'être classés parmi la sardine. Seules les espèces négligeables sont peu représentéesavec 0 banc de poissons qui ont une probabilité a priori de classi�cation supérieure à 0,8mais 103 bancs de poissons qui ont une probabilité a priori de classi�cation supérieureà 0,5. Cela est véri�é par le poids moyen par espèce dans l'ensemble des chalutages quine dépasse pas 59kg pour les espèces négligeables. Pour conclure, la quantité de bancslabellisés avec un a priori fort est su�sante, excepté pour les espèces négligeables.

Les performances globales

Plusieurs combinaisons de descripteurs sont envisageables. Par exemple, seuls lesdescripteurs des bancs de poissons sont utilisés pour l'apprentissage des modèles declassi�cation. A ces descripteurs de bancs de poissons, peuvent être ajoutés des des-cripteurs globaux comme ceux proposés par Burgos [206], ou ceux proposés dans lechapitre 7, ou les deux. Les coordonnées géographiques peuvent aussi être ajoutées

Page 117: These lefort

8.5. PERFORMANCES cxvii

comme descripteur local de chaque banc de poissons. A cela s'ajoute la façon de cal-culer la biomasse (l'approche " dure ", cf. l'expression (8.7), ou l'approche " souple", cf. l'expression (8.8)) et le choix du classi�eur. L'ensemble de ces combinaisonsconduit à des résultats très nombreux mais assez semblables. Dans cette section, nousne montrons que les solutions résultants des deux meilleures combinaisons au sens d'uncertain critère qui s'appuie sur la corrélation. Soit les vecteurs BM exp

i = {BM expij } et

BMalgi = {BMalg

ij }, respectivement relatifs à l'évaluation de la biomasse de l'espèce idonnée par l'expert et celle obtenue de manière algorithmique, tel que les composantesdes vecteurs soient les images indicées par j (i.e. les ESDU). Alors, la corrélation estun scalaire qui renseigne sur la similarité entre les deux vecteurs BM exp

i et BMalgi .

L'expression de la corrélation est donnée par :

Γi(BMexpi , BMalg

i ) =

N∑j=1

(BM expij − ¯BM

expi )(BMalg

ij − ¯BMalgi )√√√√ N∑

j=1

(BM expij − ¯BM

expi )2

√√√√ N∑j=1

(BMalgij − ¯BM

algi )2

(8.16)

où N indice toutes les images de la campagne d'observation et ¯BMi est le vecteurmoyen. La corrélation est un scalaire compris entre 0 et 1. Si les vecteurs sont identiques,alors la corrélation vaut 1, sinon, plus les vecteurs di�èrent, plus la corrélation tendvers 0. Finalement, pour juger de l'e�cacité d'une méthode de classi�cation et du choixdes descripteurs, un coe�cient moyen de corrélation Γ(BM exp, BMalg) sur l'ensembledes classes i est calculé :

Γ(BM exp, BMalg) =1

I

I∑i=1

Γi(BMexpi , BMalg

i ) (8.17)

Dans le tableau 9.7 de l'annexe 5, les coe�cients de corrélation moyens sont af-�chés pour deux méthodes de calcul de la biomasse, pour plusieurs combinaisons dedescripteurs, et pour plusieurs classi�eurs. Ainsi, si la méthode " souple " de calcul dela biomasse est appliquée (cf. équation (8.8)), alors SOFT = 1 et HARD = 0. Sila méthode " dure " de calcul de la biomasse est appliquée (cf. équation (8.8)), alorsSOFT = 1 et HARD = 0. Si les coordonnées géographiques des bancs de poissons(latitude et longitude) sont ajoutées comme descripteurs locaux en complément desdescripteurs morphologiques et énergétiques, alors Coord. géographique = 1, sinonCoord. géographique = 0. Si les descripteurs globaux présentés par Burgos [206]sont ajoutés aux descripteurs locaux, alors Burgos = 1, sinon Burgos = 0. Si lesdescripteurs globaux proposés dans ce travail de thèse (cf. la section 7.4 du chapitre 7)sont ajoutés aux descripteurs locaux, alors Ripley = 1, sinon Ripley = 0. Notonsque tous les descripteurs globaux peuvent être ajoutés en même temps aux descripteurslocaux, dans ce cas Burgos = 1 et Ripley = 1. En plus des classi�eurs proposés dansla partie I, à savoir le modèle génératif (Génératif, cf. chapitre 3), le modèle discrimi-nant (Kpca/Fisher, cf. chapitre 3), les forêts aléatoires ou " Random Forest " (FA, cf.chapitre 3 et 4), la fusion du modèle discriminant et des forêts aléatoires (Fisher+FA,cf. chapitre 3 et 4), et le processus itératif (FA+Itératif, cf. chapitre 3 et 4), nous

Page 118: These lefort

cxviiiCHAPITRE 8. APPLICATION À L'ÉVALUATION DES BIOMASSES DES

ESPÈCES HALIEUTIQUES DANS LE GOLFE DE GASCOGNE

ajoutons un classi�eur discriminant qui exploite l'optimisation proposée dans la section8.4.2 (Optimisation Kpca/Fisher).

Avant de présenter les deux combinaisons qui donnent les meilleurs résultats, nousprocédons à une analyse globale. Tout d'abord, le calcul " souple " de la biomassedonne de meilleurs résultats en moyenne pour chacun de classi�eurs. Cela s'expliquepar le fait que les erreurs de classi�cation sont atténuées si un mélange de classes estattribué à chaque banc de poissons, et que, au contraire, elles ont un impact importantsi une seule classe est attribuée à chaque banc de poissons. Seul le classi�eur discrimi-nant (Kpca/Fisher) di�ère, avec un coe�cient de corrélation moyen de 0,484 dans lecas " souple " (Soft = 1), contre 0,491 dans le cas " dur " (Hard = 1). De la mêmefaçon, l'utilisation des coordonnées géographiques comme descripteurs locaux a�ecteles performances de classi�cation en moyenne. Cela est toujours le cas en moyenne,excepté pour Hard = 1, Bugos = 0, et Ripley = 0, tel que le coe�cient de corréla-tion vaut 0,463 si Coord. géographique = 0, et 0.470 Coord. géographique = 1.Les conclusions quant au choix des descripteurs sont di�ciles à établir tant les coe�-cients de corrélation sont variables. Plusieurs cas de �gures apparaissent. Par exemple,celui de l'augmentation des performances avec l'ajout d'information descriptive (c'estle cas du modèle FA+Itératif avec Coord. géographique = 0 et Soft = 1, pourlequel le coe�cient de corrélation passe de 0,493 dans le cas de descripteurs locauxuniquement à 0,521 en utilisant tous les descripteurs disponibles). On trouve aussi lecas inverse pour lequel le coe�cient de corrélation chute avec l'ajout d'informationsdescriptives (c'est le cas du modèle Optimisation Kpca/Fisher avec Coord. géo-graphique = 0 et Hard = 1, pour lequel le coe�cient de corrélation passe de 0,526dans le cas de descripteurs locaux uniquement à 0,506 en utilisant tous les descripteursdisponibles). Tous les autres cas de �gures sont présents sans pouvoir e�ectuer uneanalyse logique. Cela s'explique par l'instabilité reconnue des classi�eurs relativementau nombre de descripteurs qui peuvent, en fonction du classi�eur, être source de bruitsou, au contraire, d'amélioration des résultats si la quantité de descripteurs augmente.De plus, le manque de tendance logique et cyclique, contrairement aux expériencesprécédentes pour lesquelles les résultats sont constants et stables (cf. tableaux 5.2, 5.3,7.3, 7.4, 8.1, et 8.2), s'explique par l'absence de validation croisée, car nous traitonsdes données " réelles ". Ainsi, sans validation croisée, les tendances des performancesde classi�cations seraient aussi di�ciles à analyser. Par exemple, nous aurions souhaitévoir les résultats s'améliorer à chaque ajout d'informations descriptives. Cette remarquesouligne la di�culté d'évaluer des modèles de classi�cation et des descripteurs sur desdonnées réelles contrairement à des données synthétiques.

L'analyse globale précédente est e�ectuée sur des moyennes de moyennes. Cetteapproche a ses limites. D'ailleurs les meilleurs résultats du tableau 9.7 de l'annexe 5 sontobtenus pour le classi�eur Optimisation Kpca/Fisher avec un calcul de biomasse" dur ", alors que la tendance générale donne la faveur à un calcul " souple " de labiomasse. Nous proposons dans la suite d'analyser plus en détails les performances declassi�cation des deux meilleures con�gurations du tableau 9.7 de l'annexe 5.

Page 119: These lefort

8.5. PERFORMANCES cxix

Deux exemples

Les deux meilleures con�gurations du tableau 9.7 de l'annexe 5 sont étudiées main-tenant. Il s'agit pour un calcul " dur " de la biomasse, de l'emploi du classi�eur Op-timisation Kpca/Fisher sans les coordonnées géographiques et sans les descrip-teurs globaux, et pour un calcul " souple " de la biomasse, de l'emploi du classi�eurFA+Itératif sans les coordonnées géographiques mais avec tous les descripteurs glo-baux. Pour ces deux con�gurations, les coe�cients de corrélation valent respectivement0,526 et 0,521.

Figure 8.4 � A gauche : corrélation entre la biomasse par espèce estimée

par l'expert et celle estimée par les méthodes algorithmiques. La corrélation

moyenne, qui prend en compte toutes les combinaisons possibles du tableau 9.7

de l'annexe 5 est comparée à celles obtenues pour deux modèles algorithmiques :

le processus itératif amélioré (FA+Itératif, section 4.3.2) en ajoutant tous

les descripteurs globaux (Burgos = 1 et Ripley = 1) du chapitre 7 et le

modèle discriminant (Optimisation Kpca/Fisher, section 3.3) en utilisant

les descripteurs de bancs de poissons seuls. A droite, la biomasse par espèce

estimée par l'expert, par la méthode algorithmique FA+Itératif avec tous les

descripteurs globaux, et par la méthode Optimisation Kpca/Fisher sans

ajout de descripteurs globaux.

Dans la �gure 8.4, à gauche, nous traçons les coe�cients de corrélation en fonc-tion des espèces pour les deux modèles précédemment décrits et pour la corrélationmoyenne obtenue pour toutes les combinaisons possibles du tableau 9.7 de l'annexe5 et pour tous les classi�eurs. Cela permet de constater qu'il y a une tendance gé-nérale suivie par l'ensemble des performances obtenues pour toutes les modélisationspossibles. Nous constatons aussi que les deux meilleures modélisations produisent desrésultats sensiblement équivalents et très proches de la tendance moyenne. De manièregénérale, quelque soit les méthodes de classi�cation, les estimations de biomasse del'anchois et des espèces négligeables sont plus proches de celles de l'expert que ne lesont celles du chinchard et du maquereau. Entre les deux, la sardine. A droite de la

Page 120: These lefort

cxxCHAPITRE 8. APPLICATION À L'ÉVALUATION DES BIOMASSES DES

ESPÈCES HALIEUTIQUES DANS LE GOLFE DE GASCOGNE

�gure 8.4, nous représentons les biomasses estimées par espèce pour les deux modéli-sations considérées et celles estimées par l'expert. Premièrement, si les tendances descorrélations sont sensiblement équivalentes d'une modélisation à l'autre, les biomassesrésultantes peuvent être très di�érentes. Par exemple, pour le maquereau l'écart de bio-masse entre les deux méthodes algorithmiques atteint 350 000 tonnes. Cela s'expliquepar le fait que le maquereau n'a pas de vessie natatoire, et par conséquent, les para-mètres {ai, bi, ci, di} de conversion d'énergie à biomasse de la section 8.4.1, di�èrentfortement pour le maquereau par rapport aux autres espèces. Ainsi, quelques erreursde classi�cation peuvent avoir un impact énorme sur l'évaluation de la biomasse. Parexemple, si quelques bancs de sardines sont classés parmi les bancs de maquereaux, lavariation de biomasse pour la sardine est très inférieure à celle observé pour le maque-reau. Cela explique qu'entre les deux méthodes algorithmiques, il y a des di�érencesfaibles de biomasse pour la sardine et le chinchard, qui se traduisent par un gros écartde biomasse pour le maquereau. Deuxièmement, l'écart de l'estimation de biomasseentre les deux types de modélisation et l'expert se justi�e par de grosses erreurs declassi�cation. En e�et, de manière générale les performances sont assez moyennes etles erreurs introduisent des biais dans l'estimation de la biomasse. Comme illustré pré-cédemment, ces biais proviennent des conversions de l'énergie du banc de poissons enbiomasse de poissons.

Pour illustrer les problèmes de classi�cation, nous traçons les cartes de biomasseobtenues par l'expert et par les deux méthodes algorithmiques pour l'espèce qui donneles meilleurs résultats (l'anchois) et celle qui donne les moins bons résultats (le maque-reau). Ainsi, dans la �gure 8.5, nous traçons la biomasse associée à chaque ESDU, i.e.tous les milles marins, dans le plan tangent à la surface de la terre. Chaque cercle estproportionnel à la biomasse estimée : plus le cercle est grand, plus la biomasse estiméeest importante. Les cartes con�rment les résultats de la �gure 8.4 : dans le cas oùl'expert a correctement estimé la biomasse des di�érentes espèces, la classi�cation desbancs d'anchois est mieux réussies que celle des bancs de maquereaux. Cela est vraiquelque soit la modélisation. En e�et, nous constatons que pour les trois estimationsde la biomasse d'anchois, la majorité des agrégations se situe dans le sud-est du Golfede Gascogne, en face de la Gironde. En revanche, pour le maquereau, conformémentaux faibles valeurs de corrélation de la �gure 8.4, il y a beaucoup d'erreurs de clas-si�cation. Les cartes de distributions de biomasse montrent à quel point l'erreur estimportante. Pour chacun des trois types de méthode d'évaluation, les cartes obtenuessont di�érentes. La principale explication est la forte localisation des anchois dans lesud-est du Golfe de Gascogne, produisant des paramètres descriptifs des bancs de pois-sons proches de situations monomodales. En e�et, comme l'anchois est concentré dansune partie du Golfe de Gascogne, les informations descriptives sont peu variables cequi facilite l'estimation des paramètres des modèles de classi�cation. Ajoutons à celaque l'anchois est une espèce de poisson dont les paramètres descriptifs semblent plusdiscriminants que pour les autres espèces. En e�et, les matrices de confusion dans la�gure 7.4 montrent sur un jeu de données particulier qu'entre la sardine, l'anchois, lechinchard et le merlan bleu, l'anchois est l'espèce la plus discriminante.

Page 121: These lefort

8.5. PERFORMANCES cxxi

Figure 8.5 � Estimation de la biomasse d'anchois et de maquereau par l'ex-

pert, par la méthode discriminante avec optimisation telle que Ripley = 0,Cluster = 0 et Soft = 0, et par le processus itératif tel que Ripley = 1,Cluster = 1 et Soft = 1. La biomasse est représentée par des cercles dont le

rayon est proportionnel à la biomasse estimée.

8.5.3 Discussion

Dans ce chapitre, nous avons appliqué les méthodes d'apprentissage faiblement su-pervisé proposées dans la partie I au cas de l'évaluation de la biomasse des espèceshalieutiques dans le golfe de Gascogne. Les résultats sont positifs pour l'anchois (�gure8.5), mais sont globalement insu�sants pour être e�ectifs. Le transfert dans le domainede l'application nécessite beaucoup d'améliorations. Cependant, retenons que la classi-�cation de bancs de poissons n'est pas la façon usuelle de pratiquer les évaluations debiomasses, celle-ci est accomplie par une propagation globale de l'information de pro-portion des espèces dans les images (sections 8.2 et 8.3). L'objectif de cette applicationest double.Tout d'abord, il s'agit de valider l'emploi des méthodes de classi�cation faiblement su-pervisé sur un cas pratique. Pour l'évaluation de biomasse, les résultats montrent quel'approche est envisageable en apportant des améliorations et, de plus, en n'essayantpas d'e�ectuer l'évaluation directe de la biomasse mais plutôt d'utiliser ces méthodes

Page 122: These lefort

cxxiiCHAPITRE 8. APPLICATION À L'ÉVALUATION DES BIOMASSES DES

ESPÈCES HALIEUTIQUES DANS LE GOLFE DE GASCOGNE

pour e�ectuer une pré-classi�cation comme le fait l'expert (section 8.2).En�n, ces résultats apportent la preuve que, pour l'évaluation de biomasse, la classi�-cation des bancs de poisons est moins e�cace qu'une approche globale de propagationde l'information des proportions dans les images [219].

Plusieurs raisons expliquent les résultats nuancés obtenus dans ce chapitre :

1. Incertitude sur la validité des échantillonnages. L'unique solution pour dé-terminer les espèces présentes dans les images est le chalutage. De même, ce chalu-tage indique la proportion des classes dans les images qui est la base des méthodesd'estimations. Toutefois, on montre qu'il existe une forte incertitude quant auxinformations données par le chalutage [126]. Premièrement, il existe des problèmesd'évitements des poissons relativement au �let de pêche. Seule une partie d'unbanc de poissons peut être capturée, et malgré l'implantation de sondeurs à l' "entrée " des chaluts, il est très di�cile, voire impossible de déterminer exactementle comportement des poissons vis-à-vis du �let de pêche. Ainsi, pour une observa-tion acoustique particulière, la proportion des espèces pêchées peut être di�érentede la proportion réelle des espèces vue dans l'échogramme. Ajoutons à cela quele comportement des poissons autours du �let de pêche peut varier d'une espèceà l'autre. On peut supposer par exemple que certains poissons sont plus vifs qued'autres, ou que, face au danger, ils ont des plus grandes facultés de dispersions.Deuxièmement, le chalutage ne couvre pas la totalité de la colonne d'eau. L'ouver-ture verticale du �let est de 20 mètres, tel qu'il est di�cile de savoir précisémentsi un banc de poissons est capturé ou non, et si la proportion pêchée est celle quiest observée dans l'échogramme. En outre, les chalutages de fond sont soumis àdes sauts qui correspondent à des variations de vitesse du bateau, laissant passerou non certains poissons collés au fond.

L'attribution de chalutages moyens sur des zones spéci�ques, comme le fait l'expert(cf. section 8.2), est un moyen e�cace pour diminuer l'incertitude sur les propor-tions. Les proportions moyennes ainsi obtenues sont statistiquement plus �ables.Il serait intéressant de procéder de la même façon pour l'estimation de la biomasseà l'aide d'une classi�cation automatique des bancs de poissons. Par exemple, lesprobabilités a priori utilisées pour l'apprentissage pourrait être issues d'un cha-lutage moyen qui soit la combinaison des chalutages les plus proches. En�n, lesproblèmes d'évitements des poissons par rapport au chalutage et de positions du�let dans la colonne d'eau peuvent être atténués à l'aide de théories plus généralesque la théorie des probabilités. Par exemple, la théorie de Dempster-Shafer [1],qui permet de prendre des décisions, se base à la fois sur la probabilité d'un évé-nement et sur un intervalle de con�ance de cette probabilité. De la même façon,pour notre a�aire, on peut imaginer que les probabilités a priori des classes nesont pas constantes, mais qu'elles sont comprises dans un intervalle qui dépendde paramètres comme la sonde ou la position du chalutage. Dans ce cas, une tellethéorie peut être appliquée.

2. Incertidudes de l'expertise. Il est reconnu que les méthodes d'estimation desstocks d'espèces, qu'elles s'appuient sur une analyse d'experts ou sur un procédéalgorithmique, sou�rent de l'impossibilité d'évaluer le taux d'erreurs de classi�ca-tion [126]. En e�et, à l'instar des américains de la NOA, des norvégiens de l'IMR,

Page 123: These lefort

8.5. PERFORMANCES cxxiii

des espagnols de l'IEO et des français de l'Ifremer, tous les grands organismesinternationaux qui emploient des techniques d'estimation comme celle présentéedans la section 8.2, s'accordent sur l'incapacité de mesurer quantitativement lajustesse d'une estimation [225]. Cela vient du fait que les oblets sous-marins sontinvisibles à nos yeux, et qu'en dehors des sondeurs acoustiques dont la résolutionreste peu précise, l'homme ne dispose pas encore d'outils d'observation vraimentapproprié. N'ayant pas de vérité terrain digne de ce nom, la seule technique pourmesurer la pertinence d'un algorithme consiste à comparer les solutions à cellede l'expert. Mais, dû à la forte incertitude de l'estimation de référence, un doutepersiste quant aux performances de classi�cation réelles des méthodes algorith-miques. De plus, cela rend complexe la comparaison des approches automatiquesentre elles. Comment savoir si une méthode est mieux qu'une autre ? Commente�ectuer une étude de paramètre ?Cependant, la �gure 8.4, à gauche, montre une corrélation entre les mesures debiomasse des di�érentes méthodes, avec quasiment les mêmes rapport de biomassepar espèce. Ainsi, en se replaçant dans le contexte du suivi des stocks, avec l'objec-tif de déterminer quels sont les tendances des évolutions des biomasses d'espècesdans une zone particulière, toutes ces approches restent valables et pertinentes.Car si ces analyses sont conduites chaque année, alors il est possible de prédire siune espèce perdure, est en voie de disparition, ou se multiplie dans une zone, cequi est déjà intéressant biologiquement.

3. Formalisme probabiliste incorrect. Pour cette application, nous considéronsque les probabilités a priori des classes dans les images sont données par les pro-portions de biomasse d'espèces dans les chalutages. Ramenées à l'échelle des bancsde poissons, ces proportions donnent une probabilité de classi�cation a priori pourchaque banc de l'image. Cette démarche est critiquable. En e�et, prenons l'exempleextrême d'une image qui contient deux espèces, avec un très gros banc de sardineset deux petits bancs de chinchards, tel que la biomasse de sardine soit 9 fois plusimportante que celle des chinchards. En termes de biomasse, la probabilité dessardines est de 0,9 et celle des chinchards est de 0,1 alors qu'en réalité, nous avons1 chance sur 3 d'être en présence d'un banc de sardine, soit une probabilité de0,33 pour la sardine et 2 chances sur 3 d'être en présence d'un banc de chinchards,soit une probabilité de 0,66. Cet exemple montre que ce formalisme probabilisteest incorrect et qu'un travail devrait être fourni pour résoudre ce problème. Cetteremarque montre les limites de l'utilisation des modèles d'apprentissage faiblementsupervisé pour la classi�cation des bancs de poissons dans le cadre de l'évaluationde la biomasse, du moins telle que proposée dans ce travail de thèse. L'approche lequi consiste à ventiler des proportions de biomasse dans des groupements d'imagessimilaires semble plus adaptée à ce problème (cf. sections 8.2 et 8.3).Cependant, une méthode automatique d'estimation des proportions réelles dans lesimages de chalutages peut être envisagée. L'utilisation d'un formalisme utilisantles fonctions de croyances et le raisonnement plausible de la théorie de Dempster-Shafer semble encore une fois pertinente [1]. De plus, il est envisageable qu'en coursde campagnes de pêches acoustiques, l'expert labélise certains bancs, du moins lesplus sûrs, fournissant une base solide de pré-classi�cation en vue de l'estimationdes probabilités a priori dans les images.

Page 124: These lefort

cxxivCHAPITRE 8. APPLICATION À L'ÉVALUATION DES BIOMASSES DES

ESPÈCES HALIEUTIQUES DANS LE GOLFE DE GASCOGNE

A�n de déterminer si le fort taux d'erreurs provient de ce formalisme de propor-tion de biomasse, nous proposons de convertir les proportions de biomasses enproportion d'énergies à l'aide de l'expression 8.6. Les corrélations moyennes, pourles di�érentes combinaisons sont a�chées dans le tableau 9.8 de l'annexe 5. Nousconstatons, que les résultats ne sont guère améliorés, ils sont très semblables, lesconclusions étant similaires à celles de l'analyse des performances issues des pro-portions de biomasse. Pour illustrer ces propos, les moyennes des coe�cients decorrélation sur l'ensemble des combinaisons de descripteurs et de modèles de clas-si�cation possibles sont représentés à gauche, dans la �gure 8.6. De même, à droitede la �gure 8.6, la biomasse estimée par espèce est représentée pour la méthodela plus performante, à la fois pour le cas des proportions de biomasse et celuides proportions d'énergies. Les résultats sont très similaires à ceux obtenus précé-demment : beaucoup d'erreurs pour le maquereau et le chinchard, moins pour lasardine, et bonne estimation pour l'anchois et les espèces négligeables.

Figure 8.6 � A gauche, comparaison entre les coe�cients de corrélation ob-

tenus pour des probabilités de classi�cation a priori issues des proportions de

biomasses ou des proportions d'énergies. A droite, biomasse estimée par l'expert

et pour la méthode d'estimation Optimisation Kpca/Fisher, en utilisant les

descripteurs de bancs de poissons seuls, et pour des probabilités de classi�cation

a priori issues des proportions de biomasses ou des proportions d'énergies.

4. Jeu de données incomplet. Dans ce chapitre, l'objectif est d'appliquer les mé-thodes d'apprentissage faiblement supervisé sur un cas réel, mais aussi d'appli-quer les descripteurs globaux proposés pour constater une amélioration des per-formances. Le tableau 9.7 de l'annexe 5 montre que, pour certains modèles declassi�cation, l'ajout de paramètres descriptifs permet d'accroitre les performancesd'estimation. Notamment, dans le chapitre 7, nous avons montré d'une part, queles image 2D sont peu informatives en comparaison des données 3D (nous ob-tenions alors un gain de bonne classi�cation de 10%), et que, d'autre part, uneanalyse multi seuils améliore nettement les performances de classi�cation par rap-

Page 125: These lefort

8.5. PERFORMANCES cxxv

port à une analyse à un seul seuil. Or, pour l'expérience du présent chapitre, lesmodèles de classi�cation sont testés sur un jeu de données issu d'un sondeur mo-nofaisceau et l'extraction des bancs de poissons est e�ectuée pour un seul seuild'énergie. A ce jour, il n'existe pas de données multifaisceaux qui soient traitées etvalidées par un expert, d'ailleurs ce type de sondeur n'est pas utilisé dans le pro-tocole d'estimation de la biomasse. Il le sera. Ainsi, l'estimation de biomasse pardes méthodes automatiques de classi�cation de bancs de poissons sera nettementaméliorée si nous disposons d'images 3D pour lesquelles nous e�ectuons une ana-lyse multi seuils. Ajoutons que pour ce jeu de donnée, seuls les bancs de poissonssont retenus et que les zones de plancton sont écartées. Or, dans le chapitre 7, nousconservons toutes les agrégations planctoniques en considérant qu'elles sont repré-sentatives d'un environnement et qu'elles sont sources d'informations. La prise encompte du plancton permettrait aussi d'améliorer l'estimation de la biomasse desespèces. En�n, lors des campagnes de pêches acoustiques, l'expert e�ectue une pré-classi�cation visuelle sur la base des observations acoustiques multi-fréquentielles.Pour le maquereau, la réponse acoustique en hautes fréquences est plus élevée queles autres espèces, ce qui se traduit par le fait qu'il est plus visible que les autresespèces dans les images fournies par les sondeurs de fréquences élevées. La classi-�cation du maquereau est donc triviale pour l'expert. Comme nous ne disposonspas de cette information multi-fréquentielles, le maquereau est di�cile à di�éren-tier des autres espèces. D'ailleurs, le maquereau est l'espèce pour laquelle nousavons obtenu les plus mauvais résultats de classi�cation. Si nous avions disposéde cette information haute fréquence, le maquereau aurait certainement pu êtreclassé convenablement, et par conséquent, cela aurait permis de diminuer le bruitentre espèce et conduit à une meilleure estimation des modèles de classi�cationpour les autres espèces.

5. Approche à simpli�er. Il semble que nous nous soyons placés dans le cas le pluscomplexe. Dans la méthode choisie par l'expert [217], celui-ci passe par une étapede classi�cation des agrégations par espèces ou par groupes d'espèces (cf. chapitre7). Cela simpli�e le problème pour des choix de classi�cation di�ciles et insolubles.Une expérience possible est de remplacer cette étape de classi�cation manuelle parde la classi�cation automatique faiblement supervisée, telle qu'il y ait des classesqui regroupent des espèces. Ces regroupements d'espèces peuvent être dé�nis enfonction de leur niveau de probabilité, soit post classi�cation, soit post chalutage,ou plus simplement par l'expert. Dans le cas pratique d'une campagne de pêcheacoustique, cette étape d'automatisation est un moyen de valider, ou non, le choixde l'expert.

6. Conversion énergie/biomasse. Après l'étape de classi�cation, pour calculer labiomasse générale par espèce, nous avons convertie l'énergie acoustique rétrodif-fusée de chaque banc en biomasse de poissons pour chaque banc. Pour cela, nousavons supposé que les bancs de poissons sont de forme ellipsoïdale avec un dia-mètre de section horizontale centrale égale à l'angle d'ouverture du faisceau. Cettesupposition peut entraîner des di�érences notables de biomasse par rapport à l'ex-pert. De même, la formule de conversion (cf. expression 8.6) entre l'énergie et labiomasse nécessite la connaissance de la taille des poissons qui n'est pas exacteétant donnée l'imprécision de l'échantillonnage. Ce paramètre entraine aussi une

Page 126: These lefort

cxxviCHAPITRE 8. APPLICATION À L'ÉVALUATION DES BIOMASSES DES

ESPÈCES HALIEUTIQUES DANS LE GOLFE DE GASCOGNE

imprécision dans la valeur de la biomasse.

8.6 Conclusion

Dans ce chapitre, nous avons proposé une application à l'évaluation de la biomassede certaines espèces halieutiques dans le golfe de Gascogne. Les résultats de l'estimationsont plutôt négatifs. Un grand nombre de raisons expliquent les mauvais résultats, lesprincipales étant, la complexité du jeu de données, la conversion de l'énergie acoustiqueen biomasse, l'absence de données multifaisceaux et multi-fréquences, etc.

Des applications moins périlleuses auraient permis de mettre avant les modèlesde classi�cation proposées. Par exemple, la pré-classi�cation e�ectuée par les expertsavant la propagation des informations de proportion de biomasse peut être automatisée.Cette tâche sera beaucoup plus aisée étant données le regroupement d'espèce dans unemême classe. De plus, la justesse des modèles de classi�cation pourrait être mise enavant sur la problématique de la classi�cation d'objets, étant donné la connaissance dela présence et de l'absence des classes dans les images d'apprentissage.

Page 127: These lefort

CHAPITRE9 Conclusion Générale

Dans cette thèse, nous avons étudié un problème général de classi�cation probabi-liste automatique, puis nous nous sommes placés dans le cadre applicatif de l'acoustiquehalieutique.Dans un premier temps, nous avons proposé des méthodes d'apprentissage faiblementsupervisé, l'originalité étant d'estimer les paramètres d'un modèle de classi�cation àpartir de la seule connaissance des probabilités de classi�cation a priori des exemplesd'apprentissage.Dans un second temps, nous avons traité le cas de la classi�cation des bancs de poissonsdans des échogrammes. Un descripteur global des images a été proposé, et les méthodesd'apprentissage faiblement supervisé ont été appliquées à l'évaluation de la biomassedes espèces halieutiques.

Résultats principaux.

1. Nous avons dé�ni un cadre original qui englobe plusieurs types d'apprentissage.A notre connaissance, peu de travaux présentent des modèles de classi�cation quisoient transverses, l'usage étant de préférence la proposition d'un modèle parti-culier pour un certain type d'apprentissage. Ainsi, le formalisme mathématiqueproposé permet de généraliser l'apprentissage supervisé et semi-supervisé.

2. Nous avons suggéré des méthodes d'apprentissage pour trois modèles de classi�-cations élémentaires (un modèle génératif, un modèle discriminant, et un modèlehybride), puis nous avons étudié le cas des combinaisons de classi�eurs, via lesensembles de classi�eurs et la classi�cation itérative.

3. La simulation des jeux de données d'apprentissage nous a permis de maitriserla complexité de l'apprentissage, et ainsi, d'évaluer le comportement dynamiquedes classi�eurs. Les résultats ont montré la pertinence des modèles proposés, avecnotamment l'emploi des processus itératifs, qui permettent, pour certains niveauxde complexité, de retrouver quasiment les mêmes résultats qu'en classi�cationsupervisé.

4. Un descripteur des agrégations de poissons dans des images a été proposé. Celui-cipermet de modéliser la distribution spatiale des bancs de poissons dans une image.Les résultats expérimentaux ont permis de valider leur utilisation qui est recom-mandée pour des images complexes comme celles issues du sondeur multifaisceaux,mais aussi, l'étude expérimentale à montré l'apport quantitatif d'informations dis-criminantes du sondeur multifaisceaux relativement au sondeur monofaisceau.

Page 128: These lefort

cxxviii CHAPITRE 9. CONCLUSION GÉNÉRALE

5. En�n, pour valider l'utilisation des modèles proposés, l'ensemble des propositionsa été appliqué à l'évaluation de la biomasse des espèces halieutiques dans le golfede Gascogne. Les résultats expérimentaux ont montré que l'approche basée sur laclassi�cation des bancs de poissons sou�rait de nombreuses approximations mé-thodologiques et instrumentales, et qu'en l'état, l'approche globale de propagationdes proportions de biomasse était préférable.

Qualité des résultats.Nous discutons ici de la validité des résultats et des points à approfondir.

1. Notre objectif principal était d'obtenir un classi�eur compétitif qui propose lesmeilleures performances de classi�cation. Ainsi, nous avons exploré un maximumde formalismes et de méthodes. Cela a été fait au détriment d'une analyse plusapprofondie du comportement des modèles. Par exemple, les propositions de fu-sion de probabilités, via des sommes pondérées restent empiriques. De même, laconvergence des processus itératifs n'est pas prouvée. Cependant, notons que lesméthodes proposées sont originales et prometteuses, celles-ci posent les bases d'untravail qui demandera plus d'analyses et d'élargissements (citons par exemple l'ap-prentissage d'un arbre de classi�cation à partir de probabilités de classi�cation quin'avait jamais été proposé).

2. La complexité de l'apprentissage est étudiée en générant arti�ciellement des jeuxde données sur la base de proportions cibles choisies. L'étude n'est pas exhaustive,il faudrait générer beaucoup plus de cas particuliers et de types de proportions, parexemple, nous avons testé le cas d'un jeu de données d'apprentissage pour lequeltoutes les classes sont équiprobables, mais qu'en est-il des paires ou des triplets declasses équiprobables ? Cela permettrait d'apprécier le comportement des modèlesdans le cas d'images pour lesquelles la présence et l'absence des classes d'objetssont connues.

3. Le descripteur proposé, qui caractérise la distribution spatiale d'un processus ponc-tuel marqué, a été testé sur un jeu de donnés limité, celui-ci étant composé de seule-ment trois classes, dont l'une est très di�érente des autres en termes de sonde. Nousavons montré, l'utilité du descripteur pour caractériser certaines formes d'agréga-tions, mais il est important de mesurer sa contribution sur d'autres classes d'espèceet/ou de distributions. Cependant, ce jeu de données nous a permis de mettre enavant la force du sondeur multifaisceaux par rapport au sondeur monofaisceau.

4. Notre objectif était de proposer un descripteur global pour lequel les performancesde classi�cation sont les meilleures. Cependant, les descripteurs considérés n'englo-baient pas nécessairement les mêmes informations élémentaires (caractéristiquesélémentaires des bancs de poissons, informations globales sur l'image, etc). Deplus, une ANOVA a permis de mesurer l'importance de chaque descripteur élé-mentaire, ce qui a expliqué les performances des méthodes. Ainsi, il aurait étépertinent de conclure par une comparaison des méthodologies descriptives en uti-lisant les mêmes informations élémentaires. Malgré tout, ces travaux préliminairessont intéressants, ils proposent des conclusions importantes, et il y a l'expressiond'un paramètre descriptif original.

5. Les résultats de l'application du chapitre 8 sont mitigés et insu�sants pourconclure que notre méthode fonctionne. La synthèse de la section 8.5.3 donne

Page 129: These lefort

cxxix

les conclusions et les raisons qui expliquent le manque d'exactitude. Cependant,une autre application aurait été envisageable : celle de la classi�cation d'objet dansdes images d'apprentissage pour lesquelles la présence et l'absence des classes estconnues. En e�et, nous avons montré que notre model de classi�cation peut êtreplus performant que le model génératif proposé par Bishop et Ulusoy [154], il y adonc des chances pour que cette application fonctionne.

Porté des résultats.A plusieurs niveaux, les travaux de cette thèse ont un fort potentiel de popularisation.

1. Le formalisme mathématique qui permet de généraliser plusieurs formes d'appren-tissage est intéressant. Aujourd'hui, alors que la problématique de classi�cationest toujours la même, i.e. a�ecter une classe à une entité, beaucoup de modèlessont dédiés à un problème de classi�cation particulier qui dépend du type de com-plexité du jeu d'apprentissage (supervisé, semi-supervisé, faiblement supervisé).Ainsi, l'utilisation d'un classi�eur n'est pas malléable. En cours d'utilisation, sila procédure de labellisation change, l'apprentissage du modèle doit changer. Enrevanche, le formalisme proposé autorise toute transversalité et ne cloisonne pasdans une application donnée qui dépend de la complexité des jeux d'apprentissage.Cette proposition permet donc d'élargir la vision et devrait intéresser la commu-nauté scienti�que.

2. Ces résultats induisent de nombreuses applications possibles. Nous avons proposédes modèles de fusion des probabilités pour l'apprentissage des paramètres desmodèles de classi�cation élémentaires. Ces fusions de probabilités ont permis dese placer dans le contexte de méthodes existantes dont nous n'avons pas changéla théorie fondamentale. Une multitude d'autres applications peut être envisagée.Par exemple, pourquoi ne pas traiter le cas de l'algorithme SEM [17] à la placede l'algorithme EM? Pourquoi ne pas choisir une autre méthode d'ensemble declassi�eurs ? On peut imaginer une méthode basée sur Adaboost [157]. De même,il semble impératif de mesurer le comportement de tels modèles généraux dansle cas de l'apprentissage semi-supervisé et dans celui des images annotées en pré-sence/absence. Toutes ces applications constituent un fort intérêt pour la commu-nauté scienti�que.

3. Nos diverses expériences sur le sondeur multifaisceaux, nous ont permis de quanti-�er l'apport d'informations discriminantes par rapport au sondeur monofaisceau.Or, les organismes océanographiques internationaux utilisent très peu le sondeurmultifaisceaux dans les protocoles d'observation des océans. Nos travaux vont donccontribuer à démontrer l'importance de l'utilisation de cet outil. Par exemple, celadoit motiver davantage les experts à considérer le sondeur multifaisceaux dansles protocoles d'évaluation de la biomasse. Il en est de même pour le descripteurd'agrégations proposé, dont nous avons démontré l'utilité, et qui peut intéresserla communauté des océanographes qui cherchent de nouveaux outils de discrimi-nation.

4. En acoustique halieutique, ces algorithmes d'apprentissage peuvent être utilisésplus simplement. Nous n'avons pas réussi à obtenir les résultats escomptés pourl'évaluation de la biomasse. Cependant, pour un jeu de données moins complexes(D5), les résultats étaient satisfaisants. Les algorithmes d'apprentissage devraient

Page 130: These lefort

cxxx CHAPITRE 9. CONCLUSION GÉNÉRALE

Figure 9.1 � En classi�cation automatique, un modèle de régression peut être

utilisé pour passer de l'espace des descripteurs à l'espace des probabilités.

donc intéresser la communauté des scienti�ques océanographes en vue d'une pré-classi�cation, comme cela est e�ectué pour l'évaluation de la biomasse par lesexperts. Les jeux de données sont plus simples car certaines classes sont composéesdu regroupement de certaines espèces.

Futurs travaux.Un certains nombres de futurs travaux sont envisageables.

1. En termes de nouveaux modèles de classi�cation, il semble essentiel de proposerune méthode d'apprentissage faiblement supervisé pour les SVM. Les machines àvecteurs de supports ont prouvé leur supériorité pour beaucoup de jeux de don-nées, et ils sont souvent utilisés de manière systématique pour des problèmes declassi�cation élémentaires [226]. Nous avons concentré nos e�orts sur les forêtsaléatoires pour lesquelles nous obtenions les meilleures performances de classi�ca-tion supervisée pour un jeu de bancs de poissons (D5), mais il est indispensablede proposer une version faiblement supervisée des SVM. Sans cela, ces travauxrestent incomplets.

2. Ces dernières années, les modèles de régression ont beaucoup été utilisés dans ledomaine de la vision par ordinateur (segmentation [227], estimation de la pose d'unindividus [228], correspondance de points d'un objet entre images [229], localisationd'objets [230], etc). Il serait intéressant de développer des modèles de classi�cationautomatique fondés sur l'utilisation des modèles de régression. L'idée est que lafonction de régression permette de passer directement de l'espace des descripteursà l'espace des probabilités. Le concept est représentée dans la �gure 9.1, l'objectifest de séparer les losanges, les étoiles, et les points noirs, pour cela, à chaque pointde l'espace des descripteurs, correspond un point de l'espace des probabilités declassi�cation, c'est bien un problème de régression.

3. D'autres techniques de description des agrégations peuvent être proposées. Parexemple, dans la continuité des travaux e�ectués dans cette thèse, il serait inté-

Page 131: These lefort

cxxxi

ressant de traiter des modèles qui conjuguent à la fois des aspects locaux (liés auxcaractéristiques de chaque bancs) et globaux (liés à l'organisation des bancs depoissons dans l'image). Dans un papier [231], les auteurs proposent de combinerles descripteurs locaux des régions d'une image et des descripteurs globaux quidécrivent le poids des régions dans l'image. Cette idée peut être étendue au casdes agrégations de poissons en considérant qu'une région de l'espace est un bancde poissons. L'information globale, alors modélisée par l'in�uence de chaque bancdans l'image, peut être complétée par des graphes de similarités qui représente-raient l'organisation spatiale des bancs les uns par rapport aux autres.

Page 132: These lefort
Page 133: These lefort

Troisième partie

Annexes et Bibliographie

Page 134: These lefort
Page 135: These lefort

Annexe 1 :

Etude des paramètres des

modèles de classi�cation

M 1 2 3 4 5D1 0.83 0.83 0.83 0.83 0.83D2 0.93 0.92 0.92 0.92 0.94D3 0.69 0.74 0.81 0.83 0.77D4 0.78 0.83 0.79 0.80 0.82D5 0.65 0.65 0.65 0.65 0.65Moyenne 0.77 0.79 0.80 0.80 0.80

Tableau 9.1 � Performance de classi�cation supervisée en fonction du para-

mètre M (équation 3.1), le nombre de modes dans le mélange de Gaussiennes

pour le modèle génératif.

Npca 10 20 30 40 50D1 0.81 0.89 0.89 0.89 0.90D2 0.95 0.95 0.92 0.90 0.89D3 0.46 0.57 0.69 0.67 0.78D4 0.86 0.86 0.83 0.87 0.85D5 0.66 0.68 0.69 0.69 0.69Moyenne 0.74 0.79 0.80 0.80 0.82

Tableau 9.2 � Performance de classi�cation supervisée en fonction du para-

mètre Npca, la dimension de l'espace obtenu à l'aide du noyau Gaussien pour

la méthode K-pca (page xxxvi).

Page 136: These lefort

cxxxviANNEXE 1 :

ETUDE DES PARAMÈTRES DES MODÈLES DE CLASSIFICATION

σ2 0.1 0.5 1 5 10D1 0.25 0.70 0.83 0.90 0.90D2 0.73 0.92 0.94 0.89 0.89D3 0.84 0.63 0.70 0.78 0.68D4 0.33 0.43 0.72 0.85 0.87D5 0.29 0.53 0.66 0.69 0.70Moyenne 0.48 0.64 0.77 0.82 0.80

Tableau 9.3 � Performance de classi�cation supervisée en fonction du para-

mètre σ2, le paramètre d'échelle du noyau Gaussien pour le modèle discriminant

(page xxxvi).

T 1 100 200 300 400D1 0.90 0.96 0.96 0.96 0.96D2 0.94 0.93 0.97 0.93 0.93D3 1 1 1 1 1D4 0.65 0.82 0.79 0.78 0.80D5 0.81 0.90 0.90 0.89 0.89Moyenne 0.86 0.92 0.92 0.91 0.91

Tableau 9.4 � Performance de classi�cation supervisée en fonction du pa-

ramètre T (équation 4.1), le nombre d'arbres de classi�cation considérés dans

une forêt aléatoire. Pour cette expérience, la proportion d'exemples utilisés pour

l'apprentissage d'un arbre d'une forêt aléatoire, relativement à l'ensemble d'ap-

prentissage initiale (cf. section 4.2.2), est de 0.8.

Proportion d'exemplesd'apprentissage pour 0.5 0.6 0.7 0.8 0.9 1pour un arbre d'une forêtD1 0.95 0.95 0.95 0.96 0.95 0.92D2 0.92 0.92 0.93 0.97 0.92 0.92D3 1 1 1 1 1 1D4 0.86 0.81 0.82 0.79 0.80 0.68D5 0.89 0.89 0.90 0.90 0.89 0.84Moyenne 0.92 0.91 0.92 0.92 0.91 0.87

Tableau 9.5 � Performance de classi�cation supervisée en fonction de la

proportion d'exemples utilisés pour l'apprentissage d'un arbre de classi�cation

d'une forêt aléatoire (cf. section 4.2.2). Pour cette expérience, T = 100.

Page 137: These lefort

ANNEXE 1 :ETUDE DES PARAMÈTRES DES MODÈLES DE CLASSIFICATION cxxxvii

α (3 classes) 0.1 0.4 1 3 8D1 0.92 0.91 0.91 0.90 0.91D2 0.79 0.80 0.81 0.82 0.82D3 0.86 0.87 0.89 0.94 0.91D4 0.75 0.73 0.81 0.77 0.77D5 0.72 0.69 0.68 0.71 0.73Moyenne 0.80 0.80 0.82 0.82 0.82

Tableau 9.6 � Performance de classi�cation faiblement supervisée en fonction

du paramètre α (équations (3.54) et (3.55)), le coe�cient de pondération pour

le calcul de l'entropie en chaque noeud des arbres de classi�cation. Pour chaque

observation de l'ensemble d'apprentissage faiblement annoté, trois classes sont

probables (cf. section 5.4.3).

Page 138: These lefort
Page 139: These lefort

Annexe 2 :

Probabilités a priori des

données d'apprentissage

pour di�érents niveaux

de complexité

Exemple de proportions cibles pour un jeu de données qui contient 4 classes. Plu-sieurs niveaux de complexités sont générés, ici le niveau de complexité est dé�ni par leniveau de bruit qui est relatif à la valeur des probabilités a priori. Les données généréesvont du cas de l'apprentissage supervisé au cas équiprobable, en passant par deux casd'apprentissage faiblement supervisé, l'un étant moins complexe que l'autre.

Dans le cas de l'apprentissage supervisé, les proportions cibles sont :

1000

0100

0010

0001

Dans le cas de l'apprentissage faiblement supervisé (1), les proportions cibles sont :

0.70.10.10.1

0.10.70.10.1

0.10.10.70.1

0.10.10.10.7

Dans le cas de l'apprentissage faiblement supervisé (2), les proportions cibles sont :

0.50.30.10.1

0.10.50.30.1

0.10.10.50.3

0.30.10.10.5

0.50.10.10.3

0.30.50.10.1

0.10.30.50.1

0.10.10.30.5

0.50.10.30.1

0.10.50.10.3

0.30.10.50.1

0.10.30.10.5

Dans le cas équiprobable, les proportions cibles sont :

0.250.250.250.25

Page 140: These lefort
Page 141: These lefort

Annexe 3 :

Probabilités a priori des

données d'apprentissage

en fonction du nombre de

classes par mélanges

Exemple de proportions cibles pour un jeu de données qui contient 4 classes. Plu-sieurs niveaux de complexités sont générés, ici le niveau de complexité est dé�ni par lenombre de classes probables dans les mélanges, tel que le niveau de bruit relatif à lavaleur des probabilités a priori soit très variable d'un exemple à l'autre.

Dans le cas d'un mélange à 1 classe, les proportions cibles sont :

1000

0100

0010

0001

Dans le cas d'un mélange à 2 classes, les proportions cibles sont :

0.90.100

0.10.900

0.60.400

0.40.600

0.90

0.10

0.10

0.90

0.60

0.40

0.40

0.60

0.900

0.1

0.100

0.9

0.600

0.4

0.400

0.6

00.90.10

00.10.90

00.60.40

00.40.60

00.90

0.1

00.10

0.9

00.60

0.4

00.40

0.6

00

0.90.1

00

0.10.9

00

0.60.4

00

0.60.4

Dans le cas d'un mélange à 3 classes, les proportions cibles sont :

0.90.050.050

0.050.90.050

0.050.050.90

0.40.30.30

0.30.40.30

0.30.30.40

0.90

0.050.05

0.050

0.90.05

0.050

0.050.9

0.40

0.30.3

0.30

0.40.3

0.30

0.30.4

0.90.050

0.05

0.050.90

0.05

0.050.050

0.9

0.40.30

0.3

0.30.40

0.3

0.30.30

0.4

00.90.050.05

00.050.90.05

00.050.050.9

00.40.30.3

00.30.40.3

00.30.30.4

Dans le cas d'un mélange à 4 classes, les proportions cibles sont :

Page 142: These lefort

cxlii

ANNEXE 3 :PROBABILITÉS A PRIORI DES DONNÉES D'APPRENTISSAGE EN

FONCTION DU NOMBRE DE CLASSES PAR MÉLANGES

0.850.050.050.05

0.050.850.050.05

0.050.050.850.05

0.050.050.050.85

0.40.20.20.2

0.20.40.20.2

0.20.20.40.2

0.20.20.20.4

0.40.10.20.3

0.30.40.10.2

0.20.30.40.1

0.10.20.30.4

Page 143: These lefort

Annexe 4 :

Charactéristiques des

chalutages.

Dans un premier temps, nous traçons les biomasses par espèce en fonction de l'in-dice du chalutage, et les proportions de biomasse par espèce en fonction de l'indicedu chalutage. Puis, nous traçons le nombre de bancs de poissons dans une image enfonction de l'indice du chalutage.

Figure 9.2 � Biomasse de Sardine en fonction du chalutage et probabilité a

priori de la sardine dans les images de chalutage.

Page 144: These lefort

cxlivANNEXE 4 :

CHARACTÉRISTIQUES DES CHALUTAGES.

Figure 9.3 � Biomasse de Chinchard en fonction du chalutage et probabilité

a priori de la Chinchard dans les images de chalutage.

Figure 9.4 � Biomasse de Maquereau en fonction du chalutage et probabilité

a priori de la Maquereau dans les images de chalutage.

Page 145: These lefort

ANNEXE 4 :CHARACTÉRISTIQUES DES CHALUTAGES. cxlv

Figure 9.5 � Biomasse de Anchois en fonction du chalutage et probabilité a

priori de la Anchois dans les images de chalutage.

Figure 9.6 � Biomasse d'espèce négligeable en fonction du chalutage et pro-

babilité a priori de l'espèce négligeable dans les images de chalutage.

Page 146: These lefort

cxlviANNEXE 4 :

CHARACTÉRISTIQUES DES CHALUTAGES.

Figure 9.7 � Quantité de bancs de poissons en fonction de l'indice du chalu-

tage.

Page 147: These lefort

Annexe 5 :

Corrélation entre

l'évaluation de biomasse

de l'expert et des

algorithmes.

Page 148: These lefort

cxlviii

ANNEXE 5 :CORRÉLATION ENTRE L'ÉVALUATION DE BIOMASSE DE L'EXPERT ET

DES ALGORITHMES.

Soft

Hard

Cood.

Bur-

Ri-

Géné-

Optim

i-Kpca/

FA

FA+

FA+

Moyenne

géogra-

gos

pley

ratif

satio

nFish

er

Fish

er

Ité-

phiques

Kpca/

ratif

Fish

er

10

00

00.482

0.5080.463

0.4980.513

0.4930.492

10

00

10.469

0.5160.481

0.4840.467

0.4790.482

10

01

00.472

0.5030.495

0.4950.498

0.4640.487

10

01

10.484

0.5160.489

0.4750.464

0.521

0.491

10

10

00.467

0.5120.494

0.4880.483

0.4640.484

10

10

10.484

0.5190.472

0.4650.485

0.4580.480

10

11

00.472

0.5020.500

0.4610.480

0.4610.479

10

11

10.484

0.5130.484

0.4660.491

0.4580.482

Moyenne

0.476

0.511

0.484

0.479

0.485

0.474

0.4840

10

00

0.4290.526

0.4410.459

0.4590.467

0.463

01

00

10.479

0.5210.476

0.5000.478

0.4660.486

01

01

00.391

0.5090.507

0.4470.456

0.4490.459

01

01

10.475

0.5060.505

0.4760.467

0.4600.481

01

10

00.459

0.5110.506

0.4620.449

0.4350.470

01

10

10.480

0.4940.495

0.4250.460

0.4330.464

01

11

00.392

0.4970.496

0.4310.425

0.4220.443

01

11

10.477

0.4960.504

0.4250.458

0.4550.469

Moyenne

0.447

0.507

0.491

0.453

0.456

0.448

0.466

Tableau9.7

�Pourdes

probabilités

aprio

ridecla

ssi�catio

nissu

sd'unepro-

portio

ndebio

masse,

lesCoe�

cientsdecorréla

tionmoyen

s(cf.

équatio

n(8.17))

sonta�chés

pouruncalcu

l"souple

"ou"dur"dela

biomasse

(cf.équ

a-

tions(8.8)et

(8.7)),

pourdi�éren

tescombin

aiso

nsdedescrip

teurs,

etpour

plusieu

rscla

ssi�eurs.

Lacorréla

tionrep

résente

lasim

ilarité

entre

l'estimatio

n

debio

masse

del'expert

etcelle

déterm

inée

demanière

algo

rithmiqu

e.Pluscette

corréla

tionest

élevée,plusl'estim

atio

nest

simila

ire.

Page 149: These lefort

ANNEXE 5 :CORRÉLATION ENTRE L'ÉVALUATION DE BIOMASSE DE L'EXPERT ETDES ALGORITHMES. cxlix

Soft

Hard

Cood.

Bur-

Ri-

Géné-

Optimi-

Kpca/

FA

FA+

FA+

Moyenne

géogra-

gos

pley

ratif

sation

Fisher

Fisher

Ité-

phiques

Kpca/

ratif

Fisher

10

00

00.456

0.516

0.476

0.498

0.489

0.500

0.489

10

00

10.489

0.517

0.495

0.464

0.469

0.488

0.487

10

01

00.473

0.508

0.486

0.468

0.478

0.456

0.478

10

01

10.475

0.514

0.500

0.460

0.469

0.476

0.482

10

10

00.451

0.515

0.488

0.502

0.494

0.495

0.490

10

10

10.480

0.510

0.482

0.496

0.496

0.493

0.492

10

11

00.477

0.508

0.502

0.501

0.479

0.482

0.491

10

11

10.471

0.515

0.488

0.502

0.494

0.495

0.494

Moyenne

0.471

0.512

0.489

0.486

0.483

0.485

01

00

00.433

0.513

0.513

0.431

0.456

0.486

0.472

01

00

10.481

0.504

0.490

0.416

0.466

0.444

0.466

01

01

00.451

0.488

0.500

0.443

0.470

0.400

0.458

01

01

10.475

0.504

0.505

0.402

0.476

0.433

0.465

01

10

00.388

0.486

0.493

0.473

0.479

0.463

0.463

01

10

10.476

0.493

0.474

0.426

0.486

0.461

0.496

01

11

00.455

0.490

0.491

0.469

0.440

0.445

0.465

01

11

10.484

0.486

0.493

0.473

0.479

0.463

0.479

Moyenne

0.455

0.495

0.494

0.441

0.469

0.449

Tableau9.8

�Pourdes

probabilitésapriori

declassi�cationissusd'unepro-

portiond'énergie,

lesCoe�cients

decorrélationmoyens(cf.équation(8.17))

sonta�chés

pouruncalcul"souple

"ou"dur"dela

biomasse(cf.équa-

tions(8.8)et

(8.7)),pourdi�érentescombinaisonsdedescripteurs,et

pour

plusieurs

classi�eurs.Lacorrélationreprésente

lasimilarité

entrel'estimation

debiomassedel'expertet

celledéterminée

demanière

algorithmique.

Pluscette

corrélationestélevée,plusl'estimationestsimilaire.

Page 150: These lefort
Page 151: These lefort

Bibliographie

[1] G. Shafer, A mathematical theory of evidence. Princeton University Press, 1976.

[2] I. Ulusoy and C. Bishop, �Generative versus discriminative methods for objectrecognition,� Proceedings of the 2005 1EEE Computer Society Conference onComputer Vision and Pattern Recognition, vol. 2, pp. 258�265, 2005.

[3] O. Chapelle, B. Schölkopf, and A. Zien, Semi-supervised learning. MIT Press,2006.

[4] E. Edgeworth, �On the probale errors of frequency-constants,� Journal of theroyal statistic society, vol. 71, no. 3, pp. 499�512, 1908.

[5] ��, �On the probale errors of frequency-constants,� Journal of the royal statisticsociety, vol. 71, no. 4, pp. 499�512, 1908.

[6] L. Savage, �On rereading r.a. �sher,� The Annals of Statistics, vol. 4, no. 3, pp.441�500, 1976.

[7] J. Pratt, �F.y. edgeworth and r.a. �sher on the e�ciency of maximum likelihoodestimation,� The Annals of Statistics, vol. 4, no. 3, pp. 501�514, 1976.

[8] S. Stigler, �Francis ysidro edgeworth, statistician,� Journal of the royal statisticsociety, vol. 141, no. 3, 1978.

[9] ��, �The history of statistics : the measurement of uncertainty before 1900,�Harvard University Press, 1986.

[10] ��, �Statistics on the table : the history of statistical concepts and methods,�Harvard University Press, 1999.

[11] A. Hald, A history of mathematical statistics from 1750 to 1930. Wiley, 1998.

[12] ��, �On the history of maximum likelihood in relation to inverse probabilityand least squares,� Statistical Science, vol. 14, no. 2, 1999.

[13] J. Aldrich, �R.a. �sher and the making of maximum likelihood,� StatisticalScience, vol. 12, no. 3, pp. 162�176, 1997.

[14] A. Dempster, N. Laird, and D. Rubin, �Maximum likelihood from incompletedata via the em algorithm,� Journal of the royal statistic society, vol. 39, SeriesB, no. 1, pp. 1�38, 1977.

[15] R. Neal and G. Hinton, A view of the EM algorithm that justi�es incremental,sparse and other variants. Kluwer Academic Publishers, 1998.

[16] G. Mc Lachlan and T. Krishnan, The EM algorithm and extentions. Wiley,1997.

Page 152: These lefort

clii BIBLIOGRAPHIE

[17] G. Celeux and D. Diebolt, �The sem algorithm : a probabilistic teacher algorithmderived from the em algorithm for the mixture problem.� Computational StatisticsQuarterly, vol. 2, no. 1, pp. 73�82, 1985.

[18] M. Jamshidian and R. Jennrich, �Conjugate gradient acceleration of the em al-gorithm,� Journal of the American Statisticial association, vol. 88, pp. 221�228,1993.

[19] ��, �Quasi-newton acceleration of the em algorithm,� Journal of the royal sta-tistic society, vol. 59(B), pp. 569�587, 1997.

[20] X.-L. Meng and D. Rubin, �Maximum likelihood estimation via the ecm algo-rithm : A general framework,� Biometrika, vol. 80, no. 2, pp. 267�278, 1993.

[21] M. Maron, �Automatic indexing : anexperimental inquiry,� Journal of the Asso-ciation for Computing Machinery, vol. 8, no. 3, pp. 404�417, 1961.

[22] P. Domingos and M. Pazzani, �On the optimality of the simple byesian classi�erunder zero-one loss,� Machine Learning, vol. 29, pp. 103�137, 1997.

[23] D. Hand and K. Yu, �Idiot's bayes - not so stupid after all ?� International Sta-tistical Review, vol. 69, no. 3, pp. 385�399, 2001.

[24] P. Kotsiantis and P. Pintelas, �Logitboost of simple bayesian classi�er,� Com-putational Intelligence in Data mining Special Issue of the Informatica Journal,vol. 29, no. 1, pp. 53�59, 2005.

[25] J. Neville and D. Jensen, �Iterative classi�cation in relational data,� AAAI work-shop on learning stitistical models from relational data, pp. 42�49, 2000.

[26] G. John and P. Landley, �Estimating continuous distributions in bayesian classi-�ers,� Proceedings of the 11th Conference on Uncertainty in Arti�cial Intelligence,pp. 338�345, 1995.

[27] G. Webb, J. Boughton, and Z. Wang, �Not so naive bayes : aggregating one-dependence estimators,� Machine Learning, vol. 58, no. 1, pp. 5�24, 2005.

[28] D. Blei, A. Ng, and M. Jordan, �Latent dirichlet allocation,� Journal of MachineLearning Research, vol. 3, pp. 993�1022, 2003.

[29] T. Hofmann, �Probabilistic latent semantic intexing,� Proceedings of the twenty-second annual international SIGIR conference on research and development ininformation retrievial, 1999.

[30] T. Gri�ths and M. Steyvers, �Finding scienti�c topics,� Proceedings of the na-tional academy of sciences, vol. 101, pp. 5228�5235, 2004.

[31] T. Minka and J. La�erty, �Expectation-propagation for the generative aspect mo-del,� Proceedings of the 11th Conference on Uncertainty in Arti�cial Intelligence,2002.

[32] V. Vandewalle, �Sélection prédictive d'un mod�le génératif par lecrit�re aicp,� 41�me Journée de Statistique, Inria, Bordeau, 2009.

[33] M. Stone, �Cross-validation choice and assessment of statistical predictions,�Journal of the royal statistic society, vol. 36, pp. 111�147, 1974.

[34] H. Akaike, �Information theory and an extension of the maximum likelihoodprinciple,� 2nd International Symposium on Information Theory, pp. 26�281,1974.

Page 153: These lefort

BIBLIOGRAPHIE cliii

[35] G. Schwarz, �Estimating the dimension of a model,� Annals of Statistics, vol. 6,no. 2, pp. 461�464, 1978.

[36] R. Fisher, �The use of multiple measurements in taxonomic problems,� Annalsof Eugenics, pp. 179�188, 1936.

[37] R. Duba, P. Hart, and D. Stork, Pattern classi�cation. Wiley Interscience, 2000.

[38] G. McLachlan, Discriminant analysis and statistical pattern recognition. WileyInterscience, 2004.

[39] B. Boser, I. Guyon, and V. Vapnik, �A training algorithm for optimal marginclassi�er,� Fifth Annual Workshop on Computational Learning Theory, pp. 144�152, 1992.

[40] V. Vapnik, The nature of statistical learning theory. N-Y : Springer-Verlag, 1995.

[41] V. Vapnik and A. Lerner, �Pattern recognition using generalized portrait me-thod,� Automation and Remote Control, vol. 24, pp. 774�780, 1963.

[42] R. Duda and P. Hart, Pattern classi�cation and scene analysis. Wiley, 1973.

[43] J. Mercer, �Functions of positive and negative type and their connection withthe theory of integral aquations,� Journal of Royal Society London, vol. 209, pp.415�446, 1909.

[44] M. Aizerman, E. Braverman, and L. Rozonoer, �Theoretical foundations of thepotential function method in pattern recognition learning,� Automation and Re-mote Control, vol. 25, pp. 821�837, 1964.

[45] C. Cortes and V. Vapnik, �Support-vector network,� Machine Learning, vol. 20,pp. 273�297, 1995.

[46] B. Schölkopf and A. Smola, Learning with Kernels. The MIT Press, 2002.

[47] J. Berkson, �Application of the logistic function to bio-assay,� Journal of theAmerican Statistical Association, vol. 39, pp. 357�365, 1944.

[48] ��, �Maximum likelihood and minimum χ2-estimates of the logistic function,�Journal of the American Statistical Association, vol. 50, pp. 130�162, 1955.

[49] T. Amemiya, �Qualitative response models : a survey,� Journal of Economicliterature, vol. 19, pp. 1483�1536, 1981.

[50] J. Hilbe, Logistic regression models. Chapman and Hall/CRC Press, 2009.

[51] C. Bishop, Pattern recognition and machine learning. Springer, 2006.

[52] T. Dietterich and G. Bakiri, �Solving multiclass learning problems via error-correcting output codes,� Journal of Arti�cial Intelligence, vol. 2, pp. 263�286,1995.

[53] K. Cramer and Y. Singer, �On the algorithmic implementation of multiclasskernel-based vector machines,� Journal of Machine Learning Research, vol. 2,pp. 265�292, 2001.

[54] B. Schölkopf, A. Smola, and K. Muller, �Kernel principal analysis,� Advancesin Kernel Methods-Support Vector Learning, MIT Press, pp. 327�352, 1999.

[55] B. Schölkopf, A. Smola, and K.-R. Müller, �Nonlinear component analysis asa kernel eigenvalue problem,� Neural Computation, vol. 10, pp. 1299�1319, 1998.

Page 154: These lefort

cliv BIBLIOGRAPHIE

[56] K. Pearson, �On lines and planes of closest �t to systems of points in space,�Philosophical Magazine, vol. 2, no. 6, pp. 559�572, 1901.

[57] Y. Le Cun, �Une procédure d'apprentissage pour réseau à seuilasymétrique,� Cognitiva85, 1985.

[58] D. Rumelhart, Parallel distributed processing : exploration in the microstructureof cognition. MIT Press, 1986.

[59] J. Anderson and E. Rosenfeld, Neuro computing fundations of research. MITPress, 1988.

[60] Y. Le Cun, J. Denker, and S. Solla, �Optimal brain damage,� Proceedings of theNeural Information Proceeding Systems-2, pp. 598�605, 1990.

[61] B. Hassibi and D. Stork, �Advances in neural information processing systems,�S.J. Hanson, J.D. Cowan and C.L. Gilles (Editions), vol. 5, p. 164, 1993.

[62] T. Cover, �Nearest neighbor pattern classi�cation,� Transactions on Informationtheory, vol. 13, no. 1, pp. 21�27, 1967.

[63] E. Deza and M. Deza, Dictionary of distances. Elsevier, 2006.

[64] A. Bhattacharyya, �On a measure of divergence between two statistical popula-tions de�ned by probability distributions,� Bull. Calcutta Maths. Soc., vol. 35,pp. 99�109, 1943.

[65] S. Kullback, �Letter to the editor : The kullback-leibler distance,� The AmericanStatistician, vol. 41, no. 4, pp. 340�341, 1987.

[66] J. Bentley, �Multidimentional binary search trees used for associative searching,�Communication on the Association for Computing Machinery, vol. 18, no. 9, pp.509�517, 1975.

[67] T. Seidl and H. Kriegel, �Optimal multi-step k-nearest neighbor search,� Inter-national Conference on Management of Data, pp. 154�165, 1998.

[68] L. Breiman, J. Friedman, R. Olshen, and C. Stone, Classi�cation and regressiontrees. Chapman & Hall., 1984.

[69] J. Quinlan, �Induction of decision trees,� Machine Learning, vol. 1, no. 1, pp.81�106, 1986.

[70] ��, �C4.5 : Programs for machine learning,� Morgan Kaufmann Publishers,1993.

[71] G. Kass, �An exploratory technique for invesgating large quantities of categoricaldata,� Journal of applied statistics, vol. 29, no. 2, pp. 119�127, 1980.

[72] W.-Y. Loh and Y.-Y. Shih, �Split selection methods for classi�cation trees,� Sta-tistica Sinica, vol. 7, pp. 815�840, 1997.

[73] H. Levene, �Robust tests for equality of variances,� Stanford University Press.Contributions to probability and Statistics : Essays in Honor of Harold Hotelling,pp. 278�292, 1960.

[74] S. Murthy, S. Kasif, and S. Salzberg, �A system for induction of oblique trees,�Journal of Arti�cial Intelligence Research, vol. 2, pp. 1�32, 1994.

Page 155: These lefort

BIBLIOGRAPHIE clv

[75] K. Bennet and T. Blue, �A support vector machine approach to decision trees,�IEEE International Joint Conference on Neural Networks Proceedings IEEEWorld Congress on Computational Intelligence, vol. 2, pp. 880�884, 1998.

[76] W. Wu, N. Bennet, N. Cristianini, and J. Shawe-Taylor, �Large margin trees forinduction and transduction,� Proceedings of the Sixth International Conferenceon Machine Learning, pp. 474�483, 1999.

[77] O. Yildiz and E. Alpaydin, �Linear discriminant trees,� Proceedings of the Seven-teenth International Conference on Machine Learning, pp. 1175�1182, 2000.

[78] J. Jang, �Structure determination in fuzzy modeling : a fuzzy cart approach,�Proceedings of the IEEE Conference on Fuzzy Systems, pp. 480�485, 1994.

[79] R. Weber, �Fuzzy-id3 : a class of methods for automatic knowledge acquisition,�In Proceedings 2nd International Conference on Fuzzy Logic and Neural Net-works, pp. 265�268, 1992.

[80] C. Janikow, �Fuzzy decision trees : issues and methods,� IEEE Transaction onSystems, Man, and Cybernetics, Part B : Cybernetics, vol. 28, no. 1, pp. 1�14,1998.

[81] D. van de Vlag and A. Stein, �Incorporing uncertainty via hierarchical classi�-cation using fuzzy decision trees,� IEEE Transaction on Geoscience and RemoteSensing, vol. 45, no. 1, pp. 237�245, 2007.

[82] S. Tu�éry, Data mining et statistique décisionnelle - L'intelligence dans lesbases de données. Technip, 2005.

[83] P. Lenca, S. Lallich, and B. Vaillant, �Construction of an o�-centered entropy forthe supervised learning of imbalanced classed : some �rst results,� Communica-tions in Statistics - Theory and methods, vol. 39, no. 3, 2010.

[84] A. Liu, J. Ghosh, and C. Martin, �Generative oversampling for mining unbalanceddatasets,� International Conference on Data Mining, pp. 66�72, 2007.

[85] M. Kubat and S. Matwin, �Addressing the curse of imbalanced data set : one-sided sampling,� International Conference on Machine Learning, pp. 179�186,1997.

[86] J. Minger, �An empirical comparison of pruning methods for decision tree induc-tion,� Machine Learning, vol. 4, no. 2, pp. 227�243, 1989.

[87] F. Esposito, D. Malerba, and G. Semeraro, �A comparative analysis of methods,�IEEE Transactions on Pattern Machine Intelligence, vol. 19, no. 5, pp. 476�491,1987.

[88] T. Xiang and S. Gong, �Model selection for unsupervised learning of visualcontext,� International Journal of Computer Vision, vol. 69, no. 2, pp. 181�201,2005.

[89] H. Akaike, �Information theory and an extension of maximum likelihood prin-ciple,� 2nd International Symposium on Information Theory, pp. 267�281, 1973.

[90] G. Milligan and M. Cooper, �An examination of procedures for determining thenumber of clusters in a data set,� Psychometrika, vol. 58, no. 2, pp. 159�179,1985.

Page 156: These lefort

clvi BIBLIOGRAPHIE

[91] P. Rousseeuw, �Silhouettes : a graphical aid to the interpretation and validationof cluster analysis,� Journal of Computational and Applied Mathematics, vol. 20,pp. 53�65, 1987.

[92] T. Lange, V. Roth, M. Braun, and J. Buhmann, �Stability-based validation ofclustering solutions,� Neural Computation, vol. 16, no. 6, pp. 1299�1323, 2006.

[93] A. Edward and L. Cavalli-Sforza, �A method for cluster analysis,� Biometrics,vol. 21, pp. 362�375, 1965.

[94] J. Ward, �Hierarchical grouping to optimize an objective function,� Journal ofthe American Statistical Association, vol. 58, pp. 236�244, 1963.

[95] L. Breiman, �Random forests,� Machine Learning, vol. 45, p. 5 :32, 2001.

[96] T. Shi and S. Horvath, �Unsupervised learning with random forest predictors,�Journal of Computational and Graphical Statistics, vol. 15, no. 1, pp. 118�138,2006.

[97] S. Lloyd, �Least square quantization in pcm,� IEEE Transactions on InformationTheory, vol. 28, no. 2, pp. 129�137, 1982.

[98] J. Hartigan, �Clustering algorithms,� Willey, 1975.

[99] T. Kanungo, D. Mount, N. Netanyahu, C. Piatko, R. Silverman, and A. Wu,�An e�cient k-means clustering algorithm : Analysis and implementation,� IEEETransactions on Pattern Analysis and Machine Intelligence, vol. 24, pp. 881�892,2002.

[100] D. Arthur and S. Vassilvitskii, �K-means++ : the advantages of careful seeding,�Proceedings of the eighteenth annual ACM-SIAM symposium on Discrete algo-rithms, pp. 1027�1035, 2007.

[101] J. Bezdek, �Pattern recognition with fuzzy objective function algorithms,� KluwerAcademic Publishers, Norwel, MA, 1981.

[102] R. Duda, P. Hart, and D. Stork, Pattern classi�cation. Wiley, 2000.

[103] I. Gath and B. Geva, �Unsupervised optimal fuzzy clustering,� IEEE Transactionson Pattern Analysis and Machine Intelligence, vol. 11, no. 7, pp. 773�781, 1989.

[104] S. Grossberg, �Adaptative pattern classi�cation and universal recoding : I. paral-lel development and coding of neural feature detectors,� Biological Cybernetics,vol. 23, pp. 121�134, 1976.

[105] T. Kohonen, �Self-organized formation of topologically correct feature maps,�Biological Cybernetics, vol. 46, pp. 59�69, 1982.

[106] ��, �Self-organization maps,� Berlin : Springer-Verlag, vol. 30, 1995.

[107] C. Bishop, �Neural networks for pattern recognition,� Cambridge UniversityPress, 1995.

[108] M. Weber, M. Welling, and P. Perona, �Unsupervised learning of models for objectrecognition,� European Conference on Computer Vision, vol. 1, pp. 18�32, 2000.

[109] ��, �Towards automatic discovery of object categories,� Computer Vision andPattern Recognition, vol. 2, pp. 101�108, 2000.

[110] J. Ponce, M. Hebert, C. Schmid, and A. Ziserman, Toward category-level objectrecognition. Lecture Notes in Computer Science, Springer, 2006.

Page 157: These lefort

BIBLIOGRAPHIE clvii

[111] L. Gu, E. Xing, and T. Kanade, �Learning gmrf structures for spatial priors,�International conference on Computer Vision and Pattern Recognition, pp. 1�6,2007.

[112] A. Shivani and D. Roth, �Learning a sparse representation for object detection,�European Conference on Computer Vision, Springer, 2002.

[113] M. Vidal-Naquet and S. Ullmann, �Object recognition with informative featuresand linear classi�cation,� International Conference on Computer Vision, 2003.

[114] A. Opelt, M. Fussenegger, A. Pinz, and P. Auer, �Weak hypoth�ses and boo-sying for generic object detection and recognition,� European Conference on Com-puter Vision, 2004.

[115] A. Bar-Hillel and D. Weinshall, �E�cient learning of relational object class mo-dels,� International Journal of Computer Vision, vol. 77, no. 1-3, pp. 175�198,2008.

[116] R. Fergus, P. Perona, and A. Zisserman, �Object class recognition by unsupervi-sed scale invariant learning,� International conference on Computer Vision andPattern Recognition, 2003.

[117] ��, �Weakly supervised scaled-invariant learning of models for visual recog-nition,� International Journal of Computer Vision, vol. 71, no. 3, pp. 273�303,2006.

[118] C. Schmid, �Weakly supervised learning of visual models and its application tocontent-based retrieval.� International Journal of Computer Vision., vol. 56, pp.7�16, 2004.

[119] D. J. Crandall and D. P. Huttenlocher, �Weakly supervised learning of part-basedspatial models for visual object recognition,� European Conference on ComputerVision, 2006.

[120] J. Chung, T. Kim, Y. Nam Chae, and H. Yang, �Unsupervised constellation modellearning algorithm based on voting weight control for accurate face localization,�Pattern Recognition, vol. 42, no. 3, pp. 322�333, 2009.

[121] L. Xie and P. Perez, �Slightly supervised learning of part-based appearance mo-dels,� Computer Vision and Pattern Recognition Workshop, vol. 6, 2004.

[122] C. Rosenberg and M. Hebert, �Training object detection models with weaklylabeled data,� 13th British Machine Vision Conference, pp. 577�586, 2002.

[123] M. Vasconcelos, G. Carneiro, and N. Vasconcelos, �Weakly supervised top-downimage segmentation,� International conference on Computer Vision and PatternRecognition, 2006.

[124] A. Ulges, C. Schulze, D. Keysers, and T. Breuel, �Identifying relevant frames inweakly labeled videos for training concept detectors,� International Conferenceon Image and Video Retrieval, pp. 9�16, 2008.

[125] J. Rossiter and T. Mukai, �Bio-mimetic learning from images using impreciseexpert information,� Fuzzy Set and Systems, vol. 158, no. 3, pp. 295�311, 2007.

[126] J. Simmonds and D. MacLennan, Fisheries acoustics : theory and practice. Ox-ford : Blackwell Science Ltd, 2005.

Page 158: These lefort

clviii BIBLIOGRAPHIE

[127] X. Zhu, �Semi-supervised learning literature survey,� Computer Sciences, Uni-versity of Wisconsin-Madison, vol. 1530, 2008.

[128] K. Nigam, A. McCullum, S. Thrun, and T. Mitchel, �Learning to classify textfrom labeled and unlabeled documents,� Association for the Advancement of Ar-ti�cial Intelligence Journal, 1998.

[129] K. Nigam, A. McCallum, S. Thrun, and G. Mann, �Text classi�cation from labe-led and unlabeled documents using em,� Machine Learning, vol. 39, pp. 103�134,2000.

[130] F. Cozman and I. Cohen, Risks of semi-supervised learning. O. Chapelle, A.Zien, and B. Scholkopf (Eds), Semi-Supervised Learning, MIT Press, 2006.

[131] V. Vapnik, Statisticial learning theory. Wiley-Interscience, 1998.

[132] T. Joachims, �Transductive inference for text classi�cation using support vectormachines,� Proceedings of the 16th International Conference on Machine Lear-ning, pp. 200�209, 1999.

[133] L. Xu and D. Schuurmans, �Unsupervised and semi-supervised multi-class sup-port vector machines.� Proceedings of the 20th National Conference an Arti�cialInteligence, 2005.

[134] V. Sindhwani and S. S. Keerthi, �Large scale semi-supervised linear svms,� SpecialInterest Group on Information Retrieval, 2006.

[135] O. Chapelle and A. Zien, �Semi-supervised classi�cation by low density separa-tion,� Proceedings of the 10th International Workshop on Arti�cial Inteligenceand Statistics, 2005.

[136] O. Chapelle, V. Sindhwani, and S. S. Keerthi, �Optimization techniques for semi-supervised support vector machines,� Journal of machine learning research, vol. 9,no. Feb, pp. 203�233, 2008.

[137] M.-F. Balkan, A. Blum, P. Choi, J. La�erty, B. Pantano, and M. Rwebangira,�Person identi�cation in webcam images : an application of semi-supervised lear-ning,� Workshop on Learning with Partially Classi�ed Training Data (ICML),2005.

[138] X. Zhang and W. Lee, �Hyperparameter learning for graph based semi-supervisedlearning algorithms,� Advances in Neural Information Processing Systems,vol. 19, 2006.

[139] F. Wang and C. Zhang, �Label propagation through linear neighborhoods,� In-ternational conference on Machine Learning, 2006.

[140] A. Blum and S. Chawla, �Learning from labeled and unlabeled data using graphmincuts,� Proceedings of the 18th International Conference on Machine Learning,2001.

[141] X. Zhu, Z. Ghahramani, and J. La�erty, �Semi-supervised learning using gaussian�elds and harmonic functions,� International Conference on Machine Learning,pp. 912�919, 2003.

[142] J. Verbeek and N. Vlassis, �Gaussian �elds for semi-supervised regression andcorespondence learning,� Pattern Recognition, vol. 39, pp. 1864�1875, 2006.

Page 159: These lefort

BIBLIOGRAPHIE clix

[143] M. Belkin, I. Matveeva, and P. Niyogi, �Regularization and semi-supervised lear-ning on large graphs.� Proceeding of the Conference on Computational LearningTheory, 2004.

[144] G. Getz and N. Shental, �Semi-supervised learning - a statistical physics ap-proach,� Proceeding of the 22nd ICML Workshop on Learning with PartiallyClassi�ed Training Data, 2005.

[145] A. Agrawala, �Learning with a probabilistic teacher,� IEEE Transactions on In-formation Theory, vol. 16, pp. 373�379, 1970.

[146] C. Rosenberg, M. Hebert, and H. Schneidermann, �Semi-supervised self-trainingof object detection models,� 7th IEEE Workshop on Applications of ComputerVision, 2005.

[147] M. Culp and G. Michailidis, �An iterative algorithm for extending learners tosemi-supervised setting,� The 2007 Joint Statistical Meetings, 2007.

[148] G. Ha�ari and A. Sarkar, �Analysis of semi-supervised learning with the yarowskyalgorithm,� 23rd Conference on Uncertainty in Arti�cial Intelligence, 2007.

[149] A. Blum and T. Mitchel, �Combining labeled and unlabeled data with co-training,� Workshop on Computational Learning Theory, pp. 92�100, 1998.

[150] C. Muller, S. Rapp, and M. Strube, �Applying co-training to reference resolu-tion,� Proceeding of the 40th Annual Meeting on Association for ComputationalLinguistics, pp. 352�359, 2001.

[151] D. Pierce and C. Cardie, �Limitation of co-training for natural language lear-ning from large datasets,� Conference on empirical methods in natural languageprocessing, pp. 1�9, 2001.

[152] S. A. Macskassy and F. Provost, �A simple relational classi�er,� Proceedings ofthe second workshop on multi-relational data mining, pp. 64�76, 2003.

[153] T. Gürel and K. Kersting, �On the trade-o� between iterative classi�cation andcollective classi�cation : �rst experimental results,� International Workshop onMining Graphs, vol. 3, 2005.

[154] C. M. Bishop and I. Ulusoy, �Generative versus discriminative methods for objectrecognition,� conference on Computer Vision and Pattern Recognition, vol. 2, pp.258�265, 2005.

[155] C. Gini, �Measurement of inequality of income,� Economic Journal, vol. 31, pp.22�43, 1921.

[156] A. Rényi, �On measures of entropy and information,� Proceeding on the 4thBerkley Symposium on Mathematical Statistics and Probability, vol. 1, pp. 547�561, 1961.

[157] Y. Freund and R. Schapire, �A decision-theoretic generalization of on-line lear-ning and an application to boosting,� Journal of Computer and System Sciences,vol. 55, pp. 119�139, 1997.

[158] L. Breiman, �Bagging predictors,� Machine Learning, vol. 26, no. 2, pp. 123�140,1996.

Page 160: These lefort

clx BIBLIOGRAPHIE

[159] H. Kim, S. Pang, H. Je, and S. Bang, Support vector machine ensemble withbagging. Pattern Recognition with Support Vector Machines, 2002.

[160] B. Zhang, T. Pham, and Y. Zhang, Bagging support vector machine for classi�-cation of SELD-ToF mass spectra of ovarian cancer serum samples. AI 2007 :Advances in Arti�cial Intelligence, 2007.

[161] A. Prinzie and D. Van Den Poel, Random multiclass classi�cation : generalizingrandom forests to random MNL and random NB. Lecture Notes in ComputerScience - Database and Expert Systems applications, 2007.

[162] Z. Yang, X. Nie, W. Xu, and J. Guo, �An approach to spam detection by naivebayes ensemble based on decision induction,� 6th International Conference onInteligent Systems Design and Applications, vol. 2, pp. 861�866, 2006.

[163] Y. Freund, �An adaptive version of the boost by majority algorithm,� Proceedingsof the twelfth Annual Conference on Computational Learning Theory, pp. 102�113, 1999.

[164] R. Schapire, �A brief introduction to boosting,� Proceedings of the 16th Interna-tional Joint Conference on Arti�cial Intelligence, 1999.

[165] J. Friedman, T. Hastie, and R. Tibshirani, �Additive logistic regression : a sta-tistical view of boosting,� Annals of statistics, vol. 28, no. 2, pp. 337�407, 2000.

[166] R. Lutz, �Logitboost with trees applied to the wcci 2006 performance predictionchallenge datasets,� Proceedings of the International Joint Conference on neuralnetworks, 2006.

[167] C. Domingo and O. Watanabe, �Madaboost : a modi�cation of adaboost,� Procee-dings of the Thirteenth Annual Conference on Computational Learning Theory,pp. 180�189, 2000.

[168] L. Mason, P. Bartlett, and J. Baxter, �Improved generalization through explicitoptimization of margin,� Machine Learning, vol. 38, no. 3, pp. 243�255, 2000.

[169] R. McDonald, D. Hand, and I. Eckley, �An empirical comparison of three boostingalgorithms on real data sets with arti�cial class noise,� Multiple Classi�er Systems- Lecture Notes in Computer Sciences, pp. 35�44, 2003.

[170] T. Dietterich, �An experimental comparison of three methods for constructingensembles of decision trees,� Machine Learning, vol. 40, no. 2, pp. 139�158, 2000.

[171] T. K. Ho, �Random decision forest,� ICDAR, 1995.

[172] P. Geurts, D. Ernst, and L. Wehenkel, �Extremely randomized trees,� MachineLearning, vol. 36, no. 1, pp. 3�42, 2006.

[173] A. Asuncion and D. Newman, �Uci machine learning repository,�http ://www.ics.uci.edu/∼mlearn/MLRepository.html.

[174] X. Lurton, �An introduction to underwater acoustics.� 2002, bouquin sur l'acous-tique sous marine.

[175] S. N. Lane, P. M. Biron, K. F. Bradbrook, J. B. Butler, J. H. Chandler, M. D.Crowell, S. J. McLelland, K. S. Richards, and A. G. Roy, �Three-dimensionalmeasurement of river channel �ow processes using acoustic doppler velocimetry,�Wiley Inter Science, vol. 23, no. 13, pp. 1247�1267, 1998.

Page 161: These lefort

BIBLIOGRAPHIE clxi

[176] C. Scalabrin, �Identi�cation acoustique des esp�ces pélagiques à partir d'at-tributs discriminants des bancs de poissons monospeci�ques.� Th�se de Doc-torat, Université de Bretagne Occidentale, Ecole Doctorale des Sciences de laMer, 1997.

[177] J. Renou and P. Tchernia, �Détection des bancs de poissons par ultra-sons.�Minist�re de la Marine. Communication sur l'Océan et les C�tes., pp.21�29, 1947.

[178] W. Hodgson, �Echo-sounding and the pelagic �sheries.� Fish Investigation,vol. 17, no. 2, p. 25 pp, 1950.

[179] A. Percier, �Les activités du bateau-pilote-de-pêche donibane.� Revue desTravaux de l'Institut des Pêches Maritimes, vol. 23, no. 2, pp. 162�176, 1959.

[180] D. Holliday, �Resonance structure in echoes from schooled pelagic �sh.� Journalof the Acoustical Society of America, vol. 51, no. 4, pp. 1322�1332, 1972.

[181] K. Johannesson and R. Mitson, �Some results of observed abundance estimationsin several undp/fao resource survey projects.� Symposium on Acoustic Methodsin Fisheries Research, vol. 3, p. 77pp, 1073.

[182] D. Holliday, �The use of swimblader resonance in the sizing of schooled pelagic�sh.� Rapport et Proc�s-Verbaux des Réunions du Conseil International pourl'Exploration de la Mer, pp. 130�135, 1977.

[183] O. Nakken and K. Olsen, �Target strength measurment of �sh.� Rapport etProc�s-Verbaux des Réunions du Conseil International pour l'Explorationde la Mer, pp. 52�69, 1977.

[184] A. Hawkins, �Fish sizing by means of swimbladder resonance.� Rapport etProc�s-Verbaux des Réunions du Conseil International pour l'Explorationde la Mer, pp. 122�129, 1977.

[185] G. Rose and W. Leggett, �Hydroacoustic signal classi�cation of �sh schools byspecies.� Canadian Journal of Fisheries and Aquatic Sciences, pp. 597�604, 1988.

[186] D. Vray, G. Gimenez, and R. Person, �Attempt at classi�cation of echo-soundersignals based on the linear discriminant fonction of �sher.� Rapport et Proc�s-Verbaux des Réunions du Conseil International pour l'Exploration de la Mer,pp. 388�393, 1990.

[187] D. Reid, �Report on echo trace classi�cation.� ICES Co-operation Research Report238, 2000.

[188] N. Diner, A. Weill, J. Coail, and J. Coudeville, �Ines-movies : a new acoustic dataacquisition and processing system,� ICES Journal of Marine Science, vol. B,45,p. 11, 1989.

[189] A. Weill and N. Diner, �Movies-b : a new software for school characterization.�ICES Journal of Marine Science, p. 13, 1991.

[190] A. Weill, C. Scalabrin, and N. Diner, �Movies-b : an acoustic detection descriptorsoftware. application to schoal species' classi�cation.� Aquatic Living Resources,vol. 6, pp. 255�267, 1993.

Page 162: These lefort

clxii BIBLIOGRAPHIE

[191] C. Scalabrin, A. Weill, and N. Diner, �The structure of multdimensional data fromacoustic detection of �sh schools.� European Conferenceon Underwater Acoustic,pp. 141�146, 1992.

[192] C. Scalabrin and J. Massé, �Acoustic detection of the spatial and temporaldistribution of �sh shoals in the bay of biscay,� Aquatic Living Resources, vol. 6,pp. 269�283, 1993.

[193] C. Scalabrin and X. Lurton, �Fish schoals amplitude analysis.� European Confe-renceon Underwater Acoustic, vol. 2, pp. 807�814, 1994.

[194] C. Scalabrin, N. Diner, and A. Weill, �Automatic shoal recognition and classi�-cation based on movies-b software,� Oceans'94, vol. 2, pp. 319�324, 1994.

[195] C. Scalabrin, N. Diner, A. Weill, A. Hillion, and M.-C. Mouchot, �Narrow-band acoustic identi�cation of monospeci�c �sh shoals,� ICES Journal of MarineScience, vol. 53(2), pp. 181�188, 1996.

[196] N. Diner, �Correction on school geometry and density : approach based on acous-tic image simulation,� Aquatic Living Resources, vol. 82(1-3), pp. 211�222, 2001.

[197] F. Gerlotto, M. Soria, and P. Fréon, �From two dimensions to three : the useof multibeam sonar for a new approach in �sheries acoustics.� Canadian Journalof Fisheries and Aquatic Sciences, vol. 56, pp. 6�12, 1999.

[198] F. Gerlotto and J. Paramo, �The three-dimensional morphology and internalstructure of clupeid schools as observed using vertical-scanning, multibeam so-nar.� Aquatic Living Resources, vol. 16, pp. 113�122, 2003.

[199] V. Trenkel, V. Mazauric, and B. L., �The new multibeam �sheries echosounderme70 : description and expected contribution to �sheries research.� ICES Journalof Marine Science, vol. 65, pp. 645�655, 2008.

[200] L. Berger, C. Poncelet, and V. Trenkel, �A method for reducing uncertainty inestimates of �sh-school frequency response using data from multifrequency andmultibeam echosounders.� ICES Journal of Marine Science, vol. 66, pp. 1155�1161, 2009.

[201] S. Bourguignon, L. Berger, C. Scalabrin, R. Fablet, and V. Mazauric, �Methodo-logical developments for improved bottom detection with the me70 multibeamechosounder.� ICES Journal of Marine Science, vol. 66, pp. 1015�1022, 2009.

[202] V. Trenkel, L. Berger, S. Bourguignon, M. Doray, R. Fablet, J. Massé, V. Ma-zauric, C. Poncelet, G. Quemener, C. Scalabrin, and H. Villalobos, �Overview ofrecent progress in �sheries acoustics made by ifremer with examples from the bayof biscay.� Aquatic Living Resources, vol. 22, no. 4, pp. 433�446, 2009.

[203] N. Diner, �Evaluating uncertainty in measurement of �sh schoal aggregate backs-cattering cross-section caused by small shoal size relative to beam width.� AquaticLiving Resources, vol. 20, pp. 117�121, 2007.

[204] C. Chang and L. C.J., �http ://www.csie.ntu.tw/ cjlin/libsvm/,� 2010.

[205] M. Woillez, J.-C. Poulard, J. Rivoirard, P. Petitgas, and N. Bez, �Indices forcapturing spatial patterns and their evolution in time, with application to euro-pean hake (merluccius merluccius) in the bay of biscay,� ICES Journal of MarineScience, vol. 64, pp. 537�550, 2007.

Page 163: These lefort

BIBLIOGRAPHIE clxiii

[206] J. Burgos and J. Horne, �Characterization anc classi�cation of acoustically detec-ted �sh distribution,� ICES Journal of Marine Science, vol. 65, pp. 1235�1247,2008.

[207] G. Upton and B. Fingleton, �Spatial data analysis by example : Point patternans quantitative data,� J. Wiley, N-Y, vol. 1, 1985.

[208] N. Cressie, �Statistics for spatial data,� Wiley, New York, 1993.

[209] F. Goreaud and R. Pélisserier, �On explicit formulas of edge e�ect correctionfor ripley's k-function,� Journal of Vegetation Science, vol. 10, pp. 433�438, 1999.

[210] M. Schlather, �On the second-order characteristics of marked point processes,�Bernoulli, vol. 7, pp. 99�117, 2001.

[211] D. Stoyan and A. Penttinen, �Recent applications of point process methods inforestry statistics,� Statistical Science, vol. 15, no. 1, pp. 61�78, 2000.

[212] R. Wen and R. Sinding-Larsen, �Stochastic modelling and simulation of smallfaults by marked point processes and kriging,� E.Y. Baa� and N.A. Schol�eld(eds), Geostatistics Wollongong, vol. 1, pp. 398�414, 1997.

[213] F. Anscombe, �The validity of comparative experiments,� Journal of the RoyalStatistical Society. Series A., vol. 111, no. 3, pp. 181�211, 1948.

[214] N. Bez and J. Rivoirard, �Transitive geostatistics to characterise spatial aggrega-tions with di�use limits : an application on mackerel ichtyoplankton,� FisheriesResearch, vol. 50, pp. 41�58, 2001.

[215] J. Massé, �Acoustic observations in the bay of biscay : scholing, vertical dis-tribution, species assemblages and behaviour,� Scientia Marina, vol. 60, no. 2,pp. 227�234, 1996.

[216] F. Gerlotto, �Identi�cation ans spatial strati�cation of tropical �sh concentrationsusing acoustic populations,� Aquatic Living Resources, vol. 6, pp. 243�254, 1993.

[217] M. Doray, J. Masse, and P. Petitgas, �Pelagic �sh stock assessment by acousticmethods at ifremer,� http ://archimer.ifremer.fr/doc/00003/11446/, 2010.

[218] D. MacLennan, P. Fernandes, and D. J., �A consistent approach to de�nitionsand symbols in �sheries acoustics,� ICES Journal of Marine Science, vol. 59, pp.365�369, 2002.

[219] P. Petitgas, J. Massé, P. Beillois, E. Lebarbier, and A. Le Cann, �Samplingvariance of species identi�cation in �sheries acoustic surveys based on automatedprocedures associating acoustic images and trawl hauls.� ICES Journal of MarineScience, vol. 60(3), pp. 437�445, 2003.

[220] I. Karoui, R. Fablet, and J.-M. Boucher, �Fast marching and acoustic descriptorsbased method for �sh proportion interpolation,� Oceans'08, 2008.

[221] T. Hammond and G. Swartzman, �A general procedure for estimating the com-position of �sh school cluster using standard acoustic survey data,� ICES Journalof Marine Science, vol. 58, pp. 1115�1132, 2001.

[222] T. Kailath, �The divergence and bhattacharrya distance measure in signal se-lection,� IEEE transactions on Communication Technology, vol. 15, no. 1, pp.52�60, 1967.

Page 164: These lefort

clxiv BIBLIOGRAPHIE

[223] S. Kullback, �Information theory and statistics,� John Wiley and Sons, NY, 1959.

[224] S. Kullback and R. Leibler, �On information and su�ciency,� Annals of Mathe-matical Statistics, vol. 22, no. 1, pp. 79�86, 1951.

[225] O. Ulltang, �Fish stock assessment and predictions : integrating relevant know-ledge. an overview.� Scientia Marina, vol. 67, no. 1, pp. 5�12, 2003.

[226] H. Robotham, P. Bosh, J. Gutierrez-Estrada, J. Castillo, and I. Pulido-Calvo,�Acoustic identi�cation of small pelagic species in chile using support machinesand neural networks,� Fisheries Research, vol. 102, no. 1-2, pp. 115�122, 2010.

[227] M. Everingham, L. Van Gool, C. Williams, J. Winn, and A. Zisserman, �Thepascal visual object classes (voc) challenge,� International Journal of ComputerVision, vol. 88, no. 2, pp. 303�338, 2010.

[228] V. Ferrari, M. Marin-Jimenez, and A. Zisserman, �Progressive search space re-duction for human pose estimation,� Computer Vision and Pattern Recognition,pp. 1�8, 2008.

[229] J. McAuley, T. Caetano, and A. Smola, �Robust near-isometric matching viastructured learning of grapgical models,� Conference on Neural Information Pro-cessing Systems, 2008.

[230] M. Blaschko and C. Lampert, �Learning to localize objects with structured outputregression,� European Conference on Computer Vision, 2008.

[231] T. Harada, H. Nakayama, and Y. Kuniyoshi, �Improving local descriptors by em-bedding global and local spatial information,� European Conference on ComputerVision, 2010.