approximation de variétés seaux de neurones auto …bigbozoid.free.fr/coursiut/sco/partie 1 -...

246
INSTITUT NATIONAL POLYTECHNIQUE DE GRENOBLE T H E S E pour obtenir le grade de DOCTEUR DE L’INPG Spécialité : Génie Industriel préparée au laboratoire LGI2P (Laboratoire de Génie Informatique et d’Ingénierie de Production) dans le cadre de l’Ecole Doctorale « Organisation Industrielle et Systèmes de Production » présentée et soutenue publiquement par Michaël AUPETIT le 20 Décembre 2001 Titre : Approximation de variétés par réseaux de neurones auto-organisés Directeur de thèse : Alain HAURAT JURY M. Pierre LADET Professeur, INPG-ENSGI Grenoble Président M. Alain DUSSAUCHOY Professeur, Univ. Claude Bernard Lyon Rapporteur M. Thierry DENOEUX Professeur, Univ. Technologique Compiègne Rapporteur M. Alain HAURAT Professeur, Univ. de Savoie Directeur de thèse M. Pierre MASSOTTE Directeur Adj., LGI2P-EMA Nîmes Co-Directeur de thèse M. Pierre COUTURIER Maître assistant, LGI2P-EMA Nîmes Tuteur M. Christian JUTTEN Professeur, INPG-LIS Grenoble Examinateur M. Jean-Denis MULLER Ingénieur, CEA-DASE Bruyères-Le-Châtel Examinateur N° attribué par la bibliothèque

Upload: hanguyet

Post on 15-Sep-2018

214 views

Category:

Documents


0 download

TRANSCRIPT

INSTITUT NATIONAL POLYTECHNIQUE DE GRENOBLE

T H E S E

pour obtenir le grade de

DOCTEUR DE L’INPG

Spécialité : Génie Industriel

préparée au laboratoire LGI2P (Laboratoire de Génie Informatique et d’Ingénierie de Production)dans le cadre de l’Ecole Doctorale « Organisation Industrielle et Systèmes de Production »

présentée et soutenue publiquement

par

Michaël AUPETIT

le 20 Décembre 2001

Titre :

Approximation de variétéspar réseaux de neurones auto-organisés

Directeur de thèse :

Alain HAURAT

JURY

M. Pierre LADET Professeur, INPG-ENSGI Grenoble PrésidentM. Alain DUSSAUCHOY Professeur, Univ. Claude Bernard Lyon RapporteurM. Thierry DENOEUX Professeur, Univ. Technologique Compiègne RapporteurM. Alain HAURAT Professeur, Univ. de Savoie Directeur de thèseM. Pierre MASSOTTE Directeur Adj., LGI2P-EMA Nîmes Co-Directeur de thèseM. Pierre COUTURIER Maître assistant, LGI2P-EMA Nîmes TuteurM. Christian JUTTEN Professeur, INPG-LIS Grenoble ExaminateurM. Jean-Denis MULLER Ingénieur, CEA-DASE Bruyères-Le-Châtel Examinateur

N° attribué par la bibliothèque

Remerciements

Ce travail a été rendu possible par la grande liberté que m'ont octroyée Alain Haurat, Di-recteur du Laboratoire de Logiciels pour la Productique d'Annecy et Directeur de thèse, et PierreMassotte, Directeur adjoint du Laboratoire de Génie Informatique et d'Ingénierie de Productionde l'Ecole des Mines d'Alès et Co-Directeur de thèse.

Je suis très reconnaissant à Pierre Massotte pour ses conseils et la con�ance qu'il m'a té-moignée tout au long de ces trois années passées au Laboratoire de Génie Informatique etd'Ingénierie de Production.

Je remercie Pierre Couturier, maître assistant de l'Ecole des Mines d'Alès, qui a supporté mesnombreuses irruptions dans son bureau après ma découverte régulière de la pierre philosophale.Il m'a encouragé et a su m'encadrer tout en laissant libre cours à mon imagination qu'il m'aappris à canaliser de manière rigoureuse pour mener à la synthèse que constitue ce mémoire.

J'exprime ma gratitude à l'Ecole des Mines d'Alès qui a assuré ma subsistance durant cestrois années.

Je remercie les membres du jury pour la caution qu'ils ont bien voulu apporter à ce travail :� le Professeur Alain Dussauchoy de l'Université Claude Bernard de Lyon,� le Professeur Thierry Denoeux de l'Université Technologique de Compiègne,� le Professeur Pierre Ladet de l'ENSGI de Grenoble,� le Professeur Christian Jutten de l'INPG-LIS de Grenoble,� Jean-Denis Muller, ingénieur au CEA-DASE de Bruyères-Le-Châtel.et en particulier les rapporteurs, Alain Dussauchoy et Thierry Denoeux pour leur travail de

lecture critique du manuscrit.J'adresse mes remerciements à Max Nemoz-Gaillard et Dominique Lepetz, mathématiciens

de l'Ecole des Mines d'Alès, qui ont apporté leur précieuse contribution à une partie théoriqueimportante de ce travail.

Je remercie les membres du Laboratoire de Logiciels pour la Productique d'Annecy, qui m'onttoujours réservé un très bon accueil.

Je remercie Mériéma pour sa grande patience, et mes parents pour leur constant soutien etleur écoute attentive de mes discours étrangers.

En�n, je remercie chaleureusement les di�érentes personnes que j'ai croisées furtivement dansles couloirs du laboratoire, ou plus longuement dans mon bureau ou dans le leur, celles qui voussortent un instant la tête des nuages et qui ont rendu ce séjour au laboratoire très enrichissantet appréciable : le soleil de mes collègues de bureau successifs ; la bonne humeur des permanentsenseignant-chercheurs et techniciens ; les thésards de tous horizons, d'hier et d'aujourd'hui quicherchent sans trouver ou qui trouvent sans chercher ; les secrétaires docteurs ès paperasses ;Françoise Armand, documentaliste dévouée dont le salaire n'est malheureusement pas indexé surle nombre de documents qu'elle m'a commandés ; François Trousset et Annie Liothin, docteursWatson sous Unix et rebooteux occasionnels ; et mes collègues de feu l'Ecole pour les Etudes etla Recherche en Informatique et Electronique, qui ont pris trois ans d'avance sur la vie, et pourqui ce mémoire est la preuve que je n'étais pas en vacances tout ce temps.

i

ii

Gardons-nous d'oublier que l'âme humaine,

quelque indépendante dans sa création

que notre philosophie la représente,

est inséparable,

de par sa naissance et sa croissance,

de l'univers dans lequel elle est née.

Teilhard de Chardin

iii

iv

Table des matières

Introduction 11

1 Problématique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13

2 Variétés . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13

2.1 Intérêt . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13

2.2 Notions sur les variétés . . . . . . . . . . . . . . . . . . . . . . . . . . 14

3 Modélisation de variétés . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16

3.1 Variétés réelles, variétés support et variétés principales . . . . . . . . . 16

3.2 Problèmes de l'approximation de variétés . . . . . . . . . . . . . . . . 16

3.3 Un mot sur la métrique . . . . . . . . . . . . . . . . . . . . . . . . . . 17

4 Problèmes liés à la dimension . . . . . . . . . . . . . . . . . . . . . . . . . . . 18

5 Approche suivie pour la modélisation des variétés et contributions . . . . . . 18

5.1 Principe . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18

5.2 Les sommets : quoi, où et combien ? . . . . . . . . . . . . . . . . . . . 18

5.3 Dimension des simplexes . . . . . . . . . . . . . . . . . . . . . . . . . 19

5.4 Modèle non linéaire . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19

6 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19

6.1 Hypothèses de travail . . . . . . . . . . . . . . . . . . . . . . . . . . . 20

6.2 Résumé de l'approche suivie et des contributions . . . . . . . . . . . . 20

6.3 Plan de ce mémoire . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20

Voisinage -Observable et Noyaux de Voronoï 23

1 Approches connexionnistes 25

1.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26

1.2 Un peu d'Histoire . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26

1.3 Di�érents modèles de réseaux . . . . . . . . . . . . . . . . . . . . . . . . . . . 26

1.3.1 Modèles paramétriques ou non paramétriques . . . . . . . . . . . . . . 26

1

Table des matières

1.3.2 Principe de l'apprentissage . . . . . . . . . . . . . . . . . . . . . . . . 27

1.3.3 Apprentissage �batch� ou incrémental . . . . . . . . . . . . . . . . . . 27

1.3.4 Représentation locale ou globale et interférences catastrophiques . . . 27

1.3.5 Apprentissage en-ligne ou hors-ligne . . . . . . . . . . . . . . . . . . . 28

1.3.6 Di�érents types d'apprentissage . . . . . . . . . . . . . . . . . . . . . 28

1.4 Apprentissage et approximation . . . . . . . . . . . . . . . . . . . . . . . . . 29

1.4.1 Modèle statistique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29

1.4.2 Estimation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29

1.4.3 Famille de fonctions . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30

1.4.4 Minimisation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30

1.4.5 Dilemme biais/variance et dimension VC . . . . . . . . . . . . . . . . 31

1.4.6 Problème mal posé . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33

1.5 Supervisé ou non supervisé ? . . . . . . . . . . . . . . . . . . . . . . . . . . . 33

1.6 Réseaux de neurones auto-organisés . . . . . . . . . . . . . . . . . . . . . . . 34

1.7 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35

2 Quanti�cation vectorielle 37

2.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38

2.2 Généralités . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38

2.3 Algorithme de Lloyd généralisé . . . . . . . . . . . . . . . . . . . . . . . . . . 39

2.3.1 Principe . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39

2.3.2 Commentaire . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40

2.4 Apprentissage compétitif �Hard� (HCL) . . . . . . . . . . . . . . . . . . . . . 40

2.4.1 Principe . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40

2.4.2 Commentaires . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40

2.5 Apprentissage compétitif �Soft� (SCL) . . . . . . . . . . . . . . . . . . . . . . 41

2.5.1 Principe . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41

2.5.2 Approche Recuit-Simulé . . . . . . . . . . . . . . . . . . . . . . . . . . 41

2.5.3 Cartes de Kohonen . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42

2.5.4 �Neural-Gas� . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44

2.5.5 Méthodes constructives . . . . . . . . . . . . . . . . . . . . . . . . . . 45

2.6 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46

3 Voisinage et topologie 47

3.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48

3.2 Complexes et graphes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48

3.2.1 Simplexes, complexes et triangulations . . . . . . . . . . . . . . . . . . 48

2

3.2.2 Graphes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48

3.3 Liens avec la Quanti�cation Vectorielle . . . . . . . . . . . . . . . . . . . . . 49

3.3.1 Voisinage des k-Plus-Proches-Voisins . . . . . . . . . . . . . . . . . . . 49

3.3.2 Triangulation de Delaunay et Voisinage Naturel . . . . . . . . . . . . 50

3.3.3 Triangulation Induite de Delaunay et Voisinage Naturel Induit . . . . 53

3.3.4 Comparaison qualitative des di�érents voisinages pour le SCL . . . . 56

3.4 Problèmes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57

3.5 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60

4 Voisinage -Observable 61

4.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62

4.2 Origine . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62

4.3 Dé�nition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62

4.4 Analogie du concert de plein-air et problème de visibilité . . . . . . . . . . . 64

4.5 Taille du voisinage . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 65

4.5.1 Propriété d'inclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . 65

4.5.2 Evolution de la taille en fonction de et de la dimension d . . . . . . 66

4.6 Forme des régions d'in�uence . . . . . . . . . . . . . . . . . . . . . . . . . . . 67

4.7 Région de proximité et zone d'ombre . . . . . . . . . . . . . . . . . . . . . . . 68

4.7.1 Région de proximité . . . . . . . . . . . . . . . . . . . . . . . . . . . . 68

4.7.2 Zone d'ombre . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 68

4.7.3 Région observable . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 69

4.8 Non-convexité . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 70

4.8.1 Dé�nition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 70

4.8.2 Cas du voisinage -Observable . . . . . . . . . . . . . . . . . . . . . . 70

4.8.3 Cas des k-PPV . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 72

4.8.4 Cas du voisinage naturel . . . . . . . . . . . . . . . . . . . . . . . . . 73

4.9 Généralisation du voisinage -Observable . . . . . . . . . . . . . . . . . . . . 73

4.10 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 73

5 Voisinage 0:5-Observable et graphes de proximité 75

5.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 76

5.2 Liens avec les voisins naturels . . . . . . . . . . . . . . . . . . . . . . . . . . . 76

5.2.1 Inclusion des voisinages . . . . . . . . . . . . . . . . . . . . . . . . . . 76

5.2.2 Inclusion des régions d'in�uence . . . . . . . . . . . . . . . . . . . . . 77

5.2.3 Symétrie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 77

5.3 Approximation des voisins naturels par les voisins 0:5-observables . . . . . . 79

3

Table des matières

5.4 Triangulation avec les -observables . . . . . . . . . . . . . . . . . . . . . . . 80

5.4.1 Cas des 0:5-Observables . . . . . . . . . . . . . . . . . . . . . . . . . . 80

5.4.2 Cas général des -observables . . . . . . . . . . . . . . . . . . . . . . . 83

5.5 Mise-à-jour de la triangulation induite . . . . . . . . . . . . . . . . . . . . . . 83

5.5.1 Principe de la TID . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 83

5.5.2 Heuristiques de mise-à-jour . . . . . . . . . . . . . . . . . . . . . . . . 85

5.5.3 Etat de l'art . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 85

5.6 Lien avec d'autres graphes de proximité . . . . . . . . . . . . . . . . . . . . . 86

5.6.1 Graphes de Gabriel . . . . . . . . . . . . . . . . . . . . . . . . . . . . 86

5.6.2 Les �-squelettes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 87

5.6.3 Les �-formes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 87

5.6.4 Les -voisinages . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 88

5.6.5 Applications des graphes de proximité . . . . . . . . . . . . . . . . . . 88

5.7 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 89

6 Algorithmes et complexité 91

6.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 92

6.2 Caractérisation du voisinage -Observable . . . . . . . . . . . . . . . . . . . . 92

6.3 Critère de -observabilité . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 92

6.4 Algorithme brut . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 94

6.5 Algorithme optimisé . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 95

6.6 Complexité . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 95

6.7 Quanti�cation vectorielle et fonction d'énergie . . . . . . . . . . . . . . . . . 98

6.8 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 98

7 Interpolation 99

7.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 100

7.2 Interpolation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 100

7.2.1 Dé�nitions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 100

7.2.2 Choix d'une famille de fonctions . . . . . . . . . . . . . . . . . . . . . 100

7.2.3 Propriétés des fonctions noyaux . . . . . . . . . . . . . . . . . . . . . 102

7.3 Techniques existantes et liens avec les voisinages . . . . . . . . . . . . . . . . 104

7.3.1 Les noyaux à fonction radiale de base . . . . . . . . . . . . . . . . . . 104

7.3.2 L'interpolation des distances inverses de Shepard . . . . . . . . . . . . 107

7.3.3 Techniques basées sur les maillages . . . . . . . . . . . . . . . . . . . . 109

7.3.4 Techniques basées sur les régions de Voronoï . . . . . . . . . . . . . . 114

7.4 Information sur le gradient . . . . . . . . . . . . . . . . . . . . . . . . . . . . 115

4

7.5 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 116

8 Voisins -Observables et Noyaux de Voronoï 117

8.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 118

8.2 Origine . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 118

8.3 Noyaux de Voronoï . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 118

8.3.1 Principe . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 118

8.3.2 In�uence de . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 120

8.3.3 Extrapolation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 123

8.3.4 Noyaux de Voronoï induits . . . . . . . . . . . . . . . . . . . . . . . . 123

8.3.5 Discussion pour le choix des noyaux participants . . . . . . . . . . . . 124

8.4 Lien avec les noyaux RBFs . . . . . . . . . . . . . . . . . . . . . . . . . . . . 125

8.4.1 Construction de noyaux RBFs avec les noyaux de Voronoï . . . . . . . 125

8.4.2 Nombre de paramètres . . . . . . . . . . . . . . . . . . . . . . . . . . 125

8.5 Information sur le gradient . . . . . . . . . . . . . . . . . . . . . . . . . . . . 127

8.6 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 127

Applications 129

9 Quanti�cation vectorielle avec les voisins -observables 131

9.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 132

9.2 Comparaison avec le Neural-Gas . . . . . . . . . . . . . . . . . . . . . . . . . 132

9.3 Résultats . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 133

9.4 Non-convexité et taille du voisinage . . . . . . . . . . . . . . . . . . . . . . . 135

9.4.1 L'e�et d'auto-répartition . . . . . . . . . . . . . . . . . . . . . . . . . 135

9.4.2 Fonction de répartition . . . . . . . . . . . . . . . . . . . . . . . . . . 136

9.4.3 Remarques . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 137

9.4.4 Hypothèse de la non-convexité . . . . . . . . . . . . . . . . . . . . . . 137

9.4.5 Hypothèse de la taille . . . . . . . . . . . . . . . . . . . . . . . . . . . 138

9.5 Sélection de la dimension . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 138

9.6 Complexité en temps . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 141

9.7 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 141

10 Approximation de fonctions avec les Noyaux de Voronoï Induits 143

10.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 144

10.2 Modèle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 144

10.3 Choix du nombre de centres . . . . . . . . . . . . . . . . . . . . . . . . . . . . 144

5

Table des matières

10.4 Discussion sur le positionnement des centres . . . . . . . . . . . . . . . . . . 144

10.4.1 Problème . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 144

10.4.2 Deux approches . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 145

10.4.3 Solutions basées sur la QV . . . . . . . . . . . . . . . . . . . . . . . . 145

10.4.4 Conclusion sur le placement des centres . . . . . . . . . . . . . . . . . 146

10.5 Nombre de paramètres . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 146

10.6 Adaptation des paramètres . . . . . . . . . . . . . . . . . . . . . . . . . . . . 147

10.7 Expériences sur données arti�cielles . . . . . . . . . . . . . . . . . . . . . . . 147

10.7.1 Réglage de l'étendue . . . . . . . . . . . . . . . . . . . . . . . . . . . . 147

10.7.2 Continuité et interférences . . . . . . . . . . . . . . . . . . . . . . . . 149

10.8 Identi�cation d'un préhenseur électropneumatique . . . . . . . . . . . . . . . 151

10.8.1 Présentation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 151

10.8.2 Modèle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 152

10.8.3 Protocole . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 152

10.8.4 Résultats . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 152

10.8.5 Discussion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 153

10.9 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 155

11 Approximation de variétés avec les Noyaux de Voronoï Induits 157

11.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 158

11.2 Caractérisation des variétés . . . . . . . . . . . . . . . . . . . . . . . . . . . . 158

11.2.1 Dé�nition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 158

11.2.2 Topologie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 158

11.2.3 Homéomorphie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 159

11.3 Etat de l'art . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 159

11.4 Principe de l'approximation de variétés . . . . . . . . . . . . . . . . . . . . . 160

11.4.1 Analogie avec l'approximation de fonctions . . . . . . . . . . . . . . . 160

11.4.2 Choix d'une famille de variétés . . . . . . . . . . . . . . . . . . . . . . 160

11.4.3 Placement des sommets . . . . . . . . . . . . . . . . . . . . . . . . . . 161

11.4.4 Nombre de sommets . . . . . . . . . . . . . . . . . . . . . . . . . . . . 161

11.4.5 Non-linéarités . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 161

11.5 Mise en oeuvre des Noyaux de Voronoï Induits . . . . . . . . . . . . . . . . . 161

11.5.1 Principe . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 161

11.5.2 Modèle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 162

11.5.3 Choix des unités actives . . . . . . . . . . . . . . . . . . . . . . . . . . 163

11.5.4 Adaptation des paramètres . . . . . . . . . . . . . . . . . . . . . . . . 163

11.6 Expérience . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 167

6

11.6.1 Expérience qualitative . . . . . . . . . . . . . . . . . . . . . . . . . . . 167

11.6.2 Expérience quantitative . . . . . . . . . . . . . . . . . . . . . . . . . . 169

11.7 Discussion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 171

11.7.1 Projection et complexité . . . . . . . . . . . . . . . . . . . . . . . . . 171

11.7.2 Nombre de paramètres . . . . . . . . . . . . . . . . . . . . . . . . . . 171

11.8 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 173

12 Analyse de données et discrimination avec les voisins 0:5-observables 175

12.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 176

12.2 Discrimination par vote majoritaire . . . . . . . . . . . . . . . . . . . . . . . 176

12.2.1 Principe . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 176

12.2.2 Expérience . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 176

12.2.3 Résultats . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 176

12.2.4 Discussion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 176

12.3 Analyse de données . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 177

12.3.1 Principe . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 177

12.3.2 Résultats . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 178

12.3.3 Discussion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 178

12.4 Discrimination avec les points frontières . . . . . . . . . . . . . . . . . . . . . 179

12.4.1 Principe . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 179

12.4.2 Discussion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 180

12.4.3 Problèmes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 181

12.4.4 Algorithme . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 181

12.4.5 Complexité . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 183

12.4.6 Régularisation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 183

12.4.7 Expérience sur base arti�cielle . . . . . . . . . . . . . . . . . . . . . . 185

12.4.8 Expérience sur la base Iris . . . . . . . . . . . . . . . . . . . . . . . . 185

12.4.9 Résultats sur la base Iris . . . . . . . . . . . . . . . . . . . . . . . . . 185

12.5 Approches similaires . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 187

12.6 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 188

Conclusion 191

1 Synthèse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 192

1.1 Quanti�cation Vectorielle et Voisinage -Observable . . . . . . . . . . 192

1.2 Topologie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 192

1.3 Interpolation et Noyaux de Voronoï Induits . . . . . . . . . . . . . . . 193

1.4 Applications . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 193

7

Table des matières

2 Perspectives . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 195

2.1 Les données . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 195

2.2 Statistiques et topologie . . . . . . . . . . . . . . . . . . . . . . . . . . 195

2.3 Réduction de dimension . . . . . . . . . . . . . . . . . . . . . . . . . . 195

2.4 Di�érents problèmes sous un même paradigme . . . . . . . . . . . . . 196

2.5 Vers un modèle complet des données . . . . . . . . . . . . . . . . . . . 196

Annexes 197

A Distances entre points de la di-sphère 199

A.1 Equidistance des points de la di-sphère . . . . . . . . . . . . . . . . . . . . . 200

A.2 Démonstration de la valeur limite de l'espérance et de la variance . . . . . . . 201

B Voisinage -Observable généralisé 205

B.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 206

B.2 Généralisation du voisinage -Observable . . . . . . . . . . . . . . . . . . . . 206

B.2.1 Dé�nition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 206

B.2.2 Analogie du concert de plein-air . . . . . . . . . . . . . . . . . . . . . 206

B.2.3 Propriété d'inclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . 207

B.2.4 Forme des régions d'in�uence . . . . . . . . . . . . . . . . . . . . . . . 207

B.2.5 Autres propriétés . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 207

B.3 L'exemple des k-PPV . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 207

B.3.1 Dé�nition d'un voisinage équivalent à celui des k-PPV . . . . . . . . . 207

B.3.2 Voisinage ordonné . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 208

B.3.3 Taille du voisinage . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 208

B.3.4 Correspondance entre les k-PPV et les -PPV . . . . . . . . . . . . . 208

B.4 Discussion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 208

B.5 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 208

C Quanti�cation vectorielle et fonction d'énergie 211

C.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 212

C.2 Etat de l'art . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 212

C.3 A propos des articles . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 213

C.4 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 213

8

Glossaire 225

Bibliographie 229

9

Table des matières

10

Introduction

11

1. Problématique

1 Problématique

Sous la pression d'une concurrence mondiale exacerbée, les entreprises doivent s'adapter à unmarché versatile exigeant une personnalisation de l'o�re, une forte réactivité et une grande qualitéde services. Le Génie Industriel concourt à la maîtrise de cette adaptation. Son domaine d'investi-gation englobe la conception, l'amélioration, l'exploitation, la maintenance et le démantèlementde systèmes de production. Il nécessite une approche pluridisciplinaire basée sur les sciencesmathématiques, physiques et sociales ainsi que sur les sciences et techniques de l'ingénieur.

Nous nous intéressons à certains problèmes rencontrés au long du cycle de vie des produits[105] :

� Conception : on peut utiliser des objets standards pour concevoir de nouveaux objetscomposites. Il faut donc retrouver parmi les classes d'objets standards, les objets idoinesqui peuvent être utilisés. C'est un problème de discrimination ou de classement.

� Méthode : il s'agit de générer des classes d'objets similaires (en terme de fonctions,procédés de fabrication, formes. . .) pour pouvoir regrouper leur fabrication et réaliser deséconomies. C'est un problème de classi�cation ou de regroupement.

� Diagnostic et contrôle qualité : il s'agit de la surveillance des processus de fabricationpour le contrôle qualité ou la détection de pannes, le diagnostic et l'aide à la décisionpour déterminer comment remédier à ces pannes et proposer des solutions. Ce sont desproblèmes de détection et de correction d'erreurs ainsi que de discrimination.

� Commande de processus : il s'agit d'identi�er les paramètres d'un modèle du processuset de piloter ces processus. Ce sont des problèmes d'évaluation et de commande.

Lorsqu'on ne dispose pas d'un modèle du système qui permettrait d'aborder la résolutionde ces problèmes, on peut avoir accès à des données qui représentent la part observable de cesystème, et c'est pourquoi nous nous intéressons à une approche générale de modélisation de cesdonnées, qui permettrait d'aborder la résolution des problèmes posés.

Nous utiliserons les approches neuronales [103][178] qui permettent la résolution de prob-lèmes de modélisation à partir des données lorsque le système dont elles sont issues est tropcomplexe à modéliser par une approche conventionnelle. Pour construire de tels modèles, nousnous appuierons sur des principes d'auto-organisation qui tendent à faire émerger un ordre globalà partir de la dé�nition et de l'application de règles locales.

2 Variétés

2.1 Intérêt

Nous ne connaissons des systèmes concernés, qu'un ensemble de données d'observations.

Ces données peuvent être vues comme des points d'un espace à d dimensions appelé espaceobservable du système ou espace des données. Chacune de ces dimensions correspond à l'une desd variables observées.

Nous désirons trouver des relations entre les di�érentes variables observées, et être capables detrouver les régions de l'espace où sont ou seront localisées les observations associées au système.Il nous faut donc reconstruire la structure sous-jacente aux données déjà observées.

Cette structure est ce que l'on appelle une variété ou une collection de variétés. Une variétéest la généralisation de la notion de courbe ou de surface dans les dimensions supérieures à 3.

La �gure 1 montre comment à partir des variétés, on peut envisager la résolution des di�érentsproblèmes posés.

13

� Classi�cation (regroupement) : la classi�cation consiste à construire des classes dedonnées (objets) similaires. On peut dé�nir une mesure de similarité comme la distance àun prototype (une donnée particulière considérée comme typique de sa classe). On peutaussi dé�nir comme similaires les données appartenant à une même variété. (�gure 1 (a))

� Discrimination (classement) : la discrimination consiste à associer à une donnée laclasse des données auxquelles elle est similaire. On peut dé�nir des variétés ne contenantque des données d'une classe, une nouvelle donnée est alors associée à la classe de la variétéla plus proche. (�gure 1 (b))

� Détection et correction d'erreurs : connaissant les données correctes, il s'agit de dé-tecter des données erronées et éventuellement de les corriger. Si des variétés sont utiliséespour représenter seulement les données correctes, toute nouvelle donnée qui ne leur appar-tient pas peut être supposée erronée (détection). Puis on peut corriger cette donnée erronéeen la remplaçant par le point de la variété le plus proche d'elle (correction). (�gure 1 (c))

� Evaluation (complétion) : une donnée à laquelle il manque une coordonnée, est com-plétée par projection sur une variété : le cas le plus commun est celui de l'évaluationd'une fonction. Les données observées sont modélisées par des variétés. Une nouvelle don-née incomplète est complétée en recherchant le(s) point(s) sur les variétés qui ont mêmescoordonnées que celles disponibles de la donnée. (�gure 1 (d-e))

� Recherche d'optimum : il s'agit de rechercher un point des variétés modélisant les don-nées, dont certaines coordonnées véri�ent un critère d'optimalité. Par exemple, trouver leou les points des variétés ayant leur première coordonnée maximale. (�gure 1 (f))

L'utilisation de variétés pour modéliser les données peut donc permettre d'aborder la résolu-tion d'un grand nombre de problèmes. Nous précisons ci-dessous la notion de variété.

2.2 Notions sur les variétés

Nous abordons ici la caractérisation des variétés [153]. Les dé�nitions plus formelles associéesaux variétés seront données dans le chapitre 11.

Une variété est caractérisée par :� sa dimension appelée aussi dimension intrinsèque : un plan ou une sphère sont des variétésà 2 dimensions, ce que nous appelons des 2-variétés, une courbe est une 1-variété. . .

� son ordre de continuité : C0 pour un polygone, C1 pour un cercle. . .� ses frontières : un disque est une variété �nie et limitée, un cercle est �ni mais illimité, unplan est in�ni et illimité.

On peut y ajouter d'autres caractéristiques permettant de dé�nir si elles sont fermées, orientées,trouées. . . mais nous nous limiterons à l'utilisation de variétés très simples qu'il nous su�rad'assembler pour construire des variétés plus complexes.

L'ensemble de ces caractéristiques s'appelle la topologie d'une variété.

Lorsque plusieurs variétés coexistent, elles forment une collection de variétés dont les variétésqui la constituent, peuvent être connexes ou non suivant qu'il existe un chemin permettant depasser de l'une à l'autre sans quitter la collection.

Les variétés particulières comme les cercles, les carrés ou les ellipses, seront respectivementnommées pour les dimensions k et d�1 : k-sphères et hyper-sphères ; k-cubes et hyper-cubes ; k-ellipsoïdes et hyper-ellipsoïdes. Les mêmes pré�xes seront utilisés pour d'autres variétés. Lorsquek = d � 1, les k-variétés sont aussi appelées des surfaces, et lorsque k = 1, on les appelle descourbes.

Nous désirons à partir des données observées, approcher les variétés desquelles elles sontsupposées issues. L'approximation de variétés est le principal �l conducteur de ce mémoire. Dans

14

2. Variétés

X

V

θ θ

Classe 1

Classe 2

X

V

X

V

θ

X1

θ1

V1

(V1’,θ1

',X1’)

(a) (b) (c)

X

V

θ

(V1,θ1, ?)

X1

X

X1

VV1

θ1’θ1’’ θ

(V1 , ?,X1)

X

V

(?,?,X1 max)

X1max

V1

θ1

θ(d) (e) (f)

Fig. 1 � Les variétés comme solutions de di�érents problèmes : la modélisation de données(les points représentés en (a)) par des variétés (les maillages) doit nous permettre d'aborder larésolution de problèmes de classi�cation (a), de discrimination (b), de détection et correctiond'erreurs (c), d'évaluation d'une fonction (d) et de sa fonction inverse (e) (complétion vectorielle),de recherche d'optimum (f).

15

la section suivante, nous l'abordons plus en détail et présentons nos contributions et le plan dece mémoire.

3 Modélisation de variétés

3.1 Variétés réelles, variétés support et variétés principales

Nous appelons collection de variétés réelles l'ensemble des régions de l'espace E, atteignablesréellement par le système. Ces variétés réelles nous sont inconnues. Nous n'en observons qu'unéchantillon.

Les données de l'échantillon que nous observons sont issues d'une distribution D de densitép. Cette densité dépend à la fois des mesures provenant du système, et du bruit dont noussupposerons seulement qu'il est additif et de moyenne nulle. Nous appelons collection de variétéssupports Vsup(D) de D le lieu des points de E où p 6= 0. Et l'on a :Z

Vsup(D)p(v)dv = 1 (1)

Nous appelons collection de variétés principales Vprl(D) de D le lieu des points de E telsqu'on les observerait en absence de bruit. La collection de variétés supports est donc le lieudes points de E issus de la collection de variétés principales plus le bruit. En absence de bruit,variétés principales et variétés supports sont confondues. En�n, le bruit étant supposé de moyennenulle, on peut imaginer les variétés principales comme les variétés qui passent �au milieu� despoints observés, ou plus précisément en référence à la dé�nition originelle de Hastie et Stuetzle[101] : tout point d'une variété principale est le barycentre des points de la variété support quise projettent sur lui.

En raison du bruit, la dimension intrinsèque des variétés supports peut être d.Nous ne pouvons au mieux modéliser que les relations entre les variables observées. La mod-

élisation des variétés réelles n'est donc pas nécessairement possible puisqu'elle dépend de lareprésentativité des données, de leur densité et de l'absence de bruit. Nous ne pourrons générale-ment qu'approcher les variétés support ou les variétés principales de la distribution.

Pour nous sont synonymes topologie de la distribution et topologie des variétés supports.

La �gure 2 présente ces di�érents types de variétés.

3.2 Problèmes de l'approximation de variétés

Comment peut-on modéliser une variété à partir des données observées ?

Tout d'abord, il est impossible de savoir sans autre hypothèse si l'échantillon est issu d'unevariété unique ou d'une collection de variétés : on peut tout autant dire que l'échantillon est unecollection de 0-variétés (les données), ou bien qu'à l'autre extrême, elles proviennent toutes dudomaine � de l'espace E, qui est une d-variété.

De même, il est impossible de connaître sans autre hypothèse les dimensions intrinsèquesde ces variétés : trois points de IR3 peuvent tout aussi bien appartenir à une portion de IR3

(3-variété), qu'à un plan ou toute autre 2-variété, qu'à un cercle ou une courbe quelconque(1-variété).

Plus généralement, les données considérées comme des points indépendants les uns des autresne nous renseignent pas sur la topologie des variétés supports de la distribution. Cependant, laconsidération de groupes de données permet d'obtenir des indices sur cette topologie. Constituerces groupes est possible à condition de dé�nir a priori une échelle d'observation.

16

3. Modélisation de variétés

Fig. 2 � Variétés réelle, principale et support d'une distribution : A gauche une distri-bution. A droite, en trait �n, la variété réelle d'où proviennent et proviendront les données de ladistribution. On voit que les données présentes ne sont pas représentatives de la variété réelle etqu'elles sont bruitées. En trait fort, la variété principale qui passe au milieu des données. Elle estconfondue avec la variété réelle si le bruit est additif de moyenne nulle. En gris, la variété supportde la distribution, c'est-à-dire une variété support de la densité supposée de la distribution, doncla région où cette densité est non nulle.

L'échelle d'observation est à la base des travaux de Mandelbrot sur les fractales [127][128][150] :la côte de Bretagne peut mesurer di�érentes longueurs suivant l'étalon avec lequel on la mesure.Dans ce cas, l'échelle d'observation est la longueur de cet étalon.

En approximation de variétés, il n'existe pas de critère qui permette de dé�nir cette échelled'observation de manière automatique. Nous devrons la �xer a priori.

Dans le cas du regroupement des données, l'échelle d'observation détermine le nombre degroupes et donc le nombre de données qu'ils contiennent s'ils sont homogènes. L'étude statistiquede la répartition des données dans chacun de ces groupes permet d'approcher localement latopologie de la variété support locale (sa dimension intrinsèque et son orientation en considérantles composantes principales signi�catives des données du groupe, et sa position en terme demoyenne de ces données).

Cependant, il manque une information explicite sur la topologie des groupes eux-mêmes, quiindique quels groupes sont voisins de quels autres, donc qui dé�nisse la connexité de la collectionde groupes.

Nous présenterons une technique géométrique de représentation de la topologie de ces groupesgrâce aux données qu'ils contiennent. Nous verrons que cette topologie est proche de celle de ladistribution, et donc qu'il n'est pas nécessaire lorsqu'on l'utilise, de rechercher les propriétésstatistiques des données que ces groupes contiennent.

3.3 Un mot sur la métrique

Pour déterminer si des données appartiennent ou non à un même groupe, nous devrons dé�nirun seuil de proximité basé sur la distance entre elles.

Il existe de nombreuses distances di�érentes mais sauf précision, nous utiliserons la distanceEuclidienne.

La question de la métrique nous ramène aux problèmes généraux posés par les données :quelle est la bonne échelle pour chacune des variables composantes ? Doit-on les normaliser ?

Ces questions relèvent essentiellement d'une connaissance a priori sur le système dont sontissues les données. Nous n'en traiterons pas dans ce mémoire.

17

4 Problèmes liés à la dimension

Les espaces de grande dimension, ou plus précisément, les distributions de grande dimensionintrinsèque, ont des propriétés que nous rappelons tant elles sont peu intuitives et peuvent avoirune in�uence sur la complexité du modèle. Bellman [26] parle même du ��éau de la dimension�(�the curse of dimensionality�).

Demartines démontre que la variance de la norme de vecteurs aléatoires tirés de manièreuniforme dans un d-cube, tend vers 0 lorsque d tend vers l'in�ni [53]. Cela signi�e qu'en grandedimension, les points d'une distribution aléatoire tendent à être en moyenne équidistants les unsdes autres.

Nous démontrons dans l'annexe A un résultat semblable en étudiant la distance moyenne d'unpoint �xe d'une di-sphère de diamètre D, à tous ses autres points. La variance de ces distances

tend vers 0, et leur espérance vers Dp2

2 lorsque la dimension di tend vers l'in�ni. Cela signi�equ'une grande majorité des points de la di-sphère sont en moyenne équidistants lorsque di estgrand.

En�n, le nombre de données nécessaires à la description des non-linéarités d'une variété estexponentiel avec sa dimension. Si 10 données su�sent pour décrire correctement les non-linéaritésd'une courbe, il en faudra 10d pour décrire ces mêmes non-linéarités reproduites le long des ddimensions d'une d-variété. La taille de l'échantillon issu d'une variété réelle de grande dimension,doit donc être extrêmement grande pour permettre de la modéliser correctement.

Ces propriétés des distributions sont liées à leur dimension intrinsèque, et non à la dimensionde l'espace les contenant. En pratique, l'expérience sur la di-sphère (cf. annexe A) nous indiquequ'il su�rait que les variétés modélisées aient une dimension intrinsèque inférieure à la dizainepour éviter l'apparition de ces phénomènes.

5 Approche suivie pour la modélisation des variétés et contribu-tions

5.1 Principe

Nous donnons ici le principe que nous suivons pour l'approximation de variétés.Pour approcher une variété ou une collection de variétés, nous utiliserons une collection de

variétés modèles de base que nous assemblerons comme dans un jeu de construction.

Nous considèrerons la famille de base des k-simplexes (points, segments, triangles, tétraè-dres. . .) qui implique le réglage de trois types de paramètres, donc l'apport d'une solution à troisproblèmes : le nombre de sommets, la position de ces sommets et la dimension des simplexesdé�nis à partir de ces sommets.

Puis nous chercherons à rendre non linéaires ces variétés de base pour améliorer la précisiondu modèle tout en limitant le nombre de paramètres (e.g. un polygone dont les côtés sont courbesnécessite moins de paramètres qu'un autre dont les côtés sont droits, pour approcher un cercledonné avec la même précision).

La présentation du principe suivi pour l'approximation de variétés nous permet d'introduirenos contributions.

5.2 Les sommets : quoi, où et combien ?

Doit-on choisir les sommets parmi les données elles-mêmes, ou bien parmi un ensemble depoints représentants indépendants des données ?

18

6. Conclusion

L'approche basée sur les représentants permet, d'une part dans le cas où les données del'échantillon ne sont pas connues à l'avance mais se découvrent au cours du temps, de ne pas devoirstocker en mémoire l'ensemble de l'échantillon, mais seulement ces représentants. Et d'autre part,de créer une représentation des données qui existe indépendamment d'elles et se construit grâceà leurs redondances [20]. Les représentants sont les centres des groupes de données évoquésprécédemment.

Il existe de plus une technique de positionnement des représentants appelée Quanti�cationVectorielle qui a pour e�et de les placer sur la distribution de telle sorte que leur densité respecteapproximativement celle des données : beaucoup (peu) de représentants là où il y a beaucoup(peu) de données, donc il y a création de groupes homogènes contenant approximativement lemême nombre de données. Cette technique a aussi un e�et régularisant (e�et de lissage) lorsque lenombre de représentants est faible par rapport au nombre de données : les représentants tendentà se placer de manière régulière sur la distribution, par exemple en réseau triangulaire sur unedistribution uniforme. Cette régularité permet de �ltrer le bruit et les données marginales1.

Le nombre de représentants est un moyen de régler la régularité du modèle, ainsi que saprécision, i.e. l'échelle d'observation.

Nous étudierons en premier lieu ces techniques de placement et nous verrons que certainesdé�nissent un voisinage qui améliore leur e�cacité. Une ré�exion sur les voisinages utilisés jusqu'àprésent mènera à notre contribution principale : la création d'un nouveau voisinage appelé voisi-nage -Observable dont nous étudierons les propriétés.

5.3 Dimension des simplexes

Comment déterminer la dimension des simplexes, donc la topologie des groupes ?

Nous utiliserons un algorithme existant appelé Competitive Hebbian Learning dont nous dis-cuterons des avantages et inconvénients comparé à d'autres approches.

La dimension des simplexes pour une distribution donnée, dépendra du nombre et de laposition des représentants.

5.4 Modèle non linéaire

Pour transformer les variétés linéaires en variétés non linéaires, nous étudierons di�érentestechniques d'interpolation et nous présenterons les propriétés essentielles à l'approximation devariétés. Les limites des techniques existantes nous mènerons à la création d'une nouvelle tech-nique d'interpolation appelée Noyaux de Voronoï Induits qui constitue notre deuxième contribu-tion. Nous montrerons que cette technique est liée directement au voisinage -Observable.

6 Conclusion

Face à un système complexe dont on n'a pas de modèle, on peut utiliser les données représen-tant ce que l'on observe de ce système. Nous avons dégagé l'approche suivie dans cette thèsepour obtenir un modèle des données qui nous permette d'aborder la résolution des di�érentsproblèmes de classi�cation, discrimination, identi�cation. . . posés en début de chapitre. Pourcela, nous nous intéressons à la modélisation de variétés.

1On peut se demander s'il faut vraiment �ltrer ces données marginales qui peuvent être justement porteusesd'une information intéressante puisque rare. C'est tout le problème de la représentativité des données en présencede bruit.

19

6.1 Hypothèses de travail

Nous supposons que l'échantillon des données est représentatif du système étudié de par sataille et sa densité, et que cette taille est su�sante à en décrire les non-linéarités. Nous supposonsaussi que les variables considérées sont toutes pertinentes donc que le système en dépend. En�n,lorsque les données de l'échantillon sont bruitées, ce bruit est supposé additif et de moyennenulle.

Nous supposons aussi que l'échelle d'observation adéquate a été déterminée et donc que lesvariétés modélisées ont par construction une topologie proche de celle des variétés support desdonnées observées.

Nous avons conscience que ces hypothèses sont sévères. Il s'agit avant tout de mettre enplace et de valider de nouveaux outils de modélisation dans des situations idéales avant de lesconfronter à des situations plus di�ciles.

6.2 Résumé de l'approche suivie et des contributions

Notre approche pour la modélisation de variétés suit les étapes suivantes :� Placement de représentants au voisinage des données de l'échantillon par Quanti�cationVectorielle ;

� Construction de la topologie des variétés modèles ;� Obtention d'un modèle non linéaire par interpolation.

Nos contributions se situent pour l'essentiel au niveau du premier point par la dé�nition d'unnouveau voisinage appelé Voisinage -Observable, utilisable en quanti�cation vectorielle, et auniveau du troisième point par la dé�nition d'une nouvelle technique d'interpolation basée sur lesNoyaux de Voronoï directement liés au voisinage précédent, utilisable pour l'interpolation dansle but de modéliser des variétés non linéaires.

Notre travail est essentiellement théorique et démontre les nombreuses propriétés du voisinage -Observable comparées à celles des voisinages existants. Des études expérimentales de certainesd'entre elles sont proposées et des applications sur données réelles sont présentées.

Le voisinage -Observable apparaît tout au long de ce mémoire où nous suivons les étapesproposées pour l'approximation de variétés : d'abord en Quanti�cation Vectorielle, puis pour lareprésentation de la topologie et en�n pour l'interpolation. Nous proposons aussi une applicationde ce voisinage en classi�cation et en analyse de données en grande dimension.

6.3 Plan de ce mémoire

La Partie 1, présente un état de l'art des domaines abordés et les résultats théoriques obtenusgrâce aux techniques que nous avons développées.

Au chapitre suivant, nous présentons les approches neuronales et des techniques de réglagede paramètres, pour adapter un modèle aux données de l'échantillon.

Au chapitre 2, nous présentons des techniques de Quanti�cation Vectorielle et montrons l'in-térêt de dé�nir un voisinage. Au chapitre 3, nous étudions les di�érents types de voisinages utilisésen quanti�cation vectorielle et en présentons les avantages et les limites. Puis nous présentonsdu chapitre 4 au chapitre 6, notre première contribution : le voisinage -Observable dont nousétudions les propriétés géométriques et les liens avec d'autres voisinages. Nous faisons un état del'art sur les techniques d'interpolation au chapitre 7, puis nous présentons au chapitre 8 notredeuxième contribution : la technique d'interpolation des Noyaux de Voronoï qui est directementliée au voisinage -Observable.

La Partie 2 est consacrée aux applications.

20

6. Conclusion

Tout d'abord au chapitre 9, nous utilisons le voisinage -Observable en quanti�cation vecto-rielle. Puis au chapitre 10, nous présentons l'application de la technique des Noyaux de Voronoïà l'approximation de fonction. Au chapitre 11, nous développons l'approche proposée pour l'ap-proximation de variétés et utilisons les noyaux de Voronoï pour obtenir des variétés non linéaires.Dans le chapitre 12 nous présentons des applications du voisinage -Observable en discriminationet en analyse de données.

En�n nous concluons et discutons des perspectives de travaux de recherche futurs.

21

22

Voisinage -Observable et Noyaux de

Voronoï

23

Chapitre 1

Approches connexionnistes

25

Chapitre 1. Approches connexionnistes

1.1 Introduction

Dans ce chapitre, nous présentons des techniques neuronales de modélisation [103][178] et levocabulaire associé utilisé tout au long de ce mémoire. Nous étudions les di�érents problèmesposés par ces approches et leurs solutions.

1.2 Un peu d'Histoire

En 1943, McCulloch et Pitts [135] décrivent le premier modèle d'un neurone biologique idéal-isé : la sortie du neurone (axone) est binaire, elle est activée lorsque la somme pondérée

Pj wijxj

de ses entrées xj (dendrites) dépasse un seuil �i. Les wij représentent les poids synaptiques. En1949, Hebb [102] propose la première règle d'apprentissage issue d'observations physiologiquesdes modi�cations synaptiques, ainsi que des �assemblées de neurones�, ancêtres des réseaux danslesquels l'information est distribuée entre plusieurs unités. Dans les années 60, Widrow et Ho�[198] développent l'Adaline (pour �Adaptive Linear Element�) et Rosenblatt [163] en 1958, le Per-ceptron et en 1962, le Perceptron Multi-Couches [164] (MLP pour �Multi-Layered Perceptron�)encore très utilisé de nos jours.

Dans ces di�érents modèles (cf. �gure 1.1), les paramètres des neurones (poids et seuil)sont adaptés au cours d'une phase d'apprentissage. En 1969, Minsky et Papert [137], ferventsdéfenseurs de l'approche symbolique en Intelligence Arti�cielle, montrent que certains problèmescomme le �ou-exclusif� ne peuvent être modélisés par un simple Perceptron. Il faudra une quin-zaine d'années pour que les réseaux de neurones arti�ciels aient un regain d'intérêt grâce à ladécouverte par plusieurs chercheurs d'un algorithme d'apprentissage pour les MLPs qui permetde résoudre le problème du �ou-exclusif� : l'algorithme de rétro-propagation du gradient d'erreur(Werbos [197], Rumelhart, Hinton et Williams [165]). En 1989, Cybenko [48] démontre que leMLP est un approximateur universel de fonction : un MLP avec au moins une couche cachée etun nombre su�sant de neurones dans cette couche permet d'approcher toute fonction avec laprécision désirée.

Dans les années 70, Von Der Malsburg [187] modélise les formations organisées des connexionsentre des couches neuronales du cerveau. Dans la même voie, Kohonen développe en 1982 [120]ses cartes auto-organisantes sur lesquelles nous reviendrons plus en détail dans le chapitre 2.

D'autres modèles, comme les réseaux récurrents de Hop�eld en 1982 [104] et les machines deBoltzmann [1] contribuent à ouvrir le domaine des réseaux de neurones arti�ciels à la communautédes physiciens et des statisticiens.

En�n, les réseaux à fonctions de base radiales (RBF pour �Radial Basis Function�) sontproposés par Moody et Darken en 1988 [139].

1.3 Di�érents modèles de réseaux

Nous ne considérons pas les réseaux récurrents dont les sorties sont connectées aux entrées,qui sont utilisés par exemple pour l'apprentissage de séquences temporelles, ni les réseaux dy-namiques ou à impulsions qui sont utilisés pour modéliser les neurones biologiques et étudierleurs propriétés.

1.3.1 Modèles paramétriques ou non paramétriques

Dans les modèles non paramétriques, le modèle est directement basé sur les données (cas des kplus proches voisins (k-PPV) en discrimination, cas des fenêtres de Parzen [149] pour l'estimation

26

1.3. Di�érents modèles de réseaux

2w

w1

xnwn

x2

x1

y= (p) = ( x w - )σ σ Σ θi=1

n

i i

σ(p)

p

σ(p)

p

σ(p)

p

-1

θ

σpy

(a) (b) (c)

Fig. 1.1 �Modèles de neurones formels. A gauche, le modèle du neurone formel de McCullochet Pitts (1943). La sortie y du neurone est active lorsque la somme pondérée de ses entrées excèdeun seuil �. (a) la fonction de sortie �signe� du neurone de McCulloch et Pitts. (b) la fonction desortie linéaire du modèle Adaline de Widrow et Ho� (1960). (c) la fonction de sortie sigmoïdaledes neurones d'un réseau Perceptron Multi-Couches de Rosenblatt (1962).

de densité ou des approches �lazy learning� [156] en approximation de fonctions).

Les approches paramétriques dépendent d'un jeu de paramètres vectoriels W qui sont lespoids dans un réseau multicouche, la position des centres et la largeur des noyaux gaussiens dansun réseau RBF. . .Ces modèles ne nécessitent pas de mémoriser l'ensemble de l'échantillon, ilscréent une représentation des données qui continue d'exister en l'absence des données qui l'ontgénérée.

Nous nous intéressons aux approches paramétriques pour la construction de variétés mo-dèles. Le modèle neuronal est obtenu par la combinaison des modèles de chaque neurone dontl'interconnexion avec les autres constitue un réseau de neurones.

1.3.2 Principe de l'apprentissage

L'apprentissage a pour but de régler les paramètres du modèle à partir des données del'échantillon. Il existe di�érentes manières d'utiliser les données de l'échantillon pour l'adaptationdes paramètres, des modèles neuronaux à représentation locale ou globale, et di�érents typesd'apprentissage.

1.3.3 Apprentissage �batch� ou incrémental

Lors de l'apprentissage, on peut tenir compte de l'ensemble des données disponibles del'échantillon pour modi�er les paramètres du réseau, on parle d'approche �batch� (i.e. par lot).Si l'on ne tient compte que d'une donnée de l'échantillon à la fois pour e�ectuer l'adaptation desparamètres, alors on parle d'apprentissage incrémental.

1.3.4 Représentation locale ou globale et interférences catastrophiques

Dans l'approche locale, chaque neurone est associé à une région d'activation (ou région d'in-�uence) localisée dans l'espace des données. C'est le cas des réseaux à fonctions de base radiales(RBF) [139][152], ou encore des cartes de Kohonen [122], nous étudierons ces méthodes par lasuite.

Au contraire, dans les approches globales, l'ensemble des neurones du réseau peut être activé,l'information est distribuée dans le réseau tout entier.

27

Chapitre 1. Approches connexionnistes

L'approche globale est supposée plus robuste aux �pannes� éventuelles de quelques neuronesisolés mais lors d'un apprentissage incrémental, peuvent apparaître des problèmes d'interférencescatastrophiques [169][77][106] : la modi�cation des paramètres d'un neurone a des répercussionssur l'ensemble de la fonction modélisée par le réseau, donc dans des régions de l'espace desdonnées éloignées de la région de la donnée courante considérée : tandis qu'il apprend dans unerégion de l'espace des données, le modèle peut �oublier� ce qu'il a appris dans d'autres régions.

La localisation est un moyen de diminuer ces interférences [196] et peut être utile à la mod-élisation de variétés, dont la topologie est par essence une propriété locale.

1.3.5 Apprentissage en-ligne ou hors-ligne

Dans l'apprentissage hors-ligne, toutes les données nécessaires à l'adaptation du modèle sontdisponibles à tout moment.

Dans l'apprentissage en-ligne, l'ensemble des données n'est pas disponible au départ, lesparamètres du modèle sont adaptés au fur et à mesure de l'apparition des données. Cependant, sepose le dilemme �stabilité-plasticité� [98][100] lié au phénomène d'interférences catastrophiques,en raison de la focalisation du modèle sur les nouvelles données au détriment des anciennes dontla représentation devient moins précise : comment s'adapter sans nécessairement oublier ce quia déjà été appris ? Et si ces nouvelles données réactualisent les anciennes, il faut au contraireoublier ce qui a été appris et qui n'est plus �à jour�.

L'apprentissage en-ligne est souvent associé à une contrainte temporelle, qui implique quel'adaptation des paramètres doit être e�ectuée en un temps limité. Il est aussi parfois possiblede piloter l'expérimentation en fonction des données observées, donc de contrôler la densité dela distribution dont sont issues les données.

Notons que le traitement �batch� se fait toujours hors-ligne, que le traitement incrémentalpeut se faire en-ligne ou hors-ligne, et que l'apprentissage en-ligne est toujours incrémental.

1.3.6 Di�érents types d'apprentissage

Dans l'apprentissage supervisé, un superviseur fournit une valeur ou un vecteur y de sortie(appelé cible ou sortie désirée) que le réseau de neurones doit apprendre à associer au vecteurd'entrée x. Si la sortie est un vecteur de IRds , il s'agit pour le réseau d'approcher la fonctiony = f(x) où f est une application de IRde dans IRds : on parle d'approximation de fonctions. Si lasortie est une valeur prise dans un ensemble �ni de valeurs C = fc1; : : : ; cng aussi appelées classes,on parle de discrimination et f est une application de classe C0 de IRde dans C. L'apprentissageconsiste à modi�er les paramètres de la fonction bf modélisée par le réseau pour minimiser l'erreur(e.g. l'écart quadratique) entre la cible y = f(x) et la sortie du réseau bf(x).

Dans l'apprentissage non supervisé, les données ne contiennent pas d'information sur unesortie correcte qu'il faut leur associer. Il n'y a pas de superviseur. Il s'agit de regrouper lesdonnées dans des classes homogènes suivant un critère à dé�nir, on parle de �clustering� ou declassi�cation, mais les classes ne sont pas prédé�nies, elles sont créées au cours de l'apprentissagegrâce à la redondance des données [20].

L'apprentissage non supervisé peut être vu comme un apprentissage supervisé où le vecteurd'entrée v d'abord projeté sur une sous-variété V de l'espace des données IRd, est aussi le vecteurcible. L'apprentissage consiste à modi�er les paramètres de la variété V pour minimiser la distanceentre le vecteur d'entrée v (la cible) et sa projection sur V. Dans les techniques de quanti�cationvectorielle (QV) [124][131], la variété V est un vecteur de IRd et le modèle obtenu est unecollection de ces variétés, donc un ensemble de n vecteurs w = fw1; w2; : : : ; wng appelés vecteurs

28

1.4. Apprentissage et approximation

representants (ou vecteurs �codebook�). L'approximation de variétés est donc une techniqued'apprentissage non supervisé.

En�n, dans l'apprentissage par renforcement [24], la sortie à associer au vecteur d'entrée n'estpas connue a priori mais une information qualitative sur l'erreur est fournie par un critique sousla forme d'un signal de renforcement de type �pénalité/récompense�. Il s'agit d'un apprentissagepar �essai-erreur�.

Nous nous concentrons essentiellement sur les techniques d'apprentissage non supervisé.

1.4 Apprentissage et approximation

1.4.1 Modèle statistique

Soient les données v 2 � � E, vecteurs de d variables de l'échantillon v = (v[1]; : : : ; v[m])de taille m, de mesures e�ectuées sur un système S. E = Ex � Ey est l'espace produit de Ex

espace d'entrée et Ey espace de sortie de dimensions respectives de et ds. On a : v = (x; y) =(x1; : : : ; xde ; y1; : : : ; yds) avec de + ds = d. Supposons qu'il existe les fonctions g telles que :

8k 2 f1; : : : ; dsg; yk = gk(x) + �k (1.1)

où �k est un bruit additif de moyenne nulle et de variance inconnue.

1.4.2 Estimation

Dans le cas où g est une application de Ex vers Ey, on e�ectue une approximation de fonction

(ou régression). On cherche alors la fonction f� dans la famille de fonctions bf possibles (parexemple dé�nie par l'architecture d'un réseau de neurones), qui minimise l'écart quadratiquemoyen entre bf(x) et y (�MSE� pour �Mean Square Error�) ou risque dé�ni par :

R( bf) = ZE(y � bf(x))2p(x; y)dv (1.2)

où p(x; y) = p(v) est la densité de la distribution des données, i.e. la probabilité d'apparitionconjointe de x et y. On cherche donc l'estimateur bf tel que :

f� = argminbf R( bf) (1.3)

Ne connaissant pas p, on ne peut calculer R et il faut donc :� soit estimer p pour estimer R que l'on minimise pour trouver f� (estimation préliminairede la densité),

� soit utiliser le risque empirique RE dé�ni par :

RE( bf) = 1

m

mXk=1

�y[k] � bf(x[k])�2 (1.4)

et minimiser RE au lieu de R (approches hors ligne �batch� ou incrémentale).� soit encore utiliser une méthode de minimisation stochastique où l'on considère que lesdonnées v apparaissent séquentiellement (approche incrémentale) en obéissant à la densitéde probabilité p (p n'est pas connue explicitement mais apparaît implicitement au traversde la séquence des données observées) : dans ce cas, on minimise directement R. Nousrevenons par la suite à ce type d'approches.

29

Chapitre 1. Approches connexionnistes

La fonction de x qui minimise R au sens des moindre carrés est E(yjx) : l'espérance condi-tionnelle de y sachant x est l'estimateur optimal.

1.4.3 Famille de fonctions

Dans tous les cas, on est contraint de restreindre la famille de fonction bf à une certaine classede fonctions �� (e.g. polynômes de degré �, combinaison de � fonction tanh . . .) parmi laquelleon cherchera f�. � exprime la complexité de la classe de fonction ��, i.e. le nombre de leurs degrésde liberté. Il est alors possible que la fonction que l'on cherche à approcher ne fasse pas partie dela classe de fonctions modèles et donc qu'il subsiste toujours une erreur résiduelle. Cependant,si la classe de fonctions a su�samment de degrés de liberté et si le nombre d'échantillons estsu�samment grand, cette erreur résiduelle peut devenir négligeable.

En estimation non paramétrique, l'estimateur étant directement basé sur les données, il n'ya pas d'apprentissage à proprement parler puisqu'il n'y a pas de paramètres à estimer sauf àmodi�er la complexité de la classe de fonction (k pour les k-PPV ou largeur � des fenêtres deParzen).

Dans le cas paramétrique, l'estimation se décompose en une première phase d'adaptation (oud'apprentissage) qui consiste à trouver les paramètres W optimaux qui minimisent le risque :

W � = argminW

ZE(y � bf(x;W ; �))2p(x; y)dv

avec f�(x; �) = bf(x;W �; �)

(1.5)

dans le cas incrémental stochastique. Puis une seconde phase de sélection des modèles compareles modèles en fonction de leur complexité �.

Dans les approches non paramétriques, la première phase n'existe pas.

1.4.4 Minimisation

Les techniques de minimisation de R auxquelles nous nous référons sont incrémentales etse basent sur une approximation au premier ordre de la fonction à minimiser, on suit alors ladirection du gradient de cette fonction pour modi�er les paramètres. Soit E(W ) une fonctiond'énergie dépendant d'un ensemble de paramètres vectoriels W , telle que l'on cherche W � =argminW E(W ) , pour minimiser E, on applique à l'itération i, la règle d'adaptation suivantepour chaque paramètre w 2W :

wt+1 = wt � �t @E(W t)

@w(1.6)

où �t est le pas d'apprentissage ou pas du gradient que l'on choisit généralement décroissantau cours du temps. Si E(W ) est le risque empirique RE dé�ni par :

E(W ) =1

m

mXk=1

�y[k] � bf(x[k];W ; �)

�2=

1

m

mXk=1

E[k](W ) (1.7)

alors une itération consiste à accumuler tous les gradients partiels calculés sur l'ensembledes m données disponibles pour l'apprentissage puis à e�ectuer l'adaptation. On parle alors dedescente de gradient sur E (ils s'agit d'un traitement �batch�).

Si E est le risque empirique ci-dessus mais que l'on e�ectue l'adaptation à chaque donnée kprésentée, alors on e�ectue une descente de gradient sur chacun des E[k] ce qui ne correspond

30

1.4. Apprentissage et approximation

qu'en moyenne à une descente de gradient sur E puisque les paramètres W sont modi�és au furet à mesure des itérations, l'énergie globale E peut donc augmenter ponctuellement. On parlealors de descente de sous-gradient sur E [143] (il s'agit d'un traitement incrémental hors-ligneoù toutes les données utilisées pour l'apprentissage sont disponibles).

En�n, si E est dé�nie comme le risque R directement,

E(W ) =

ZE(y � bf(x;W; �))2p(x; y)dv =

ZEEv(W )p(v)dv (1.8)

L'adaptation à chaque nouvelle donnée v = (x; y) correspond à une minimisation de l'énergielocale Ev par une descente de gradient qui comme dans le cas précédent, ne correspond qu'à uneminimisation en moyenne de l'énergie globale E. La di�érence avec le cas précédent porte surle nombre a priori illimité de données (l'intégrale remplace la somme). On parle de descente degradient stochastique sur E [160] car les données obéissent à une loi de probabilité p inconnue apriori (il s'agit d'un traitement incrémental en-ligne où les données utilisées pour l'apprentissagene sont pas connues à l'avance). Pour assurer la convergence presque sûre de la règle (1.6) vers unminimum local de E(W ), les deux conditions suivantes sur le pas du gradient � sont nécessaires[45] :

Pt �t ! +1 et

Pt �

2t < +1.

D'autres techniques plus e�caces existent. Elles se basent sur une approximation au secondordre de la fonction d'énergie, comme les méthodes de Newton et de quasi-Newton, du gradientconjugué ou de Levenberg-Markardt [129].

1.4.5 Dilemme biais/variance et dimension VC

Ce dilemme apparaît lorsque la taille de la distribution D est �nie. Le biais est l'écart moyenentre f�(x;D) et la valeur optimale E(yjx). La variance mesure comment cet écart varie avec D.

Un bon estimateur f� est caractérisé par un biais faible (il est proche de l'optimum) et unevariance faible (quelque soit l'échantillon D utilisé pour l'apprentissage, l'estimateur garde unebonne précision). On ne peut malheureusement pas optimiser ces deux paramètres simultané-ment, on parle du dilemme biais/variance [90] : lorsqu'on augmente la complexité � de la famillede modèles, ceux-ci ont plus de degrés de liberté et donc la possibilité de �coller� aux données, lebiais diminue mais la variance augmente puisque l'estimateur obtenu est plus sensible aux don-nées présentées. On parle de sur-apprentissage ou �over-�tting� car en minimisant l'erreur sur lesdonnées, le modèle peut osciller librement entre celles-ci et grever ses capacités de généralisation(i.e. de prévision du comportement du système S entre les données). La �gure 1.2 illustre lesur-apprentissage. � permet de contrôler le compromis biais/variance.

En pratique, on e�ectue l'apprentissage sur un sous-ensemble de la base de données D etl'on mesure le biais à la �n de l'apprentissage comme la moyenne des erreurs quadratiques entrey et f�(x). On mesure alors l'erreur de test, i.e. la moyenne des erreurs quadratiques sur uneautre partie de la base D qui n'a pas servi lors de l'apprentissage. Le biais décroit avec � tandisque l'erreur de test décroit puis augmente. La valeur de � pour laquelle l'erreur de test estminimale, est celle qui permet d'obtenir un bon compromis entre biais et variance. Cela supposeaussi que l'on a trouver un estimateur f� optimum ou proche de l'optimum pour une complexité� du modèle. Il existe donc un critère objectif pour trouver un bon compromis au dilemmebiais/variance. La �gure 1.3 illustre ce critère.

Les travaux de Vapnik et Chervonenkis ont établi que minimiser le risque empirique RE (demanière stochastique ou non) au lieu du risque réel R, est consistant [183] bien qu'il subsisteratoujours une erreur résiduelle qui dépend de la complexité du modèle (i.e. la dimension deVapnik-Chervonenkis ou dimension VC [184] qui estime la complexité de la classe de fonctions

31

Chapitre 1. Approches connexionnistes

Fig. 1.2 � Problèmes du sur-apprentissage : Un modèle trop complexe (trait continu gras)tente de passer par tous les points et capture le bruit : il y a sur-apprentissage. Un modèle troppeu complexe (traits pointillés), lisse les données et grève la précision de l'estimation. En traitcontinu �n, la variété principale de la distribution que l'on veut approcher.

Fig. 1.3 �Une solution au dilemme biais/variance : pour trouver un compromis au dilemmebiais/variance qui évite le sur-apprentissage, on compare pour di�érentes complexités � du mod-èle, l'erreur moyenne sur la base d'apprentissage et sur une base de test indépendante. La com-plexité optimale du modèle correspond à la valeur de � pour laquelle l'erreur sur la base de testest minimale.

32

1.5. Supervisé ou non supervisé ?

��) mais qui tend à décroître lorsque la taille de la distribution augmente. En d'autres termes,lorsque la taille de l'échantillon n'est pas limitée, le risque de sur-apprentissage tend à disparaîtrepour une complexité donnée du modèle.

On comprend intuitivement que plus la taille de l'échantillon est élevée, plus il apporte d'in-formations redondantes sur les fonctions g inconnues et facilite leur estimation.

1.4.6 Problème mal posé

L'estimation f� de la fonction g à partir d'un nombre limité de données est un problème malposé. Rappelons ici que ce n'est pas le cas lorsque les données sont en nombre illimité ou dumoins su�samment grand par rapport à la complexité du modèle.

Mal posé signi�e que la minimisation de l'écart quadratique ne garantit pas l'unicité de lasolution : toute fonction qui �passe� par tous les points de la distribution est solution quelquesoit sont comportement entre les points.

La théorie de la régularisation [152] permet de transformer un problème mal posé en problèmebien posé en imposant des contraintes supplémentaires à la fonction f�, ce qui correspond àminimiser la fonction suivante :

RE( bf) = 1

m

mXk=1

�y[k] � bf(x[k])�2 + �Eregul( bf) (1.9)

On peut prendre par exemple, �Eregul( bf) = �k@2 bf@x2 k qui contraint à minimiser la norme de ladérivée seconde de l'estimateur, i.e. ses oscillations entre les données. Le terme régularisant faitpartie intégrante de la fonction d'énergie minimisée au cours de la phase d'adaptation.

On peut cependant constater que plus la complexité � du modèle est grande, plus le termerégularisant est important dans la fonction à minimiser, ce qui veut dire que la complexité dumodèle est elle-même un moyen de régularisation : pour un � fort, le modèle plus complexeapproxime mieux les données mais impose une forte régularisation pour contrôler les oscillationsentre les données, tandis que pour un � faible, le modèle moins complexe lisse les données etla régularisation n'est pas nécessaire. On retrouve le dilemme biais/variance et nous proposonsd'utiliser � seul pour trouver un compromis à ce dilemme durant la phase de sélection desmodèles.

1.5 Supervisé ou non supervisé ?

En apprentissage supervisé, on cherche un estimateur qui minimise la fonction :

R( bf) = ZE(y � bf(x))2p(x; y)dv (1.10)

tandis qu'en apprentissage non supervisé, la fonction à minimiser est de la forme :

R( bf) = ZE(v � bf(v))2p(v)dv (1.11)

Il semble qu'il n'y aie pas de di�érence fondamentale entre les deux approches si ce n'estdans les espaces de départ et d'arrivée de la fonction bf : en supervisé, bf : Ex ! Ey et en non

supervisé, bf : E ! E. Dans les deux cas, bf est une application (à chaque vecteur de l'espaced'entrée correspond au plus un vecteur image dans l'espace de sortie). Pour préciser le type

33

Chapitre 1. Approches connexionnistes

Fig. 1.4 � Problème de sélection de la dimension : il s'agit du problème propre aux ap-proches non supervisées, du choix de la dimension intrinsèque du modèle. Il est impossible dedéterminer si la variété principale est ici à 1 ou 2 dimensions. Nous ne connaissons aucun critèreobjectif (comme l'erreur sur la base de test dans le cas supervisé pour résoudre le dilemmebiais/variance) qui permette de choisir l'une ou l'autre solution.

d'approche, nous parlerons d'approximation de fonctions dans le premier cas, et d'approximationde variétés dans le second.

Kegl [116] rappelle ce qui di�érencie supervisé et non supervisé. L'approximation de fonc-tions est un problème bien posé, car on peut décider de deux modèles, lequel est le meilleur encomparant leurs performances en terme d'erreur quadratique moyenne sur un ensemble de test :on peut optimiser en suivant un critère objectif (erreur de test) la complexité du modèle. Tandisque dans le deuxième cas, bf doit e�ectuer une réduction de dimension en projetant les donnéesde l'espace E vers la collection de variétés modèles dont la dimension intrinsèque est générale-ment plus faible que celle de E. L'approximation de variétés est donc un problème dé�nitivementmal posé car elle implique deux objectifs contradictoires : la préservation de l'information et laréduction de dimension. Il faut choisir la dimension locale des variétés en sortie et il n'existepas de critère objectif pour décider de la dimension correspondant à celle de la variété supportoriginelle inconnue que l'on cherche à approcher.

La �gure 1.4 illustre le problème posé.

1.6 Réseaux de neurones auto-organisés

Les techniques neuronales que nous proposons, ont des propriétés d'auto-organisation.

On parle d'auto-organisation lorsqu'émerge une organisation globale à partir de l'applicationde règles locales.

Nous verrons l'auto-organisation au sens de :

� l'émergence d'ordre : elle apparaît dans les cartes de Kohonen [120] où la topologie de lacarte tend à respecter celle de la distribution, grâce à la dé�nition a priori d'un voisinagepour chaque unité. Des unités voisines de la carte tendent à représenter des régions voisinesde l'espace des données.

� l'émergence d'une structure topologique explicite : des règles locales de création de liens devoisinage dans les réseaux représentant la topologie de Martinetz et Schulten [133], mènentà l'émergence d'une structure dont la topologie représente celle de la distribution.

� la répartition des unités en fonction de la densité de la distribution : les techniques de Quan-ti�cation Vectorielle [97] mènent à une organisation des unités dont la densité approchecelle de la distribution [201].

� la répartition de chaque unité en fonction de la position des autres : Nous verrons que

34

1.7. Conclusion

le voisinage -Observable tend à répartir les représentants en fonction de leurs distancesrelatives et de leur position par rapport aux données.

1.7 Conclusion

Nous avons présenté des approches de modélisation neuronale.Le dilemme biais/variance lié à la complexité du modèle peut trouver un compromis objectif

au cours de la phase d'approximation en utilisant un terme régularisant, ou bien on peut attendrela phase de sélection pour trouver le modèle de complexité optimale. Ce dilemme se pose de lamême façon pour l'approximation de fonctions que pour l'approximation de variétés où il trouveles mêmes solutions. Nous proposons d'utiliser la complexité du modèle seule comme moyen derégularisation.

L'approximation de variétés utilise un apprentissage non supervisé. Dans ce cadre, le prob-lème de l'approximation reste mal posé car il faut faire un compromis entre la préservation del'information et la réduction de dimension sur des bases objectives que nous ne connaissons pas.Il faut donc choisir a priori l'échelle d'observation qui dé�nit implicitement la dimension desvariétés modèles.

Pour la modélisation de variétés, nous nous intéressons aux approches neuronales locales quipermettent de limiter les problèmes d'interférence en plus de faciliter la représentation de latopologie, et paramétriques qui permettent une adaptation du modèle en fonction des données.

Les réseaux de neurones auto-organisés utilisant des techniques d'apprentissage non supervisé,sont une part importante des modèles que nous étudions.

Dans le chapitre suivant, nous nous intéressons aux techniques non supervisées de quanti�-cation vectorielle qui permettent de placer des représentants, première étape de la constructionde variétés.

35

Chapitre 1. Approches connexionnistes

36

Chapitre 2

Quanti�cation vectorielle

37

Chapitre 2. Quanti�cation vectorielle

2.1 Introduction

Dans ce chapitre, nous présentons des techniques de Quanti�cation Vectorielle (QV) [97] quipermettent de représenter les données issues d'une distribution par un ensemble de représentantsgénéralement en nombre plus faible. Les représentants sont placés là où il y a des données (aspectqualitatif), et en nombre d'autant plus grand que la densité de la distribution est grande (aspectquantitatif).

Parmi les techniques de QV, certaines dé�nissent un voisinage qui mène à un placement pluse�cace des représentants et qui permet aussi de dé�nir une topologie qui leur est associée. C'estun premier pas vers la modélisation de variétés.

2.2 Généralités

Soit E un espace Euclidien de dimension d et � un domaine borné de E. Soit D la dis-tribution des données v 2 D. D est une collection de sous-variétés de E, telle que D � � etRD p(v)dv = 1 où p est la densité de probabilité de la distribtuion. Il s'agit de représenter lesdonnées v 2 D � � par un ensemble w = (w1; : : : ; wn) 2 � de n vecteurs représentants (w estun dictionnaire ou �codebook�) et de projeter chaque donnée sur le représentant le plus procheau sens d'une norme à dé�nir. Le nombre de représentants est généralement plus faible que celuides données. Chaque donnée (vecteur à d dimensions) est alors remplacée par l'indice (scalaire)de son représentant dans le dictionnaire ce qui permet de diminuer la quantité d'information àstocker ou à transmettre, la distribution D est alors représentée par le dictionnaire et par unesérie d'indices de la taille de la distribution.

La qualité de la quanti�cation vectorielle de la distribution D résumée aux seuls représentantsest caractérisée par une distorsion moyenne :

d(w) = E (d(v; w�(v))) (2.1)

où E est l'espérance et w�(v) est le représentant de v. Nous utilisons la distance quadratique :d(a; b) = ka� bk2 = (a� b)>(a� b).

Il faut alors trouver les représentants qui minimisent la distorsion moyenne pour obtenir unquanti�eur optimal pour un nombre de représentants n et une distribution D donnés. Deux con-ditions sont nécessaires (conditions d'optimalité de Lloyd [97] p.13) pour obtenir un quanti�europtimal :

� Condition du plus proche voisin : le vecteur w�(v) représentant de v doit être le plusproche représentant wi de v au sens de la mesure d(v; wi) :

w�(v) = arg minj2(1;:::;N)

(d(v; wj)) (2.2)

Le représentant le plus proche est généralement appelé le représentant gagnant ou l'unitégagnante.

� Condition des centroïdes : chaque représentant doit être le centre de gravité de toutesles données v qu'il représente :

8i 2 (1; : : : ; n); wi = E (fv j wi = w�(v)g) (2.3)

L'espace E est divisé en n régions d'in�uence chacune centrée sur un représentant wi, appeléerégion de Voronoï de wi [145]. Soit w un ensemble �ni de points de E, la région de Voronoï d'unpoint wi 2 w dans E est la partie convexe de E dé�nie par :

38

2.3. Algorithme de Lloyd généralisé

Fig. 2.1 � Régions de Voronoï : régions de Voronoï (traits) d'un ensemble de représentants(points) du plan. Chacun de ces représentants est le représentant le plus proche de tous les pointssitués dans la région de Voronoï à laquelle il appartient et dont il est le centre.

Dé�nition 1 Région de Voronoï

Vw(wi) = fv 2 � j 8wj 2 w; kv �wik � kv � wjkg = fv 2 � j wi = w�(v)g (2.4)

et nous notons Vi = Vw(wi) dans la suite. Un exemple de régions de Voronoï dans un espaceà deux dimensions est présenté sur la �gure 2.1.

La distorsion moyenne est alors donnée par :

d(w) = EHCL =Xi

Zv2Vikv � wik2p(v)dv =

Xi

Ev2Vi(kv � wik2) (2.5)

où l'on voit apparaître la densité de probabilité p de la distribution D.On note que les régions de Voronoï se chevauchent aux frontières (en raison de l'inégalité

au sens large dans (2.4)). Elles ne dé�nissent pas une partition stricto sensu de l'espace. Celarend possible l'existence de plusieurs unités gagnantes, mais en pratique on n'en garde qu'une. Laprobabilité qu'une donnée tombe sur une frontière est nulle car l'ensemble des frontières (variétésde dimension d� 1) sous-ensemble de � borné est de mesure de Lebesgue nulle2.

2.3 Algorithme de Lloyd généralisé

2.3.1 Principe

Nous décrivons l'algorithme de Lloyd généralisé appelé aussi LBG pour Linde-Buzzo-Gray[124] ou nuées dynamiques par les statisticiens [58]. Il s'agit d'un apprentissage �batch�, i.e. quitient compte de toutes les données disponibles avant de modi�er la position des représentants.

On initialise tout d'abord les représentants en les plaçant aléatoirement dans l'espace E ousur des vecteurs de la distribution D puis on itère les opérations suivantes :

� Pour chaque vecteur v[k] de D, trouver son représentant : w�(v[k]) (condition du plus prochevoisin (2.2)).

� Placer chaque représentant wi au centre de gravité de sa région d'in�uence Vi : wi E(Vi)(condition des centroïdes (2.3)). Si un représentant ne représente aucune donnée, il estreplacé aléatoirement sur une donnée de la distribution D.

L'algorithme se termine lorsque la position des représentants ne change plus entre deuxitérations successives.

2L'écriture de la distorsion moyenne reste donc valide malgré le chevauchement aux frontières des Vi en raisonde cette dernière remarque sur leur mesure de Lebesgue.

39

Chapitre 2. Quanti�cation vectorielle

2.3.2 Commentaire

La position �nale des représentants correspond généralement à un minimum local de la dis-torsion d(w). Pour atteindre un minimum local plus bas, Fritzke [85] propose dans la méthode"LBG-U" d'associer une valeur d'utilité à chaque unité, égale à l'écart entre la distorsion réaliséepar le dictionnaire complet et par le dictionnaire privé de l'unité considérée, puis de relancerl'algorithme en réinitialisant l'unité la moins utile au voisinage de l'unité responsable de la plusgrande distorsion.

2.4 Apprentissage compétitif �Hard� (HCL)

2.4.1 Principe

On peut dé�nir une version itérative de LBG, connue sous le nom de k-means [178]. On parlealors d'apprentissage compétitif �hard� (HCL pour �Hard Competitive Learning�).

Les étapes de l'algorithme sont alors :� Sélectionner un vecteur v de D.� Trouver son représentant : w�(v) : c'est la phase de compétition (condition du plus prochevoisin (2.2)).

� Déplacer w�(v) vers v : c'est la phase d'adaptation (condition des centroïdes (2.3)) :

w�(t+1)(v) = w�(t)(v) + �(t) � (v � w�(t)(v)) (2.6)

où �t est le pas d'apprentissage généralement décroissant au cours du temps. Cette règled'apprentissage correspond à une minimisation par descente de gradient stochastique de ladistorsion d(w).

On arrête l'algorithme au bout d'un nombre d'itérations dé�ni a priori.

2.4.2 Commentaires

Unités mortes

Il peut exister des unités mortes i.e. jamais gagnantes car elles sont dans des régions de �trop éloignées de la distribution D. Ces unités mortes sont réinitialisées dans LBG.

Des solutions à ce problème ont été proposées par De Sieno [54] avec un mécanisme de�conscience�, Ahalt et al. [2] avec une sensibilité à la fréquence de �victoire� de chaque unité,et Demartines et al. [52] avec un mécanisme de �fatigue�. L'idée générale de ces techniques estde modi�er la mesure de distorsion ou le critère d'élection du gagnant pour que les unités tropsouvent gagnantes cèdent la place aux autres.

Densité

Zador [201] a démontré que lorsque le nombre de représentants n tend vers l'in�ni, la densité

q(w) de leur distribution en �n d'apprentissage tend asymptotiquement vers p(w)di

di+2 où di est ladimension intrinsèque de la distribution. De plus, lorsque di augmente, le rapport di

di+2 tend vers1, et la densité q(w) des représentants tend alors asymptotiquement vers celle de la distributionlorsque n tend vers l'in�ni. En pratique, le nombre de représentants est évidemment �ni, on peutdonc seulement parler de tendance à ce qu'il y ait en �n d'apprentissage plus de représentantsdans les régions de forte densité de la distribution que dans les régions de faible densité. Minimiserla distorsion s'accompagne donc d'un respect approximatif de la densité de la distribution.

40

2.5. Apprentissage compétitif �Soft� (SCL)

Nombre de représentants

En�n, il n'y a pas de règle absolue pour dé�nir le nombre de représentants à utiliser. Celapeut dépendre par exemple du temps de calcul ou de la place mémoire dont on dispose (d'autantplus grande que n est grand), ou de la distorsion moyenne �nale que l'on désire obtenir (d'autantplus faible que n est grand).

2.5 Apprentissage compétitif �Soft� (SCL)

2.5.1 Principe

Dans les approches HCL, seul le gagnant est déplacé à chaque itération. Dans l'apprentissagecompétitif �Soft� (SCL pour �Soft Competitive Learning�), on dé�nit un voisinage pour chaquereprésentant, et l'ensemble des représentants de ce voisinage est adapté à chaque itération. Celaa pour e�et d'augmenter la vitesse de convergence et cela permet d'obtenir une distorsion plusfaible en �n d'apprentissage [131].

Une fois le gagnant déterminé lors de la phase de compétition, il est adapté ainsi que sesvoisins grâce à une règle d'adaptation de la forme :

8i 2 (1; � � � ; n); wi(t+1) = wi(t) + �(t) i(w(t); v) � (v �wi(t)) (2.7)

où i(w(t); v) 2 [0; 1] est la fonction qui dé�nit le voisinage. Cette fonction est généralementmonotone décroissante de telle sorte qu'elle vaut 1 pour le gagnant et moins pour ses voisins.

De plus, la taille du voisinage est réglable entre n, tous les représentants, et 1, le seul gagnant.On la fait décroître de n vers 1 au cours de l'apprentissage. Lorsqu'elle vaut n, la fonction d'énergiecorrespondant à la distorsion moyenne est quadratique, elle n'a qu'un minimum qui correspond àplacer toutes les unités au centre de gravité de la distribution. Lorsqu'elle vaut 1, on se retrouvedans le cas du HCL où le respect asymptotique lorsque n croît, de la densité de la distributionpar les représentants est démontré [201]. Toutes les approches SCL ont ces propriétés, ce quichange, c'est la structure de voisinage utilisée.

Pour dé�nir ce voisinage, on peut par exemple choisir une fonction de base radiale et de pro�l

gaussien, i.e. un noyau gaussien : i(w(t); v) = e�kv�wik

2

� centré sur chaque représentant wi etdont � règle le rayon, ce qui correspond par symétrie, à ne placer qu'un seul de ces noyaux centrésur la donnée v (cf. �gure 2.2). Alors, quelque soit le rayon de ce noyau, l'application de la règled'apprentissage (2.7) attire tous les représentants vers la donnée, mais surtout leurs distancesrelatives diminuant, tous les représentants se rapprochent les uns des autres inexorablement. Ils�nissent par se concentrer au centre d'inertie de la distribution sans que l'on puisse jamais lesdécoller.

On voit que la dé�nition d'un voisinage utilisable en quanti�cation vectorielle n'est pas triv-iale.

2.5.2 Approche Recuit-Simulé

Dé�nition

La méthode �Soft Competition Scheme� (SCS) de Yair et al. [200], aussi connue sous le nomde �maximum entropy clustering� [162] et utilisée pour modéliser la densité d'une distributionpar une combinaison de noyaux gaussiens normalisés (NRBF) dans [144], dé�nit une fonction de

41

Chapitre 2. Quanti�cation vectorielle

VW i W j W k

activation

position

Fig. 2.2 � Placer un noyau gaussien (trait �n) de même rayon sur chaque représentant w etcalculer l'activation associée à chacun d'eux en fonction de la position de la donnée v, équivaut àplacer un unique noyau (trait gras) de même rayon sur la donnée et calculer avec lui l'activationassociée à chaque représentant.

voisinage similaire à celle de la section précédente :

i(w(t); v) =e�

kv�wik2

�Pnj=1 e

� kv�wjk2

(2.8)

La règle (2.7) correspond alors à une descente de gradient stochastique sur la fonction d'éner-gie :

ESCS = ��ZEln

nXi=1

e�kv�wik

2

� p(v)dv (2.9)

Propriétés

Lorsque � tend vers l'in�ni, tous les représentants sont tous également activés, la taille duvoisinage est n, tandis que lorsque � tend vers 0, seul le représentant le plus proche de v est actif,la taille du voisinage est 1.

Dans le cas du SCS, Rose et al. [162] ont montré que la règle d'adaptation (2.7) utilisant cevoisinage correspond à une procédure déterministe de �recuit-simulé� (méthode d'optimisationproposée par Kirkpatrick et al. [118]) où � est en fait la température et ESCS l'énergie libre.L'idée est d'éviter les minima locaux de la fonction d'énergie en faisant lentement décroître latempérature.

Cependant, le contrôle de la température, donc de l'étendue du voisinage s'avère délicat car levoisinage est justement basé sur une distance dé�nie dans l'espace des données. Les représentantscollés par hasard lors de l'initialisation ou bien lors de l'adaptation, sont di�ciles à décoller.Geman et al. [89] signalent qu'en théorie, � doit décroître trés lentement : � � 1

ln t avec t lenombre d'itérations de (2.7).

On ne peut se contenter d'une fonction i(w(t); v) décroissante avec la distance des représen-tants à la donnée dans l'espace des données. Il faut conserver une certaine compétition entre lesreprésentants pour que chacun se focalise sur une région de la distribution.

2.5.3 Cartes de Kohonen

Dé�nition

Les représentants en quanti�cation vectorielle, codent chacun une région localisée de la dis-tribution (région de Voronoï dans l'espace Euclidien). Cela donne une information synthétique

42

2.5. Apprentissage compétitif �Soft� (SCL)

(a) (b) (c) (d)

Fig. 2.3 � Cartes de Kohonen : cartes de Kohonen de di�érentes topologies généralementutilisées. Chaque unité a au plus 2 (a), 4 (b), 8 (c) ou 6 (d) voisins.

sur la localisation de la distribution dans l'espace des données, mais cela ne renseigne pas sur satopologie : cette distribution est-elle connexe ? Quelle est sa forme ? Sa dimension intrinsèque ?.On ne sait donc pas si deux représentants représentent des régions voisines ou au contraire desrégions éloignées de l'espace des données.

Von Der Malsburg a étudié la formation des colonnes d'orientations dans le cortex visuel[187] puis avec Willshaw [199] celle des cartes rétinotopiques. Ces travaux ont inspiré Kohonen[120] qui a modélisé ces cartes corticales. Dans ce modèle, les représentants appelés neurones ouunités, sont positionnés dans l'espace des données, mais aussi dans un espace découplé appeléespace de la carte, dans lequel ils sont les sommets d'un graphe généralement planaire et régulier(ligne, grille carrée ou triangulaire sur la �gure 2.3).

On peut aussi dé�nir la carte comme un espace continu M de dimension dm dans lequel sontplacés régulièrement les représentants (en ligne, en réseau carré ou triangulaire...) par un vecteurri 2 Mdm . La fonction de voisinage de type noyau gaussien est alors dé�nie dans cet espaceconnaissant l'unique représentant gagnant d'indice i� = win(v). Cependant, comme nous l'avonsvu dans la section 2.2, il peut exister plusieurs gagnants dont les vecteurs wi sont tous les plusproches de v dans E lorsque v tombe sur une frontière des régions de Voronoï. En implémentantl'algorithme, on ne retient généralement que l'unique gagnant de plus faible ou de plus fort indicei�. On a :

i(w(t); v) = h�(d(win(v); i)) =NXq=1

Aq(w(t); v) � h�(d(q; i)) (2.10)

où h�(d(win(v); i)) est une fonction généralement décroissante positive et inférieure à 1, dont� règle la largeur dans l'espace de la carte. On peut prendre :

h�(d(q; i)) = e�d(q;i)� avec d(q; i) = kri � rqk (2.11)

et Aq(w(t); v) est une fonction indicatrice du représentant gagnant qui vaut 1 lorsque q estl'indice du représentant qui parmi tous les gagnants éventuels a l'indice le plus fort ou le plusfaible, Aq(w(t); v) = 0 sinon. Cette fonction est détaillée dans l'article attaché à l'annexe C.

Dans le cas où la carte est un graphe, donc n'est dé�nie que par les relations de voisinageentre les représentants, la fonction de voisinage est semblable à la précédente mais utilise ladistance sur le graphe en terme de nombre d'arêtes séparant le gagnant du voisin considéré.

Propriétés

Les cartes de Kohonen e�ectuent une quanti�cation vectorielle sous contrainte du respectde la topologie des données : on parle d'auto-organisation et de cartes auto-organisantes (�Self-

43

Chapitre 2. Quanti�cation vectorielle

(a) (b) (c)

Fig. 2.4 � La topologie d'une carte de Kohonen est dé�nie a priori . Elle peut ne pasêtre adaptée à celle de la distribution des données (régions grises). (a) Une carte de topologieadaptée. (b) Une carte de dimension trop faible ne représente pas correctement la topologie de ladistribution : des unités voisines de la carte représentent des régions voisines de la distribution,cependant la réciproque est fausse. (c) Des unités mortes (en gris clair) apparaissent lorsque ladistribution est non connexe alors que la carte est connexe.

Organizing Maps� ou SOM). La variété particulière formée par la carte tend lors de l'appren-tissage à minimiser la distance entre les données et leur projection sur elle. Des représentantsvoisins sur la carte représentent des données voisines de l'espace des données, i.e. une partie dela topologie de la distribution est rendue explicite par la carte.

Les SOMs ont été utilisées en quanti�cation vectorielle [121] [126] [142] [158]. La fonction devoisinage dé�nie sur la carte est découplée de l'espace des données : deux représentants voisins dela carte, quelque soit leur distance réelle dans l'espace des données, demeurent à une distance �xedans l'espace de la carte leur assurant une activité di�érente du gagnant pourvu que � ne soit pastrop grand. C'est ce qui évite le collage des unités. L'intérêt en quanti�cation est dû à ce voisinagedécouplé et à l'information sur la topologie de la distribution. Cependant, la topologie de lacarte doit être prédé�nie, elle ne correspond donc pas nécessairement à celle de la distributiona priori inconnue. C'est ce qui permet justement d'utiliser les SOMs comme outil de projectionnon linéaire car dans ce cas, la topologie de l'espace sur lequel la distribution est projetée doitêtre su�samment simple pour permettre une visualisation ou une expertise des informationscodées par les représentants. La projection est discrète quoique certaines adaptations étudiées auchapitre 7 permettent de rendre ces cartes continues. Il n'est donc pas souhaitable d'utiliser uneSOM si le seul but est la quanti�cation d'une distribution sans préoccupations pour sa topologie.Des auteurs ont étudié les limites des SOMs en QV plus en détails [74] [75] [17].

On peut constater sur la �gure 2.4, que la topologie de la carte peut ne pas être adaptée àcelle de la distribution, et laisser des unités �mortes� lorsque celle-ci est non connexe.

2.5.4 �Neural-Gas�

Principe

L'algorithme du �Neural Gas� (NG) est proposé par Martinetz et al. [131].

Lors de la présentation d'une donnée v, les représentants sont triés par ordre décroissant deleur distance à v. Chaque représentant wi se voit attribué un rang ki dans ce classement, tel quele plus proche de v a pour rang 0, le second plus proche, le rang 1,. . ., le nième plus proche, lerang n� 1. Le rang de chaque unité est utilisé pour calculer la fonction de voisinage :

i(w(t); v) = h�(ki(w; v)) (2.12)

44

2.5. Apprentissage compétitif �Soft� (SCL)

où h� est du type (2.11). Lorsque v tombe sur une frontière de Voronoï, plusieurs unités ont lemême rang, et donc la même activité, elles restent alors éventuellement collées si elles l'étaientdéjà mais ce n'est pas génant car peu susceptible de se produire en raison de la mesure deLebesgue nulle de ces frontières .

Propriétés

La topologie du NG n'est pas �xée a priori mais prend la forme d'une SOM évanescente à1 dimension constituée de l'unité gagnante à une extrémité et de la succession des représentantsordonnés. Le découplage est assuré par l'écart de rang entre deux unités, au moins égal à 1 saufdans le cas peu probable d'égalité des distances.

Cependant, lors de simulations, nous constatons que la topologie uni-dimensionnel du voisi-nage du NG semble ralentir la convergence. Le chapitre 9 précise cet e�et.

Il peut aussi exister des unités �mortes�, lorsque la taille du voisinage décroît trop vite,cependant le NG s'adapte aux distributions non connexes ou de dimension intrinsèque variable.

La complexité des calculs est en O(n:(d+ log(n))) en raison du tri nécessaire au classementdes représentants. Elle n'est qu'en O(d:n) dans une carte de Kohonen.

Pour réduire cette complexité, Demartines [53] propose de ne trier que les premiers représen-tants du classement, puisque les suivants auront une activité trés faible et ne se déplacerontquasiment pas.

Neural-Gas implicite

Une autre approche proposée par Atukorale et Suganthan [7], consiste à utiliser un classementimplicite :

ki =Di �Dmin

Dmax �Dminavec Di = kv � wik (2.13)

où Dmax et Dmin sont respectivement la plus grande et la plus petite distance parmi les distancesde tous les représentants à la donnée v. Nous appelons cette variante le Neural-Gas Implicite.

La complexité retombe alors à O(d:n). Il n'y a pas de découplage mais une normalisation parl'écart entre le plus lointain et le plus proche représentants de v, qui permet de modi�er l'échelledes distances en fonction de la dispersion des représentants. Deux représentants relativementproches par rapport aux autres, peuvent cependant restés collés malgré cette normalisation.

2.5.5 Méthodes constructives

Dans toutes les approches présentées, le nombre de représentants est �xé et doit être dé�nia priori.

Fritzke a proposé des réseaux constructifs appelés �Growing Cell Structures�, �Growing Grid�,et �Growing Neural-Gas� [81][83] [84] dans lesquels de nouveaux représentants sont ajoutés aucours de l'apprentissage jusqu'à ce qu'un nombre prédé�ni soit atteint. Au lieu de spéci�er lenombre de représentants maximum, il est possible de spéci�er la distorsion moyenne à atteindrecomme condition d'arrêt de l'ajout de représentants. Ces réseaux permettent d'éviter les unitésmortes car les nouveaux représentants sont positionnés là où il y a des données et les unitésmortes sont détectées et supprimées. On trouvera dans [182], une étude de Trautmann et Denoeuxcomparant les SOM et le Growing Cell Structure.

Le réseau appelé �Growing Neural-Gas� (GNG) s'appuie sur une structure de voisinage pro-posé par Martinetz [130] [133] résultat d'un algorithme appelé �Competitive Hebbian Learning�

45

Chapitre 2. Quanti�cation vectorielle

(CHL) qui à chaque présentation d'une donnée, construit un lien entre ses deux plus prochesreprésentants.

Dans le GNG, Fritzke propose de rajouter périodiquement une unité à mi-distance des deuxunités voisines cumulant le plus d'erreur. Le lien entre ces deux unités est supprimé et deuxnouveaux liens se forment entre elles et la nouvelle unité. L'adaptation des unités est basée sur lastructure de graphe ainsi créée et sur la fonction de voisinage de Kohonen (2.10). Le GNG, commeson nom ne l'indique pas, n'utilise pas l'algorithme du Neural-Gas basé sur un classement desunités, mais utilise directement le graphe représentant la topologie comme structure de voisinagepour l'algorithme de quanti�cation vectorielle. L'algorithme du GNG ressemble à celui des cartesde Kohonen mais la topologie des liens de voisinage n'est pas prédé�nie : la topologie de ladistribution est apprise par la structure du réseau, donc l'on ne �xe a priori ni la dimensionintrinsèque, ni la connexité, ni la forme de la structure ou le nombre d'unités.

Comme les unités se déplacent lors de l'apprentissage, il faut pouvoir mettre à jour les liensde la structure de voisinage pour qu'elle reste représentative de la topologie de la distribution.Un âge est donc associé à chaque lien et un lien est détruit si son âge dépasse un âge maximumprédé�ni. Une unité qui n'est plus reliée à aucune autre est elle aussi supprimée (c'est le cas enparticulier des unités mortes). Les paramètres essentiels sont l'âge maximum des liens, le critèrede création des unités, et comme dans les autres approches SCL, le pas d'apprentissage et lalargeur du voisinage.

2.6 Conclusion

Nous avons présenté di�érentes techniques de quanti�cation vectorielle. Celles basées sur ladé�nition d'un voisinage comme les cartes de Kohonen ou le Neural-Gas, sont plus e�cacesen terme de vitesse de convergence et de distorsion �nale obtenue [131] que celles qui en sontdépourvu. La dé�nition d'un voisinage permet aussi de donner une information complémentaireexplicite sur la topologie de la distribution grâce à un graphe de connexions comme dans leGrowing Neural-Gas.

Dans le chapitre suivant, nous nous intéressons aux techniques permettant de modéliser latopologie d'une distribution et étudions plus en détail les voisinages utilisés en quanti�cationvectorielle.

46

Chapitre 3

Voisinage et topologie

47

Chapitre 3. Voisinage et topologie

3.1 Introduction

Dans ce chapitre, nous précisons deux notions essentielles à la dé�nition de certains voisi-nages : les maillages basés sur des simplexes et leur lien avec les graphes. Puis nous passons enrevue les di�érents types de voisinages utilisés en Quanti�cation Vectorielle dont nous dégageonsles avantages et les limites.

3.2 Complexes et graphes

Les dé�nitions données dans ce paragraphe sont issues de [145][117][153].

3.2.1 Simplexes, complexes et triangulations

L'enveloppe convexe d'un ensemble de points S = fw0; :::; wng de IRd est :

Dé�nition 2 Enveloppe convexe dans IRd

conv(S) = fv =nXi=0

�iwi jnXi=0

�i = 1 et �i � 0 pour tout ig (3.1)

C'est le plus petit convexe contenant tous les points de S.Un k-simplexe est l'enveloppe convexe de k+1 points linéairement indépendants. Un sommet

est un 0-simplexe, un segment un 1-simplexe, un triangle un 2-simplexe, un tétraèdre un 3-simplexe. Un k-simplexe est une k-variété, i.e. une variété de dimension k. Une facette d'unk-simplexe est un l-simplexe avec l � k enveloppe convexe de l + 1 des k + 1 sommets duk-simplexe : les sommets, segments et triangles d'un tétraèdre sont des facettes de celui-ci.

Un complexe de simplexes est un ensemble de simplexes tel que toute facette de ces simplexesfait aussi partie de cet ensemble, et tel que l'intersection de deux simplexes de cet ensemble estsoit vide, soit une facette commune aux deux. Lorsque le complexe est formé uniquement dek-simplexes, on parle de k-triangulation. Une triangulation est un complexe de 2-simplexes. Ladimension d'un complexe de simplexes est égale à celle des simplexes de plus grande dimensionqui le composent.

Pour simpli�er, nous utiliserons le terme triangulation au lieu de k-triangulation pour toutk, et nous préciserons lorsque nous parlerons uniquement du cas usuel k = 2.

On parle aussi de facette d'un complexe pour dénommer tout simplexe qui le compose : lesfacettes d'une triangulation seront les triangles, segments ou sommets de celle-ci.

Nous appelons facette principale toute facette qui n'appartient à aucun simplexe de plusgrande dimension qu'elle, par exemple les triangles d'une 2-triangulation. Nous appelons facettefrontière toute k � 1-facette qui n'appartient qu'à une unique k-facette principale.

La �gure 3.1 donne un exemple de complexe de simplexes et illustre ces dé�nitions.

3.2.2 Graphes

Un graphe G(S;U) est un ensemble de sommets S et d'arêtes U joignant ces sommets. Ungraphe est un complexe de simplexes de dimension 1 abstrait tant qu'il n'est pas plongé dans unespace topologique dans lequel ses sommets doivent être positionnés. Le complexe de simplexesobtenu dans cet espace est la réalisation géométrique de ce graphe abstrait. Tout complexe desimplexes abstrait de dimension di a une réalisation géométrique dans IRd pour d su�sammentgrand. Un graphe est planaire s'il a une réalisation géométrique dans IR2 (il su�t qu'il existe

48

3.3. Liens avec la Quanti�cation Vectorielle

(a) (b) (c)

Fig. 3.1 � Complexe de simplexes : en (a), un complexe de simplexes constitué de points,segments et triangles. En (b), les points noirs, les segments en gras et tous les triangles sontles facettes principales de ce complexe. En (c), les points noirs et les segments en gras sont lesfacettes frontières de ce complexe.

un positionnement des sommets dans IR2 tel qu'aucune de ses arêtes ne se croise). Un graphea toujours une réalisation géométrique dans IR3. Par contre, tout complexe de 2-simplexes n'apas toujours une réalisation dans IR2 : un ruban formé par une succession de triangles peut êtreaplati sur un plan formant alors un anneau, mais un ruban de Möbius (ruban à une seule face) nepeut l'être sans qu'il y ait chevauchements ou recoupements de faces triangulaires du complexe.

Un graphe est connexe lorsqu'il existe un chemin constitué d'arêtes du graphe permettantde relier chaque sommet à tout autre. Une composante connexe est une partie d'un graphe dontchaque sommet est connecté à tout autre par une chemin constitué d'arêtes.

Un graphe est orienté lorsque les arêtes ont un sens privilégié : une arête reliant un sommetA à un sommet B permet de passer de A vers B mais pas de B vers A.

Un graphe complet est un graphe dont chaque sommet est lié par une arête à tout autre. Ungraphe complet est connexe.

Un graphe de proximité [57] est un graphe dont les sommets sont situés dans un espace vec-toriel (que nous considérons Euclidien), et les arêtes n'existent entre deux sommets que s'ils sontvoisins selon la dé�nition d'un voisinage. Dé�nir un voisinage, c'est dé�nir pour chaque sommetune région d'in�uence dont il est appelé le centre et tel que tout autre sommet présent danscette région est son voisin. La région d'in�uence n'est pas nécessairement une variété connexe,ni convexe, ni limitée.

La région de proximité associée à deux sommets est telle que ces deux sommets sont voisinssi et seulement si cette région ne contient aucun autre sommet. Elle est aussi appelée régioninterdite. La forme de cette région dépend du voisinage considéré.

D'un point de vue géométrique, on ne fait pas de distinction entre les termes représentants,données, points, sommets et centres. Cependant, pour nous, données et représentants sont denature di�érente par le rôle qu'ils jouent : les représentants représentent les données.

3.3 Liens avec la Quanti�cation Vectorielle

Les approches SCL que nous avons vues sont basées sur deux types de voisinages : le voisinagedes k-Plus-Proches-Voisins (k-PPV), et le voisinage Naturel. Nous dé�nissons ces deux voisinages.

3.3.1 Voisinage des k-Plus-Proches-Voisins

Considérant un ensemble �ni w de n points d'un espace Euclidien E, le voisinage des k-PPVd'un point v 2 E est l'ensemble des k points de w les plus proches de v :

49

Chapitre 3. Voisinage et topologie

(a) (b)

Fig. 3.2 � Régions d'iso-activation : considérant le voisinage utilisé pour le Neural-Gas Im-plicite ou le SCS en (a), la valeur de la fonction de voisinage du représentant en gris est identiquequelque soit sa position sur le cercle centré sur la donnée. Considérant le voisinage utilisé parle Neural-Gas en (b), la valeur de la fonction de voisinage du même représentant est identiquequelque soit sa position dans l'anneau en gris clair.

Dé�nition 3 Voisinage des k-Plus-Proches Voisins

KPPV(k;w)(v) = fwi 2 w jnX

q=1

H(di � dq) � kg (3.2)

avec 8i 2 (1; : : : ; n); di = kv � wik et H est la fonction d'Heaviside :

8u 2 IR; H(u) =

(1; u � 00; u < 0

(3.3)

Un voisinage de type k-PPV est utilisé dans le SCS, le Neural-Gas Implicite et le Neural-Gas.Dans tous les cas, l'activation des représentants (i.e. la valeur de leur fonction de voisinage) estdécroissante lorsque leur distance avec la donnée croît. La région d'iso-activation d'un représen-tant est une hypersphère centrée sur la donnée pour le SCS et le NG Implicite (�gure 3.2 (a)),ou la région comprise entre deux hypersphères centrées sur la donnée (i.e. la région où le rang dureprésentant considéré ne change pas) pour le Neural-Gas (�gure 3.2 (b)). Dans le SCS et le NGImplicite, l'activation d'un représentant dépend de sa position par rapport à v dans E (pas dedécouplage) tandis que dans le NG, elle dépend de sa position dans le classement (découplage).

3.3.2 Triangulation de Delaunay et Voisinage Naturel

Un moyen de dé�nir un voisinage est de créer des liens entre représentants voisins. L'ensemblede ces liens forment un graphe. Nous présentons ici un graphe particulier appelé triangulation deDelaunay qui dé�nit un voisinage utilisé par certains algorithmes de quanti�cation vectorielle.

Triangulation de Delaunay

On peut dé�nir un grand nombre de triangulations di�érentes d'un ensemble de points, maisil en existe une dé�nie de manière unique appelée triangulation de Delaunay [145] [76][15] en

50

3.3. Liens avec la Quanti�cation Vectorielle

nnd 2 3 4 5 6 7 8 9 10 15 20

10 10 102 102 103 103 104 104 105 105 108 1010

102 102 104 104 106 106 108 108 1010 1010 1016 1020

103 103 106 106 109 109 1012 1012 1015 1015 1024 1030

Tab. 3.1 �Ordre de grandeur de la complexité de calcul au pire cas de la Triangulationde Delaunay de n sommets en d dimensions

référence aux travaux de Delaunay [51]. La d-triangulation de Delaunay (TD) que nous appelonspar abus de langage triangulation de Delaunay, est la struture duale du diagramme de Voronoï[188] (parfois appelé diagramme de Thiessen en référence à Thiessen qui a appliqué ces dia-grammes en analyse de données [177], ou mosaïque de Dirichlet [172]) : deux représentants dontles régions de Voronoï ont une frontière commune, sont liés par une arête de la triangulation deDelaunay. Comme le diagramme de Voronoï d'un ensemble de points est unique, la triangulationde Delaunay l'est aussi sauf dans des cas particuliers dégénérés, lorsque d+2 points sont co-hyper-sphériques et k + 2 points sont sur un même k-plan pour k < d [76]. On dit que les points sonten position générale lorsque l'on est dans le cas non dégénéré. Notons aussi que la triangulationobtenue par cette règle est une ds-triangulation où ds est la dimension du plus petit sous-espacepouvant contenir les représentants : par exemple, si d = 100 mais que les représentants sont toussitués dans un sous-espace de dimension ds = 3, alors les facettes principales de la triangulationde Delaunay sont des tétraèdres.

Une propriété importante de cette triangulation est que toute hyper-sphère circonscrite àl'une de ses facettes principales, ne contient aucun autre sommet que ceux de cette facette. Lessommets du diagramme de Voronoï sont les centres de ces hyper-sphères appelées �hyper-sphèresde Delaunay�.

Comme E est Euclidien (donc connexe), le graphe correspondant à la triangulation de De-launay est connexe et relie tous les sommets. Toutes les facettes frontières de l'enveloppe convexede ces sommets font partie de cette triangulation.

La �gure 3.3 présente ces propriétés.

La complexité en temps au pire cas pour calculer la triangulation de Delaunay (ou le dia-gramme de Voronoï du fait de leur dualité) d'un ensemble de n points en position générale dansun espace à d dimensions est, avec l'algorithme �incrémental randomisé�[76][42] : O(n:log(n))

pour d � 2 et O(ndd2e) pour d � 3. Le nombre de facettes principales de la triangulation de

Delaunay, i.e. le nombre de sommets du diagramme de Voronoï, peut être (ndd2e). Il faut noter

que chercher les voisins naturels d'un unique sommet peut nécessiter dans le pire cas, autantd'opérations que pour la construction de la triangulation complète, puisqu'il s'agit de connaîtreà quelles sphères de Delaunay ce point appartient, et que chaque centre de ces sphères étant un

sommet du diagramme de Voronoï, leur nombre est en O(ndd2e).

La complexité est exponentielle avec la dimension. Le tableau 3.1 donnent les ordres degrandeurs de cette complexité en fonction de la dimension d et du nombre de sommets n :

Notons qu'il s'agit de la complexité au pire cas. A l'autre extrême, lorsque les points sont issusd'une distribution uniforme à l'intérieur d'une d-boule, Dwyer a montré [60] que la complexitépour calculer le diagramme de Voronoï est en O(n) pour d �xé. Il s'agit d'un cas particulier bienpeu susceptible d'être rencontré en pratique.

51

Chapitre 3. Voisinage et topologie

(a) (b)

Fig. 3.3 � Triangulation de Delaunay : (a) la triangulation de Delaunay d'un ensemble desommets relie (traits forts) tout couple de sommets (points blancs) dont les régions de Voronoïsont adjacentes (traits �ns). Le cercle circonscrit à chaque triangle de cette triangulation (lak � 1-sphère pour le k-simplexe d'une k-triangulation) a pour centre un sommet du diagrammede Voronoï (points noirs). Il est vide de tout autre sommet, et appelé cercle de Delaunay (grandscercles gris). (b) tout nouveau sommet (large point blanc) a pour voisins naturels, les sommets(cercles gris) déjà présents dont l'un des cercles de Delaunay (grands cercles pointillés) auquelils appartiennent contient ce nouveau point. Certains liens sont supprimés et de nouveaux sontcréés en particulier entre le nouveau sommet et ses sommets voisins naturels. En gris clair, larégion de Voronoï du nouveau sommet inclus dans l'ensemble des sommets.

52

3.3. Liens avec la Quanti�cation Vectorielle

Voisins Naturels

Considérant un ensemble �ni w de points d'un espace Euclidien E, nous appelons voisinsnaturels d'un point v 2 E, les points de w dont la région de Voronoï dé�nie sur l'ensemblew [ fvg a au moins un point commun avec celle de v, cela correspond dans le cas général, auxsommets liés à v par une arête de la TD dé�nie sur l'ensemble w [ fvg dans l'espace E. Levoisinage naturel (VN) d'un point v est l'ensemble des voisins naturels de ce point :

Dé�nition 4 Voisinage Naturel

V N(w)(v) = fwi 2 w j Vw[fvg(v) \ Vw[fvg(wi) 6= ;g (3.4)

Le nom de voisins naturels est donné par Sibson [173], Attali et Boissonnat [6] utilisent aussile terme de voisins de Delaunay.

3.3.3 Triangulation Induite de Delaunay et Voisinage Naturel Induit

Triangulation Induite de Delaunay

Martinetz [132] propose un algorithme de construction de ce qu'il appelle la triangulationinduite de Delaunay (TID) d'un ensemble de représentants. L'algorithme appelé �CompetitiveHebbian Learning� (CHL) crée un lien entre le plus proche et le deuxième plus proche représentantd'une donnée. Lorsque les représentants sont �xes et que toutes les données disponibles ont étéprésentées, la structure obtenue (la TID) est une partie de la triangulation de Delaunay de cesreprésentants dont tous les liens sont dans ou au voisinage de la distribution des données qui lesont créés.

Une autre dé�nition de la TID est proposée par Edelsbrunner et Shah [67] qui la dé�nissentcomme l'ensemble des liens tels que les représentants extrémités de chacun, sont voisins naturelset l'intersection de la frontière commune à leurs régions de Voronoï avec la collection de variétéssupports n'est pas vide. Cette dé�nition impose la connaissance de l'expression analytique desvariétés supports de la distribution et celle des régions de Voronoï. Elle n'est pas utilisable enpratique lorsque ces variétés sont justement ce que l'on cherche à modéliser, et le diagrammede Voronoï ce que l'on veut éviter de construire en grande dimension. Dans la suite, nous nousréfèrerons exclusivement à la dé�nition de Martinetz construite avec le CHL. La �gure 3.4 illustreles deux dé�nitions.

Voisinage Naturel Induit

On peut dé�nir le Voisinage Naturel Induit (VNI), qui à tout représentant associe les représen-tants voisins liés par une arête de la triangulation induite de Delaunay :

Dé�nition 5 Voisinage Naturel Induit

V NI(w;D)(wi)=nwj2w j 9v2D; v2fVw(wi)\Vwnwi

(wj)g[fVw(wj)\Vwnwj(wi)g

o(3.5)

Triangulation Induite de Delaunay et échelle d'observation

Martinetz et Schulten [133] associent l'algorithme du CHL avec le Neural-Gas et créent unréseau représentant la topologie de la distribution (TRN pour "Topology Representing Net-work"). Cette approche se base sur le fait que la TID a une dimension intrinsèque variable quidépend de la dimension intrinsèque locale de la distribution, donc elle fournit une collection de

53

Chapitre 3. Voisinage et topologie

(a) (b)

Fig. 3.4 � Triangulation Induite de Delaunay : (a) le CHL de Martinetz pose que pour toutpoint de la distribution (régions translucides cernées d'un trait �n non linéaire), les premier etdeuxième plus proches sommets sont reliés (traits forts). Il est équivalent de relier les sommetsvoisins naturels dont la frontière de Voronoï commune (trait �n) est incluse dans une région(régions grisées) dont l'intersection avec la distribution n'est pas vide. Ces régions grisées sontles régions de Voronoï d'ordre 2, elles sont en même nombre que les frontières des régions deVoronoï et que les liens de la triangulation de Delaunay. Un exemple de construction d'un lienà partir d'un point de la distribution est proposé. (b) l'approche de Edelsbrunner et Shah poseque si l'intersection entre les variétés supports de la distribution et la frontière des régions deVoronoï commune à deux ou plusieurs sommets est non vide, alors ces sommets sont liés. Onpeut observer la di�érence des TIDs obtenues avec les deux approches en remarquant le lienmanquant en (b).

54

3.3. Liens avec la Quanti�cation Vectorielle

n = 1 n = 3 n = 7

n = 20 n = 30 n = 100

Fig. 3.5 � Triangulation Induite de Delaunay et échelle d'observation : représentationd'une 1-variété (trait continu) par quanti�cation vectorielle de la distribution bruitée observéeissue de cette variété (points), puis construction de la TID, avec un nombre n croissant dereprésentants (cercles). En trait continu, la variété réelle. Avec n = 1 ou n = 3 représentants, laTID donne un modèle trop simple de la variété réelle. Avec n = 7 représentants, la TID a la mêmetopologie que la variété réelle est représente assez �dèlement ses non-linéarités. Avec davantage dereprésentants, la topologie de la TID se dégrade, capture le bruit et donc se rapproche de la variétésupport de la distribution (n = 20), puis tend vers une collection de 0-variétés non connexescomme les données de départ (n = 30 et n = 100). n permet de régler l'échelle d'observation.Sans connaissance de la topologie des variétés réelles, il n'existe pas de critère objectif pourdéterminer une �bonne� valeur de n.

variétés de topologie proche de celle des variétés supports de la distribution. Cependant, commenous l'avons vu dans le chapitre d'introduction, la dimension locale de la distribution dépendde l'échelle d'observation. Un moyen de régler l'échelle d'observation est de régler le nombre dereprésentants : plus il y a de représentants plus la triangulation est �ne comme le montre la �gure3.5. Cependant, aucun critère objectif ne permet de décider a priori de l'échelle d'observation,i.e. ici du nombre de représentants. Nous revenons sur cette approche et sur d'autres à la �n duchapitre 5.

Techniques de QV utilisant le voisinage naturel

Dans le TRN [133], le NG place les représentants sur la distribution tandis que le CHL apprendsa topologie. Comme les représentants changent de position, certains liens de voisinage construitsne correspondent plus à la TID au cours de l'apprentissage. Pour maintenir une structure devoisinage proche de la TID à chaque itération, un âge est attribué à chaque lien et un lien estrafraîchi (son âge remis à zéro) lorsque l'une de ses extrémités est un représentant gagnant.Lorsque l'âge d'un lien dépasse un âge limite, le lien est supprimé. Si les représentants sont �xes

55

Chapitre 3. Voisinage et topologie

lors de l'utilisation du CHL, alors tous les liens construits forment la TID et donc font partiedes liens de la triangulation de Delaunay des représentants dans l'espace des données. Dans lecas de cet algorithme, le voisinage naturel n'est pas utilisé pour le placement des représentants,mais seulement pour représenter la topologie de la distribution.

Le voisinage naturel est réellement utilisé dans les SOMs et dans le GNG sous sa formeinduite. Dans les SOMs, il est généralement dé�ni3 dans l'espace de la carte où les régions deVoronoï de représentants liés sont adjacentes : les représentants sont voisins naturels les uns desautres dans cet espace comme on s'en convainc en traçant les régions de Voronoï des maillagesprésentés sur la �gure 2.3. Dans le GNG, la structure de voisinage construite par le CHL approchela TID qui est une sous-partie de la triangulation de Delaunay des représentants dans l'espace desdonnées, les représentants Voisins Naturels Induits de la TID sont voisins naturels de l'espace desdonnées. Il y a découplage dans les deux cas entre espace des données et espace des représentants,car la distance est calculée sur le graphe de connexions de la TID des GNG, ou dans l'espace dela carte des SOMs.

On peut imaginer deux autres voisinages en QV, basés directement sur la triangulation deDelaunay et donc sur le Voisinage Naturel, et que nous appelons Delaunay1 et Delaunay2. PourDelaunay1, on calcule à chaque itération, la triangulation de Delaunay de l'ensemble w desreprésentants. Cette triangulation est utilisée à la manière d'une carte de Kohonen ou de la TIDd'un GNG mais représente toujours la topologie des représentants dans l'espace des données.Pour Delaunay2, on calcule la TD de l'ensemble w [ v, que l'on utilise de la même manière queDelaunay1. La di�érence entre Delaunay1 et Delaunay2, réside en ce que dans Delaunay1, lecentre du voisinage est le plus proche représentant de la donnée, tandis que dans Delaunay2,la donnée faisant elle-même partie du voisinage, elle en est le centre. Les �gures 3.6 (c) et (d)illustrent ces deux voisinages.

3.3.4 Comparaison qualitative des di�érents voisinages pour le SCL

Les di�érents voisinages vus jusqu'à présent, peuvent être classés en fonction des caractéris-tiques suivantes : (en (gras) les intitulés et en (italique) les abréviations utilisées dans le tableau3.2) :

� Espace (Espace) : l'existence d'un espace topologique séparé de l'espace des données, danslequel est dé�nie la fonction de voisinage : l'espace des données lui-même (Données), unespace séparé (Séparé) ou un graphe de proximité : Delaunay (TD).

� Topologie (Topo.) : la topologie de cet espace séparé s'il existe : sa dimension intrinsèque(1, 2, di ou d) et sa connectivité : connexe (c) ou non connexe (nc).

� Centre (Centre) : le centre du voisinage : la donnée elle-même (donnée) ou son plus-prochevoisin (ppv).

� Nombre de voisins (Nb. vois.) : le nombre de représentants directement voisins du centredu voisinage dans le cas général (i.e. hors e�ets de bord ou cas dégénérés) fonction de ladimension d (fd) ou di (fdi).

� Taille (T. min/max) : la taille du voisinage minimale et maximale.� Fonction de voisinage (Fn. vois.) : la fonction de voisinage : binaire comme pour les k-PPV(bin) ou exponentielle décroissante comme pour le Neural-Gas (noyau Gaussien) (exp).

Tous ces voisinages sont représentés sur la �gure 3.6.

En pratique, les voisinages basés sur la triangulation de Delaunay (�Delaunay1� et �Delau-nay2�), n'ont jamais été envisagés en QV, peut-être en raison de leur grande complexité en

3simplement en raison de la répartition régulière des représentants dans l'espace de la carte donc sans nécessitédu calcul explicite de leur TD ou de leur diagramme de Voronoï.

56

3.4. Problèmes

Nom Espace Topo. Centre Nb.vois.

T.min.

T.max.

Fn.vois.

SCS Données d c donnée 1 1 n exp

KPPV Séparé 1 c donnée 1 1 n bin

NG Séparé 1 c donnée 1 1 n exp

NG implicite Données d c donnée 1 1 n exp

SOM 1D Séparé 1 c ppv 2 1 n exp

SOM 2D hexa. Séparé 2 c ppv 6 1 n exp

SOM 2D carré Séparé 2 c ppv 4 ou8

1 n exp

Delaunay1 TD w d c ppv fd 1 n exp

Delaunay2 TD w [ v d c donnée fd fd n exp

Delaunay induit TD induite di nc ppv fdi 1 n exp

Tab. 3.2 � Caractéristiques des voisinages utilisés en quanti�cation vectorielle.

nombre d'opérations et place mémoire, ou parce qu'ils ne permettent ni une réduction de dimen-sion comme les cartes de Kohonen, ni la représentation de la topologie de la distribution commela TID.

Les voisinages non découplés de l'espace des données (SCS et NG implicite) peuvent êtredi�ciles à contrôler (réglage des paramètres) pour éviter le collage des représentants.

Les voisinages des SOMs, du NG ou des k-PPV, ont une dimension �xe indépendante de cellede la distribution.

Une version constructive a été envisagée pour le Neural-Gas avec le Growing Neural-Gasbasé sur la TID et le Growing Cell Structure construisant des k-triangulations (k prédé�ni) deFritzke [80][81][82] [83], pour les cartes de Kohonen [84][186] dont on adapte la dimension et lenombre de représentants mais dont la structure reste connexe et hyper-cubique. Parmi toutesces approches, le GNG est le plus �exible puisqu'il permet d'adapter en cours d'apprentissage,le nombre de représentants, et grâce à la TID, la dimension et la connexité du maillage.

Le voisinage �Delaunay2� centré sur la donnée ne se ramène pas au HCL en �n d'apprentissagepuisque le plus petit voisinage obtenable est constitué de l'ensemble des voisins naturels de ladonnée, donc ne se réduit pas à son seul plus proche voisin.

Les voisinages �Delaunay1� et �Delaunay induit� ne sont pas centrés sur la donnée.

Dans le voisinage Delaunay induit utilisé dans le GNG, seuls les voisins directs du plus-prochevoisin de la donnée sont considérés. La raison en est probablement que le calcul d'une distancesur un graphe est relativement coûteux surtout lorsque ce graphe a une structure dynamiqueet donc qu'il faut e�ectuer ce calcul à chaque itération. Au contraire, la distance sur le graphedes SOMs étant �xe, toutes les distances entre représentants peuvent être calculées à l'avance.Quant à la distance sur le graphe linéaire du NG, elle est directement donnée par le classement desreprésentants). La même remarque s'appliquerait aux autres graphes basés sur la triangulationde Delaunay s'ils étaient utilisés.

3.4 Problèmes

La TD dé�nit géométriquement les voisins d'un point dans toutes les directions de l'espacesans nécessiter de paramètres supplémentaires, tandis que les k-PPV imposent le choix de k apriori et ce choix dépend à la fois de la dimension intrinsèque de la distribution et de la largeur

57

Chapitre 3. Voisinage et topologie

Fig. 3.6 � Di�érents voisinages : Pour une position des représentants (larges disques) et unedonnée v (point noir), le diagramme de Voronoï est tracé en traits �ns et les liens de voisinageen traits forts. En (a) le voisinage des k-PPV utilisé dans le Neural-Gas ; en (b) une carte deKohonen ; en (c) Delaunay1 (TD des représentants) ; en (d) Delaunay2 (TD des représentants etde la donnée). En (b) et en (c), le centre du voisinage est le plus proche voisin de la donnée. En(a) et (d), le centre du voisinage est la donnée elle-même. En (a), les voisins n'entourent pas ladonnée et le voisinage est uni-dimensionnel, tandis qu'en (d), les voisins entourent toujours ladonnée, le voisinage est d-dimensionnel.

du voisinage désiré.

Cependant, les k-PPV sont très simples à calculer (complexité O(n�(d+log(n))) là où le calculet la mémorisation de la TD est di�cile à envisager dans les espaces de dimension supérieure à5 (au pire cas de l'ordre du million d'opérations avec 100 points, et du milliard avec 1000 pointsen dimension 5, à chaque itération). La TID est plus facile à construire mais ces liens ne sontpas toujours valides en raison de leur âge limite di�cile à dé�nir, et peuvent créer des voisinagestrès larges ne correspondant pas à la topologie de l'espace des données.

On remarque aussi que le choix de k permet de régler la taille du voisinage des k-PPVs enmodi�ant la connexité de son graphe de proximité (le graphe obtenu en liant chaque sommetavec ses k-plus-proches voisins). Tandis qu'aucun paramètre structurel du voisinage naturel nepermet d'en régler la taille, la connexité de son graphe de proximité (la TD) est unique pourun jeu de représentants et une donnée. Les approches utilisant le voisinage naturel, dé�nissentdonc la taille du voisinage à partir du graphe de proximité correspondant, en se basant sur ladistance sur le graphe entre deux sommets. Cela implique le calcul des distances sur le graphes(Algorithme de Dijkstra en O(A:log(n)) avec A le nombre d'arcs du graphe) en plus du calculdu représentant gagnant O(d:n). La �gure 3.7 illustre les di�érentes approches4.

Si l'on dé�nit le centre du voisinage, comme le lieu dont sont équidistants5 tous les représen-tants ayant la même activation, alors le centre du voisinage n'est pas la donnée dans les approchesutilisant les voisins naturels puisque c'est le représentant le plus proche de la donnée qui en faito�ce. Tandis que la donnée est au centre du voisinage des k-PPVs. Nous suggérons alors que,puisqu'en QV les représentants du voisinage se déplacent vers la donnée, ce devrait être lesvoisins de la donnée qui se déplacent vers elle, et non les voisins de son meilleur représentant (legagnant). La �gure 3.7 présente les deux cas.

Nous allons donc poser les hypothèses de base d'un nouveau voisinage qui aurait la simplicité

4en fait pas si di�érentes si l'on considère qu'un graphe représente la topologie d'un espace particulier dont ilest un modèle discret, et donc dé�nir la taille du voisinage par une distance sur le graphe, c'est dé�nir son étenduepar une distance dans cet espace comme on le fait avec les k-PPV dans l'espace des données.

5équidistance dé�nit en terme des distances utilisées pour déterminer l'activation (distances sur le graphe pourles cartes de Kohonen ou le GNG, dans l'espace d'entrée pour les k-PPVs)

58

3.4. Problèmes

Fig. 3.7 � Réglage de la taille et centre du voisinage : voisinage (cercles gris) d'une donnée(point noir) parmi les représentants (cercles blancs). Les traits forts correspondent à la structuredu graphe de voisinage. En haut, le cas du voisinage des k-PPV, la taille est indissociable de lastructure du voisinage que l'on peut modi�er. En bas, une carte de type Kohonen est un graphedont la structure est �gée (traits �ns), la taille du voisinage est réglée en dé�nissant une distanceseuil sur le graphe. En haut, le centre du voisinage est la donnée, tandis qu'en bas, c'est sonreprésentant le plus proche (disque gris cerclé de blanc).

des k-PPV en terme de types d'opérations impliquées, et des propriétés proches de la TD.

Nous supposons qu'un voisinage intéressant pour la quanti�cation vectorielle devrait être :

� découplé de l'espace des données pour éviter le collage des unités. Cela permettrait desimpli�er le réglage de la taille du voisinage au cours de l'adaptation, puisque le collagedes unités serait évité structurellement ;

� de dimension égale à celle de l'espace des données pour que tous les représentants qui"entourent" une donnée de la distribution soient attirés par elle. En e�et, la structure eten particulier la dimension intrinsèque de la distribution sont inconnues a priori, il ne seraitdonc pas souhaitable de contraindre le voisinage en lui imposant a priori une dimensionintrinsèque particulière qui ne correspondrait pas à celle de la distribution et pourraitdiminuer l'e�cacité de l'adaptation en terme de vitesse de convergence ;

� centré sur la donnée parce que c'est la donnée qui attire ses représentants voisins verselle et non son plus proche voisin. Les algorithme du Neural-Gas et du SCS utilisent desvoisinages de type k-PPV centrés sur la donnée, tandis que les cartes de Kohonen et leGNG centrent leur voisinage de type naturel sur le plus proche voisin de la donnée. Iln'existe pas à notre connaissance, de justi�cation théorique pour le choix du centre duvoisinage, il nous semble cependant que le choix du plus proche voisin comme centre dansles voisinages de type naturel ne soit justi�é que par la simpli�cation qu'il apporte dans lamise en oeuvre de ces algorithmes ;

� réductible à un HCL pour que les conditions d'optimalité de Lloyd soient réunies et quepuisse s'appliquer le résultat de Zador [201] sur la convergence vers une densité des représen-tants proche de celle de la distribution ;

� aisé à calculer, dans le sens où les gains potentiels obtenus en terme de vitesse de con-

59

Chapitre 3. Voisinage et topologie

vergence en nombre d'itérations, compensent au moins les pertes éventuelles en temps decalcul nécessaire à chaque itération.

3.5 Conclusion

Nous avons vu et décrit deux types de voisinages qui prédominent dans les techniques deQuanti�cation Vectorielle. Les k-PPV sont simples à calculer donc à la base de plusieurs algo-rithmes. Les Voisins Naturels plus complexes à mettre en oeuvre, apparaissent indirectementdans les cartes de Kohonen, et de manière approchée dans la Triangulation Induite de Delaunayutilisée par le GNG.

Nous allons dé�nir un nouveau voisinage appelé Voisinage -Observable, dont les propriétéssont proches de celles des voisins naturels : voisinage de dimension l'espace des données etinclusion dans le voisinage naturel pour � 0:5, mais centré sur la donnée et de taille réglabledu plus proche représentant de la donnée à tous les représentants, comme les k-PPV, et dont lacomplexité des calculs mis en oeuvre est aussi simple que celle des k-PPV, de manière à pouvoiraussi utiliser cette technique en grande dimension. Nous montrerons que sa complexité au pirecas est O(d:n2).

60

Chapitre 4

Voisinage -Observable

61

Chapitre 4. Voisinage -Observable

4.1 Introduction

L'étude du voisinage des k-Plus-Proches-Voisins et du voisinage Naturel, les deux types devoisinages principalement utilisés en Quanti�cation Vectorielle, nous a montré qu'il serait in-téressant de dé�nir un voisinage intermédiaire.

Dans ce chapitre, nous dé�nissons un tel voisinage que nous appelons voisinage -Observabledans [11], et présentons ses propriétés géométriques de base.

4.2 Origine

Ce voisinage trouve son origine en particulier dans les constatations suivantes :Beaucoup de liens de la triangulation de Delaunay sont coupés en leur milieu par la frontière

commune aux régions de Voronoï de leurs sommets extrémités. Cette propriété découle de lasuivante : soit I le milieu d'un segment liant deux sommets d'un ensemble de sommets, si cesdeux sommets sont les deux plus proches voisins de I, alors I est à la fois dans la régions deVoronoï de chacun d'eux, donc sur leur frontière commune, et donc ce segment fait partie dela triangulation de Delaunay de l'ensemble des sommets. La réciproque est fausse : le milieud'un segment élément de la triangulation de Delaunay d'un ensemble de sommets, n'est pasnécessairement sur la frontière commune aux régions de Voronoï de ses extrémités.

Véri�er l'appartenance d'un point à la région de Voronoï d'un sommet correspond à véri�erque ce sommet est le plus proche de ce point. Lorsque ce point est au milieu d'un segment, ilsu�t que l'une des deux extrémités de ce segment soit le plus proche voisin de ce point pour quel'autre le soit aussi et que les deux extrémités soient voisines naturelles l'une de l'autre (�gure4.1 (a)). Il est donc possible par une simple recherche de distance minimale, de construire unepartie des liens de la triangulation de Delaunay, et en particulier de trouver une partie des voisinsnaturels d'un sommet donné parmi tous les autres.

Si au lieu de considérer le milieu du segment entre deux sommets, on prend tout point dece segment (�gures 4.1 (b-d)) , alors nous montrons qu'il est possible de dé�nir un nouveauvoisinage qui répond à nos attentes. Nous dé�nissons formellement ce voisinage et étudions sespropriétés dans la suite.

4.3 Dé�nition

Nous dé�nissons le voisinage -Observable d'une donnée v illustré sur la �gure 4.1, commesuit : soient un ensemble de représentants distincts w = (w1; : : : ; wn) dans un espace EuclidienE, v une donnée de E et un réel compris entre 0 et 1. Le Voisinage -Observable V GO( ;w) dev est dé�ni sur w par :

Dé�nition 6 Voisinage -Observable

V GO( ;w)(v) = fwi 2 w j vi 2 Vig avec vi = wi + (1� )v (4.1)

Un point wi est voisin -observable de v si et seulement si le point intermédiaire vi est dansla région de Voronoï Vi de wi dé�nie sur l'ensemble w.

Le voisinage -Observable (VGO) d'un point v est l'ensemble des voisins -observables de cepoint. Considérant la dé�nition 6, nous avons :

Conséquence 1V GO(0;w)(v) = fw�(v)g (4.2)

62

4.3. Dé�nition

(a) = 0:5 (b) 2 [0; 1] (c) = 0:25 (d) = 0:75

Fig. 4.1 � Principe du voisinage -Observable : (a) parmi les voisins naturels (disques blancsou gris) d'un représentant (disque noir), il en existe (en gris) tels que le segment qui les lie à lui,coupe la frontière commune à leurs régions de Voronoï (traits continus). Le point d'intersection(petit disque gris) appelé point intermédiaire, est le milieu de ce segment, il est aussi un pointqui appartient aux régions de Voronoï adjacentes des extrémités de ce segment, donc un pointde la région de Voronoï telle qu'elle serait si le représentant considéré était supprimé (traitspointillés). (b) Si au lieu de considérer le milieu de ces segments, on peut en considérer toutpoint, alors on détermine le Voisinage -Observable d'un point (disque noir), qui contient tousles représentants dont le point intermédiaire est dans la région de Voronoï dé�nie sur l'ensembledes représentants seuls (traits continus). La position du point intermédiaire est réglée par lavaleur de . (a) correspond au cas où = 0:5. En (c-d) deux autres exemples avec = 0:25 et = 0:75.

= 0 = 0:5 = 0:8 = 1

Fig. 4.2 � Voisinage -Observable : représentants voisins -observables (disques noirs) de ladonnée (disque au contour gras) parmi un ensemble de représentants (disques blancs ou noirs),pour di�érentes valeurs de .

ce qui signi�e que pour = 0, seuls les représentants w� les plus proches de v sont voisins -observables de v. En général, w� est unique sauf lorsque v se trouve sur la frontière des régionsde Voronoï.

Par ailleurs, nous avons :

Conséquence 2

V GO(1;w)(v) = w (4.3)

ce qui signi�e que pour = 1, tous les représentants sont voisins -Observables de v. Cesconséquences sont immédiates en utilisant la dé�nition 6.

Régler entre 0 et 1 permet de régler la taille du voisinage V GO entre 1 (le plus-prochevoisin) et n (tous les représentants). Ce voisinage peut donc être utilisé dans une approche SCL.

La �gure 4.2 montre le voisinage -observable d'un point pour di�érentes valeurs de pourun même ensemble de 100 représentants uniformément répartis dans le carré unité.

63

Chapitre 4. Voisinage -Observable

4.4 Analogie du concert de plein-air et problème de visibilité

Le voisinage Naturel basé sur les régions de Voronoï permet de modéliser des phénomènesnaturels de croissance ou de di�usion cellulaires [145] : les bulles de savon, les colonnes basaltiques,les craquelures dans un sol asséché, les nervures sous les feuilles des arbres. . .

Le voisinage des k-Plus-Proches Voisins se rapproche de l'analogie gravitationnelle : l'attrac-tion gravitationnelle entre deux corps est proportionnelle au produit de leur masse et inversementproportionnelle au carré de la distance les séparant, un corps est donc d'autant plus attiré parun autre qu'il en est proche. Les k plus forts attracteurs sont aussi, à masses égales, les k plusproches voisins d'un point grave.

Le voisinage -Observable est une solution du problème du �concert de plein-air� qui est posécomme suit : soit une foule de spectateurs répartis aléatoirement autour de la scène d'un concertde plein-air, quels sont ceux qui peuvent voir le visage du chanteur ?

On suppose ici des spectateurs et un chanteur de même taille, et un sol plan. La possibilitépour un spectateur de voir le visage du chanteur, dépend de deux paramètres : la hauteur dela scène et la présence entre le spectateur et elle d'un autre spectateur qui lui masque la vue.Plus cet autre spectateur est proche de lui, plus la scène doit être haute pour qu'il puisse voir levisage du chanteur, ou que le sien soit observable par le chanteur ce qui est équivalent. C'est decette analogie qu'est issue le nom de ce voisinage.

Les spectateurs dont le visage peut être observé par le chanteur depuis la scène pour unehauteur donnée de celle-ci, sont ceux qui appartiennent à son voisinage -Observable. Dans cetteanalogie, le point du sol situé à la vertical du chanteur correspond à la donnée, et les points ausol à la verticale des spectateurs sont les représentants. règle la hauteur de la scène et donc lataille du voisinage.

La dé�nition du voisinage -Observable est la solution de problèmes particuliers de visibil-ité rencontrés en géométrie algorithmique et dans les Systèmes d'Information Géographiques[50][68][174]. Considérant une triangulation de n sommets dans le plan, et pour chaque sommetune hauteur associée (on peut imaginer cette triangulation comme un paysage montagneux con-stitué de facettes triangulaires), un problème de visibilité consiste à déterminer quels sommetsde la triangulation sont visibles d'un sommet donné, i.e. la ligne droite liant deux sommets vis-ibles l'un de l'autre ne traverse aucune facette de la triangulation. Ces problèmes sont d'unegrande complexité au pire cas, puisque dans le cas général, il n'y a d'autre choix que de contrôlerexhaustivement l'ensemble des facettes de la triangulation, dont on a vu l'importance de leurnombre dans la triangulation de Delaunay.

Le voisinage -Observable est solution d'un problème de visibilité sur une famille de paysagestriangulés particuliers dont les sommets sont à deux hauteurs di�érentes : la plus basse (niveau deréférence) pour tous les représentants et la plus haute (à une hauteur h0 au-dessus de la première)pour tous les sommets du diagramme de Voronoï de ces représentants. La triangulation considéréeest constituée des frontières des régions de Voronoï et des liens entre chaque représentant et lessommets de sa région de Voronoï. Triangulation et régions de Voronoï sont dé�nies dans le plande référence et non dans l'espace produit du plan de référence et de l'axe des hauteurs. La �gure4.3 illustre ce problème de visibilité.

Le point à observé v0 (le visage du chanteur) se situe à une hauteur h au-dessus du niveaudu sol, à la verticale du point v dans ce plan. Un écran de hauteur h0 érigé sur les frontièresdes régions de Voronoï entoure chaque spectateur modélisant ses spectateurs voisins naturels luimasquant la vue. Pour qu'un représentant (le visage d'un spectateur) wi puisse voir v0, il fautque la ligne de vue joignant v0 à wi passe au-dessus de l'écran entourant ce représentant à lahauteur h0 à la verticale du point qi (�gure 4.3 (b)). Cela correspond à une hauteur limite Hi à

64

4.5. Taille du voisinage

(a) (b)

Fig. 4.3 � Voisinage -Observable et problème de visibilité : le Voisinage -Observablepeut être vu comme la solution d'un problème particulier de visibilité sur une triangulation. (a)La triangulation considérée est constituée des segments frontières des régions de Voronoï et dessegments liant tout représentant aux sommets du diagramme de Voronoï centres de cercles deDelaunay passant par eux. (b) Les représentants sont au niveau de référence et les sommets dudiagramme de Voronoï à une hauteur h0 au-dessus de ce niveau. La donnée v0 est à une hauteurh = h0

1� au-dessus du niveau de référence. Si le segment liant v0 à un représentant ne rencontreaucune facette principale de la triangulation, alors ce représentant est un voisin -observable dev dans le plan de référence. C'est le cas de tous les représentants ici sauf de celui cerclé en gras.

laquelle la hauteur h doit être supérieure. Sachant que l'on a h � h0, la condition suivante doitdonc être valide (Théorème de Thalès) :

h � Hi , h � kv � wikkqi � wik � h0 (4.4)

Si l'on pose = h�h0h , alors on obtient dans 4.4 :

h � Hi , (1� ) � (kv � wik) � kqi � wik (4.5)

et en dé�nissant vi = � wi + (1� ) � v on obtient :

h � Hi , kvi � wik � kqi � wik , vi 2 Vi (4.6)

C'est la dé�nition du voisinage -Observable. Les représentants dont le visage est observablepar le chanteur v0 pour une hauteur h = h0

1� de celui-ci font partie du voisinage -observable dev.

Trouver les voisins -observables de la donnée, résout le problème de visibilité associé enO(d:n2) opérations, complexité que nous déterminons au chapitre 6.

4.5 Taille du voisinage

4.5.1 Propriété d'inclusion

Propriété 1 Inclusion

8( 0; 1) 2 [0; 1]2;8v 2 E; ( 1 � 0), V GO( 0;w)(v) � V GO( 1;w)(v) (4.7)

65

Chapitre 4. Voisinage -Observable

Fig. 4.4 � Taille du voisinage -Observable : taille du voisinage -Observable du centre vd'un d-cube unité parmi n points répartis uniformément dans ce d-cube, en fonction de d et pour n = 100 à gauche et n = 1000 à droite.

La propriété 1 assure que toutes choses égales par ailleurs, la taille du voisinage -ObservableV GO croît avec .

Démonstration 1 Inclusion

Soit 8 j 2 [0; 1]; vi;j = jwi + (1� j)v, on a alors les équivalences suivantes :

8( 0; 1) 2 [0; 1]2; ( 1 � 0) , (1� 1)kv � wik � (1� 0)kv � wik, kvi;1 � wik � kvi;0 � wik, (vi;0 2 Vi ) vi;1 2 Vi),�wi 2 V GO( 0 ;w)(v)) wi 2 V GO( 1 ;w)(v)

�,�V GO( 0;w)(v) � V GO( 1;w)(v)

�2

4.5.2 Evolution de la taille en fonction de et de la dimension d

Pour = f0; 0:1; : : : ; 0:9; 1g, nous avons calculé la taille du voisinage -Observable d'unpoint v situé au centre de l'hypercube unité de dimension d, en considérant n = f100; 1000greprésentants aléatoires uniformément répartis dans cet hypercube. Les courbes présentées surla �gure 4.4 sont la taille normalisée moyenne sur 10 expériences avec di�érentes con�gurationsaléatoires des représentants.

Nous observons que la taille du voisinage -Observable n'augmente pas linéairement avec ,et pour un nombre n �xé de représentants, cette taille augmente d'autant plus vite avec quela dimension d est élevée.

En dimension d = 20, ce qui peut être considéré comme une grande dimension intrinsèquepour la modélisation de variétés, nous avons vu dans le chapitre d'introduction que les pointsd'un tel espace étaient en moyenne équidistants les uns des autres. Nous retrouvons ce phénomèneici.

Tout se passe comme si en moyenne les représentants étaient regroupés au voisinage dela surface d'une hyper-sphère centrée en v, or tous les points d'une hyper-sphère sont voisinsnaturels de son centre, et même voisins -observables de son centre pour toute valeur de . Ceci

66

4.6. Forme des régions d'in�uence

se démontre facilement en deux étapes : 1) les frontières des régions de Voronoï d'un ensemble�ni de points de la surface de l'hyper-sphère sont des hyperplans qui passent tous par le centre del'hyper-sphère. Les régions de Voronoï sont des secteurs angulaires de l'hyper-sphère. 2) Chaquerayon reliant un de ces points wi au centre v, est entièrement compris dans la région de VoronoïVi de ce point. Donc tout point vi de ce rayon est dans Vi, i.e. wi est -observable de v quelquesoit 2 [0; 1].

Plus la dimension augmente pour n �xé, plus les représentants sont proches de la surfaced'une hyper-sphère centrée sur v, plus ils peuvent êtres observables de v même pour de faiblesvaleurs de .

Plus n augmente pour d et �xé, plus les représentants se gènent mutuellement et donc plusle nombre de voisins -observables de v diminue.

4.6 Forme des régions d'in�uence

Nous dé�nissons la région d'in�uence RIN (wi) d'un représentant wi correspondant à unvoisinage N , comme la région contenant tous les points v de l'espace dont le voisinage N contientwi, soit :

Dé�nition 7 Région d'in�uence

8wi 2 w;RIN (wi) = fv 2 E j wi 2 N(v)g (4.8)

La �gure 4.5 montre la région d'in�uence d'un représentant en fonction du type de voisinageutilisé. La région d'in�uence correspondant au voisinage naturel est l'union des hyper-sphères deDelaunay circonscrites à tous les simplexes de la triangulation de Delaunay dont le représentantconsidéré est un sommet. Il apparaît que la région d'in�uence d'un représentant correspondantaux voisins -observables, ressemble à un facteur d'échelle près à sa région de Voronoï, ce qui estdécrit par la propriété 2.

Propriété 2 Homothétie

8wi 2 w; RIV GO( ;w)(wi) = H(wi;

11�

)(Vi) (4.9)

où H(;k) est l'homothétie de centre et de rapport k. Cette propriété signi�e que la régiond'in�uence d'un représentant au sens du voisinage -observable est homothétique à sa région deVoronoï.

Démonstration 2 HomothétieConsidérant les dé�nitions 6 et 7, on a :

8wi 2 w;RIV GO( ;w)(wi) = fv 2 E j wi 2 V GO( ;w)(v)g = fv 2 E j vi 2 Vig (4.10)

De plus,

vi = wi + (1� )v , v � wi = 1

1� (vi � wi), v = H(wi;

11�

)(vi)

donc on a l'équivalencevi 2 Vi , v 2 H(wi;

11�

)(Vi) (4.11)

d'où :

67

Chapitre 4. Voisinage -Observable

Fig. 4.5 � Régions d'in�uence du voisinage Naturel et du voisinage -Observable : larégion d'in�uence du voisinage Naturel d'un représentant (disque blanc au centre) est l'union dessphères de Delaunay qui le contiennent (en gris). La région d'in�uence du voisinage -Observablede ce même représentant dépend de la valeur de , c'est une homothétie de sa région de Voronoï,de centre le représentant et de facteur 1

1� (traits gras).

(4:10) , RIV GO( ;w)(wi) = fv 2 E j v 2 H(wi;

11�

)(Vi)g = H(wi;1

1� )(Vi) (4.12)

2

4.7 Région de proximité et zone d'ombre

4.7.1 Région de proximité

On peut dé�nir une région appelée région de proximité pour chaque représentant dans laquellela présence d'un autre représentant empèche le premier d'être -observable de la donnée.

S'il existe wj (j 6= i) à l'intérieur de l'hyper-sphère Svi centrée sur vi passant par wi, alorskvi � wjk < kvi � wik et donc vi 62 Vi, c'est-à-dire wi 62 V GO( ;w)(v). Cette hyper-sphère est lafrontière de la région de proximité de l'unité wi.

Les régions de proximité sont des ouverts de IRd. La �gure 4.6 présente ces régions.

4.7.2 Zone d'ombre

Pour une valeur de et une donnée v, chaque représentant crée aussi une zone d'ombre telleque tout représentant présent dans cette zone ne fait pas partie du voisinage -observable de ladonnée. Ces zones d'ombre sont liées aux régions de proximité : un représentant est dans la zoned'ombre d'un autre si et seulement si cet autre est dans la région de proximité du premier.

Nous avons calculé l'équation de ces zones d'ombre. On cherche le lieu des points w1 telque, pour v, w2 et donnés, w2 est sur l'hyper-sphère de centre v1 passant par w1. Si w2 est àl'intérieur de cette hyper-sphère, w1 n'est pas -observable de v.

68

4.7. Région de proximité et zone d'ombre

Soit le repère orthonormé centré en w2 dont l'axe des abscisses passe par v et l'axe desordonnée est tout axe perpendiculaire à celui des abscisses. On exprime la position de w1(x1; y1)dans ce repère en fonction de v(v; 0) et de v1(v + (x1 � v); y1). La contrainte imposée à w1,w2 et v, est :

k��!v1w1k2 = k��!v1w2k2 (4.13)

On a :

k��!v1w1k2 = (x1 � (x1 � v)� v)2 + y21(1� )2k��!v1w1k2 = ( (x1 � v) + v)2 + 2y21

(4.14)

d'où :

(4:13) , (1� 2 )x21 + 2vx1( � 1) + (1� 2 )y21 = 0 (4.15)

Pour = 0:5, (4:15), x1 = 0, le lieu des points est l'hyperplan normal à l'axe des abscissespassant par w2, tout point w1 hors de cet hyper-plan et situé du côté de cet hyperplan opposé àcelui de v n'est pas 0:5-observable de v. Si de plus v � w2, alors aucun autre point de l'espaceexcepté w2 n'est 0:5-observable de v.

Pour 6= 0:5, (4:15) , (x1 � v 1� 1�2 )

2 + y21 = (v 1� 1�2 )

2 est l'équation d'un cercle dans leplan (w2; x; y) considéré, donc le lieu des points correspond à une hyper-sphère S (générée parrévolution du cercle autour de l'axe des abscisses) de centre (v 1�

1�2 ; 0) et de rayon R = jv 1� 1�2 j.

Pour < 0:5 (resp. > 0:5), tout point situé à l'extérieur strictement (resp. à l'intérieurstrictement) de S n'est pas -observable de v.

Les zones d'ombre sont des d-boules ouvertes de IRd.

En résumé, un représentant n'est -observable que si aucun autre ne se situe dans sa régionde proximité, i.e. que si lui-même n'est dans la zone d'ombre d'aucun autre.

Lorsque = 0, la frontière de la région de proximité et celle de la zone d'ombre d'un mêmereprésentant sont confondues, seuls les plus proches représentants de la donnée ne sont ni dansla zone d'ombre ni dans la région de proximité de tout autre représentant.

La �gure 4.6 présente ces régions.

4.7.3 Région observable

Nous appelons région -observable d'un représentant, la région complémentaire de sa zoned'ombre pour une valeur donnée de , et région -observable globale, la région complémentairede l'union des zones d'ombres de chaque représentant, donc l'intersection de leurs régions -observables respectives. Tout nouveau point créé dans cette région est -observable de la donnée.Ce nouveau point peut rendre non observable un des points déjà existants.

69

Chapitre 4. Voisinage -Observable

Les régions -observables sont des fermés de IRd et donc la région -observable globale l'estaussi.

Propriété 3 Inclusion des régions -observables

La région -observable globale est incluse dans celle associée à une valeur de supérieure.

Démonstration 3 Inclusion des régions -observables

En e�et, pour tout x 2 [0; 0:5] la région x-observable d'un représentant wi est la d-boulefermée passant par wi dont le centre est sur la droite (vwi) du même côté que v de wi, de rayonRx = v 1� x

1�2 x . Pour tout 0:5 � 1 > 0 � 0, on a R1 > R0 donc la région 0-observable de wiest incluse dans sa région 1-observable. Et pour tout x 2]0:5; 1] la région x-observable d'unreprésentant wi est le complémentaire de la d-boule ouverte passant par wi dont le centre est surla droite (vwi) du côté de wi opposé à v, de rayon Rx = �v 1� x

1�2 x . Pour tout 1 � 1 > 0 > 0:5,on a R1 < R0 donc la région 0-observable de wi est incluse dans sa région 1-observable.

Finalement, pour tout 1 � 1 > 0 � 0, l'intersection des régions 0-observables de chaquereprésentant est incluse dans celle des régions 1-observables de chacun d'eux. 2

D'après la propriété précédente, la donnée fait toujours partie de la région -observable pourtout , puisqu'elle est le centre (donc à l'intérieur) de la région 0-observable de son plus prochereprésentant et donc reste observable pour tout > 0. La donnée n'est donc jamais dans unequelconque zone d'ombre.

La �gure 4.6 présente ces régions.

4.8 Non-convexité

4.8.1 Dé�nition

Nous disons qu'un voisinage dé�ni dans un espace Euclidien est convexe lorsque tout représen-tant situé à l'intérieur de l'enveloppe convexe des représentants faisant partie de ce voisinage,en fait lui-même partie, quelque soient les positions des représentants et de la donnée. Lorsquecette propriété ne peut être assurée dans tous les cas, le voisinage peut ne pas être convexe pourcertaines positions des représentants et nous disons que le voisinage est non convexe dans ce cas.

Cette dé�nition de la convexité d'un voisinage correspond en fait à la dé�nition de la convexitéd'un ensemble discret de points d'un espace convexe donnée dans [62].

Nous étudions la convexité du voisinage -Observable, du voisinage dé�ni par les k-Plus-Proches Voisins, et du voisinage Naturel.

4.8.2 Cas du voisinage -Observable

La convexité du voisinage -Observable est liée aux zones d'ombre vues précédemment. Onpourra se reporter à la �gure 4.6 pour mieux comprendre les démonstrations.

Propriété 4 Non-convexité potentielle pour > 0:5

Lorsque > 0:5, il peut exister des représentants à l'intérieur de l'enveloppe convexe desvoisins -observables de la donnée v, qui ne font pas eux-même partie de ce voisinage : le voisinagepeut être non convexe.

Démonstration 4 Non-convexité potentielle pour > 0:5

On peut toujours construire une con�guration non convexe pour > 0:5. Pour cela, on noteque la région de proximité de chaque voisin -observable wi de v est une hyper-sphère centréeen vi qui passe par wi et coupe le segment [vwi] en un point v0i situé entre v et vi mais jamais

70

4.8. Non-convexité

= 0 = 0:25 = 0:5 = 0:75 = 1

= 0 = 0:25 = 0:5 = 0:75 = 1

Fig. 4.6 � Régions de proximité, zones d'ombre et région -observable globale : enhaut, les régions de proximité associées à chaque représentant pour di�érentes valeurs de , sontdes d-sphères centrées sur leur point intermédiaire et passant par eux. Un représentant est -observable (disques gris) de la donnée (point noir) si aucun autre représentant ne se situe dans sarégion de proximité. En bas, les zones d'ombre sont l'intérieur ou l'extérieur de d-sphères suivantla valeur de . Tout représentant situé dans la zone d'ombre (régions grisées) d'un autre, n'estpas -observable de la donnée. La région -observable globale est la région complémentaire del'union des zones d'ombres (région blanche). La donnée est toujours dans la région -observable.

71

Chapitre 4. Voisinage -Observable

confondu avec v (car > 0:5). Choisissons le voisin -observable w� de v tel que v0� soit le pointv0i le plus proche de v pour tout i. On peut alors toujours placer deux nouveaux points sur lesegment ]vv0�[ sans qu'aucun des deux ne soit dans la région de proximité de l'un des wi voisins -observables de v. On peut alors où que l'on place w0 sur ]vv0�[, placer w00 dans la zone d'ombrede w0. Donc w00 n'est pas -observable de v tandis que w0 et w� le sont, et w00 est alors dansl'enveloppe convexe de l'ensemble fw0; w�g et de tout point wi -observable de v s'y ajoutant. 2

Propriété 5 Convexité pour � 0:5Lorsque � 0:5, le voisinage -Observable est nécessairement convexe et tous les représen-

tants voisins -observables sont les sommets de leur enveloppe convexe.

Démonstration 5 Convexité pour � 0:5Cas de = 0:5 :

Lorsque = 0:5, la zone d'ombre de chaque représentant wi est un demi-espace situé ducôté opposé à v, de l'hyper-plan normal au segment [vwi] passant par wi. La région -observableglobale, complémentaire de l'union de ces zones d'ombres, est identique à la région de Voronoïde v ayant subi une homothétie de centre v et de facteur 2. Cette région est donc convexe. Lesreprésentants voisins 0:5-observables de v sont tous situés sur la frontière de cette région, ils sontdonc aussi tous sommets de leur enveloppe convexe, le plus petit convexe les contenant.

Comme aucun point de cette région -observable globale n'est situé dans la zone d'ombre d'unquelconque représentant, il ne peut exister aucun représentant non 0:5-observable de v dans cetterégion et donc a fortiori dans l'enveloppe convexe des 0:5-observables de v.Cas de < 0:5 :

Lorsque < 0:5, la zone d'ombre de chaque représentant wi est la région complémentairede son hyper-sphère -observable, passant par wi et dont le centre est situé sur la droite (vwi)du côté de v opposé à wi. La région -observable globale, complémentaire de l'union des zonesd'ombres, est l'intersection de ces hyper-sphères -observables, donc la région -observable globaleest convexe comme intersection de régions convexes. Les représentants voisins -observables de vsont les seuls situés hors de la zone d'ombre de tout autre et appartiennent chacun à leur hyper-sphère -observable, donc ils sont tous situés sur la frontière de la région -observable globale.Par conséquent, les représentants voisins -observables de v sont aussi tous sommets de leurenveloppe convexe, le plus petit convexe les contenant.

Comme aucun point de la région -observable globale n'est situé dans la zone d'ombre d'unquelconque représentant, il ne peut exister aucun représentant non -observable de v dans cetterégion et donc a fortiori dans l'enveloppe convexe des -observables de v. 2

Précisons en�n que l'on ne peut parler de non-convexité que s'il y a au moins deux voisins -observables de v pour pouvoir dé�nir leur enveloppe convexe non réduite à un point. Lorsquela donnée n'a qu'un voisin -observable, le voisinage est nécessairement convexe.

4.8.3 Cas des k-PPV

Propriété 6 Convexité du voisinage des k-PPVLe voisinage dé�ni par les k-PPV, est nécessairement convexe pour tout k.

Démonstration 6 Convexité du voisinage des k-PPVL'hyper-sphère Sk centrée sur la donnée v qui passe par le kième représentant (donc le plus

éloigné de v parmi ses k plus proches voisins) est un convexe qui englobe nécessairement l'ensem-ble des k-PPV de v et contient aussi leur enveloppe convexe qui est le plus petit convexe lescontenant. Il n'existe donc pas de représentants dans cette enveloppe convexe qui ne soient pasdans Sk, donc qui ne soit pas k-PPV de v. 2

72

4.9. Généralisation du voisinage -Observable

La �gure 4.7(a) illustre le cas des k-PPV.

4.8.4 Cas du voisinage naturel

Propriété 7 Non-convexité potentielle du voisinage Naturel

Le Voisinage Naturel dé�ni par la triangulation de Delaunay peut être non convexe.

Démonstration 7 Non-convexité potentielle du voisinage Naturel

Nous présentons sur la �gure 4.7(b), un tel cas en 2 dimensions. On peut facilement construireun tel cas en dimension k en adjoignant des représentants qui ne perturbent pas les liens devoisinage naturels établis dans le cas plan présenté, mais hors de ce plan pour obtenir une k-triangulation. 2

(a) (b)

Fig. 4.7 � Convexité du voisinage des k-PPV et non-convexité potentielle du voisi-nage Naturel : (a) l'enveloppe convexe (trait pointillé) des k-PPV est nécessairement inclusedans l'hyper-sphère (trait continu) centrée sur la donnée (point noir) et passant par le kième

représentant. (b) un exemple de voisinage Naturel non convexe : un représentant (point blanc),n'est pas voisin naturel de la donnée (point noir) mais dans l'enveloppe convexe (trait pointillé)des représentants voisins naturels de la donnée (points gris). La non-convexité est potentiellepuisqu'il su�t dans ce cas de retirer le représentant non voisin naturel de la donnée, pour que levoisinage devienne convexe.

4.9 Généralisation du voisinage -Observable

Nous présentons dans l'annexe B, une généralisation du voisinage -Observable, basée sur laconsidération de régions d'in�uence di�érentes de la région de Voronoï des représentants.

4.10 Conclusion

Nous avons dé�ni un nouveau voisinage appelé "Voisinage -Observable". Un représentantappartient au voisinage -Observable de la donnée si le point intermédiaire situé sur le segment

73

Chapitre 4. Voisinage -Observable

dont ils sont les extrémités, se trouve dans la région de Voronoï du représentant. règle laposition de ce point intermédiaire sur le segment. Ce point est confondu avec la donnée pour = 0 et avec le représentant pour = 1.

Nous avons proposé l'analogie du "concert de plein-air" pour illustrer ce voisinage, et justi�erson nom.

Nous avons étudié sa taille en fonction de et montré comment elle varie avec la dimensionpour une distribution uniforme des représentants. Nous avons démontré la propriété d'inclusionqui indique que lorsque croît, la taille du voisinage augmente et le voisinage correspondant àune valeur de donnée, est inclus dans celui correspondant à une valeur de plus grande.

Lorsque = 0, seul le plus proche représentant de la donnée fait partie du voisinage. Lorsque = 1, tous les représentants en font partie.

Nous avons dé�ni la région d'in�uence d'un représentant (son centre) correspondant à unvoisinage, comme la région telle que tout point qu'elle contient est voisin de son centre au sens dece voisinage. Nous avons alors démontré que la région d'in�uence d'un représentant correspondantau voisinage -Observable, est obtenue par une homothétie de sa région de Voronoï, de facteur1=(1 � ) et de centre ce représentant.

Nous avons dé�ni la région de proximité d'un représentant comme la région ne devant encontenir aucun autre pour que celui-ci soit voisin -observable de la donnée. Nous démontronsque la région de proximité d'un représentant est une d-boule ouverte centrée sur son pointintermédiaire et à la frontière de laquelle il appartient.

Nous avons dé�ni les zones d'ombres comme les régions pour lesquelles tous les représentantsqu'elles contiennent ne peuvent être voisins -observables de la donnée. Nous avons démontréque la zone d'ombre d'un représentant est une d-boule ouverte pour > 0:5, un demi-espaceouvert pour = 0:5 et le complémentaire d'une d-boule fermée pour < 0:5. Le centre de cesd-boules se situe sur la droite joignant la donnée au représentant et sa frontière passe par lui.

Nous avons dé�ni la région -observable globale comme la région complémentaire de l'uniondes zones d'ombres. Tout nouveau représentant créé dans cette région est voisin -observablede la donnée. Nous avons démontré que la donnée fait toujours partie de cette région et quela région -observable globale correspondant à une valeur de donnée, est incluse dans cellecorrespondant à une valeur de supérieure.

En�n, nous avons dé�ni qu'un voisinage est convexe lorsque tout représentant situé à l'in-térieur de l'enveloppe convexe des représentants faisant partie de ce voisinage, en fait lui-mêmepartie, quelque soient les positions des représentants et de la donnée. Lorsque cette propriéténe peut être assurée, le voisinage est potentiellement non convexe. Nous avons démontré la pro-priété de non-convexité potentielle du voisinage -Observable lorsque > 0:5, et sa convexitédans tous les cas sinon. Nous avons aussi démontré que dans le cas où la convexité est assurée,tous les représentants -observables de la donnée sont les sommets de leur enveloppe convexe.Nous avons en�n démontré la convexité du voisinage dé�ni par les k-plus-proches voisins, et lanon-convexité potentielle du voisinage naturel.

L'annexe B présente une généralisation du voisinage -Observable qui considère d'autresrégions d'in�uence que la région de Voronoï des représentants.

Dans le chapitre suivant, nous présentons les liens qui existent entre le voisinage -Observableet le voisinage Naturel.

74

Chapitre 5

Voisinage 0:5-Observable et graphes de

proximité

75

Chapitre 5. Voisinage 0:5-Observable et graphes de proximité

5.1 Introduction

Dans ce chapitre, nous nous intéressons aux liens entre voisins -observables et voisins na-turels. Nous parlons aussi des graphes de proximité et du rapport entre graphe de Gabriel etgraphe des 0.5-Observables.

5.2 Liens avec les voisins naturels

Considérons le cas particulier du voisinage 0:5-observable dé�ni par :

V GO(0:5;w)(v) = fwi 2 w j1

2(v +wi) 2 Vig (5.1)

Nous avons les propriétés suivantes.

5.2.1 Inclusion des voisinages

Pour un point donné, ses voisins 0:5-observables sont un sous-ensemble de ses voisins naturels.

Propriété 8 Inclusion dans le voisinage Naturel pour = 0:5

8v 2 E; V GO(0:5;w)(v) � V Nw(v) (5.2)

Démonstration 8 Inclusion dans le voisinage Naturel pour = 0:5Soit vi = 0:5(v + wi), donc kvi � vk = kvi � wik et par la dé�nition 6 on sait que :

8v 2 E;wi 2 V GO(0:5;w)(v), vi 2 Vw(wi) (5.3)

Donc on peut écrire :

vi 2 Vw(wi) , 8wj 2 w;(kvi � wik � kvi � wjkkvi � vk � kvi � wjk

,(vi 2 Vw[fvg(wi)vi 2 Vw[fvg(v)

, vi 2 Vw[fvg(wi) \ Vw[fvg(v)Or

vi 2 Vw[fvg(wi) \ Vw[fvg(v)) Vw[fvg(wi) \ Vw[fvg(v) 6= ; (5.4)

et d'après la dé�nition 4 du voisinage Naturel :

Vw[fvg(wi) \ Vw[fvg(v) 6= ; , wi 2 V N(w)(v) (5.5)

Soit avec (5.3) :wi 2 V GO(0:5;w)(v)) wi 2 V N(w)(v) (5.6)

ce qui signi�e :8v 2 E; V GO(0:5;w)(v) � V N(w)(v) (5.7)

2

La propriété 1 permet d'étendre ce résultat à tout < 0:5. Ce qui conduit à :

Conséquence 3 Inclusion dans le voisinage Naturel pour � 0:5

8v 2 E;8 2 [0; 0:5]; V GO( ;w)(v) � V Nw(v) (5.8)

76

5.2. Liens avec les voisins naturels

Le nombre de voisins 0:5-observables est une borne inférieure du nombre de voisins naturels,facilement calculable de par les opérations mises en oeuvre même en dimensions élevées commenous le verrons au chapitre 6. Le voisinage 0:5-Observable permet donc d'approcher levoisinage Naturel en grande dimension.

5.2.2 Inclusion des régions d'in�uence

Nous revenons sur les régions d'in�uence dé�nies dans le chapitre précédent.

Dans le cas particulier des voisins 0:5-observables, la région d'in�uence est un polytope,que nous appelons polytope d'in�uence, homothétique au polytope de Voronoï par l'homothétieH(wi;

11�

) = H(wi;2) de facteur 2 et de centre wi.

La région d'in�uence correspondant au voisinage -Observable pour � 0:5 est incluse danscelle correspondant au voisinage naturel (cela découle de la propriété 1 et de la propriété 3).

Propriété 9 Inclusion de la région d'in�uence pour � 0:5

RIV GO( �0:5;w)(wi) � RIV N(w)

(wi) (5.9)

Démonstration 9 Inclusion de la région d'in�uence pour � 0:5

8v 2 RIV GO( �0:5;w)(wi); wi 2 V GO( �0:5;w)(v) donc d'après (5.8), wi 2 V Nw(v)g d'où

RIV GO( �0:5;w)(wi) � RIV N(w)

(wi). 2

On remarque sur la �gure 4.5 page 68 que les sommets voisins naturels wj d'un sommet wiappartiennent à la frontière de cette région d'in�uence si et seulement s'ils sont aussi voisins0:5-observables de wi, car dans ce cas, le point vj milieu de [wiwj ], est élément du polytope deVoronoï de wi, et son image par H(wi;2) est justement wj .

De plus, les sommets du polytope de Voronoï sont les centres des hyper-sphères de Delaunaycirconscrites aux facettes principales de la triangulation de Delaunay, dont wi est un sommet.L'image par H(wi;2) de l'un quelconque de ces centres est donc le point de l'hyper-sphère cor-respondante diamétralement opposé à wi. Les sommets du polytope d'in�uence sont donc cespoints images des sommets du polytope de Voronoï et appartiennent donc à ces hyper-sphères deDelaunay. Ces points peuvent être sur la frontière de la région d'in�uence de wi correspondantau voisinage naturel mais cela n'est pas toujours le cas.

Il semble qu'en 2 dimensions, lorsque le cercle de Delaunay considéré est circonscrit à dessommets qui sont tous 0:5-Observables, l'image du centre de ce cercle par H se situe toujours surla frontière de la région d'in�uence correspondant au voisinage naturel. Cependant, ce résultatne semble pas s'étendre aux dimensions supérieures, on a construit sur la �gure 5.1 un contre-exemple en dimension 3 qui montre que même lorsque tous les voisins naturels d'un sommet sontaussi 0:5-Observables de celui-ci et 0:5-Observables entre eux, l'image par H du centre d'unesphère de Delaunay n'est pas sur la frontière de la région d'in�uence au sens des voisins naturels.

5.2.3 Symétrie

Si un point A est voisin 0:5-observable d'un point B, alors nécessairement, la réciproque estvraie. Le voisinage 0:5-observable est symétrique :

Propriété 10 Symétrie pour = 0:5

8(A;B) 2 E2; A 2 V GO(0:5;w)(B), B 2 V GO(0:5;w)(A) (5.10)

77

Chapitre 5. Voisinage 0:5-Observable et graphes de proximité

Fig. 5.1 � Contre-exemple : contre-exemple in�rmant l'hypothèse que l'image par H des som-mets du diagramme de Voronoï d'un représentant dont tous les voisins naturels sont aussi 0:5-observables, sont sur la frontière de la région d'in�uence de ce représentant au sens des voisinsnaturels. Soit A, B, C, D et E des points de l'espace a 3 dimensions et D le représentant consid-éré. A, B, C et D sont pla¢es aux sommets d'un cube formant un tétraèdre dont la face (BCD)est équilatérale et les autres faces sont isocèles rectangles en A. c1 est le centre du cube et dela sphère S1 circonscrite à (ABCD). c2 est le centre de la sphère S2 circonscrite à (BCDE),avec E placé dans le prolongement de la grande diagonale (Ac1) tel que c2 soit le sommet ducube opposé à A. Par symétrie, les faces (BEC), (CED) et (DEB) sont des triangles isocèles.L'ensemble des arêtes (traits gras) de ces deux tétraèdres forment la triangulation de Delaunayde A, B, C, D et E, car S1 ne contient que ABCD et S2 que BCDE. Les segments [AB], [AC],[AD], [BC], [CD], [DB], [EB], [EC], et [ED] ont leurs extrémités 0:5-observables l'une de l'autrecar aucun des triangles formés avec eux n'est obtusangle. Considérant le point B, c1 et c2 sontles sommets de sont polytope de Voronoï. L'image de c1 par H(D;2) est en D' et celle de c2 en D�,D' et D� sont les sommets du polytope d'in�uence de D au sens des voisins 0:5-observables. D'est sur S1 et D� sur S2, mais D' est à l'intérieur de S2 car c2D' (cote du cube) < c2D� (diagonalede la face du cube), donc D' n'est pas sur la frontière de la région d'in�uence de D au sens desvoisins naturels, formée par l'union des sphères S1 et S2 privée de la partie de chacune intérieureà l'autre.

78

5.3. Approximation des voisins naturels par les voisins 0:5-observables

Démonstration 10 Symétrie pour = 0:5

Par symétrie du voisinage naturel, on a,

A 2 V GO( �0:5;w)(B)) A 2 V Nw(B), B 2 V Nw(A) (5.11)

De plus, A voisin 0:5-observable de B implique que le milieu du segment joignant A et Bappartient à la frontière de la région de Voronoï de A. Comme A et B sont voisins naturels,la frontière de la région de voronoï de A est confondue avec celle de B, et donc B est voisin0:5-observable de A. 2

Cette symétrie n'existe pas nécessairement pour d'autres valeurs de , sauf dans le cas où = 1 puisque le graphe est complet (tout représentant est 1-observable de tout autre). De mêmedans le voisinage des k-PPV quelque soit la valeur de k : i.e. on ne peut pas a�rmer que si Aest le kième plus proche voisin de B, alors B est le kième plus proche voisin de A.

5.3 Approximation des voisins naturels par les voisins 0:5-observables

Considérant un ensemble de n points dans l'espace Euclidien de dimension d, nous avons faitune expérience pour évaluer le ratio entre le nombre de voisins 0:5-observables et le nombre devoisins naturels de chacun de ces points parmi tous les autres. Les voisins 0:5-observables sontcalculés en utilisant la dé�nition 6 et les voisins naturels sont trouvés grâce à la triangulation deDelaunay des points e�ectuée par le logiciel QHull [19].

Le tableau 5.1 donne le rapport moyen obtenu pour di�érents nombres de points et di�érentesdimensions sur 10 expériences dans chaque cas.

dnn d+ 2 25 50 100 500

2 0:72 � 0:25 0:63 � 0:20 0:64� 0:20 0:64 � 0:20 0:66 � :203 0:65 � 0:25 0:48 � 0:18 0:48� 0:17 0:47 � 0:16 0:47 � :165 0:69 � 0:20 0:41 � 0:15 0:35� 0:12 0:32 � 0:12 0:29 � :1010 0:77 � 0:16 0:65 � 0:15 � � �15 0:87 � 0:11 0:83 � 0:11 � � �20 0:94 � 0:07 0:92 � 0:08 � � �

Tab. 5.1 � Rapport moyen et écart type du nombre de voisins 0:5-observables sur lenombre de voisins naturels de chaque représentant parmi eux, sur 10 expériences pour unensemble de n représentants uniformément distribués dans un d-cube unité.

Notons qu'une partie du tableau n'a pu être complétée du fait de la grande complexité descalculs et du manque de mémoire lors de l'utilisation de QHull pour calculer les voisins naturels.Cette complexité est due au grand nombre de facettes de la triangulation de Delaunay queconstruit QHull en grandes dimensions. Au contraire, le calcul des voisins 0:5-observables nesou�re pas de ces limites puisqu'il consiste à calculer des distances euclidiennes et rechercher desminima, ce qui reste aisé même en grandes dimensions. La complexité théorique est abordée auchapitre 6.

Nous constatons que pour un nombre de points donné, plus la dimension est élevée, meilleureest l'approximation des voisins naturels par les voisins 0:5-observables. De même pour une di-mension donnée, plus faible est le nombre de points, meilleure est l'approximation.

On retrouve ici, le fait que dans les espaces de grande dimension, les points sont en moyenneéquidistants les uns des autres donc au voisinage des sommets d'un simplexe équilatérale de

79

Chapitre 5. Voisinage 0:5-Observable et graphes de proximité

dimension d. Or, tous les sommets d'un tel simplexe sont justement voisins 0:5-observables lesuns des autres car toutes les faces de dimension 2 d'un simplexe équilatéral sont des triangleséquilatéraux, or on montre dans la section suivante (conséquence 4), que les sommets d'un trianglenon obtusangle sont tous 0:5-observables les uns des autres.

Nous pouvons utiliser l'expérience de la section 4.5.2 liant la taille du voisinage -observableà et à d pour compléter l'explication.

Dans cette expérience, le nombre de voisins naturels nV N de v parmi les points est au moinségal au nombre nV GO des voisins 0:5-observables de v que l'on a calculé. nV N est donc comprisentre nV GO et n le nombre total de points. Plus la dimension d augmente pour n �xé ou plus ndiminue pour d �xé, plus l'écart entre nV GO et n diminue, donc plus l'écart entre nV GO et nV Nest contraint de diminuer lui aussi, et donc meilleure est l'approximation des voisins naturels parles voisins 0:5-observables.

On pourrait envisager d'utiliser les voisins -observables pour trouver tous les voisins naturelsen grande dimension en cherchant par exemple à les encadrer avec di�érentes valeurs de . Ils'agit là d'une piste de recherche que nous n'avons pas explorée plus avant.

5.4 Triangulation avec les -observables

Quel type de triangulation obtenons-nous si nous construisons des liens entre les représentants -observables ?

5.4.1 Cas des 0:5-Observables

Caractérisation

La triangulation des 0:5-observables revient à ne conserver que ceux des liens de la triangu-lation de Delaunay, qui forment localement des simplexes qui ont les propriétés suivantes :

Propriété 11 Liens de la triangulation des 0:5-ObservablesToutes les arêtes des simplexes de la triangulation des 0:5-Observables lient deux voisins 0:5-

observables. (Par construction)

Propriété 12 Triangles de la triangulation des 0:5-ObservablesToutes les 2-facettes de la triangulation des 0:5-Observables s'il en existe, sont des triangles

non obtusangles6.

Démonstration 11 Triangles de la triangulation des 0:5-ObservablesCela découle du fait que pour que chaque côté d'un de ces triangles lie deux voisins 0:5-

Observables, le centre du cercle circonscrit de ce triangle doit rester à l'intérieur de celui-ci, cequi n'est possible que si aucun des angles n'excède 90o. Cette deuxième propriété n'est qu'uneconséquence directe de la précédente. 2

Conséquence 4 0:5-Observabilité des sommets d'un k-simplexeLes sommets de tout k-simplexe (k > 1) isolé dont toutes les 2-facettes sont des triangles non

obtusangles, sont 0:5-observables les uns des autres.

Démonstration 12 0:5-Observabilité des sommets d'un k-simplexeTout simplexe dont les sommets sont 0:5-Observables les uns des autres est la triangluation

des 0:5-Observables de ses sommets, donc toutes ses 2-facettes sont des triangles non obtusangles.2

6Sachant que l'un au moins des angles d'un triangle obtusangle est supérieur strictement à 90o, dans un trianglenon obtusangle, aucun des angles n'excède 90o.

80

5.4. Triangulation avec les -observables

2 4 6 8 10 12 14 16 18 20 22 24 26 28 3005

101520253035404550556065707580859095

100

DimensionP

ourc

enta

ge d

e tr

iang

les

obtu

sang

les

Fig. 5.2 � Triangles obtusangles : pourcentage de triangles obtusangles en fonction de ladimension d pour 10000 triplets de points tirés aléatoirement dans le d-cube unité.

La triangulation des 0:5-observables �ltre donc la triangulation de Delaunay et en conservetous les triangles non obtusangles ou simplexes formés exclusivement de triangles non obtu-sangles, et les segments liant deux voisins 0:5-observables. Le complexe de simplexes ainsi créén'est plus nécessairement une �triangulation� au sens propre du terme puisqu'il peut être com-posé de facettes principales de dimensions di�érentes. Néanmoins, nous continuons de l'appelertriangulation pour simpli�er l'écriture par la suite.

Règle de suppression

Seul le plus grand côté d'un triangle obtusangle isolé lie deux sommets non 0:5-observables.

En e�et, dans un triangle obtusangle, le sommet opposé au plus grand côté est nécessairementsitué dans les régions de proximité de ses deux extrémités qui ne peuvent donc être voisines 0:5-observables. Chacune d'elles n'est pas elle-même dans la région de proximité des deux autressommets, donc les deux petits côté ne sont pas supprimés.

Construire la triangulation des 0:5-observables, consiste donc à supprimer le plus grand côtéde tous les triangles obtusangles de la triangulation de Delaunay.

Nous avons évalué la probabilité qu'un triangle soit obtusangle en fonction de la dimension.Pour cela, on tire trois points aléatoirement dans le d-cube unité et l'on regarde si ce triangleest ou non obtusangle (utilisation de Pythagore). La �gure 5.2 donne une approximation dela probabilité pour que le triangle soit obtusangle, évaluée sur 10000 con�gurations aléatoiresdi�érentes pour chaque dimension de 2 à 30. On constate que la probabilité chute rapidementlorsque la dimension augmente, il n'y a plus qu'un triangle sur 10 qui est obtusangle en dimension10. Ainsi, plus la dimension augmente, plus la probabilité pour que la triangulation de Delaunayet celle des 0:5-Observables soient identiques augmente, car plus la probabilité pour que des2-facettes de la triangulation de Delaunay soient obtusangles diminue.

Ces résultats sont cohérents avec ceux de la section précédente et montrent que plus la dimen-sion est élevée, meilleure est l'approximation des voisins naturels par les voisins 0:5-observables.

Non-isolement

Propriété 13 Non-isolement dans la triangulation de Delaunay

81

Chapitre 5. Voisinage 0:5-Observable et graphes de proximité

Il n'existe pas de sommet de la triangulation de Delaunay complètement isolé, i.e. qui neserait pas 0:5-observable d'au moins un autre sommet de la triangulation de Delaunay.

Démonstration 13 Non-isolement dans la triangulation de Delaunay

Cette propriété découle de l'enchaînement suivant : pour tout point v de E, il existe au moinsun sommet wwin de w plus proche de v que tous les autres si et seulement si wwin 2 V GO(0;w)(v)or V GO(0;w)(v) � V GO(0< <0:5;w)(v) � V GO(0:5;w)(v) (Propriété 1) donc le (ou les) wwin est(ou sont) 0:5-observable(s) de v. Tout sommet de la triangulation peut être vu comme un pointv de E dans cette démonstration. 2

Ce qui signi�e non seulement que tout sommet d'une triangulation de Delaunay a au moins unvoisin 0:5-observable parmi ses voisins naturels, mais aussi que parmi ces voisins 0:5-observables,il y a toujours le plus proche sommet voisin. Dit autrement,

Conséquence 5 Non-isolement dans l'espace EuclidienTout point d'un ensemble �ni de points d'un espace Euclidien à au moins pour voisin 0:5-

observable dans cet ensemble, son plus proche voisin.

Connexité

E est un espace vectoriel normé donc E est connexe et la triangulation de Delaunay de Sl'est aussi. De même, on montre :

Propriété 14 Connexité de la triangulation des 0:5-ObservablesLa triangulation des 0:5-observables d'un ensemble �ni de points d'un espace connexe forme

un graphe connexe dont ils font tous partie.

Démonstration 14 Connexité de la triangulation des 0:5-ObservablesLa triangulation des 0:5-observables est extraite par suppression de segments de celle de De-

launay. La règle de suppression est vue dans la section précédente. Nous appelons �candidat� untel segment.

Montrons que la triangulation des 0:5-observables est connexe.

Soit G(S;U) le graphe connexe dé�ni par la triangulation de Delaunay de NS sommets. Soitg(S; u) le graphe dé�ni par la triangulation des 0:5-observables engendré par la suppression desarcs candidats de G.

Soient G1(S1; U1) et G2(S2; U2) deux sous-graphes connexes distincts de G tels que S1[S2 =S, S1 \ S2 = ;, et U1 [ U2 [ UC = U où U1, U2 et UC sont disjoints deux à deux et UC estl'ensemble des arcs de U qui ont une extrémité dans G1 et l'autre dans G2. UC est non vide carG est connexe. S'il existe G1 et G2 tels que tous les arcs de UC soient candidats, alors g1 et g2 lesgraphes engendrés par suppression des candidats respectifs de G1 et G2, ne seront pas connectéspuisque tous les arcs de UC seront supprimés, et donc g ne sera pas connexe.

Nous allons montrer que pour tout sous-graphes G1 et G2 dé�nis ci-dessus, UC contient aumoins un arc non candidat ce qui assure la connexité de g.

Considérons donc G1 et G2 deux sous-graphes connexes quelconques de G dé�nis comme ci-dessus, et appelons TC l'ensemble des triangles obtusangles de base de G dont l'un des arcs de UCest un candidat. Chacun de ces triangles a deux autres côtés plus petits strictement7 qui relientaussi G1 et G2, donc l'un de ces côtés fait aussi partie de UC . Tous les triangles de TC ont doncnécessairement deux côtés dans UC : le plus grand qui est nécessairement candidat, et un pluspetit qui peut être aussi le plus grand côté d'un autre triangle de TC et donc être candidat.

7Dans un triangle isocèle obtusangle, la base est l'unique plus grand côté ; et un triangle équilatérale n'estjamais obtusangle

82

5.5. Mise-à-jour de la triangulation induite

Cependant, parmi tous les arcs de UC , il en existe un plus petit strictement que tous les autreset celui-ci ne peut être le plus grand côté d'un triangle de TC puisqu'il y aurait alors dans UC undes deux autres côtés de ce même triangle plus petit que lui strictement. Donc le plus petit côtéde UC ne peut pas être candidat. 2

La connexité permet de borner le nombre d'arêtes de la triangulation des 0:5-observablesd'un ensemble S de NS sommets de IRd.

Propriété 15 Nombre minimum d'arêtes

Le nombre minimum d'arêtes de la triangulation des 0:5-observables est NS � 1 comme dansla triangulation de Delaunay.

Au-dessous de ce nombre, le graphe ne peut être connexe.

Propriété 16 Nombre maximum d'arêtes

Le nombre maximum d'arêtes de la triangulation des 0:5-observables est NS(NS+1)2 comme

dans la triangulation de Delaunay.

C'est le cas du graphe complètement connecté qui ne peut trouver une réalisation géométriqueque dans un espace de dimension d � NS � 1.

Propriété 17 Nombre maximum de couples de points voisins naturels non 0:5-observables

Le nombre maximum de couples de points voisins naturels non 0:5-observables d'un ensemble�ni de NS points est NS(NS�1)

2 + 1.

Ce nombre est obtenu par la di�érence entre le nombre maximum d'arêtes dans la triangula-tion de Delaunay et le nombre minimum dans la triangulation des 0:5-observables, i.e. le nombremaximum d'arêtes supprimées pour passer de l'une à l'autre. Ce nombre ne dépend pas de d (ilest calculé en considérant le graphe et non sa réalisation géométrique).

5.4.2 Cas général des -observables

On a les propriétés suivantes :

Lorsque = 1, le graphe est complet, donc connexe et non orienté. Pour = 0, chaquesommet est connecté à son plus proche voisin, créant un graphe orienté puisque la relation devoisinage n'est pas symétrique.

Pour 2 [0; 0:5[, on ne peut assurer la connexité du graphe, tandis que pour 2 [0:5; 1] legraphe est nécessairement connexe (en raison de la propriété d'inclusion et de la connexité dugraphe pour = 0:5).

= 0:5 et = 1 sont les seules valeurs pour lesquelles on peut assurer sans autre conditionque le graphe est non orienté.

La �gure 5.3 montre les graphes obtenus pour di�érentes valeurs de .

5.5 Mise-à-jour de la triangulation induite

5.5.1 Principe de la TID

Rappelons que dans le GNG et le TRN, un âge est attribué aux liens de voisinage et que cesliens sont créés entre les premier et deuxième plus proches représentants de la donnée présentée.L'âge d'un lien est incrémenté lorsque l'une de ses extrémités est le représentant le plus prochede la donnée présentée, et remis à zéro lorsque ses extrémités sont premier et deuxième plusproches voisins de la donnée présentée (conditions de sa création). Les liens dont l'âge dépasse

83

Chapitre 5. Voisinage 0:5-Observable et graphes de proximité

0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 10

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

1

0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 10

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

1

0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 10

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

1

(a) = 0 (b) = 0:25 (c) = 0:5

0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 10

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

1

0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 10

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

1

(d) = 0:6 (e) = 1

Fig. 5.3 � Graphe des -observables : dans le graphe des -observables, chaque sommet estlié à ses voisins -observables. On démontre que ce graphe est toujours connexe pour � 0:5,qu'il est toujours non orienté pour = 0:5 et = 1, qu'il est complet pour = 1, qu'aucunsommet n'est isolé (i.e. chacun a toujours un voisin -observable) pour tout , qu'il est identiqueau graphe de Gabriel pour une position générale des sommets pour = 0:5 et qu'il est dans cecas une partie de la triangulation de Delaunay des sommets.

84

5.5. Mise-à-jour de la triangulation induite

un âge limite sont supprimés. L'âge maximum est un paramètre supplémentaire qu'il faut régleret qui dépend du pas d'apprentissage : si les représentants se déplacent beaucoup, il est probableque les liens émanant d'eux deviennent rapidement caducs. Trop faible, des liens valides ne sontpas persistants et le graphe obtenu est moins dense que la TID. Trop fort, des liens non validespersistes et le graphe obtenu contient des liens qui n'appartiennent pas à la TID et ce graphen'est donc pas nécessairement un complexe de simplexe (des facettes peuvent se chevaucher ouse croiser).

5.5.2 Heuristiques de mise-à-jour

Nous dé�nissons une heuristique pour mettre à jour la triangulation induite de Delaunay demanière automatique (sans paramétrage supplémentaire) en utilisant la triangulation des 0:5-observables. Il s'agit de supprimer des liens induits mais qui ne sont pas valides en raison dechangements de positions des sommets après leur création. Il faut noter que l'on ne peut pasassurer la suppression de tous les liens non valides et la préservation de tous les autres avecles 0:5-observables, puisqu'il s'agirait de détecter si les liens relient ou non deux représentantsvoisins naturels dont les 0:5-observable ne sont qu'un sous-ensemble.

Nous avons tout d'abord envisagé une heuristique simple :

Heuristique 1 Heuristique testSupprimer tout lien de la triangulation induite de Delaunay, dont les extrémités ne sont pas

0:5-observables.

Elle peut mener à de mauvais résultats (cf. �gure 5.4) puisque l'on risque de supprimer desliens valides entres voisins naturels non 0:5-observables.

Pour la corriger, nous la complétons :

Heuristique 2 Heuristique �naleSupprimer tout lien de la triangulation induite de Delaunay, dont les extrémités ne sont pas

0:5-observables et n'ont pas au moins un voisin naturel induit commun.

Cette deuxième heuristique donne des résultats satisfaisants. Elle ne détruit jamais de tri-angles induits (simplexes de dimension 2 ou facettes de dimension 2 de simplexes de dimensionsupérieure à 2) donc ne modi�e pas la dimension intrinsèque de la triangulation induite deDelaunay. Cependant elle peut supprimer des liens invalides qui lient des sommets éloignés dugraphe de la triangulation induite. Notons qu'il existe des cas où cette heuristique est bloquée.On pourrait imaginer des heuristiques plus sophistiquées et cela reste une voie à explorer.

Les deux heuristiques sont illustrées sur la �gure 5.4.La complexité au pire cas de cette heuristique est O(l:(d:n+n2)) (d : dimension de l'espace des

données et représentants, n : nombre de représentants, l : nombre d'arêtes de la triangulation).Pour chacune des l arêtes de la triangulation induite : O(d:n) pour véri�er qu'aucun autresommet n'est plus proche du milieu de l'arête considérée que ses deux extrémités : dans cecas, les extrémités sont 0:5-observables ; O(n2) (mais en pratique c'est beaucoup moins) pourcontrôler que les deux extrémités non 0:5-observables d'une arête n'ont aucun voisin naturelinduit en commun.

5.5.3 Etat de l'art

Une approche basée sur l'heuristique test est utilisée par Jockusch et Ritter [109] . Les donnéessuccessives apparaissant lors de l'apprentissage sont supposées hautement corrélées car issues del'exploration par un robot de son environnement : deux observations successives représentent

85

Chapitre 5. Voisinage 0:5-Observable et graphes de proximité

Fig. 5.4 � Heuristiques de mise à jour de la TID : à gauche, l'heuristique test supprimeun lien valide de la TID (trait pointillé). A droite, l'heuristique �nale peut supprimer des liensnon valides (trait pointillé) mais peut aussi en conserver (trait gras), cependant, on est certainqu'elle ne détruit aucun lien valide.

alors des situations proches dans l'environnement et donc des situations proches dans l'espacedes données. Dans cette approche, un nouveau lien est créé entre le plus proche et le second plusproche représentants de la donnée (CHL). Un nouveau représentant est créé à l'endroit de lanouvelle donnée lorsque la distance de celle-ci à son plus proche représentant dépasse un certainseuil (unique paramètre à régler dans cette approche) et se situe hors de la région de proximitéassociée au nouveau lien (hyper-sphère de diamètre ce lien). Seuls les liens issus du plus prochereprésentant sont éventuellement supprimés si le deuxième plus proche représentant est dans larégion de proximité associée à eux. La triangulation induite obtenue est l'intersection entre legraphe des 0:5-observables des représentants et leur triangulation induite de Delaunay.

Le critère de distance utilisé pour créer de nouveaux représentants tend à les placer demanière régulière et donc à limiter le nombre de triangles obtusangles de la triangulation. Legraphe obtenu est alors très proche de la TID. La densité des représentants ne tend pas à respectercelle de la distribution. La complexité est en O(d:n) comme pour le GNG mais sans nécessitéde dé�nir un âge pour les liens. Cette approche n'est cependant possible que lorsque les donnéessuccessives sont fortement corrélées.

Balzuweit et al. [18] utilisent aussi l'heuristique test, pour mettre à jour la TID en approxi-mation de variétés, mais c'est au risque de supprimer des liens de la TID porteurs d'informationsur la topologie de la distribution.

5.6 Lien avec d'autres graphes de proximité

5.6.1 Graphes de Gabriel

Le voisinage 0:5-Observable est en fait trés proche du voisinage dé�ni pour les graphes deGabriel [88]. Dans les graphes de Gabriel, deux sommets sont liés si aucun autre sommet ne setrouve à l'intérieur ou sur l'hyper-sphère de diamètre le segment d'extrémités ces deux sommets :deux sommets A et B sont liés si tout autre sommet C est tel que d2AC + d2BC > d2AB .

Dans le voisinage 0:5-Observable, on accepte qu'un autre sommet soit présent sur l'hyper-sphère, l'inégalité ci-dessus est donc à prendre au sens large au lieu de strict dans ce cas.

La di�érence apparaît dans le graphe pour les sommets co-hyper-sphériques qui correspon-dent aux cas dégénérés de la triangulation de Delaunay. Si l'on considère par exemple les quatresommets d'un rectangle, le graphe des 0:5-observables et le graphe de Gabriel de ceux-ci, forment

86

5.6. Lien avec d'autres graphes de proximité

Fig. 5.5 � Cas dégénéré : les quatres sommets sont co-cycliques, on est dans un cas dégénéré.Pour que la triangulation de Delaunay demeure une triangulation, on doit choisir entre deuxpossibilités en ne conservant que l'une des deux diagonales (les deux dessins de gauche). Legraphe de Gabriel ne conserve aucune diagonale (dessin au milieu à droite). Le graphe des 0:5-observables conserve les deux mais ne constitue plus localement un complexe de simplexe (dessinde droite).

les quatre côtés du rectangle, par contre seuls les 0:5-Observables forment aussi les deux diago-nales. La triangulation de Delaunay imposerait quant à elle, de choisir l'une des deux diagonales.La �gure 5.5 illustre les di�érentes situations.

Comme nous l'avons vu au chapitre 3, deux points sont voisins naturels si leur région deVoronoï a une frontière commune, dans le cas dégénéré du rectangle, tous les sommets sontvoisins naturels les uns des autres, bien qu'ils ne soient pas tous deux-à-deux liés par un lien de latriangulation de Delaunay. La triangulation des 0:5-observables n'est pas dans ces cas particuliers,uniquement basée sur la destruction des liens de la triangulation de Delaunay, puisqu'il fautconstruire des liens supplémentaires.

Notons que l'on ne peut plus réellement parler de triangulation ni même de complexe desimplexes dans ces cas dégénérés car les arêtes se coupent en des points qui ne sont pas dessommets de la �triangulation� : l'intersection non vide de deux facettes n'est pas une facettecommune aux deux.

Dans le cas général, le graphe de Gabriel et le graphe des 0:5-observables sont identiques,toutes les propriétés du graphe de Gabriel [134][107] s'appliquent au graphe des 0:5-observables.

5.6.2 Les �-squelettes

Les graphes de Gabriel appartiennent à une famille de graphes de proximité appelés �-squelettes (��-skeleton�) décrite dans [119] dont font aussi partie les graphes de voisinage relatifpour � = 2 [181][107]. Le paramètre � varie de 0 à +1, et vaut 1 pour les graphes de Gabriel. Ily a donc intersection des familles �-squelettes et -Observables pour � = 1 et = 0:5 dans lescas non dégénérés.

Ces graphes sont par exemple utilisés pour le routage de réseaux de communications [32][113]ou en archéologie pour caractériser la position d'objets de fouilles dans l'espace [108].

La �gure 5.6 montre les di�érences et le point commun entre les �-squelettes et les -Observables en comparant leurs régions de proximité.

5.6.3 Les �-formes

Un autre type de graphes appelé �-formes (��-shapes�), est proche de la triangulation deDelaunay [64][65][66]. Dans sa version la plus simple, le graphe des �-formes est constitué detoutes les arêtes de la triangulation de Delaunay du nuage de points dont la longueur est inférieureà 2�. Tout simplexe de la triangulation de Delaunay dont toutes les arêtes ont une longueurinférieure à 2�, fait partie du �-complexe associé au nuage de point. Ce �-complexe est la �-

87

Chapitre 5. Voisinage 0:5-Observable et graphes de proximité

Fig. 5.6 � Régions de proximité des �-squelettes et des -Observables : le cercle en grascorrespond à la région de proximité commune aux �-squelettes à gauche pour � = 1, et aux -Observables pour = 0:5 à droite.

forme du nuage de point. Pour � = 0, le �-complexe est constitué uniquement de 0-simplexes :les points du nuage. Pour � plus grand que la moitié de la plus grande arête de la triangulationde Delaunay, le �-complexe est identique à la triangulation de Delaunay du nuage de points, la�-forme est l'enveloppe convexe du nuage de points. La �gure 5.7 présente les �-formes.

5.6.4 Les -voisinages

Les -voisinages sont dé�nis par Veltkamp [185]. Leur dé�nition implique deux paramètres : 0 et 1, et ils englobent certains des voisinages décrits jusque là : �-formes, certains �-squeletteset triangulation de Delaunay. Ils n'englobent cependant pas les -observables dont le seul pointcommun avec eux est l'usage fortuit de la même lettre .

5.6.5 Applications des graphes de proximité

Une vue plus générale sur les graphes de proximité est donnée dans [63][57].Dans tous les cas décrits ici, le paramêtre �, � ou , et même les paramètres k des k-PPV,

sont un moyen de découvrir la structure d'un nuage de points en réglant le degré de connectivitédu graphe correspondant.

Les �-formes sont utilisées pour reconstruire des surfaces dans [28]. Amenta et al. utilisentles �-squelettes et une approche appelée "crust" (écorce) : la collection de variétés modèles estconstituée des facettes communes à la triangulation de Delaunay des données et à la triangulationde Delaunay des données et des sommets de leur diagramme de Voronoï. Ces deux approches sontutilisées pour reconstruire des courbes [4] et des surfaces [5]. Des améliorations de ces approchessont pointées dans [146]. La �gure 5.7 présente les �crust�.

La Triangulation Induite de Delaunay [133] a le même objectif mais est basée sur un principedi�érent puisqu'elle utilise un ensemble de points supplémentaires, les représentants des données.Elle ne peut être dé�nie sans eux. Soit les représentants sont de nouveaux points, et on utilisetoutes les données pour les trianguler, soit on choisit les représentants parmi les données etl'on se sert des données restantes pour les trianguler. Dans les deux cas, il faut positionner lesreprésentants par rapport à la distribution des données, nous avons vu que les technique deQuanti�cation Vectorielle permettent cela. Dans cette approche utilisant des représentants, la

88

5.7. Conclusion

Fig. 5.7 � �-formes et �crust� : à gauche, le principe des �-formes. Tous les simplexes dela triangulation de Delaunay (traits continus reliant les points noirs), constitués uniquement desegments de longueur inférieure au seuil 2�, constituent la �-forme d'un ensemble de points (ici lachaîne de segments en gras terminée par deux triangles gris). Le seuil est le diamètre des cerclestracés centrés en chaque point. Lorsque ces cercles se coupent, leurs centres sont les extrémitésd'un segment de la �-forme. A droite, le �crust� d'un ensemble de point est composé des facettescommunes à la triangulation de Delaunay de ces points, avec la triangulation de Delaunay deces points et des sommets de leur diagramme de Voronoï.

connectivité du graphe dépend du nombre de représentants utilisés, plus ils sont nombreux, plusla triangulation est �ne.

Rappelons l'intérêt qu'il y a à utiliser des représentants : leur nombre plus petit que celui desdonnées permet de réduire la complexité liée au calcul du graphe de proximité, et leur position-nement par une technique de quanti�cation vectorielle permet d'avoir une échelle d'observationfonction de la densité : plus �ne là où la densité est forte et une régularisation �ltrant les donnéesbruitées. L'adaptation des paramètres en fonction de la densité est possible avec les �-formespondérées (�weighted �-shapes�) basées sur les données elles-mêmes, qui associent à chaque don-née une valeur de � particulière, mais elles nécessitent la modélisation supplémentaire de ladensité [64].

Notons aussi que les �-formes ou les "crust" sont des sous parties de la triangulation deDelaunay (TD) des données. La TID est aussi une sous partie de la TD mais n'en nécessite pasla construction préliminaire, elle dépend du nombre m de données présentées (O(d:n:m) poursa construction totale) donc sa complexité en nombre d'opérations est moindre en dimensionsélevées pour un résultat semblable : la possibilité de régler l'échelle d'observation en construisantnécessairement un complexe de simplexes utilisable pour modéliser des variétés.

La TID est la seule approche qui construit une sous partie de la triangulation de Delaunaydes données sans nécessité de construire celle-ci en premier et qui mène à la construction d'unecollection de variétés dont la topologie est proche de celle des variétés supports. Sa complexitéest en O(d:n) pour construire chaque lien. Elle peut être utilisée dans les espaces de grandedimension sans di�cultés.

5.7 Conclusion

Dans ce chapitre, nous avons fait le lien entre les voisins 0:5-observables et les voisins na-turels. Nous avons montré que l'on pouvait approcher le voisinage Naturel par le voisinage 0:5-Observable, la di�érence entre les deux voisinages diminuant expérimentalement pour une densitéuniforme des sommets, lorsque la dimension de l'espace considéré augmente ou lorsque le nombrede sommets diminue.

89

Chapitre 5. Voisinage 0:5-Observable et graphes de proximité

Nous avons étudié les propriétés du graphe des -observables et ses liens avec d'autres graphesde proximité.

Ce graphe est nécessairement connexe pour � 0:5, et nécessairement non orienté pour = 0:5 et = 1. Pour = 0:5, il est en plus identique au graphe de Gabriel dans le cas général.

On démontre que dans un ensemble de points de IRd, tout point a au moins un voisin 0:5-observable parmi les autres, et s'il n'y en a qu'un, c'est son plus proche voisin.

Le graphe des 0:5-observables peut s'obtenir à partir de la triangulation de Delaunay, parsuppression de tout lien plus grand côté d'un triangle obtusangle.

Le nombre de liens de ce graphe est compris entre Ns� 1 et Ns(Ns+1)2 où Ns est le nombre de

sommets. Le nombre maximum de couples de points voisins naturels non 0:5-observables d'unensemble de Ns points de IR

d, est NS(NS�1)2 + 1.

Nous proposons deux heuristiques pour mettre à jour les liens de la Triangulation Induite deDelaunay.

Nous retenons la Triangulation Induite de Delaunay pour modéliser la topologie des variétéssupports, comme seule solution actuellement utilisable en grande dimension.

Dans le chapitre suivant, nous nous intéressons aux aspects algorithmiques du voisinage -Observable.

90

Chapitre 6

Algorithmes et complexité

91

Chapitre 6. Algorithmes et complexité

6.1 Introduction

Dans ce chapitre, nous étudions les aspects algébriques et algorithmiques du voisinage -Observable.

Nous présentons un critère algébrique de -observabilité, puis donnons les algorithmes brutet optimisé pour le calcul des voisins -observables. En�n nous comparons expérimentalement lacomplexité de ces algorithmes avec celle du Neural-Gas qui utilise un voisinage de type k-PPV.

6.2 Caractérisation du voisinage -Observable

Nous dé�nissons un critère algébrique d'appartenance au voisinage -Observable.Soit v 2 E, nous dé�nissons Cj(w; v; ) :

Dé�nition 8 Fonction caractéristique

Cj(w; v; ) =nY

l=1;l 6=jH(dlj � djj) =

(1; si dlj � djj8l 6= j0; sinon

(6.1)

avec 8(l; j) 2 (1; : : : ; n)2; dlj = kwl � vjk où H est la fonction d'Heaviside (3.3) et 8j 2(1; : : : ; n); vj = wj + (1� )v.

Nous avons par conséquent :

Conséquence 6Cj(w; v; ) = 1 , wj 2 V GO( ;w)(v) (6.2)

Ce qui se démontre facilement :

Démonstration 158l 6= j; Cj( ;w; v) = 1

, dlj � djj � 0, vj 2 Vw(wj), wj 2 V GO( ;w)(v)

(6.3)

2

Cj(w; v; ) est une fonction caractéristique de l'appartenance du représentant wj au voisinage -Observable de v.

6.3 Critère de -observabilité

Soit � le domaine borné de E de diamètre Æ contenant les représentants wi de w et lesdonnées v de la distribution D (D � �). Dominique Lepetz et Max Nemoz-Gaillard [11] ontdémontré la propriété suivante :

Propriété 18 Critère de -observabilité

8i 2 (1; : : : ; n);8v 2 � � E;8w 2 �;

Ci(w; v; c) = 1 avec c = 1� minj2(1;:::;n)

0BBBBB@ minl2(1;:::;n)

l 6=j

1

2

kwl � wjkÆ + kwjk

!1CCCCCA(6.4)

92

6.3. Critère de -observabilité

Démonstration 16 Critère de -observabilité

D'après la caractérisation des voisins -Observables :Cj(w; v; )=1 , d2lj�d2jj � 0 8l 6= j

, kwl�vjk2�kwj�vjk2 � 0 8l 6= j, kwl�wj + (1� )(wj�v)k2�k(1� )(wj�v)k2 � 0 8l 6= j, kwl�wjk2�2(1� ) hwl�wjjv�wji| {z }

P

� 0 8l 6= j

Si le produit scalaire P est négatif ou nul, cette inégalité est véri�ée automatiquement etCj(w; v; ) = 1 est réalisé.

Si P est positif, alors pour réaliser Cj(w; v; ) = 1, on doit avoir :

1� � 1

2

kwl � wjk2hwl � wj jv � wji 8l 6= j (6.5)

or

hwl � wjjv � wji � kwl � wjkkv � wjk � kwl � wjk(kvk + kwjk) � kwl � wjk(Æ + kwjk) (6.6)

Ainsi pour j �xé, Cj(w; v; ) = 1 est réalisé pour tout v de � lorsque :

1� = minl2(1;:::;n)

l 6=j

1

2

kwl � wjkÆ + kwjk

!(6.7)

Lorsque j décrit f1; : : : ; ng, Cj(w; v; ) = 1 est réalisé si l'on choisit tel que :

1� = minj2(1;:::;n)

0BBBBB@ minl2(1;:::;n)

l 6=j

1

2

kwl � wjkÆ + kwjk

!1CCCCCA (6.8)

2

Le choix de supérieur ou égal à cette valeur critique c garantit que tous les représentantswj appartiennent au voisinage -Observable de tout point v de �. On peut dire qu'il n'y a pas delocalisation ou de spécialisation des représentants sur une région particulière de la distribution.

On a alors :

8v 2 � � E;8 2 [ c; 1]; V GO( ;w)(v) = w (6.9)

ce qui généralise la conséquence 2 de la dé�nition 6.

Par construction, c est minorée strictement par la valeur 0:5. Cela signi�e que pour � 0:5et quelque soit la con�guration des représentants, il existe au moins un point v de la distributionD � � dont l'un au moins des représentants n'est pas -observable. En d'autres termes pour � 0:5, les représentants ne sont pas tous -observables de tous les points de la distribution.

On peut donc assurer que pour � 0:5, il y a nécessairement spécialisation de certainsreprésentants sur certaines régions de la distribution. Cette spécialisation va croissante lorsque décroît, elle est maximale lorsque = 0, chaque représentant est alors spécialiste de sa régionde Voronoï : aucune donnée n'est représentée par plus d'un représentant.

93

Chapitre 6. Algorithmes et complexité

1

0 γc 1 γ

n

Taille de VGOγ

Fig. 6.1 � Valeurs seuils de : Il existe n� 1 valeurs seuils pour . c est la plus grande deces valeurs.

En�n, nous remarquons que lorsque passe continuement de 0 à 1, le nombre de voisins -observables passe de 1 à n par paliers, il existe en fait au maximum n� 1 valeurs seuils de pour lesquelles il y a changement du nombre de voisins -observables. c est la valeur seuil laplus proche de 1. La �gure 6.1 illustre cette propriété.

6.4 Algorithme brut

L'algorithme simple de calcul du voisinage -Observable d'une donnée est présenté dans letableau 6.1.

V GO( ;w)(v) ;Présenter une nouvelle donnée vPour tous les wi 2 wCalculer vi = wi + (1� )vV GO( ;w)(v) V GO( ;w)(v) [wi (on suppose wi 2 V GO( ;w)(v))

Pour tous les wj 2 w n fwig(si wj est plus proche de vi que wi; vi 62 Vi donc wi 62 V GO( ;w)(v))

Si (kwj � vik < kwi � vik)AlorsV GO( ;w)(v) V GO( ;w)(v) n wiSortir de la boucle

FinSiFinPour

FinPour

Tab. 6.1 � Algorithme brut

Sa complexité en temps de calcul au pire cas est O(d:n2). La dimension d de E intervientdans le calcul des distances euclidiennes. Les deux boucles imbriquées explique le n2 (n nombrede représentants).

94

6.5. Algorithme optimisé

6.5 Algorithme optimisé

On peut faire décroître la complexité en considérant les propriétés géométriques suivantesillustrées sur la �gure 6.2 :

wi

Ri

Rin

Rout

(S )out

(S )in

(S)i

Rout Ri

vi

v

(S )out

w i

(S)i

vi

v

(a) (b)

Fig. 6.2 � Illustration pour l'algorithme optimisé

� Un représentant wi ne peut être voisin -observable d'une donnée v s'il existe un autrereprésentant wj plus proche de vi que wi, donc si wj est à l'intérieur de l'hypersphère Svide rayon Rvi = kvi � wik = (1 � )kv � wik centrée sur vi. Svi est la région de proximitéde l'unité wi.

� Aucun représentant en-dehors de l'hypersphère Svout de rayon Rvout = kv�wik centrée surv, ne peut être aussi à l'intérieur de Svi .

� En�n, si > 0:5, aucun représentant à l'intérieur de l'hypersphère Svin centrée sur v et derayon Rvin = (2 � 1)kv � wik, ne peut être aussi à l'intérieur de Svi .

Pour savoir si un représentant wi est voisin -observable de v, il su�t de ne contrôler que lesreprésentants candidats situés hors de Svin mais dans Svout qui seuls sont susceptibles d'être dansSvi et donc d'empêcher wi d'être -observable. Si l'on prend le temps de trier les représentantsdans l'ordre croissant de leur distance à la donnée v (complexité O(n:(d+ log(n)))), la recherchedes représentants candidats par dichotomie est trés rapide (O(log(rang de wi))) et leur nombreest bien inférieur à n pour les wi les plus proches de v et les fortes valeurs de : c'est dans cescas que le volume de Svout nSvin est minimum donc susceptible de contenir le moins de candidats.

L'algorithme optimisé est présenté dans le tableau 6.2.

La complexité au pire cas reste en O(d:n2), en fait le nombre maximum de candidat est égaleau rang du représentant considéré donc la complexité est en O(d:(n+(n�1)+ :::+1)) = O(d:n2).En pratique, cependant, l'expérience de la section suivante montre que la complexité e�ective del'algorithme opimisé peut être proche de O(n:(d+ log(n))). .

6.6 Complexité

Nous avons comparé le temps de calcul de l'algorithme du Neural-Gas avec les algorithmesbruts et optimisés du voisinage -Observable quanti�ant une distribution aléatoire uniforme in-scrite dans le carré unité à 2 dimensions (cf. chapitre 9 pour le protocole et la règle d'adaptation).Nous avons lancé les trois algorithmes pendant 10000 itérations avec n = f5; 10; 50; 100; 1000; 5000g

95

Chapitre 6. Algorithmes et complexité

Calculer la distance de chaque représentant à v (O(d:n))Trier les représentants par ordre croissant de leur distance à v (O(n: log(n)))Pour tous les représentants wi dans cet ordre (O(n))Calculer di = kvi � wik = (1� )kv �wik (O(1))Trouver le rang rws du premier représentant ws 62 Svin (O(log(rwi

)))Supposer wi 2 V GO( ;w)(v)

Pour chaque représentant wj tel que rj 2 [rws ; rwi[ (O(rwi

�rws))Calculer dj = kvi � wjk (O(d))Si (dj < di) sortir de cette boucle car wi 62 V GO( ;w)(v)

FinSiFinPour

FinPour

Tab. 6.2 � Algorithme optimisé

représentants. La machine utilisée est une station Sparc Ultra-510, avec un microprocesseursparcv9 360MHz.

Pour les trois approches, le temps de calcul ne dépend que de la dimension d (apparaissantdans les calculs de distance) et du nombre n de représentants (apparaissant dans les boucles, lestris et recherches de minimum). Pour l'algorithme des VGOs optimisé, le temps dépend aussi dela valeur de . Pour = 0, la complexité est O(d:n) car seul le plus proche représentant de ladonnée v courante est actif (distances en O(d:n) et recherche du minimum en O(n)), tandis quepour = 1, la complexité est en O(1) pour la recherche des VGOs car tous les représentants enfont partie, mais en O(n) si l'on tient compte de la phase d'adaptation. Dans ces deux cas, lacomplexité est inférieure à celle du NG (O(n:(d+ log(n))) mais ces cas sont marginaux puisqueréellement atteint en tout début et toute �n de la phase d'apprentissage.

La �gure 6.3 montre que l'algorithme brut est e�ectivement en O(n2) tandis que pour l'algo-rithme optimisé, la complexité est dans le pire des cas testés ( proche de 1 et 5000 représentants)un ordre de grandeur plus forte que celle du NG et entre 2 et 3 fois plus forte dans le meilleurdes cas (moins de 100 représentants).

Le pire cas pour un nombre de représentants donné, correspond aux fortes valeurs de .En e�et, dans ce cas le rapport du volume de l'hypersphère Svi sur celui de l' �hyper-anneau�Svout nSvin est proche de 0, il y a donc trés peu de chance pour qu'un candidat tombe dans Svi etarrête la boucle de test avant terme. Si au contraire, est faible, le volume de Svi tend vers celuide Svout , ce qui augmente la probabilité de trouver un candidat dans Svi et d'arrêter rapidementla boucle de test.

Notons que décroît de manière exponentielle vers de faibles valeurs durant la phase d'ap-prentissage et donc la complexité moyenne de l'algorithme optimisé est proche de sa borneinférieure donc proche de celle du NG.

En�n, les calculs utilisés dans l'algorithme brut, sont aisément parallélisables puisqu'il s'agitd'opérations linéaires (calculs de distances euclidiennes) et de recherches de minima. On pourraitdonc envisager son implémentation sur circuit spécialisé ce qui ferait chuter la complexité àO(d + n) (calcul des n vecteurs vi en O(1), puis calcul des n

2 distances kvi � wjk en O(d) puisn recherches de minima en O(n)).

96

6.6. Complexité

Fig. 6.3 � Complexité en temps Complexité en temps de l'algorithme du Neural-Gas (NG)comparé aux algorithmes brut et optimisé du voisinage -Observable (GON), lors de la quan-ti�cation vectorielle d'une distribution uniforme dans le carré unité, pendant 10000 itérations.La courbe de temps de l'algorithme optimisé est tracée seulement pour = 0:01 et = 0:99,les courbes correspondant à d'autres valeurs de 2 [0:01; 0:99] se situent entre ces deux courbesavec une position d'autant plus haute que est grand.

97

Chapitre 6. Algorithmes et complexité

6.7 Quanti�cation vectorielle et fonction d'énergie

L'étude de la di�érentiabilité de la fonction d'énergie minimisée par la règle du voisinage -Observable utilisée en quanti�cation vectorielle, est abordée dans l'annexe C. Ce travail estune étape préliminaire à l`étude de la convergence de cet algorithme.

6.8 Conclusion

Nous avons dé�ni un critère algébrique de -observabilité et étudié ses propriétés. Nous avonsprésenté les algorithmes brut et optimisé pour le calcul des voisins -observables. Et nous avonscomparé la complexité en temps, de ces algorithmes qui est proche de celle du Neural-Gas lorsde la quanti�cation d'une distribution synthétique.

La complexité au pire cas des voisins -observables est en O(d:n2). L'un de nos objectifs était

que cette complexité soit moindre que celle des voisins naturels en O(ndd2e), ce qui est le cas. Le

tableau 6.3 montre l'ordre de grandeur de la complexité des voisins -observables en fonction ded et n comparée à celle des voisins naturels entre parenthèses.

dnn 10 100 1000

2 2 � 102 (10) 2 � 104 (102) 2 � 106 (103)3 3 � 102 (102) 3 � 104 (104) 3 � 106 (106)4 4 � 102 (102) 4 � 104 (104) 4 � 106 (106)5 5 � 102 (103) 5 � 104 (106) 5 � 106 (109)6 6 � 102 (103) 6 � 104 (106) 6 � 106 (109)7 7 � 102 (104) 7 � 104 (108) 7 � 106 (1012)8 8 � 102 (104) 8 � 104 (108) 8 � 106 (1012)9 9 � 102 (105) 9 � 104 (1010) 9 � 106 (1015)10 103 (105) 105 (1010) 107 (1015)

15 1:5 � 103 (108) 1:5 � 105 (1016) 1:5 � 107 (1024)20 2 � 103 (1010) 2 � 105 (1020) 2 � 107 (1030)

Tab. 6.3 � Ordre de grandeur de la complexité de calcul au pire cas du voisinage -Observable avec entre parenthèses, celui du voisinage Naturel

La complexité des -observables est polynômiale avec la dimension. Si l'on peut se contenterde l'approximation des voisins naturels par les 0:5-observables, alors il est intéressant de lesutiliser même en faible dimension.

En�n, l'annexe C présente nos résultats concernant la di�érentiabilité de la fonction d'énergieminimisée par la règle du voisinage -Observable.

Dans le chapitre suivant, nous abordons les techniques d'interpolation qui nous permettronsd'obtenir des variétés non linéaires.

98

Chapitre 7

Interpolation

99

Chapitre 7. Interpolation

7.1 Introduction

Dans ce chapitre, nous présentons des techniques d'interpolation et d'approximation locale,que nous caractérisons par leurs propriétés, et dont nous analysons les avantages et les limites.

7.2 Interpolation

7.2.1 Dé�nitions

Soit deux applications f et g d'un espace E � IRdin dans un espace F � IRdout et unensemble de points w = (w1; : : : ; wn) 2 E et leur image : g(w) = (g(w1); : : : ; g(wn)) 2 F , on ditque f est une fonction d'interpolation des points p = (w; g(w)) 2 E � F si elle passe par cespoints :f(wi) = g(wi);8i.

Ne connaissant la fonction g qu'au travers des points p, on cherche une fonction d'interpolationf qui passe par tous ces points dans le but d'approcher g. Lorsque f ne passe pas exactementpar chaque point p mais s'en approche, on parle d'approximation.

Les points p sont appelés �noeuds� de l'interpolation. Il existe une in�nité de fonctions quipassent par un nombre �ni de noeuds et l'on détermine en général un critère supplémentaireque l'on cherche à minimiser pour n'en retenir qu'une : on parle alors de régularisation. Uncritère de régularisation peut être par exemple la variation minimale de courbure : on choisit lafonction qui passe par tous les points en oscillant le moins possible. Lorsque f est une fonctionparamétrique, on peut chercher à minimiser le nombre de ses paramètres, par exemple prendrepour f un polynôme de degré minimal qui permet à f d'interpoler les points p.

7.2.2 Choix d'une famille de fonctions

Approche globale ou locale ?

L'approximation de g par f connaissant les points p peut s'e�ectuer en utilisant les techniquesd'approximation classiques de type Fourier, Perceptron Multi-Couches ou polynômes, qui sontdes approches globales, c'est-à-dire pour lesquelles chaque paramètre in�ue sur la fonction f dansl'ensemble de son domaine de dé�nition. Les problèmes des approches globales ont été décritsdans le chapitre 2 : ils sont liés aux interférences et à leur inaptitude à représenter la topologiede la distribution. Nous nous intéressons aux approches locales qui permettent de limiter lesphénomènes d'interférences et de représenter la topologie de la distribution.

Approximation ou interpolation ?

Parmi les approches locales, il existe deux familles : les techniques d'interpolation dont lafonction passe par des points particuliers que l'on peut identi�er explicitement en ne considérantqu'une partie des paramètres du modèle, et les techniques d'approximation locale (RBF par ex-emple) dont on ne peut trouver les points de passage qu'en considérant l'ensemble des paramètresdu réseau. Ces dernières sont dites locales mais sont en fait théoriquement globales : l'in�uencede chaque noeud en des points de l'espace éloignés d'eux, bien que négligeable, n'est pas nulle.

De manière générale, les techniques d'approximation locales combinent des fonctions de baseindépendantes, la position de leur centre et leur étendue spatiale sont dé�nies par un jeu de"paramètres d'étendue" à régler. Au contraire, les techniques d'interpolation combinent des

100

7.2. Interpolation

Fig. 7.1 � Interpolation des données ou de leurs représentants : La fonction recherchée esten pointillés. Les données (points noirs) en sont issues mais peuvent être bruitées. Une approchenon-paramétrique consiste à interpoler les données elles-mêmes (à gauche), le modèle capture lebruit. Une approche paramétrique consiste à interpoler des représentants de ces données (disquesblancs), ce modèle existe indépendamment des données et permet de �ltrer le bruit éventuel.

fonctions de base interdépendantes, dont l'étendue est contrôlée structurellement par la posi-tion des fonctions de base voisines ce qui implique la dé�nition d'un voisinage qui joue le rôledes "paramètres d'étendue".

L'intérêt du voisinage utilisé par les techniques d'interpolation est double en ce qu'il permetde régler l'étendue des fonctions de base, et aussi de représenter la topologie de la distribution.

Les techniques d'interpolation nous intéressent donc tout particulièrement puisqu'elle per-mettent à la fois la modélisation de la fonction g et la représentation de la topologie de ladistribution.

Choix des noeuds de l'interpolation

Les noeuds de l'interpolation ne sont pas nécessairement les données de la distribution elles-mêmes, mais peuvent être des représentants de ces données que l'on positionne sur la distribution(cf. �gure 7.1). Dans ce cas, f réalise une approximation de g en interpolant les noeuds wreprésentant les données. Les points par lesquels passent la fonction f ne sont plus les points p =(w; g(w)), puisque les g(w) peuvent être inconnus, mais les points q = (w; f(w)). L'approximationde g par f s'e�ectue en adaptant la position des représentants w et la valeur de f(w) en cespoints, donc en modi�ant la position des points q dans l'espace produit E � F .

Modèle considéré

Nous nous intéressons aux techniques qui construisent la fonction f par combinaison defonctions fi paramétriques localisées spatialement par des fonctions �noyaux� :

f(v; w; u) =nXi=1

�i(v; w; u)fi(v; w; u) (7.1)

où v est élément de E, �i est une fonction noyau associée au point wi de w, et fi est une fonc-tion généralement constante ou linéaire. �i et fi dépendent toutes deux d'un jeu de paramètresu qu'il faut régler soit a priori, soit en fonction de données à modéliser (apprentissage par min-imisation d'une fonction d'énergie).

Notation

Pour simpli�er l'écriture, nous omettrons dans la suite le jeu de paramètres u dans les argu-ments des di�érentes fonctions.

101

Chapitre 7. Interpolation

0 1 2 3 4 5 6 7 8 9 100

0.2

0.4

0.6

0.8

1

1.2

1.4

1.6

1.8

2

position

activ

atio

n

0 1 2 3 4 5 6 7 8 9 100

0.5

1

1.5

2

2.5

3

3.5

4

position

activ

atio

n

0 1 2 3 4 5 6 7 8 9 100

0.5

1

1.5

2

2.5

3

3.5

position

activ

atio

n

(a) (b) (c)

Fig. 7.2 � Di�érentes propriétés des fonctions noyaux : (a) Partition de l'unité. (b) Or-thogonalité. (c) Ordre de continuité (C1 en chaque centre à gauche et C0 en chaque centre àdroite)

7.2.3 Propriétés des fonctions noyaux

Caractérisation

Les fonctions noyaux sont caractérisées par la position de leur centre, et la forme et l'étenduede leur région support. Les fonctions noyaux devant localiser les fonctions fi, leur activité estgénéralement maximale en leur centre et décroissante avec la distance à ceux-ci.

Il existe quatre propriétés particulières pour les fonctions noyaux :� Partition de l'unité : la somme des fonction noyaux en tout point de E vaut 1 :Pn

i=1 �i(v; w) = 1. Cette propriété permet d'assurer que l'on peut représenter exactementdes fonctions d'une famille donnée (e.g. constantes, linéaires, polynômes,. . .) si les fi sont decette même famille. En e�et, si 8i; fi(v; w) = g(v), alors f(v; w) =

Pni=1 �i(v; w)fi(v; w) =

g(v)Pn

i=1 �i(v; w) = g(v). La �gure 7.2(a) illustre cette propriété.� Orthogonalité : la valeur de la fonction noyau �i au noeud wi est non nulle, et nulleen tout autre noeud wj : 8i; �i(wi; w) 6= 0 et 8i 6= j; �i(wj ; w) = 0. Cette propriétéassure qu'en chaque noeud, seule la fonction associée à ce noeud est utilisée ou active :f(wi; w) = �i(wi; w)fi(wi; w). La �gure 7.2(b) illustre cette propriété.

� Orthonormalité : s'il y a à la fois orthogonalité et partition de l'unité, on a alors or-thonormalité et 8i; �i(wi; w) = 1 et donc f(wi; w) = fi(wi; w). Notons qu'on ne peutlégitimement parler d'interpolation des noeuds w par la fonction f , que lorsqu'il y a or-thonormalité.

� Système de coordonnées : les fonctions noyaux sont telles que si fi = wi, alors : v =Pni=1 �i(v; w)wi. Les fonctions noyaux forment alors un système de coordonnées de E. Le

système de coordonnées barycentriques est le plus connu.� Ordre de continuité : l'ordre de continuité de la fonction f dépend de celui des fonctionsnoyaux �i et des fi. En générale, les fi sont des fonctions simples, constantes ou linéaires,continues à tout ordre (classe C1). Les �i peuvent être de classe C0 en chaque noeudset sur certaines arêtes, et C1 ailleurs (interpolation linéaire par morceaux) ou bien êtreC1 partout. On se satisfait souvent de la continuité des dérivées premières partout, maiscertaines applications peuvent nécessiter une continuité des dérivées d'ordre supérieur. La�gure 7.2(c) illustre cette propriété.

102

7.2. Interpolation

Fig. 7.3 � E�et du �casque Prussien� : les noyaux dont l'orthonormalité est obtenue parnormalisation, présentent l'e�et du casque prussien. En trait �n, le modèle linéaire associé àchaque noeud (cercles), en trait gras, un modèle obtenu avec des noyaux normalisés qui passe parle point d'intersection des modèles linéaires, et en traits pointillés, une spline cubique naturelle.Dans les deux cas présentés, la courbe est tangente au modèle linéaire en chaque noeud mais lacourbe spline n'oscille pas : ses variations de courbure sont minimales.

Fonctions noyaux normalisées

Un moyen simple d'obtenir la partition de l'unité est de normaliser les fonctions noyauxdé�nissant ainsi une "fonction noyau normalisée" :

�i(:) =�i(:)Pj �j(:)

(7.2)

dont on véri�e que la dérivée est :

�0i(:) =�0i(:) � �i(:)

Pj �

0j(:)P

k �k(:)(7.3)

Si l'on utilise des fonctions noyaux �i telles que 8(i; j); �0i(wj) = 0 alors 8(i; j);�0i(wj) = 0 etdonc :

8i; f 0(wi) = f 0i(wi) (7.4)

Donc si les noyaux �i sont orthonormaux et de dérivée nulle en leur centre, alors le modèle futilisant les noyaux normalisés respecte la valeur des modèles fi(wi) ainsi que leur dérivée f

0i(wi)

en wi.

La normalisation entraîne l'e�et de "casque prussien" ainsi nommé par Sibson [173] : lafonction de sortie bien que continue, passe nécessairement par le point d'intersection s'il existe,des fonctions fi participantes, i.e. pour lesquelles la fonction noyau �i n'est pas nulle, soit :

8i; �i 6= 0 alors fi(v) = c) f(v) =

Pi �ifiPi �i

= c (7.5)

où (v; c) est le point d'intersection des modèles fi dans E � F .Par conséquent, la fonction f ne minimise pas les changements de courbure. La �gure 7.3

montre un tel e�et sur une courbe interpolant deux points. Les courbes B-splines que nousprésentons dans la suite sont plus régulières et ne présentent pas cet e�et.

103

Chapitre 7. Interpolation

Notons en�n, qu'aprés normalisation, les fonctions noyaux ne sont plus nécessairement décrois-santes avec la distance à leur centre comme on le voit sur la �gure 7.2(b) qui utilise les noyauxde Shepard présentés dans le paragraphe 7.3.2.

7.3 Techniques existantes et liens avec les voisinages

Interpoler signi�e calculer la valeur d'une fonction en un point v connaissant la valeur de cettefonction en des points voisins wi (les noeuds). Les voisins qui participent à l'interpolation, sontceux dont la fonction noyau est non nulle ou active. Les fonctions noyaux actives déterminentdonc un voisinage du point v considéré, et leur support est la région d'in�uence de leur centre ausens de ce voisinage. Il existe alors des liens entre les techniques d'interpolation et la dé�nitiond'un voisinage. L'article de Duch et Jankowski [59] passe en revue di�érentes fonctions entrée-sortie utilisées dans les réseaux de neurones, et entre autres les fonctions noyaux (RBFs) quenous décrivons ici avec d'autres techniques d'interpolation.

7.3.1 Les noyaux à fonction radiale de base

Di�érentes variantes

Connus sous le nom de RBFs (�Radial Basis Functions�), il s'agit de fonctions noyaux de laforme :

�i(v; w) = h(ri) (7.6)

où ri est la distance au centre du noyau wi. La fonction h et la distance utilisées peuventprendre de nombreuses formes [155][152], mais nous nous restreignons à la forme exponentiellebien connue de la communauté connexionniste :

h(ri) = e�ri (7.7)

et la distance ri peut être basée sur di�érentes normes de Minkowski :

ri =

0@ dinXk=1

jv[k] � w[k]i j�

1A 1�

(7.8)

ri est la distance Euclidienne pour � = 2 ou de Manhattan pour � = 1, ou bien l'on peututiliser la distance de Mahalanobis [125]

r2i = (v � wi)>Ai(v � wi)) (7.9)

où Ai est une matrice carrée.

Les régions d'iso-activation de ces fonctions noyaux sont de type ellipsoïdales, paraboliques ouhyperboliques. Dans le cas de la norme Euclidienne (Ai est la matrice identité), il s'agit d'hyper-sphères centrés en wi (cf. �gure 7.4(a)), les réseaux correspondants sont étudiés dans [35], [147]et [148]. Lorsque Ai est diagonale mais di�érente de l'identité, ce sont des hyper-ellipsoïdes dontles axes sont parallèles aux axes de coordonnées, et ces hyper-ellipsoïdes subissent des rotationsautour de wi lorsque Ai est symétrique sans autre contrainte [152], [168] (cf. �gure 7.4(b)). Si Ai

est la matrice de covariance des données v de la distribution autour du noyau wi, alors les axesdes hyper-ellipsoïdes sont orientés dans les directions principales de cette distribution.

104

7.3. Techniques existantes et liens avec les voisinages

(a) (b) (c)

Fig. 7.4 � Di�érents noyaux RBFs : (a) noyau RBF sphérique, (b) noyau ellipsoïdal, (c)noyau asymétrique.

Grâce aux propriétés de la fonction exponentielle, on peut dé�nir une famille de fonctionsnoyaux ayant des éléments communs avec la précédente. Dans [70] et [161], les auteurs utilisentun produit tensoriel de fonctions exponentielles :

�i(v; w) =dY

k=1

h�(v; wi; �i)dY

k=1

h+(v; wi; �i) (7.10)

où les fonctions h� et h+ sont des demi-gaussiennes de largeur di�érente, dé�nies par :

8r 2 IR; hk�(v; wi; �i) =

8><>: e� (v[k]�w

[k]i

)2

�k�i si v[k] � w[k]

i � 01; sinon

(7.11)

où chaque paramètre �k�i dé�nit la largeur du noyau parallèlement à un axe de coordonnéedans le sens positif ou négatif. On peut donc créer des noyaux asymétriques (cf. �gure 7.4(c)).

La �gure 7.4 représente les di�érents types de noyaux gaussiens.

Nombre de paramètres

Il y a dans le RBF asymétrique, 2din paramètres �k�i à régler pour chaque noyau au lieu d'unseul pour les RBFs hyper-sphériques, din pour les RBFs hyper-ellipsoïdaux d'axes parallèles auxaxes de coordonnées et d2in pour les RBFs hyper-ellipsoïdaux qui subissent des rotations (matricede distance Ai).

En prenant �k+i = �k�i , on crée un noyau hyper-ellipsoïdal d'axes parallèles aux axes decoordonnées. Et si tous les �k�i sont égaux alors le noyau est hyper-sphérique.

Normalisation

Des noyaux RBFs normalisés (NRBFs) sont présentés dans [139] et [99]. La normalisation(Partition de l'unité) modi�e la forme de ces noyaux en diminuant l'activité des noyaux les plusfaibles et en renforçant celle des plus forts en un point donné. La �gure 7.5 permet de comparerles noyaux non normalisés (a) et normalisés (b). Ce type de fonction d'activation est appelé�soft-max� par Bridle dans [34] et permet de considérer la valeur d'activation d'un noyau comme

105

Chapitre 7. Interpolation

0 2 4 6 8 100

0.5

1

1.5

2

2.5

3

3.5

position

activ

atio

n

0 2 4 6 8 100

0.5

1

1.5

2

2.5

3

3.5

position

activ

atio

n

sigma=1

0 2 4 6 8 100

0.5

1

1.5

2

2.5

3

3.5

position

activ

atio

n

(a) (b) (c)

Fig. 7.5 � E�ets de la normalisation des noyaux RBF : (a) Sans normalisation, en grasla fonction obtenue, en trait �n en bas les noyaux gaussiens, et passant par chaque point(wi; fi(wi; w)) (cercles) le modèle linéaire fi associé à chaque centre wi. (b) Avec normalisa-tion avec un rayon identique pour tous les noyaux, lorsque les centres sont proches (à droite), lafonction de sortie est plus lissée que lorsqu'ils sont éloignés (à gauche). En bas, les noyaux nor-malisés en trait gras et les noyaux non normalisés en trait �n. (c) Avec normalisation, lorsque lerayon est trop faible, la fonction se rapproche du modèle linéaire associé au centre le plus proche(ligne brisée), lorsque le rayon est trop grand, la fonction tend vers la moyenne des modèlesassociés à chaque centre (ligne droite).

une probabilité : �i(v; w) est la probabilité d'avoir f(v; w) égale à fi(v; w) en sortie du réseausachant que l'on a v en entrée.

Plus les largeurs sont petites, moins il y a de chevauchements et plus la sortie du réseaus'approche d'une fonction constante ou linéaire par morceaux. A la limite où les largeurs tendentvers 0, les noyaux normalisés se comportent comme des fonctions indicatrices de la région deVoronoï de leur centre : si les fi sont des fonctions linéaires, la sortie du réseau est identique àcelle du �Local Linear Mapping� de Ritter [157], qui associe à chaque unité un modèle linéaire, lasortie du réseau est celle de l'unité la plus proche du point d'entrée. A l'inverse, plus les largeurssont grandes, plus les noyaux se chevauchent et plus la sortie du réseau tend vers la moyenne dessorties de chaque unité (cf. �gure 7.5(c)).

Non orthogonalité

La normalisation permet de prendre en compte l'éloignement des noyaux voisins donc demieux contrôler leurs chevauchements. Cependant, cela ne peut garantir l'orthogonalité pourdeux raisons : d'une part les noyaux basés sur des fonctions gaussiennes ne sont pas à supportcompact, ils sétendent à l'in�ni et chevauchent nécessairement tous les autres noyaux bien quela valeur d'activation de chacun puisse être considérée comme négligeable au-delà d'une distanceseuil ; d'autre part si l'on utilise des fonctions à support compact, alors l'orthogonalité ne peutêtre assurée que si tout autre centre n'est pas dans la zone d'activation du noyau considéré, cequi est di�cile à assurer avec les noyaux présentés du fait de leur symétrie alors que la positionde leur centre n'est pas nécessairement régulière. La non orthogonalité peut s'observer sur la�gure 7.5(b).

106

7.3. Techniques existantes et liens avec les voisinages

0 2 4 6 8 100

0.5

1

1.5

2

2.5

3

position

activ

atio

n0 2 4 6 8 10

0

0.5

1

1.5

2

2.5

3

position

activ

atio

n

(a) (b)

Fig. 7.6 � In�uence de l'étendue des noyaux : (a) des noyaux normalisés avec un rayonidentique pour tous, engendrent une fonction régulière à gauche où les noyaux sont denses, etun changement brusque à droite où les noyaux sont moins denses. (b) augmenter le rayon pourrégulariser la fonction à droite, entraîne un lissage important à gauche.

Réglage de l'étendue

Le réglage de l'étendue des noyaux est toujours présent dans les réseaux de type RBF. Plusce rayon est grand, plus la sortie du réseau est régulière ou lissée, proche de la moyenne dessorties locales. Si l'on �xe un rayon identique pour tous les noyaux, alors la fonction de sortiesera d'autant plus lissée que la densité des noyaux sera forte. La �gure 7.6 permet de visualiserl'e�et de régularisation en fonction de la largeur et de la densité des noyaux.

Le contrôle de la densité des noyaux doit permettre celui de la précision de l'approximation :plus de noyaux doivent améliorer la précision. Il faut donc un réglage de leur étendue adapté àleur densité pour éviter le lissage en cas de forte densité : donc un rayon d'autant plus faible quela densité est forte.

Il se pose encore le problème de la symétrie des noyaux, ou de leurs directions privilégiées(les axes des hyper-ellispoïdes par exemple) puisque les centres voisins peuvent être proches d'uncôté et éloignés d'un autre, imposant des étendues di�érentes dans di�érentes directions.

7.3.2 L'interpolation des distances inverses de Shepard

Principe

Shepard [170] propose une technique d'interpolation basée sur le principe suivant : l'activitéd'un noyau est inversement proportionnelle à la distance qui le sépare de la donnée (analogiegravitationnelle). Les noyaux sont dé�nis par la formule suivante :

�i(v; w) =1diPnj=1

1dj

(7.12)

avec

di =dinXk=1

(jw[k]i � v[k]j)� (7.13)

où x[k] est la kième coordonnée du vecteur x et � spéci�e la distance utilisée.

107

Chapitre 7. Interpolation

0 2 4 6 8 100

0.5

1

1.5

2

2.5

3

3.5

4

4.5

5

position

activ

atio

n

Fig. 7.7 � L'e�et membrane de caoutchouc : la fonction tend vers la moyenne des modèlesassociés à chaque centre, loin de chacun d'eux.

Propriétés

On montre que lorsque di ! 0, �i(v; w)! 1 et �j(v; w)! 0. Donc ces noyaux sont orthonor-maux.

L'ordre de continuité de la fonction f dépend de l'exposant � utilisé dans le calcul des dis-tances di : avec les distances Euclidiennes au carré (� = 2), f est C1 partout, et plus généralementC��1 partout comme nous le montrons dans [8]. La �gure 7.2(c) illustre cette propriété.

Ce noyau a par construction la propriété d'orthonormalité et celle de partition de l'unitémais n'est pas à support compact, et les fonctions noyaux ne sont pas strictement décroissantesavec la distance à leur centre et tendent vers 1

n lorsqu'on s'éloigne à l'in�ni de leur centre, celaengendre l'e�et "membrane de caoutchouc" décrit ci-dessous et il y a alors risque d'interférencescatastrophiques.

L'e�et "membrane de caoutchouc"

La technique de Shepard présente un problème que nous appelons l'e�et �membrane decaoutchouc� : la fonction obtenue par combinaison des noyaux avec des modèles locaux con-stants ressemble à une membrane caoutchouteuse tendu entre les di�érents noeuds pi et qui serapproche asymptotiquement de la moyenne des fi lorsque l'on séloigne des noeuds. La �gure7.7 présente cet e�et.

Pour résoudre ce problème, Barnhill propose dans [21] de localiser les fonctions noyaux deShepard en leur associant un rayon d'in�uence au-delà duquel elles sont nulles. Cependant, il sepose comme dans les RBFs, le problème du réglage de ce rayon.

Approches similaires

Indépendamment des travaux de Shepard, nous avons utilisé une carte de Kohonen pour créerun approximateur de fonction : modèle que nous avons appelé CSOM [8]. Nous avons considéréque dans une carte de Kohonen, le calcul des distances de la donnée à chaque noeud étant déjàe�ectué à chaque itération lors de la phase de compétition, et la connaissance de toutes cesdistances contenant implicitement la connaissance de la position de la donnée par rapport auxnoeuds, ces distances peuvent directement servir à l'interpolation sans passer par des noyaux detype RBF. Nous avons donc proposé la fonction suivante :

�i(v; w) =

Qnk=1;k 6=i dkPn

j=1

Qnk=1;k 6=j dk

(7.14)

108

7.3. Techniques existantes et liens avec les voisinages

Fig. 7.8 � Noyaux dont l'étendue dépend de la position des centres voisins : des noyauxsymétriques sont dé�nis dans l'espace de la carte à droite, en plongeant la carte dans un autreespace à gauche, où elle est déformée, les noyaux dans cet espace le sont aussi et leur formes'adapte à la position des centre voisins.

Nous avons plus tard remarqué l'équivalence de cette fonction avec celle de Shepard, sacomplexité en nombre d'opérations est en O(n2) lorsque les distances sont déjà connues, là oùmise sous la forme proposée par Shepard8, elle n'est qu'en O(n).

L'idée d'utiliser une carte de Kohonen était de se servir du voisinage qu'elle dé�nit pourdéterminer un rayon adéquate. Ce qui nous a amené à modi�er notre approche en localisantles noyaux de Shepard grâce à une autre fonction noyau dont l'étendue dépend de la positiondes noyaux voisins (voisinage dé�ni sur la carte) [9]. Göppert a suivi une voie similaire dans cestravaux mais il a fait le cheminement inverse : il a d'abord créé une technique d'interpolationbasée sur les liens de voisinage de la carte de Kohonen, appelée ISOM [91][92][93][94] puis lacontinuité C1 n'étant pas assurée partout, il a combiner la technique de Shepard avec la sienne[96] pour l'obtenir.

Dans ces approche ISOM et CSOM, les auteurs cherchent à combiner deux méthodes pourtirer les avantages de chacune d'elles : localité basée sur le voisinage de Kohonen et continuitégrâce à l'interpolation de Shepard. Les techniques basées sur les maillages permettent d'obtenirces propriétés directement.

7.3.3 Techniques basées sur les maillages

Les techniques basées sur des maillages ont l'avantage de dé�nir exactement qui sont lesvoisins d'un centre et où ils sont. Les cartes de Kohonen en font partie.

Plutôt que d'utiliser la métrique de l'espace des données adaptée uniquement si les centressont régulièrement répartis dans cet espace, on peut dé�nir un espace séparé (appelé aussi espaceparamétrique) sous forme d'un graphe de connexions reliant les centres, et plonger cet espacedans celui des données. La métrique est alors dé�nie dans l'espace paramétrique (par exemple lacarte de Kohonen) où les unités voisines les unes des autres sont à distance unitaire, donc ellessont placées de manière régulières dans cet espace aussi irrégulière que soit leur position dansl'espace des données. Le réglage de la largeur des noyaux dépend directement de la position desvoisins dans l'espace paramétrique, il su�t donc de régler la position des centres dans l'espacedes données et de dé�nir leur voisins pour de facto dé�nir les rayons des noyaux dans cet espace.Un exemple illustre cette idée avec une carte de Kohonen sur la �gure 7.8.

Les cartes de Kohonen paramétriques

Dé�nition Une approche basée sur les cartes de Kohonen et appelée PSOM (�ParametrizedSelf-Organizing Map�) a été proposée par Ritter [159] et étudiée par Walter [189][190][191][192][194].Elle est utilisée en robotique pour la modélisation de la cinématique inverse d'un bras robot dans

8l'équation (7.14) s'obtient en réduisant aux mêmes dénominateurs les opérandes de l'équation (7.12)

109

Chapitre 7. Interpolation

vu

f(v)w(u*,)x

y(u*,)x

Espace d’entrée Espace de sortieEspace paramétriquede la carte

Fig. 7.9 � Principe des PSOM : à tout point u de l'espace de la carte où sont positionnésles neurones x, est associé un point v = w(u; x) de l'espace d'entrée, et un point f(v) = y(u; x)de l'espace de sortie. La carte réalise un homéomorphisme entre l'espace d'entrée et l'espacede sortie. On pourrait avoir des espaces supplémentaires associés par ce principe, et l'on peuttrouver pour tout point de l'un de ces espaces, le point correspondant dans les autres espaces.Par exemple, on cherche le point f(v) de l'espace de sortie associé à un point v donné de l'espaced'entrée. il su�t par une technique d'optimisation de rechercher le paramètre u� dans l'espacede la carte, tel que v = w(u�; x), pour trouver le point f(v) = y(u�; x) dans l'espace de sortie.

[193]. Les auteurs dé�nissent une interpolation de Lagrange dans l'espace de la carte. La topolo-gie de la carte est un maillage à base carrée. Les noyaux de l'interpolation de Lagrange sontdé�nis dans cet espace par :

�i(u; x) =dsYk=1

nkYj=1;j 6=i

(u[k] � x[k]j )

(x[k]i � x[k]j )

(7.15)

où ds est la dimension de la carte, nk est le nombre de neurones le long de la kième dimension

de la carte (n =Qk nk), xi le vecteur position du neurone i dans l'espace de la carte (xi 2 x) et

u le vecteur de cet espace pour lequel on cherche la valeur d'activation des n noyaux.

Principe Pour chaque point u de la carte, correspond une activation �i(u; x) particulière desnoyaux, et pour cette activation particulière correspond un point w(u; x) dans l'espace d'entréeE :

w(u; x) =nXi=1

�i(u; x)wi (7.16)

ainsi qu'un point y(u; x) dans un espace de sortie F :

y(u; x) =nXi=1

�i(u; x)yi (7.17)

Il s'agit donc de proposer un point v dans l'espace d'entrée E, puis en cherchant le point u�

de la carte tel que v = w(u�; x), l'activation des noyaux permet alors de trouver la sortie associéeà v par : f(v) = y(u�; x). La recherche de u� peut se faire en utilisant une technique de descentede gradient : on cherche u qui minimise l'écart quadratique (v�w(u; x))2. Ce principe est illustrésur la �gure 7.9.

110

7.3. Techniques existantes et liens avec les voisinages

v

wi

φi(v,w)=

1

0φi

(a) (b)

Fig. 7.10 � Coordonnées barycentriques et points de contrôle : (a) les coordonnéesbarycentriques �i de la donnée v peuvent être dé�nies pour chaque sommet wi d'un triangle,comme un rapport de surfaces. (b) points de contrôle (points noirs) nécessaires à un k-simplexepour pouvoir assurer la continuité C1 de la fonction d'interpolation associée à deux k-simplexesadjacents.

Propriétés La carte est une mémoire associative qui met en relation des espaces di�érents danslesquels sont positionnés chaque neurone. Cette mémoire peut être interrogée de deux manièresdi�érentes :

� on présente un vecteur dans l'un des espaces, et l'on recherche son image associée dans lesautres espaces (mémoire hétéro-associative) ;

� on présente à la carte un vecteur incomplet auquel il manque k coordonnées d'indicesc = c1; : : : ; ck, et celle-ci trouve un vecteur complet dont les coordonnées d'indices autreque c sont identiques à celles du vecteur présenté, qui se trouve donc complété (mémoireauto-associative et complétion vectorielle).

Discussion Le maillage de la carte de Kohonen est prédé�ni, on peut donc lui donner latopologie que l'on désire, et le maillage carré est certainement le plus facile à manipuler que ce soitpour sa construction ou bien pour l'interpolation. En e�et, lorsque le maillage est carré, le produittensoriel des fonctions de base dé�nies le long de chaque dimension de la carte permet directementd'obtenir des fonctions noyaux ayant la propriété d'orthonormalité sans l'e�et "casque prussien"[22]. Cependant, la topologie prédé�nie de la carte n'est pas nécessairement adaptée à celle de ladistribution, et il est di�cile de construire un maillage hyper-cubique à partir des représentants(ou des données elles-mêmes) dispersés dans l'espace des données au gré de la densité et de laforme de la distribution.

Les B-splines

Principe Les B-splines sont des techniques d'approximation polynômiales [21][22][23]. Lespolynômes considérés ne sont pas dé�nis sur l'ensemble de l'espace des données ce qui en feraitune approche globale, mais sur un domaine compact de type cube ou simplexe. L'approximationd'une fonction se fait par raccordement continu des polynômes dé�nis sur chaque domaine. Onpeut utiliser les B-splines à partir d'un maillage triangulaire, comme la triangulation induite deDelaunay fournie par l'algorithme CHL.

Les côtés des facettes de la triangulation ne sont pas orthogonaux, il est donc nécessaire dedé�nir un nouveau système de coordonnées paramétriques appelées coordonnées barycentriqueset présenté sur la �gure 7.10(a).

Il est aussi nécessaire de dé�nir des points de contrôle associés à chaque facette principale(cf. �gure 7.10(b)). Ces points de contrôle permettent s'ils sont placés de manière adéquate,

111

Chapitre 7. Interpolation

d'assurer la continuité de f à l'ordre désiré à la jonction de chaque facette principale avec sesvoisines. La fonction f ne passe pas par les points de contrôle mais seulement par les noeudsde la triangulation. f reste toujours à l'intérieur de l'enveloppe convexe des points de contrôleet noeuds de chaque simplexe. La �gure 7.11 montre comment on obtient la continuité entrefacettes adjacentes en réglant leur position.

Fig. 7.11 � Condition nécessaire sur les points de contrôles pour assurer la continuitéentre simplexes adjacents : à gauche, les points de contrôle de part et d'autre d'un noeuddoivent être alignés avec celui-ci, pour dé�nir une tangente commune aux deux courbes splines.Pour le noeud en noir c'est le cas, il y a continuité C1, pour le noeud en blanc, il y a unediscontinuité. A droite, le même principe s'applique pour des triangles, aux facettes adjacentes(en gris foncé) qui doivent être coplanaires pour assurer un raccordement C1 des surfaces splines.

Dé�nition f est obtenue par juxtaposition de fonctions fs dé�nies sur chaque k-simplexe spar généralisation des formules présentées dans [71] pour k = 2 :

fs(v) =Xjlj=r

ylBrl (u) (7.18)

avec u = (u1; : : : ; uk+1) le vecteur des coordonnées barycentriques du point v appartenantau k-simplexe s, telles que : v =

Pk+1j=1 ujsj et

Pk+1j=1 uj = 1 où les sj sont les sommets de s ;

où l = (l1; : : : ; lk+1) est le vecteur d'indices entiers lj tels que : 8j 2 (1; : : : ; k + 1); lj � 0 etPk+1j=1 lj = r où r est le degré des polynômes utilisés pour dé�nir fs. B

rl (u) est le polynôme de

Bernstein dé�ni par :

Brl (u) = r!

k+1Yj=1

uljj

lj !(7.19)

et par convention Brl (u) = 0 si 9j; lj 62 (0; : : : ; r). On véri�e que

Pjlj=rBr

l (u) = 1 ce quiassure la partition de l'unité des Br

l (u). Les Brl forment une base de l'espace des polynômes à k

variables de degré total r.

Les yl dé�nissent les vecteurs de F associés aux points de contrôle du k-simplexe s dans E,ainsi qu'à ses sommets. En particulier, pour tout sommet wi de s, on a f(wi) = yli où yli est levecteur associé à wi. La �gure 7.12 illustre le cas où k = 2, r = 3, din = 2 et dout = 1.

Discussion Les B-splines et autres approches similaires (Bézier et Non Uniform Rational B-Splines (NURBS)) ont été créées dans l'optique d'une application à la modélisation informatiqueet la réalisation physique d'objets à 1, 2 ou 3 dimensions. Le mot anglais �spline� signi�e latte, enréférences aux lattes de bois souples que l'on utilisait jadis pour dessiner en taille réelle des coquesde navire aux lignes hydro-dynamiques. L'informatique à remplacé le bois mais le mot demeure.Les points de contrôles étaient autrefois des ancres attachées à di�érents points de la latte pour

112

7.3. Techniques existantes et liens avec les voisinages

Fig. 7.12 � Illustration de la dé�nition d'une B-spline : une fonction polynômiale estdé�nie sur un simplexe par combinaison des polynômes de Bernstein qui forment une base despolynômes. La position yl des points de contrôle pondère ces polynômes de base et permet dedéformer la surface de la spline.

la déformer. Ce sont ces points de contrôle que l'on retrouve dans la plupart des logiciels dedessins et que l'on manipule pour déformer une courbe passant par des points déterminés.

La nécessité de ces points de contrôle devient problématique en grande dimension car ilss'ajoutent aux noeuds comme paramètres supplémentaires à adapter. Le nombre de points decontrôles nécessaire à un k-simplexe s'accroît rapidement avec k et vaut :

8k > 1; k 2 IN; Skord =ordXj=1

Sk�1j avec S1ord = ord (7.20)

sommets du simplexe compris9 (k est ici un indice et non une puissance), où ord = r + 1 est lenombre de points de contrôle sur un segment du simplexe, extrémités comprises. ord est lié àl'ordre de continuité désiré, et aussi au degré des polynômes : C1 avec ord = 4 (splines cubiquesr = 3), C2 avec ord = 5 (splines quartiques r = 4). La formule non récurrente est donnée dans[138] (p. 475) :

8k > 1; k 2 IN; Skord =(k + ord� 1)!

(ord� 1)!k!(7.21)

Si l'on veut assurer la continuité C1 ou C2 entre deux k-simplexes, il faut Nkord = Skord�k�1

points de contrôle. Le tableau 7.1 donne le nombre de points de contrôle nécessaires dans unk-simplexe pour di�érentes valeurs de k.

Au-delà de la dimension 6, il faut plus de 10 fois plus de points de contrôle que le simplexen'a de sommets. On véri�e que Nk

4 est compris entre k2 et k3. Chacun de ces points de contrôle

9Les S2ord = 1

2ord(ord + 1) sont les nombres triangulaires d'indice ord et les S3

ord = 16ord(ord + 1)(ord + 2)

sont les nombres pyramidaux d'indice ord.

113

Chapitre 7. Interpolation

k 1 2 3 4 5 6 7 8 9 10

Nk4 (C1) 2 7 16 30 50 77 112 156 210 275

Nk5 (C2) 3 12 31 65 120 203 322 486 705 990

Tab. 7.1 � B-splines et points de contrôle : Nombre de points de contrôle nécessaire dansun k-simplexe pour pouvoir assurer la continuité C1 ou C2 entre simplexes adjacents.

est un point dans l'espace d'entrée, donc a d coordonnées, soit d:Skord paramètres à régler pourchaque simplexe de la triangulation.

Cependant les points de contrôle peuvent être communs à plusieurs facettes principaleslorsqu'elles sont adjacentes, ce qui diminue le nombre total de points à manipuler dans la trian-gulation mais ne change pas son ordre de grandeur qui reste important en grande dimension.

Contrairement aux RBFs normalisés, les B-splines ne présentent pas l'e�et casque prussienet permettent d'assurer la continuité à l'ordre désiré à condition d'utiliser un nombre de pointsde contrôles su�sants. Cependant, elles ne sont pas dé�nies en dehors de chaque simplexe

Application des B-splines en grande dimension Une technique utilise des splines engrande dimension, mais uniquement sur des maillages orthogonaux : Friedman avec MARS [78],subdivise récursivement l'espace des données en régions hyper-rectangulaires dans lesquelles ildé�nit des splines cubiques (B-splines particulières).

Saranli et Baykal [167] proposent de remplacer les fonctions Gaussiennes des RBF par desfonctions B-splines radiales pour diminuer la complexité des calculs dans des applications entemps-réel.

Nous ne connaissons pas d'utilisation des B-splines en dimensions supérieures à 3 sur desmaillages de type simplexes.

7.3.4 Techniques basées sur les régions de Voronoï

L'interpolation des "Voisins Naturels" proposée par Sibson [173] est basée sur les régions deVoronoï.

Les noeuds participants à l'interpolation sont les voisins naturels de la donnée. La fonctionnoyau associée à ces noeuds est la suivante :

�i(v; w) =

ZVw(wi)\Vw[v(v)

u duZVw[v(v)

u du(7.22)

Il s'agit du rapport du volume (mesure de Lebesgue) du polytope intersection entre la régionde Voronoï du noeud wi dé�nie sur w et celle de v dé�nie sur w [ v, sur le volume de cettedernière région . Seules les régions de Voronoï des voisins naturels de v ont une intersection nonvide avec celle de v. La �gure 7.13(a) illustre un cas à deux dimensions.

Les �i sont appelées coordonnées de Sibson, car elles dé�nissent un système de coordonnéesde la donnée v [171][172][151] comme les coordonnées barycentriques. Les liens entre ces deuxsystèmes de coordonnées déjà remarqués par Farin [72] sont étudiés par Brown [36]. Les coordon-nées de Sibson ne sont pas dé�nies à l'extérieur de l'enveloppe convexe des noeuds. Le supportdes �i est la réunion des hyper-sphères de Delaunay auxquelles appartient le noeud wi. Les �isont linéaires le long de l'axe joignant wi à chacun de ses voisins naturels comme l'illustre la�gure 7.13(b).

114

7.4. Information sur le gradient

φi(v,w)=wi

v

0

1

(a) (b)

Fig. 7.13 � Interpolation des Voisins Naturels : (a) la fonction noyau associée à un noeudwi est un rapport de volume de régions de Voronoï. (b) Le noyau associé à un noeud, est linéairesur chaque segment joignant ce noeud à ses voisins naturels, de ce fait l'interpolation obtenueest C0 en chaque noeud et C1 partout ailleurs.

L'interpolation des voisins naturels assure la partition de l'unité et l'orthonormalité. Elle estC1 partout sauf en chaque noeud où elle est C0. Di�érents auteurs ont proposé des améliorationspour obtenir la continuité C1 en chaque noeud : Watson en utilisant pour chaque noeud une splinecubique dont l'argument est la coordonnée de Sibson [195], Farin en dé�nissant des simplexesde Bézier à partir de ces coordonnées [72] qui sont utilisés par Sukumar dans la "Méthodedes Eléments Naturels" [175] (Méthode des éléments �nis utilisant l'interpolation des VoisinsNaturels).

L'interpolation de Sibson est basée sur la mesure de Lebesgue de d-polytopes (intersectionsde régions de Voronoï). Une technique similaire est appelée interpolation non-sibsonienne [25] etutilisée comme interpolation dans la méthode des éléments naturels [176], est basée sur la mesurede d�1-variétés donc moins complexe que l'interpolation de Sibson. Dans tous les cas, la mesuredu volume d'un d-polytope est un des problèmes di�ciles rencontrés en géométrie [38][16]. Deplus, il faut ici connaître les sommets du diagramme de Voronoï dont on a vu la complexitéde calcul en grandes dimensions. Les applications de l'interpolation des Voisins Naturels sont ànotre connaissance limitées aux dimensions 2 ou 3 [31][111][166].

7.4 Information sur le gradient

Les di�érentes techniques d'interpolation présentées ici, se di�érencient aussi selon qu'il estnécessaire ou non de fournir un modèle fi linéaire en chaque noeud donc un vecteur de sortieet une matrice Jacobienne, i.e. les coordonnées du vecteur normal à l'hyperplan tangent à lasurface obtenue par interpolation.

Dans les RBFs, on peut s'en passer grâce au chevauchement des noyaux comme on le voitsur la �gure 7.5(a). Pour ISOM, l'information sur le gradient est fournie directement par lemaillage. Dans CSOM, comme pour l'interpolation des Distances Inverses, le gradient doit êtrefourni (cependant on pourrait procéder avec CSOM comme dans ISOM et se servir du maillagepour dé�nir implicitement cette information). Pour les Voisins Naturels , la version originale nes'en sert pas (elle n'est pas C1 en chaque noeud), mais Watson [195] propose une version qui lanécessite.

Dans les B-splines la position des points de contrôle dé�nit le gradient en chaque noeud. Il

115

Chapitre 7. Interpolation

existe cependant des versions qui prennent en compte une information extérieure sur le gradientque l'on fourni en chaque noeud [71]. Dans le modèle PSOM, il n'y a pas de réglage direct dugradient, qui est imposé par la position de l'ensemble des noeuds.

On remarque que les approches basées sur les maillages peuvent se servir de celui-ci pourobtenir l'information sur le gradient et ne nécessite donc pas son apport.

Cette information sur le gradient représente un surcroît de dindout paramètres pour chaquenoeud (taille de la matrice Jacobienne). Nous reviendrons sur cette complexité et la préciseronsdans les chapitres sur l'approximation de fonction et sur l'approximation de variétés.

7.5 Conclusion

Nous avons caractérisé les techniques d'interpolation et d'approximation locale par les pro-priétés de leurs fonctions noyaux : l'orthogonalité, la partition de l'unité, la dé�nition d'unsystème de coordonnées et l'ordre de continuité. Le tableau 7.2 résume les caractéristiques destechniques présentées.

Parmi les di�érentes techniques présentées, on peut dégager deux grandes familles, les tech-niques n'utilisant pas de maillage, et celles basées sur la dé�nition d'un maillage.

Les techniques de la première famille présentent des problèmes de régularité (e�et membranede caoutchouc de l'interpolation des distances inverses de Shepard), de di�culté de réglage desparamètres (étendue des RBFs) et d'absence d'orthonormalité (RBFs), ou de complexité descalculs en grande dimension (volumes et détermination du diagramme de Voronoï pour les VoisinsNaturels).

Les techniques de la seconde famille se basent sur la dé�nition d'un maillage (cubique pour lesPSOMs, triangulaire pour les B-splines) qui impose soit l'adéquation a priori entre sa topologieet celle de la distribution, soit sa construction à partir des données aux dépens de sa régularité.Les PSOMs ne peuvent être construites de manière adaptative tandis que les B-splines peuventse baser sur la triangulation (induite) de Delaunay. Cependant, le nombre de points de contrôlenécessaires est un frein à leur utilisation lorsque la dimension intrinsèque des simplexes est grande.

Nous nous sommes donc intéressés à l'utilisation du voisinage -Observable pour dé�nirune nouvelle technique d'interpolation. Cette technique utilise des noyaux appelés "noyaux deVoronoï", elle est basée sur la triangulation induite de Delaunay comme peuvent l'être les B-splines, mais nécessite moins de paramètres. Elle est donc plus facilement utilisable en grandedimension et s'apparente aux RBFs, mais avec la propriété d'orthonormalité et un réglage im-plicite de l'étendue par la position des noeuds voisins.

M PU OG ON SC OC AG NP EX

RBF non non non non non C1 possible (1; 2din; d2in) oui

NRBF non oui non non non C1 possible (1; 2din; d2in) oui

Dist. Inv. non oui oui oui non C��1 possible 0 oui

PSOM oui oui oui oui non C1 non 0 oui

B-spline oui oui oui oui bary. Cord�3 possible Nkord non

Vois. Nat. non oui oui oui Sibson C0;1 possible 0 non

Tab. 7.2 � Résumé des propriétés des noyaux : Maillage (M), Partition de l'unité (PU),Orthonogonalité (OG), Orthonormalité (ON), Système de coordonnées (SC), Ordre de continuité(OC), Apport de l'information sur le gradient (AG), Nombre de paramètres pour chaque noyauou simplexe (NP), Extrapolation (EX).

116

Chapitre 8

Voisins -Observables et Noyaux de

Voronoï

117

Chapitre 8. Voisins -Observables et Noyaux de Voronoï

8.1 Introduction

Dans ce chapitre, nous présentons notre deuxième contribution principale. Nous dé�nissonsune nouvelle technique d'interpolation basée sur la triangulation (induite) de Delaunay, et di-rectement liée au voisinage -Observable. Nous dé�nissons les fonctions noyaux appelées Noyauxde Voronoï dont nous étudions les propriétés et les liens avec les RBFs.

8.2 Origine

Lorsque nous avons développé le voisinage -Observable, nous avions à l'esprit le principegéométrique qui permet de déterminer les coordonnées de Sibson d'un point v (le rapport devolumes de régions de Voronoï) tel qu'une telle coordonnée associée à un noeud wi est non nullesi et seulement si la frontière de leur région de Voronoï Vw[v(wi) et Vw[v(v) respectives ont aumoins un point en commun, donc s'il existe au moins un point de la frontière de la région deVoronoï Vw[v(v) de v à l'intérieur de celle de wi dé�nie sur w seulement. La �gure 8.1 illustreles deux approches.

Au lieu de déterminer si au moins un tel point existe (ce que l'on fait indirectement pourdéterminer le voisinage naturel), il est plus aisé (mais pas équivalent), de déterminer si un pointdonné de cette frontière véri�e cette propriété, et c'est ce que l'on fait pour le voisinage 0:5-Observable avec le point vi de la frontière de Vw[v(v) qui est aussi sur la droite liant v à wi, i.e.le milieu de [vwi]. Les deux voisinages sont bien sûr di�érents comme nous l'avons déjà vu auchapitre 5.

Lorsque v se rapproche de wi, la coordonnée de Sibson associée à wi passe continuement(ordre 1 sauf si v part d'un autre noeud) de 0 à 1. Comment obtenir un résultat semblable avecle point intermédiaire vi du voisinage -Observable ?

8.3 Noyaux de Voronoï

8.3.1 Principe

L'idée est de mesurer la distance du point intermédiaire vi à la frontière des régions de Voronoïdé�nies sur w seul, et d'utiliser cette distance pour construire une fonction noyau dont la valeurest 1 en son centre wi, décroît continuement vers 0 en s'en éloignant, et vaut 0 hors de sa régionde Voronoï sur w.

La formule suivante dé�nie précisément un tel noyau :

�i(v; ; w) =Y

wq2V Nw(wi)nwi

h(uiq(v; )) (8.1)

avec h(t) une fonction cubique de classe C1 passant continûment de 1 à 0 lorsque t passe de0 à 1, dé�nie par :

h(t) =

8><>:1 si t < 0(2t+ 1)(t� 1)2 si t 2 [0; 1]0 si t > 1

(8.2)

et le paramètre de la fonction h est dé�ni pour chaque voisin naturel wq du centre wi dunoyau, comme la distance uiq entre wi et la projection orthogonale du point intermédiaire viassocié à v et wi, sur l'axe (wiwq) :

118

8.3. Noyaux de Voronoï

Fig. 8.1 � Similitudes entre interpolation des voisins Naturels et Noyaux de Voronoï :La valeur de la fonction noyau associée à un représentant au sens des voisins naturels, est dé�niepar un rapport de volumes (ici la surface de la région en gris clair sur la surface des régions engris foncé et gris clair) qui dépend de la position de la donnée (point noir). Le noyau associé aureprésentant gris le plus à droite devient inactif lorsque la région en gris clair disparaît, donclorsque la région de Voronoï de la donnée et celle de ce représentant n'ont plus de point encommun. Pour le voisinage -Observable, au lieu de considérer l'existence de tout point communde ces deux régions comme critère d'activation, nous ne considérons que le point milieu dusegment liant la donnée au représentant. Ce critère di�érent mène à deux voisinages di�érents.

uiq(v; ) = 2hvi � wijwq � wii

(wq � wi)2 où vi = wi + (1� )v (8.3)

uiq(v; ) est la valeur associée au couple formé par wi et un de ses voisins naturels wq,telle que si vi se projette orthogonalement à (wiwq) en wi, uiq(v; ) vaut 0 et si vi se projetteorthogonalement au milieu du segment [wiwq], alors uiq(v; ) vaut 1. uiq(v; ) est antécédent dela fonction cubique h qui passe continument de 1 à 0 lorsque uiq(v; ) passe de 0 à 1. La fonctionnoyau �i est alors un produit tensoriel des fonctions h, dont le support est par constructionla région de Voronoï de wi dé�nie sur w. Nous avons pour cette raison, appelé les fonctions �i"Noyaux de Voronoï" dans [12]. La �gure 8.2 illustre la construction d'un tel noyau pour = 0:5.

Lorsqu'un noeud wi n'a aucun voisin, alors nous posons par convention :

8i 2 (1; : : : ; n); V Nw(wi) n wi = ; ) �i(v; ; w) = 1 (8.4)

Cela est cohérent avec le mode de construction des noyaux par "restriction" adopté ici : toutnouveau voisin restreint l'étendue du noyau considéré. Sans voisin, un noyau s'étend donc danstout l'espace à son maximum d'activité. Un noyau peut aussi être construit par "expansion" : ila une étendue minimale ou nulle sans voisins, puis tout nouveau voisin étire la région d'in�uencedu noyau considéré jusqu'à lui, c'est le mode de construction que nous avions utilisé pour lesnoyaux du CSOM dans [9].

La valeur du noyau de Voronoï �i associé à wi est lu en vi. Il apparaît donc que cette fonctionnoyau associée à wi étant non nulle dans, et nulle hors de sa région de Voronoï dé�nie sur w, wi

119

Chapitre 8. Voisins -Observables et Noyaux de Voronoï

Fig. 8.2 � Construction des Noyaux de Voronoï : le noyau de Voronoï associé à un représen-tant wi, est obtenu par un produit tensoriel de fonctions de base dé�nies chacune grâce aux liensde voisinage de ce représentant. Dans cet exemple, chaque fonction de base vaut 1 en wi (régiongrise), 0 en wj voisin de wi (région blanche), et passe continûment de 1 à 0 entre wi et wj . Degauche à droite, l'e�et sur la fonction noyau d'un représentant, de l'ajout de nouveaux voisins àcelui-ci.

participe à l'interpolation en v lorsqu'il est aussi voisin -observable de v. On peut réécrire uiqen faisant apparaître et v explicitement :

uiq(v; ) = 2(1 � )hv � wijwq � wii(wq � wi)2 (8.5)

La fonction noyau a alors pour support une région homothétique à la région de Voronoï deson centre, c'est en fait la région d'in�uence du voisinage -Observable.

Il est équivalent de lire en v la valeur de ces fonctions noyaux, et de lire en vi les fonctionsnoyaux supportées par les régions de Voronoï elles-mêmes. La �gure 8.3 montre l'équivalenceentre les deux modes de lecture.

La �gure 8.4 présente la superposition des noyaux de Voronoï lus avec vi, associés à unensemble de noeuds triangulés avec la triangulation de Delaunay.

8.3.2 In�uence de

Nous considérons un modèle associé à v, de la forme :

f(v; ; w) =

Pi �i(v; ; w)fi(v)P

i �i(v; ; w)(8.6)

De la sorte, la propriété de partition de l'unité est assurée pour toutes valeurs de .

Lorsque = 0, vi est confondu avec v, seul le plus proche noeud de v dont on lit la valeur envi � v, est actif et participe à l'interpolation. En raison de la normalisation dans (8.6), on a :

f(v; 0; w) = fi�(v) (8.7)

120

8.3. Noyaux de Voronoï

(a) (b) (c)

(d) (e) (f)

Fig. 8.3 � Lecture des noyaux de Voronoï : (a) Le noyau de Voronoï a pour support larégion de Voronoï de son centre w. La valeur de ce noyau associée à la donnée v est lue aupoint intermédiaire vi qui est représenté sur le segment [vw] dans 5 positions correspondant auxvaleurs = f0; 0:25; 0:5; 0:75; 1g. Tout se passe comme si la lecture s'e�ectuait en v, avec unrégion support du noyau (trait gras) homothétique à la région de Voronoï de son centre, ce quel'on voit en (b) pour = 0, (c) pour = 0:25, (d) pour = 0:5, (e) pour = 0:75 et (f) pour = 1.

121

Chapitre 8. Voisins -Observables et Noyaux de Voronoï

Fig. 8.4 � Lecture en vi des noyaux actifs : tous les noyaux de Voronoï sont superposés.La lecture d'un noyau ne s'e�ectue qu'avec le point intermédiaire correspondant à son centre.Quand ce point est hors de la région de Voronoï du centre du noyau, ce noyau est inactif. Seuls lescentres des noyaux actifs sont représentés avec le niveau de gris correspondant à leur activationlue au niveau de leur point intermédiaire. La sortie associée au point v est la somme des sortiesde chaque représentant, pondérées par l'activation normalisée de leur noyau.

122

8.3. Noyaux de Voronoï

où i� est l'indice du noeud le plus proche10 de v. f est alors constante (resp. linéaire) parmorceaux si les fi sont des fonctions constantes (resp. linéaires).

Lorsque = 1, tous les points intermédiaires sont confondus avec le noeud associé, tous lesnoyaux sont actifs et valent 1, f(v; ; w) est la valeur moyenne de toutes les fonctions fi(v) : elleest constante si les fi sont des constantes, linéaire si les fi sont linéaires.

f n'est continue (ordre 1) comme combinaison de fonctions continues que pour 2]0; 1].L'orthogonalité des noyaux �i (et donc l'orthonormalité des �i normalisés) n'est assurée quepour 2 [0; 0:5] puisqu'alors les régions supports de chaque noyau lu en v ne chevauchent aucunnoeud.

Plus la valeur de est élevée, plus la fonction f est "douce" ou "régulière" , la valeur = 0:5est donc celle qui permet d'assurer l'orthonormalité avec la plus grande régularité.

8.3.3 Extrapolation

Les noyaux de Voronoï ont pour support les régions de Voronoï (cf. �gure 8.4), ils sont doncdé�nis dans l'ensemble de l'espace des données comme pour les RBFs et les noyaux de Shepardou les PSOMs de Ritter. Ce n'est pas le cas pour les techniques B-splines dont les noyaux sontdé�nis uniquement dans chaque simplexe de la triangulation utilisée, ou pour les noyaux desVoisins Naturels dé�nis uniquement dans l'enveloppe convexe de leurs centres.

En approximation de fonction, le modèle pourra proposer une sortie pour une entrée situéehors de l'enveloppe convexe des centres.

8.3.4 Noyaux de Voronoï induits

Pour que les noyaux de Voronoï tendent vers 0 à la frontière de la région de Voronoï de leurcentre wi, il est nécessaire de connaître les voisins naturels V Nw(wi) n wi de ce centre. Commeil est di�cile de les déterminer, nous nous basons sur les voisins naturels induits (VNI) dé�nisen (5) et dont nous avons vu un algorithme de construction (le CHL). La fonction support desnoyaux ainsi créés n'est plus la région de Voronoï de leur centre mais ce que nous appelons larégion de Voronoï Induite de celui-ci ; dé�nie grâce au VNI issu de la triangulation induite deDelaunay :

Dé�nition 9 Région de Voronoï Induite

V Iw;D(wi) = fv 2 � j 8wj 2 V NIw;D(wi); kv � wik � kv � wjkg (8.8)

Nous appelons par conséquent les noyaux formés, "Noyaux de Voronoï Induits".

Il faut noter que les régions de Voronoï Induites peuvent se chevaucher sur des régions demesure de Lebesgue non nulle, on ne peut pas assurer l'orthogonalité pour les noeuds non voisinsnaturels induits d'un noeud donné. La �gure 8.5(a) illustre cette propriété.

D'autre part, une "sur-triangulation" qui dé�nit des liens non présents dans la triangulationde Delaunay, ne modi�e pas la forme de la région support des noyaux que l'on obtient avec la TDseule. Lorsque la triangulation est induite, la région support dé�nie avec les liens supplémentairesest incluse dans - ou identique à - la région support dé�nie sans eux. On peut donc utiliser leCHL durant la phase d'organisation des unités sur la distribution, avec la technique de l'âgeattribué à chaque lien, sans modi�er la forme des régions supports si des liens n'appartenant pas

10En théorie, il peut exister plusieurs ex aequo car les frontières des régions de Voronoï sont communes àplusieurs d'entre elles, cependant en pratique on en choisit un seul soit par tirage aléatoire, soit en retenant ledernier considéré lors des comparaisons de distances.

123

Chapitre 8. Voisins -Observables et Noyaux de Voronoï

(a) (b) (c)

Fig. 8.5 � Noyaux de Voronoï Induits : pour dé�nir les noyaux de Voronoï, il faudraitdéterminer les régions de Voronoï par exemple en calculant la triangulation de Delaunay desreprésentants. Ce calcul étant trop complexe, nous utilisons la TID, qui permet de construiredes noyaux de Voronoï Induits. (a) Lorsqu'il manque des liens de voisinage à la TID pour qu'ellesoit identique à la TD, les noyaux de Voronoï Induits se chevauchent sur des régions de mesurenon nulle (en gras le support du noyau induit, en trait �n à l'intérieur, la région de Voronoï : lenoyau déborde de la région de Voronoï). w1 et w2 sont dans la région support lue en v (traitspointillés) donc il n'y a pas orthogonalité. (b) lorsque la TID est identique à la TD, le supportest la région de Voronoï (ici lecture en v donc support homothétique à la région de Voronoï).(c) lorsque des liens supplémentaires n'appartenant pas à la TID perdurent (par exemple lorsquel'on utilise le CHL tout en adaptant la position des représentants), on remarque que la régionsupport du noyau reste inchangée (comparer avec (b)), mais l'activité de ce noyau diminue surles bords de cette région (la région grisée rétrécie car le pro�l du noyau se creuse en raison duplus grand nombre de fonctions de base participant au produit tensoriel).

à la TID persistent. Il faut cependant noter que le pro�l de la fonction noyau se creuse lorsque cenombre augmente car plus de fonctions de base participent au produit tensoriel. Cela a tendanceà accentuer un e�et de méplat11 de la fonction f au voisinage du centre de ce noyau. La �gure8.5(c) comparée à la �gure 8.5(b) montre ce creusement.

8.3.5 Discussion pour le choix des noyaux participants

Baser la construction des noyaux sur la triangulation induite de Delaunay rend tout d'abordpossible cette construction puisque la TID est plus aisée à déterminer que la TD. Ensuite, ellereprésente la topologie de la distribution, donc la structure des variétés supports.

Cependant, la TID crée des noyaux de Voronoï Induits dont les régions supports se chevauchent.Donc si l'on choisit de lire en vi tous les noyaux de Voronoï Induits, on assure la continuité de fen tout point pour > 0, cependant l'orthogonalité ne peut plus être garantie comme on le voitsur la �gure 8.5(a). De plus, le chevauchement des noyaux peut créer des interférences puisquel'in�uence de chaque noyau peut ne plus être locale en débordant de sa région de Voronoï.

C'est pourquoi nous proposons de ne lire en vi que les noyaux de Voronoï Induits -Observables

11C'est ce même e�et qui fait tendre les fonctions noyaux des RBFs normalisés vers la fonction indicatrice deleur région de Voronoï, lorsque leur rayon tend vers 0.

124

8.4. Lien avec les noyaux RBFs

de v, donc pour lesquels vi est dans la région de Voronoï de leur centre wi12. Ces noyaux dé�nis-

sent l'ensemble des noyaux actifs Sactiv .

On assure alors l'orthogonalité pour 2 [0; 0:5] et on limite l'apparition d'interférences, maisl'on ne peut plus garantir la continuité de f , car les noyaux de Voronoï lus sont des noyaux deVoronoï Induits tronqués donc qui peuvent ne pas tendre vers 0 à la frontière de la région deVoronoï de leur centre.

Une position des noeuds su�samment régulière permet lorsque � 0:5, de limiter ces dis-continuités aux simplexes proches des frontières du complexe formé par la TID, i.e. les simplexesayant des facettes n'appartenant qu'à eux. La �gure 8.6 présentent les noyaux ainsi créés enfonction de la connectivité de la triangulation.

Cependant, il ne faut pas utiliser une valeur de trop faible si l'on désire une valeur de sortierégulière. On voit donc qu'il y a un compromis à trouver entre continuité et régularité, et = 0:5semble être une valeur adéquate qui permet aussi d'assurer l'orthogonalité.

En�n, la complexité de la recherche des noyaux participants est en O(dinn2) car les opérations

les plus coûteuse au pire cas, sont le fait de la recherche des voisins -observables de la donnée(O(dinn

2)). En comparaison, les RBFs simples sont en O(dinn) et les RBFs ellipsoïdaux enO(d2inn).

8.4 Lien avec les noyaux RBFs

8.4.1 Construction de noyaux RBFs avec les noyaux de Voronoï

Les noyaux de Voronoï sont obtenus par produit tensoriel de fonctions de base cubiques, celapermet de créer des fonctions noyaux à support compact. Si nous utilisons des fonctions de baseexponentielles :

h(t) =

(1 si t < 0

e�t2

� si t � 0(8.9)

alors en disposant 2d voisins d'un noeud deux-à-deux de part et d'autre de lui et sur desaxes orthogonaux, nous obtenons les di�érents noyaux RBFs existants. Ces noyaux ne sont pas àsupport compact donc ne peuvent garantir l'orthogonalité. La �gure 8.7 illustre ces constructions.

8.4.2 Nombre de paramètres

Les approches utilisant les noyaux RBFs, doivent régler pour chaque noyau, la position deleur centre et les paramètres relatifs à leur étendue dans d directions de l'espace. Les réglagesliés à l'étendue et utilisés pour régulariser la fonction f , ne tiennent pas compte de la positiondes noyaux voisins.

Dans le cas des noyaux de Voronoï, l'étendue des noyaux est déterminée implicitement parla position de ses voisins. Il ne reste comme paramètre local que la position du centre de chaquenoyau, et le paramétre global qui permet de régler la régularité de f . C'est une économiede 2dinn paramètres par rapport aux modèles RBFs asymétriques, et de nd2in paramètres parrapport aux modèles RBFs ellipsoïdaux utilisant une distance de Mahalanobis.

12On note ici que l'on sait déterminer facilement si vi est ou non dans la région de Voronoï de wi, donc si lenoyau de Voronoï correspondant est actif ou non, mais il n'est pas possible de construire ce noyau sans connaîtreexplicitement les voisins naturels de wi.

125

Chapitre 8. Voisins -Observables et Noyaux de Voronoï

(a) (b)

(c) (d)

Fig. 8.6 � Conséquences de la lecture des seuls noyaux dont les centres sont -observables de la donnée : ici = 0:5. En haut le principe de construction des régionsde discontinuités : un noyau de Voronoï est tronqué (trait gras) sur la frontière de la régionde Voronoï de son centre commune à lui et un centre qui en est voisin naturel mais non voisin -observable. Par homothétie, cette discontinuité se retrouve parfois à l'intérieur de simplexes dela TID lors de la lecture en v. En (a), lorsque la TID est identique à la TD, aucune discontinuitén'apparaît. En (b), une "�ssure" assez ouverte dans la TID et la lecture des noyaux -observables,tronquent certains noyaux (trait noir très large) mais ne créent pas de discontinuités (trait noirslarges) dans les simplexes de la TID. En (c) et (d) une �ssure plus profonde, et moins régulièreentraîne l'apparition de discontinuités dans les simplexes (gris foncé) bordant la �ssure. Au pas-sage de ces lignes de rupture (trait noirs larges), un noyau tronqué devient voisin -observablede la donnée, et donc devient brusquement actif créant une discontinuité de la fonction de sortie.

126

8.5. Information sur le gradient

(a)

(b) (c) (d)

Fig. 8.7 � Noyaux RBFs avec les Noyaux de Voronoï Induits : on peut obtenir di�érentsnoyaux RBFs en utilisant des fonctions de base exponentielles décroissantes, et en disposant lesvoisins d'un centre de manière symétrique et sur des axes orthogonaux. (a) position des centrespour obtenir les noyaux RBFs des �gures (b), (c) et (d). (b) noyau RBF simple, (c) noyau RBFellispsoïdal et (d) noyau RBF asymétrique.

On reporte donc le double problème de positionnement des centres et de réglage des étendues,donc du choix de la métrique locale basée par exemple sur la matrice de covariance pour la distancede Mahalanobis, sur le problème unique de positionnement des centres.

Il faut cependant noter que doivent être mémorisés les liens de voisinage de la triangulationinduite, soit au pire cas n(n+1)

2 , nécessaires à la dé�nition des noyaux de Voronoï induits. Bienque cette triangulation ne soit pas nécessaire aux modèles RBFs ellipsoïdaux, elle apporte uneinformation sur la topologie de la distribution qu'eux seuls ne peuvent donner. Nous en concluonsque si la topologie doit être représentée, il est plus économique en terme de nombre de paramètres,d'utiliser une approche de type noyaux de Voronoï qu'une approche de type RBF à noyauxellipsoïdaux.

8.5 Information sur le gradient

Les noyaux de Voronoï (Induits) nécessitent l'apport de l'information sur le gradient de lafonction de sortie fi, en chaque noeud, comme les modèles RBFs.

8.6 Conclusion

Nous avons dé�ni une nouvelle technique d'interpolation utilisant des fonctions noyaux ap-pelées Noyaux de Voronoï dont le support est une région homothétique à la région de Voronoïde leur centre. La construction de ces fonctions nécessite la détermination de la triangulationde Delaunay. Comme il est plus aisé de construire la triangulation Induite de Delaunay et qu'enplus celle-ci nous renseigne sur la topologie de la distribution, nous dé�nissons des noyaux de

127

Chapitre 8. Voisins -Observables et Noyaux de Voronoï

Voronoï Induits basés sur elle. L'étendue de ces noyaux dépend d'un paramètre et les centresdes noyaux de Voronoï activés par la donnée sont aussi ses voisins -observables.

Les noyaux de Voronoï normalisés sont orthogonaux pour � 0:5. Les noyaux de VoronoïInduits normalisés ne sont pas nécessairement orthogonaux. Tous deux assurent la partition del'unité, et la continuité pour > 0.

Pour prendre en compte la topologie induite de la Triangulation Induite de Delaunay, etassurer l'orthogonalité pour � 0:5, nous proposons d'utiliser le voisinage -Observable. Cepen-dant, la continuité des noyaux de Voronoï Induits n'est plus assurée dans ce cas. L'obtentionsimultannée de la continuité (plus facilement obtenable pour faible) et de la régularité (d'au-tant plus forte que est grand) doit alors faire l'objet d'un compromis dont = 0:5 semble unesolution acceptable qui garantit l'orthogonalité.

Les noyaux de Voronoï induits ou non sont dé�nis dans l'ensemble de l'espace des données,donc aussi hors de l'enveloppe convexe des noeuds.

Nous montrons qu'avec des fonctions de base exponentielles, les noyaux de Voronoï permet-tent de retrouver les noyaux RBFs présentés au chapitre 7 .

L'étendue des noyaux, donc la régularité de l'interpolation, est implicitement réglée par laposition des centres des noyaux voisins, i.e. fonction de leur densité, ce qui permet de réduire ledouble problème de placement des centres et de réglage de l'étendue des noyaux RBFs, au seulproblème de positionnement des centres.

Lorsque la topologie est représentée par la triangulation induite de Delaunay, la complexitédes noyaux de Voronoï basée sur elle, est égale à - ou moindre que - celle des di�érents modèlesRBFs qui ne l'utilisent pas.

Lorsque la complexité des noyaux de Voronoï est égale à celle des RBFs, c'est celle des RBFssimples qui dé�nissent une étendue identique pour tous les noyaux, tandis que le paramètre desnoyaux de Voronoï pondère leur étendue déjà localement déterminée par la position des centresvoisins. Les noyaux de Voronoï adaptent la régularité de l'interpolation en fonction de la densitédes noyaux.

Nous abordons maintenant la partie applicative de nos travaux.

128

Applications

129

Chapitre 9

Quanti�cation vectorielle avec les

voisins -observables

131

Chapitre 9. Quanti�cation vectorielle avec les voisins -observables

9.1 Introduction

Nous avons comparé l'algorithme de quanti�cation vectorielle basé sur le voisinage -Observable,avec le Neural-Gas qui est basé sur le voisinage des k-PPV. Cela nous permet de mettre en évi-dence l'importance de la topologie du voisinage utilisé.

9.2 Comparaison avec le Neural-Gas

Il s'agit de comparer en Quanti�cation Vectorielle deux approches utilisant un voisinage :celle du Neural-Gas (voisinage de type k-PPV) (simple et e�cace [131]) et celle basée sur levoisinage -Observable [13], pour la quanti�cation de quatre distributions arti�cielles présentéessur la �gure 9.1.

(a) (b)

(c) (d)

Fig. 9.1 � Distributions : Distributions utilisées en quanti�cation vectorielle. (a) distributionuniforme à 2 dimensions ; (b) quatre distributions uniformes aux coins d'un carré ; (c) deuxdistributions uniformes en forme d'anneaux carrés entrelacés en 3 dimensions ; (d) deux distri-butions gaussiennes centrées en (0; : : : ; 0) et (1; : : : ; 1) d'écarts-type respectifs 0:1 et 0:05 en 10dimensions (ici projetées en 3 dimensions).

Dans ces deux approches, le nombre de paramètres à régler est identique : un paramètrepour le pas d'apprentissage, un paramètre pour la largeur du voisinage et un paramètre pour lenombre de représentants. Cependant, ces deux approches ne sont pas directement comparables :d'une part le Neural-Gas utilise une fonction de voisinage de type exponentielle décroissante,

132

9.3. Résultats

tandis que les -Observables ont une fonction de voisinage binaire (un représentant fait partieou non du voisinage de la donnée) ; d'autre part, le paramètre de réglage de la taille du voisinagedétermine pour le Neural-Gas, toujours le même nombre de représentants actifs, tandis que dansle voisinage -Observable, ce nombre dépend aussi de la position relative des représentants.

Il n'y a alors pas d'autre solution pour comparer les deux approches que de sélectionner lavaleur optimale des paramètres pour chacune d'elles sur chaque expérience, et de comparer lesrésultats.

La règle d'adaptation (2.7) est utilisée pour modi�er la position des représentants après laprésentation d'une nouvelle donnée issue de la distribution à quanti�er. Le voisinage -Observableétant binaire (les représentants appartiennent ou non au voisinage de la donnée) tandis que celuidu Neural-Gas est continu, basé sur une fonction exponentielle décroissante, nous avons créé unvoisinage -Observables exponentiel et un Neural-Gas binaire pour pouvoir les comparer.

Nous n'optimisons que la largeur du voisinage et maintenons �xes tous les autres paramètres(pas d'apprentissage et nombre de représentants).

L'algorithme du Neural-Gas exponentiel (NGexp) est décrit dans la section 2.5.4. Pour leNG binaire (NGbin), on utilise un seuil T tel que si h�(ki(w; v)) > T , i(w(t); v) = 1 sinon i(w(t); v) = 0.

Le voisinage -Observable binaire (GONbin) est tel que i(w(t); v) = 1 si le représentant wifait partie du voisinage -Observable de la donnée v, et 0 sinon.

Le voisinage -Observable exponentiel (GONexp) utilise le classement de l'algorithme opti-misé comme dans le Neural-Gas avec i(w(t); v) = 0:01ki(v;w)=n où n = cardV GO( ;w)(v) est lenombre de représentants voisins -observables de v et ki est le rang du représentant -observablewi en fonction de sa distance à v parmi tous les voisins -observables de v. Nous avons donc i(w(t); v) = 1 pour le plus proche représentant de v et i(w(t); v) = 0:01(n �1)=n pour lereprésentant le plus éloigné.

Nous initialisons sur chaque distribution, 50 con�gurations initiales aléatoires identiques pourchacun de ces quatre algorithmes. Les positions des représentants dans ces con�gurations sesituent à l'intérieur de l'hyper-cube [0; 10]d. Les paramètres � = f�; g décroissent de manièreexponentielle pendant la phase d'apprentissage de �i vers �f suivant la règle � = �i�(�f=�i)t=tmax oùt est le nombre courant et tmax le nombre maximum d'itérations. Nous prenons � = 0:1, T = 0:5,tmax = 15000, n = 16, et choisissons i dans f1; 0:9; 0:8; : : : ; 0:1g, �i dans f500; 100; 50; 10; 5; 1g,et �f et f dans f0:1; 0:05; 0:01g.

Pour chaque algorithme sur chaque distribution avec un couple de paramètres (�i; �f ), nouscalculons la moyenne sur les 50 essais de la moyenne des écarts au carré évaluée toutes les500 itérations sur 1000 données issues aléatoirement de la distribution. Nous ne retenons pourla comparaison, que le couple de paramètre (�i; �f ) qui mène en premier lieu, à la plus faibledistortion moyenne �nale et si il y a égalité, à la plus grande vitesse de convergence en termede nombre d'itérations. La Figure 9.2 montre les résultats obtenus par la meilleure de chaqueméthode pour chaque distribution, le couple de paramètres optimaux parmi ceux testés, estdonné en légende.

9.3 Résultats

On constate que sur les distributions a) et c), GONbin converge plus vite vers une distortion�nale similaire que tous les autres algorithmes. Sur la distribution b), bien que les deux approches -Observables convergent plus vite que les NGs, elles présentent une distortion plus grande. Surla dernière distribution d), GONexp converge plus vite que les autres algorithmes (environ 5

133

Chapitre 9. Quanti�cation vectorielle avec les voisins -observables

(a) (b)

(c) (d)

Fig. 9.2 � Comparaison des distortions moyennes : comparaison des distortions moyennesobtenues sur 50 essais avec le meilleur réglage de paramètres pour chaque algorithme : NGbin,NGexp, GONbin et GONexp. Le couple de nombres apparaissant dans la légende après le nomde chaque algorithme est (�i; �f ) pour les NGs et ( i; f ) pour les GONs.

134

9.4. Non-convexité et taille du voisinage

fois plus vite que le NGexp). La méthode la plus constante semble être le GONbin qui sur les3 premières distributions, converge plus vite que le NGexp, et presque aussi vite que lui sur ladernière.

Une convergence plus rapide en terme de nombre d'itérations est intéressante car elle permetd'accroître la vitesse d'apprentissage sans pour autant augmenter de manière signi�cative ladistortion �nale obtenue. Elle est aussi intéressante lorsque le nombre de données est limité(apprentissage en ligne par exemple), ce n'est alors pas le temps de calcul qui compte mais lenombre de données (nombre d'itérations) nécessaire à la convergence. Nous discutons du tempsde calcul dans la section 9.6.

Les deux types de voisinage ne sont pas évidents à comparer puisque la taille du voisinagedu NG dépend directement de � tandis que celle du voisinage -Observable dépend de et dela position relative des unités.

Nous avons cherché à savoir pourquoi les -Observables donnent de meilleurs résultats quele NG en terme de nombre d'itérations pour converger.

9.4 Non-convexité et taille du voisinage

Nous avons pensé tout d'abord que la propriété de non-convexité du voisinage -Observablepourrait jouer en sa faveur. L'idée étant que lorsque deux représentants sont trop proches l'unde l'autre, l'un des deux, -observable de la donnée, se déplace tandis que l'autre caché par lepremier (suivant la valeur de ), ne se déplace pas, ce qui entraîne leur éloignement relatif. Lanon-convexité aurait tendance à modi�er les distances relatives en décollant les représentantstrop proches les uns des autres.

9.4.1 L'e�et d'auto-répartition

Nous mettons en évidence un comportement particulier des représentants dû à la non-convexité potentielle du voisinage -Observable lors de l'utilisation de la règle d'adaptationcorrespondant à ce voisinage.

Nous étudions le cas d'un espace Euclidien à 1 dimension muni d'un repère orienté normé. Sil'on place les représentants wk de manière aléatoire, mais du même côté positif par rapport à vet ordonnés par ordre croissant de leur indice, alors on a 8k 2 (1; : : : ; n); wk+1 > wk > v. Dansces conditions, la propriété suivante est valide :

Propriété 19 Convergence vers un état -observableQuelque soit la position de départ des représentants, ils �nissent tous par être voisins -

observables de la donnée v au fur et à mesure de l'application de la règle d'adaptation (2.7).

Démonstration 17 Convergence vers un état -observablePour que wk+1 soit -observable de v il su�t que wk+1 ne soit pas dans la zone d'ombre de

wk, ce qui se traduit par :

wk+1 � wk � 2(wk+1 � vk+1), wk+1 � 1

2 � 1wk (9.1)

où vk+1 est le point intermédiaire lié à wk+1 tel que : vk+1 = wk+1 + (1� )v.L'application de la règle d'adaptation à un wk -observable de v, déplace wk en w0k avec :

w0k � wk = �(v � wk), w0k = (1� �)wk (9.2)

ce qui implique :

135

Chapitre 9. Quanti�cation vectorielle avec les voisins -observables

wk+1 � 1

2 � 1wk , w0k+1 �

1

2 � 1w0k (9.3)

Cela signi�e que si deux représentants successifs wk et wk+1 sont -observables de v, alorsaprès adaptation, wk+1 reste -observable de v.

De plus, si wk+1 n'est pas -observable de v, mais que wk l'est, la règle d'adaptation déplace wkvers v de telle sorte qu'après la jième adaptation, la nouvelle position de wk est w

[j]k = (1��)jwk

avec limj!+1w[j]k = 0 = v car � 2]0; 1]. Pout tout > 0:5, il existe un j tel que wk+1 � 1

2 �1w[j]k ,

i.e. il existe une région du segment [wkwk+1] qui n'appartient pas à la région de proximité dewk+1. Le déplacement de wk entraine donc la -observabilité de wk+1 au bout d'un nombre �nid'itérations.

Cependant, au cours de son déplacement wk peut lui-même ne plus être -observable de v etdonc s'arrêter. Cela est possible pour tous les wk sauf pour w1 le plus proche de v qui lui esttoujours -observable de v (cf. Conséquence 1 et Propriété 1 d'inclusion).

On a donc l'enchaînement suivant :

Le déplacement de w1 entraîne au bout d'un nombre �ni d'itérations éventuellement nul, la -observabilité de w2. Le couple de -observables (w1; w2) ainsi formé demeure, puisque w1 esttoujours -observable de v et qu'après déplacement de w1 et w2, w2 le reste aussi. En appliquantce même raisonnement avec le couple (w2; w3), puis les couples (wk; wk+1) successifs, on aboutità la conclusion qu'au bout d'un nombre �ni d'itérations, tous les représentants wk �nissent parêtres -observables de v. 2

La �gure 9.3 montre l'e�et obtenu lorsque l'on présente 1000 fois la même donnée dans unespace de dimension 1. Les unités �nissent par être toutes -observables de la donnée et doiventpour cela se placer dans une con�guration où leur distance relative augmente exponentiellementavec leur distance à la donnée. Nous appelons cet e�et, e�et d'auto-répartition, c'est un autretype d'auto-organisation que celui des cartes de Kohonen par exemple, qui n'agit pas sur l'ordredes représentants mais sur leurs distances relatives.

Le comportement des représentants est semblable à celui de maillons de longueurs exponen-tielles d'une chaîne que l'on tire par une extrémité. Tant que la chaîne n'est pas tendue, lesmaillons sont dans une position aléatoire entre leurs deux voisins, lorsque la chaîne est tendue,ils sont répartis en fonction de leur longueur. C'est la forme de la région de proximité liée auvoisinage utilisé qui détermine la répartition �nale des représentants. D'autres type de voisinagesrelatifs pourraient mener à d'autres répartitions.

9.4.2 Fonction de répartition

Lorsque � ! 0, et si aucun des représentants au départ, n'est -observable de la donnéepour > 0:5, alors après un certain nombre d'adaptations (qui tend vers l'in�ni lorsque � tendvers 0), les représentants se rapprochent de la position limite de -observabilité où chacun d'euxest au bord mais à l'extérieur de la zone d'ombre de celui qui le précède, cela correspond à unerépartition asymptotique des wk suivant les termes d'une suite géométrique :

wk =

�1

2 � 1

�k�1w1 (9.4)

Ce résultat est cohérent avec ce que l'on observe sur la �gure 9.3 concernant la positiondes représentants en fonction de leur rang, qui a bien une allure exponentielle après un nombresu�sant d'adaptations (1000 dans le cas présenté).

136

9.4. Non-convexité et taille du voisinage

(a) (b)

Fig. 9.3 � L'e�et d'auto-répartition : le trait gras représente la position initiale par rapportà la donnée, de chaque représentant k en fonction de son rang k. Nous traçons toutes les 200itérations leur nouvelle position (trait �n partant de 0 puis croissant exponentiellement pouratteindre la courbe en gras initiale et rester confondu avec elle), après présentation de la mêmedonnée et adaptation avec la règle des -Observables. Au fur et à mesure des itérations, lephénomène d'auto-répartition se propage : d'abord limité aux plus proches voisins de la données(représentants de rang faible), après 1000 itérations, l'ensemble des représentants est répartisuivant une fonction exponentielle de leur rang. Les paramètres utilisés sont n = 100, � = 0:1et = 0:7. En (a), la position visualisée avec une échelle linéaire, et en (b) avec une échellelogarithmique.

Lorsque certains représentants sont déjà -observables de la donnée au départ, ils ne sontpas nécessairement dans cette position limite et n'ont aucune raison de l'atteindre au cours del'adaptation.

9.4.3 Remarques

Si le voisinage utilisé est de type k-PPV, seuls ceux-ci se déplacent, mais leur distancesrelatives restent identiques et donc la répartition des représentants déplacés n'est pas modi�ée àun facteur d'échelle près.

Avec le voisinage -Observable, les représentants sont répartis avec une densité maximaleproche de la donnée, et décroissante exponentiellement avec leur distance à celle-ci, et ce bienque la fonction de voisinage soit binaire. Une organisation similaire serait obtenue avec les SOMsou le NG dont la fonction de voisinage est de type exponentielle décroissante. L'utilisation d'unefonction de voisinage binaire peut donc mener à des résultats inattendus, ce qui montre que lafonction de voisinage n'est pas le seul paramètre in�uant sur l'organisation des représentantsdans les algorithmes de quanti�cation vectorielle, la propriété de non-convexité joue ici un rôleimportant.

9.4.4 Hypothèse de la non-convexité

Nous avons voulu savoir si ce phénomène d'auto-répartition dû à la non-convexité était lacause de la plus grande vitesse de convergence des algorithmes basés sur le voisinage -Observable.

Nous avons pour cela, comparé la vitesse de convergence du voisinage -Observable original,et du voisinage -Observable rendu convexe, durant la quanti�cation de la distribution (a) .

137

Chapitre 9. Quanti�cation vectorielle avec les voisins -observables

0 5 10 15 20 25 300

0.01

0.02

0.03

0.04

0.05

0.06

0.07

0.08

0.09

0.1

* 500 iterations

Mea

n of

the

MS

E o

ver

10 e

xper

imen

ts

16 units − 15000 iterations − alpha=0.1 − gamma=1−>0.05 − Distribution (a)

GON convex GON

0 5 10 15 20 25 300

0.005

0.01

0.015

0.02

0.025

0.03

0.035

0.04

0.045

0.0516 units − 15000 iterations − alpha=0.1 − gamma=0.7−>0.01 − Distribution (a)

*500 iterations

Mea

n of

the

MS

E o

ver

10 e

xper

imen

ts GON KNN (K=card(GON))

(a) (b)

Fig. 9.4 � In�uence de la convexité du voisinage et de sa taille : (a) distortion moyennesur 10 expériences en fonction du nombre d'itérations, de l'algorithme des -Observables (GON)original potentiellement non convexe comparé avec l'algorithme des -Observables rendu convexe,durant la quanti�cation de la distribution (a). Les mêmes données et la même position initialesont utilisées pour les deux algorithmes dans chaque essai, pour obtenir une comparaison valide.(b) Comparaison de la distortion moyenne suivant le même protocole, entre le Voisinage -Observable (GON) et le voisinage des k-plus-proches voisins (KNN) lorsque l'on règle k égal àla taille qu'aurait le Voisinage -Observable dans la même situation des représentants et de ladonnée. Les paramètres utilisés sont donnés en haut de chaque �gure.

Pour rendre convexe le voisinage -Observable, nous calculons à chaque itération, l'enveloppeconvexe des représentants -observables de la donnée, puis déterminons parmi tous les représen-tants ceux qui sont à l'intérieur de cette enveloppe et les incluons dans le voisinage.

La �gure 9.4 (a) montre que la version convexe du voisinage -Observable converge plus viteque la version originale. On note cependant que rendre convexe le voisinage à chaque itérationpeut devenir très coûteux en grande dimension en terme de temps de calculs. La non-convexitédu voisinage -Observable n'explique donc pas sa plus grande vitesse de convergence puisquerendu convexe, sa vitesse est encore plus élevée.

9.4.5 Hypothèse de la taille

Nous observons sur la �gure 9.4 (b) que le nombre de représentants actifs à chaque itérationn'est pas non plus la cause de la plus grande vitesse de convergence du voisinage -Observable :un algorithme basé sur les k-plus-proches voisins de la donnée avec k égal au nombre de voisins -observables de la donnée, converge en plus d'itérations avec une distortion moyenne plus élevéeque le voisinage -Observable dans les mêmes conditions. Cela signi�e que c'est bien la structuredu voisinage qui est en cause mais ni sa convexité ni sa taille.

Nous émettons alors une autre hypothèse basée sur la structure du voisinage.

9.5 Sélection de la dimension

Le Neural-Gas comme les cartes de Kohonen partagent la propriété de sélection de la dimen-sion. Lorsque la largeur du voisinage décroît, la carte de représentants s'aligne tout d'abord selon

138

9.5. Sélection de la dimension

0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 10

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

1

16 units − 15000 iterations − alpha=0.1 − gamma=0.7−>0.01 − Distribution (a)State of the units after the first 2000 iterations using GONbin

0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 10

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

1

16 units − 15000 iterations − alpha=0.1 − lambda=5−>0.01 − Distribution (a)State of the units after the first 2000 iterations using NGexp

(a) (b)

Fig. 9.5 � E�et d'alignement : répartition des représentants avec le voisinage -Observable(a) et le Neural-Gas (b) après le même nombre d'itérations de quanti�cation de la distribution(a). Les représentants du NG ont une con�guration presque mono-dimensionnelle (ils donnentl'impression d'être sur une même courbe) tandis que ceux des -Observables sont déjà bienrépartis sur la distribution. Les paramètres sont donnés en haut de chaque �gure.

la direction de plus grande variance de la distribution (direction principale), puis s'étale suivantla deuxième direction (orthogonale à la première) de plus grande variance (deuxième directionprincipale), pour �nir par se déployer dans toutes les directions de la distribution. Le Neural-Gasse comporte en fait exactement comme une carte de Kohonen à une dimension et aligne sesreprésentants le long des directions principales les plus importantes vers les moins importantesau fur et à mesure que la largeur du voisinage décroît.

Ce comportement explique l'e�et d'alignement des représentants que l'on peut observer surla �gure 9.5. Puisque les unités sont au départ placées aléatoirement dans l'espace des donnéespuis sont d'abord contraintes de s'aligner le long des directions principales de la distributionavant de se répartir sur elle, il est possible que cela ralentisse la convergence du Neural-Gas.

Nous avons comparé le comportement du voisinage -Observable et celui du Neural-Gas surune distribution parallélépipédique de côtés 1, 2 et 4. La �gure 9.6 montre le résultat de cetteexpérience. Comme prévu, le Neural-Gas s'aligne le long du plus grand côté pour les grandesvaleurs de �, puis se répand le long du deuxième axe de la distribution avant de se répartir dansl'ensemble de celle-ci ce qui minimise la distortion �nale. Le voisinage -Observable n'a pas cettepropriété de sélection de la dimension et se répartit dès le départ selon les trois directions dela distribution en respectant approximativement ses proportions : le nuage de représentants aà peu près les mêmes proportions que la distribution (1 par 2 par 4) mais est resserré pour lesgrande valeurs de et se répand de plus en plus sur la distribution pour les faibles valeurs de .Nous pensons que le voisinage -Observable ne "perd pas de temps" à aligner progressivementses représentants le long des directions principales d'importance décroissante.

La di�érence structurelle entre le voisinage -Observable et les voisinages des SOMs ou duNG, tient à la dimension intrinsèque de ces voisinages : d pour les -Observables tandis qu'ellevaut 1 ou 2 pour les SOMs et 1 pour le NG, quelque soit la dimension de la distribution. Celaimpose pour les SOMs ou le NG une contrainte de directions privilégiées que doivent respecterau mieux les représentants lors de la quanti�cation mais qui n'a pas tendance à minimiser ladistortion qui est une grandeur anisotrope (toutes les directions sont équivalentes). Un voisinage

139

Chapitre 9. Quanti�cation vectorielle avec les voisins -observables

01

1

2

3

4

21

0

View B

ViewA

A

B

Neural-Gas Voisinage -Observable

0120

1

2

3

4

0 10

1

2

0120

1

2

3

4

0 10

1

2

0120

1

2

3

4

0 10

1

2

0120

1

2

3

4

0 10

1

2

0120

1

2

3

4

0 10

1

2

0120

1

2

3

4

0 10

1

2

� = 100 � = 10 � = 0:01 = 0:9 = 0:5 = 0:01(a) (b)

Fig. 9.6 � E�et de sélection de la dimension en fonction de la largeur du voisinagepour le NG et les -Observables : de gauche à droite : (a) pour le NG � vaut 100; 10 et 0:01 ;(b) pour les -Observables vaut 0:9; 0:5 et 0:01. Les représentants du NG s'alignent suivantles plus grandes dimensions principales de la distribution tandis que les -Observables n'ont pascette propriété et tendent à respecter les proportions de la distribution quelque soit la largeurdu voisinage.

140

9.6. Complexité en temps

qui ne privilégie pas une direction serait donc plus performant en terme de vitesse de convergence.

Une étude théorique de ces phénomènes permettrait de déterminer si la dimension du voisi-nage en est e�ectivement la cause.

9.6 Complexité en temps

Nous commentons l'expérience e�ectuée dans le chapitre 6 et dont les résultats sont présentéssur la �gure 6.3 où nous avons comparé la complexité en temps du NG, avec celle des voisinages -Observables bruts et optimisés.

L'avantage pris par les -Observables sur les NGs en terme de nombre d'itérations pourconverger, est approximativement compensé par leur plus grande complexité de calcul. Cependantles -Observables restent intéressants lorsque le temps de calcul n'est pas un facteur déterminantmais que l'on désire une convergence rapide avec un nombre moindre de données donc d'itérations,ou bien lorsque l'on ne peut mémoriser des données traitées à la volée. De plus, comme pour leNG, les opérations impliquées par le calcul du voisinage -Observable sont de simples calculs dedistances et recherche de minima, ce qui laisse entrevoir la possibilité d'une implémentation surdes circuits spécialisés, ce qui permettrait de paralléliser le calcul des distances et de recherchedes minima pour chaque vi, menant à une complexité en O(d + n) (n2 distances kwj � vik2en parallèle de O(d) opérations chacune, et n recherches de minima (une pour chaque vi) enparallèle de O(n) comparaisons chacune).

9.7 Conclusion

Le voisinage -Observable peut être utilisé en Quanti�cation Vectorielle car sa taille estréglable du seul plus proche représentant de la donnée, à l'ensemble des représentants, commeles autres approches SCL. Son utilisation mène à des résultats intéressants comparés à ceuxdu Neural-Gas (autre approche SCL avec le même nombre de paramètres) sur les distributionsétudiées. On observe une convergence plus rapide en terme de nombre d'itérations avec les -Observables qu'avec le Neural-Gas. En contre-partie, le temps de calcul pour les -Observablesavec l'algorithme optimisé proposé au chapitre 6, est d'environ un ordre de grandeur supérieurà celui du Neural-Gas au pire cas mesuré sur une distribution carrée unitaire uniforme à deuxdimensions.

Pour expliquer ces bons résultats en terme de nombre d'itérations pour converger, nous avonsétudié l'in�uence de la propriété de non-convexité sur le comportement de l'algorithme lors de laprésentation multiple d'une unique donnée �xe dans un espace à une dimension. Cette propriétéa un e�et que nous appelons "auto-répartition", qui tend à répartir les représentants de tellesorte que classés par ordre croissant de leur distance à la donnée, cette distance est une fonctionde exponentielle de leur rang dans le classement. L'étude de cette propriété dans les espaces dedimension supérieure à 1, ainsi que celle du comportement moyen des représentants quanti�antune distribution non réduite à un point, restent à entreprendre.

La non-convexité n'explique pas les meilleurs résultats du voisinage -Observable, et nousexplorons une autre possibilité.

Nous observons un comportement di�érent durant l'organisation des unités, entre le Neural-Gas et les -Observables. Le Neural-Gas, comme les cartes de Kohonen, présente la propriété desélection de la dimension qui tend à distribuer en priorité les unités dans les directions principalesde la distribution, tandis que le voisinage -Observable n'a pas cette propriété. Nous l'expliquonspar le fait que la dimension du voisinage -Observable est celle de l'espace des données, tandis

141

Chapitre 9. Quanti�cation vectorielle avec les voisins -observables

que le voisinage dé�ni par le Neural-Gas est mono-dimensionnel, et mono ou bi-dimensionnelpour les SOMs. Nous émettons l'hypothèse que cette di�érence peut expliquer la convergenceplus rapide du voisinage -Observable, qui n'est pas "contraint" à cette organisation dans desdirections privilégiées au début de l'apprentissage . Une étude théorique reste à e�ectuer pourcon�rmer ou in�rmer cette hypothèse.

La comparaison du voisinage -Observable avec d'autres algorithmes de quanti�cation vec-torielle sur des données réelles s'impose aussi pour valider cette approche.

Dans le chapitre suivant, nous abordons l'approximation de fonctions avec les noyaux deVoronoï Induits.

142

Chapitre 10

Approximation de fonctions avec les

Noyaux de Voronoï Induits

143

Chapitre 10. Approximation de fonctions avec les Noyaux de Voronoï Induits

10.1 Introduction

Dans ce chapitre, nous présentons une technique d'approximation de fonctions basée sur lesnoyaux de Voronoï Induits. Nous donnons les règles d'adaptation des paramètres et montronsqu'elle utilise moins de paramètres que les autres approches. Nous montrons qu'elle donne debons résultats sur une application réelle d'identi�cation d'un processus non-linéaire.

10.2 Modèle

Il s'agit de modéliser une fonction g : IRd ! IR.Nous approchons cette fonction par la fonction f dé�nie par :

f(v; w) =

Pwi2Sactiv �i(v; int; w)fi(v; w)P

wi2Sactiv �i(v; int; w)(10.1)

où les �i(v; int; w) sont les Noyaux de Voronoï Induits vus au chapitre 8, et Sactiv l'ensembledes noeuds participant à l'interpolation, dé�ni en fonction de int.

Nous choisissons pour les fi, un modèle linéaire de la forme :

fi(v; w) = Ai(v � wi) + bi (10.2)

où Ai est la matrice Jacobienne de fi au point wi, et bi est une constante.

10.3 Choix du nombre de centres

En approximation de fonction, le nombre de centres in�ue sur la précision du modèle et sur sacomplexité. Pour dé�nir ce nombre, nous utiliserons un critère objectif basé sur la comparaisondes erreurs de test et d'apprentissage, que l'on a précisé au chapitre 2 : le nombre optimal decentres est obtenu lorsque l'erreur de test en fonction de ce nombre atteint un minimum.

10.4 Discussion sur le positionnement des centres

Le problème de positionnement est un vaste sujet de recherche que nous avons abordé dans[10]. On trouvera des travaux sur ce sujet dans [43][3][29][30]. Nous en esquissons ici les principalescaractéristiques.

10.4.1 Problème

Di�érentes approches co-existent selon que l'on désire approcher la densité de la distributionsans s'intéresser à sa topologie, ou bien que l'on veut modéliser ses variétés support sans sepréoccuper de la densité.

Dans le premier cas, on souhaite placer les centres de telle sorte que leur propre densités'approche de celle de la distribution : soit en prenant pour centre chaque point de la distribution(modèle non paramétrique des fenêtres de Parzen [149]), soit en positionnant des centres sur ladistribution (techniques paramétriques de Quanti�cation Vectorielle).

Dans le second cas, la densité de la distribution importe peu, ce qui compte c'est de déterminerses variétés supports. Le placement des noyaux ne devrait donc pas tenir compte de la densitéde la distribution, mais plutôt de la régularité de ses variétés support, en plaçant plus de centreslà où les variétés sont fortement non linéaires et moins ailleurs.

144

10.4. Discussion sur le positionnement des centres

La représentation de la topologie de la distribution nécessite un placement des centres surla distribution, ce que ne peut garantir une approche de type supervisé où l'erreur de sortie estutilisée pour régler la position des centres dans l'espace d'entrée sans tenir compte de la positiondes données dans cet espace. Tandis que les techniques de QV, permettent de placer les centressur la distribution dans l'espace d'entrée, mais pas en fonction des erreurs en sortie, donc desnon-linéarités de la fonction à approcher.

Nous pensons que la représentation de la topologie de la distribution est d'une grande im-portance en soi comme information supplémentaire sur les données, et qu'elle peut être en plusutilisée pour obtenir un modèle continu de cette distribution (interpolations par B-spline ounoyaux de Voronoï basées sur la structure topologique). Dans cet optique, il serait intéressantd'avoir une technique de placement de centres assurant d'une part leur placement sur la dis-tribution (représentation de la topologie), et d'autre part une densité des centres fonction desnon-linéarités de la distribution (minimisation de l'écart entre données et modèle). C'est là queréside le problème.

10.4.2 Deux approches

Il existe plusieurs approches pour le réglage de la position des centres.

Soit leur position est considérée comme un paramètre supplémentaire à régler dans uneapproche supervisée : l'écart entre modèle et sortie désirée est minimisé par l'adaptation del'ensemble des paramètres.

Soit leur position est considérée comme un paramètre attaché à l'espace d'entrée devant êtreréglé indépendamment des autres attachés à l'espace de sortie (les Ai et bi par exemple). Dansce cas, on utilise une approche non-supervisée pour le placement des centres, et supervisé pourles autres paramètres.

L'approche �tout supervisé� place les centres en fonction du seul critère de minimisation del'écart entre modèle et sortie désirée, donc ne tient aucun compte de la représentativité descentres pour les données dans l'espace d'entrée. Cette représentativité est cependant crucialelorsque l'on veut représenter la topologie de la distribution des données dans l'espace d'entrée(par la TID par exemple).

Au contraire, l'approche mixte utilisant par exemple un algorithme de Quanti�cation Vec-torielle pour placer les centres, permet la représentation de la topologie des données puisqu'elleassure la représentativité des centres.

10.4.3 Solutions basées sur la QV

Puisque la TID est essentielle à la modélisation de la topologie des variétés supports, lestechniques de QV doivent être considérées comme point de départ d'une solution.

Si l'on désire aussi pouvoir a�ner le modèle dans les régions fortement non linéaires, alorson peut utiliser la propriété des algorithmes de QV de mener à une répartition des représentantsdont la densité approche celle de la distribution, et tenter de rassembler plus de centres dansles régions d'intérêt en rééchantillonant la distribution, c'est-à-dire en contrôlant la densité dela distribution pour modi�er celle des représentants. Cependant cela nécessite d'avoir le contrôlede la densité de la distribution.

Lorsque ce contrôle est impossible, nous avons proposé une technique de recrutement [10][14]qui pondère les données présentées par un coe�cient fonction de l'erreur de sortie. Plus l'erreurest forte, plus les centres voisins du centre gagnant, sont recrutés par lui et donc plus le maillages'a�ne et plus le modèle devient précis dans ces régions. Un principe semblable a été proposé

145

Chapitre 10. Approximation de fonctions avec les Noyaux de Voronoï Induits

par Göppert et Rosenstiel [95] pour les carte de Kohonen, en dé�nissant un rayon de voisinageplus ou moins grand en fonction d'un paramètre appelé "facteur d'agrandissement".

Dans tous ces cas, le positionnement reste soumis à la densité de la distribution car il est à labase une technique de Quanti�cation Vectorielle modi�ée (ce phénomène est étudié plus en détaildans [10] et [14]), et peut donc éventuellement servir aussi à la modélisation de cette densité parexemple par la technique des fenêtres de Parzen [149] placées sur chaque représentant.

10.4.4 Conclusion sur le placement des centres

Nous avons abordé ici le problème du positionnement des centres. L'approche de recrutementque nous avons proposée dans [10] serait une solution possible permettant de conserver auxcentres leur capacité à représenter la distribution et à permettre la représentation de sa topologie,tout en améliorant la précision de l'approximation dans les régions non-linéaires. Cependant, destravaux restent à faire pour valider cette approche que nous n'utiliserons donc pas ici.

L'approche de QV que nous avons choisie ne mènera pas nécessairement à un placement opti-mal en terme de minimisation de l'écart entre les données et le modèle, pour l'approximation avecun nombre de centre particulier puisque l'on ne tient pas compte des non-linéarités potentiellesde la fonction à modéliser. Mais il nous importe en priorité de valider l'utilisation des noyaux deVoronoï en approximation de fonction et en approximation de variétés.

Nous réservons pour plus tard la validation de la technique de recrutement et son éventuelleutilisation avec les noyaux de Voronoï.

10.5 Nombre de paramètres

Pour modéliser la topologie de la distribution, il est nécessaire de mémoriser les liens devoisinage. Sans prendre en compte le nombre de ces liens identiques pour toutes les approches,il y a au total n(2d + 1) + 1 paramètres dans le modèle des noyaux de Voronoï (d coordonnéesde n noeuds wi, d coordonnées de n vecteurs gradients Ai, n valeurs de sortie bi et le paramètre int), n(2d + 1) + 1 dans un RBF simple (� remplace int), n(4d + 1) pour un modèle RBFasymétrique (2d de plus pour le réglage de l'étendue de chacun des n noyaux) et n(d2 + 2d+ 1)pour un modèle RBF à noyaux ellipsoïdaux (d2 de plus pour la matrice des distances de chaquenoyau mais le paramètre en moins).

L'utilisation des noyaux de Voronoï est intéressante en ce qu'elle utilise moins de paramètresque les approches RBFs ellipsoïdaux (HRBFs) et RBFs asymétriques. Et bien qu'elle utilise lemême nombre de paramètres que le RBF simple, il faut insister sur le fait que � dé�nit demanière globale une largeur identique pour tous les noyaux, tandis que int pondère l'étenduedes noyaux déjà localement déterminée par la position des centres des noyaux voisins. int adapteimplicitement la régularité de l'interpolation en fonction de la densité des noyaux.

Cela signi�e qu'au lieu de juxtaposer deux approches, d'une part les liens représentant latopologie d'une part, et d'autre part des noyaux de type HRBFs dont létendue de chacun estréglée de manière indépendante par apprentissage supervisé, on peut utiliser les liens topologiquespour régler l'étendue des noyaux, et donc diminuer le nombre de paramètres total.

Ce faisant, il semble qu'on réduise le nombre de degrés de liberté du modèle donc sa �exibilité,alors qu'il existe des techniques d'optimisation adaptées pour régler l'étendue de noyaux HRBFs,comme celle proposée par Schaal et Atkeson [168]. Cependant, on constate dans ces approches,que �nalement le critère d'optimisation pour régler l'étendue des noyaux est lié au contrôledu chevauchement entre noyaux voisins. Or l'utilisation des liens topologiques pour déterminer

146

10.6. Adaptation des paramètres

l'étendue des noyaux permet le contrôle de ce chevauchement par construction, ce qui diminuele nombre de paramètres nécessaires.

10.6 Adaptation des paramètres

Il s'agit d'approcher g par f en adaptant la valeur des paramètres de f , à savoir la position

des n centres wi des noyaux �i, et pour chacune des n fonctions fi, bi et les d éléments a[k]i de

Ai.

La valeur de int réglant la régularité de l'interpolation est �xée à 0:5 pour assurer un com-promis entre continuité et régularité. Nous cherchons à minimiser l'écart quadratique entre g(v)et f(v; w) par une technique de descente de gradient, ce qui correspond aux règles d'adaptation

suivantes pour les a[k]i et bi :

�a[k]i = �

�i(v; int; w)Pwj2Sactiv �j(v; int; w)

(v[k] � w[k]i )(g(v) � f(v; w) (10.3)

et

�bi = ��i(v; int; w)P

wj2Sactiv �j(v; int; w)(g(v) � f(v; w) (10.4)

Le positionnement des centres wi s'e�ectue par la technique de Quanti�cation Vectorielle desVoisins -Observables. Le paramètre sera choisi décroissant au cours du temps de 1 vers 0,donc di�érent du paramètre int utilisé pour l'interpolation.

On montre que la fonction d'énergie minimisée est quadratique en a[k]i et bi, ce qui garan-

tit d'atteindre le minimum global de cette fonction par simple descente de gradient avec uneapproche itérative.

10.7 Expériences sur données arti�cielles

10.7.1 Réglage de l'étendue

But

Dans cette expérience, nous mettons en évidence l'intérêt du réglage implicite de l'étenduedes noyaux par la position des centres voisins.

Protocole

Nous comparons l'approche basée sur les noyaux de Voronoï Induits (NVI) et celle basée surles noyaux RBFs simples. Pour les NVIs, nous utilisons des fonctions h(:) gaussiennes dé�niespar l'équation (8.9), de telle sorte que si les centres des NVIs étaient répartis aux noeuds d'unmaillage carré, ils seraient identiques à des noyaux RBFs.

Nous approchons la fonction g suivante :

8v = (x; y) 2 [0; 1]2; g(v) = sin (2�:x) � sin (2�:y) (10.5)

présentée sur la �gure 10.1(a).

Nous échantillonnons aléatoirement le carré unité de manière non uniforme, avec une den-sité en x, 9 fois supérieure dans l'intervalle [0; 0:5] que dans l'intervalle [0:5; 1], et une densité

147

Chapitre 10. Approximation de fonctions avec les Noyaux de Voronoï Induits

uniforme en y. Le placement des centre par QV avec le voisinage -Observable mène à l'organi-sation des unités que l'on peut voir sur la �gure 10.1. Les paramètres utilisés pour la QV, sontfn; i; f ; �i; �f ; tmaxg = f80; 0:7; 0:05; 0:5; 0:01; 15000g.

Puis nous représentons la topologie de la distribution par la TID, grâce au CHL durant 5000itérations pour qu'elle soit proche de la TD.

En�n, nous adaptons les paramètres de sortie a[k]i et bi avec les règles dé�nies dans le para-

graphe précédent, durant 50000 itérations avec f�i; �f ; �g = f0:5; 0:01; 0:01g. � est le rayon debase des fonctions gaussiennes h(t), utilisées par les NVIs et par les noyaux RBFs. Dans les NVIs,le paramètre t de la fonction h(t) dépend de int et de la position des centres des noyaux voisins.Pour les RBFs, nous utilisons t = kv � wik:2(1 � int). Seuls les noyaux actifs int-observablesde la donnée sont utilisés dans le calcul de f .

Après apprentissage pour une valeur de int donnée, nous calculons sur 1000 données v issuesde la distribution mais di�érentes des données utilisées pour l'apprentissage, l'erreur de test,moyenne des erreurs quadratiques entre la valeur de la fonction g(v) et la valeur du modèlef(v; w). Nous cherchons pour les deux approches, la valeur de int qui mène à l'erreur de testmoyenne sur 10 essais, la plus basse.

Résultats

Nous présentons sur les �gures 10.1(b) et (c), l'écart quadratique entre f et g en �n d'ap-prentissage avec la valeur int optimale, pour les RBFs (b) et les NVIs (c).

Nous obtenons pour les RBFs, la valeur optimale int = 0:94 et une erreur de test moyennede 0:00375, et pour les NVIs, la valeur optimale int = 0:72 et une erreur de test moyenne de0:00223.

D'une part, l'erreur moyenne optimale obtenue par les NVIs est plus faible que celle obtenueavec les RBFs ce qui montre l'intérêt d'adapter le rayon des noyaux en fonction de la positionde leurs voisins. D'autre part, on constate sur la �gure, que la répartition des erreurs pour lesRBFs est moins homogène que pour les NVIs, et plus importante dans la région de faible densitédes centres, où des rayons trop faibles grèvent la régularité de la fonction du modèle. L'étenduedes NVIs dépendant de la position des centres voisins, la régularité de la fonction du modèle esthomogénéisée.

Une erreur plus grande dans la région de faible densité persiste dans les deux cas, car moinsde centres sont présents pour approcher une fonction identique par symétrie à la fonction de larégion de forte densité, donc la précision y est moindre.

Discussion

Cette expérience permet de valider l'approche consistant à régler l'étendue des noyaux parla position des centres voisins. Elle montre l'intérêt de ce réglage avec les Noyaux de VoronoïInduits comparé à l'approche RBF simple qui ne le présente pas. On note qu'il y a autant deparamètres à régler dans les deux cas si l'on suppose pour chacun la nécessité de construire laTriangulation Induite de Delaunay, il y a en e�et : n:d paramètres pour les représentants, n:d+1

pour les a[k]i et bi, et 1 pour � ou .

Fritzke a proposé dans [79], de déterminer le rayon d'un noyau gaussien associé à chaquereprésentant d'un Growing Neural-Gas, comme la distance moyenne de ce représentant à sesvoisins directs dans la Triangulation Induite de Delaunay. L'étendue des noyaux est ainsi fonctionde la position moyenne des centres voisins. Cependant, les noyaux restent hyper-sphérique, doncsymétriques, et ne peuvent être orthogonaux lorsqu'on les choisit à support compact.

148

10.7. Expériences sur données arti�cielles

(a) (b) (c)

Fig. 10.1 � Réglage de l'étendue des noyaux : en (a), la fonction à modéliser. En (b) et (c),les représentants placés par quanti�cation vectorielle avec l'algorithme des Voisins -Observableset la TID construite. Une densité de la distribution des données 9 fois plus grande à gauche qu'àdroite mène à une densité des représentants approximativement 3 fois plus grande à gauche qu'à

droite d'aprés le résultat de Zador (q(w) ! p(v)d

d+2 avec d = 2 ici). En (b), l'erreur de testobtenue sur le meilleur essai avec une valeur int = 0:94 pour le modèle RBF et en (c), avecune valeur int = 0:72 pour le modèle NVI. L'échelle des niveaux de gris est identique dans lesdeux cas (erreur forte en clair et faible en foncé). On voit que la répartition des erreurs est plushomogène avec les NVIs (en (c)) dont l'étendue de chaque noyau est contrôlée par la position deleurs voisins, qu'avec le RBF (en (b)) qui utilise la même étendue pour tous les noyaux.

En résumé, lorsque la représentation de la topologie de la distribution est souhaitée pourl'information supplémentaire qu'elle apporte sur les données, il est intéressant de s'en servir aussipour déterminer l'étendue des fonctions noyaux sans nécessité de paramètres supplémentaires.

10.7.2 Continuité et interférences

But

Dans cette expérience, nous montrons le phénomène d'interférence qui apparaît lorsque l'onutilise pour le calcul de f , tous les NVIs actifs. Nous mettons aussi en évidence les discon-tinuités qui apparaissent lorsque l'on ne considère pour l'interpolation, que les noyaux actifs int-observables de la donnée. Cette expérience est qualitative.

Protocole

La distribution des données est uniforme mais non connexe, avec y 2 [0; 1] et x 2 [0; 0:3] [[0:7; 1]:

La fonction approchée est la fonction g de l'expérience précédente. Les paramètres sont iden-tiques mais seulement 20 représentants sont utilisés. La fonction h est la fonction cubique orig-inelle (8.2) utilisée dans la dé�nition des NVIs.

Après apprentissage suivant le même protocole que dans l'expérience précédente, avec int =0:5, la valeur bi associée à deux centres est modi�ée.

149

Chapitre 10. Approximation de fonctions avec les Noyaux de Voronoï Induits

(a) (b)

Fig. 10.2 � Continuité ou orthogonalité : on visualise les variations de la fonction de sortielorsque l'on modi�e la valeur de sortie bi associée à deux représentants situés sur la composanteconnexe de la TID dans la partie gauche de chaque fenêtre. int est �xé à 0:5. En (a), dans le casoù tous les noyaux actifs sont considérés, la variation est continue mais les deux noyaux modi�és,interfèrent fortement avec ceux de l'autre composante connexe et ne peuvent assurer l'orthogo-nalité. En (b), dans le cas où seuls les noyaux à la fois actifs et -observables sont considérés (ici = 0:5), les interférences se limitent aux simplexes frontières des deux composantes connexesde la triangulation induite, l'orthogonalité est assurée mais la continuité ne l'est pas (on voit leschangements francs d'activation aux frontières des régions d'in�uence).

Résultats

La �gure 10.2(a) présente l'écart entre les fonctions f du modèle avant et après modi�cationlorsque tous les noyaux actifs sont considérés pour le calcul de f . La �gure 10.2(b) montre cetécart lorsque seuls les noyaux actifs int-observables de la donnée sont considérés pour le calculde f .

Lorsque tous les noyaux actifs sont considérés, il n'y a pas de discontinuités de f mais iln'y a pas orthogonalité : les noyaux modi�és chevauchent des centres de la composante connexeopposée et donc interfèrent fortement avec eux. Cela signi�e que si l'on présente plus souventdes données dans la partie gauche, une modi�cation du modèle apparaîtra dans la partie droiteoù moins de données apparaissent pour corriger ces changements. L'approche est moins localiséeque s'il y avait orthogonalité.

Lorsque seuls les noyaux actifs int-observables sont considérés, alors il n'y a presque plusd'interférences. Cependant, des discontinuités apparaissent en raison de la troncature des NVIs.

Discussion

Cette expérience illustre ce que nous avions prévu par la théorie. Il est di�cile de conciliercontinuité et orthogonalité, aucune n'étant souhaitable seule, la première créant des interférences,la seconde des discontinuités. Une heuristique présentée dans le chapitre 11 permet de limiterces discontinuités et d'assurer l'orthogonalité.

150

10.8. Identi�cation d'un préhenseur électropneumatique

Fig. 10.3 � Le préhenseur électropneumatique étudié : un vérin simple e�et à sou�etmétallique assure la fermeture et l'ouverture de la pince. La mise en pression de la chambre parune valve électropneumatique, compresse le sou�et et ferme la pince. Le sou�et métallique assureà la fois la fonction de ressort de rappel avec l'aide d'un ressort extérieur pour l'ouverture de lapince, et de joint d'étanchéité entre la chambre et l'extérieur du vérin. Il permet de supprimerles frottements secs habituellement présents lorsque l'étanchéité est assurée par un joint entrele piston et le corps du vérin. Une douille à bille permet de limiter les frottements à la liaisonglissière de la tige avec le corps. Ce type de vérin est particulièrement adapté à un positionnementprécis tout en permettant la transmission d'un e�ort important.

10.8 Identi�cation d'un préhenseur électropneumatique

10.8.1 Présentation

Nous nous intéressons à l'identi�cation d'un processus dynamique non-linéaire.

Le système étudié est un préhenseur électropneumatique pour lequel un contrôleur par réseauxde neurones a été élaboré par Pierre Couturier dans sa thèse [46].

Un schéma d'ensemble du préhenseur est présenté sur la �gure 10.3

Le vérin utilisé est un modèle à sou�et métallique qui permet de limiter les frottementssecs habituellement présents lorsque des joints d'étanchéité sont utilisés au niveau du contactdes pièces mobiles. Néanmoins, la compressibilité de l'air, la nature des écoulements �uides, etles turbulences créées par la valve de commande confèrent à l'actionneur un comportement nonlinéaire qui rend sa maîtrise délicate et nuit à la précision du positionnement de la tige du vérin.

L'objectif est ici d'identi�er le processus dynamique non linéaire de positionnement de la tigeen fonction de la commande électrique de la valve, à partir de mesures e�ectuées sur le préhenseurréel.

151

Chapitre 10. Approximation de fonctions avec les Noyaux de Voronoï Induits

10.8.2 Modèle

Les données sont des couples commande-position (uk; yk) et l'on cherche à identi�er uneséquence de ces couples par le modèle discret non linéaire suivant :

8k > 2; yk = f(yk�1; yk�2; uk�1; uk�2) (10.6)

Nous disposons d'une séquence de 600 couples (uk; yk) pour l'apprentissage, et d'une autreséquence de 600 couples pour le test. La séquence d'apprentissage est présentée sur la �gure 10.4,et la séquence de test sur la �gure 10.5.

Le modèle f basé sur les NVIs, est donné par l'équation 10.1 où la donnée v est le vecteurde IR4 : v = (yk�1; yk�2; uk�1; uk�2). La fonction h est la fonction cubique originelle donnée parl'équation (8.2) et utilisée dans la dé�nition des NVIs.

10.8.3 Protocole

Le protocole est identique à celui des expériences précédentes. Seule la valeur des paramètreschange et nous prenons : f�i; �f ; i; fg = f0:5; 0:05; 0:5; 0:05g.

Durant 20000 itérations, les représentants sont placés avec la technique du voisinage -Observable, puis 1000 itérations permettent de construire la TID. En�n 60000 itérations supplé-

mentaires permettent d'adapter les paramètres a[k]i et bi de chaque centre.

int est �xé à 0:5 et seuls les représentants actifs int-observables de la donnée sont considéréspar le modèle f .

On cherche le nombre de représentants optimal en terme de précision du modèle sur laséquence de test. L'erreur sur la base de test permet de déterminer ce nombre optimal quipermet d'obtenir une bonne précision et d'éviter le sur-apprentissage.

L'apprentissage et le calcul de l'erreur de test durant cet apprentissage, sont dirigés : chaquecomposante d'une donnée v de la séquence, est issue de la base d'apprentissage.

Nous testons ensuite le modèle obtenu de manière non dirigée : le modèle est initialisé avec lapremière donnée de la séquence puis livré à lui-même, les composantes (yk�1; yk�2; uk�1; uk�2)de la donnée sont les valeurs passées issues du propre comportement du modèle.

10.8.4 Résultats

Le nombre optimal de représentants trouvé, est 6.

La �gure 10.4 présente le comportement du modèle dirigé obtenu avec 6 représentants com-paré à celui du processus réel sur la séquence d'apprentissage.

La �gure 10.5 présente le comportement du modèle non dirigé obtenu avec ces 6 représentantscomparé à celui du processus réel sur la séquence de test.

On observe en apprentissage, une très bonne adéquation du modèle avec la séquence réelle.La moyenne des erreurs quadratiques entre sortie yk réelle et sortie f(yk�1; yk�2; uk�1; uk�2) dumodèle sur la séquence d'apprentissage vaut 0:015.

En test, le modèle est moins proche de la séquence réelle. La moyenne des erreurs quadratiquessur la séquence de test vaut 0:085. On observe que la sortie du modèle est plus lisse que la sortieréelle : le modèle généralise ce qu'il a appris sur la séquence d'apprentissage.

Ces résultats sont comparables à ceux obtenus par Pierre Couturier [46](p.132) avec unPerceptron Multi-Couches (MLP) bouclé comportant 6 neurones cachés, puisqu'il obtient uneerreur quadratique moyenne de 0:02 en apprentissage dirigé et 0:08 en test non-dirigé.

152

10.8. Identi�cation d'un préhenseur électropneumatique

0 50 100 150 200 250 300 350 400 450 500 550 600−4

−2

0

2

4

6

0 50 100 150 200 250 300 350 400 450 500 550 600−1

−0.5

0

0.5

1

1.5

Fig. 10.4 � Identi�cation d'un préhenseur électropneumatique : séquence d'appren-tissage. En haut, la séquence de commande uk en trait �n, et la séquence de positions yk entrait �n commençant en 0. En trait fort, la séquence de positions obtenue avec le modèle en�n d'apprentissage. La séquence du modèle est confondue avec la séquence réelle et la masquesauf au voisinage de k = 125 où l'on entrevoit la séquence réelle. L'apprentissage est dirigé :les données fournies au modèle sont toutes issues de la séquence d'apprentissage réelle. En bas,l'écart instantanné entre modèle et position réelle. L'erreur quadratique moyenne obtenue surl'ensemble de la séquence est 0:015. Les ordonnées sont des Volts, et les abscisses, le nombred'itérations avec une période d'échantillonnage T = 0:1s.

Le nombre total de paramètres optimisés pour les NVIs est 54. Il est de 37 avec le MLPbouclé.

10.8.5 Discussion

Le plus grand nombre de paramètres utilisés par les NVIs, que par le MLP, s'explique parl'utilisation d'une approche locale pour les NVIs qui permet néanmoins de limiter les phénomènesd'interférence et de représenter la topologie de la distribution, propriété que n'a pas un MLP.

Sur la séquence de test, aucune discontinuité n'apparaît avec les NVIs hormis lors des tran-sitions de la commande, et ce malgré l'utilisation des seuls noyaux actifs int-observables quipourrait pourtant en créer. Ces discontinuités, si elles existent sont négligeables dans cette ex-périence, ou bien sont situées dans des régions de l'espace où le processus ne va pas.

Cette expérience permet de valider sur un cas réel la technique d'approximation de fonctionsbasée sur les Noyaux de Voronoï Induits.

153

Chapitre 10. Approximation de fonctions avec les Noyaux de Voronoï Induits

0 50 100 150 200 250 300 350 400 450 500 550 600−4

−2

0

2

4

6

0 50 100 150 200 250 300 350 400 450 500 550 600−1

−0.5

0

0.5

1

1.5

Fig. 10.5 � Identi�cation d'un préhenseur électropneumatique : séquence de test :En haut, la séquence de commande uk en trait �n, et la séquence de positions yk en trait �ncommençant en 0. En trait fort, la séquence de positions obtenue avec le modèle lors du test. Laséquence du modèle est moins proche de la séquence réelle que lors de l'apprentissage. Le testest non dirigé : les données fournies au modèle sont issues de sa propre sortie. En bas, l'écartinstantané entre modèle et position réelle. L'erreur quadratique moyenne obtenue sur l'ensemblede la séquence est 0:085. Les ordonnées sont des Volts, et les abscisses, le nombre d'itérationsavec une période d'échantillonnage T = 0:1s.

154

10.9. Conclusion

10.9 Conclusion

Nous avons vu que les noyaux de Voronoï Induits peuvent être utilisés pour l'approximationde fonctions. Ils présentent l'avantage par rapport aux RBFs, de pouvoir régler implicitementl'étendue des noyaux grâce à la représentation de la topologie de la distribution par la TID.

On ne peut cependant garantir à la fois la continuité et l'orthogonalité, la continuité impliquede possibles interférences, tandis que l'orthogonalité limite les interférences mais ne permet pastoujours la continuité. Néanmoins, cela ne semble pas avoir porté à conséquences dans l'expériencemenée pour l'identi�cation d'un processus non linéaire sur le préhenseur électropneumatique.

Dans cette expérience, les noyaux de Voronoï Induits mènent à des résultats comparables avecceux d'un MLP bouclé. Ils utilisent un peu plus de paramètres que le MLP, mais permettent encontre-partie de limiter d'éventuels phénomènes d'interférence, et de représenter la topologie dela distribution.

Nous abordons dans la suite, les problèmes posés par l'approximation de variétés, et envis-ageons l'utilisation des noyaux de Voronoï Induits dans ce type d'application.

155

Chapitre 10. Approximation de fonctions avec les Noyaux de Voronoï Induits

156

Chapitre 11

Approximation de variétés avec les

Noyaux de Voronoï Induits

157

Chapitre 11. Approximation de variétés avec les Noyaux de Voronoï Induits

11.1 Introduction

Dans ce chapitre, nous proposons une méthode pour l'approximation de variétés. Nous util-isons la Triangulation Induite de Delaunay pour construire des variétés linéaires et proposons latechnique des Noyaux de Voronoï Induits pour approcher des variétés non linéaires à partir desvariétés linéaires.

11.2 Caractérisation des variétés

11.2.1 Dé�nition

Nous donnons la dé�nition formelle d'une variété [153].

Soient (x1; : : : ; xd) d variables réelles coordonnées d'un point d'un domaine � de l'espace Eà d dimensions. Considérons le système suivant :

8>>>>>>><>>>>>>>:

F1(x1; : : : ; xd) = 0: : :Fk(x1; : : : ; xd) = 0�1(x1; : : : ; xd) � 0: : :�l(x1; : : : ; xd) � 0

(11.1)

où Fi2(1;:::;k) et �j2(1;:::;l) sont des fonctions uniformes de classe C1, et les Fi sont telles que

les déterminants obtenus en prenant k vecteurs (@F1@xa; : : : ; @Fk@xa

)>a2(1;:::;d) quelconques parmi les dpossibles, ne s'annulent jamais tous à la fois.

Alors on dit que l'ensemble des points qui véri�ent le système d'équations (11.1) ci-dessusforme une variété à d� k dimensions, ou une (d� k)-variété.

11.2.2 Topologie

Nous précisons les dé�nitions déjà données au chapitre d'introduction, des di�érentes carac-téristiques de la topologie d'une variété ou d'une collection de variétés.

Dimension intrinsèque

d � k est la dimension intrinsèque de la variété. Si k = 1, on parle de surface, à moins qued� k = 1 et l'on parle de courbe.

Frontières

Les fonctions � délimitent la variété. Si un point de la variété est tel que l'un au moins des� s'annule, on dit que ce point est sur la frontière de la variété. Si les fonctions F sont tellesqu'il n'existe aucun point de la variété qui annule l'une des inéquations �, ou s'il n'y a pasd'inéquations �, alors la variété est illimitée, sinon elle est limitée.

Une variété V est �nie si : 8x 2 V; kxk < +1.

Les frontières d'une k-variété sont des k � 1-variétés.

158

11.3. Etat de l'art

Continuité

On dit qu'une variété V est continue si l'on peut faire varier de manière continue x =(x1; : : : ; xd) 2 V de � = (�1; : : : ; �d) 2 V à � = (�1; : : : ; �d) 2 V, tel que (11.1) est toujourssatisfait : on dit qu'il existe un chemin sur la variété entre � et �. Toute variété non continuepeut être décomposée en un nombre �ni ou in�ni de variétés continues. Les deux branches d'unehyperbole ne forment pas à elles deux une variété continue, mais prises séparément, elles formentdeux variétés continues.

On parle de l'ordre de continuité des variétés en référence à l'ordre de continuité des fonctionsF : C0, C1. . .C1.

Linéarité

Une k-variété est linéaire si les fonctions F sont linéaires.

Collection et connexité

Il peut exister plusieurs variétés Vi de dimensions intrinsèques di�érentes, accolées les unesaux autres (il existe un chemin passant de l'une à l'autre) ou non. Nous parlons alors de collectionde variétés V = fVigi pour les désigner.

S'il existe un chemin permettant de passer d'une variété de la collection à une autre sanssortir de la collection, alors elles sont connexes.

11.2.3 Homéomorphie

Si à tout point x1 = (x11; : : : ; x1d) d'une variété V1, on peut faire correspondre un point x2 =

(x21; : : : ; x2d) et un seul d'une variété V2 par un ensemble de d fonctions uniformes, �nies, C1 et

de déterminant fonctionnel (Jacobien) non nul, telles que x2k = k(x11; : : : ; x

1d);8k 2 (1; : : : ; d),

alors on dit que V1 et V2 sont homéomorphes, elles ont même dimension intrinsèque et mêmecontinuité. Nous dirons que ces deux variétés ont même topologie [117].

Un disque est homéomorphe à un triangle, une boule à un tétraèdre, une sphère privée d'unpoint à un disque : si ces variétés étaient réalisées en caoutchouc, on pourrait passer de l'une àl'autre par une déformation continue.

L'homéomorphie est à la base des techniques d'approximation de variétés.

11.3 Etat de l'art

L'approximation de variétés à 1 ou 2 dimensions dans l'espace à 3 dimensions, a donnélieu à de nombreux travaux dans le domaine de la géométrie algorithmique. Les techniquesd'interpolation basées sur les maillages comme les B-Splines en sont directement issues. Peu detravaux ont en revanche été conduits pour l'approximation de variétés en dimensions supérieuresà 3.

On retrouve la notion de variétés dans les travaux liés à la réduction de dimension [40], lorsquel'on cherche à projeter les données sur un sous-espace de dimension la plus faible possible touten préservant le maximum d'informations. C'est le cas dans les approches linéaires (Analyse enComposantes Principales [110], Analyse en Composantes Indépendantes [112]) et non linéaires(réseaux en "diabolo" [1], cartes de Kohonen [120], Analyse en Composantes Curvilinéaires [53]).La dimension des variétés sur lesquelles on projette est alors imposée (par l'utilisateur pour

159

Chapitre 11. Approximation de variétés avec les Noyaux de Voronoï Induits

analyse visuelle, ou bien par les traîtements qui suivent de modélisation ou de compression) etelle est généralement identique pour l'ensemble des données.

Les approches qui nous intéressent davantage, sont celles qui cherchent à modéliser la dis-tribution par des variétés non linéaires en grande dimension. Les PSOMs de Ritter et Walter[159][194], les Courbes et Surfaces Principales généralisant la notion de composantes principalesd'une distribution, proposées par Hastie et Stuetzle [101] et par Tibshirani [179] et leurs liens avecles SOMs étudiés par Mulier et Cherkassky [140], sont les premiers travaux ayant cet objectif.

Les PSOMs, et les courbes et surfaces principales, nécessitent la détermination a priori dela dimension des variétés modèles. Cette dimension peut donc ne pas correspondre à celle de ladistribution.

Plus récemment, Balzuweit et al. [18] se sont intéressés à l'utilisation de la triangulationinduite de Delaunay pour modéliser des variétés de dimensions quelconques. Les modèles obtenussont linéaires par morceaux, et nous proposons ici d'utiliser les Noyaux de Voronoï Induits pourobtenir des variétés non linéaires. Mais tout d'abord, nous justi�ons le choix de la TID pourl'approximation de variétés.

11.4 Principe de l'approximation de variétés

11.4.1 Analogie avec l'approximation de fonctions

Modéliser une variété, c'est l'approcher par une variété modèle, dé�nie par un système d'équa-tions et d'inéquations comme le système (11.1).

Vue sous cet angle, la tâche paraît ardue et ressemble à une approximation simultanée deplusieurs fonctions.

Raisonnons autrement : comme on approche une fonction par une combinaison de fonctionsde bases choisies parmi une famille de fonctions particulières (polynômes, exponentielles...), paranalogie, nous cherchons à approcher une variété par une collection de variétés de base choisiesparmi une famille de variétés particulières.

11.4.2 Choix d'une famille de variétés

On peut dé�nir di�érentes familles de variétés basées sur le principe qu'elle doivent per-mettre d'approcher au moins une région d'une variété quelconque, c'est-à-dire être au moinshoméomorphes à celle-ci.

Si l'on considère les variétés à la topologie la plus simple possible au regard de ses carac-téristiques, i.e. des variétés continues, linéaires, �nies et limitées, nous dégageons trois famillesélémentaires :

� Famille des boules : le point, le segment, le disque, la boule,. . ., la d-boule� Famille des pavés : le point, le segment, le carré, le cube, . . ., le d-cube� Famille des simplexes : le point, le segment, le triangle, le tétraèdre,. . ., le d-simplexe

La première de ces familles est parfois utilisée en modélisation d'objets à trois dimensionsutilisant une collection d'ellipsoïdes, cependant, il est di�cile d'assurer la continuité entre deuxvariétés adjacentes au niveau de leurs frontières, et d'obtenir des formes variées.

Les deux autres familles permettent plus de �exibilité puisqu'il est possible de baser sur ellesdes techniques d'interpolation pour obtenir des variétés non linéaires. Elles permettent toutesles deux de recouvrir toute partie de l'espace sans chevauchement formant un complexe de cubesou de simplexes. Cependant, la famille des simplexes présente plusieurs avantages par rapport àcelle des cubes :

160

11.5. Mise en oeuvre des Noyaux de Voronoï Induits

� d'une part, chaque élément de dimension k de ces familles est homéomorphe à son corre-spondant : le triangle au carré, le tétraèdre au cube. . .Toute variété que l'on peut construireavec une collection de l'une peut l'être avec une collection de l'autre. La di�érence essen-tielle tient au nombre de points nécessaires à leur dé�nition : k + 1 pour le k-simplexe, 2k

pour le k�cube. En fait, le k-simplexe est le k-polytope qui comporte le moins de sommets,donc l'élément de base qui permettra la construction la plus �ne de k-variétés.

� d'autre part, il existe des algorithmes qui permettent de construire des complexes desimplexes connexes ou non même lorsque les sommets ne sont pas disposés régulière-ment(Triangulation de Delaunay Induite, graphes de Gabriel, �-formes. . .).

� en�n, il y a une correspondance directe entre le complexe de simplexes de la triangulationde Delaunay et le pavage de l'espace par les régions de Voronoï (structure fondamentaleaux propriétés nombreuses), qui n'existe pas pour les complexes de cubes.

Il est donc intéressant d'utiliser la triangulation induite de Delaunay comme approximationlinéaire des variétés support comme le proposent Balzuweit et al. [18].

11.4.3 Placement des sommets

Les mêmes problèmes se posent pour l'approximation de variétés et l'approximation de fonc-tions. On ne se préoccupe pas principalement de la densité de la distribution, mais plutôt desnon-linéarités des variétés supports. Les variétés de base étant linéaires, il en faudra davantagedans les régions non linéaires que dans les régions linéaires. Là encore, nous utiliserons une tech-nique de QV, qui ne mènera pas à un placement optimal au sens de l'écart quadratique entredonnées et modèle, mais notre but est ici de montrer que l'on peut aborder le problème de l'ap-proximation de variétés avec les noyaux de Voronoï induits, et de soulever les di�érents problèmesqui se posent pour un travail futur.

En l'occurrence, le placement des sommets en est un qu'il faudra considérer.

11.4.4 Nombre de sommets

Comme nous l'avons vu au chapitre 3 sur la �gure 3.5, du nombre de sommets dépend laprécision du modèle comme en approximation de fonctions, mais aussi sa topologie : un nombrede sommets trop important mène à une topologie proche de celle de la distribution qui n'est apriori qu'une collection de 0-variétés non structurée ; au contraire un nombre trop faible mène àune approximation trop grossière.

Le choix de ce nombre est problématique et nous n'avons connaissance d'aucun critère objectifpour le déterminer.

Cela reste un problème ouvert.

11.4.5 Non-linéarités

Comment à partir d'une collection de variétés linéaires, approcher des variétés supports po-tentiellement non linéaires ? Nous allons utiliser une approche similaire à celle proposée pourl'approximation de fonctions avec les noyaux de Voronoï induits.

11.5 Mise en oeuvre des Noyaux de Voronoï Induits

11.5.1 Principe

Le placement des centres est supposé e�ectué, et la triangulation induite obtenue.

161

Chapitre 11. Approximation de variétés avec les Noyaux de Voronoï Induits

(a) (b) (c) (d)

Fig. 11.1 � Principe de l'approximation de variétés : (a) La donnée (point noir) est présen-tée ; (b) puis on détermine le simplexe non linéaire sur lequel elle doit être projetée (segment engras et morceau de courbe de mêmes extrémités) ; (c) on recherche alors le point de ce simplexele plus proche de la donnée : ce point est la projection de la donnée sur la variété modèle ; (d)on adapte les paramètres du modèle pour améliorer sa précision.

Pour chaque simplexe du complexe, on créer une variété non linéaire qui lui est homéomorpheet que nous appelons par abus "simplexe non linéaire", et l'on cherche à raccorder ces variétésnon linéaires entre elles de façon continue (C1). Il s'agit donc de réaliser un homéomorphismeentre les points du complexe de simplexes et la variété non linéaire modèle, i.e. une fonctiondé�nie cette fois de IRd dans IRd.

Le principe de l'approximation est le suivant :

Algorithme 1 Approximation de variétés non linéaires

Présentation d'une donnée ;

Recherche du simplexe non linéaire sur lequel projeter la donnée ;

Projection de la donnée sur le simplexe non linéaire ;

Calcul de l'erreur (distance entre la donnée et sa projection) ;

Adaptation des paramètres du modèle pour minimiser cette erreur.

Retour au premier point.

Cet algorithme est illustré sur la �gure 11.1.

11.5.2 Modèle

Nous utilisons un modèle identique à celui de l'approximation de fonctions, basé sur lesnoyaux de Voronoï Induits :

w(vp; int; w) =

Pwi2Sactiv �i(vp; int; w)Li(vp; w)P

wi2Sactiv �i(vp; int; w)(11.2)

162

11.5. Mise en oeuvre des Noyaux de Voronoï Induits

Fig. 11.2 � Heuristique pour la recherche des unités actives : parmi l'ensemble des noy-aux actifs -observables de la donnée, on ne conserve que ceux (région grise) qui sont liés aunoeud le plus proche (disque noir) de la donnée par un chemin sur la TID dont tous les noeudsintermédiaires sont les centres de noyaux actifs (disques gris). De gauche à droite, illustrationsur di�érentes con�gurations.

où vp est un point du (ou des) complexe(s) de simplexes dé�nis par la TID, avec

Li(vp; w) = Ai(vp �wi) + wi (11.3)

qui dé�nit une transformation a�ne de l'espace par le noeud wi. Lorsque Ai est la matriceidentité, alors w(vp; int; w) = vp. Les noyaux de Voronoï Induits �i localisent les transformationsLi autour de leur centre wi respectifs et permettent dans certains cas décrits plus loin, de passercontinûment d'une transformation Li à l'autre.

11.5.3 Choix des unités actives

Les unités Sactiv ne sont pas seulement les unités 0:5-Observables de la donnée v commeen approximation de fonctions, puisque l'on a vu qu'il pouvait subsister des discontinuités auvoisinage des frontières du complexe. Nous proposons une heuristique plus élaborée consistant àchoisir parmi les voisins -observables de la donnée, ceux qui lui sont liés par les liens de la TID,au travers d'une chaîne de noeuds tous -observables de la donnée.

Le principe est illustré sur la �gure 11.2. Cette heuristique permet de limiter les discontinuitésvoir de les supprimer comme le montre les �gures 11.3(a) et 11.3(b). Elle peut cependant aussi encréer dans certains cas particuliers pour lesquels les noeuds sont placés de manière très irrégulièrecomme sur la �gure 11.3(c). L'utilisation d'un algorithme de QV ayant tendance à régulariserla position des noeuds, des discontinuités créées par l'heuristique sont moins susceptibles de seproduire que celles qui apparaîtraient si on ne l'utilisait pas.

11.5.4 Adaptation des paramètres

Fonction d'énergie

Nous donnons ici les règles d'adaptation des di�érents paramètres correspondant à des de-scentes de gradient sur la fonction d'énergie :

Evrt =1

2

Z�(v � w(vp))2p(v)dv (11.4)

On les obtient par dérivation de cette fonction comme décrit au chapitre 2.

Projection

Tout d'abord, il faut trouver la projection de la donnée v sur la variété modèle, i.e. le pointv�p du complexe de simplexes C tel que :

163

Chapitre 11. Approximation de variétés avec les Noyaux de Voronoï Induits

(a) (b) (c)

Fig. 11.3 � E�et de l'heuristique de recherche des unités actives sur la continuité :en (a), comparé à la �gure 8.6(c-d), les discontinuités ont diminué en (a) ou disparu en (b). En(c), un exemple de position trés irrégulière des centres, pour laquelle l'utilisation de l'heuristiquecrée des discontinuités. En e�et, puisque tous les noyaux actifs (en gris dans le dessin du bas)ne sont pas reliés par un ensemble de noyaux actifs, seuls ceux liés au gagnant (le gagnant esten gris dans le dessin du haut) participent à l'interpolation, et lorsque le gagnant change, unnoyau actif mais non participant peut le devenir brusquement et créer une discontinuité. De plus,la TID correspondant à la TD dans le cas présent (traits gras) (ce qu'on ne peut savoir sauf àcalculer explicitement la TD), aucun noyau n'est tronqué, la participation de tous les noyauxassure l'orthogonalité et la continuité donc l'usage de l'heuristique n'est pas nécessaire. Ces cassont cependant rares si l'on tient compte de l'e�et régularisant du placement des représentantspar une technique de quanti�cation vectorielle.

164

11.5. Mise en oeuvre des Noyaux de Voronoï Induits

kv � w(v�p)k = minvp2C

(kv � w(vp)k) (11.5)

Le seul moyen de trouver le point v�p, est de le chercher dans l'ensemble des simplexes deC. Cependant, on peut raisonnablement réduire cette recherche à l'un des simplexes ayant poursommet le noeud le plus proche de v pour obtenir un v�p proche de l'optimum.

La recherche de v�p est e�ectuée par descente de gradient dans le simplexe Ssimplexe supposéle contenir. Si lors de la recherche de v�p, vp sort de Ssimplexe et pénètre dans un simplexeadjacent qui peut être une facette du précédent, alors Ssimplexe devient ce nouveau simplexe. Unecondition d'arrêt permet de stopper l'algorithme de recherche lorsque vp correspond à l'optimumv�p recherché.

Pour assurer que vp demeure dans le simplexe Ssimplexe, nous utilisons ses coordonnéesbarycentriques kj dans ce simplexe telles que :

vp = worig +X

wj2Ssimplexe

j 6=orig

kj(wj �worig) (11.6)

où worig est initialisé sur le noeud gagnant au début de la recherche.L'adaptation des kj s'e�ectue comme suit13 :

�kj = �@w(vp)

@kj(v � w(vp)) (11.7)

avec � le pas d'apprentissage et

@w(vp)

@kj=

Xi2Sactiv

�i(vp)

0@Ai(wj�worig) + (Li(vp)�w(vp))X

wq2V NI(wi)

sq;j;i;origh0(uiq(vp))h(uiq(vp))

1AX

i2Sactiv�i(vp)

(11.8)où V NI(wi) = V NIw;D(wi) n wi, h0 est la dérivée par rapport à t de h, et avec

sq;j;i;orig =hwj � worigjwq � wii

(wq � wi)2 (11.9)

Pour détecter si vp sort du simplexe Ssimplexe, nous e�ectuons les deux étapes suivantesillustrées sur la �gure 11.4.

� Si l'un des kj devient négatif après adaptation, c'est que vp traverse la face du simplexeopposée à wj , donc wj est ajouté aux noeuds interdits Sinterdits et l'on recherche un nou-veau simplexe Ssimplexe de C parmi les voisins de worig ne contenant aucun des noeuds deSinterdits, contenant les noeuds wj du simplexe précédent et qui soit le plus grand possible.

� Si aucun des kj n'est négatif, alors on véri�e que leur somme est bien inférieure ou égaleà 1. Si cette somme est supérieure à 1, c'est que vp traverse la face du simplexe opposée àworig. worig devient noeud interdit et le nouveau worig est choisi parmi les wj du simplexes,comme celui ayant la coordonnée kj maximale. On recherche un nouveau simplexe Ssimplexe

de C parmi les voisins de worig ne contenant aucun des noeuds de Sinterdits, contenant lesnoeuds wj du simplexe précédent et qui soit le plus grand possible.

13pour simpli�er l'écriture, nous ne faisons pas apparaître l'ensemble des paramètres de chaque fonction.

165

Chapitre 11. Approximation de variétés avec les Noyaux de Voronoï Induits

(a) (b) (c)

Fig. 11.4 � Détection de la sortie du simplexe : (a) le point vp du simplexe est positionnégrâce à ses coordonnées barycentriques kj. la somme de ces coordonnées est comprise entre 0 et1. (b) si la coordonnée ki de vp devient négative, vp sort du simplexe par la facette opposée à wi.(c) si la somme des coordonnées excède 1, vp sort du simplexe par la facette opposée à worig.

vp permet de déterminer les noeuds actifs (on considère vp au lieu de v dans l'heuristique pourdéterminer Sactiv). La nouvelle sortie w(vp) est calculée et la distance kv�w(vp)k est évaluée. Sila variation des distances entre v et w(vp) entre deux itérations successives est inférieur à un seuilT , alors vp correspond au v�p optimum recherché, et w(v�p) est la projection de v sur la variétémodèle, sinon on réitère l'adaptation des kj et les contrôles précédents.

Adaptation du gradient

Une fois la projection w(v�p) de v trouvée, il faut adapter les paramètres de la variété modèlepour améliorer la précision de l'approximation.

Les éléments de la matrice Ai sont adaptés comme suit

�a[r;c]i = �

�i(v�p)P

j2Sactiv �j(vp)(v�[c]p � w[c]

i )(v[r] � w[r](v�p)) (11.10)

avec

Ai =

0BBBBBBBB@

a[1;1]i � � � a

[1;c]i � � � a

[1;d]i

.... . .

......

a[r;1]i � � � a

[r;c]i � � � a

[r;d]i

......

. . ....

a[d;1]i � � � a

[d;c]i � � � a

[d;d]i

1CCCCCCCCA(11.11)

Les matrices Ai sont initialement des matrices identités.

On note que la fonction d'énergie minimisée est quadratique en a[r;c]i , ce qui garantit d'at-

teindre la valeur optimale des a[r;c]i par simple descente de gradient.

Adaptation de la position des centres

La règle pour l'adaptation des wi est la suivante :

166

11.6. Expérience

@w(vp)

@w[c]j

=

Xi2Sactiv

�i(vp)

0@@Li(vp)@w

[c]j

+ (Li(vp)�w(vp))X

wq2V NI(wi)

@uiq(vp)

@w[c]j

h0(uiq(vp))h(uiq(vp))

1AX

i2Sactiv�i(vp)

(11.12)

avec

@Li(vp)

@w[c]j

= A[:;c]i :C1 + C2 (11.13)

et

@uiq(vp)

@w[c]j

= C1

Pdl=1(w

[l]q � w[l]

i )

(wq � wi)2 + C3 (11.14)

où A[:;c]i est la colonne c de la matrice Ai. Les paramètres C1, C2 et C3 sont donnés dans le

tableau 11.1.

j = orig j 2 Ssplx n orig j 6= orig; j 62 Ssplx i = j i 6= j

C1 2 IR 1�X

m2Ssplxnjkm kj 0 � �

C2 2 IRd � � � (IId �Aj)[:;c] 0

C3 2 IR � � � 2w[c]q � v[c]p

(wq � wi)4 0

Tab. 11.1 � Formules pour le calcul de C1, C2 et C3.

où IId est la matrice identité de dimension d.Cette règle est assez complexe comparée à celle adaptant les matrices Jacobiennes Ai, car en

plus des fonctions Li, les �i ainsi que vp dépendent aussi de la position des centres w.

11.6 Expérience

11.6.1 Expérience qualitative

But

Nous montrons que l'utilisation des Noyaux de Voronoï Induits permet d'approcher des var-iétés non linéaires de topologies variées, à partir d'un modèle linéaire basé sur la TID.

Protocole

Nous avons utilisé les Noyaux de Voronoï Induits dans [12] pour approcher une collection devariétés non linéaires présentée sur la �gure 11.5(a).

Nous utilisons 20 centres, et supposons que ce nombre est adéquate, que ces centres sont placéssur la distribution dont la topologie est représentée par la TID, ce qui permet d'en construire unmodèle linéaire. La distribution bruitée utilisée pour le placement des centres et la constructionde la TID, est présentée avec les centres et la TID sur la �gure 11.5(b).

167

Chapitre 11. Approximation de variétés avec les Noyaux de Voronoï Induits

(a) (b) (c)

Fig. 11.5 � Approximation de variétés avec les Noyaux de Voronoï Induits : (a) lesvariétés à modéliser. (b) Les données bruitées observées sont quanti�ées, puis la topologie dela distribution est représentée par la TID, créant un modèle linéaire des variétés support de ladistribution. (c) L'utilisation des noyaux de Voronoï Induits permet de créer un modèle nonlinéaire des variétés support de la distribution. La sphère est approchée par un "patatoïde" en(c) mieux que par un polyèdre en (b).

Durant 5000 itérations, avec int = 0:5, un pas d'apprentissage � = 0:1 et un seuil T = 10�4,nous adaptons uniquement les éléments des matrices Ai.

Résultats

On observe sur la �gure 11.5(c), que les variétés modèles obtenues sont non linéaires etvisiblement plus proches des variétés originales que le modèle linéaire obtenu par la seule TID(la sphère est approchée par un "patatoïde" plus précisément que par un polyèdre). On constateaussi que le drapeau est mal approché par seulement trois unités : on tente d'approcher unrectangle en déformant un triangle.

Discussion

La connexité correcte observée pour les variétés modèles (un anneau, une sphère, un mât etun drapeau) est due au choix d'un nombre su�sant de représentants pour la distribution pro-posée. Ce choix a été e�ectué connaissant a priori la dimension des variétés modélisées puisqu'ils'agissait ici d'obtenir des résultats qualitatifs montrant les possibilités de l'approche proposée.En pratique, ce choix ne peut être fait sur la base d'un critère objectif sans connaissances a priorisur la topologie des variétés à modéliser.

La qualité de l'approximation dépend aussi de la position des centres. Les non-linéarités desvariétés supports (ou de leurs frontières) devraient permettre d'améliorer ce placement pourminimiser l'écart quadratique entre les données et le modèle, pour un nombre donné de centres.

Dans cette expérience, seuls les paramètres de la matrice Jacobienne de chaque centre, ontété adaptés. Dans l'expérience suivante, nous proposons aussi l'adaptation de la position descentres.

168

11.6. Expérience

11.6.2 Expérience quantitative

But

Nous montrons comment peut s'e�ectuer la complétion vectorielle sur une variété simpleapprochée avec les NVIs et comparons di�érentes séquences d'apprentissage des paramètres Ai

et wi.

Protocole

Nous approchons un huitième de sphère de IR3 dé�ni par :(x2a + x2b + x2c = 1(xa; xb; xc) 2 [0; 1]3

(11.15)

v est le vecteur (?; xb; xc), (xa; ?; xc) ou (xa; xb; ?) dont on cherche la coordonnée manquante,respectivement xa, xb ou xc en supposant v sur la variété modèle.

Pour e�ectuer cette recherche, on minimise Evrt = 12(v � w(vp))

>P (v � w(vp)) où P est

une matrice de projection dont les seuls termes non nuls sont les p[m;m] = 1 tels que m est unecoordonnée disponible de v. Cela correspond à ne considérer lors de l'adaptation des kj à la

recherche de v�p, que les coordonnées m des vecteurs@w(vp)@kj

et (v �w(vp)).Nous comparons les erreurs en lecture sur chacune des trois coordonnées connaissant les

deux autres pour des points dont les coordonnées sont dans l'intervalle [0:3; 1], et nous testons 5séquences di�érentes pour l'apprentissage. La QV est e�ectuée avec l'algorithme des -Observables.

� Séquence 1 :QV seule sur 2000 itérations ;� Séquence 2 :QV sur 2000 itérations puis wi sur 7000 itérations ;� Séquence 3 :QV sur 2000 itérations puis Ai sur 7000 itérations ;� Séquence 4 :QV sur 2000 itérations, Ai sur 7000 itérations puis wi sur 5000 itérations ;� Séquence 5 :QV sur 2000 itérations, puis Ai et wi simultannés sur 7000 itérations ;

Dans toutes les séquences, le CHL est appliqué durant 1000 itérations juste après la QV.

Les paramètres sont �xés à f ;�;Tg = f0:5; 0:1; 0:001g.

Résultats

La �gure 11.6 présente les résultats obtenus en lecture pour chaque coordonnée et chaqueséquence.

La séquence 4 permet d'obtenir le modèle le plus proche du huitième de sphère, puisqu'il faitl'erreur moyenne minimum pour la lecture des trois coordonnées.

Discussion

L'enchaînement de l'adaptation des di�érents paramètres in�ue sur la qualité du modèle. Laséquence qui mène à la plus grande précision est celle qui commence par la QV sur 2000 itérations,puis adapte la position des sommets wi sur 7000 itérations, et termine par l'adaptation des Ai

sur 5000 itérations.

Cette expérience permet de valider la technique de complétion vectorielle. Nous envisageonsde l'utiliser dans l'application du préhenseur électropneumatique vue au chapitre 10 pour obtenirà partir de la position, la commande qui y mène.

169

Chapitre 11. Approximation de variétés avec les Noyaux de Voronoï Induits

Fig. 11.6 � Complétion vectorielle : un huitième de sphère est modélisé avec les NVIs et laTID. Connaissant deux coordonnées d'un point, on cherche la troisième en supposant ce point surla variété modélisée. Pour chacune des trois coordonnées, on obtient l'erreur moyenne présentéesous forme d'histogramme, et ce pour cinq enchaînements di�érents d'adaptation des paramètres.La séquence 4 est celle qui mène aux meilleurs résultats.

170

11.7. Discussion

11.7 Discussion

11.7.1 Projection et complexité

En approximation de variétés, tout point de l'espace des données est projeté sur le point leplus proche de la variété. Comme dans les variétés principales de Hastie et Stuetzle [101], toutpoint de la variété se projette sur lui-même.

Nous avons vu à la section 11.5.4 que la recherche de la projection de la donnée v sur la var-iété modèle n'est pas immédiate comme en approximation de fonction, mais s'opère de manièreitérative. Cela est propre aux approches paramétriques de type PSOM et B-splines d'approxi-mation de variétés. Cela permet une lecture du modèle dans di�érentes directions puisqu'il n'ya pas d'entrée et de sortie prédé�nies comme en approximation de fonctions. En�n, le mêmealgorithme de recherche permet aussi de faire de la complétion vectorielle, donc de retrouver lescoordonnées manquantes d'un vecteur par exemple.

Nous avons envisagé ici une simple technique de descente de gradient. Il en fait possibled'utiliser d'autres techniques d'optimisation non linéaire comme celle de Levenberg-Markardt[129].

11.7.2 Nombre de paramètres

Nous discutons de la di�érence fondamentale entre d'un côté les techniques d'interpolation ànoyau n'utilisant pas de maillage (modèle de Shepard, Voisins Naturels de Sibson et Noyaux deVoronoï Induits) et d'un autre côté, les PSOMs et les B-splines.

Dans les premières, le modèle passe exactement par les noeuds mais n'impose pas de directionsprivilégiées en ces noeuds. Si l'on désire imposer que le modèle soit aussi tangent à un di-planparticulier en ces noeuds (di dimension intrinsèque du modèle), il faut apporter de l'extérieurune information supplémentaire sur le gradient en chacun d'eux. Le modèle combine des modèlesde base linéaires et l'interpolation permet de passer continûment du modèle associé à un noeud,à celui associé à ses voisins.

Dans les secondes, aucune information sur le gradient en chaque noeud n'est nécessaire. Lenombre de noeuds des PSOMs dé�nit le degré des polynômes utilisés dans l'interpolation deLagrange, et leur position permet de contrôler dans une certaine mesure le gradient du modèleen chaque noeud. Quant aux B-splines, elles utilisent leurs points de contrôle pour justementraccorder tangentiellement les modèles polynômiaux de simplexes adjacents.

En approximation de variétés, le gradient en chaque noeud wi se traduit par une transforma-tion a�ne Li de l'espace, et l'interpolation permet de passer continûment de celle d'un noeud àcelle des noeuds voisins. Cette transformation a�ne est basée sur la matrice Jacobienne Ai quicomporte d2 paramètres, et un vecteur bi identique à wi, plus le paramètre , soit un total dend(d+ 1) + 1 paramètres.

Pour les B-splines, il faut nd paramètres pour placer les centres et entre d2i et d3i points decontrôle de chacun d coordonnées pour chacune des ns di-facettes principales de la TID (ns est

en (ndd2e), di � d est la dimension intrinsèque d'un facette principale de la TID). Soit un total

de moins de nd+ nsdd3i paramètres.

Si nsdd3i < nd2 donc si

nsd3in < d, alors il devient plus intéressant d'utiliser les B-splines. Ce

peut être le cas lorsque la dimension intrinsèque de la TID est très inférieure à celle de l'espaced des donnée.

Ce choix peut s'e�ectuer après avoir construit la TID. dans ce cas on peut calculer exactementle nombre de paramètres nécessaires à chacune des approches et opter pour l'une ou l'autre en

171

Chapitre 11. Approximation de variétés avec les Noyaux de Voronoï Induits

Fig. 11.7 �Comment positionner les centres ? A gauche en haut, la position obtenue par QVseule : les frontières de la variété support sont mal représentées. A gauche en bas, placement parQV et réglage des gradients Ai, et au milieu, placement des représentants par minimisation de ladistance entre les données et leur projection, dans les deux cas, le modèle se rapproche des donnéesmais n'est pas capable de modéliser correctement des frontières concaves : les données hors dela variété modèle l'attire vers elles puisqu'il existe un écart entre la donnée et sa projection, parcontre, une donnée tombant dans la variété est confondue avec sa projection sur elle, donc laforme de la variété modèle n'est pas modi�ée puisqu'elle ne fait pas d'erreur de représentation :la variété ne peut que �phagocyter� les données en s'agrandissant, elle ne peut pas rétrécir. Adroite, ce que l'on voudrait obtenir.

fonction de ce critère.

Réglage de la position des noeuds

Nous avons vu que les noeuds peuvent être placés par quanti�cation vectorielle ce qui minimisel'écart quadratique moyen entre eux et les données qu'ils représentent. Nous pouvons aussi réglerleur position en cherchant à minimiser l'écart quadratique moyen entre le modèle complet et lesdonnées, donc entre chaque donnée et sa projection sur le modèle.

On peut remarquer que la règle d'adaptation (11.12) présentée est équivalente à la règle des K-means lorsqu'aucun lien de voisinage n'existe entre les noeuds, ce qui signi�e que le modèle est unecollection de 0-variétés, ce qui est le cas de tout modèle utilisé en quanti�cation vectorielle. Unetechnique de quanti�cation vectorielle peut donc être vue comme une technique d'approximationde variétés par une collection de 0-variétés (l'ensemble des représentants).

Cette approche pose cependant un problème : le modèle tente de recouvrir la distributioncomplètement puisque dans ce cas, il ne fait plus d'erreur : chaque donnée appartenant à lavariété se projette sur elle-même. Le résultat est que les noeuds s'éloignent de la distributionpour que les frontières du modèle englobent celle-ci, donc les noeuds ne sont plus représentatifsde la distribution, et la TID peut en être altérée. La �gure 11.7 illustre les di�érentes situationsque nous avons aussi constatées expérimentalement et celle que l'on souhaiterait obtenir.

Ce problème n'est pas résolu. Il semble qu'il faille traiter de manière particulière les frontièresdes variétés modèles pour qu'elles demeurent sur les frontières de la distribution, même lorsquecelles-ci ne sont pas convexes.

Orthonormalité

La propriété d'othonormalité est primordiale dans le cas de l'approximation de variétés. Elleassure que les variétés non linéaires et les simplexes de la TID auxquels elles sont homéomorphes,ont leurs sommets en commun : le modèle "passe" par les noeuds de la TID.

172

11.8. Conclusion

En e�et, les noeuds sont placés sur la distribution de manière à ce que la TID qui dépenddirectement de leur position, représente la topologie de cette distribution. L'orthonormalité per-met donc au modèle non linéaire de rester par construction, proche des éléments qui créent sapropre topologie.

Continuité

Nous avons vu que la continuité ne peut être assurée avec les noyaux de Voronoï Induits, bienque l'on puisse limiter l'occurrence des discontinuités en utilisant une heuristique de recherchedes noeuds actifs dans le voisinage du noeud gagnant et avec une position su�samment régulièredes noeuds. Ces discontinuités sont dues à l'inadéquation des régions supports des noyaux deVoronoï Induits qui dé�nissent le support de l'interpolation, avec les simplexes de la TID quidé�nissent le support des variétés modèles.

De ce point de vue, les B-splines sont intéressantes puisqu'elles permettent d'assurer cettecontinuité dans tous les cas, les simplexes dé�nissant à la fois le support de l'interpolation etcelui des variétés modèles.

Il faut donc pour l'approximation de variétés, choisir entre l'approche des noyaux de VoronoïInduits potentiellement moins coûteuse en nombre de paramètres, assurant l'orthogonalité maispas nécessairement la continuité, et présentant l'e�et du casque prussien, et l'approche des B-splines garantissant orthogonalité, continuité et minimisation des variations de la courbure maisnécessitant potentiellement plus de paramètres.

11.8 Conclusion

Nous avons présenté l'approximation de variétés et utilisé les Noyaux de Voronoï Induits dansce cadre.

Nous avons montré que l'approche est valide malgré la possibilité de l'occurrence de discon-tinuités, et le problème du nombre de paramètres nécessaires en grande dimension. Nous avonsprésenté la technique de complétion vectorielle et nous envisageons de l'utiliser pour le contrôledu processus étudié sur le préhenseur pneumatique au chapitre 10.

Nous avons proposé une heuristique qui permet de limiter les discontinuités lorsque la TIDest su�samment régulière mais qui peut aussi en créer dans des cas trés particuliers. Cetteheuristique est basée sur une recherche des unités actives dans le voisinage de l'unité gagnantesur la TID,.

Les techniques B-splines garantissent en théorie la continuité, l'orthogonalité et la minimi-sation des variation de courbure, elles peuvent cependant nécessiter un plus grand nombre deparamètres que les noyaux de Voronoï Induits selon la dimension des simplexes et la dimensionde l'espace des données.

Les noyaux de Voronoï Induits constituent donc une alternative possible à l'utilisation desB-splines pour diminuer le nombre de paramètres nécessaires au modèle.

L'amélioration de la méthode de projection de la donnée sur la variété modèle pourraitêtre envisagé en remplaçant la descente de gradient simple par une technique plus élaboréed'optimisation non linéaire.

173

Chapitre 11. Approximation de variétés avec les Noyaux de Voronoï Induits

174

Chapitre 12

Analyse de données et discrimination

avec les voisins 0:5-observables

175

Chapitre 12. Analyse de données et discrimination avec les voisins 0:5-observables

12.1 Introduction

Le voisinage -Observable est utilisable en grande dimension et permet d'approcher le voisi-nage Naturel d'autant mieux que la dimension est grande (cf. chapitre 5). Nous montrons l'intérêtde cette propriété dans l'utilisation du Voisinage -Observable pour la discrimination et l'analysede données.

12.2 Discrimination par vote majoritaire

12.2.1 Principe

Nous nous inspirons d'une technique de discrimination utilisée avec les k-plus-proches voisins[49], en remplaçant ce voisinage par le voisinage 0:5-Observable. L'approche considérée consistepour une donnée dont tous les voisins 0:5-observables appartiennent à la même classe, à luiassocier cette classe. Une donnée dont les voisins 0:5-observables appartiennent à des classesdi�érentes est rattachée à la classe majoritairement représentée (indétermination si égalité).

12.2.2 Expérience

Nous avons testé cette approche sur la base de donnée Iris [73] telle qu'elle est fournie parle serveur UCI [136]. La base Iris regroupe 150 données composées chacune de 5 attributs. Les4 premiers sont la longueur et la largeur des sépales, et la longueur et la largeur des pétales encentimètres de �eurs Iris. Le dernier est le type d'Iris correspondant : les 50 premiers échantillonssont des Setosa (classe 1), les 50 suivants, des Versicolor (classe 2), et les 50 derniers, des Virginica(classe 3).

Nous classi�ons chaque donnée avec les 0:5-Observables et les k-PPV à l'aide de la méthodedécrite ci-dessus.

Nous utilisons une matrice de confusion pour comparer les di�érents algorithmes. Une matricede confusion est constituée d'autant de lignes et de colonnes qu'il y a de classes. Les colonnes sontles classes désirées et les lignes les classes obtenues. La méthode de validation du �leave-one-out�est utilisée : elle consiste à retirer une donnée test de la base, utiliser toutes les données restantespour régler les paramètres du classi�eur s'il en est, puis la donnée test est utilisée pour tester lacapacité de généralisation du classi�eur. On e�ectue le �leave-one-out� sur chaque donnée de labase. La matrice de confusion contient à la ligne Oi et la colonne Dj , le nombre de données testde classe réelle Dj qui ont été classées Oi par le classi�eur lors du �leave-one-out�.

12.2.3 Résultats

Les di�érentes matrices de confusion obtenues sont données pour les 0:5-Observables et lesk-PPV sur le tableau 12.1.

On constate que les 0:5-observables ne font pas un meilleur classi�eur que ceux basés sur lesk-PPV. Ils ne classi�ent pas correctement les données de la classe 1 alors que cette classe estlinéairement séparable des deux autres. Les meilleurs classi�eurs sont obtenus avec les f4; : : : ; 9g-PPV : 5 données mal classées.

12.2.4 Discussion

Il semble que le pouvoir discriminant des voisins 0:5-observables soit moindre que celui desmeilleurs k-PPV. Cela peut s'expliquer par le critère d'appartenance au voisinage qui n'est pas

176

12.3. Analyse de données

0:5-Obs. D1 D2 D3O1 50 0 0O2 0 47 3O3 0 3 47

f1; 2; 3g-ppv D1 D2 D3 f4; 5; 9g-ppv D1 D2 D3O1 50 0 0 O1 50 0 0O2 0 47 3 O2 0 47 2O3 0 3 47 O3 0 3 48

f6; 7; 8g-ppv D1 D2 D3 10-ppv D1 D2 D3O1 50 0 0 O1 50 0 0O2 0 46 1 O2 0 46 2O3 0 4 49 O3 0 4 48

Tab. 12.1 � Matrices de confusion des 0:5-Observables et des k-PPV

basé sur la distance. Le voisinage des k-PPV est sensible à un e�et attractif d'un grand ensemblede points de même classe situé à proximité (cf. analogie gravitationnelle), il ne tient pas comptede la position des voisins autour du point considéré.

Il faudrait cependant poursuivre l'étude et la comparaison avec d'autres méthodes et surd'autres bases de données pour en extraire un résultat réllement signi�catif.

Nous étudions maintenant l'utilisation du Voisinage 0:5-Observable pour l'analyse de données,qui ouvre une nouvelle voie pour la discrimination.

12.3 Analyse de données

12.3.1 Principe

Nous proposons une application des 0:5-Observables pour l'analyse de données. Le diagrammede Voronoï est utile pour analyser la proximité relative des données [171]. Comme trouver lesvoisins naturels en grande dimension n'est pas aisé, on utilise l'approximation qu'en donnent les0:5-Observables, ce qui permet d'obtenir des informations sur la topologie des données même engrande dimension. Ici, nous avons e�ectué une analyse des données de la base Iris en utilisantles règles suivantes :

� Une donnée dont tous les voisins 0:5-observables sont d'une même classe se trouve vraisem-blablement au milieu du nuage de points de cette classe.

� Si une donnée a au moins un voisin 0:5-observable de classe di�érente de la sienne, alorscette donnée se trouve certainement sur la frontière entre deux ou plusieurs classes, on ditqu'elle est frontière au sens des 0:5-Observables.

� Si tous les voisins 0:5-observables d'une donnée sont d'une classe di�érente de la siennealors elle est frontière et isolée au sens des 0:5-Observables (�outlier�).

Les k-PPV ne permettent pas de décider si une donnée est frontière ou non car on ne sait pasà quelle valeur régler k, tandis que les 0:5-observables s'adaptent automatiquement à la topologiedes données.

La �gure 12.1 présente les di�érentes situations.

177

Chapitre 12. Analyse de données et discrimination avec les voisins 0:5-observables

Fig. 12.1 � Principe des points frontières Les données sont représentées par des disques dontla couleur indique la classe. Sur les trois �gures, la donnée considérée est au centre. Le disque grisn'est pas voisin 0:5-observable de la donnée considérée, donc sa classe n'a aucune importance.Les traits �ns représentent les frontières des régions de Voronoï des données. A gauche, la donnéeconsidérée n'est pas frontière, toutes ses voisines 0:5-observables sont de sa classe (petits disquesnoirs). Au centre, la donnée considérée est isolée, toutes ses voisines sont d'une classe di�érentede la sienne. A droite, la donnée considérée est frontière, elle a au moins une voisine de mêmeclasse qu'elle et au moins une de classe di�érente.

Classe de la donnéeClasse de ses voisins 0:5-Obs. C1 C2 C3

C1 48 0 0C2 0 31 0C3 0 0 30

C1 & C2 2 1 0C1 & C3 0 0 0C2 & C3 0 18 20

C3 & C2 & C3 0 0 0

Tab. 12.2 � Analyse des données de la base Iris avec le voisinage 0:5-Observable

12.3.2 Résultats

Sur la base Iris, on détecte grâce au voisinage 0:5-Observable les propriétés résumées sur letableau 12.2

Nous faisons l'analyse suivante au sens des 0:5-Observables.

Les lignes C2, C3 et C2 & C3 ne contiennent aucune donnée de la classe C1, il n'y a pas dedonnées C1 isolée dans les autres classes. De même pour les données des classes C2 et C3. On endéduit que chacune des classes est une composante connexe du graphe des 0:5-observables, il n'ya pas de chevauchement des classes.

Il y a 2 données de C1 frontières avec C2 (ligne C1 & C2) mais aucune avec C3. Il y a 1donnée de C2 frontière avec C1 et 18 frontières avec C3. En�n, 20 données de C3 sont frontièresavec C2. Donc il n'y a pas de frontière commune entre les classes C1 et C3 et on peut envisagerde construire deux classi�eurs : l'un séparant C1 de C2 et l'autre C2 de C3.

12.3.3 Discussion

Le Voisinage 0:5-Observable permet d'analyser des données comme on le ferait avec le Voisi-nage Naturel. Cependant, le calcul des voisins naturels en grande dimension étant trop complexe,les voisins 0:5-observables sont une alternative intéressante dans ce cas.

L'analyse des données e�ectuée, nous proposons, connaissant les données frontières, de nous

178

12.4. Discrimination avec les points frontières

en servir en discrimination pour l'apprentissage des paramètres d'un classi�eur. Nous présentonscette approche dans la section suivante.

12.4 Discrimination avec les points frontières

Nous dé�nissons une technique de discrimination basée sur les points frontières et l'utilisonspour la discrimination des données d'une base arti�cielle pour l'illustration, puis nous la validonssur la base Iris.

12.4.1 Principe

Considérons la méthode de discrimination la plus simple, celle de l'association à la classe duplus-proche voisin et redé�nissons ce que nous entendons par points frontières dans le cas dedeux classes. Suivant cette technique de discrimination, un point change de classe lorsqu'il passesur la frontière commune aux régions de Voronoï de deux points de classes di�érentes. Ces deuxpoints de classes di�érentes sont donc voisins naturels et sont les deux plus proches points de lafrontière à l'endroit du passage.

Nous appelons donc points frontières les points voisins naturels de classes di�érentes. Et lafrontières des classes au sens du plus proche voisin est l'intersection des régions de Voronoï detout couple de points de classes di�érentes.

Cette frontière est dé�nie par les seuls points frontières. Nous avons la propriété suivante :

Propriété 20 Points frontières

Tout point hors base ou non frontière de la base, est nécessairement de la classe du pointfrontière le plus proche de lui.

Démonstration 18 Points frontières

Cas des points non frontières de la base :Le retrait d'un point non frontière Pnf de classe 1 ne change pas l'état de ses voisins naturels

dont certains deviennent voisins naturels les uns des autres par ce retrait. En e�et, ses voisinsnaturels frontières ou non sont tous de classe 1 et le demeurent puisqu'ils ne deviennent pasvoisins naturels de points d'une autre classe par ce retrait.

Après retrait de tous les points non frontières de classe 1 sauf l'un d'eux P �nf , la règle précé-

dente nous assure que ce point restant est toujours de classe 1 et qu'il n'a plus pour voisinsnaturels que des points frontières de sa classe.

En�n, la conséquence 8 et la propriété 3 du voisinage 0:5-observable nous assurent que le plusproche voisin d'un point dé�ni sur un ensemble donné fait partie de ses voisins naturels dé�nissur ce même ensemble. Ce qui signi�e ici que P �

nf a pour plus proche point frontière l'un de sesvoisins naturels, tous points frontières de sa classe. Donc tout point non frontière de la base estde la classe de son plus proche point frontière.

Il est donc possible de classer correctement tous les points de la base ne connaissant que laclasse des seuls points frontières.Cas des points hors base :

Considérons maintenant un point P n'appartenant pas à la base, deux cas se présentent :

� si son plus proche voisin parmi l'ensemble des points P de la base, est un point frontière Pf(P 2 VP (Pf )), alors son plus proche voisin parmi l'ensemble des seuls points frontières Pfest ce même point frontière Pf (le retrait des points non frontières jusqu'à ce qu'il ne resteque des points frontières, ne peut qu'agrandir les régions de Voronoï des points frontièresrestants). On associe à P la classe de Pf .

179

Chapitre 12. Analyse de données et discrimination avec les voisins 0:5-observables

Fig. 12.2 � Discrimination par points frontières : soit un ensemble de données (disques)de di�érentes classes (ici deux : grise et blanche). Les données dont au moins un voisin naturelest de classe di�érente de la leur, sont les données frontières (disques au bord épais). Le traitlarge est la frontière des classes au sens du plus proche voisin. Les traits gras sont les régions deVoronoï des données frontières. Les traits �ns sont les régions de Voronoï de toutes les données.Associer à tout point de l'espace des données, la classe de la donnée la plus proche (ce point estdans la région de Voronoï de la donnée), est équivalent à lui associer la classe de la plus prochedonnée frontière (ce point est dans la région de Voronoï d'un point frontière).

� si son plus proche voisin parmi l'ensemble des points P de la base, est un point non frontièrePnf (P 2 VP (Pnf )), alors on a vu dans la démonstration précédente concernant les pointsnon frontières de la base, que les voisins naturels de Pnf dé�nis sur Pf , sont tous des pointsfrontières de sa classe, donc par retrait de tous les points non frontières, P a pour seulsvoisins naturels sur Pf , des points frontières de la classe de Pnf , donc pour plus prochevoisin sur Pf , un point frontière de même classe que Pnf .

Il est donc équivalent d'associer à tout point hors-base, la classe de son plus proche voisinparmi les seuls points frontières , que de lui associer la classe de son plus proche voisin parmil'ensemble des points de la base. 2

La propriété 20 est illustrée sur la �gure 12.2.

12.4.2 Discussion

On peut utiliser cette approche : calcul de tous les points frontières de la base, puis discrim-ination de tout nouveau point par recherche du point frontière le plus proche.

Si le nombre nf de points frontières est notablement plus faible que le nombre total n depoints de la base, alors la discrimination au sens du plus proche voisin de tout nouveau point,nécessite d'autant moins d'opérations : O(nf ) au lieu de O(n).

Le problème est de trouver les points frontières en grande dimension, puisqu'il s'agit dedéterminer si des points de classes di�érentes sont voisins naturels ou non. Les voisins 0:5-observables sont une approximation des voisins naturels, il est donc intéressant de les utiliserpuisqu'ils impliquent des opérations simples à mettre en oeuvre et une complexité en O(d:n2) là

où la complexité des voisins naturels est en O(ndd2e).

180

12.4. Discrimination avec les points frontières

On dé�nit donc les points pseudo-frontières comme les points frontières au sens des 0:5-observables, i.e. dont l'un au moins des voisins 0:5-observables est de classe di�érente.

Les points dits frontières le sont toujours au sens des voisins naturels.

12.4.3 Problèmes

On ne peut pas se contenter d'utiliser les points pseudo-frontières au lieu des points frontières.En e�et, tous les points pseudo-frontières sont aussi des points frontières (propriété d'inclusiondu voisinage 0:5-Observable dans le voisinage Naturel) mais la réciproque est fausse donc danscertains cas, il peut subsister des points de la base théoriquement frontières mais non détectéspar les 0:5-Observables.

Ces points là ont pour voisins 0:5-observables parmi l'ensemble des données (points frontièrescompris) des points de même classe qu'eux, et en particulier, leur plus proche voisin. Maisleur plus proche voisin parmi l'ensemble des points pseudo-frontières seuls, peut être de classedi�érente. On ne peut donc pas les classer correctement au sens du plus proche voisin avec lesseuls points pseudo-frontière.

Nous e�ectuons donc un traitement supplémentaire en recherchant tous les points de la basedont le point pseudo-frontière le plus proche est de classe di�érente et en les ajoutant au furet à mesure à l'ensemble des points pseudo-frontières. L'ensemble des points pseudo-frontièrespeut alors contenir des points non frontières (il est cependant di�cile de dire combien, jusqu'àn� 3 points non frontières de la base pouvant avoir avant ce traitement pour plus proche pointfrontière, un point de classe di�érente d'eux).

La propriété des points frontières énoncée plus haut, reste valide avec les points pseudo-frontières dans le cas des points non pseudo-frontières de la base, le traitement supplémentairepermet de l'assurer (il est fait pour cela). Concernant des points hors base, la propriété ne peutêtre assurée, certains peuvent avoir pour plus proche point frontière un point de classe di�érentedu plus proche point de la base.

Il n'y a pas équivalence entre le classi�eur basé sur le plus proche point de la base, et celuibasé sur le plus proche point pseudo-frontière.

Néanmoins, nous utiliserons ces points pseudo-frontières dans la suite avec un classi�eur plussophistiqué.

La �gure 12.3 illustre les di�érents cas possibles.

12.4.4 Algorithme

L'algorithme de recherche des points pseudo-frontières s'e�ectue en deux étapes :

� Pour chaque donnée de la base hormis celles déjà explorées ou détectées comme pointspseudo-frontières, rechercher parmi l'ensemble des données des autres classes hormis cellesdéjà explorées, ses voisins 0:5-observables. Cette donnée et ses voisins 0:5-observables sonttous des points pseudo-frontières. L'algorithme est donné dans le tableau 12.3.

� Pour chaque donnée de la base hormis les points pseudo-frontières détectés à l'étape précé-dente, chercher son plus proche point pseudo-frontière. Si celui-ci est de classe di�érente,le point considéré devient pseudo-frontière après le traitement de toutes les données. L'al-gorithme est donné dans le tableau 12.4.

La �gure 12.3 aide à comprendre ces algorithmes.

Dans la suite, les points pseudo-frontières sont les points obtenus au terme de ces deux étapes.

181

Chapitre 12. Analyse de données et discrimination avec les voisins 0:5-observables

Fig. 12.3 � Problèmes des points pseudo-frontières : A, B et C sont des points pseudo-frontières (ils sont voisins 0:5-observables de classes di�érentes (couleur grise ou blanche)). Entraits �ns continus les régions de Voronoï de tous les points. En trait gras continu, la frontièredes classes dé�nie pas les points pseudo-frontières. On voit que D et E sont des points frontières(ils sont voisins naturels de B) mais ils ne sont pas pseudo-frontières (ils ne sont pas voisins0:5-observables de B). E se trouve du mauvais côté de la frontière des classes dé�nie par lespoints pseudo-frontières : il est classé gris par le classi�eur alors qu'il est blanc. Le traitementsupplémentaire consiste à transformer E en point pseudo-frontière du fait de ce mauvais classe-ment. Dans ce cas, la nouvelle frontière des classes est dé�nie par A, B, C et E et passe parle trait en pointillés gras. Après ce traitement supplémentaire e�ectué pour tous les points dela base, tous sont correctement classés par le classi�eur. Cependant, il subsiste des régions decon�it qui mènent à un classement di�érent pour des points hors-base : tout nouveau point àclasser, apparaissant dans la région triangulaire en gris foncé, a pour plus proche point de labase, le point D de classe blanche, mais a pour plus proche point pseudo-frontière le point B declasse grise. La propriété démontrée pour les points frontières ne s'applique donc pas aux pointspseudo-frontières. Algorithme : Dans l'algorithme de traitement supplémentaire, si l'on choisitde transformer les points en con�it uniquement aprés les avoir tous déterminés, alors les pointsE et F seront de nouveaux points pseudo-frontières et la nouvelle frontière des classes passerapar le trait en pointillé dé�ni par E. Si l'on choisit de transformer les points en con�it au fur età mesure de leur découverte, alors si l'on découvre E avant F, E devient point pseudo-frontière,la frontière en pointillés devient valide et F ne sera pas découvert, si par contre on trouve Favant E, F devient point pseudo-frontière, la frontière des classes passe cette fois par le trait enpoints-tirets alternés, et E ne sera pas découvert, mais dans ce dernier cas, la région de con�itpour les points hors base s'agrandit et comprend la région triangulaire en gris foncé et la régiontrapézoïdale gris clair. Nous avons opté pour la solution transformant tous les points frontièresen �n d'algorithme pour minimiser la taille des régions de con�it, malheureusement, cela peutaugmenter arti�ciellement le nombre de points pseudo-frontières illégitimes comme F.

182

12.4. Discrimination avec les points frontières

B : ensemble des données de la baseCP : ensemble des données de la classe de PPe : ensemble des points explorésPf : ensemble des points pseudo-frontières

Pe ;Pf ;Pour chaque donnée P 2 B n (Pf [ Pe)Pe Pe [ PPour chaque donnée Pc 2 B n (Pe [ CP )Si Pc et Pe sont 0:5-ObservablesAlors Pf Pf [ fPc; PgFinSi

FinPourFinPour

Tab. 12.3 � Algorithme de recherche des points pseudo-frontières

12.4.5 Complexité

La recherche des points pseudo-frontières avec les 0:5-Observables, s'e�ectue au pire casen O(d:n3) : pour chacun des n points de la base, il faut calculer ses voisins 0:5-observables(complexité en O(d:n2)) dont on doit déterminer la classe.

Les opérations liées au traitement supplémentaire ont une complexité en O(n:nf ) si l'on amémorisé les distances à l'étape précédente (complexité mémoire O(n:nf )), ou en O(d:n:nf )sinon. Cela correspond au pire cas à O(d:n2) puisque nf � n.

12.4.6 Régularisation

Premiers résultats

La technique de discrimination qui associerait à tout nouveau point, la classe du point fron-tière le plus proche, donnerait des résultats identiques à celle des 1-PPV basée sur le plus prochevoisin parmi l'ensemble des points de la base. En utilisant les points pseudo-frontières, on obtientla même matrice de confusion qu'avec les 1-PPV.

Ainsi, bien que la propriété 20 démontrée pour les points frontières ne soit pas théoriquementvalide pour les pseudo-frontières, l'expérience montre que les résultats obtenus sont identiquesavec les deux approches sur la base Iris.

Nature des frontières des classes

La frontière des classes dans le cas des points frontières est une partie de l'ensemble desfrontières des régions de Voronoï de l'ensemble des points.

Avec les points pseudo-frontières, la frontière des classes n'est pas nécessairement identique entous points à la précédente mais elle l'est au moins en partie puisque les points pseudo-frontièressont inclus dans les points frontières.

183

Chapitre 12. Analyse de données et discrimination avec les voisins 0:5-observables

Pfsup : ensemble des points pseudo-frontières supplémentaires

Pe ;Pfsup ;Pour chaque donnée P 2 B n (Pf [ Pe)Pe Pe [ PP �c = argminPc2Pf (kP � Pck)Si P �

c 62 CPAlors Pfsup Pfsup [ PFinSi

FinPourPf Pf [ Pfsup

Tab. 12.4 � Algorithme du traitement supplémentaire pour déterminer les pointspseudo-frontières

La frontière des classes est dans tous les cas linéaire par morceaux puisque partie communeaux polytopes de Voronoï. On peut espérer améliorer la qualité de la discrimination si l'on faitune hypothèse sur la régularité de la frontière des classes, i.e. si on lisse cette frontière.

Régularisation des frontières

L'utilisation de noyaux gaussiens centrés sur les données est un moyen de lisser la frontièredes classes. Mais plutôt que d'utiliser l'ensemble des données, il su�t d'utiliser les seuls pointsfrontières puisque ce sont les seuls à déterminer la forme de la frontière des classes.

On détermine donc d'abord les nf points pseudo-frontières parmi l'ensemble des points wi dela base w, puis on associe à chacun d'eux un noyau gaussien �i normalisé et une valeur de sortieyi, la combinaison des sorties pondérées par les noyaux donne la sortie du réseau de neuronesainsi constitué :

y(v) =

Pnfi=1 �i(v; w)yiPnfi=1 �i(v; w)

(12.1)

avec �i(v; w) = e� kv�wik

2

�i . Le réseau e�ectue une approximation de fonction constante parmorceaux (les yi), le passage entre chaque fonction étant continu grâce aux noyaux gaussiens. Lesnoyaux sont normalisés de telle sorte que la sortie du réseau loin de la frontière des classes, tendvers la sortie constante du noyau le plus proche. Le lissage est contrôlé par la largeur des noyauxutilisés, plus ils sont larges, plus la frontière des classes modélisée est lisse, lorsqu'au contraire, lalargeur tend vers 0, la frontière modélisée tend vers la frontière basée sur les régions de Voronoïdé�nies sur l'ensemble des points pseudo-frontières (le classi�eur est équivalent à celui basé surle plus point pseudo-frontière).

La largeur des noyaux �i est �xée, et l'on optimise leur sortie yi par une descente de sous-gradient :

�yi = ��i(v; w)Pnfj=1 �j(v; w)

(cd � yi) (12.2)

184

12.4. Discrimination avec les points frontières

où cd est la sortie désirée, la classe de l'un des points frontières qui constituent les seules donnéesutiles à la discrimination. Il y a nf échantillons de classe ci correspondants aux centres des noyauxeux-mêmes.

La fonction d'énergie minimisée est :

E =1

2

nfXk=1

(ck � y(v))2 (12.3)

Elle est quadratique en yi, donc la descente de sous-gradient assure que l'on atteindra leminimum global de la fonction pour un pas d'apprentissage � su�samment petit.

Le réglage des paramètres yi permet de respecter au mieux la classe de chaque point frontièrecar les noyaux gaussiens ne sont pas orthogonaux : on a généralement y(wi) 6= yi. L'e�et duréglage des yi est aussi de déplacer localement la frontière vers un point frontière ou l'autre.

Les autres points de la base n'ayant pas servi à l'apprentissage, peuvent être utilisés pourdéterminer les valeurs de �i par essais successifs, telles que les erreurs de discrimination dans lamatrice de confusion obtenue par �leave-one-out� soient moindres.

12.4.7 Expérience sur base arti�cielle

Nous présentons ce principe sur une base arti�cielle. La �gure 12.4(a) montre cette basearti�cielle à 2 dimensions dont les données appartiennent à deux classes 1 et �1. Les pointspseudo-frontières y sont mis en évidence.

Les paramètres utilisés sont �i = 0:01;8i et � = 0:01.

Un seuillage de valeur 0 sur la sortie y(v) du réseau permet d'obtenir la frontière de décisionentre les classes tracée sur la �gure 12.4 (a) après 1000 itérations d'optimisation des yi.

La �gure 12.4 (b) montre la sortie y(v) du réseau avant seuillage.

12.4.8 Expérience sur la base Iris

Nous avons positionné un noyau gaussien sur chaque point pseudo-frontière. Nous avonsréglé le rayon �i = �:d�i des noyaux proportionnel à la distance d�i à leur plus proche voisinparmi les points pseudo-frontières, de manière à tenir compte de la densité locale des pointspseudo-frontières pour la régularisation. Le paramètre � est identique pour tous, et optimisépar comparaison des matrices de confusion. Les paramètres yi sont optimisés par descente desous-gradient.

Nous avons utilisé les paramètres suivants : � = �i��f�i

� ttmax où t est l'itération courante et

tmax est le nombre maximum d'itérations (tmax = 1000), avec �i = 0:5 et �f = 0:01. Le �leave-one-out� est utilisé pour extraire chaque donnée de la base, et e�ectuer chaque fois la recherchedes points pseudo-frontières et l'apprentissage des paramètres yi durant tmax itérations.

12.4.9 Résultats sur la base Iris

La matrice de confusion optimale obtenue avec � = 0:01, est :

0:5-Obs. D1 D2 D3O1 50 0 0O2 0 47 0O3 0 3 50

185

Chapitre 12. Analyse de données et discrimination avec les voisins 0:5-observables

−0.2 0 0.2 0.4 0.6 0.8 1 1.2−0.2

0

0.2

0.4

0.6

0.8

1

1.2

v

u 00.2

0.40.6

0.81

1.21.4

0

0.2

0.4

0.6

0.8

1

1.2

1.4−3

−2

−1

0

1

2

3

(a) (b)

Fig. 12.4 � Régularisation de la frontière des classes : (a) discrimination de donnéesarti�cielles par sélection des données pseudo-frontières puis utilisation de noyaux gaussiens nor-malisés centrés sur elles pour obtenir la frontière de décision (trait fort). Les traits �ns montrentles frontières utilisées pour générer les classes. Les motifs pleins de grande taille sont les donnéespseudo-frontières de chaque classe. (b) Surface générée par le classi�eur à noyaux gaussiens. Tousles points du plan horizontal pour lesquels la fonction est positive, sont associés à la classe +1(les étoiles), tous les autres à la classe �1 (les cercles). La frontière de décision est la ligne deniveau 0.

186

12.5. Approches similaires

Les résultats obtenus sont meilleurs que ceux que donnent les meilleurs k-PPV (3 mal classésau lieu de 5).

L'utilisation des points pseudo-frontières pour la discrimination par association au plus prochevoisin sans régularisation, donne expérimentalement la même matrice de confusion qu'avec les1-PPV (6 mal classés). L'utilisation avec régularisation, des points pseudo-frontières sans letraitement supplémentaire, mène à une matrice de confusion identique elle aussi à celle des1-PPV, montrant l'importance de ce traitement puisqu'avec lui, 3 données seulement sont malclassées. En�n, l'utilisation de toutes les données de la base avec régularisation (un noyau gaussiencentré sur chaque donnée) et un protocole et des valeurs identiques à celles utilisées pour les pointspseudo-frontières, mène encore à la même matrice de confusion que les 1-PPV.

La meilleure con�guration obtenue en terme de nombre de données bien classées est donccelle utilisant les seuls points pseudo-frontières avec noyaux gaussiens. Le tableau suivant résumeles résultats obtenus avec la technique du "leave-one-out" :

Pourcentage Tous les points Points pseudo-frontièresde bien classés sans traitement avec traitement

Sans régularisation 96:7% - 96:0%Avec régularisation 96:0% 96:0% 98:0%

La complexité des calculs pour classi�er toute nouvelle donnée est moindre avec l'approchebasée sur les points pseudo-frontières (41 sur la base Iris) qui fabrique un modèle résumé desdonnées, qu'avec les k-PPV (approche non paramétrique) qui utilisent toutes les données àchaque fois (150 sur la base Iris). Cependant, il faut compter le temps de calcul supplémentairedes points frontières eux-mêmes.

A titre indicatif, lors du calcul des matrices de confusion, nous avons constaté les temps decalcul suivants (cumulés sur les 150 expériences du "leave-one-out") : pour l'approche basée surles points pseudo-frontières avec régularisation, 123 secondes pour la détermination de ces pointset 63 secondes pour l'apprentissage des 41 paramètres et la lecture de la classe associée au pointexclu utilisant les 41 points pseudo-frontières ; pour l'approche basée sur toutes les données avecrégularisation, il faut 264 secondes pour l'apprentissage des 149 paramètres yi et la lecture de laclasse associée au point exclu utilisant les 149 noyaux.

L'utilisation des seuls points pseudo-frontières avec régularisation sur la base Iris impliquedonc des calculs 1:4 fois plus rapides que l'utilisation de toutes les données avec régularisationlors de l'élaboration de la matrice de confusion.

Pour valider tous ces résultats et conclure de manière dé�nitive, il faudra étudier cette ap-proche avec d'autres bases de données.

12.5 Approches similaires

On retrouve des points similaires aux points frontières dans [41] qui supprime successivementdes points de la base de départ tant qu'aucun changement ne survient dans la classe qui estattribuée à chaque point restant à partir de la classe de son plus proche voisin parmi eux. Lespoints restants sont proches des points théoriquement frontières (sans garantie qu'ils leurs soientidentiques) et servent seuls à la discrimination de nouveaux points.

Les points frontière tels que nous les avons dé�nis, sont utilisés dans [49] pour construire lafrontière de décision intersection de leurs régions de Voronoï. L'auteur démontre l'équivalenceentre une discrimination basée sur cette frontière de décision et une discrimination basée sur leplus proche voisin parmi l'ensemble des points. Un algorithme est proposé pour la constructionde cette frontière en 3 dimensions. Cependant, l'auteur ne fait pas de relation explicite avec les

187

Chapitre 12. Analyse de données et discrimination avec les voisins 0:5-observables

régions de Voronoï et les algorithmes pour les construire. Nous avons complété ces travaux enconsidérant que la détermination des points frontières dé�nit implicitement cette frontière dedécision comme intersection des régions de Voronoï de tout couple de points frontières de classesdi�érentes, et nous avons montré que la discrimination basée sur cette frontière est équivalenteà celle basée sur le plus proche point frontière pour tout point qu'il soit dans ou hors base.

12.6 Conclusion

Nous nous sommes intéressés à la base de données Iris pour étudier des techniques de dis-crimination et d'analyse de données.

Nous avons vu que l'utilisation du voisinage 0:5-Observable en discrimination par vote ma-joritaire n'est pas probante sur cette base .

Cependant, le voisinage 0:5-Observable comme approximation du voisinage Naturel, permetd'analyser la géométrie des données en déterminant quelles données sont au milieu de leur classe,aux frontières de leur classe ou isolées dans une classe di�érente. Cette analyse peut être e�ectuéesur des données de grande dimension.

Cette analyse est aussi à la base d'une méthode de discrimination basée sur les donnéesfrontières. Nous avons démontré qu'il est équivalent d'associer à une nouvelle donnée, la classede la donnée frontière (au sens des voisins naturels) la plus proche, que de lui associer la classede la donnée la plus proche de la base. La connaissance de ces seules données frontières su�t àe�ectuer une discrimination correcte au sens du plus proche voisin.

L'utilisation du voisinage naturel en grande dimension étant di�cile, on peut approcher lespoints frontières par les points pseudo-frontières issus du voisinage 0:5-Observable. Bien qu'ilne s'agisse que d'une approximation, on observe avec la base Iris un résultat équivalent à celuiannoncé par la théorie dans le cas exact : la matrice de confusion obtenue avec association à laclasse du plus proche voisin de la base, est identique à celle obtenue avec association à la classedu plus proche point pseudo-frontière.

Le lissage de la frontière des classes permet d'améliorer les résultats de la discriminationpar rapport à la méthode du plus proche voisin. Il s'e�ectue avec une technique basée sur desnoyaux gaussiens centrés sur les points pseudo-frontières, ce qui diminue le nombre d'opérations àe�ectuer à la fois au cours de l'apprentissage, et au cours de l'exploitation lors de la discriminationd'une nouvelle donnée.

Le nombre d'opérations nécessaires à la détermination des nf points pseudo-frontières parmin données en d dimensions est O(d:n3), puis O(d:nf ) à chaque itération pour l'adaptation etl'utilisation du modèle à noyaux. La complexité liée à la construction du modèle peut êtrecompensée par la moindre complexité de son utilisation comparée à une approche utilisant toutesles données comme les k-PPV (O(d:n) à chaque itération).

Les points pseudo-frontières sont donc utilisés à la fois en analyse de données et en discrimi-nation.

Les résultats expérimentaux obtenus sur la base Iris ne prétendent pas à l'universalité. Lamultiplication des expériences sur d'autres bases permettra de se faire une meilleure idée del'intérêt de cette approche.

En�n, une approche récente de discrimination appeléeMachine à Vecteurs Supports (�SupportVector Machine� ou SVM) [39] utilise des vecteurs supports qui ont la particularité d'être prochesdes frontières des classes. De récents travaux dans ce domaine [27][47][115] font le lien entre lesSVMs et la géométrie des enveloppes convexes de deux classes. Il serait intéressant d'examinerles liens qui pourraient exister entre les SVMs et l'approche basée sur les points pseudo-frontières

188

12.6. Conclusion

présentée ici.

189

Chapitre 12. Analyse de données et discrimination avec les voisins 0:5-observables

190

Conclusion

191

Conclusion

1 Synthèse

Nous nous sommes intéressés à l'approximation de variétés, comme approche particulièrepermettant de modéliser des données. Les outils développés dans ce cadre nous permettent derésoudre des problèmes de classi�cation, d'approximation de fonctions, de complétion vectorielleet de discrimination.

Nous avons utilisé des approches neuronales particulièrement adaptées à la modélisation dedonnées par apprentissage. Parmi ces approches, nous nous sommes intéressés aux réseaux auto-organisants issus des techniques d'apprentissage non-supervisé, et avec lesquels une organisationglobale (représentation de la topologie ou de la densité par exemple) émerge grâce à l'applicationde règles locales.

Pour approcher les variétés support de la distribution, nous avons proposé de suivre troisétapes :

� la représentation des données par un nombre prédé�ni de représentants grâce à une tech-nique de Quanti�cation Vectorielle, ce qui permet de créer un modèle qui existe indépen-damment des données, de �ltrer le bruit éventuellement présent, de régulariser la positiondes représentants, et d'utiliser les données asssociées à chaque représentant pour dé�nir unmodèle local des variétés ;

� la représentation de la topologie de la distribution grâce à ces représentants et aux donnéesqu'ils représentent, par un algorithme d'apprentissage non supervisé qui crée des liens devoisinage et rend ainsi explicite la topologie des variétés ;

� l'obtention d'un modèle non linéaire de la distribution par une technique d'interpolationprenant appui sur les liens de voisinage représentant sa topologie. Cela permet d'améliorerla précision du modèles lorsque les variétés sont non linéaires.

Nos principales contributions sont apparues dans la première étape où nous avons dé�niun nouveau voisinage, et dans la dernière étape où nous avons proposé une nouvelle techniqued'interpolation basée sur les liens représentants la topologie, et liée à ce voisinage.

1.1 Quanti�cation Vectorielle et Voisinage -Observable

Tout d'abord l'étude des techniques de Quanti�cation Vectorielle, nous a révélé l'importancede la dé�nition d'un voisinage. L'étude des deux voisinages principalement utilisés en QV : levoisinage des k-Plus-Proches-Voisins et le voisinage Naturel, nous a mené à la création d'un nou-veau voisinage appelé Voisinage -Observable dont nous avons étudié de nombreuses propriétés.

Ce voisinage permet en particulier, d'approcher le voisinage Naturel en grande dimension,

tout en gardant une complexité faible (O(d:n2) au lieu de O(ndd2e)) (n : nombre de représentants

et d : dimension de l'espace des données).

1.2 Topologie

Pour la représentation de la topologie de la distribution, l'algorithme Competitive HebbianLearning de Martinetz [132] nous a paru le seul adapté à l'utilisation de représentants. Il construitune structure appelée Triangulation Induite de Delaunay (TID), dont la topologie est proche decelle de la distribution et en donne un modèle linéaire par morceaux. La TID o�re un support pourl'utilisation de techniques d'interpolation qui permettent d'obtenir des variétés non linéaires.

192

1. Synthèse

1.3 Interpolation et Noyaux de Voronoï Induits

Notre seconde contribution est la dé�nition d'une technique d'interpolation basée sur la TIDet liée au voisinage -Observable. Cette technique peut être vue comme une extension des noyauxRBFs, qu'elle permet aussi de construire.

Elle permet de réduire le double problème de réglage de l'étendue des noyaux RBFs et de laposition de leur centre, au seul problème du placement des centres car son étendue dépend de laposition des centres voisins.

Elle a aussi la propriété d'orthonormalité, nécessaire à l'approximation de variétés.

1.4 Applications

Quanti�cation Vectorielle et auto-organisation

Nous avons appliqué le voisinage -Observable à la quanti�cation vectorielle. Cette techniqueconverge en moins d'itérations que la technique du Neural-Gas, sur les distributions testées.

La recherche d'une explication de ce résultat nous a mené à l'étude d'une propriété d'auto-organisation de ce voisinage, appelée auto-répartition qui tend à répartir les représentants avecune densité en exponentielle décroissante autour d'une donnée �xe présentée plusieurs fois dansun espace à une dimension.

Nous avons aussi observé que ce voisinage n'a pas la propriété du Neural-Gas et des cartes deKohonen, de sélection de la dimension, qui tend à organiser les représentants le long des directionsprincipales de la distribution en fonction de la taille de leur voisinage. Nous envisageons que cettedi�érence entre les deux techniques, pourrait expliquer la vitesse de convergence plus rapide del'approche basée sur le voisinage -Observable.

Une étude théorique de la propriété d'auto-répartition, ainsi que de la vitesse de convergencede la règle d'adaptation basée sur le voisinage -Observable sont à envisager pour valider cettehypothèse.

Nous avons engagé avec Max Nemoz-Gaillard et Dominique Lepetz une étude de la di�éren-tiabilité de la fonction d'énergie associée à la règle d'adaptation commune à une vaste famille devoisinages dont font partie le voisinage -Observable, celui des cartes de Kohonen et du Neural-Gas. Nous avons montré que cette fonction d'énergie n'est pas di�érentiable en tout point dudomaine de dé�nition, mais seulement à l'intérieur des régions de Voronoï des représentants.Nous envisageons de poursuivre cette étude pour éventuellement démontrer la convergence decette règle.

En�n, nous avons proposé un algorithme optimisé pour le calcul du voisinage -Observable,dont la complexité est en O(d:n2). Nous ne savons pas s'il existe un algorithme plus performantdont la complexité se rapprocherait de celle du Neural-Gas par exemple, qui est en O(n:(d +log n)), ce pourrait être l'objet de travaux futurs.

Approximation de fonctions

Nous avons montré l'intérêt du réglage implicite de l'étendue des noyaux en fonction de laposition des centres voisins, en comparant les résultats obtenus avec un RBF et avec l'approchedes Noyaux de Voronoï Induits sur l'approximation d'une fonction arti�cielle.

Nous avons aussi utilisé les noyaux de Voronoï Induits pour l'identi�cation d'un processusdynamique non linéaire réel : un préhenseur électropneumatique.

Le modèle obtenu est de précision équivalente à celui obtenu avec un Perceptron Multi-Couchebouclé (MLP) mais d'une complexité légèrement supérieure que l'on explique par la localité du

193

Conclusion

modèle.

Cette localité permet cependant de limiter les phénomènes d'interférence et de représenter latopologie de la distribution, ce que ne permet pas le MLP.

La technique de quanti�cation vectorielle utilisée pour le placement des centres ne tient pascompte des non-linéarités des fonctions à approcher. Une technique de recrutement permettraitpeut-être la prise en compte des non-linéarités tout en maintenant la représentativité des donnéespar les centres, qui permet la représentation de la topologie de la distribution.

Des discontinuités peuvent apparaître du fait de la troncature des Noyaux de Voronoï In-duits lorsque l'on veut assurer la propriété d'orthogonalité. Existe-t-il un moyen de concilier lacontinuité et l'orthogonalité ?

En�n, l'interpolation proposée permet-elle d'approcher toute fonction, comme c'est le cas desMLPs et des RBFs avec un nombre su�sant d'unités ?

Approximation de variétés

Nous avons abordé l'approximation de variétés avec l'approche proposée de placement descentres ; représentation de la topologie ; et interpolation avec les Noyaux de Voronoï Induits.

Nous avons montré que la technique proposée permet e�ectivement de modéliser des var-iétés non linéaires. Puis nous avons vu comment on peut e�ectuer une complétion vectorielle eninterrogeant le modèle par di�érentes entrées.

Des problèmes techniques se posent encore : comment lire la variété lorsqu'à une entréecorrespondent plusieurs sorties possibles, ou même un ensemble continu de sorties possibles ?

Les mêmes questions que pour l'approximation de fonction se posent : Comment concilierorthogonalité et continuité ? Comment placer les centres pour tenir compte des non-linéarités ?

Analyse de données et discrimination

Nous avons proposé une technique d'analyse de données en grande dimension, basée sur levoisinage 0:5-Observable, qui permet de déterminer les données frontières, et les données isoléesde chaque classe. Nous avons analysé la base de données Iris avec cette technique.

Les données déterminées comme frontières avec le voisinage 0:5-Observable, ont aussi étéutilisées pour construire un classi�eur. En e�et, nous avons montré que les seuls points frontières(dé�nis avec le voisinage Naturel) sont su�sants à la discrimination correcte au sens du plusproche voisin de tout point de la base et de tout point extérieur à elle. Nous observons qu'unrésultat semblable peut être obtenu avec le voisinage 0:5-Observable qui dé�nit des points pseudo-frontières et qui est calculable facilement en grande dimension.

Une technique basée sur ces points pseudo-frontières associée à une régularisation par noy-aux gaussiens, permet d'obtenir de meilleurs résultats en discrimination sur la base Iris qu'uneapproche conventionnelle basée sur les k-Plus-Proches-Voisins.

Cependant, le temps de calcul des points pseudo-frontières n'est pas négligeable, il faut doncchoisir selon les contraintes externes, entre la discrimination utilisant l'ensemble des données,plus longue à l'utilisation mais ne nécessitant pas la construction d'un modèle, et celle utilisantles seuls points pseudo-frontières, plus longue à la construction du modèle mais plus rapide lorsde son utilisation.

194

2. Perspectives

2 Perspectives

Au-delà des améliorations citées au paragraphe 1.4 que l'on pourrait apporter aux techniquesproposées, et des propriétés théoriques que l'on pourrait développer, se posent des questionsfondamentales liées à la modélisation de variétés en général.

2.1 Les données

Quelle est la dimension limite des variétés que l'on peut modéliser par ces techniques, basées

sur la construction d'un graphe ? La complexité d'un tel graphe est de l'ordre O(nddi2e), ce qui

nous laisse entrevoir que ces techniques ne sont pas applicables à la modélisation de distributionsde trop grande dimension intrinsèque di.

La représentativité des données, l'absence de bruit, la présence uniquement de variables per-tinentes, et un nombre de données su�sant pour décrire les non-linéarités des variétés support,décrivent une situation idéale que l'on ne rencontre que rarement dans la réalité. Il existe desapproches qui permettent de détecter les variables pertinentes [114], mais pour le reste, il sembleque ces problèmes soient irréductibles sans connaissances a priori sur le système.

La détermination de l'échelle d'observation est un autre problème qui dépend fortement desconnaissances a priori que l'on a sur le système et de la tâche à accomplir : cherche-t-on à réduirela dimension, ou à préserver l'information ? Il est donc nécessaire de disposer de connaissancessur le système pour exploiter les données.

2.2 Statistiques et topologie

Nous avons remplacé la modélisation locale de la topologie basée dans certaines approches[87][180] sur les composantes principales de la distribution locale associée à chaque représentant,par une construction explicite de liens topologiques.

Cette construction présente l'avantage de pouvoir être utilisée comme support pour des tech-niques d'interpolation, et comme structure discrète à laquelle peut s'appliquer un grand nombred'algorithmes issus de la théorie des graphes, et qui permettent la recherche d'optima, ou larecherche d'ensemble de valeurs solutions en complétion vectorielle.

Il semble qu'un lien fort existe entre la TID et les composantes principales locales. Ce liennous est apparu lorsque nous avons montré que l'on pouvait construire des noyaux RBFs, eten particulier, les RBFs à noyaux ellipsoïdaux, avec les noyaux de Voronoï Induits. En e�et,les régions d'in�uence de ces RBFs sont des hyper-ellipsoïdes dont les axes sont généralementchoisis comme les axes principaux de la distribution locale, dé�nis par la matrice de covariancedes données de cette distribution. Pour les noyaux de Voronoï Induits, ces axes sont les liens devoisinage de la TID, ils sont aussi créés par les données de la distribution locale, mais ne sontpas nécessairement symétriques.

Si ce lien était formalisé, il permettrait de rapprocher davantage les techniques statistiquesdes techniques géométriques, deux piliers des approches neuronales.

2.3 Réduction de dimension

L'approche présentée e�ectue une réduction de dimension, mais contrairement aux approcheshabituellement utilisées dans ce but, elle ne nécessite pas la dé�nition a priori de la dimensionde la variété non linéaire sur laquelle sont projetées les données : cette dimension est déterminéepar les données elles-mêmes puisqu'elle est basées sur la TID.

195

Conclusion

Cette technique de projection tend donc à minimiser la perte d'information inhérente à toutetechnique de réduction de dimension.

Si dans notre cas, on peut s'a�ranchir de la dé�nition a priori de la dimension de la variété,c'est parce que nous n'avons pas la volonté de visualiser les données projetées (donc il n'est pasnécessaire de les projeter sur une 2-variété), mais seulement de les représenter telles qu'elles sontdans l'espace des données.

Si la visualisation est recherchée, alors d'autres techniques comme l'Analyse en ComposantesCurvilinéaires [53], nous semblent mieux adaptées.

2.4 Di�érents problèmes sous un même paradigme

La modélisation d'une distribution par une collection de variétés, permet la lecture du modèlesous di�érents modes, ce qui rassemble sous un même paradigme di�érents problèmes habituelle-ment posés séparément : approximation de fonctions, classi�cation, discrimination, recherched'optima, détection et correction d'erreurs, complétion vectorielle.

Les outils que nous avons développés dans ce cadre ont eux-mêmes permis d'aborder certainsde ces problèmes. Ils ouvrent des perspectives nouvelles pour l'approximation de variétés et nouspensons que le développement de ce paradigme uni�é est prometteur.

2.5 Vers un modèle complet des données

Les variétés forment un modèle topologique des données, qui est complémentaire des modèlesstatistiques (représentation de la densité). La fusion de ces deux types de modéles sera unefuture voie de recherches, et nécessitera d'une part, l'étude approfondie entre liens topologiqueset noyaux HRBFs, et d'autre part, l'étude du positionnement des centres subordonné à la fois àla densité, et aux non-linéarités de la distribution.

196

Annexes

197

Annexe A

Distances entre points de la di-sphère

199

Annexe A. Distances entre points de la di-sphère

A.1 Equidistance des points de la di-sphère

Nous avons démontré une propriété géométrique de la di-sphère. Nous considérons un pointM �xe de la di-sphère H de dimension intrinsèque di et de diamètre D, et nous calculons ladistance moyenne de ce point à tout autre point P de H. Soit � l'angle entre l'arc [MP ] et lediamètre [MQ], soit l(�) la longueur de l'arc [MP ] (norme Euclidienne) et S(�) la ��-mesure�(� = di � 1) du domaine DH de H lieu des points P : DH(�) = fP 2 H j (��!MP;

��!MQ) = �g. La

�gure A.2 illustre la construction. DH est par exemple, un couple de points sur le cercle (di = 1)dont la �0-mesure� est nulle, un cercle sur la sphère (di = 2) dont la �1-mesure� est le périmètre,ou une sphère sur la 3-sphère dont la �2-mesure� est l'aire. . .

Fig. A.1 � Distance des points de la di-sphère à un point �xe. On calcule la moyenne des distancesMP pour tous les points P de la di-sphère H de diamètre [MQ].

Les formules suivantes donnent la moyenne et la variance de l :

E�(l) = D

Z �2

0cos(�) sin(2�)�d�Z �

2

0sin(2�)�d�

(A.1)

et

Var�(l) =D2

2�E�(l)

2 (A.2)

Démonstration 19 Soit di > 1 la dimension intrinsèque de la di-sphère, on a les relationssuivantes :

l(�) = D cos(�)

h(�) = l(�) sin(�) = D cos(�) sin(�)

S(�) =2�

di+1

2 h(�)�

�(di+12 )

(A.3)

avec � = di � 1. La moyenne des distances l de la di-sphère s'écrit alors :

200

A.2. Démonstration de la valeur limite de l'espérance et de la variance

E�(l) =

Z �2

0l(�)S(�)d�Z �2

0S(�)d�

= D

Z �2

0cos(�)�+1 sin(�)�d�Z �2

0cos(�)� sin(�)�d�

(A.4)

Soit �nalement :

E�(l) = D

Z �2

0cos(�) sin(2�)�d�Z �

2

0sin(2�)�d�

(A.5)

La moyenne des carrés des distances l s'écrit :

E�(l2) = D2

Z �2

0cos(�)�+2 sin(�)�d�Z �2

0cos(�)� sin(�)�d�

= D2 I1I2

(A.6)

et l'on calcule alors la variance des distances l par :

Var�(l) = E�(l2)�E�(l)

2 (A.7)

I2 peut s'écrire :

I2 =1

2�

Z �2

0sin(2�)�d� (A.8)

et I1 se calcule alors facilement :

I1 =

Z �2

0cos(�)2(cos(�) sin(�))�d� =

1

2�

Z �2

0(1

2� 1

2cos(2�)) sin(2�)�d�

=1

2I2 � 1

4�+1

hsin(2�)�+1

i�2

0=

1

2I2

(A.9)

ce qui donne immédiatement :

E�(l2) =

D2

2(A.10)

2

A.2 Démonstration de la valeur limite de l'espérance et de lavariance

Nous démontrons que limd!+1Ed(l) =Dp2

2 et donc que limd!+1Var�(l) = 0.

Démonstration 20 Tout d'abord :

8� 2 �0; �2 � ; 0 � cos(�) � 1 et sin(2�) � 0) 0 � cos(�) sin(2�) � sin(2�)

) 8d � 0; 0 � cos(�) sind(2�) � sind(2�)(A.11)

201

Annexe A. Distances entre points de la di-sphère

8� 2 �0; �4 � [ ��4 ; �2 � ; 0 � sin(2�) < 1) limd!+1

sind(2�) = 0

et pour � =�

4; sin(2�) = 1

9=; (A.12)

(A:12) )lim

d!+1

Z �4

0sind(2�)d� = 0

8� ��4 ; �2 � ; limd!+1

Z �2

�sind(2�)d� = 0

9>>=>>; (A.13)

et (A:11) et (A:13) ) limd!+1

Z �4

0cos(�) sind(2�)d� = 0.

De plus,

8� ��4 ; �2 � ; Z �2

0sind(2�)d� =

Z �4

0sind(2�)d� +

Z �

�4

sind(2�)d� +

Z �2

�sind(2�)d� (A.14)

et Z �2

0cos(�) sind(2�)d� =

Z �4

0cos(�) sind(2�)d� +

Z �2

�4

cos(�) sind(2�)d� (A.15)

En�n, d'aprés le théorème de Bonnet [33], qui s'applique car cos(�) est positif et décroissantsur

��4 ;

�2

�:

9� 2 ��4 ; �2 � ; Z �2

�4

cos(�) sind(2�)d� = cos��4

� Z �

�4

sind(2�)d� (A.16)

Soit �nalement,

9� 2 ��4 ; �2 � ; limd!+1

Ed(l) = limd!+1

D

Z �2

0cos(�) sind(2�)d�Z �

2

0sind(2�)d�

= limd!+1

D

Z �4

0cos(�) sind(2�)d� +

p22

Z �

�4

sind(2�)d�Z �4

0sind(2�)d� +

Z �

�4

sind(2�)d� +

Z �2

�sind(2�)d�

= limd!+1

D

p2

2

Z �

�4

sind(2�)d�Z �

�4

sind(2�)d�

= D

p2

2(A.17)

2

La �gure A.2 illustre ces résultats.

202

A.2. Démonstration de la valeur limite de l'espérance et de la variance

100

101

102

0

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

1

1.1

1.2

1.3

1.4

1.5

Dimension

Moy

enne

et V

aria

nce

Moyenne

Variance

1.414

Fig. A.2 � Moyenne et variance sur la di-sphère unité. La moyenne des distances d'un point M�xe à tout point P de la di-sphère unité, tend vers

p2 : en grande dimension, la majorité des

points P se situent dans l'hyperplan médiateur du diamètre [MQ], ce qui correspond à un angledQMP = 45Æ

203

Annexe A. Distances entre points de la di-sphère

204

Annexe B

Voisinage -Observable généralisé

205

Annexe B. Voisinage -Observable généralisé

B.1 Introduction

Nous présentons une généralisation du voisinage -Observable et montrons que l'on peutdé�nir grâce à lui, un voisinage équivalent à celui des k-Plus-Proches-Voisins.

B.2 Généralisation du voisinage -Observable

Le voisinage -Observable fait partie d'une famille plus générale de voisinages dont nousdonnons la dé�nition et les propriétés de base ici.

B.2.1 Dé�nition

Dans le voisinage -Observable original, on considère l'appartenance de vi à la région deVoronoï du point wi, or la région de Voronoï d'un point est sa région d'in�uence au sens du (des)plus proche(s) voisin(s) (distance Euclidienne). On peut donc imaginer d'utiliser une région d'in-�uence basée sur un voisinage N di�érent. On dé�nit donc le voisinage -Observable généralisépar :

Dé�nition 10 Voisinage -Observable généralisé

V GON;( ;w)(v) = fwi 2 w j vi 2 RIN (wi)g avec vi = wi + (1� )v (B.1)

La �gure B.1(a) illustre la dé�nition de ce voisinage.

Le voisinage -Observable original est donc le voisinage -Observable généralisé associé auvoisinage du (des) plus proche(s) voisin(s) :

V GO( ;w)(v) = V GOKPPV(1;w);( ;w)(v) (B.2)

comme on le voit sur la �gure B.1(b).

Les conséquences 1 et 2 de la dé�nition originale (6) deviennent :

Conséquence 7

V GON;(0;w)(v) = N(v) (B.3)

Le voisinage 0-Observable généralisé d'un point v quelconque, associé au voisinage N , est levoisinage N de ce point.

Conséquence 8

V GON;(1;w)(v) = fwi 2 w j wi 2 RIN (wi)g (B.4)

Tous les sommets w qui appartiennent à leur région d'in�uence appartiennent au voisinage1-Observable généralisé d'un point v quelconque.

B.2.2 Analogie du concert de plein-air

On pourra garder à l'esprit l'analogie du concert de plein-air mais les murs-écrans ne serontpas bâtis sur les frontières de Voronoï des spectateurs, mais sur les frontières de leur régiond'in�uence au sens du voisinage N considéré.

206

B.3. L'exemple des k-PPV

B.2.3 Propriété d'inclusion

La propriété d'inclusion est basée sur le fait qu'une fois le point vi à l'intérieur de la régiond'in�uence de wi pour un 0 donné, il ne doit pas en ressortir pour tout 1 > 0. Pour cela,il est nécessaire et su�sant que RIN soit étoilée par rapport à wi. RIN doit donc nécessaire-ment contenir wi et être connexe mais pas nécessairement être convexe. La région d'in�uencecorrespondant au voisinage naturel véri�e par exemple cette condition.

B.2.4 Forme des régions d'in�uence

La propriété d'homothétie, ne dépend pas de la forme de la région d'in�uence utilisée : ilsu�t dans la Propriété 2 et sa démonstration de considérer RIN au lieu de Vi, ce qui n'in�rmepas sa validité. On a donc :

Propriété 21 Homothétie

8wi 2 w; RIV GON;( ;w)(wi) = H(wi;

11�

)(RIN (wi)) (B.5)

B.2.5 Autres propriétés

La non-convexité dépend de la forme de la région d'in�uence utilisée, de même que les régionsde proximité, zones d'ombre et régions -observables.

La caractérisation algébrique dé�nie au chapitre 6 ainsi que les algorithmes, ne sont validesque dans le cas original. Cependant, si la propriété d'inclusion est valide, alors il existe n� n0valeurs seuil i pour telles que 8i 2 [n0; n[; 2 [ i; i+1] , card(V GON;( ;w)(v)) = i avec n+1 = 1 et n0 = 0 où n0 est le nombre de sommets dans le voisinage pour = 0 et (v; w)donnés.

B.3 L'exemple des k-PPV

B.3.1 Dé�nition d'un voisinage équivalent à celui des k-PPV

On peut dé�nir un voisinage qui associé au voisinage -Observable généralisé, est équivalentau voisinage des k-PPV.

La région d'in�uence à considérer est une d-boule ouverte B(wi;r) centrée sur chaque sommetwi, de rayon r > 0 �ni identique pour tous les wi. Cette région d'in�uence dé�nit un voisinageque nous appelons SI pour Sphère d'In�uence. On peut dé�nir à partir du voisinage SI, unvoisinage de type k-PPV où le paramètre contrôlé n'est pas directement le nombre k de voisins,mais le paramètre :

Dé�nition 11 Voisinage PPV

PPV( ;w)(v) = V GOSI;( ;w)(v) = fwi 2 w j vi 2 B(wi;r)g (B.6)

Un sommet wi appartient à ce voisinage si et seulement si vi est à l'intérieur de B(wi;r), doncsi di <

r1� avec di = kv � wik. La �gure B.1(c) illustre cette dé�nition.

207

Annexe B. Voisinage -Observable généralisé

B.3.2 Voisinage ordonné

On pose i = 1 � rdi, i est une valeur seuil de telle que > i , wi 2 PPV( ;w)(v).

On montre facilement que 8i 6= j; i < j , di < dj , l'ordre entre les valeurs seuils de et lesdistances de v aux sommets, est le même, donc lorsque passe continûment de 0 à 1, la taillede PPV( ;w)(v) passe de k(0; v; w) à k(1; v; w), avec :

8 2 [0; 1]; k( ; v; w) =nXj=1

H( � j) (B.7)

où H(:) est la fonction d'Heaviside (3.3). k( ; v; w) est le nombre de valeurs seuils inférieuresà , donc le nombre de sommets dont la distance à v est inférieure à r

1� , soit encore le nombrede plus proches voisins de v pour cette valeur de .

B.3.3 Taille du voisinage

Lorsque = 1, PPV(1;w)(v) = w car toutes les distances di sont �nies, donc inférieures àr

1� quelque soit 0 < r < +1.Lorsque = 0, tous les sommets wi dont la distance à v véri�e di < r, sont dans le voisinage

PPV de v.

B.3.4 Correspondance entre les k-PPV et les -PPV

Si l'on veut avoir une correspondance avec le voisinage des k-PPV, il su�t de régler r telqu'un ou aucun sommet ne soit dans le voisinage PPV lorsque = 0.

Si l'on prend 0 < r < 12 mini;j(kwi � wjk), alors il n'existe au plus qu'un unique wi tel que

di < r (les sphères d'in�uence ne se chevauchent pas), donc PPV(0;w)(v) = ; ou PPV(0;w)(v) =fw�g (w� plus proche(s) sommet(s) de v).

La valeur de permet de sélectionner les k( ; v; w)-PPV de v.Inversement, si l'on désire les K-PPV de v, il faut trouver tel que k( ; v; w) = K.k( ; v; w) et sont deux paramétrages di�érents d'un même voisinage qui sélectionne pour

une valeur croissante du paramètre, un nombre croissant de sommets de plus en plus éloignés dela donnée.

B.4 Discussion

On peut voir le voisinage -Observable généralisé comme un "méta-voisinage" puisqu'il estassocié à un voisinage N existant indépendamment de lui. Il adjoint à N un paramètre sup-plémentaire qui permet de régler la taille des régions d'in�uence au sens de N de chaquereprésentant, donc la taille du voisinage N .

B.5 Conclusion

Nous avons présenté une dé�nition généralisée du voisinage -Observable et montré que l'onpouvait l'utiliser pour dé�nir un voisinage de type k-PPV.

Le voisinage -Observable généralisé peut être considéré comme un "méta-voisinage".

208

B.5. Conclusion

(a) (b) (c)

Fig. B.1 � Voisinage -Observable généralisé associé à un voisinage La donnée est ledisque noir et un point intermédiaire (petit disque) est associé à tout couple donnée-représentantcomme pour le voisinage -Observable original. A chaque représentant (disque blanc ou gris)est associé une région d'in�uence au sens d'un voisinage N (les traits pointillés signi�ent cetteappartenance). Tout représentant dont le point intermédiaire se situe dans la région d'in�uence,appartient au voisinage -Observable généralisé associé à N de la donnée (disques gris). (a)Les régions d'in�uence peuvent être de formes quelconques, convexes ou non, connexes ou non,contenir ou non leur représentant associé. (b) Le voisinage -Observable original est le voisinage -Observable généralisé associé au voisinage du plus proche voisin, dont la région d'in�uenced'un représentant est sa région de Voronoï. (c) Le voisinage des k-PPV a un équivalent sousla forme du voisinage -Observable généralisé associé au voisinage des Sphères d'In�uence pourlequel la région d'in�uence de chaque représentant est une d-boule centrée sur lui et de rayonréglable. Le cercle pointillé centré sur la donnée contient les points intermédiaires des 4-PPV dela donnée.

209

Annexe B. Voisinage -Observable généralisé

210

Annexe C

Quanti�cation vectorielle et fonction

d'énergie

211

Annexe C. Quanti�cation vectorielle et fonction d'énergie

C.1 Introduction

L'utilisation du voisinage -Observable en Quanti�cation Vectorielle est basée sur la règled'adaptation (2.7) présentée au chapitre 3. Nous avons voulu savoir si cette règle d'adaptationutilisée avec le voisinage -Observable correspond ou non à une descente de gradient sur unefonction d'énergie, i.e. savoir quel critère cette règle minimise. Cette question est d'importancepuisqu'elle permet d'assurer la convergence de l'algorithme utilisant cette règle si celle-ci dérived'une fonction d'énergie. Dans le cas contraire, la règle n'est considérée que comme une heuris-tique : elle fonctionne souvent mais on ne peut garantir qu'elle fonctionne tout le temps.

Nous donnons ici un résumé des résultats obtenus avec l'aide de Dominique Lepetz et MaxNemoz-Gaillard, et dont sont issus deux articles. Celui auquel nous avons apporté notre principalecontribution est donné en annexe.

C.2 Etat de l'art

Nous avons porté notre intérêt sur les travaux déjà e�ectués sur les cartes de Kohonen parplusieurs auteurs [44][45]. Erwin a démontré en particulier dans [69], que la règle d'adaptation desunités utilisant le voisinage de Kohonen, ne correspond pas à une descente de gradient stochas-tique sur la fonction d'énergie dite "naïve" lorsque la densité de la distribution est continue.

La fonction d'énergie dite naïve est la suivante :

EV (w) =1

2

nXi=1

ZV i(w; v)(v � wi)2P (v)dv (C.1)

où V est le domaine de IRd contenant les données v et les représentants w, et P (v) est ladensité de probabilité de la distribution. Pour minimiser cette fonction d'énergie on utilise larègle d'adaptation suivante :

8i 2 (1; � � � ; n); wi(t+1) = wi(t) + �t i(w(t); v) (v � wi(t)) (C.2)

Cette règle doit être obtenue par dérivation de la fonction d'énergie pour correspondre à unedescente de gradient stochastique sur celle-ci, ce qui est le cas pour la règle des K-means, maisne l'est ni pour celle de Kohonen, ni pour celle du Neural-Gas, ni pour celle des -Observables.

Concernant la règle de Kohonen, le résultat est connu et démontré depuis les travaux d'Erwin[69],mais incomplet puisqu'il ne précise pas le comportement de la fonction d'énergie sur le domaineoù elle n'est pas di�érentiable. Concernant, la règle du Neural-Gas, Martinetz et al. semblentmontrer que celle-ci dérive de la fonction d'énergie "naïve", nos travaux démontrent au contraireque cette fonction d'énergie n'est pas di�érentiable sur l'ensemble du domaine V . En�n concer-nant la règle des -Observables, elle est de la même famille que les deux précédentes et donc nedérive pas d'une fonction d'énergie sur l'ensemble du domaine V .

On montre que les problèmes apparaissent aux frontières des régions de Voronoï, où la valeurdes fonctions de voisinage i change brusquement créant des discontinuités de la fonction d'én-ergie empêchant sa di�érentiabilité dans ces régions.

212

C.3. A propos des articles

C.3 A propos des articles

Nous présentons ci-après le deuxième article issu de ces travaux14, pour lequel nous sommesprincipal auteur.

Le théorème principal posant la non-di�érentiabilité de la fonction d'énergie associée à unefamille trés générale de règles d'adaptation, a été démontré par Dominique Lepetz et Max Nemoz-Gaillard et fait l'objet du premier article.

Nous avons démontré un second théorème posant que sous certaines conditions généralementvéri�ées en pratique, cette règle d'adaptation correspond dans les régions où la fonction d'énergien'est pas di�érentiable, à une descente stochastique simple sur celle-ci à défaut d'une descentede gradient stochastique. Ce théorème est démontré dans le deuxième article, qui montre aussicomment les deux théorèmes s'appliquent à di�érentes règles, dont celles de Kohonen, du Neural-Gas et des -Observables.

C.4 Conclusion

Les résultats obtenus permettent d'a�rmer que la règle d'adaptation utilisée avec les voisi-nages de Kohonen, du Neural-Gas, du Growing Neural-Gas, et du Recruiting Neural-Gas, corre-spond à une descente de gradient stochastique de la fonction d'énergie "naïve" hors des frontièresdes régions de Voronoï, et à une descente stochastique simple sur celles-ci.

Concernant le voisinage -Observable, la descente de gradient stochastique est assurée horsdes frontières des régions de Voronoï, et une descente stochastique simple sur celles-ci ne peutl'être que si le voisinage est convexe, ce que nous avons démontré pour � 0:5 au chapitre 5.Lorsque > 0:5, le comportement de la règle sur les frontières n'est pas nécessairement unedescente.

Pour toutes ces règles, le théorème principal a�rme que le saut d'énergie lors du passage surces frontières est �ni, garantissant un comportement "doux" de la règle dans ce cas : les unitésne peuvent pas se retrouver d'une itération à la suivante, dans des positions complètementdi�érentes.

Ces résultats ne permettent pas seuls d'assurer la convergence. Cependant, ils permettent defranchir un pas supplémentaire vers celle-ci. De plus, les récents travaux de Nedi¢ et Bertsekas[143] sur les méthodes de descente de sous-gradient qui démontrent la convergence de règlescorrespondant à des fonctions d'énergie non di�érentiables partout, vont aussi dans ce sens. Si lelien est fait entre leurs travaux et les nôtres, alors la convergence d'une famille trés générale derègles jusqu'ici considérées comme heuristiques sera en�n démontrée. Elle permettra l'élaborationde nouvelles règles d'adaptation pour lesquelles la question de la convergence sera ipso factorésolue.

14Ces résultats sont déposés sous forme de rapports de recherches noRR01=G2=004 et noRR01=G2=006 auLGI2P (site EERIE, Nîmes) et seront soumis à une revue internationale.

213

Annexe C. Quanti�cation vectorielle et fonction d'énergie

214

C.4. Conclusion

section 4, we show that these results apply to the Kohonen rule used in Self-Organizing Maps and in Fritzke's \Growing Neural-Gas" (Fritzke 1995) and toother rules presented in the literature as the \Neural-Gas" (Martinetz 1993),the \Recruiting" rule (Aupetit 2000) and the \ -Observable Neighbors" rule(Aupetit 2001a; Aupetit 2001b).

2 Behavior around Vorono�� region boundaries

In their recent work (Lepetz 2001), Lepetz and Nemoz-Gaillard prove thefollowing theorem.Let D be a non-empty part of Rd(d � 1) Euclidean, with �nite diameter Æ andV a topological submanifold of Rd inside D. Let v be a vector in V, obeyingany distribution density P (v) (

RVP (v)dv = 1 ) and w = (w1; � � � ; wn) be a set

of n vectors in V called \units" in what follows. Let the adaptation rule of theunit wi according to the current v at time t+ 1 be:

8i 2 (1; � � � ; n); wi(t+ 1) = wi(t) + �t i(w(t); v) (v � wi(t)) (1)

where

i(w; v) = �i(fH(d2lm � d2mm)gl;m; v) with �i 2 L1loc(f0; 1gn2; V ) (2)

8u 2 R; H(u) =

8><>:1; u � 0

0; u < 0is the Heaviside step function; (3)

dlm = kwl � vmk with 8 2 [0; 1]; vm = (1� ) v + wm; (4)

and �t is a learning factor such thatP

t �t = +1 andP

t �2

t < +1, which isa necessary (but not suÆcient) condition (Cottrell 1998) to allow the almostsure convergence of the rule (1) toward a local minimum of the followingenergy function.

Let the \na��ve" energy function which the rule (1) is supposed to minimizebe:

EV (w) =1

2

nXi=1

ZV i(w; v)(v � wi)

2P (v)dv (5)

where V is the union of the Vorono�� regions of w de�ned as:

V =n[

i=1

Vi with Vi = fv 2 Vj8j 2 (1; � � � ; n); kv � wik � kv � wjkg (6)

Let V � � V be a particular \cellular" manifold (Figure 1). The Lebesguemeasure veri�es meas(V n V �) = O(�).

2

215

Annexe C. Quanti�cation vectorielle et fonction d'énergie

Then the following theorem holds:

Theorem 1

Let be 0 < � � 1;

i) 8i 2 (1; � � � ; n);@EV �

@wi

= �ZV �

i(w; v)(v � wi)P (v)dv

ii) 8k&k<1; EV nV �(w+&)�EV nV �(w) = O

ZV nV �

P (v)dv

! (7)

The �rst of these two equations says that the adaptation rule (1) correspondsto a stochastic gradient descent onto EV � where V � is a domain arbitrarilyclose to V . The latter means that on V n V �, the change in the energy func-tion EV nV � for a movement of the units w, is in the worst case of the order

O�R

V nV � P (v)dv�, i.e. in practice even if some v fall onto the boundaries of

Vorono�� regions where the di�erentiability of EV cannot be ensured, the pos-sible energy jump is bounded by a �nite factor of

RV nV � P (v)dv.

The major implications are as follows: i) in the case of a continuous distributionP (v), EV nV � is not di�erentiable as (Erwin 1992) shows for Self-OrganizingMaps. ii) considering numerical computations and where � is suÆciently small,whatever the distribution P (v), the �nal organization of the units is not af-fected by some v falling on Vorono�� region boundaries.

The proof of this theorem is presented elsewhere. The key is that the authorsstudied the energy variation EV nV �(w+&)�EV nV �(w) for �nite movements & ofthe units in a \tubular" manifold V n V �; the smaller the �, the more tightlythis manifold encompasses the Vorono�� region boundaries.

3 Additional results

We now give a result which completes the previous one concerning the behaviorof the rule on the boundary of Vorono�� regions whatever the nature of thedistribution density. For a set of units w, we call \neighborhood" functiona function i(w; v) associated to the unit i which follows the hypotheses ofTheorem 1, and such that:

8i 2 (1; � � � ; n); i(w; v) 2 [0; 1] (8)

3

216

C.4. Conclusion

When applying the adaptation rule to the current v at time t+ 1:

8i 2 (1; � � � ; n); wi(t+ 1) = wi(t) + �t i(w(t); v) (v � wi(t)); (9)

the neighborhood function of the units does not change:

8i 2 (1; � � � ; n); i(w(t); v) = i(w(t+ 1); v); (10)

and considering the \na��ve" energy function related to the current v:

E[v]V(w(t)) =

1

2

nXi=1

i(w(t); v) (v � wi(t))2 (11)

then the following theorem holds:

Theorem 2

8v 2 V; E[v]V(w(t+ 1))� E

[v]V(w(t)) � 0 (12)

Proof

8v 2 V; E[v]V(w(t+ 1))� E

[v]V(w(t))

=1

2

nXi=1

i(w(t); v) ��(v � wi(t)��wi)

2 � (v � wi(t))2� (13)

where �wi=�t i(w(t); v) (v�wi(t)) - that we can write �wi = �i(v � wi(t))with �i � 1. Hence we get (v�wi(t)��wi)

2 = (1��i)2(v�wi(t))

2 so we have(v � wi(t)��wi)

2 � (v � wi(t))2 which, using (13), completes the proof. 2

This means that if conditions (8) and (10) hold, the rule (9) performs a de-

scent onto the \na��ve" energy E[v]V

related to the current v, hence this rulecorresponds to a stochastic descent onto the \na��ve" energy function EV andmore precisely, a stochastic gradient descent onto EV � (cf. Theorem 1) and atleast a stochastic descent onto EV nV � , i.e. in the neighborhood of Vorono�� re-gion boundaries. Moreover, Theorem 2 ensures that the rule (9) minimizes the

local energy function E[v]V

whatever the value of the learning factor �t 2 [0; 1].This would not necessarily be the case even following a gradient descent if thehypotheses of Theorem 2 were not veri�ed: a too large learning factor �t mightincrease the local energy E

[v]V.

4

217

Annexe C. Quanti�cation vectorielle et fonction d'énergie

4 Consequence for existing rules

In this section, we express di�erent models in the form described above.

4.1 Kohonen's \Self Organizing Maps"

4.1.1 Theorem 1

The Kohonen neighborhood function (Kohonen 1988) is expressed as:

i(w(t); v) = h�(D(win(v); i)) =nX

q=1

Aq(w(t); v) � h�(D(q; i)) (14)

where h�(D(q; i)) is generally a non-increasing positive function with a tunablewidth � in the s-dimensional Euclidean space M = Rs of the map where eachunit i is located by a vector xi 2 M in a regular lattice, and which generallytakes the form:

h�(D(q; i)) = e�D(q;i)

� with D(q; i) = kxi � xqk (15)

and Aq(w(t); v) is an indicator function of the \winning" unit:

Aq(w(t); v) = Kq(w(t); v)nY

l=1

(Kl(w(t); v)(H(l� q)� 1) + 1) (16)

with Kq(w(t); v) =nY

k=1

H(d2kq � d2qq) where = 0.

Kq is such thatKq2WIN(v)(w; v)=1 andKq 62WIN(v)(w; v)=0 - whereWIN(v)=argminj(kv�wjk) is the set of all the \winning" units. While Aq performs anadditional sort over the index of the \winning" units such that Aq=win(v)(w; v) =1 and Aq 6=win(v)(w; v) = 0 where win(v) = minj2WIN(v)(j) is the index of theunique \winning" unit.

Using Kq in place of Aq in equation (14) does not make sense since in theoriginal Kohonen rule, the \winner" is always assumed to be unique and inpractice the minimum-search algorithm gives the �rst or the last unit foundto be the closest to v (here, Aq is de�ned to choose the lowest one).

De�ned as such, the Kohonen rule veri�es the hypotheses of Theorem 1. Thisresult is also valid for Fritzke's \Growing Neural-Gas" networks (Fritzke 1995)where the Kohonen rule is applied over a neighborhood structure dynamicallylearnt from the data (Martinetz 1991).

5

218

C.4. Conclusion

4.1.2 Theorem 2

Considering Kohonen's neighborhood function (14), condition (8) is valid and,for the condition (10) to be valid, we just have to show that the \winning" unitdoes not change - because the neighborhood function of the units is de�nedaccording to the \winning" unit only. Hence we have to show under whichconditions:

8i 2 (1; � � � ; n); (v � wwin(v)(t)��wwin(v))2 � (v � wi(t)��wi)

2 (17)

is valid. This is the case i� 1 (1��win(v))2(v�wwin(v)(t))

2 � (1��i)2(v�wi(t))

2

is valid with �i = �t i(w(t); v).

Hence, since (v�wwin(v)(t))2 � (v�wi(t))

2 is valid for all i by de�nition of the\winning" unit, then

8i 2 (1; � � � ; n); win(v)(w(t); v) � i(w(t); v) (18)

is a suÆcient condition to ensure that the \winning" unit does not changeduring an adaptation step.

The neighborhood function of the Kohonen rule (e.g. equations (14) and (15)),or constant neighborhoods, verify the condition (18), hence Self-OrganizingMaps and Growing Neural-Gas verify the hypothesis of Theorem 2: their rulecorresponds at least to a stochastic descent onto the \na��ve" energy functionEV , even if a datum v falls on a Vorono�� region boundary.

4.2 Martinetz's \Neural-Gas"

4.2.1 Theorem 1

In the Neural-Gas (Martinetz 1993), the neighborhood function takes theform:

i(w(t); v) = h�(ki(w; v)) with ki(w(t); v) =nX

q=1

H(d2iq�d2qq) and =0 (19)

where h� is of the same form as in (15), and ki is the rank of the unit i suchthat ki(w; v) = l � 1 i� i is the lth closest unit to v (note that several unitsmay have the same rank). The hypotheses of Theorem 1 are veri�ed, hence theNeural-Gas adaptation rule does not correspond to a gradient descent onto anenergy function over the whole domain V. However, we show in the followingthat, in practice, the Neural-Gas adaptation rule obeys Theorem 2.

1 i� means \if and only if"

6

219

Annexe C. Quanti�cation vectorielle et fonction d'énergie

4.2.2 Theorem 2

Following the same principle as in section 4.1.2 for the Kohonen rule, butconsidering two successive ordered units (possibly with the same rank), theneighborhood function of the units does not change if their order does notchange - in other words if the following holds:

8i 2 (1; � � � ; n); (v � wi(t)��wi)2 � (v � wj(t)��wj)

2 (20)

with kj(w(t); v) = ki(w(t); v) or kj(w(t); v) = ki(w(t); v)+1 - which we denotei � j.

(20) is valid i� (1 � �i)2(v � wi(t))

2 � (1 � �j)2(v � wj(t))

2 is valid with�i=�t i(w(t); v).

Hence, since (v�wi(t))2 � (v�wj(t))

2 is valid for any couple of successiveordered units i � j, then

8(i; j) 2 (1; � � � ; n)2; i � j; i(w(t); v) � j(w(t); v) (21)

is a suÆcient condition to ensure that the order of the units i and j does notchange, hence to ensure that the Neural-Gas neighborhood function does notchange during an adaptation step.

The Neural-Gas neighborhood function is generally a monotonically non in-creasing function respecting conditions (8) and (21), which hence veri�es thehypotheses of Theorem 2: its rule always minimizes the local energy functionE

[v]V , performing at least a stochastic descent onto EV .

4.3 \Recruiting" rules

Recently, in (Aupetit 2000), we propose the \Recruiting" Neural-Gas as away to cope with function approximation tasks using Vector Quantizers. The\Recruiting" rule consists in adding a \recruiting" factor to the classical ruleof a Neural-Gas (or any other Vector Quantizer). Each unit has such a factorand the \winning" unit imposes its own on the others. This tends to gatherthe units around the one which has the highest recruiting factor. Setting thisfactor proportional to the local output error, made while approximating afunction, allows gathering more units in regions where the function is morediÆcult to approximate, hence tends to optimize unit distribution and to

7

220

C.4. Conclusion

decrease approximation error. The neighborhood function is:

i(w(t); v) = h�(:) � "win(v)(t) =nX

q=1

Aq(w(t); v) � h�(:) � "q(t)

with 8j 2 (1; � � � ; n);@"q(t)

@wj(t)=�!0 and 8q 2 (1; � � � ; n); "q(t) 2 [0; 1]

(22)

where Aq(w(t); v) is de�ned in equation (16) and h�(:) can be for examplethe Neural-Gas neighborhood function or that of the Kohonen rule used withFritzke's Growing Neural-Gas. Insofar as the adaptation rule using the neigh-borhood without the recruiting parameter "win(v) respects the hypotheses ofone or both of Theorems 1 and 2, then the recruiting rule whose neighbor-hood is de�ned above respects the corresponding hypothesis too. Hence, oneor both of Theorems 1 and 2 hold and the recruiting rule performs at least astochastic descent onto the \na�ive" energy function (5).

The recruiting rule is similar to a Kohonen rule having, for each unit, a par-ticular neighborhood function with a di�erent width �: the greater the �, thestronger the recruiting e�ect.

4.4 \ -Observable Neighbors" vector quantizers

The \ -Observable Neighborhood" has recently been presented in (Aupetit 2001a).It de�nes a new neighborhood midway between the k-nearest neighbors (ba-sis of the Neural-Gas vector quantizer) and the natural neighborhood de-�ned by a Delaunay triangulation (basis of Growing Neural-Gas quantizers).In (Aupetit 2001b), we study its eÆciency as a basis for a vector quan-tizer - where it gives promising results. Considering a vector vm de�ned as:8m 2 (1; � � � ; n); vm = (1� ) v+ wm with 2 [0; 1], a unit wi is part of the -Observable Neighborhood of a datum v i� vi is part of the Vorono�� regionVi of wi.

The corresponding neighborhood function is written as:

i(w(t); v) =nY

q=1

H(d2qi � d2ii) where 2 [0; 1] (23)

being a tunable parameter which de�nes the size of the neighborhood. Ithas the following properties, demonstrated in (Aupetit 2001a): if = 1, thenall the units are part of the -Observable Neighborhood of v; if 0, then onlythe closest one to v. In practice, is decreased from 1 to 0 during the learn-ing phase in the same way as in Self-Organizing Maps and Neural-Gas. For

8

221

Annexe C. Quanti�cation vectorielle et fonction d'énergie

� 0:5, all the -Observable Neighbors are also natural neighbors of v. Aparticular property is that the -Observable neighborhood is not necessarilyconvex in the sense there may exist some units inside the convex hull of theactivated units (i.e. part of the -Observable neighborhood of a datum), whichare not themselves activated.

The -Observable neighborhood function (23) veri�es the hypotheses of Theo-rem 1. Concerning Theorem 2, we can show (in an article to appear elsewhere)that when the neighborhood is convex for all v, it remains convex applyingthe adaptation rule (9) for any v. This remains true for any given verifyingthe condition (10), hence it ensures that in these cases a stochastic descentonto (5) is always performed even on Vorono�� region boundaries.

5 Conclusion

We present a recent result of Lepetz and Nemoz-Gaillard (Lepetz 2001) whichensures the \smooth" behavior of a vast family of adaptation rules - includingthose of Kohonen's Self-Organizing Maps, Fritzke's Growing Neural-Gas, Mar-tinetz's Neural-Gas and our Recruiting Neural-Gas and -Observable Neigh-bors. This result ensures that the �nal organization of the units is not a�ectedby some of the data falling onto Vorono�� region boundaries even if in such casesthe adaptation rule does not correspond to a stochastic gradient descent ontothe \na��ve" energy function. We demonstrate a second theorem which ensuresthat, under certain conditions of the neighborhood function, the adaptationrule performs at least a stochastic descent onto Vorono�� region boundarieswhatever the nature of the density distribution. For instance, the Kohonenand Neural-Gas rules generally ful�ll the conditions of this theorem.

There still remains however the question of the convergence of these rules.Recent work by Nedi�c and Bertsekas (Nedi�c 2000) on subgradient methodsgives some promising results on the convergence of adaptation rules nondi�er-entiable everywhere. It would be interesting to study the relationship betweentheir and our work.

References

[Aupetit 2000] M. Aupetit, P. Couturier, P. Massotte, A \Recruiting Neural-

Gas" for Function Approximation, In Proc. of IJCNN'2000, Como, Italy,July 2000.

[Aupetit 2001a] M. Aupetit, D. Lepetz, M. Nemoz-Gaillard, P. Couturier, P.Massotte, R�eseaux de neurones et traitement de donn�ees: la notion de

9

222

C.4. Conclusion

voisinage -observable, In Valgo 2001, ACTH, Avril 2001. On-line URL:http://www.supelec-rennes.fr/acth/valgo/Valgo Numero-01-01.html

[Aupetit 2001b] M. Aupetit, P. Couturier, P. Massotte, Vector quantizationwith -observable neighbors, In Advances in Self-Organising Maps, N.Allinson, H. Yin, L. Allinson and J. Slack (Eds), pp. 230-237, Springer,2001.

[Cottrell 1994] M. Cottrell, J.C. Fort, G. Pag�es, Two or three things that weknow about the Kohonen algorithm, In Proc. of ESANN'94, pp. 271-276,Brussels, 1994.

[Cottrell 1998] M. Cottrell, J.C. Fort, G. Pag�es, Theoretical aspects of theSOM algorithm, In Neurocomputing, 21, pp. 119-138, Elsevier, 1998.

[Erwin 1992] E. Erwin, K. Obermayer, K. Schulten, Self-organizing maps:ordering, convergence properties and energy functions, In Biological Cy-bernetics, 67, pp. 47-55, Springer-Verlag, 1992.

[Fritzke 1995] B. Fritzke, Incremental Learning of Local Linear Mappings, InProc. of ICANN'95, pp. 217-222, Paris, France, EC2&Cie, 1995.

[Kaski 1998] S. Kaski, J. Kangas, T. Kohonen, Bibliography of Self-OrganizingMap (SOM) papers: 1981-1997, Neural Computing Surveys 1, pp. 102-350,1998. URL: http://www.icsi.berkeley.edu/ jagota/NCS

[Kohonen 1982] T. Kohonen, Self-Organized Formation of Topologically Cor-rect Feature Maps, In Biological Cybernetics, 43, pp.59-69, Springer-Verlag, 1982.

[Kohonen 1988] T. Kohonen, Self-Organization and Associative Memory,Springer-Verlag, 1988.

[Lepetz 2001] D. Lepetz, M. Nemoz-Gaillard, M. Aupetit, Demonstration ofthe �rst theorem of this paper in the joint companion paper, 2001.

[Martinetz 1993] T.M. Martinetz, S.G.Berkovitch, K.J.Schulten, \Neural-Gas" Network for Vector Quantization and its Application to Time-SeriesPrediction, In IEEE Trans. on Neural Networks, vol. 4, no.4, pp.558-569,1993.

[Martinetz 1991] T.M. Martinetz, K.J.Schulten, A \Neural-Gas" NetworkLearns Topologies, In Arti�cial Neural Networks, pp. 397-402, T. Kohonen,K. M�akisara, O. Simula and J. Kangas, eds, Elsevier Science Publishers,North-Holland, 1991.

[Nedi�c 2000] A. Nedi�c, D. Bertsekas, Convergence rate of incremental sub-gradient algorithms, In Stochastic Optimization: Algorithms and Applica-tions, S. Uryasev and P.M. Pardalos (Eds.), pp. 263-304, Kluwer AcademicPublishers 2000.

10

223

Annexe C. Quanti�cation vectorielle et fonction d'énergie

η

V \ Vη

Fig. 1. Cellular and tubular manifolds. V is partitioned into cellular manifolds

V � arbitrarily close to V , and tubular manifolds V n V � encompassing the edges

of the Vorono�� tesselation. � denotes the width of the tubular manifolds. The units

are represented by circles and bold plain lines are the edges of their Vorono�� re-

gions. Dashed lines are the edges between V � and V n V �. Theorem 1 states that

whenever 0 < � � 1, in the cellular manifolds, adaptation rule (1) corresponds toa stochastic gradient descent onto the \na��ve" energy function EV � (5), while in

the tubular manifolds where the di�erentiability of EV nV � cannot be ensured, the

possible energy jump is bounded by a �nite factor ofRV nV � P (v)dv.

11

224

Glossaire

225

k-PPV : k-Plus-Proches Voisins, 49CHL : Competitive Hebbian Learning, 53CSOM : Continuous Self-Organizing Map, 108GNG : Growing Neural-Gas, 45GON : Gamma-Observable Neighbor, 62HCL : Hard Competitive Learning, 40ISOM : Interpolating Self-Organizing Map, 108KNN : K-Nearest Neighbors, 49KPPV : K-Plus-Proches Voisins, 49LBG : Linde-Buzzo-Gray, 39MLP : Multi-Layer Perceptron, 26NG : Neural-Gas, 44NRBF : Normalized Radial Basis Function, 105NV : Noyau de Voronoï, 118NVI : Noyau de Voronoï Induit, 123PSOM : Parametrized Self-Organizing Map, 109QV : Quanti�cation Vectorielle, 38RBF : Radial Basis Function, 104SCL : Soft Competitive Learning, 41SCS : Soft Competition Scheme, 41SOM : Self-Organizing Map, 42TD : Triangulation de Delaunay, 50TID : Triangulation Induite de Delaunay, 53TRN : Topology Representing Network, 53VC : Vapnik-Chervonenkis, 31VGO : Voisinage Gamma-Observable, 62VN : Voisinage Naturel, 53VNI : Voisinage Naturel Induit, 53

227

228

Bibliographie

[1] D.H. Ackley, G.E. Hinton, T.J. Sejnowski, A learning algorithm for Boltzmann machines,Cognitive Science, No. 9, pp. 147-169, 1985.

[2] A. Ahalt, A.K. Krishnamurthy, P. Chen, D.E. Melton, Competitive learning algorithms forvector quantization, Neural Networks, No. 3, pp. 277-290, 1990.

[3] E. Alpaydin, M.I. Jordan, Local Linear Perceptrons for Classi�cation, In IEEE Trans. onNeural Networks, Vol. 7, No. 3, pp. 788-792, 1996.

[4] N. Amenta, M. Bern, D. Eppstein, The Crust and the �-Skeleton : Combinatorial CurveReconstruction, Graphical Models and Image Processing, Vol. 60, No. 2, pp. 125-135, 1998.

[5] N. Amenta, M. Bern, Surface Reconstruction by Voronoi Filtering, Discrete and Computa-tional Geometry, No. 22, pp. 481-504, 1999.

[6] D. Attali, J.-D. Boissonnat, Complexity of the Delaunay triangulation of points on polyhedralsurfaces, Rapport de recherche de l'INRIA - Sophia Antipolis, RR-4232, Juillet 2001.

[7] A.S. Atukorale, P.N. Suganthan, Hierarchical Overlapped Neural-Gas Network with Appli-cation to Pattern Classi�cation, Neurocomputing, Vol. 35, No. 1-4, pp. 165-176, ElsevierScience, November, 2000.

[8] M. Aupetit, P. Massotte, P. Couturier, Interpolation Multi-dimensionnelle pour l'approxima-tion de fonction avec les réseaux de neurones auto-organisants, Proc. de Reconnaissance desFormes et Intelligence Arti�cielle (RFIA2000), Paris, Février 2000.

[9] M. Aupetit, P. Couturier, P. Massotte, Function Approximation with Continuous Self-Organizing Maps using Neighboring In�uence Interpolation, In Proc. of NC'2000, Berlin,Germany, May 2000.

[10] M. Aupetit, P. Couturier, P. Massotte, A �Recruiting Neural-Gas� for Function Approxi-mation, In Proc. of IJCNN'2000, Como, Italy, July 2000.

[11] M. Aupetit, D. Lepetz, M. Nemoz-Gaillard, P. Couturier, P. Massotte, Réseaux de neuroneset traitement de données : la notion de voisinage -observable, In Valgo 2001, ACTH, Avril2001. En-ligne : http ://www.supelec-rennes.fr/acth/valgo/Valgo_Numero-01-01.html

[12] M. Aupetit, P. Couturier, P. Massotte, Induced Voronoï kernels for principal manifolds ap-proximation, In Advances in Self-Organising Maps, N.Allinson,H.Yin,L.Allinson and J.Slack(Eds), Proc. of Workshop on Self-Organizing Maps June 2001, pp.73-80, Springer-VerlagLondon 2001.

[13] M. Aupetit, P. Couturier, P. Massotte, Vector quantisation with -observable neighbors, InAdvances in Self-Organising Maps, N.Allinson,H.Yin,L.Allinson and J.Slack (Eds), Proc. ofWorkshop on Self-Organizing Maps June 2001, pp.230-237, Springer-Verlag London 2001.

[14] M. Aupetit, P. Couturier, P. Massotte, Function Approximation using �Recruiting� Soft-Competitive Arti�cial Neural Networks, Rapport de recherche RR01/G2/007, LGI2P, SiteEERIE, Nîmes, Novembre 2001.

229

Bibliographie

[15] F. Aurenhammer, Voronoi diagrams � A survey of a fundamental geometric data structure,ACM Computing Surveys, Vol. 23, pp. 345-405, 1991.

[16] D. Avis, lrs : A Revised Implementation of the Reverse Search Vertex Enumeration Algo-rithm, In Polytopes - Combinatorics and Computation, G. Kalai, G. Ziegler eds., Birkhauser-Verlag, DMV Seminar Band 29, pp. 177-198, 2000.

[17] P.V. Balakrishnan, M.C. Cooper, V.S. Jacob, P.A. Lewis, A study of the classi�cation capa-bilities of neural networks using unsupervised learning : a comparison with k-means clustering,Psychometrika, Vol. 59, No. 4, pp. 509-525, 1994.

[18] G. Balzuweit, R. Der, M. Herrmann, M. Welk, An Algorithm for Generalized PrincipalCurves with Adaptive Topology in Complex Data Sets, Tech. Report n. 3/1997, des Institutsfuer Informatik der Universitaet Leipzig, 1997.

[19] C.B. Barber, D.P. Dobkin, H. Huhdanpaa, The Quickhull algorithm for convex hulls,ACM Trans. on Mathematical Software, Vol. 22, 4 :469-483, December 1996. On-line Url :http ://www.geom.umn.edu/locate/qhull

[20] H.B. Barlow, Unsupervised learning, Neural Computation, 1 :295-311, 1989.

[21] R.E. Barnhill, Representation and appproximation of surfaces, In J.R. Rice, editor, Mathe-matical Software III, pp. 69-120, Academic Press, New York 1977.

[22] R.E. Barnhill, Computer aided surface representation and design, Surfaces in CAGD, R.E.Barnhill, W. Boehm (eds.), North-Holland Publishing Company, 1983.

[23] R. Bartels, J. Beaty, B. Barsky, B-splines, Mathématiques et CAO, Vol. 4, Hermès, 1988.

[24] A.G. Barto, R.S. Sutton, C.W. Anderson, Neuronlike adaptive elements that can solvedi�cult learning control problems, IEEE Trans. on Systems, Man and Cybernetics, SMC No.13, pp. 834-846.

[25] V.V. Belikov, V.D. Ivanov, V.K. Kontorovich, S.A. Korytnik, A. Yu Semenov, The non-sibsonian interpolation : a new method of interpolation of the values of a function on anarbitrary set of points, Computational Mathematics and Mathematical Physics, Vol. 37, No.1, pp. 9-15, 1997.

[26] R.E. Bellman, Adaptive control processes : A guided tour, Princeton University, NJ : Prince-ton University Press, 1961.

[27] K.P. Bennett and E. J. Bredensteiner, Duality and geometry in SVM classi�ers, In P.Langley, editor, Proceedings of the 17th International Conference on Machine Learning, pp.57-64. Morgan Kaufmann, 2000.

[28] F. Bernardini, C.L. Bajaj, Sampling and Reconstructing Manifolds Using Alpha-Shapes,Proc. of the 9th Canadian Conf. on Computational Geometry, pp. 193-198, 1997.

[29] R. Bogacz, C. Giraud-Carrier, Supervised Competitive Learning for Finding Positions ofRadial Basis Functions, In Proc. of the 3rd Conf. on Neural Networks and their Applications,pp. 701-706, Polish Neural Networks Society, October 1997.

[30] C-A. Bohn, An Incremental Unsupervised Learning Scheme for Function Approximation, InProc. of ICNN'97, Houston, 1997.

[31] J-D. Boissonnat, F. Cazals, Smooth Surface Reconstruction via Natural Neighbour Interpo-lation of Distance Functions, Rapport de recherche 3985, INRIA, 2000.

[32] P. Bose, P. Morin, C.I. Stojmenovi, J. Urrutia, Routing with guaranteed delivery in ad hocwireless networks, Workshop on Discrete Algorithms and Methods for Mobile Computingand Communications (DialM '99), August 1999

230

[33] A. Bouvier, M. George, F. Le Lionnais, Dictionnaire des mathématiques, 5ème édition,Presses Universitaires de France, 1996.

[34] J.S. Bridle, Probabilistic interpretation of feedforward classi�cation network outputs withrelationships to statistical pattern recognition, in Fogelman Soulié and J. Hérault, editors,Neurocomputing : Algorithms, Architectures and Applications, pp. 227-236, Springer-Verlag,New-York, 1990.

[35] D.S. Broomhead, D. Lowe, Multivariable Functional Interpolation and Adaptive Networks,Complex Systems 2, pp. 321-355, 1988.

[36] J.L. Brown, Systems of coordinates associated with points scattered in the plane, ComputerAided Geometric Design, No. 14, pp. 547-559, 1997.

[37] J. Bruske, G. Sommer, Intrinsic dimensionality estimation with Optimally topology Preserv-ing Maps, IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 20, No. 5,May 1998.

[38] B. B¶eler, A. Enge, K. Fukuda, Exact Volume Computation for Polytopes : A PracticalStudy, In G. Kalai and G. Ziegler, editors, Polytopes - Combinatorics and Computation,DMV-Seminars. Birkhäuser Verlag, 1998.

[39] C.J.C. Burges, A Tutorial on Support Vector Machines for Pattern Recognition, DataMining and Knowledge Discovery, Vol. 2, No. 2, pp. 121-167, 1998.

[40] M.A. Carreira-Perpinan, A review of dimension reduction techniques, Technical reportCS-96-09, Dept. of Computer Science, University of She�eld, UK, 1996.

[41] C-L. Chang, Finding Prototypes for Nearest Neighbor Classi�ers, IEEE Trans. on Comput-ers, Vol. C-23, No. 11, pp. 1179-1184, November 1974.

[42] K.L. Clarkson, Randomized geometric algorithms Computing in Euclidean Geometry, D.-Z. Du and F. Hwang, eds., Lecture Notes Series on Computing, Vol. 4, pp. 149-194, WorldScientic, Singapore, 2nd edition, 1995.

[43] V. Cherkassky, H.L. Naja�, Constrained Topological Mapping for Nonparametric RegressionAnalysis, In Neural Networks, Vol. 4, pp. 27-40, Pergamon Press, 1991.

[44] M. Cottrell, J.C. Fort, G. Pagès, Two or three things that we know about the Kohonenalgorithm, In Proc. of ESANN'94, pp. 271-276, Brussels, 1994.]

[45] M. Cottrell, J.C. Fort, G. Pagès, Theoretical aspects of the SOM algorithm, In Neurocom-puting, 21, pp. 119-138, Elsevier, 1998.

[46] P. Couturier, Commande par réseaux de neurones : application au contrôle d'un préhenseurélectropneumatique, Thèse de Doctorat de l'Institut National des Sciences Appliquées deLyon, No. d'ordre 97 ISAL 0071, Juillet 1997.

[47] D.J. Crisp, C.J.C. Burges, A Geometric Interpretation of �-SVM Classi�ers, to appear inNIPS 12. URL : http ://www.svm.research.bell-labs.com/SVMrefs.html

[48] G. Cybenko, Approximation by superpositions of sigmoidal functions, Mathematics of Con-trol, Signal and Systems 2, pp. 303-314, 1989.

[49] B.V. Dasarathy, NN Concepts and Techniques. An Introductory Survey, in Nearest Neighbor(NN) Norms : NN Pattern Classi�cation Techniques, Belur V. Dasarathy (Ed.), pp. 1-29,IEEE Computer Society Press 1990.

[50] L. De Floriani, E. Puppo, P. Magillo, Applications of computational geometry to geographicalinformation systems, Handbook of Computational Geometry, J.R. Sack, J. Urrutia (Editors),Chap. 7, pp.333-388, Elsevier Science, 1999.

231

Bibliographie

[51] B.N. Delaunay, Sur la sphère du vide, Bull. Acad. Science USSR VII : Class. Sci. Math.,pp.793-800, 1934.

[52] P. Demartines, F. Blayo, Kohonen self-organizing maps : Is the normalization necessary ?,Complex Systems, Vol.6 , No. 2, pp. 105-123, 1992.

[53] P. Demartines, Analyse de données par réseaux de neurones auto-organisés, Thèse deDoctorat à l'INPG, Grenoble, Novembre 1994.

[54] D. De Sieno, Adding a conscience to competitive learning, Proc. of IEEE Int. Conf. onNeural Networks, Vol. l, pp. 117-124, 1988.

[55] G. De Trémiolles, P. Tannhof, B. Plougonven, C. Demarigny, K. Madani, Visual probe markinspection, using hardware implementation of arti�cial neural networks, in VLSI production,Proc. of IWANN'97, Lanzarote, Canary Island, Spain 1997.

[56] T.K. Dey, H. Edelsbrunner, S. Guha Computational Topology, Invited paper in Advancesin Discrete and Computational Geometry, eds. B. Chazelle, J. E. Goodman and R. Pollack.Contemporary Mathematics, AMS, Providence, 1998.

[57] G. Di Battista, W. Lenhart, G. Liotta, Proximity drawability : a survey, In R. Tamassiaand I. G. Tollis, editors, Graph Drawing (Proc. GD '94), volume 894 of Lecture Notes inComputer Science, pp. 328-339, Springer-Verlag, 1995.

[58] E. Diday, La méthode des Nuées Dynamiques, Rev. Stat. Appliquée, vol. XIX, no. 2, pp.19-34, 1971.

[59] W. Duch, N. Jankowski, Survey of Neural Transfer Functions, Neural Computing Surveys,No. 2, pp. 163-212, 1999. Url : http ://www.icsi.berkeley.edu/ jagota/NCS

[60] R.A. Dwyer, Higher-Dimensional Voronoi Diagrams in Linear Expected Time, DiscreteComput. Geom. 6, pp. 343-367, 1991.

[61] G.M. Edelman, Neural Darwinism. The Theory of Neuronal Group Selection, Basic Books,Inc. , Publishers, New-York, 1987.

[62] P.H. Edelman, R. Jamison, The theory of convex geometries, Geom. Dedicata 19, pp.247-270, 1985.

[63] H. Edelsbrunner, D. Kirkpatrick, R. Seidel, On the Shape of a Set of Points in the Plane,IEEE Trans. on Information Theory, 29 :4, pp. 551-559, 1983.

[64] H. Edelsbrunner, Weighted Alpha Shapes, Report UIUCDCS-R-92-1760, Computer Science,University of Illinois, Urbana, IL, USA, 1992.

[65] H. Edelsbrunner, E.P. Mucke, Three-dimensional alpha shapes, ACM Trans. Graphics, Vol.13, pp. 43-72, 1994.

[66] H. Edelsbrunner, The union of balls and its dual shape, Discrete Computational Geometry,Vol. 13, pp. 415-440, 1995.

[67] H. Edelsbrunner, N.R. Shah, Computational Geometry Column 38, Int. Journal of Compu-tational Geometry and Applications, Vol. 7, No. 4, pp.365-378, 1997.

[68] S. Eidenbenz, C. Stamm, P. Widmayer, Positioning guards at �xed height above a terrain,an optimum inapproximability result, Proc. of Euro. Symposium on Algorithms, 1998.

[69] E. Erwin, K. Obermayer, K. Schulten, Self-organizing maps : ordering, convergence proper-ties and energy functions, In Biological Cybernetics, 67, pp. 47-55, Springer-Verlag, 1992.

[70] A. Esposito, M. Marinaro, D. Oricchio, S. Scarpetta, Approximation of continuous anddiscontinuous mappings by a growing neural RBF-based algorithm, Neural Networks 13, pp.651-665, Elsevier 2000.

232

[71] G. Farin, Smooth interpolation to scattered 3D data, Surfaces in CAGD, R.E. Barnhill, W.Boehm (eds.), North-Holland Publishing Company, 1983.

[72] G. Farin, Surfaces over Dirichlet tessellations, Computer Aided Geometric Design, No. 7,pp. 281-292, North-Holland 1990.

[73] R.A. Fisher, The use of multiple measurements in taxonomic problems, Annual Eugenics,Vol. 7, part II, pp. 179-188, 1936.

[74] A. Flexer, Limitations of self-organizing maps for vector quantization and multidimensionalscaling, in Mozer M.C., et al.(eds.), Advances in Neural Information Processing Systems 9,MIT Press/Bradford Books, pp.445-451, 1997.

[75] A. Flexer, On the use of self-organizing maps for clustering and visualization, in ZytkowJ.M., Rauch J.(eds.) : Principles of Data Mining and Knowledge Discovery, Third EuropeanConference, PKDD'99, Prague, Czech Republic, Proceedings, Lecture Notes in Arti�cial In-telligence 1704, p.80-88, Springer, 1999.

[76] S. Fortune, Voronoï diagrams and Delaunay triangulations. Computing in Euclidean geom-etry, D.Z. Du, F. Hwang eds., World Scienti�c, pp. 193-233, 1992.

[77] R.M. French, Catastrophic forgetting in connectionist networks : causes, consequences andsolutions, Trends in Cognitive Sciences, Vol.3, No.4, pp.128-135, 1999.

[78] J.H. Friedman, Multivariate Adaptive Regression Splines (with discussion), Annals of Statis-tics Vol. 19, No. 1, 1991.

[79] B. Fritzke, Fast learning with incremental RBF Networks, In Neural Processing Letters,Vol. 1, No. 1, 2-5, 1994.

[80] B. Fritzke, Supervised learning with Growing Cell Structures, In Advances in Neural In-formation Processing Systems 6, J.D. Cowan, G. Tesauro and J. Alspector (eds.), MorganKaufmann, San Mateo, CA, 1994.

[81] B. Fritzke, Growing cell structures - a self-organizing network for unsupervised and super-vised learning, Neural Networks, Vol. 7, No. 9, pp. 1441-1460, 1994.

[82] B. Fritzke, Incremental Learning of Local Linear Mappings, In Proc. of ICANN'95, pp.217-222, Paris, France, EC2&Cie, 1995.

[83] B. Fritzke, A Growing Neural Gas network learns topologies, G. Tesauro, D.S. Touret-zky , T.K. Leen, (eds.), Advances in Neural Information Processing Systems 7, MIT Press,Cambridge MA, 1995.

[84] B. Fritzke, Growing Grid - a self-organizing network with constant neighborhood range andadaptation strength, in Neural Processing Letters, Vol. 2, No. 5, pp. 9-13, 1995.

[85] B. Fritzke, The LBG-U method for vector quantization - an improvement over LBG inspiredfrom neural networks, in Neural Processing Letters, Vol. 5, No. 1, pp. 35-45, 1997.

[86] B. Fritzke, Incremental neuro-fuzzy systems, in Applications of Soft Computing, SPIEInternational Conference, 1997.

[87] K. Fukunaga, D. R. Olsen, An algorithm for �nding intrinsic dimensionality of data, IEEETransactions on Computers, Vol. 20, No. 2, pp. 176-183, 1971.

[88] K.R. Gabriel, R.R. Sokal, A new statistical approach to geographic variation analysis, Syst.Zoology 18, pp. 259-278, 1969.

[89] S. Geman, D.Geman, Stochastic relaxation, Gibbs distributions, and the Bayesian restorationof images, IEEE Trans. on Patt. Anal. Machine Intell., Vol. PAMI-6, pp. 721-741, 1984.

233

Bibliographie

[90] S. Geman, E. Bienenstock, R. Doursat, Neural Networks and the Bias/Variance Dilemma,In Neural Computation 4, pp.1-58, MIT Press, 1992.

[91] J. Göppert, W. Rosenstiel, Self-Organizing Maps vs. Backpropagation : An ExperimentalStudy, In Proc. of Workshop Design Methodologies for Microelectronics and Signal Pro-cessing, pp. 153-162, Institute of Electronics, Silesian Technical University, Giwice, Poland,October 1993.

[92] J. Göppert, W. Rosenstiel, Topology-Preserving Interpolation in Self-Organizing Maps, InProc. of Neuro-Nîmes'93, pp. 425-434, EC2, Nanterre, France, October 1993.

[93] J. Göppert, W. Rosenstiel, Interpolation in SOM : Improved generalization by iterativemethods, In EC2&Cie eds., Proc. of the Int. Conf. on Arti�cial Neural Networks, vol. 10,Paris, France, 1995.

[94] J. Göppert, W. Rosenstiel, Topological Interpolation in SOM by A�ne Transformations, Inproc. of ESANN'95, Brussels, Belgium, 1995.

[95] J. Göppert, W. Rosenstiel, Varying Cooperation in SOM for Improved Function Approxi-mation, In Proc. of ICNN'96, Washington, DC, USA, June 1996.

[96] J. Göppert, W. Rosenstiel, The continuous interpolating self-organizing map, Neural Pro-cessing Letters 5, pp. 185-192, Kluwer Academic Publishers 1997.

[97] R.M. Gray, D.L. Neuho�, Quantization, IEEE Trans. on Information Theory, Vol. 44, No.6, October 1998.

[98] S. Grossberg, Nonlinear neural networks : principles, mechanisms, and architectures, NeuralNetworks 1, pp. 17-61, 1988.

[99] J. Hakala, C. Koslowski, R. Eckmiller, �Partition of Unity� RBF Networks are UniversalFunction Approximators, In Proc. of ICANN'94, pp. 459-462, Sorrento, Springer-Verlag, 1994.

[100] F.H. Hamker, Life-long learning Cell Structures - continuously learning without catastrophicinterference, Neural Networks 14, pp. 551-573, 2001.

[101] T. Hastie, W. Stuetzle, Principal Curves, Journal of the American Statistical Association,Vol. 84, No. 406, pp. 502-516, 1989.

[102] D.O. Hebb, The organization of behavior, Wiley&Sons New York 1949.

[103] J. Herault, C. Jutten, Réseaux neuronaux et traitement du signal, Paris, Hermès 1994.

[104] J.J. Hop�eld, Neural networks and physical systems with emergent collective computationalabilities, In Proc. of the National Academy of Sciences, No. 79, pp. 2554-2558,1982.

[105] S.H. Huang, H-C. Zhang, Neural Networks in Manufacturing : A Survey, Neural NetworksApplications, P.K. Simpson (ed.), IEEE Technology Update Series, pp. 853-866, 1996.

[106] A. Indrayanto, N.M. Allinson An investigation into catastrophic interference on a SOM net-work, In Advances in Self-Organising Maps, N.Allinson,H.Yin,L.Allinson and J.Slack (Eds),Proc. of Workshop on Self-Organizing Maps June 2001, pp.216-223, Springer-Verlag London2001.

[107] J. W. Jaromczyk and G. T. Toussaint Relative neighborhood graphs and their relatives,Proc. IEEE, 80(9) :1502�1517, September 1992.

[108] D. Jiménez, D. Chapman, An application of proximity graphs in archaeological spatialanalysis, Presented at the 3rd United Kingdom Conference on Computer Applications inArchaeology, Southampton, February 1998. URL : http ://apollo.ge.ucl.ac.uk/ dbadillo/

234

[109] J. Jockusch, H. Ritter, An Instantaneous Topological Mapping Model for Correlated Stimuli,IEEE , pp. 529-534, 1999.

[110] I.T. Jolli�e, Principal Component Analysis, Springer-Verlag, New York, 1986.

[111] N.L. Jones, S.J. Owen, E.C. Perry, Plume characterization with natural neighbor interpo-lation, Geoenvironment 2000, ASCE Geotechnical Special Publication, No 46, pp. 331-345,1995.

[112] C. Jutten, J. Herault, Blind separation of sources, Signal Processing, Vol. 24, pp. 1-10,1991.

[113] B. Karp, H.T. Kung, GPSR : Greedy Perimeter Stateless Routing for Wireless Networks,Proceedings of the ACM/IEEE International Conference on Mobile Computing and Network-ing (MOBICOM), pp. 243-254, Boston, MA. August 2000.

[114] S. Kaski, J. Sinkkonen, Metrics that learn relevance, In Proceedings of IJCNN-2000,International Joint Conference on Neural Networks, volume V, pp. 547-552. IEEE ServiceCenter, Piscataway, NJ, 2000.

[115] S.S. Keerthi, S.K. Shevade, C. Bhattacharyya, K.R.K. Murthy, A fast iterative nearestpoint algorithm for support vector machine classier design, IEEE Transactions on NeuralNetworks, Vol. 11, pp.124-136, Jan 2000.

[116] B. Kegl, Principal curves : learning, design, and applications, Ph.D. thesis, ConcordiaUniversity, Montréal, Québec, Canada, 2000.

[117] J.L. Kelley, General Topology, F.W. Gehring, C.C. Moore (Eds.), 298p. ,Springer-Verlag,New York-Berlin, 1975.

[118] S. Kirkpatrick, C.D. Gelatt, M.P. Vecchi, Optimization by simulated annealing, Science,No. 220, pp. 671-680, 1983.

[119] D.G. Kirkpatrick, J.D. Radke, A framework for computational morphology, In G.Toussaint,ed., Computational Geometry, pp. 217-248, North-Holland, 1985.

[120] T. Kohonen, Self-Organized Formation of Topologically Correct Feature Maps, In BiologicalCybernetics, 43, pp.59-69, Springer-Verlag, 1982.

[121] T. Kohonen, K. Mäkisara, T. Saramäki, Phonotopics maps - insightful representation ofphonological features for speech recognition, In Proc. of 7th Int. Conf. on Pattern Recognition,pp. 182-185, Montréal, 1984.

[122] T. Kohonen, Self-Organization and Associative Memory, Springer-Verlag, 1988.

[123] T. Kohonen, Exploration of very large databases by self-organizing maps, IEEE Int. Conf.on Neural Networks, ICNN'97, Vol. 1, pp. PL1-PL6, 1997.

[124] Y. Linde, A. Buzzo, R.M. Gray, An algorithm for vector quantizer design, IEEE Trans.Commun., COM No.28, pp. 84-95, 1980.

[125] P. C. Mahalanobis, Proc. Natl. Institute of Science of India, 2, 49, 1936.

[126] J. Makhoul, S. Roucos, H. Gish, Vector quantization in speech coding, Proc. IEEE, Vol.73, pp 1551-1588, 1985.

[127] B.B. Mandelbrot, How long is the cost of britain, Science, 155 :636-638, 1967.

[128] B.B. Mandelbrot, The fractal geometry of nature, San Francisco, Freeman, 1982.

[129] D. Marquardt, An algorithm for least squares estimation of nonlinear parameters, SIAMJournal on Applied Mathematics, Vol. 11, pp. 431-441, 1963.

235

Bibliographie

[130] T.M. Martinetz, K.J.Schulten, A �Neural-Gas� Network Learns Topologies, In Arti�cialNeural Networks, pp. 397-402, T. Kohonen, K. Mäkisara, O. Simula and J. Kangas, eds,Elsevier Science Publishers, North-Holland, 1991.

[131] T.M. Martinetz, S.G.Berkovitch, K.J.Schulten, �Neural-Gas� Network for Vector Quanti-zation and its Application to Time-Series Prediction, In IEEE Trans. on Neural Networks,Vol. 4, No.4, pp.558-569, 1993.

[132] T.M. Martinetz, Competitive Hebbian learning rule forms perfectly topology preservingmaps, In Int. Conf. on Arti�cial Neural Networks, ICANN'93, pp. 427-434, Amsterdam,Springer 1993.

[133] T.M. Martinetz, K.J.Schulten, Topology Representing Networks, In Neural Networks, Vol.7,No.3, pp.507-522, Elsevier Science, 1994.

[134] D.W. Matula, R.R. Sokal, Properties of Gabriel graphs relevant to geographic variationresearch and the clustering of points in the plane, Geographical Analysis, Vol. 12, No. 3,Ohio State University Press, July 1980.

[135] W.S. McCulloch, W. Pitts, A logical calculus of the ideas immanent in nervous activity,Bulletin in Mathematical Biophysics, No. 5, pp. 115-133, 1943.

[136] C.J. Merz, P.M. Murphy, D.W. Aha, UCI repository of machine learning databases, De-partment of Information and Computer Science, University of California at Irvine, Irvine,CA, 1997. Url : http ://www.ics.uci.edu/pub/machine-learning-databases/

[137] M. Minsky, S. Papert, Perceptrons, Cambridge, MA, MIT Press, 1969.

[138] D.C. Montgomery, Design and analysis of experiments, 5th edition, John Wiley & Sons,2001.

[139] J. Moody, C.J. Darken, Fast Learning in Networks of Locally-Tuned Processing Units, InNeural Computation 1, pp. 281-294, MIT Press, 1989.

[140] F. Mulier, V. Cherkassky, Self-organization as an iterative kernel smoothing process, NeuralComputation, Vol. 7, pp. 1165-1177, 1995.

[141] H.L. Naja�, V. Cherkassky, Adaptive Knot Placement for Nonparametric Regression, InAdvances in Neural Information Processing Systems 6, pp. 247-254, J.D.Cowan et al., eds.,Morgan Kaufmann, San Mateo, CA, USA, 1994.

[142] N.M. Nasrabadi, Y. Feng, Vector quantization of images based upon the Kohonen self-organizing feature maps, In IEEE Int. Conf. on Neural Networks, pp. 1101-1108, San Diego,CA, 1988.

[143] A. Nedi¢, D. Bertsekas, Convergence rate of incremental subgradient algorithms, In Stochas-tic Optimization : Algorithms and Applications, S. Uryasev and P.M. Pardalos (Eds.), pp.263-304, Kluwer Academic Publishers 2000.

[144] S.J. Nowlan, Maximum likelihood competitive learning, In Advances in Neural InformationProcessing Systems 2, pp. 574-582, D.Touretzky, Ed. New York : Morgan Kau�man, 1990.

[145] A. Okabe, B. Boots, K. Sugihara, Spatial tessellations : concepts and applications of Voronoïdiagrams, John Wiley, Chichester, 1992.

[146] J. O'Rourke, Computational Geometry Column 38, Int. Journal of Computational Geom-etry and Applications, Vol. 10, pp. 221-223, 2000.

[147] J. Park, I.W. Sandberg Universal Approximation Using Radial-Basis-Function Networks,Neural Computation 3, pp. 246-257, MIT 1991.

236

[148] J. Park, I.W. Sandberg Approximation and Radial-Basis-Function Networks, Neural Com-putation 5, pp. 305-316, MIT 1993.

[149] E. Parzen, On estimation of a probability distribution and mode, Annals of MathematicalStatistics, Vol. 33, pp. 1065-1076, 1962.

[150] H-O. Peitgen, H. Jürgens, D. Saupe, Chaos and fractals. New frontiers of science, SpringerVerlag, New York, 1992.

[151] B. Piper, Properties of local coordinates based on Dirichlet tesselations, Computing Suppl.,Vol. 8, pp.227-239, 1993.

[152] T. Poggio, F. Girosi, A Theory of Networks for Approximation and Learning, A.I. MemoNo. 1140, C.B.I.P Paper No. 31, MIT 1989.

[153] H. Poincaré, Analysis situs, Journal de l'Ecole Polytechnique, 2e série. (Cahier No. 1), 122p., 1985.

[154] D. Pokrajac, Z. Obradovic, Learning Heterogeneous Functions from Sparse and Non-Uniform Samples, In Proc. of IJCNN'2000, Como, Italy, July 2000.

[155] M.J.D. Powell, The theory of radial basis functions approximation in 1990, In W.A. Light,editor, Advances in Numerical Analysis Volume II : Wavelets, Subdivision Algorithms andRadial Basis Functions, pp. 105-210. Oxford University Press, 1992.

[156] Lazy Learning, Arti�cial Intelligence Review, 11 :1-5, David W. Aha Editor, KluwerAcademic Publishers, Dordrecht, 432 pp. June 1997.

[157] H. Ritter, Learning with the self-organizing map, In Arti�cial Neural Networks, T. Kohonen,K Makisara, O. Simula, and J. Kangas, eds., Vol. 1, pp. 357-364, Amsterdam, North Holland,1991.

[158] H. Ritter, T. Martinetz, K. Schulten, Neural Computation and Self-Organizing Maps,Addison&Wesley, 1992.

[159] H. Ritter, Parametrized self-organizing maps, In S. Gielen and B. Kappen Eds., Proc. ofthe Int. Conf. on Art. Neural Networks, pp. 568-575, Springer Verlag, 1993.

[160] H. Robbins, S. Monro, A stochastic approximation method, Ann. Math. Stat., Vol. 22, pp.400-407, 1951.

[161] I. Rojas, H. Pomares, J. Gonzalez, E. Ros, M. Salmeron, J. Ortega, A. Prieto, A New RadialBasis Function Networks Structure : Application to time series prediction, International JointConference on Neural Networks (IJCNN2000), IEEE Computer Soc. Press, Vol. 4, pp. 449-445, Como, Italy, July 2000.

[162] K. Rose, F. Gurewitz, G. Fox, Statistical mechanics and phase transition in clustering,Physical Rev. Lett., Vol. 65, No. 8, pp. 945-948, 1990.

[163] F. Rosenblatt, The perceptron : a probabilistic model for information storage and organi-zation in the brain, Psychological Review, No. 65, pp.386-408, 1958.

[164] F. Rosenblatt, Principles of neurodynamics, Spartan, New York, 1962.

[165] D.E. Rumelhart, G.E. Hinton, R.J. Williams Learning internal representations by er-ror propagation, In Parallel Distributed Processing : Explorations in the Microstructure ofCognition. Vol.1 : Foundations, D.E. Rumelhart, J.L.McClelland, and the PDP group, eds,pp.318-362. MIT Press, Cambridge, MA, USA, 1986.

[166] M. Sambridge, J. Braun, H. McQueen, Geophysical parameterization and interpolationof irregular data using natural neighbours, Geophysical Journal International, No. 122, p.837-857, 1995.

237

Bibliographie

[167] A. Saranli, B. Baykal, Complexity reduction in radial basis function (RBF) networks byusing radial B-spline functions, Neurocomputing, Vol. 18, pp. 183-194, 1998.

[168] S. Schaal, C.G. Atkeson, Constructive Incremental Learning From Only Local Information,In Neural Computation, 10, pp. 2047-2084, MIT Press, 1998.

[169] N.E. Sharkey, A.J.C. Sharkey, An analysis of catastrophic interference, Connection Science,Vol. 7, pp. 301-329, 1995.

[170] D. Shepard, A two dimensional interpolation function for irregularly spaced data, in Proc.of the 23rd National Conference, pp. 517-523, ACM, 1968.

[171] R. Sibson, The Dirichlet Tesselation as an Aid in Data Analysis, Scand. J. Statistics,Vol.7, pp. 14-20, 1980.

[172] R. Sibson, A vector identity for the Dirichlet tessellation, Math. Proc. Cambridge Philo-sophical Society, No.87, pp. 151-155, 1980.

[173] R. Sibson, A brief description of natural neighbour interpolation, Interpreting MultivariateData, pp. 21-36, V.Barnet eds., Wiley, Chichester, 1981.

[174] J. Stewart, Fast horizon computation at all points of a terrain with visibility and shadingapplications, IEEE Transactions on Visualization and Computer Graphics, Vol. 4, No. 1, pp.82-93, March 1998.

[175] N. Sukumar, B. Moran, C1 Natural Neighbor Interpolant for Partial Di�erential Equations,Numerical Methods for Partial Di�erential Equations, Vol. 15, No. 4, pp. 417-447, 1999.

[176] N. Sukumar, B. Moran, A. Yu Semenov, V.V. Belikov, Natural neighbor Galerkin methods,International Journal for Numerical Methods in Engineering, Vol.50, No.1,pp. 1-27, 2001.

[177] A.H. Thiessen, J.C. Alter, Climatological data for July, 1911. District No. 10, Great Basin,Monthly Weather Review, pp. 1082-1084, July 1911.

[178] S. Thiria, Y. Lechevallier, O. Gascuel, S. Canu, Statistiques et méthodes neuronales, Dunod,Paris, 1997.

[179] R. Tibshirani, Principal Curves Revisited, Statistics and Computing, No. 2, pp. 183-190,1992.

[180] M.E. Tipping, C.M. Bishop, Mixtures of Probabilistic Principal Component Analyzers,Neural Computation, Vol. 11, No. 2, pp. 443-482, 1999.

[181] G.T. Toussaint, The relative neighbourhood graph of a �nite planar set, Pattern Recogn.,12, 1980.

[182] T. Trautmann, T. Denoeux, Comparison of dynamic feature map models for environmentalmonitoring, Proc. of the IEEE Int. Conf. on Neural Networks (ICNN'95), vol. 1, pp. 73-78,Perth, Australia.

[183] V.N. Vapnik, A.Y. Chervonenkis, The necessary and su�cient conditions for consistencyof the method of empirical risk minimization, Pattern Recognition and Image Analysis, Vol.1, No. 3, pp.264-305, 1989.

[184] V.N. Vapnik, E. Levin, Y. Le Cun, Measuring the VC-dimension of a learning machine,Neural Computation, Vol.6, No. 5, 1994.

[185] R.C. Veltkamp, The -neighborhood graph, Computational Geometry : Theory and Appli-cations 1, pp.. 227-246, 1992.

[186] T. Villmann, H-U. Bauer, The GSOM-Algorithm for growing hypercubical output spacesin Self-Organizing Maps, Workshop on Self-Organizing Maps, WSOM'97, Helsinky Univ. ofTechnology, Finland, June 4-6 1997.

238

RESUME

Les problèmes de discrimination, de classification, d'approximation de fonctions, de diagnostic ou decommande qui se posent notamment dans le domaine du génie industriel, peuvent se ramener à unproblème d'approximation de variétés. Nous proposons une méthode d'approximation de variétéssous-jacentes à une distribution de données, basée sur une approche connexionniste auto-organisée etprocédant en trois étapes: un positionnement de représentants de la distribution par des techniques dequantification vectorielle permet d’obtenir un modèle discret, un apprentissage de la topologie decette distribution par construction de la triangulation induite de Delaunay selon un algorithmed'apprentissage compétitif donne un modèle linéaire par morceaux, et une interpolation non linéairemène à un modèle non linéaire des variétés. Notre première contribution concerne la définition,l'étude des propriétés géométriques et la proposition d'algorithmes de recherche d'un nouveau type devoisinage « γ-Observable » alliant des avantages du voisinage des k-plus-proches-voisins et duvoisinage naturel, utilisable en grande dimension et en quantification vectorielle. Notre secondecontribution concerne une méthode d'interpolation basée sur des « noyaux de Voronoï » assurant lapropriété d'orthogonalité nécessaire à la modélisation de variétés, avec une complexité de calculéquivalente ou plus faible que les méthodes d’interpolation existantes. Cette technique est liée auvoisinage γ-Observable et permet de construire différents noyaux gaussiens utilisés dans les réseauxRBFs. Les outils développés dans cette approche originale sont appliqués en approximation defonctions pour l’identification d’un préhenseur électropneumatique, en approximation de variétés, eten discrimination et analyse de données. Il est notamment montré qu'il est intéressant d'utiliser lesvoisins 0.5-observables pour définir les points frontières entre classes et affecter les éléments à leurclasse d'appartenance.

Approximation of manifolds with self-organizing neural networks

ABSTRACT

Classification, clustering, function approximation, diagnostic and control problems arising notably inthe field of Industrial Engineering, may come down to a manifold approximation problem. Wepropose a method to approximate manifolds underlying a data distribution, based on a self-organizingneural network approach and consisting in three stages: placement of representing vectors of thedistribution using vector quantization techniques leading to a discrete model, representation of thisdistribution’s topology building the induced Delaunay triangulation with a competitive learningalgorithm leading to a piecewise linear model, and a non linear interpolation leading to a non linearmodel of the manifolds. Our first contribution concerns the definition, the study of geometricalproperties and the proposition of research algorithms of a new kind of neighborhood called “γ-Observable” neighborhood which gather the advantages of the k-nearest-neighbors neighborhood andthe natural neighborhood, usable in spaces of high dimension and for vector quantization. Our secondcontribution concerns an interpolation method based on “Voronoï kernels” ensuring the orthogonalityproperty necessary to model manifolds, with a computation complexity lower or similar to the otherinterpolation methods. This technique is linked to the γ-Observable neighborhood allowing to builddifferent kinds of gaussian kernels used in RBF networks. The tools developed in this originalapproach are applied in function approximation to identify an electropneumatic prehensile, inmanifold approximation, and in classification and data analysis. It is notably shown that it isinteresting to use the 0.5-observable neighbors to define the boundary-points between classes and toaffect the elements to their associated class.

SPECIALITE Génie Industriel

MOTS-CLES

Auto-organisation, Réseaux de neurones artificiels, Voisinage γ-Observable, Noyaux de Voronoï,Interpolation, Approximation de fonctions, Approximation de variétés, Discrimination, Analyse dedonnées.

Laboratoire de Génie Informatique et d’Ingénierie de Production (LGI2P)EMA - Site EERIE, Parc Scientifique Georges BESSE - 30035 NIMES

[187] C. Von Der Malsburg, Self-organization of orientation sensitive cells in the striate cortex,Kybernetik, No. 14, pp. 85-100, 1973.

[188] M.G. Voronoï, Nouvelles applications des paramètres continus à la théorie des formesquadratiques, J. Reine Angew. Math., Vol. 134, pp. 198-287, 1908.

[189] J. Walter, H. Ritter, Local PSOMs and Chebyshev PSOMs Improving the ParametrisedSelf-Organizing Maps, In Proc. of ICANN'95, pp.95-102, Paris, Octobre 1995.

[190] J. Walter, H. Ritter, Investment Learning with Hierarchical PSOM, Advances in NeuralInformation Processing Systems 8, NIPS'95, pp. 570-576, Bradford MIT Press 1996.

[191] J. Walter, H. Ritter, Rapid Learning with Parametrized Self-Organizing Maps, Neurocom-puting 12, pp. 131-153, 1996.

[192] J. Walter, H. Ritter, Associative Completion and Investment Learning using PSOMs,Arti�cial Neural Networks, Proc. of ICANN, pp. 157-164, Springer 1996.

[193] J. Walter, Rapid learning in robotics, Cuvillier Verlag, Göttingen, Germany, 1997. On-lineUrl : http ://www.techfak.uni-bielefeld.de/ walter/

[194] J. Walter, PSOM Network : Learning with Few Examples, Proc. of Int. Conf. on Roboticsand Automation (ICRA) IEEE 1998.

[195] D.F. Watson, G.M. Philip, Neighborhood-Based Interpolation, in Geobyte, Vol. 2, No. 2,pp. 12-16, 1987.

[196] S. Weaver, L. Baird, M. Polycarpou, An Analytical Framework for Local FeedforwardNetworks, In IEEE Trans. on Neural Networks, Vol. 9, No. 3, p. 473, May 1998.

[197] P. Werbos, Beyond regression : new tools for prediction and analysis in the behavioralsciences, PH.D. thesis, Harvard University, 1974.

[198] B. Widrow, M.E. Ho�, Adaptive switching circuits, IRE WESCON Convention Record,Chapter 10, pp.123-137, IRC, New York, 1960.

[199] D.J. Willshaw, C. Von Der Malsburg, How patterned neural connections can be set up byself-organization, Proc. of the Royal Society of London, B 194, pp. 431-445, 1976.

[200] E. Yair, K. Zeger, A. Gersho, Competitive learning and soft competition for vector quantizerdesign, IEEE Trans. on Signal Processing, Vol. 40, No. 2, pp. 294-309, 1992.

[201] P.L. Zador, Asymptotic Quantization Error of Continuous Signals and the QuantizationDimension, In IEEE Trans. on Information Theory, Vol. IT-28, No.2, pp. 139-149, March1982.

239