Évaluation de la qualité d'une clusterisation marine campedel campedel 29 novembre 2005

Évaluation de la qualité d'une clusterisation

Marine Campedel

www.tsi.enst.fr/~campedel

29 novembre 2005

Motivations

Mesure de qualité pour

Évaluer le nombre de clusters le plus adapté aux

données (ou à l'algo de clusterisation ?)

Comparer des algorithmes de clusterisation

Évaluer la partition obtenue – qualité de la

description des données obtenue

Qualité d'une clusterisation ?

Classification supervisée : on dispose de

données étiquetées -> comptage des erreurs de

prédiction, courbes ROC, …

Cas non supervisé : les labels sont inconnus

"stabilité" : qualité de la prédiction des étiquettes

par les données (on se sert du résultat de

clusterisation pour se ramener au cas supervisé)

a priori : les données qui se ressemblent doivent

avoir les mêmes labels

Qualité d'une clusterisation ?

Critères internes

à relier au critère optimisé pendant l'opération de

clusterisation

Critères externes

Comparaison avec une clusterisation de

référence

Indices divers reposant généralement sur des

rapports de distance intra/extra clusters

Les indexes actuels

Gèrent parfaitement des configurations

patatoïdes bien séparées mais pas les autres.

Idée 1 : se ramener à l'aide de fonction noyau, à

une configuration patatoïde ;

Idée 2 : proposer un index du même style qui

permette d'analyser les configurations des

données.

Nouvel index : NNI

Taille du voisinage = % de la taille du cluster auquel

appartient une donnée

Résultat = une courbe fonction de ce %

i de voisinagele dans data nb

dans classées i de voisinagele dans data nb),(

donnée une désigne i ),(1

clusterun désignek )(1

XkiNNI

kiNNIN

Utilisation de NNI

NNI global

Comparaison de méthodes de clustering (en

particulier sélection de modèles pour kernel

KMeans) ;

Estimation du nombre de clusters (pour kMeans

par exemple).

NNI des clusters et données

Mesure de qualité des clusters ;

Hypothèses sur la configuration des données.

Exemple 1

Méthode

KernelKMeans

Choix d'un

noyau gaussien

-> test de

diverses valeurs

Exemple 1: résultat du meilleur clustering

Exemple 1: comparaison avec entropie et pureté

Exemple 1 : outliers

Exemple 2 : trouver K

Exemple 2

K? K est.

Conclusion NNI : indexe simple qui ouvre des perspectives intéressantes

sur l'exploitation du résultat d'une clusterisation ou plutôt sur

l'emploi d'une méthode de clusterisation ;

Idée intéressante : courbe et non un seul point

Distance calculée pour le voisinage : laquelle ? (N.B. : dans le

cadre supervisé, peut-on s'en servir pour sélectionner un

espace plus adéquat ?)

Travaux futurs :

exploitation dans les techniques de sélection non

supervisée de caractéristiques (clusterisation des

features).

exploitation de la stabilité

Évaluation de la qualité d'une clusterisation marine campedel campedel 29 novembre 2005

Documents

desesperance bleu marine

breaux & daigle marine

classification supervisée marine campedel campedel avril...

victron energy - marine

glossaire de marine

Électronique marine

electromecanicien marine

atelier de coordination Élargie du fem Évaluation … ·...

colloque gres2001 i3- une nouvelle génération intelligente...

lts epropulsion - lts marine€¦ · présentation...

kmh - yanmar marine · introduction bienvenue dans le monde...

autosondages urinaires et temps de vidange : évaluation de...

1 fusion marine-wendel et cgip marine-wendel. 2...

canada – british columbia marine protected area network...

la marine merchande

book marine fauvet

etat des lieux en robotique marine et sous-marine

contreplaqué marine

sélection et classification : avancement marine campedel...

neandertal marine