apprentissage semi supervidse

18
Apprentissage semi- supervisé Extrait de : http://www.public.asu.edu/~jye0 2

Upload: ayman-aniked

Post on 08-Jul-2016

217 views

Category:

Documents


0 download

DESCRIPTION

d

TRANSCRIPT

Page 1: Apprentissage Semi Supervidse

Apprentissage semi-supervisé

Extrait de : http://www.public.asu.edu/~jye02

Page 2: Apprentissage Semi Supervidse

Position du Problème

m

n

Labels des données(0 ou 1)

Données avec labels

Données sans labels

But : prédire les labels des données sans labels

X y

Page 3: Apprentissage Semi Supervidse

Apprentissage semi-superviséApprentissage semi-supervisé pour améliorer les performances en

combinant les données avec labels (peu) et sans labels (beaucoup) Classification semi-supervisée : entraîner sur des données avec labels

et exploiter les données (beaucoup) sans labels Clustering semi-supervisé : clustering des données sans labels en

s'aidant des données avec labels

Clustering ApprentissageSemi-supervisé

Classification

Page 4: Apprentissage Semi Supervidse

Hypothèse de classe

Hypothèse de base pour la plupart des algorithmes d'apprentissage semi-supervisés Points proches ont probablement le même label de classe Deux points qui sont connectés par un chemin traversant des régions

de forte densités doivent avoir le même label

Page 5: Apprentissage Semi Supervidse

Classification Semi-Supervisée

Page 6: Apprentissage Semi Supervidse

Exemple de Classification Semi-Supervisée

.

..

.

Page 7: Apprentissage Semi Supervidse

.

Exemple de Classification Semi-Supervisée

.. ..

. .. ..

.

....

.

.

. ..

Page 8: Apprentissage Semi Supervidse

.

Exemple de Classification Semi-Supervisée

.. ..

. .. ..

.

....

.

.

. ..

Page 9: Apprentissage Semi Supervidse

Classification Semi-Supervisée

Algorithmes: EM Semi-supervisé [Ghahramani:NIPS94,Nigam:ML00]. Co-training [Blum:COLT98]. Transductive SVM’s [Vapnik:98,Joachims:ICML99]. Algorithmes à base de Graphes [Blum:ICML01,

Joachims:ICML03,Zhu:ICML03,ZHOU:NIPS03] hypothèses:

Connu : un ensemble de catégories de données avec labels But : améliorer la classification des exemples dans ces catégories

connues

Page 10: Apprentissage Semi Supervidse

Clustering Semi-Supervisé

Page 11: Apprentissage Semi Supervidse

.

Clustering Semi-Supervisé : Exemple 1

.. ..

. .. ..

.

....

.

.

. ..

Page 12: Apprentissage Semi Supervidse

.

Clustering Semi-Supervisé : Exemple 1

.. ..

. .. ..

.

....

.

.

. ..

Page 13: Apprentissage Semi Supervidse

.

Clustering Semi-Supervisé : Exemple 2

.. ..

. .. ..

.

....

.

.

. ..

Page 14: Apprentissage Semi Supervidse

.

Clustering Semi-Supervisé : Exemple 2

.. ..

. .. ..

.

....

.

.

. ..

Page 15: Apprentissage Semi Supervidse

Clustering semi-supervisé :

Entrée : Un ensemble d'objets sans labels, chacun est décrit par un

ensemble d'attributs (numériques ou catégoriels) Une faible connaissance du domaine

Sortie : Partitionnement des objets en k classes

Objectif : Similarité intra-cluster maximum Similarité inter-cluster minimum Une grande consistance entre partition et connaissances du

domaine

Page 16: Apprentissage Semi Supervidse

Pourquoi clustering semi-supervisé ? Why not clustering?

Les classes obtenues peuvent ne pas être ceux demandés Parfois, il y a plusieurs choix de groupements

Why not classification? Parfois on n'a pas assez de données avec labels

Applications potentielles Bioinformatique (gene et protein clustering) Construction de hiérarchies de documents Categorisation de News/email categorisation d'Images

Page 17: Apprentissage Semi Supervidse

Clustering Semi-Supervisé Deux type de connaissances

Informations partielles sur les labels Appliquer certaines contraintes (must-links et cannot-links)

Approches Search-based Semi-Supervised Clustering

Alter the clustering algorithm using the constraints

Similarity-based Semi-Supervised Clustering Alter the similarity measure based on the constraints

Combination of both

Page 18: Apprentissage Semi Supervidse

Classification semi-supervisée c'est quoi ? Utilise un faible nombre de données avec labels pour labelliser un

grand nombre de données sans labels Labelliser est coûteux

Idée de base Données similaires doivent avoir le même label de classe

Exemples Classification pages Web Classification de documents Classification de protéines