apprentissage semi supervidse
DESCRIPTION
dTRANSCRIPT
Apprentissage semi-supervisé
Extrait de : http://www.public.asu.edu/~jye02
Position du Problème
m
n
Labels des données(0 ou 1)
Données avec labels
Données sans labels
But : prédire les labels des données sans labels
X y
Apprentissage semi-superviséApprentissage semi-supervisé pour améliorer les performances en
combinant les données avec labels (peu) et sans labels (beaucoup) Classification semi-supervisée : entraîner sur des données avec labels
et exploiter les données (beaucoup) sans labels Clustering semi-supervisé : clustering des données sans labels en
s'aidant des données avec labels
Clustering ApprentissageSemi-supervisé
Classification
Hypothèse de classe
Hypothèse de base pour la plupart des algorithmes d'apprentissage semi-supervisés Points proches ont probablement le même label de classe Deux points qui sont connectés par un chemin traversant des régions
de forte densités doivent avoir le même label
Classification Semi-Supervisée
Exemple de Classification Semi-Supervisée
.
..
.
.
Exemple de Classification Semi-Supervisée
.. ..
. .. ..
.
....
.
.
. ..
.
Exemple de Classification Semi-Supervisée
.. ..
. .. ..
.
....
.
.
. ..
Classification Semi-Supervisée
Algorithmes: EM Semi-supervisé [Ghahramani:NIPS94,Nigam:ML00]. Co-training [Blum:COLT98]. Transductive SVM’s [Vapnik:98,Joachims:ICML99]. Algorithmes à base de Graphes [Blum:ICML01,
Joachims:ICML03,Zhu:ICML03,ZHOU:NIPS03] hypothèses:
Connu : un ensemble de catégories de données avec labels But : améliorer la classification des exemples dans ces catégories
connues
Clustering Semi-Supervisé
.
Clustering Semi-Supervisé : Exemple 1
.. ..
. .. ..
.
....
.
.
. ..
.
Clustering Semi-Supervisé : Exemple 1
.. ..
. .. ..
.
....
.
.
. ..
.
Clustering Semi-Supervisé : Exemple 2
.. ..
. .. ..
.
....
.
.
. ..
.
Clustering Semi-Supervisé : Exemple 2
.. ..
. .. ..
.
....
.
.
. ..
Clustering semi-supervisé :
Entrée : Un ensemble d'objets sans labels, chacun est décrit par un
ensemble d'attributs (numériques ou catégoriels) Une faible connaissance du domaine
Sortie : Partitionnement des objets en k classes
Objectif : Similarité intra-cluster maximum Similarité inter-cluster minimum Une grande consistance entre partition et connaissances du
domaine
Pourquoi clustering semi-supervisé ? Why not clustering?
Les classes obtenues peuvent ne pas être ceux demandés Parfois, il y a plusieurs choix de groupements
Why not classification? Parfois on n'a pas assez de données avec labels
Applications potentielles Bioinformatique (gene et protein clustering) Construction de hiérarchies de documents Categorisation de News/email categorisation d'Images
Clustering Semi-Supervisé Deux type de connaissances
Informations partielles sur les labels Appliquer certaines contraintes (must-links et cannot-links)
Approches Search-based Semi-Supervised Clustering
Alter the clustering algorithm using the constraints
Similarity-based Semi-Supervised Clustering Alter the similarity measure based on the constraints
Combination of both
Classification semi-supervisée c'est quoi ? Utilise un faible nombre de données avec labels pour labelliser un
grand nombre de données sans labels Labelliser est coûteux
Idée de base Données similaires doivent avoir le même label de classe
Exemples Classification pages Web Classification de documents Classification de protéines