1 newphenix rencontre des professionnels de li.s.t. 2008, nancy, 17 juin 2008 copyright © newphenix...
TRANSCRIPT
1NEWNEWPHENIXPHENIX Rencontre des professionnels de l’I.S.T. 2008 , Nancy , 17 juin 2008 Copyright © NewPhenix 2008
NEWPHENIX
Techniques d’interprétation des images pour le classement
Christian [email protected]
2NEWNEWPHENIXPHENIX Rencontre des professionnels de l’I.S.T. 2008 , Nancy , 17 juin 2008 Copyright © NewPhenix 2008
Plan de l’exposé
Le langage pour décrire les images (par l’humain)- mots-clefs , légendes- description des photos par les photographes- problème de multilinguisme
Traitement des images- similarité visuelle- clustering
Des mots pixelliques
Production automatique de mots-clefs par traitement d’images
- reconnaissance de situation- localisation et reconnaissance de visages- constitution de ressources pour la reconnaissance
d’objets
3NEWNEWPHENIXPHENIX Rencontre des professionnels de l’I.S.T. 2008 , Nancy , 17 juin 2008 Copyright © NewPhenix 2008
Les professionnels de la documentation produisent des mots-clefs selon des règles bien établies (mots-clefs seulement groupes nominaux, utilisation d’un thésaurus)
En revanche, les photos qui sont commercialisées par les agences de photos sont indexées en général par les photographes :
utilisation de noms mais aussi verbes infinitifs, participes passés ou présents, même des formes conjuguées, adjectifs, adverbes,… mots composés souvent décomposés en plusieurs mots-clefs beaucoup de mots-clefs y compris sans rapport avec le contenu pour augmenter la chance d’être trouvé
Indexation manuelle
4NEWNEWPHENIXPHENIX Rencontre des professionnels de l’I.S.T. 2008 , Nancy , 17 juin 2008 Copyright © NewPhenix 2008
Le traitement linguistique
ARCHITECTURE AUTOMOBILE
BLACK BUILDING
CAR CARIBBEAN
CLOSED COLOR
COLOUR CONVEYANCE
CROPPED DAY
DAYLIGHT DICKEY
DISPLAYED DOOR
DWELLING HORIZONTAL
LAND VEHICLE MODE OF TRANSPORT
NAMED NOBODY
OLD SAN JUAN OUTDOORS
PARKED PLANT
PROFILE PUERTO RICO
RED REFLECTION
RESIDENTIAL SIDE VIEW
STILL TRANSPORT
TRANSPORTATION TRAVEL
TRUNK USA
VEHICLE
Couleur de quoi?
Mot ambiguConcepts absent
FalseFalseFalseFalseFalseFalseFalseFalseFalseFalseFalseFalseFalseFalseFalseFalseFalseFalseFalseFalseFalseFalseFalseFalseFalseFalseFalseFalseFalseFalseFalseFalseFalseFalseFalseFalseFalseFalseFalse
5NEWNEWPHENIXPHENIX Rencontre des professionnels de l’I.S.T. 2008 , Nancy , 17 juin 2008 Copyright © NewPhenix 2008
interrogation
Les utilisateurs ne veulent se plier à aucune discipline même pour trouver plus efficacement:
Mélange de questions sac de mots : voiture femme sacet de question en langage naturel : homme marchant dans la rue
Ce qui provoque inévitablement des ambiguïtés :
assiette orange (est-ce une assiette orange (LN) ou une assiette avec une orange ou une assiette dans une pièce orange , …(sac de mots)
6NEWNEWPHENIXPHENIX Rencontre des professionnels de l’I.S.T. 2008 , Nancy , 17 juin 2008 Copyright © NewPhenix 2008
Le traitement linguistique
Les mots-clefs et légendes sont dans différentes langues, les interrogations sont dans différentes langues, il faut trouver les photos dans tous les cas.
Cela demande de résoudre des ambiguïtés sémantiques dans la même langue en demandant par exemple le sens du mot avocat.
Dans le cas de traductions, on peut être amené à séparer des sens sans que la question soit très compréhensible pour l’utilisateur le problème se complique si on a plus de deux langues car l’intersection des sens peut amener à des sens très fin.
7NEWNEWPHENIXPHENIX Rencontre des professionnels de l’I.S.T. 2008 , Nancy , 17 juin 2008 Copyright © NewPhenix 2008
interrogation
En interrogation interlingue, l’alignement des sens en vocabulaire ouvert est quasi impossible surtout à expliquer à l’utilisateur.
Français anglais allemand
sheep Schaf
Mouton viande de mouton mutton Hammel mouton castré
8NEWNEWPHENIXPHENIX Rencontre des professionnels de l’I.S.T. 2008 , Nancy , 17 juin 2008 Copyright © NewPhenix 2008
Les ambiguïtés sémantiques sont résolues par des cooccurrences de concepts aussi bien dans les requêtes que les descriptions des photos.
Comme souvent aujourd’hui les requêtes sont sans contexte, on pose la question à l’utilisateur
Exemple: avocat : fruit ou juriste
Mais dans « une grue qui vole » on ne pose pas de question
interrogation
9NEWNEWPHENIXPHENIX Rencontre des professionnels de l’I.S.T. 2008 , Nancy , 17 juin 2008 Copyright © NewPhenix 2008
Le traitement linguistique
11NEWNEWPHENIXPHENIX Rencontre des professionnels de l’I.S.T. 2008 , Nancy , 17 juin 2008 Copyright © NewPhenix 2008
Traitement de l’image
Malgré tous les efforts de traitement de la langue, la mauvaise qualité de l’indexation, les questions mal posées et courtes ont tendance à donner beaucoup de réponses avec du bruit.
Une solution consiste à proposer à l’utilisateur de choisir l’image la plus proche de ce qu’il cherche. On lui propose alors des images similaires par un calcul de ressemblance en traitant les pixels de l’image
12NEWNEWPHENIXPHENIX Rencontre des professionnels de l’I.S.T. 2008 , Nancy , 17 juin 2008 Copyright © NewPhenix 2008
Information globale Informations locales
Ex: Histogramme
Principes
SIGNATURE
Texture, Couleurs et
Formes
Traitement de l’image
13NEWNEWPHENIXPHENIX Rencontre des professionnels de l’I.S.T. 2008 , Nancy , 17 juin 2008 Copyright © NewPhenix 2008
Exemples de texture
14NEWNEWPHENIXPHENIX Rencontre des professionnels de l’I.S.T. 2008 , Nancy , 17 juin 2008 Copyright © NewPhenix 2008
Utilisation de points d’intérêt pour la comparaison d’objets
15NEWNEWPHENIXPHENIX Rencontre des professionnels de l’I.S.T. 2008 , Nancy , 17 juin 2008 Copyright © NewPhenix 2008
Utilisation de points d’intérêt pour la comparaison d’objets
Reconnaissance d’objets à l’intérieur d’une imageReconnaissance d’objets partiellement occultés (jusqu’à 60%)
16NEWNEWPHENIXPHENIX Rencontre des professionnels de l’I.S.T. 2008 , Nancy , 17 juin 2008 Copyright © NewPhenix 2008
Traitement de l’image
Rechercheimagessimilaires(couleur,texture,un peu de forme)
17NEWNEWPHENIXPHENIX Rencontre des professionnels de l’I.S.T. 2008 , Nancy , 17 juin 2008 Copyright © NewPhenix 2008
Traitement de l’image (similarité visuelle)
18NEWNEWPHENIXPHENIX Rencontre des professionnels de l’I.S.T. 2008 , Nancy , 17 juin 2008 Copyright © NewPhenix 2008
clustering
Le clustering consiste à prendre une ensemble d’images (par exemple réponses à une requête) et à regrouper dans des classes les images les plus semblables.
On se base sur le calcul de proximité entre images pour établir une matrice de distance entres les images. On utilise ensuite un algorithme de clustering (dans le cas qui suit on a utilisé l’algorithme SNN Shared Nearest Neighbor )
19NEWNEWPHENIXPHENIX Rencontre des professionnels de l’I.S.T. 2008 , Nancy , 17 juin 2008 Copyright © NewPhenix 2008
Clustering
20NEWNEWPHENIXPHENIX Rencontre des professionnels de l’I.S.T. 2008 , Nancy , 17 juin 2008 Copyright © NewPhenix 2008
Des mots pixelliques
21NEWNEWPHENIXPHENIX Rencontre des professionnels de l’I.S.T. 2008 , Nancy , 17 juin 2008 Copyright © NewPhenix 2008
Des mots pixelliques
Le regroupement de contextes pixelliques locaux en un nombre limité de classes de contextes permet de traiter ces classes comment on le ferait avec des mots pour un texte.
Les classes ont une certaine fréquence dans chaque photo (TF)Les classes ont une certaine répartition dans la base (IDF)
On peut aussi faire des fichiers inversés qui permettent un accès à des centaines de millions d’images alors qu’une comparaison séquentielle sur un seul processeur ne peut guère dépasser quelques millions
22NEWNEWPHENIXPHENIX Rencontre des professionnels de l’I.S.T. 2008 , Nancy , 17 juin 2008 Copyright © NewPhenix 2008
Vers une sémantique commune textes - images
Les mots pixelliques résolvent des problèmes de performance sur très gros volume (similitude clustering, …) mais ils ne permettent pas de réduire le gap sémantique.
L’utilisateur précise son besoin en utilisant sa langue. Les mots pixelliques n’ont aucune signification. Le passage de l’un à l’autre n’est pas possible simplement.
La seule solution à ce problème est de décrire les images par des concepts exprimés par des mots.
23NEWNEWPHENIXPHENIX Rencontre des professionnels de l’I.S.T. 2008 , Nancy , 17 juin 2008 Copyright © NewPhenix 2008
Vers une sémantique commune textes - images
Les principales voies pour mettre des mots-clefs :
Reconnaissance de type, de situation générales
Localisation et reconnaissance de visage
Reconnaissance d’objets, d’animaux, …
24NEWNEWPHENIXPHENIX Rencontre des professionnels de l’I.S.T. 2008 , Nancy , 17 juin 2008 Copyright © NewPhenix 2008
Vers une sémantique commune textes - images
La reconnaissance de concepts se fait par apprentissage
Éventuellement
Détourage de L’objet
Calcul de Caractéristiquesde l’image
Images positives
Images négatives
CatégorisationCalcul d’une fonction de séparation entre positifs et négatifs
25NEWNEWPHENIXPHENIX Rencontre des professionnels de l’I.S.T. 2008 , Nancy , 17 juin 2008 Copyright © NewPhenix 2008
Exemple de classificateur SVMSupport Vector Machines
Il faut trouver la meilleure fonction qui sépare bien les deux sous ensembles mais qui permet une généralisation c’est-à-dire qui permettra de bien classer des images nouvelles.
26NEWNEWPHENIXPHENIX Rencontre des professionnels de l’I.S.T. 2008 , Nancy , 17 juin 2008 Copyright © NewPhenix 2008
Les types images
27NEWNEWPHENIXPHENIX Rencontre des professionnels de l’I.S.T. 2008 , Nancy , 17 juin 2008 Copyright © NewPhenix 2008
Reconnaissance de situations
Nécessite une excellente segmentation des images (segmentation morphologique hiérarchique)Constitution de bases dictionnaires, voire d’ontologies.
Zone 0 : ciel
Zone 6 : herbe
Zone 11 : eau
Zone 15 : herbe
28NEWNEWPHENIXPHENIX Rencontre des professionnels de l’I.S.T. 2008 , Nancy , 17 juin 2008 Copyright © NewPhenix 2008
Reconnaissance de situations
This image is a photo in color.The photo surely represents an exterior scene.One sees sky of color blue, along the upper width.One also sees grass of color yellow, along the lower width.
This image is a photo in color.The photo surely represents an exterior scene.
One sees sky of color blue, upper right.One also sees buildings of color brown, on the left.
29NEWNEWPHENIXPHENIX Rencontre des professionnels de l’I.S.T. 2008 , Nancy , 17 juin 2008 Copyright © NewPhenix 2008
Localisation et reconnaissance de visages
Classificateur utilisé ADABOOST
30NEWNEWPHENIXPHENIX Rencontre des professionnels de l’I.S.T. 2008 , Nancy , 17 juin 2008 Copyright © NewPhenix 2008
Reconnaissance de visages
Deux approches :
Méthode globale : on fait un apprentissage pixellique global par SVM par exemple
Méthode géométrique : on mesure des caractéristiques géométriques propres au visage, yeux, nez, bouche et les écarts
31NEWNEWPHENIXPHENIX Rencontre des professionnels de l’I.S.T. 2008 , Nancy , 17 juin 2008 Copyright © NewPhenix 2008
Reconnaissance d’objet ou d’animaux
Segmenter l’objet pour n’apprendre que ses caractéristiques propres peut présenter un intérêt
Plus il y a d’exemples diversifiés, meilleure est la reconnaissance
Les reconnaissances fausses servent d’exemples négatifs pour améliorer l’apprentissage
32NEWNEWPHENIXPHENIX Rencontre des professionnels de l’I.S.T. 2008 , Nancy , 17 juin 2008 Copyright © NewPhenix 2008
Les ressources pour la reconnaissance
On ne peut envisager de reconnaître un grand nombre de concepts sans disposer d’un nombre important d’exemples pour chacun d’eux.
La construction de ces ressources (l’équivalent des dictionnaires et grammaires pour le texte) ne peut s’envisager qu’avec une large part d’automatisation.
Le web est une source de connaissance qu’il faut structurer
Il n’est pas besoin de traiter tout mais de se contenter de ce qui est sûr.
33NEWNEWPHENIXPHENIX Rencontre des professionnels de l’I.S.T. 2008 , Nancy , 17 juin 2008 Copyright © NewPhenix 2008
Création d’une ontologie multmédia
List of concepts
Search enginecrawler Web
filtering
imagessounds
Filtered raw data
signatures
Ontologies likewordnet
Text samples
Extraction of relationsFusion of ontologies
Grounded Multimedia ontology
speech2text
Syntactic analysis
34NEWNEWPHENIXPHENIX Rencontre des professionnels de l’I.S.T. 2008 , Nancy , 17 juin 2008 Copyright © NewPhenix 2008
Interrogation interlingue
Ontologie d’objets crée à partir de WordNet
ENTITY
object
living thing
natural object
artifact
organism celestial body
rock
article commodity
consumer goods
Sous-ensemble de l’ontologie
Ontology produite: 24000 feuillesConversion en RDF/OWL
35NEWNEWPHENIXPHENIX Rencontre des professionnels de l’I.S.T. 2008 , Nancy , 17 juin 2008 Copyright © NewPhenix 2008
Problème des mots polysémiques
Google image : recherche avec le mot « avocat »
Google image : recherche avec le mot « avocado »
Le mot n’est plus ambigu mais les images présentent à la fois le fruit et l’arbre
36NEWNEWPHENIXPHENIX Rencontre des professionnels de l’I.S.T. 2008 , Nancy , 17 juin 2008 Copyright © NewPhenix 2008
Interrogation interlingue page informationnelle
Google image : recherche en anglais avec « avocado tree »
Google image : recherche en anglais avec « avocado fruit»
37NEWNEWPHENIXPHENIX Rencontre des professionnels de l’I.S.T. 2008 , Nancy , 17 juin 2008 Copyright © NewPhenix 2008
Désambiguisation grace à l’ontologie
hyperonyme si ambigu+ mot identifiant un
object
jaguar +car
+cat
38NEWNEWPHENIXPHENIX Rencontre des professionnels de l’I.S.T. 2008 , Nancy , 17 juin 2008 Copyright © NewPhenix 2008
Amélioration de la qualité des réponses dans google image si On utilise l’ontologie
Utilisation d’une ontologie
39NEWNEWPHENIXPHENIX Rencontre des professionnels de l’I.S.T. 2008 , Nancy , 17 juin 2008 Copyright © NewPhenix 2008
Interrogation par un concept général ou précis
•Recherche avec « dog » dans Picsearch
40NEWNEWPHENIXPHENIX Rencontre des professionnels de l’I.S.T. 2008 , Nancy , 17 juin 2008 Copyright © NewPhenix 2008
Interrogation par un concept général ou précis
•Recherche des espèces de chien– Golden retriever
– Staffordshire bullterrier
– Kuvasz
Le concept de chien est bien mieux représenté par la réunion de ces images que par l’interrogation par « chien »
41NEWNEWPHENIXPHENIX Rencontre des professionnels de l’I.S.T. 2008 , Nancy , 17 juin 2008 Copyright © NewPhenix 2008
Choix de bon représentant pour l’apprentissage
Elimination des images les moins representatives (ex : car)
Bon représentant:
Mauvais représentantsVoiture coupée par lesBords de l’image
Mauvais représentantObjet trop petit
Mauvais représentantPlusieurs objets dans la même image
42NEWNEWPHENIXPHENIX Rencontre des professionnels de l’I.S.T. 2008 , Nancy , 17 juin 2008 Copyright © NewPhenix 2008
Conclusion
La description du contenu d’une image par la langue à partir du seul traitement des pixels n’en est qu’à ses début.
De gros progrès ont déjà été faits mais un très gros travail de construction de ressources reste à faire en même temps que l’amélioration des technologies de discrimination des concepts à reconnaitre
Il est sur qu’avec l’augmentation du nombre de concepts que l’on essaie de reconnaitre, la difficulté va augmenter.
Il faut s’appuyer sur les métadonnées car elles vont permettre de limiter les hypothèses de concepts à reconnaître.