1 analyse et indexation dimages de documents par le contenu mickaël coustaty l3i – université de...

18
1 Analyse et indexation d’images de documents par le contenu Mickaël COUSTATY L3i – Université de La Rochelle thèse encadrée par Jean-Marc OGIER et Karell BERTET

Upload: rousel-diot

Post on 04-Apr-2015

103 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: 1 Analyse et indexation dimages de documents par le contenu Mickaël COUSTATY L3i – Université de La Rochelle thèse encadrée par Jean-Marc OGIER et Karell

1

Analyse et indexation d’images de documents par le

contenu

Mickaël COUSTATYL3i – Université de La Rochelle

thèse encadrée par Jean-Marc OGIER et Karell BERTET

Page 2: 1 Analyse et indexation dimages de documents par le contenu Mickaël COUSTATY L3i – Université de La Rochelle thèse encadrée par Jean-Marc OGIER et Karell

2

PlanI. Contexte / objectifs

II. Introduction : extraction puis d’indexation

III. Extraction de caractéristiques

I. Différents types de signatures

II. A partir de points d’intérêts

III. Premières expérimentations

IV. Indexation

Page 3: 1 Analyse et indexation dimages de documents par le contenu Mickaël COUSTATY L3i – Université de La Rochelle thèse encadrée par Jean-Marc OGIER et Karell

3

Contexte : NaviDoMass

Université de La Rochelle - Laboratoire d'Informatique, Images et Interactions 3

Intérêt croissant pour la préservation et l’accès libre au patrimoine Nombreuses sources : bibliothèques, musées, archives, … Origines très variées, documents hétérogènes et non structurés Pas de connaissance a priori Grandes masses de documents

Mickaël Coustaty

Page 4: 1 Analyse et indexation dimages de documents par le contenu Mickaël COUSTATY L3i – Université de La Rochelle thèse encadrée par Jean-Marc OGIER et Karell

4

Objectif Permettre l’accès de tous, à toute l’information,

depuis n’importe où Toute information / Quel que soit le lieu / Quel que

soit le moment / Quelle que soit la personne / Rapidement et efficacement

4

Page 5: 1 Analyse et indexation dimages de documents par le contenu Mickaël COUSTATY L3i – Université de La Rochelle thèse encadrée par Jean-Marc OGIER et Karell

5

Un processus en 2 étapes Extraction de signatures

Indexation à partir de ces signatures

a1 a2 a3 …. an

a1 a2 a3 … an

Système d’indexation

Page 6: 1 Analyse et indexation dimages de documents par le contenu Mickaël COUSTATY L3i – Université de La Rochelle thèse encadrée par Jean-Marc OGIER et Karell

6

Calcul de signatures :état de l’art - indexation et recherche d’images

• Trois types d’approches développées en indexation 1. Approche globale :

Considère l’image dans son ensemble

Caractérise l’image en utilisant des statistiques calculées sur l’image entière.

Ces techniques décrivent l’image globalement.

Une description moins fine de l’image notamment de recherche des objets.

2. Approche locales et semi-locales:

Détection de points d’intérêt et calculs éventuels d’invariants autour de ces points d’intérêt

3. Approche spatiale:

Considère l’image comme composée d’un ensemble d’objets.

Description de l’image est portée par l’ensemble des descriptions des éléments la composant mais aussi par les relations existantes entre eux.

Page 7: 1 Analyse et indexation dimages de documents par le contenu Mickaël COUSTATY L3i – Université de La Rochelle thèse encadrée par Jean-Marc OGIER et Karell

7

Approche globalela démarche d’une recherche par l’exemple :

Calcul de signatures :état de l’art - indexation et recherche d’images

Page 8: 1 Analyse et indexation dimages de documents par le contenu Mickaël COUSTATY L3i – Université de La Rochelle thèse encadrée par Jean-Marc OGIER et Karell

8

Approche spatialela démarche d’une recherche par l’exemple :

Calcul de signatures :état de l’art - indexation et recherche d’images

Page 9: 1 Analyse et indexation dimages de documents par le contenu Mickaël COUSTATY L3i – Université de La Rochelle thèse encadrée par Jean-Marc OGIER et Karell

9Mickaël Coustaty

• Semi-locales• Autour de points d’intérêts• Plusieurs signatures de dimension réduite• Chaque signature = un élément (caractéristique)

de l’image• Signatures a fort pouvoir discriminant• Intégration du spatial

Calcul de signatures : Orientations

Page 10: 1 Analyse et indexation dimages de documents par le contenu Mickaël COUSTATY L3i – Université de La Rochelle thèse encadrée par Jean-Marc OGIER et Karell

10

Les signatures

10Mickaël Coustaty

•Recherche de points d’intérêts

•Utilisation de différentes couches d’informations [KAU99]

• Étude des relations « intra-couche »

• Étude des relations « inter-couches »

• Utilisation de multi échelle?

{ { { …..Attributs Formes Attributs Contours Attributs textures etc

Page 11: 1 Analyse et indexation dimages de documents par le contenu Mickaël COUSTATY L3i – Université de La Rochelle thèse encadrée par Jean-Marc OGIER et Karell

11

Premiers développements• Points d’intérêts (zones d’intérêts)

– SIFT [LOW04]– Harris [Harris]– FAST [ROS06]

• Texture :– Critère uniformité (texture [ROS99])– Auto corrélation (texture)

• Contours– Filtre canny derich [CAN86] (Détection de contours)

Page 12: 1 Analyse et indexation dimages de documents par le contenu Mickaël COUSTATY L3i – Université de La Rochelle thèse encadrée par Jean-Marc OGIER et Karell

13

Couche texture

Extraction de points d’intérêts

SIFT

FAST

5354 PI 13305 PI 886 PI

Page 13: 1 Analyse et indexation dimages de documents par le contenu Mickaël COUSTATY L3i – Université de La Rochelle thèse encadrée par Jean-Marc OGIER et Karell

15

Un processus en 2 étapes Extraction de signatures

Indexation à partir de ces signatures

a1 a2 a3 …. an

a1 a2 a3 … an

Système d’indexation

Page 14: 1 Analyse et indexation dimages de documents par le contenu Mickaël COUSTATY L3i – Université de La Rochelle thèse encadrée par Jean-Marc OGIER et Karell

16

Indexation et Classification Méthode numériques ou symboliques Plusieurs méthodes symboliques

Treillis [GUI07,ENG93]Arbres [Rakatomalala97]AssociationsGénérateurs minimaux [TEK04]?

Choix d’une méthode symboliqueGénérateurs minimaux associés :

• Au treillis• Aux associations

Page 15: 1 Analyse et indexation dimages de documents par le contenu Mickaël COUSTATY L3i – Université de La Rochelle thèse encadrée par Jean-Marc OGIER et Karell

17

Clef d’indexClé dans la table d’index = caractéristiques sélectionnées dans les signatures

• Sélection globale de caractéristiques :– Après discrétisation (seules les caractéristiques dominantes sont conservées)– Grâce aux concepts du treillis : possibilité de séparer chaque classe en paquets

• Sélection locale :– Les générateurs minimaux = ensemble min. de caractéristiques pour un paquet– Générateur minimal = nombre différent et min. de caractéristiques / classe– Générateurs minimaux = clés dans la table d’index Nécessité de séparation de classes Permet de choisir (intervention de l’utilisateur)

o Ce que l’on veut décrireo Ce dont on a besoino Ce que l’on a

Page 16: 1 Analyse et indexation dimages de documents par le contenu Mickaël COUSTATY L3i – Université de La Rochelle thèse encadrée par Jean-Marc OGIER et Karell

18

{ { {…..

Attributs Formes Attributs couleur Attributs textures etc

Toutes les signatures => discrimination par combinaison

Page 17: 1 Analyse et indexation dimages de documents par le contenu Mickaël COUSTATY L3i – Université de La Rochelle thèse encadrée par Jean-Marc OGIER et Karell

21

Perspective de développement pour l’indexation

• Calcul des générateurs minimaux

• Intégration de règle d’associations?

Page 18: 1 Analyse et indexation dimages de documents par le contenu Mickaël COUSTATY L3i – Université de La Rochelle thèse encadrée par Jean-Marc OGIER et Karell

22

Bibliographie

• [CAN86] Canny, J., A Computational Approach To Edge Detection, IEEE Trans. Pattern Analysis and Machine Intelligence, 8:679-714, 1986.

• [LOW04] Lowe, D., Distinctive Image Features from Scale-Invariant Keypoints, International Journal of Computer Vision, 2004.

• [ROS06] Rosten, E., High performance rigid body tracking, Phd Thesis, 2006.

• [ROS99] Rosenberger, C, Mise en Œuvre d’un Système Adaptatif pour la Ségmentation d’Images, PhD Thesis, 1999

• [KAU99] Kauniskangas, H., Document Image Retrievel With Improvements in Database Quality, PhD Thesis, 1999

• [ENG03] Engelbert, M. N., Une nouvelle approche basée sur le treillis de Galois pour l'apprentissage des concepts, n°124 msh, 1993

• [TEK04] Tekaya, S. Ben, Algorithme de construction d’un treillis des concepts formels et de détermination des générateurs minimaux, numéro spécial CARI 2004

• [GUI07] Guillas, S., Reconnaissance d'Objets Graphiques Déteriorés : Approche Fondée sur un Treillis de Galois, PhD Thesis, 2007