phd defense presentation - soutenance de thèse

52
I S I M R I M LIG CUI Un modèle de Recherche d’Information orienté précision fondé sur les dimensions de domaine Directeurs de thèse : Jean-Pierre CHEVALLET, UJF Yves CHIARAMELLA, UJF Gilles FALQUET, UniGe Saïd Radhouani 18 juillet 2008

Upload: said-radhouani-phd

Post on 18-Nov-2014

4.359 views

Category:

Documents


1 download

DESCRIPTION

Information retrieval, search, vertical search, domain-specific search, faceted search, ontology, Description Logics, Medical Search, CLEF, precision-oriented search

TRANSCRIPT

Page 1: PhD Defense Presentation - Soutenance de thèse

ISI

MRIMLIGCUI

Un modèle de Recherche d’Information orienté précision fondé sur les dimensions de domaine

Directeurs de thèse :

Jean-Pierre CHEVALLET, UJF

Yves CHIARAMELLA, UJF

Gilles FALQUET, UniGe

Saïd Radhouani

18 juillet 2008

Page 2: PhD Defense Presentation - Soutenance de thèse

ISI

MRIM18 juillet 2008 © S. Radhouani 2

Langage d’interrogation---- --- ---------------------

---- --- ---------------------

---- --- ---------------------

---- --- ---------------------

---- --- ---------------------

---- --- ---------------------

Langage d’indexation

Documents ordonnés

Contexte

Correspondance

Objectif : Sélectionner les documents pertinents

qui traitent du thème de la requête.

Indexation Interrogation

Requête

Page 3: PhD Defense Presentation - Soutenance de thèse

ISI

MRIM18 juillet 2008 © S. Radhouani 3

Contexte

Contexte de recherche : utilisateur décrit un besoin précis• Milieux professionnels (médecine, physique, etc.)

Requête précise1. Terminologie spécifique

ex. "Un compte-rendu sur le type de traitements à effectuer en cas d’un cancer du sein de stade M0"

v Structure sémantique complexe• Relations sémantiques

ex. "Les documents qui parlent du général français responsable de la création de la zone de sécurité pendant le conflit des Balkans"

• Opérateurs

ex. "Des images de la peau de la main sans aucune pathologie"

• Quantificateurs

ex. "Une image qui contient Zinedine Zidane tout seul"

Page 4: PhD Defense Presentation - Soutenance de thèse

ISI

MRIM18 juillet 2008 © S. Radhouani 4

… pendant la guerre civile qui a eu lieu en ex-Yougoslavie, les Nations Unies ont chargé Philippe Morillon de créer une zone de sécurité. Celle-ci couvre la Serbie, la Slovénie …

Document Requête [CLEF05]

Problématique Donne-moi les documents qui parlent du général français responsable de la création de la zone de sécurité pendant le conflit des Balkans.

Page 5: PhD Defense Presentation - Soutenance de thèse

ISI

MRIM18 juillet 2008 © S. Radhouani 5

… pendant la guerre civile qui a eu lieu en ex-Yougoslavie, les Nations Unies ont chargé Philippe Morillon de créer une zone de sécurité. Celle-ci couvre la Serbie, la Slovénie …

Document Requête [CLEF05]

Problématique Donne-moi les documents qui parlent du général français responsable de la création de la zone de sécurité pendant le conflit des Balkans.

Philippe Morillon

Ex-Yougoslavie

Zone de sécurité

Serbie

Slovénie

Guerre civile d’Ex-Yougoslavie

Général

Français

Zone de sécurité

Balkans

Conflit des Balkans

Page 6: PhD Defense Presentation - Soutenance de thèse

ISI

MRIM18 juillet 2008 © S. Radhouani 6

… pendant la guerre civile qui a eu lieu en ex-Yougoslavie, les Nations Unies ont chargé Philippe Morillon de créer une zone de sécurité. Celle-ci couvre la Serbie, la Slovénie …

Document Requête [CLEF05]

Problématique Donne-moi les documents qui parlent du général français responsable de la création de la zone de sécurité pendant le conflit des Balkans.

Le SRI a besoin de connaissances, autres que celles présentes dans le texte.

Y a-t-il des éléments, autres que les descripteurs, qu’un document doit partager avec la requête pour qu’il soit considéré pertinent ?

Philippe Morillon

Ex-Yougoslavie

Zone de sécurité

Serbie

Slovénie

Guerre civile d’Ex-Yougoslavie

Général

Français

Zone de sécurité

Balkans

Conflit des Balkans

Page 7: PhD Defense Presentation - Soutenance de thèse

ISI

MRIM18 juillet 2008 © S. Radhouani 7

… pendant la guerre civile qui a eu lieu en ex-Yougoslavie, les Nations Unies ont chargé Philippe Morillon de créer une zone de sécurité. Celle-ci couvre la Serbie, la Slovénie …

Document Requête [CLEF05]

Conflit des Balkans

est_un

créé_pendant

Balkans

partie_de

Zone de sécurité

Ex-Yougoslavie

Général

est_unoriginaire_de

Philippe Morillon France

a_lie

u_à

Guerre civile d’Ex-Yougoslavie

Problématique Donne-moi les documents qui parlent du général français responsable de la création de la zone de sécurité pendant le conflit des Balkans.

Philippe Morillon

Ex-Yougoslavie

Zone de sécurité

Serbie

Slovénie

Guerre civile d’Ex-Yougoslavie

Général

Français

Zone de sécurité

Balkans

Conflit des Balkans

Page 8: PhD Defense Presentation - Soutenance de thèse

ISI

MRIM18 juillet 2008 © S. Radhouani 8

… pendant la guerre civile qui a eu lieu en ex-Yougoslavie, les Nations Unies ont chargé Philippe Morillon de créer une zone de sécurité. Celle-ci couvre la Serbie, la Slovénie …

Document Requête [CLEF05]

Personne

Lieu Géographique

Evénement Conflit des Balkans

est_un

créé_pendant

Balkans

partie_de

Zone de sécurité

Ex-Yougoslavie

Général

est_unoriginaire_de

Philippe Morillon France

a_lie

u_à

Guerre civile d’Ex-Yougoslavie

Problématique Donne-moi les documents qui parlent du général français responsable de la création de la zone de sécurité pendant le conflit des Balkans.

Guerre civile d’Ex-Yougoslavie

Conflit des Balkans

Philippe Morillon

Ex-Yougoslavie

Zone de sécurité

Serbie

Slovénie

Général

Français

Zone de sécurité

Balkans

Page 9: PhD Defense Presentation - Soutenance de thèse

ISI

MRIM18 juillet 2008 © S. Radhouani 9

Vers une RI basée sur les dimensions

ex.• Politique : personne, lieu géographique, époque, événement, etc.• Médecine : anatomie, pathologie, stade de la maladie, etc.

Idée de notre approche• Domaine : un thème peut être développé en faisant référence à un ensemble de

dimensions de ce domaine

• Auteur domaine thème dimensions termes document

• Médecin médecine image médicale anatomie fémur compte rendu

Une dimension d’un domaine est un concept utilisé pour exprimer des thèmes dans ce domaine

Page 10: PhD Defense Presentation - Soutenance de thèse

ISI

MRIM18 juillet 2008 © S. Radhouani 10

Objectifs et besoins

Résoudre des requêtes précises• Interpréter le contenu sémantique véhiculé par la structure extraite des

documents et des requêtes• Tenir compte de la complexité de la structure sémantique des requêtes

• Tenir compte des dimensions de domaine

1. Ressources externes (ontologie, thésaurus, taxonomie, etc.)• Définition des dimensions• Terminologie spécifique• Relations sémantiques

2. Langage de document expressif

• Indexation précise du contenu sémantique (dimensions, relations)

3. Langage de requête expressif

• Expression de besoin précis (opérateurs, relations, etc.)

Page 11: PhD Defense Presentation - Soutenance de thèse

ISI

MRIM18 juillet 2008 © S. Radhouani 11

Plan

I. Introduction

II. État de l’art : ressources externes & dimensions• Indexation• Interrogation• Dimensions• Synthèse

III. Modèle de RI fondé sur les dimensions de domaine• Formalisme de représentation de connaissances • Modèle de connaissances• Unité d’indexation• Modèle de document• Modèle de requête

IV. Expérimentations

V. Conclusion

Page 12: PhD Defense Presentation - Soutenance de thèse

ISI

MRIM18 juillet 2008 © S. Radhouani 12

Langage d’interrogation---- --- ---------------------

---- --- ---------------------

---- --- ---------------------

---- --- ---------------------

---- --- ---------------------

---- --- ---------------------

Langage d’indexation

Documents ordonnés

Ressources externes & dimensions

Correspondance

Indexation Interrogation

Requête

IntroductionEtat de l’art ModèleExpérimentationsConclusions

IndexationInterrogationDimensionsSynthèse

Ressources externes

Page 13: PhD Defense Presentation - Soutenance de thèse

ISI

MRIM18 juillet 2008 © S. Radhouani 13

Indexation conceptuelle

Représentation par des concepts au lieu de mots ambigus [Baziz05, Biemann05, Vallet05, Maisonnasse08]

• Représentation : sac de concepts

• Correspondance : partage de concepts entre document et requête

• Relations sémantiques non exploitées

• Utilisation des relations seulement pour la désambiguïsation [Baziz05]

IntroductionEtat de l’art ModèleExpérimentationsConclusions

IndexationInterrogationDimensionsSynthèse

Un concept est un objet mental défini comme une abstraction généralisée à partir de propriétés communes à des objets concrets.

Général

C01 Officier de l’armée

C02 Chef d’un ordre religieux

C03 Ce qui concerne le tout

Page 14: PhD Defense Presentation - Soutenance de thèse

ISI

MRIM18 juillet 2008 © S. Radhouani 14

Langage d’interrogation---- --- ---------------------

---- --- ---------------------

---- --- ---------------------

---- --- ---------------------

---- --- ---------------------

---- --- ---------------------

Langage d’indexation

Documents ordonnés

Ressources externes & dimensions

Correspondance

Indexation Interrogation

Requête

IntroductionEtat de l’art ModèleExpérimentationsConclusions

IndexationInterrogationDimensionsSynthèse

Ressources externes

Page 15: PhD Defense Presentation - Soutenance de thèse

ISI

MRIM18 juillet 2008 © S. Radhouani 15

Expansion de requêtes

Utiliser les relations enrichir le contenu de la requête [Voorhees94, Mihalcea00, Baziz et al.03]

• Représentation de la requête étendue : sac de concepts

• Correspondance : partage de concepts entre document et requête étendue

• Utilisation des relations seulement pour l’expansion

Relations Exemples

Généralisation/spécialisation {voiture} est_un {véhicule à moteur}

Composition {voiture} est_composé_de {{porte}, {moteur}}

IntroductionEtat de l’art ModèleExpérimentationsConclusions

IndexationInterrogationDimensionsSynthèse

Page 16: PhD Defense Presentation - Soutenance de thèse

ISI

MRIM18 juillet 2008 © S. Radhouani 16

Langage d’interrogation---- --- ---------------------

---- --- ---------------------

---- --- ---------------------

---- --- ---------------------

---- --- ---------------------

---- --- ---------------------

Langage d’indexation

Documents ordonnés

Ressources externes & dimensions

Correspondance

Indexation Interrogation

Requête

IntroductionEtat de l’art ModèleExpérimentationsConclusions

IndexationInterrogationDimensionsSynthèse

Ressources externes

Page 17: PhD Defense Presentation - Soutenance de thèse

ISI

MRIM18 juillet 2008 © S. Radhouani 17

RI & dimensions de domaine

Paradigme de recherche multi-facette [S. R. Ranganathan 1931]

Interface pour la navigation dans une collection [Yee 03, Hearst 06, Mäkelä 06]

Construction manuelle des facettes/dimensions : hiérarchies de concepts

Pas d’évaluation en termes de performance de recherche

Tests d’utilisabilité : approches prometteuses mais limitées à petite échelle [Yee 03, Diederich 06]• Annotée manuellement• Statique, de petite taille

Difficulté à résoudre des requêtes précises• Structure sémantique complexe (opérateurs)• Terminologie spécialisée : navigation profonde dans les hiérarchies de concepts

lourde surcharge cognitive

IntroductionEtat de l’art ModèleExpérimentationsConclusions

IndexationInterrogationDimensionsSynthèse

Page 18: PhD Defense Presentation - Soutenance de thèse

ISI

MRIM18 juillet 2008 © S. Radhouani 18

Synthèse

Approches existantes : insuffisantes devant les exigences présentées

Résoudre des requêtes précises• Interpréter la sémantique véhiculée par la structure extraite des documents et

des requêtes Tenir compte des dimensions Utiliser les relations sémantiques

Besoin de ressources externes• Représentation uniforme des documents, requêtes, et ressources externes

=> Formalisme de représentation de connaissances commun à ces trois éléments• Opération de comparaison fonction de correspondance • Prendre en compte les exigences des utilisateurs en termes d’opérateurs

(booléens, quantificateurs, etc.)

IntroductionEtat de l’art ModèleExpérimentationsConclusions

IndexationInterrogationDimensionsSynthèse

Page 19: PhD Defense Presentation - Soutenance de thèse

ISI

MRIM18 juillet 2008 © S. Radhouani 19

Plan

I. Introduction

II. État de l’art : ressources externes & dimensions• Indexation• Interrogation• Dimensions

• Synthèse

III. Modèle de RI fondé sur les dimensions de domaine• Formalisme de représentation de connaissances • Modèle de connaissances• Unité d’indexation• Modèle de document• Modèle de requête

IV. Expérimentations

V. Conclusion

Page 20: PhD Defense Presentation - Soutenance de thèse

ISI

MRIM18 juillet 2008 © S. Radhouani 20

La logique descriptive

Logique Descriptive (DL) = Logique Terminologique

ALCQ : Attribute Language with Complements and Qualified number restriction

• Modéliser les connaissances d’un domaine (concepts et relations)

• Satisfait les exigences de notre modèle (opérateurs : ,⊓ ⊔ ; quantificateurs : ,∃ ≥)

T(erminological)-Box : ensemble d’axiomes terminologiques de la forme

• C ≡ D ou

• C ⊑ D

Algorithme de calcul de subsomption : déduire des connaissances implicites

• Général ⊑ Personne

• Philippe Morillon ⊑ Général

IntroductionEtat de l’art ModèleExpérimentationsConclusions

FormalismeConnaissancesUnité d’indexationDocumentRequête

=> Philippe Morillon ⊑ Personne

Page 21: PhD Defense Presentation - Soutenance de thèse

ISI

MRIM18 juillet 2008 © S. Radhouani 21

Logique descriptive & RI

correspondance

⊑T

q : une requête

Physical query Physical query Physical query Physical query Physical query Physical query Physical query

doc : un document

DL

RI

RdocRq

IntroductionEtat de l’art ModèleExpérimentationsConclusions

FormalismeConnaissancesUnité d’indexationDocumentRequête

Physical document Physical document Physical document Physical document Physical document Physical document Physical document

Page 22: PhD Defense Presentation - Soutenance de thèse

ISI

MRIM18 juillet 2008 © S. Radhouani 22

Langage d’interrogation---- --- ---------------------

---- --- ---------------------

---- --- ---------------------

---- --- ---------------------

---- --- ---------------------

---- --- ---------------------

Langage d’indexation

Documents ordonnés

Modèle de connaissances

Correspondance

Indexation Interrogation

Requête

IntroductionEtat de l’art ModèleExpérimentationsConclusions

Ressources externes

FormalismeConnaissancesUnité d’indexationDocumentRequête

Page 23: PhD Defense Presentation - Soutenance de thèse

ISI

MRIM18 juillet 2008 © S. Radhouani 23

Modèle de connaissances

Ressource externe : K = (C, R, Dim, T)

• Concepts : C ={c1, …, cnc}

• Rôles : R = {R1, …, Rnr}

• Dimensions : Dim = {dim1, …, dimnd}

• dimi = (rac_dimi, Ci )

• rac_dimi C : racine de la hiérarchie définissant dimi

• Ci = {c C | c ⊑ rac_dimi}

• T-Box : T (connaissances du domaine)

IntroductionEtat de l’art ModèleExpérimentationsConclusions

FormalismeConnaissancesUnité d’indexationDocumentRequête

Page 24: PhD Defense Presentation - Soutenance de thèse

ISI

MRIM18 juillet 2008 © S. Radhouani 24

Modèle de connaissances : exempleIntroductionEtat de l’art ModèleExpérimentationsConclusions

C = {Evénement, Personne, etc.}

R = {originaire_de, partie_de, etc.}

Dim = {Événement, Lieu géographique, Personne}

dimPersonne = (Personne, {Général,

Philippe Morillon, …})

T-Box

FormalismeConnaissancesUnité d’indexationDocumentRequête

Événement ⊑ TConflit des Balkans ⊑ EvénementGuerre civile d’Ex-Yougoslavie ⊑ Conflit des Balkans Conflit des Balkans ≡ ∃a_lieu_à.Balkans

Lieu géographique ⊑ TFrance ⊑ Lieu géographiqueBalkans ⊑ Lieu géographiqueEx-Yougoslavie ⊑ Lieu géographiqueEx-Yougoslavie ≡ ∃partie_de.BalkansZone de sécurité ⊑ Lieu géographiqueSerbie ⊑ Ex-YougoslavieSlovénie ⊑ Ex-YougoslavieZone de sécurité ≡ ∃créé_pendant.Conflit des Balkans

Personne ⊑ TGénéral ⊑ PersonnePhilippe Morillon ⊑ GénéralPhilippe Morillon ≡ ∃originaire_de.France

Page 25: PhD Defense Presentation - Soutenance de thèse

ISI

MRIM18 juillet 2008 © S. Radhouani 25

Unité d’indexation

Produire une représentation précise du contenu sémantique des documents (requêtes)

Interpréter la sémantique véhiculée par la structure extraite des documents (requêtes)• Se détacher de l’aspect sac de concepts• Utiliser les dimensions, concepts, et relations

ex. Interprétation de "Général français"

• élément de la dimension "Personne"• est "Général"• originaire de "France"

IntroductionEtat de l’art ModèleExpérimentationsConclusions

FormalismeConnaissancesUnité d’indexationDocumentRequête

Page 26: PhD Defense Presentation - Soutenance de thèse

ISI

MRIM18 juillet 2008 © S. Radhouani 26

Unité d’indexation : élément de dimension

Tout concept d’une dimension est susceptible de constituer un élément de cette dimension lorsqu’il est utilisé dans un document ou une requête

• cidf dim : identifier edim• cdes dim : décrire edim• décrit_par : relation générique pour la modélisation

ex. edim ≡ Général ⊓ ∃originaire_de.France

Un élément d’une dimension dim est une expression ALCQ qui cherche à correspondre le plus précisément possible au concept de dim auquel il

est fait référence dans un document ou une requête.

IntroductionEtat de l’art ModèleExpérimentationsConclusions

edim ≡ cidf_1 … ⊓ ⊓ cidf_n ⊓ ∃décrit_par.cdes_1 … ⊓ ⊓ ∃décrit_par.cdes_m

FormalismeConnaissancesUnité d’indexationDocumentRequête

Page 27: PhD Defense Presentation - Soutenance de thèse

ISI

MRIM18 juillet 2008 © S. Radhouani 27

Langage d’interrogation---- --- ---------------------

---- --- ---------------------

---- --- ---------------------

---- --- ---------------------

---- --- ---------------------

---- --- ---------------------

Langage d’indexation

Documents ordonnés

Représentation des documents

Correspondance

Indexation Interrogation

Requête

IntroductionEtat de l’art ModèleExpérimentationsConclusions

Ressources externes

FormalismeConnaissancesUnité d’indexationDocumentRequête

Page 28: PhD Defense Presentation - Soutenance de thèse

ISI

MRIM18 juillet 2008 © S. Radhouani 28

Représentation des documents

document : doc représenté par des éléments de dimension

• Rdoc : expression ALCQ = conjonction d’éléments de dimension

• indexé_par : rôle pour associer un élément de dimension à un document

IntroductionEtat de l’art ModèleExpérimentationsConclusions

Un élément de dimension peut être pondéré (ne fait pas partie de la DL)

Rdoc est ajouté à la T-Box

Rdoc ≡ ∃indexé_par.edim1 ⊓ … ⊓ ∃indexé_par.edimn

FormalismeConnaissancesUnité d’indexationDocumentRequête

Page 29: PhD Defense Presentation - Soutenance de thèse

ISI

MRIM18 juillet 2008 © S. Radhouani 29

Exemple

edim1 ≡ Philippe Morillon

edim2 ≡ Zone_de_Sécurité ⊓ ∃créé_pendant.Guerre civile d’Ex-Yougoslavie

edim3 ≡ Ex-Yougoslavie

edim4 ≡ Serbie

edim5 ≡ Slovénie

edim6 ≡ Guerre civile d’Ex-Yougoslavie

Rdoc ≡ ∃indexé_par.edim1 ⊓ ∃indexé_par.edim2 ⊓ ∃indexé_par.edim3 ⊓

∃indexé_par.edim4 ⊓ ∃indexé_par.edim5 ⊓ ∃indexé_par.edim6

IntroductionEtat de l’art ModèleExpérimentationsConclusions

FormalismeConnaissancesUnité d’indexationDocumentRequête

Page 30: PhD Defense Presentation - Soutenance de thèse

ISI

MRIM18 juillet 2008 © S. Radhouani 30

ExempleIntroductionEtat de l’art ModèleExpérimentationsConclusions

FormalismeConnaissancesUnité d’indexationDocumentRequête

T-Box

Rdoc

Événement ⊑ TConflit des Balkans ⊑ EvénementGuerre civile d’Ex-Yougoslavie ⊑ Conflit des BalkansConflit des Balkans ≡ ∃a_lieu_à.Balkans

Lieu géographique ⊑ TFrance ⊑ Lieu géographiqueBalkans ⊑ Lieu géographiqueEx-Yougoslavie ⊑ Lieu géographiqueEx-Yougoslavie ≡ ∃partie_de.BalkansZone de sécurité ⊑ Lieu géographiqueSerbie ⊑ Ex-YougoslavieSlovénie ⊑ Ex-YougoslavieZone de sécurité ≡ ∃créé_pendant.Conflit des Balkans

Personne ⊑ TGénéral ⊑ PersonnePhilippe Morillon ⊑ GénéralPhilippe Morillon ≡ ∃originaire_de.France

Page 31: PhD Defense Presentation - Soutenance de thèse

ISI

MRIM18 juillet 2008 © S. Radhouani 31

Langage d’interrogation---- --- ---------------------

---- --- ---------------------

---- --- ---------------------

---- --- ---------------------

---- --- ---------------------

---- --- ---------------------

Langage d’indexation

Documents ordonnés

Représentation des requêtes

Correspondance

Indexation Interrogation

Requête

IntroductionEtat de l’art ModèleExpérimentationsConclusions

Ressources externes

FormalismeConnaissancesUnité d’indexationDocumentRequête

Page 32: PhD Defense Presentation - Soutenance de thèse

ISI

MRIM18 juillet 2008 © S. Radhouani 32

Représentation des requêtes

requête : q représentée par des éléments de dimension

• Rq : expression ALCQ = combinaison d’éléments de dimensions et d’opérateurs

• indexé_par : rôle pour associer un élément de dimension à une requête

IntroductionEtat de l’art ModèleExpérimentationsConclusions

Un élément de dimension peut être pondéré (ne fait pas partie de la DL)

Rq est ajouté à la T-Box

Rq ≡ ∃indexé_par.edim1 ⊓ … ⊓ ∃indexé_par.edimn

FormalismeConnaissancesUnité d’indexationDocumentRequête

Page 33: PhD Defense Presentation - Soutenance de thèse

ISI

MRIM18 juillet 2008 © S. Radhouani 33

Exemple

edim7 ≡ Général ⊓ ∃orginaire_de.France

edim8 ≡ Zone de Sécurité ⊓ ∃créé_pendant.Conflit des Balkans

edim9 ≡ Conflit des Balkans

Rq ≡ ∃indexé_par.edim7 ⊓ ∃indexé_par.edim8 ⊓ ∃indexé_par.edim9

IntroductionEtat de l’art ModèleExpérimentationsConclusions

FormalismeConnaissancesUnité d’indexationDocumentRequête

Page 34: PhD Defense Presentation - Soutenance de thèse

ISI

MRIM18 juillet 2008 © S. Radhouani 34

ExempleIntroductionEtat de l’art ModèleExpérimentationsConclusions

FormalismeConnaissancesUnité d’indexationDocumentRequête

T-Box

Rdoc

Événement ⊑ TConflit des Balkans ⊑ EvénementGuerre civile d’Ex-Yougoslavie ⊑ Conflit des BalkansConflit des Balkans ≡ ∃a_lieu_à.Balkans

Lieu géographique ⊑ TFrance ⊑ Lieu géographiqueBalkans ⊑ Lieu géographiqueEx-Yougoslavie ⊑ Lieu géographiqueEx-Yougoslavie ≡ ∃partie_de.BalkansZone de sécurité ⊑ Lieu géographiqueSerbie ⊑ Ex-YougoslavieSlovénie ⊑ Ex-YougoslavieZone de sécurité ≡ ∃créé_pendant.Conflit des Balkans

Personne ⊑ TGénéral ⊑ PersonnePhilippe Morillon ⊑ GénéralPhilippe Morillon ≡ ∃originaire_de.France

Rq

Page 35: PhD Defense Presentation - Soutenance de thèse

ISI

MRIM18 juillet 2008 © S. Radhouani 35

Langage d’interrogation---- --- ---------------------

---- --- ---------------------

---- --- ---------------------

---- --- ---------------------

---- --- ---------------------

---- --- ---------------------

Langage d’indexation

Documents ordonnés

Correspondance

Correspondance

Indexation Interrogation

Requête

IntroductionEtat de l’art ModèleExpérimentationsConclusions

Ressources externes

FormalismeConnaissancesUnité d’indexationDocumentRequête

Page 36: PhD Defense Presentation - Soutenance de thèse

ISI

MRIM18 juillet 2008 © S. Radhouani 36

La fonction de correspondance fSel

fSel(doc, q) : respecter les contraintes imposées par l’utilisateur

• Calcul de la subsomption dans la T-Box

• Dpert = {doc | Rdoc ⊑T Rq}

correspondance

⊑T

q : une requête

Physical query Physical query Physical query Physical query Physical query Physical query Physical query

Rdoc

doc : un document

Physical document Physical document Physical document Physical document Physical document Physical document Physical document Physical document

Rq

IntroductionEtat de l’art ModèleExpérimentationsConclusions

FormalismeConnaissancesUnité d’indexationDocumentRequête

T-Box

Page 37: PhD Defense Presentation - Soutenance de thèse

ISI

MRIM18 juillet 2008 © S. Radhouani 37

La fonction de correspondance fSel

IntroductionEtat de l’art ModèleExpérimentationsConclusions

FormalismeConnaissancesUnité d’indexationDocumentRequête

T-Box

Événement ⊑ TConflit des Balkans ⊑ EvénementGuerre civile d’Ex-Yougoslavie ⊑ Conflit des Balkans Conflit des Balkans ≡ ∃a_lieu_à.Balkans

Lieu géographique ⊑ TFrance ⊑ Lieu géographiqueBalkans ⊑ Lieu géographiqueEx-Yougoslavie ⊑ Lieu géographiqueEx-Yougoslavie ≡ ∃partie_de.BalkansZone de sécurité ⊑ Lieu géographiqueSerbie ⊑ Ex-YougoslavieSlovénie ⊑ Ex-YougoslavieZone de sécurité ≡ ∃créé_pendant.Conflit des Balkans

Personne ⊑ TGénéral ⊑ PersonnePhilippe Morillon ⊑ GénéralPhilippe Morillon ≡ ∃originaire_de.France

Rdoc Rq

Page 38: PhD Defense Presentation - Soutenance de thèse

ISI

MRIM18 juillet 2008 © S. Radhouani 38

La fonction de correspondance fSel

IntroductionEtat de l’art ModèleExpérimentationsConclusions

FormalismeConnaissancesUnité d’indexationDocumentRequête

T-Box

Rdoc Rq

Philippe Morillon ⊑ Général

Zone de sécurité ≡ ∃créé_pendant.Conflit des Balkans

Philippe Morillon ≡ ∃originaire_de.France

Guerre civile d’Ex-Yougoslavie ⊑ Conflit des Balkans

Philippe Morillon

Zone de sécurité ⊓∃créé_pendant.Guerre civile

d’Ex-Yougoslavie

Général ⊓ ∃originaire_de.France

Conflit des BalkansGuerre civile d’Ex-Yougoslavie Zone de sécurité ⊓

∃créé_pendant.Conflit des Balkans

Page 39: PhD Defense Presentation - Soutenance de thèse

ISI

MRIM18 juillet 2008 © S. Radhouani 39

La fonction de correspondance fSel

IntroductionEtat de l’art ModèleExpérimentationsConclusions

FormalismeConnaissancesUnité d’indexationDocumentRequête

T-Box

Rdoc Rq

Philippe Morillon ⊑ Général

Zone de sécurité ≡ ∃créé_pendant.Conflit des Balkans

Philippe Morillon ≡ ∃originaire_de.France

Guerre civile d’Ex-Yougoslavie ⊑ Conflit des Balkans

Philippe Morillon

Zone de sécurité ⊓∃créé_pendant.Guerre civile

d’Ex-Yougoslavie

Général ⊓ ∃originaire_de.France

Conflit des BalkansGuerre civile d’Ex-Yougoslavie Zone de sécurité ⊓

∃créé_pendant.Conflit des Balkans

Rdoc ⊑T Rq

Page 40: PhD Defense Presentation - Soutenance de thèse

ISI

MRIM18 juillet 2008 © S. Radhouani 40

La fonction d’ordonnancement fOrd

fOrd(doc, q) : classer les documents dans leur ordre de pertinence par rapport à q

• Les poids des éléments de dimension dans doc

• Les poids des éléments de dimension dans q

• Les valeurs de priorité des éléments de dimension dans q

N’est pas modélisée en DL

Utiliser une métrique existante

• Notre expérience : modèle vectoriel

IntroductionEtat de l’art ModèleExpérimentationsConclusions

FormalismeConnaissancesUnité d’indexationDocumentRequête

Page 41: PhD Defense Presentation - Soutenance de thèse

ISI

MRIM18 juillet 2008 © S. Radhouani 41

Plan

I. Introduction

II. État de l’art : ressources externes & dimensions• Indexation• Interrogation• Dimensions

• Synthèse

III. Modèle de RI fondé sur les dimensions de domaine• Formalisme de représentation de connaissances • Modèle de connaissances• Unité d’indexation• Modèle de document• Modèle de requête

IV. Expérimentations

V. Conclusion

Page 42: PhD Defense Presentation - Soutenance de thèse

ISI

MRIM18 juillet 2008 © S. Radhouani 42

Expériences

1. Résoudre des requêtes précises évaluer l’apport de l’usage des dimensions• Performances de recherche• Résultat de référence : modèle vectoriel sans dimensions

2. Mise en œuvre du modèle basé sur la DL• Tester la faisabilité de notre approche• Évaluer les limites du modèle

IntroductionEtat de l’art ModèleExpérimentationsConclusions

ObjectifsDonnéesRéalisationsRésultats

Page 43: PhD Defense Presentation - Soutenance de thèse

ISI

MRIM18 juillet 2008 © S. Radhouani 43

Données et ressources

Collection ImageCLEFmed-2005

• 50,026 documents (Anglais, Français, Allemand)

• 25 requêtes

ex. "show me x-ray images with fracture of the femur"

Dimensions : Modalité, Pathologie, Anatomie

Ressource externe : UMLS• Meta thésaurus (≥ 1 million d’entrées)

• Réseau sémantique (135 Types sémantiques)

IntroductionEtat de l’art ModèleExpérimentationsConclusions

ObjectifsDonnéesRéalisationsRésultats

Page 44: PhD Defense Presentation - Soutenance de thèse

ISI

MRIM18 juillet 2008 © S. Radhouani 44

Indexation

Construction manuelle des dimensions• Anatomie : "Anatomical Structure" + "Body System" + "Body Space or Junction" +

"Body Location or Region" ;

• Pathologie : "Pathologic Function" + "Finding" + "Injury or Poisoning" ;

• Modalité : "Diagnostic Procedure" + "Manufactured Object".

Indexation conceptuelle• Outil adapté aux documents en anglais

Identification des éléments de dimension• Défini par un concept

• Si c dim, alors c est un élément de la dimension dim

Pondération des éléments de dimension• Modèle vectoriel : variante du tf*idf (LTC)

IntroductionEtat de l’art ModèleExpérimentationsConclusions

ObjectifsDonnéesRéalisationsRésultats

Page 45: PhD Defense Presentation - Soutenance de thèse

ISI

MRIM18 juillet 2008 © S. Radhouani 45

Interrogation

T1: Un document est considéré pertinent s'il contient les trois dimensions présentes dans la requête

Anatomie ⊓ Pathologie ⊓ Modalité

T2 : Un document est considéré pertinent s'il contient au moins une des dimensions de la requête

Anatomie ⊔ Pathologie ⊔ Modalité

T3 : Un document pertinent doit contenir l'anatomie, sinon la pathologie, sinon la modalité

AnatomiePriorité=1 PathologiePriorité=2 ModalitéPriorité=3

T4 : Un document est considéré pertinent s'il contient les dimensions anatomie et pathologie

(Anatomie ⊓ Pathologie) ⊔ Modalité

IntroductionEtat de l’art ModèleExpérimentationsConclusions

ObjectifsDonnéesRéalisationsRésultats

Page 46: PhD Defense Presentation - Soutenance de thèse

ISI

MRIM18 juillet 2008 © S. Radhouani 46

Apport de l’usage des dimensions

Précision

TestMoyenne à 5 docs à 10 docs

Baseline 0.1451 0.2720 0.2440

%à 10 docs%à 5 docs%MoyennePrécision

Test

+32.780.3240+29.410.3520+8.820.1579T3

+60.650.3920+44.110.3920+20.050.1742T4

+27.860.3120+23.520.3360+5.720.1534T2

+36.590.3333+29.550.3524-1.610.1428T1

IntroductionEtat de l’art ModèleExpérimentationsConclusions

ObjectifsDonnéesRéalisationsRésultats

Baseline : modèle vectoriel•Variante du tf*idf (LTC)•Sac de concepts

Notre approche

Page 47: PhD Defense Presentation - Soutenance de thèse

ISI

MRIM18 juillet 2008 © S. Radhouani 47

Mise en œuvre du modèle

1. Identification des éléments de dimension• document Traitement Automatique des Langues• requête interface

2. Construction de la T-Box• être humain DL vs. Machine langage adéquat (OWL)• outil basé sur des heuristiques

3. Fonction de Correspondance calcul de la subsomption• raisonneur existant

• Pellet [Sirin et al. 04]

v Ordonnancement des documents• modèle vectoriel

IntroductionEtat de l’art ModèleExpérimentationsConclusions

ObjectifsDonnéesRéalisationsRésultats

Page 48: PhD Defense Presentation - Soutenance de thèse

ISI

MRIM18 juillet 2008 © S. Radhouani 48

Plan

I. Introduction

II. État de l’art : ressources externes & dimensions• Indexation• Interrogation• Dimensions

• Synthèse

III. Modèle de RI fondé sur les dimensions de domaine• Formalisme de représentation de connaissances • Modèle de connaissances• Unité d’indexation• Modèle de document• Modèle de requête

IV. Expérimentations

V. Conclusion

Page 49: PhD Defense Presentation - Soutenance de thèse

ISI

MRIM18 juillet 2008 © S. Radhouani 49

Conclusion

Modèle de RI capable de résoudre des requêtes précises

• Fondé sur les dimensions de domaine• Mettre en exergue les éléments pertinents dans un domaine particulier

• Nouvelle unité d’indexation : l’élément de dimension• Définie par des dimensions, concepts, et relations

• Langages de document et de requête expressifs• Représenter la sémantique véhiculée par la structure extraite des

documents (requêtes)

IntroductionEtat de l’art ModèleExpérimentationsConclusions

BilanPerspectives

Page 50: PhD Defense Presentation - Soutenance de thèse

ISI

MRIM18 juillet 2008 © S. Radhouani 50

Conclusion

Modélisation à base de la Logique Descriptive

• Représentation uniforme des documents, requêtes, et connaissances• Fonction de correspondance

• Correspondance entre un document et une requête qui ne partagent pas les mêmes termes

• La subsomption n’est pas suffisante définir des propriétés transitives• Flexibilité : utiliser n’importe quelle relation … mais

Résultats expérimentaux• Prise en compte des dimensions améliore les performances de recherche

IntroductionEtat de l’art ModèleExpérimentationsConclusions

BilanPerspectives

Page 51: PhD Defense Presentation - Soutenance de thèse

ISI

MRIM18 juillet 2008 © S. Radhouani 51

Perspectives

Quantifier l’apport de l’approche mise en œuvre de l’intégralité du modèle• Extraction des éléments de dimension

• Traitement automatique de la langue

Fonction d'ordonnancement adéquate au contexte de RI orientée précision• Étudier la notion de pertinence

• Collaboration avec des utilisateurs professionnels (ex. médecins)• Intégrer les pondérations dans le modèle

Construction automatique des dimensions [Radhouani 07]• Évaluation [Dakka et al.06, Stoica et al.06]

Développement d’une interface interactive• Test d’utilisabilité

IntroductionEtat de l’art ModèleExpérimentationsConclusions

BilanPerspectives

Page 52: PhD Defense Presentation - Soutenance de thèse

ISI

MRIMLIGCUI

Un modèle de Recherche d’Information orienté précision fondé sur les dimensions de domaine

Directeurs de thèse :

Jean-Pierre CHEVALLET, UJF

Yves CHIARAMELLA, UJF

Gilles FALQUET, UniGe

Saïd Radhouani

18 juillet 2008