phd defense presentation - soutenance de thèse

Post on 18-Nov-2014

4.360 Views

Category:

Documents

1 Downloads

Preview:

Click to see full reader

DESCRIPTION

Information retrieval, search, vertical search, domain-specific search, faceted search, ontology, Description Logics, Medical Search, CLEF, precision-oriented search

TRANSCRIPT

ISI

MRIMLIGCUI

Un modèle de Recherche d’Information orienté précision fondé sur les dimensions de domaine

Directeurs de thèse :

Jean-Pierre CHEVALLET, UJF

Yves CHIARAMELLA, UJF

Gilles FALQUET, UniGe

Saïd Radhouani

18 juillet 2008

ISI

MRIM18 juillet 2008 © S. Radhouani 2

Langage d’interrogation---- --- ---------------------

---- --- ---------------------

---- --- ---------------------

---- --- ---------------------

---- --- ---------------------

---- --- ---------------------

Langage d’indexation

Documents ordonnés

Contexte

Correspondance

Objectif : Sélectionner les documents pertinents

qui traitent du thème de la requête.

Indexation Interrogation

Requête

ISI

MRIM18 juillet 2008 © S. Radhouani 3

Contexte

Contexte de recherche : utilisateur décrit un besoin précis• Milieux professionnels (médecine, physique, etc.)

Requête précise1. Terminologie spécifique

ex. "Un compte-rendu sur le type de traitements à effectuer en cas d’un cancer du sein de stade M0"

v Structure sémantique complexe• Relations sémantiques

ex. "Les documents qui parlent du général français responsable de la création de la zone de sécurité pendant le conflit des Balkans"

• Opérateurs

ex. "Des images de la peau de la main sans aucune pathologie"

• Quantificateurs

ex. "Une image qui contient Zinedine Zidane tout seul"

ISI

MRIM18 juillet 2008 © S. Radhouani 4

… pendant la guerre civile qui a eu lieu en ex-Yougoslavie, les Nations Unies ont chargé Philippe Morillon de créer une zone de sécurité. Celle-ci couvre la Serbie, la Slovénie …

Document Requête [CLEF05]

Problématique Donne-moi les documents qui parlent du général français responsable de la création de la zone de sécurité pendant le conflit des Balkans.

ISI

MRIM18 juillet 2008 © S. Radhouani 5

… pendant la guerre civile qui a eu lieu en ex-Yougoslavie, les Nations Unies ont chargé Philippe Morillon de créer une zone de sécurité. Celle-ci couvre la Serbie, la Slovénie …

Document Requête [CLEF05]

Problématique Donne-moi les documents qui parlent du général français responsable de la création de la zone de sécurité pendant le conflit des Balkans.

Philippe Morillon

Ex-Yougoslavie

Zone de sécurité

Serbie

Slovénie

Guerre civile d’Ex-Yougoslavie

Général

Français

Zone de sécurité

Balkans

Conflit des Balkans

ISI

MRIM18 juillet 2008 © S. Radhouani 6

… pendant la guerre civile qui a eu lieu en ex-Yougoslavie, les Nations Unies ont chargé Philippe Morillon de créer une zone de sécurité. Celle-ci couvre la Serbie, la Slovénie …

Document Requête [CLEF05]

Problématique Donne-moi les documents qui parlent du général français responsable de la création de la zone de sécurité pendant le conflit des Balkans.

Le SRI a besoin de connaissances, autres que celles présentes dans le texte.

Y a-t-il des éléments, autres que les descripteurs, qu’un document doit partager avec la requête pour qu’il soit considéré pertinent ?

Philippe Morillon

Ex-Yougoslavie

Zone de sécurité

Serbie

Slovénie

Guerre civile d’Ex-Yougoslavie

Général

Français

Zone de sécurité

Balkans

Conflit des Balkans

ISI

MRIM18 juillet 2008 © S. Radhouani 7

… pendant la guerre civile qui a eu lieu en ex-Yougoslavie, les Nations Unies ont chargé Philippe Morillon de créer une zone de sécurité. Celle-ci couvre la Serbie, la Slovénie …

Document Requête [CLEF05]

Conflit des Balkans

est_un

créé_pendant

Balkans

partie_de

Zone de sécurité

Ex-Yougoslavie

Général

est_unoriginaire_de

Philippe Morillon France

a_lie

u_à

Guerre civile d’Ex-Yougoslavie

Problématique Donne-moi les documents qui parlent du général français responsable de la création de la zone de sécurité pendant le conflit des Balkans.

Philippe Morillon

Ex-Yougoslavie

Zone de sécurité

Serbie

Slovénie

Guerre civile d’Ex-Yougoslavie

Général

Français

Zone de sécurité

Balkans

Conflit des Balkans

ISI

MRIM18 juillet 2008 © S. Radhouani 8

… pendant la guerre civile qui a eu lieu en ex-Yougoslavie, les Nations Unies ont chargé Philippe Morillon de créer une zone de sécurité. Celle-ci couvre la Serbie, la Slovénie …

Document Requête [CLEF05]

Personne

Lieu Géographique

Evénement Conflit des Balkans

est_un

créé_pendant

Balkans

partie_de

Zone de sécurité

Ex-Yougoslavie

Général

est_unoriginaire_de

Philippe Morillon France

a_lie

u_à

Guerre civile d’Ex-Yougoslavie

Problématique Donne-moi les documents qui parlent du général français responsable de la création de la zone de sécurité pendant le conflit des Balkans.

Guerre civile d’Ex-Yougoslavie

Conflit des Balkans

Philippe Morillon

Ex-Yougoslavie

Zone de sécurité

Serbie

Slovénie

Général

Français

Zone de sécurité

Balkans

ISI

MRIM18 juillet 2008 © S. Radhouani 9

Vers une RI basée sur les dimensions

ex.• Politique : personne, lieu géographique, époque, événement, etc.• Médecine : anatomie, pathologie, stade de la maladie, etc.

Idée de notre approche• Domaine : un thème peut être développé en faisant référence à un ensemble de

dimensions de ce domaine

• Auteur domaine thème dimensions termes document

• Médecin médecine image médicale anatomie fémur compte rendu

Une dimension d’un domaine est un concept utilisé pour exprimer des thèmes dans ce domaine

ISI

MRIM18 juillet 2008 © S. Radhouani 10

Objectifs et besoins

Résoudre des requêtes précises• Interpréter le contenu sémantique véhiculé par la structure extraite des

documents et des requêtes• Tenir compte de la complexité de la structure sémantique des requêtes

• Tenir compte des dimensions de domaine

1. Ressources externes (ontologie, thésaurus, taxonomie, etc.)• Définition des dimensions• Terminologie spécifique• Relations sémantiques

2. Langage de document expressif

• Indexation précise du contenu sémantique (dimensions, relations)

3. Langage de requête expressif

• Expression de besoin précis (opérateurs, relations, etc.)

ISI

MRIM18 juillet 2008 © S. Radhouani 11

Plan

I. Introduction

II. État de l’art : ressources externes & dimensions• Indexation• Interrogation• Dimensions• Synthèse

III. Modèle de RI fondé sur les dimensions de domaine• Formalisme de représentation de connaissances • Modèle de connaissances• Unité d’indexation• Modèle de document• Modèle de requête

IV. Expérimentations

V. Conclusion

ISI

MRIM18 juillet 2008 © S. Radhouani 12

Langage d’interrogation---- --- ---------------------

---- --- ---------------------

---- --- ---------------------

---- --- ---------------------

---- --- ---------------------

---- --- ---------------------

Langage d’indexation

Documents ordonnés

Ressources externes & dimensions

Correspondance

Indexation Interrogation

Requête

IntroductionEtat de l’art ModèleExpérimentationsConclusions

IndexationInterrogationDimensionsSynthèse

Ressources externes

ISI

MRIM18 juillet 2008 © S. Radhouani 13

Indexation conceptuelle

Représentation par des concepts au lieu de mots ambigus [Baziz05, Biemann05, Vallet05, Maisonnasse08]

• Représentation : sac de concepts

• Correspondance : partage de concepts entre document et requête

• Relations sémantiques non exploitées

• Utilisation des relations seulement pour la désambiguïsation [Baziz05]

IntroductionEtat de l’art ModèleExpérimentationsConclusions

IndexationInterrogationDimensionsSynthèse

Un concept est un objet mental défini comme une abstraction généralisée à partir de propriétés communes à des objets concrets.

Général

C01 Officier de l’armée

C02 Chef d’un ordre religieux

C03 Ce qui concerne le tout

ISI

MRIM18 juillet 2008 © S. Radhouani 14

Langage d’interrogation---- --- ---------------------

---- --- ---------------------

---- --- ---------------------

---- --- ---------------------

---- --- ---------------------

---- --- ---------------------

Langage d’indexation

Documents ordonnés

Ressources externes & dimensions

Correspondance

Indexation Interrogation

Requête

IntroductionEtat de l’art ModèleExpérimentationsConclusions

IndexationInterrogationDimensionsSynthèse

Ressources externes

ISI

MRIM18 juillet 2008 © S. Radhouani 15

Expansion de requêtes

Utiliser les relations enrichir le contenu de la requête [Voorhees94, Mihalcea00, Baziz et al.03]

• Représentation de la requête étendue : sac de concepts

• Correspondance : partage de concepts entre document et requête étendue

• Utilisation des relations seulement pour l’expansion

Relations Exemples

Généralisation/spécialisation {voiture} est_un {véhicule à moteur}

Composition {voiture} est_composé_de {{porte}, {moteur}}

IntroductionEtat de l’art ModèleExpérimentationsConclusions

IndexationInterrogationDimensionsSynthèse

ISI

MRIM18 juillet 2008 © S. Radhouani 16

Langage d’interrogation---- --- ---------------------

---- --- ---------------------

---- --- ---------------------

---- --- ---------------------

---- --- ---------------------

---- --- ---------------------

Langage d’indexation

Documents ordonnés

Ressources externes & dimensions

Correspondance

Indexation Interrogation

Requête

IntroductionEtat de l’art ModèleExpérimentationsConclusions

IndexationInterrogationDimensionsSynthèse

Ressources externes

ISI

MRIM18 juillet 2008 © S. Radhouani 17

RI & dimensions de domaine

Paradigme de recherche multi-facette [S. R. Ranganathan 1931]

Interface pour la navigation dans une collection [Yee 03, Hearst 06, Mäkelä 06]

Construction manuelle des facettes/dimensions : hiérarchies de concepts

Pas d’évaluation en termes de performance de recherche

Tests d’utilisabilité : approches prometteuses mais limitées à petite échelle [Yee 03, Diederich 06]• Annotée manuellement• Statique, de petite taille

Difficulté à résoudre des requêtes précises• Structure sémantique complexe (opérateurs)• Terminologie spécialisée : navigation profonde dans les hiérarchies de concepts

lourde surcharge cognitive

IntroductionEtat de l’art ModèleExpérimentationsConclusions

IndexationInterrogationDimensionsSynthèse

ISI

MRIM18 juillet 2008 © S. Radhouani 18

Synthèse

Approches existantes : insuffisantes devant les exigences présentées

Résoudre des requêtes précises• Interpréter la sémantique véhiculée par la structure extraite des documents et

des requêtes Tenir compte des dimensions Utiliser les relations sémantiques

Besoin de ressources externes• Représentation uniforme des documents, requêtes, et ressources externes

=> Formalisme de représentation de connaissances commun à ces trois éléments• Opération de comparaison fonction de correspondance • Prendre en compte les exigences des utilisateurs en termes d’opérateurs

(booléens, quantificateurs, etc.)

IntroductionEtat de l’art ModèleExpérimentationsConclusions

IndexationInterrogationDimensionsSynthèse

ISI

MRIM18 juillet 2008 © S. Radhouani 19

Plan

I. Introduction

II. État de l’art : ressources externes & dimensions• Indexation• Interrogation• Dimensions

• Synthèse

III. Modèle de RI fondé sur les dimensions de domaine• Formalisme de représentation de connaissances • Modèle de connaissances• Unité d’indexation• Modèle de document• Modèle de requête

IV. Expérimentations

V. Conclusion

ISI

MRIM18 juillet 2008 © S. Radhouani 20

La logique descriptive

Logique Descriptive (DL) = Logique Terminologique

ALCQ : Attribute Language with Complements and Qualified number restriction

• Modéliser les connaissances d’un domaine (concepts et relations)

• Satisfait les exigences de notre modèle (opérateurs : ,⊓ ⊔ ; quantificateurs : ,∃ ≥)

T(erminological)-Box : ensemble d’axiomes terminologiques de la forme

• C ≡ D ou

• C ⊑ D

Algorithme de calcul de subsomption : déduire des connaissances implicites

• Général ⊑ Personne

• Philippe Morillon ⊑ Général

IntroductionEtat de l’art ModèleExpérimentationsConclusions

FormalismeConnaissancesUnité d’indexationDocumentRequête

=> Philippe Morillon ⊑ Personne

ISI

MRIM18 juillet 2008 © S. Radhouani 21

Logique descriptive & RI

correspondance

⊑T

q : une requête

Physical query Physical query Physical query Physical query Physical query Physical query Physical query

doc : un document

DL

RI

RdocRq

IntroductionEtat de l’art ModèleExpérimentationsConclusions

FormalismeConnaissancesUnité d’indexationDocumentRequête

Physical document Physical document Physical document Physical document Physical document Physical document Physical document

ISI

MRIM18 juillet 2008 © S. Radhouani 22

Langage d’interrogation---- --- ---------------------

---- --- ---------------------

---- --- ---------------------

---- --- ---------------------

---- --- ---------------------

---- --- ---------------------

Langage d’indexation

Documents ordonnés

Modèle de connaissances

Correspondance

Indexation Interrogation

Requête

IntroductionEtat de l’art ModèleExpérimentationsConclusions

Ressources externes

FormalismeConnaissancesUnité d’indexationDocumentRequête

ISI

MRIM18 juillet 2008 © S. Radhouani 23

Modèle de connaissances

Ressource externe : K = (C, R, Dim, T)

• Concepts : C ={c1, …, cnc}

• Rôles : R = {R1, …, Rnr}

• Dimensions : Dim = {dim1, …, dimnd}

• dimi = (rac_dimi, Ci )

• rac_dimi C : racine de la hiérarchie définissant dimi

• Ci = {c C | c ⊑ rac_dimi}

• T-Box : T (connaissances du domaine)

IntroductionEtat de l’art ModèleExpérimentationsConclusions

FormalismeConnaissancesUnité d’indexationDocumentRequête

ISI

MRIM18 juillet 2008 © S. Radhouani 24

Modèle de connaissances : exempleIntroductionEtat de l’art ModèleExpérimentationsConclusions

C = {Evénement, Personne, etc.}

R = {originaire_de, partie_de, etc.}

Dim = {Événement, Lieu géographique, Personne}

dimPersonne = (Personne, {Général,

Philippe Morillon, …})

T-Box

FormalismeConnaissancesUnité d’indexationDocumentRequête

Événement ⊑ TConflit des Balkans ⊑ EvénementGuerre civile d’Ex-Yougoslavie ⊑ Conflit des Balkans Conflit des Balkans ≡ ∃a_lieu_à.Balkans

Lieu géographique ⊑ TFrance ⊑ Lieu géographiqueBalkans ⊑ Lieu géographiqueEx-Yougoslavie ⊑ Lieu géographiqueEx-Yougoslavie ≡ ∃partie_de.BalkansZone de sécurité ⊑ Lieu géographiqueSerbie ⊑ Ex-YougoslavieSlovénie ⊑ Ex-YougoslavieZone de sécurité ≡ ∃créé_pendant.Conflit des Balkans

Personne ⊑ TGénéral ⊑ PersonnePhilippe Morillon ⊑ GénéralPhilippe Morillon ≡ ∃originaire_de.France

ISI

MRIM18 juillet 2008 © S. Radhouani 25

Unité d’indexation

Produire une représentation précise du contenu sémantique des documents (requêtes)

Interpréter la sémantique véhiculée par la structure extraite des documents (requêtes)• Se détacher de l’aspect sac de concepts• Utiliser les dimensions, concepts, et relations

ex. Interprétation de "Général français"

• élément de la dimension "Personne"• est "Général"• originaire de "France"

IntroductionEtat de l’art ModèleExpérimentationsConclusions

FormalismeConnaissancesUnité d’indexationDocumentRequête

ISI

MRIM18 juillet 2008 © S. Radhouani 26

Unité d’indexation : élément de dimension

Tout concept d’une dimension est susceptible de constituer un élément de cette dimension lorsqu’il est utilisé dans un document ou une requête

• cidf dim : identifier edim• cdes dim : décrire edim• décrit_par : relation générique pour la modélisation

ex. edim ≡ Général ⊓ ∃originaire_de.France

Un élément d’une dimension dim est une expression ALCQ qui cherche à correspondre le plus précisément possible au concept de dim auquel il

est fait référence dans un document ou une requête.

IntroductionEtat de l’art ModèleExpérimentationsConclusions

edim ≡ cidf_1 … ⊓ ⊓ cidf_n ⊓ ∃décrit_par.cdes_1 … ⊓ ⊓ ∃décrit_par.cdes_m

FormalismeConnaissancesUnité d’indexationDocumentRequête

ISI

MRIM18 juillet 2008 © S. Radhouani 27

Langage d’interrogation---- --- ---------------------

---- --- ---------------------

---- --- ---------------------

---- --- ---------------------

---- --- ---------------------

---- --- ---------------------

Langage d’indexation

Documents ordonnés

Représentation des documents

Correspondance

Indexation Interrogation

Requête

IntroductionEtat de l’art ModèleExpérimentationsConclusions

Ressources externes

FormalismeConnaissancesUnité d’indexationDocumentRequête

ISI

MRIM18 juillet 2008 © S. Radhouani 28

Représentation des documents

document : doc représenté par des éléments de dimension

• Rdoc : expression ALCQ = conjonction d’éléments de dimension

• indexé_par : rôle pour associer un élément de dimension à un document

IntroductionEtat de l’art ModèleExpérimentationsConclusions

Un élément de dimension peut être pondéré (ne fait pas partie de la DL)

Rdoc est ajouté à la T-Box

Rdoc ≡ ∃indexé_par.edim1 ⊓ … ⊓ ∃indexé_par.edimn

FormalismeConnaissancesUnité d’indexationDocumentRequête

ISI

MRIM18 juillet 2008 © S. Radhouani 29

Exemple

edim1 ≡ Philippe Morillon

edim2 ≡ Zone_de_Sécurité ⊓ ∃créé_pendant.Guerre civile d’Ex-Yougoslavie

edim3 ≡ Ex-Yougoslavie

edim4 ≡ Serbie

edim5 ≡ Slovénie

edim6 ≡ Guerre civile d’Ex-Yougoslavie

Rdoc ≡ ∃indexé_par.edim1 ⊓ ∃indexé_par.edim2 ⊓ ∃indexé_par.edim3 ⊓

∃indexé_par.edim4 ⊓ ∃indexé_par.edim5 ⊓ ∃indexé_par.edim6

IntroductionEtat de l’art ModèleExpérimentationsConclusions

FormalismeConnaissancesUnité d’indexationDocumentRequête

ISI

MRIM18 juillet 2008 © S. Radhouani 30

ExempleIntroductionEtat de l’art ModèleExpérimentationsConclusions

FormalismeConnaissancesUnité d’indexationDocumentRequête

T-Box

Rdoc

Événement ⊑ TConflit des Balkans ⊑ EvénementGuerre civile d’Ex-Yougoslavie ⊑ Conflit des BalkansConflit des Balkans ≡ ∃a_lieu_à.Balkans

Lieu géographique ⊑ TFrance ⊑ Lieu géographiqueBalkans ⊑ Lieu géographiqueEx-Yougoslavie ⊑ Lieu géographiqueEx-Yougoslavie ≡ ∃partie_de.BalkansZone de sécurité ⊑ Lieu géographiqueSerbie ⊑ Ex-YougoslavieSlovénie ⊑ Ex-YougoslavieZone de sécurité ≡ ∃créé_pendant.Conflit des Balkans

Personne ⊑ TGénéral ⊑ PersonnePhilippe Morillon ⊑ GénéralPhilippe Morillon ≡ ∃originaire_de.France

ISI

MRIM18 juillet 2008 © S. Radhouani 31

Langage d’interrogation---- --- ---------------------

---- --- ---------------------

---- --- ---------------------

---- --- ---------------------

---- --- ---------------------

---- --- ---------------------

Langage d’indexation

Documents ordonnés

Représentation des requêtes

Correspondance

Indexation Interrogation

Requête

IntroductionEtat de l’art ModèleExpérimentationsConclusions

Ressources externes

FormalismeConnaissancesUnité d’indexationDocumentRequête

ISI

MRIM18 juillet 2008 © S. Radhouani 32

Représentation des requêtes

requête : q représentée par des éléments de dimension

• Rq : expression ALCQ = combinaison d’éléments de dimensions et d’opérateurs

• indexé_par : rôle pour associer un élément de dimension à une requête

IntroductionEtat de l’art ModèleExpérimentationsConclusions

Un élément de dimension peut être pondéré (ne fait pas partie de la DL)

Rq est ajouté à la T-Box

Rq ≡ ∃indexé_par.edim1 ⊓ … ⊓ ∃indexé_par.edimn

FormalismeConnaissancesUnité d’indexationDocumentRequête

ISI

MRIM18 juillet 2008 © S. Radhouani 33

Exemple

edim7 ≡ Général ⊓ ∃orginaire_de.France

edim8 ≡ Zone de Sécurité ⊓ ∃créé_pendant.Conflit des Balkans

edim9 ≡ Conflit des Balkans

Rq ≡ ∃indexé_par.edim7 ⊓ ∃indexé_par.edim8 ⊓ ∃indexé_par.edim9

IntroductionEtat de l’art ModèleExpérimentationsConclusions

FormalismeConnaissancesUnité d’indexationDocumentRequête

ISI

MRIM18 juillet 2008 © S. Radhouani 34

ExempleIntroductionEtat de l’art ModèleExpérimentationsConclusions

FormalismeConnaissancesUnité d’indexationDocumentRequête

T-Box

Rdoc

Événement ⊑ TConflit des Balkans ⊑ EvénementGuerre civile d’Ex-Yougoslavie ⊑ Conflit des BalkansConflit des Balkans ≡ ∃a_lieu_à.Balkans

Lieu géographique ⊑ TFrance ⊑ Lieu géographiqueBalkans ⊑ Lieu géographiqueEx-Yougoslavie ⊑ Lieu géographiqueEx-Yougoslavie ≡ ∃partie_de.BalkansZone de sécurité ⊑ Lieu géographiqueSerbie ⊑ Ex-YougoslavieSlovénie ⊑ Ex-YougoslavieZone de sécurité ≡ ∃créé_pendant.Conflit des Balkans

Personne ⊑ TGénéral ⊑ PersonnePhilippe Morillon ⊑ GénéralPhilippe Morillon ≡ ∃originaire_de.France

Rq

ISI

MRIM18 juillet 2008 © S. Radhouani 35

Langage d’interrogation---- --- ---------------------

---- --- ---------------------

---- --- ---------------------

---- --- ---------------------

---- --- ---------------------

---- --- ---------------------

Langage d’indexation

Documents ordonnés

Correspondance

Correspondance

Indexation Interrogation

Requête

IntroductionEtat de l’art ModèleExpérimentationsConclusions

Ressources externes

FormalismeConnaissancesUnité d’indexationDocumentRequête

ISI

MRIM18 juillet 2008 © S. Radhouani 36

La fonction de correspondance fSel

fSel(doc, q) : respecter les contraintes imposées par l’utilisateur

• Calcul de la subsomption dans la T-Box

• Dpert = {doc | Rdoc ⊑T Rq}

correspondance

⊑T

q : une requête

Physical query Physical query Physical query Physical query Physical query Physical query Physical query

Rdoc

doc : un document

Physical document Physical document Physical document Physical document Physical document Physical document Physical document Physical document

Rq

IntroductionEtat de l’art ModèleExpérimentationsConclusions

FormalismeConnaissancesUnité d’indexationDocumentRequête

T-Box

ISI

MRIM18 juillet 2008 © S. Radhouani 37

La fonction de correspondance fSel

IntroductionEtat de l’art ModèleExpérimentationsConclusions

FormalismeConnaissancesUnité d’indexationDocumentRequête

T-Box

Événement ⊑ TConflit des Balkans ⊑ EvénementGuerre civile d’Ex-Yougoslavie ⊑ Conflit des Balkans Conflit des Balkans ≡ ∃a_lieu_à.Balkans

Lieu géographique ⊑ TFrance ⊑ Lieu géographiqueBalkans ⊑ Lieu géographiqueEx-Yougoslavie ⊑ Lieu géographiqueEx-Yougoslavie ≡ ∃partie_de.BalkansZone de sécurité ⊑ Lieu géographiqueSerbie ⊑ Ex-YougoslavieSlovénie ⊑ Ex-YougoslavieZone de sécurité ≡ ∃créé_pendant.Conflit des Balkans

Personne ⊑ TGénéral ⊑ PersonnePhilippe Morillon ⊑ GénéralPhilippe Morillon ≡ ∃originaire_de.France

Rdoc Rq

ISI

MRIM18 juillet 2008 © S. Radhouani 38

La fonction de correspondance fSel

IntroductionEtat de l’art ModèleExpérimentationsConclusions

FormalismeConnaissancesUnité d’indexationDocumentRequête

T-Box

Rdoc Rq

Philippe Morillon ⊑ Général

Zone de sécurité ≡ ∃créé_pendant.Conflit des Balkans

Philippe Morillon ≡ ∃originaire_de.France

Guerre civile d’Ex-Yougoslavie ⊑ Conflit des Balkans

Philippe Morillon

Zone de sécurité ⊓∃créé_pendant.Guerre civile

d’Ex-Yougoslavie

Général ⊓ ∃originaire_de.France

Conflit des BalkansGuerre civile d’Ex-Yougoslavie Zone de sécurité ⊓

∃créé_pendant.Conflit des Balkans

ISI

MRIM18 juillet 2008 © S. Radhouani 39

La fonction de correspondance fSel

IntroductionEtat de l’art ModèleExpérimentationsConclusions

FormalismeConnaissancesUnité d’indexationDocumentRequête

T-Box

Rdoc Rq

Philippe Morillon ⊑ Général

Zone de sécurité ≡ ∃créé_pendant.Conflit des Balkans

Philippe Morillon ≡ ∃originaire_de.France

Guerre civile d’Ex-Yougoslavie ⊑ Conflit des Balkans

Philippe Morillon

Zone de sécurité ⊓∃créé_pendant.Guerre civile

d’Ex-Yougoslavie

Général ⊓ ∃originaire_de.France

Conflit des BalkansGuerre civile d’Ex-Yougoslavie Zone de sécurité ⊓

∃créé_pendant.Conflit des Balkans

Rdoc ⊑T Rq

ISI

MRIM18 juillet 2008 © S. Radhouani 40

La fonction d’ordonnancement fOrd

fOrd(doc, q) : classer les documents dans leur ordre de pertinence par rapport à q

• Les poids des éléments de dimension dans doc

• Les poids des éléments de dimension dans q

• Les valeurs de priorité des éléments de dimension dans q

N’est pas modélisée en DL

Utiliser une métrique existante

• Notre expérience : modèle vectoriel

IntroductionEtat de l’art ModèleExpérimentationsConclusions

FormalismeConnaissancesUnité d’indexationDocumentRequête

ISI

MRIM18 juillet 2008 © S. Radhouani 41

Plan

I. Introduction

II. État de l’art : ressources externes & dimensions• Indexation• Interrogation• Dimensions

• Synthèse

III. Modèle de RI fondé sur les dimensions de domaine• Formalisme de représentation de connaissances • Modèle de connaissances• Unité d’indexation• Modèle de document• Modèle de requête

IV. Expérimentations

V. Conclusion

ISI

MRIM18 juillet 2008 © S. Radhouani 42

Expériences

1. Résoudre des requêtes précises évaluer l’apport de l’usage des dimensions• Performances de recherche• Résultat de référence : modèle vectoriel sans dimensions

2. Mise en œuvre du modèle basé sur la DL• Tester la faisabilité de notre approche• Évaluer les limites du modèle

IntroductionEtat de l’art ModèleExpérimentationsConclusions

ObjectifsDonnéesRéalisationsRésultats

ISI

MRIM18 juillet 2008 © S. Radhouani 43

Données et ressources

Collection ImageCLEFmed-2005

• 50,026 documents (Anglais, Français, Allemand)

• 25 requêtes

ex. "show me x-ray images with fracture of the femur"

Dimensions : Modalité, Pathologie, Anatomie

Ressource externe : UMLS• Meta thésaurus (≥ 1 million d’entrées)

• Réseau sémantique (135 Types sémantiques)

IntroductionEtat de l’art ModèleExpérimentationsConclusions

ObjectifsDonnéesRéalisationsRésultats

ISI

MRIM18 juillet 2008 © S. Radhouani 44

Indexation

Construction manuelle des dimensions• Anatomie : "Anatomical Structure" + "Body System" + "Body Space or Junction" +

"Body Location or Region" ;

• Pathologie : "Pathologic Function" + "Finding" + "Injury or Poisoning" ;

• Modalité : "Diagnostic Procedure" + "Manufactured Object".

Indexation conceptuelle• Outil adapté aux documents en anglais

Identification des éléments de dimension• Défini par un concept

• Si c dim, alors c est un élément de la dimension dim

Pondération des éléments de dimension• Modèle vectoriel : variante du tf*idf (LTC)

IntroductionEtat de l’art ModèleExpérimentationsConclusions

ObjectifsDonnéesRéalisationsRésultats

ISI

MRIM18 juillet 2008 © S. Radhouani 45

Interrogation

T1: Un document est considéré pertinent s'il contient les trois dimensions présentes dans la requête

Anatomie ⊓ Pathologie ⊓ Modalité

T2 : Un document est considéré pertinent s'il contient au moins une des dimensions de la requête

Anatomie ⊔ Pathologie ⊔ Modalité

T3 : Un document pertinent doit contenir l'anatomie, sinon la pathologie, sinon la modalité

AnatomiePriorité=1 PathologiePriorité=2 ModalitéPriorité=3

T4 : Un document est considéré pertinent s'il contient les dimensions anatomie et pathologie

(Anatomie ⊓ Pathologie) ⊔ Modalité

IntroductionEtat de l’art ModèleExpérimentationsConclusions

ObjectifsDonnéesRéalisationsRésultats

ISI

MRIM18 juillet 2008 © S. Radhouani 46

Apport de l’usage des dimensions

Précision

TestMoyenne à 5 docs à 10 docs

Baseline 0.1451 0.2720 0.2440

%à 10 docs%à 5 docs%MoyennePrécision

Test

+32.780.3240+29.410.3520+8.820.1579T3

+60.650.3920+44.110.3920+20.050.1742T4

+27.860.3120+23.520.3360+5.720.1534T2

+36.590.3333+29.550.3524-1.610.1428T1

IntroductionEtat de l’art ModèleExpérimentationsConclusions

ObjectifsDonnéesRéalisationsRésultats

Baseline : modèle vectoriel•Variante du tf*idf (LTC)•Sac de concepts

Notre approche

ISI

MRIM18 juillet 2008 © S. Radhouani 47

Mise en œuvre du modèle

1. Identification des éléments de dimension• document Traitement Automatique des Langues• requête interface

2. Construction de la T-Box• être humain DL vs. Machine langage adéquat (OWL)• outil basé sur des heuristiques

3. Fonction de Correspondance calcul de la subsomption• raisonneur existant

• Pellet [Sirin et al. 04]

v Ordonnancement des documents• modèle vectoriel

IntroductionEtat de l’art ModèleExpérimentationsConclusions

ObjectifsDonnéesRéalisationsRésultats

ISI

MRIM18 juillet 2008 © S. Radhouani 48

Plan

I. Introduction

II. État de l’art : ressources externes & dimensions• Indexation• Interrogation• Dimensions

• Synthèse

III. Modèle de RI fondé sur les dimensions de domaine• Formalisme de représentation de connaissances • Modèle de connaissances• Unité d’indexation• Modèle de document• Modèle de requête

IV. Expérimentations

V. Conclusion

ISI

MRIM18 juillet 2008 © S. Radhouani 49

Conclusion

Modèle de RI capable de résoudre des requêtes précises

• Fondé sur les dimensions de domaine• Mettre en exergue les éléments pertinents dans un domaine particulier

• Nouvelle unité d’indexation : l’élément de dimension• Définie par des dimensions, concepts, et relations

• Langages de document et de requête expressifs• Représenter la sémantique véhiculée par la structure extraite des

documents (requêtes)

IntroductionEtat de l’art ModèleExpérimentationsConclusions

BilanPerspectives

ISI

MRIM18 juillet 2008 © S. Radhouani 50

Conclusion

Modélisation à base de la Logique Descriptive

• Représentation uniforme des documents, requêtes, et connaissances• Fonction de correspondance

• Correspondance entre un document et une requête qui ne partagent pas les mêmes termes

• La subsomption n’est pas suffisante définir des propriétés transitives• Flexibilité : utiliser n’importe quelle relation … mais

Résultats expérimentaux• Prise en compte des dimensions améliore les performances de recherche

IntroductionEtat de l’art ModèleExpérimentationsConclusions

BilanPerspectives

ISI

MRIM18 juillet 2008 © S. Radhouani 51

Perspectives

Quantifier l’apport de l’approche mise en œuvre de l’intégralité du modèle• Extraction des éléments de dimension

• Traitement automatique de la langue

Fonction d'ordonnancement adéquate au contexte de RI orientée précision• Étudier la notion de pertinence

• Collaboration avec des utilisateurs professionnels (ex. médecins)• Intégrer les pondérations dans le modèle

Construction automatique des dimensions [Radhouani 07]• Évaluation [Dakka et al.06, Stoica et al.06]

Développement d’une interface interactive• Test d’utilisabilité

IntroductionEtat de l’art ModèleExpérimentationsConclusions

BilanPerspectives

ISI

MRIMLIGCUI

Un modèle de Recherche d’Information orienté précision fondé sur les dimensions de domaine

Directeurs de thèse :

Jean-Pierre CHEVALLET, UJF

Yves CHIARAMELLA, UJF

Gilles FALQUET, UniGe

Saïd Radhouani

18 juillet 2008

top related