isiisi mrimmrim lig cui un modèle de recherche dinformation orienté précision fondé sur les...
TRANSCRIPT
ISI
MRIMLIGCUI
Un modèle de Recherche d’Information orienté précision fondé sur les
dimensions de domaine
Directeurs de thèse :
Jean-Pierre CHEVALLET, UJF
Yves CHIARAMELLA, UJF
Gilles FALQUET, UniGe
Saïd RADHOUANI
18 juillet 2008
18 juillet 2008 © S. Radhouani 2
ISI
MRIM
Langage d’interrogation---- --- ---------------------
---- --- ---------------------
---- --- ---------------------
---- --- ---------------------
---- --- ---------------------
---- --- ---------------------
Langage d’indexation
Documents ordonnés
Contexte
Correspondance
Objectif : Sélectionner les documents pertinents
qui traitent du thème de la requête.
Indexation Interrogation
Requête
18 juillet 2008 © S. Radhouani 3
ISI
MRIM
Contexte
Contexte de recherche : utilisateur décrit un besoin précis• Milieux professionnels (médecine, physique, etc.)
Requête précise1. Terminologie spécifique
ex. "Un compte-rendu sur le type de traitements à effectuer en cas d’un cancer du sein de stade M0"
2. Structure sémantique complexe• Relations sémantiques
ex. "Les documents qui parlent du général français responsable de la création de la zone de sécurité pendant le conflit des Balkans"
• Opérateurs
ex. "Des images de la peau de la main sans aucune pathologie"
• Quantificateurs
ex. "Une image qui contient Zinedine Zidane tout seul"
18 juillet 2008 © S. Radhouani 4
ISI
MRIM
… pendant la guerre civile qui a eu lieu en ex-Yougoslavie, les Nations Unies ont chargé Philippe Morillon de créer une zone de sécurité. Celle-ci couvre la Serbie, la Slovénie …
Document Requête [CLEF05]
Personne
Lieu Géographique
Evénement Conflit des Balkans
est_un
créé_pendant
Balkans
partie_de
Zone de sécurité
Ex-Yougoslavie
Général
est_unoriginaire_de
Philippe Morillon France
a_lie
u_à
Guerre civile d’Ex-Yougoslavie
Problématique Donne-moi les documents qui parlent du général français responsable de la création de la zone de sécurité pendant le conflit des Balkans.
Le SRI a besoin de connaissances, autres que celles présentes dans le texte.
Y a-t-il des éléments, autres que les descripteurs, qu’un document doit partager avec la requête pour qu’il soit considéré pertinent ?
Philippe Morillon
Ex-Yougoslavie
Zone de sécurité
Serbie
Slovénie
Guerre civile d’Ex-Yougoslavie
Général
Français
Zone de sécurité
Balkans
Conflit des BalkansGuerre civile d’Ex-Yougoslavie
Conflit des Balkans
Philippe Morillon
Ex-Yougoslavie
Zone de sécurité
Serbie
Slovénie
Général
Français
Zone de sécurité
Balkans
18 juillet 2008 © S. Radhouani 5
ISI
MRIM
Vers une RI basée sur les dimensions
ex.• Politique : personne, lieu géographique, époque, événement, etc.• Médecine : anatomie, pathologie, stade de la maladie, etc.
Idée de notre approche• Domaine : un thème peut être développé en faisant référence à un ensemble de
dimensions de ce domaine
• Auteur domaine thème dimensions termes document
• Médecin médecine image médicale anatomie fémur compte rendu
Une dimension d’un domaine est un concept utilisé pour exprimer des thèmes dans ce domaine
18 juillet 2008 © S. Radhouani 6
ISI
MRIM
Objectifs et besoins
Résoudre des requêtes précises• Interpréter le contenu sémantique véhiculé par la structure extraite des
documents et des requêtes• Tenir compte de la complexité de la structure sémantique des requêtes• Tenir compte des dimensions de domaine
1. Ressources externes (ontologie, thésaurus, taxonomie, etc.)• Définition des dimensions• Terminologie spécifique• Relations sémantiques
2. Langage de document expressif
• Indexation précise du contenu sémantique (dimensions, relations)
v Langage de requête expressif
• Expression de besoin précis (opérateurs, relations, etc.)
18 juillet 2008 © S. Radhouani 7
ISI
MRIM
Plan
I. Introduction
II. État de l’art : ressources externes & dimensions• Indexation• Interrogation• Dimensions• Synthèse
III. Modèle de RI fondé sur les dimensions de domaine• Formalisme de représentation de connaissances • Modèle de connaissances• Unité d’indexation• Modèle de document• Modèle de requête
IV. Expérimentations
V. Conclusion
18 juillet 2008 © S. Radhouani 8
ISI
MRIM
Langage d’interrogation---- --- ---------------------
---- --- ---------------------
---- --- ---------------------
---- --- ---------------------
---- --- ---------------------
---- --- ---------------------
Langage d’indexation
Documents ordonnés
Ressources externes & dimensions
Correspondance
Indexation Interrogation
Requête
IntroductionEtat de l’art ModèleExpérimentationsConclusions
IndexationInterrogationDimensionsSynthèse
Ressources externes
18 juillet 2008 © S. Radhouani 9
ISI
MRIM
Indexation conceptuelle
Représentation par des concepts au lieu de mots ambigus [Baziz05, Biemann05, Vallet05, Maisonnasse08]
• Représentation : sac de concepts
• Correspondance : partage de concepts entre document et requête
• Relations sémantiques non exploitées
• Utilisation des relations seulement pour la désambiguïsation [Baziz05]
IntroductionEtat de l’art ModèleExpérimentationsConclusions
IndexationInterrogationDimensionsSynthèse
Un concept est un objet mental défini comme une abstraction généralisée à partir de propriétés communes à des objets concrets.
Général
C01 Officier de l’armée
C02 Chef d’un ordre religieux
C03 Ce qui concerne le tout
18 juillet 2008 © S. Radhouani 10
ISI
MRIM
Langage d’interrogation---- --- ---------------------
---- --- ---------------------
---- --- ---------------------
---- --- ---------------------
---- --- ---------------------
---- --- ---------------------
Langage d’indexation
Documents ordonnés
Ressources externes & dimensions
Correspondance
Indexation Interrogation
Requête
IntroductionEtat de l’art ModèleExpérimentationsConclusions
IndexationInterrogationDimensionsSynthèse
Ressources externes
18 juillet 2008 © S. Radhouani 11
ISI
MRIM
Expansion de requêtes
Utiliser les relations enrichir le contenu de la requête [Voorhees94, Mihalcea00, Baziz et al.03]
• Représentation de la requête étendue : sac de concepts
• Correspondance : partage de concepts entre document et requête étendue
• Utilisation des relations seulement pour l’expansion
Relations Exemples
Généralisation/spécialisation {voiture} est_un {véhicule à moteur}
Composition {voiture} est_composé_de {{porte}, {moteur}}
IntroductionEtat de l’art ModèleExpérimentationsConclusions
IndexationInterrogationDimensionsSynthèse
18 juillet 2008 © S. Radhouani 12
ISI
MRIM
Langage d’interrogation---- --- ---------------------
---- --- ---------------------
---- --- ---------------------
---- --- ---------------------
---- --- ---------------------
---- --- ---------------------
Langage d’indexation
Documents ordonnés
Ressources externes & dimensions
Correspondance
Indexation Interrogation
Requête
IntroductionEtat de l’art ModèleExpérimentationsConclusions
IndexationInterrogationDimensionsSynthèse
Ressources externes
18 juillet 2008 © S. Radhouani 13
ISI
MRIM
RI & dimensions de domaine
Paradigme de recherche multi-facette [S. R. Ranganathan 1931]
Interface pour la navigation dans une collection [Yee 03, Hearst 06, Mäkelä 06]
Construction manuelle des facettes/dimensions : hiérarchies de concepts
Pas d’évaluation en termes de performance de recherche
Tests d’utilisabilité : approches prometteuses mais limitées à petite échelle [Yee 03, Diederich 06]
• Annotée manuellement• Statique, de petite taille
Difficulté à résoudre des requêtes précises• Structure sémantique complexe (opérateurs)• Terminologie spécialisée : navigation profonde dans les hiérarchies de concepts
lourde surcharge cognitive
IntroductionEtat de l’art ModèleExpérimentationsConclusions
IndexationInterrogationDimensionsSynthèse
18 juillet 2008 © S. Radhouani 14
ISI
MRIM
Synthèse
Approches existantes : insuffisantes devant les exigences présentées
Résoudre des requêtes précises• Interpréter la sémantique véhiculée par la structure extraite des documents et
des requêtes Tenir compte des dimensions Utiliser les relations sémantiques
Besoin de ressources externes• Représentation uniforme des documents, requêtes, et ressources externes
=> Formalisme de représentation de connaissances commun à ces trois éléments• Opération de comparaison fonction de correspondance • Prendre en compte les exigences des utilisateurs en termes d’opérateurs
(booléens, quantificateurs, etc.)
IntroductionEtat de l’art ModèleExpérimentationsConclusions
IndexationInterrogationDimensionsSynthèse
18 juillet 2008 © S. Radhouani 15
ISI
MRIM
Plan
I. Introduction
II. État de l’art : ressources externes & dimensions• Indexation• Interrogation• Dimensions• Synthèse
III. Modèle de RI fondé sur les dimensions de domaine• Formalisme de représentation de connaissances • Modèle de connaissances• Unité d’indexation• Modèle de document• Modèle de requête
IV. Expérimentations
V. Conclusion
18 juillet 2008 © S. Radhouani 16
ISI
MRIM
La logique descriptive
Logique Descriptive (DL) = Logique Terminologique
ALCQ : Attribute Language with Complements and Qualified number restriction
• Modéliser les connaissances d’un domaine (concepts et relations)
• Satisfait les exigences de notre modèle (opérateurs : ,⊓ ⊔ ; quantificateurs : ,∃ ≥)
T(erminological)-Box : ensemble d’axiomes terminologiques de la forme• C ≡ D ou • C ⊑ D
Algorithme de calcul de subsomption : déduire des connaissances implicites
• Général ⊑ Personne
• Philippe Morillon ⊑ Général
IntroductionEtat de l’art ModèleExpérimentationsConclusions
FormalismeConnaissancesUnité d’indexationDocumentRequête
=> Philippe Morillon ⊑ Personne
18 juillet 2008 © S. Radhouani 17
ISI
MRIM
Logique descriptive & RI
correspondance
⊑T
q : une requête
Physical query Physical query Physical query Physical query Physical query Physical query Physical query
doc : un document
DL
RI
RdocRq
IntroductionEtat de l’art ModèleExpérimentationsConclusions
FormalismeConnaissancesUnité d’indexationDocumentRequête
Physical document Physical document Physical document Physical document Physical document Physical document Physical document
18 juillet 2008 © S. Radhouani 18
ISI
MRIM
Langage d’interrogation---- --- ---------------------
---- --- ---------------------
---- --- ---------------------
---- --- ---------------------
---- --- ---------------------
---- --- ---------------------
Langage d’indexation
Documents ordonnés
Modèle de connaissances
Correspondance
Indexation Interrogation
Requête
IntroductionEtat de l’art ModèleExpérimentationsConclusions
Ressources externes
FormalismeConnaissancesUnité d’indexationDocumentRequête
18 juillet 2008 © S. Radhouani 19
ISI
MRIM
Modèle de connaissances
Ressource externe : K = (C, R, Dim, T)
• Concepts : C ={c1, …, cnc}
• Rôles : R = {R1, …, Rnr}
• Dimensions : Dim = {dim1, …, dimnd}
• dimi = (rac_dimi, Ci )
• rac_dimi C : racine de la hiérarchie définissant dimi
• Ci = {c C | c ⊑ rac_dimi}
• T-Box : T (connaissances du domaine)
IntroductionEtat de l’art ModèleExpérimentationsConclusions
FormalismeConnaissancesUnité d’indexationDocumentRequête
18 juillet 2008 © S. Radhouani 20
ISI
MRIM
Modèle de connaissances : exempleIntroductionEtat de l’art ModèleExpérimentationsConclusions
C = {Evénement, Personne, etc.}
R = {originaire_de, partie_de, etc.}
Dim = {Événement, Lieu géographique, Personne}
dimPersonne = (Personne, {Général,
Philippe Morillon, …})
T-Box
FormalismeConnaissancesUnité d’indexationDocumentRequête
T
Événement ⊑ TConflit des Balkans ⊑ EvénementGuerre civile d’Ex-Yougoslavie ⊑ Conflit des Balkans Conflit des Balkans ≡ ∃a_lieu_à.Balkans
Lieu géographique ⊑ TFrance ⊑ Lieu géographiqueBalkans ⊑ Lieu géographiqueEx-Yougoslavie ⊑ Lieu géographiqueEx-Yougoslavie ≡ ∃partie_de.BalkansZone de sécurité ⊑ Lieu géographiqueSerbie ⊑ Ex-YougoslavieSlovénie ⊑ Ex-YougoslavieZone de sécurité ≡ ∃créé_pendant.Conflit des Balkans
Personne ⊑ TGénéral ⊑ PersonnePhilippe Morillon ⊑ GénéralPhilippe Morillon ≡ ∃originaire_de.France
18 juillet 2008 © S. Radhouani 21
ISI
MRIM
Unité d’indexation
Produire une représentation précise du contenu sémantique des documents (requêtes)
Interpréter la sémantique véhiculée par la structure extraite des documents (requêtes)
• Se détacher de l’aspect sac de concepts• Utiliser les dimensions, concepts, et relations
ex. Interprétation de "Général français"
• élément de la dimension "Personne"• est "Général"• originaire de "France"
IntroductionEtat de l’art ModèleExpérimentationsConclusions
FormalismeConnaissancesUnité d’indexationDocumentRequête
18 juillet 2008 © S. Radhouani 22
ISI
MRIM
Unité d’indexation : élément de dimension
Tout concept d’une dimension est susceptible de constituer un élément de cette dimension lorsqu’il est utilisé dans un document ou une requête
• cidf dim : identifier edim• cdes dim : décrire edim• décrit_par : relation générique pour la modélisation
ex. edim ≡ Général ⊓ ∃originaire_de.France
Un élément d’une dimension dim est une expression ALCQ qui cherche à correspondre le plus précisément possible au concept de dim auquel il
est fait référence dans un document ou une requête.
IntroductionEtat de l’art ModèleExpérimentationsConclusions
edim ≡ cidf_1 … ⊓ ⊓ cidf_n ⊓ ∃décrit_par.cdes_1 … ⊓ ⊓ ∃décrit_par.cdes_m
FormalismeConnaissancesUnité d’indexationDocumentRequête
18 juillet 2008 © S. Radhouani 23
ISI
MRIM
Langage d’interrogation---- --- ---------------------
---- --- ---------------------
---- --- ---------------------
---- --- ---------------------
---- --- ---------------------
---- --- ---------------------
Langage d’indexation
Documents ordonnés
Représentation des documents
Correspondance
Indexation Interrogation
Requête
IntroductionEtat de l’art ModèleExpérimentationsConclusions
Ressources externes
FormalismeConnaissancesUnité d’indexationDocumentRequête
18 juillet 2008 © S. Radhouani 24
ISI
MRIM
Représentation des documents
document : doc représenté par des éléments de dimension
• Rdoc : expression ALCQ = conjonction d’éléments de dimension
• indexé_par : rôle pour associer un élément de dimension à un document
IntroductionEtat de l’art ModèleExpérimentationsConclusions
Un élément de dimension peut être pondéré (ne fait pas partie de la DL)
Rdoc est ajouté à la T-Box
Rdoc ≡ ∃indexé_par.edim1 ⊓ … ⊓ ∃indexé_par.edimn
FormalismeConnaissancesUnité d’indexationDocumentRequête
18 juillet 2008 © S. Radhouani 25
ISI
MRIM
Exemple
edim1 ≡ Philippe Morillon
edim2 ≡ Zone_de_Sécurité ⊓ ∃créé_pendant.Guerre civile d’Ex-Yougoslavie
edim3 ≡ Ex-Yougoslavie
edim4 ≡ Serbie
edim5 ≡ Slovénie
edim6 ≡ Guerre civile d’Ex-Yougoslavie
Rdoc ≡ ∃indexé_par.edim1 ⊓ ∃indexé_par.edim2 ⊓ ∃indexé_par.edim3 ⊓
∃indexé_par.edim4 ⊓ ∃indexé_par.edim5 ⊓ ∃indexé_par.edim6
IntroductionEtat de l’art ModèleExpérimentationsConclusions
FormalismeConnaissancesUnité d’indexationDocumentRequête
T-Box
Rdoc
T
Événement ⊑ TConflit des Balkans ⊑ EvénementGuerre civile d’Ex-Yougoslavie ⊑ Conflit des BalkansConflit des Balkans ≡ ∃a_lieu_à.Balkans
Lieu géographique ⊑ TFrance ⊑ Lieu géographiqueBalkans ⊑ Lieu géographiqueEx-Yougoslavie ⊑ Lieu géographiqueEx-Yougoslavie ≡ ∃partie_de.BalkansZone de sécurité ⊑ Lieu géographiqueSerbie ⊑ Ex-YougoslavieSlovénie ⊑ Ex-YougoslavieZone de sécurité ≡ ∃créé_pendant.Conflit des Balkans
Personne ⊑ TGénéral ⊑ PersonnePhilippe Morillon ⊑ GénéralPhilippe Morillon ≡ ∃originaire_de.France
18 juillet 2008 © S. Radhouani 26
ISI
MRIM
Langage d’interrogation---- --- ---------------------
---- --- ---------------------
---- --- ---------------------
---- --- ---------------------
---- --- ---------------------
---- --- ---------------------
Langage d’indexation
Documents ordonnés
Représentation des requêtes
Correspondance
Indexation Interrogation
Requête
IntroductionEtat de l’art ModèleExpérimentationsConclusions
Ressources externes
FormalismeConnaissancesUnité d’indexationDocumentRequête
18 juillet 2008 © S. Radhouani 27
ISI
MRIM
Représentation des requêtes
requête : q représentée par des éléments de dimension
• Rq : expression ALCQ = combinaison d’éléments de dimensions et d’opérateurs
• indexé_par : rôle pour associer un élément de dimension à une requête
IntroductionEtat de l’art ModèleExpérimentationsConclusions
Un élément de dimension peut être pondéré (ne fait pas partie de la DL)
Rq est ajouté à la T-Box
Rq ≡ ∃indexé_par.edim1 ⊓ … ⊓ ∃indexé_par.edimn
FormalismeConnaissancesUnité d’indexationDocumentRequête
18 juillet 2008 © S. Radhouani 28
ISI
MRIM
Exemple
edim7 ≡ Général ⊓ ∃orginaire_de.France
edim8 ≡ Zone de Sécurité ⊓ ∃créé_pendant.Conflit des Balkans
edim9 ≡ Conflit des Balkans
Rq ≡ ∃indexé_par.edim7 ⊓ ∃indexé_par.edim8 ⊓ ∃indexé_par.edim9
IntroductionEtat de l’art ModèleExpérimentationsConclusions
FormalismeConnaissancesUnité d’indexationDocumentRequête
T-Box
Rdoc
T
Événement ⊑ TConflit des Balkans ⊑ EvénementGuerre civile d’Ex-Yougoslavie ⊑ Conflit des BalkansConflit des Balkans ≡ ∃a_lieu_à.Balkans
Lieu géographique ⊑ TFrance ⊑ Lieu géographiqueBalkans ⊑ Lieu géographiqueEx-Yougoslavie ⊑ Lieu géographiqueEx-Yougoslavie ≡ ∃partie_de.BalkansZone de sécurité ⊑ Lieu géographiqueSerbie ⊑ Ex-YougoslavieSlovénie ⊑ Ex-YougoslavieZone de sécurité ≡ ∃créé_pendant.Conflit des Balkans
Personne ⊑ TGénéral ⊑ PersonnePhilippe Morillon ⊑ GénéralPhilippe Morillon ≡ ∃originaire_de.France
Rq
18 juillet 2008 © S. Radhouani 29
ISI
MRIM
Langage d’interrogation---- --- ---------------------
---- --- ---------------------
---- --- ---------------------
---- --- ---------------------
---- --- ---------------------
---- --- ---------------------
Langage d’indexation
Documents ordonnés
Correspondance
Correspondance
Indexation Interrogation
Requête
IntroductionEtat de l’art ModèleExpérimentationsConclusions
Ressources externes
FormalismeConnaissancesUnité d’indexationDocumentRequête
18 juillet 2008 © S. Radhouani 30
ISI
MRIM
La fonction de correspondance fSel
fSel(doc, q) : respecter les contraintes imposées par l’utilisateur • Calcul de la subsomption dans la T-Box• Dpert = {doc | Rdoc ⊑T Rq}
correspondance
⊑T
q : une requête
Physical query Physical query Physical query Physical query Physical query Physical query Physical query
Rdoc
doc : un document
Physical document Physical document Physical document Physical document Physical document Physical document Physical document Physical document
Rq
IntroductionEtat de l’art ModèleExpérimentationsConclusions
FormalismeConnaissancesUnité d’indexationDocumentRequête
T
Événement ⊑ TConflit des Balkans ⊑ EvénementGuerre civile d’Ex-Yougoslavie ⊑ Conflit des Balkans Conflit des Balkans ≡ ∃a_lieu_à.Balkans
Lieu géographique ⊑ TFrance ⊑ Lieu géographiqueBalkans ⊑ Lieu géographiqueEx-Yougoslavie ⊑ Lieu géographiqueEx-Yougoslavie ≡ ∃partie_de.BalkansZone de sécurité ⊑ Lieu géographiqueSerbie ⊑ Ex-YougoslavieSlovénie ⊑ Ex-YougoslavieZone de sécurité ≡ ∃créé_pendant.Conflit des Balkans
Personne ⊑ TGénéral ⊑ PersonnePhilippe Morillon ⊑ GénéralPhilippe Morillon ≡ ∃originaire_de.France
T-Box
Rdoc Rq
Philippe Morillon ⊑ Général
Zone de sécurité ≡ ∃créé_pendant.Conflit des Balkans
Philippe Morillon ≡ ∃originaire_de.France
Guerre civile d’Ex-Yougoslavie ⊑ Conflit des Balkans
Philippe Morillon
Zone de sécurité ⊓∃créé_pendant.Guerre civile
d’Ex-Yougoslavie
Général ⊓ ∃originaire_de.France
Conflit des BalkansGuerre civile d’Ex-Yougoslavie Zone de sécurité ⊓
∃créé_pendant.Conflit des Balkans
Rdoc ⊑T Rq
18 juillet 2008 © S. Radhouani 31
ISI
MRIM
La fonction d’ordonnancement fOrd
fOrd(doc, q) : classer les documents dans leur ordre de pertinence par rapport à q
• Les poids des éléments de dimension dans doc
• Les poids des éléments de dimension dans q
• Les valeurs de priorité des éléments de dimension dans q
N’est pas modélisée en DL
Utiliser une métrique existante
• Notre expérience : modèle vectoriel
IntroductionEtat de l’art ModèleExpérimentationsConclusions
FormalismeConnaissancesUnité d’indexationDocumentRequête
Rdoc
doc : un document q : une requête
Physical document Physical document Physical document Physical document Physical document Physical document Physical document Physical document
Physical query Physical query Physical query Physical query Physical query Physical query Physical query Physical query
fOrd(Rdoc,Rq)
Pertinence
Représenté par
Représenté par
Rq
18 juillet 2008 © S. Radhouani 32
ISI
MRIM
Plan
I. Introduction
II. État de l’art : ressources externes & dimensions• Indexation• Interrogation• Dimensions• Synthèse
III. Modèle de RI fondé sur les dimensions de domaine• Formalisme de représentation de connaissances • Modèle de connaissances• Unité d’indexation• Modèle de document• Modèle de requête
IV. Expérimentations
V. Conclusion
18 juillet 2008 © S. Radhouani 33
ISI
MRIM
Expériences
1. Résoudre des requêtes précises évaluer l’apport de l’usage des dimensions• Performances de recherche• Résultat de référence : modèle vectoriel sans dimensions
2. Mise en œuvre du modèle basé sur la DL• Tester la faisabilité de notre approche• Évaluer les limites du modèle
IntroductionEtat de l’art ModèleExpérimentationsConclusions
ObjectifsDonnéesRéalisationsRésultats
18 juillet 2008 © S. Radhouani 34
ISI
MRIM
Données et ressources
Collection ImageCLEFmed-2005• 50,026 documents (Anglais, Français, Allemand)
• 25 requêtes
ex. "show me x-ray images with fracture of the femur"
Dimensions : Modalité, Pathologie, Anatomie
Ressource externe : UMLS• Meta thésaurus (≥ 1 million d’entrées)• Réseau sémantique (135 Types sémantiques)
IntroductionEtat de l’art ModèleExpérimentationsConclusions
ObjectifsDonnéesRéalisationsRésultats
18 juillet 2008 © S. Radhouani 35
ISI
MRIM
Indexation
Construction manuelle des dimensions• Anatomie : "Anatomical Structure" + "Body System" + "Body Space or Junction" +
"Body Location or Region" ;• Pathologie : "Pathologic Function" + "Finding" + "Injury or Poisoning" ;• Modalité : "Diagnostic Procedure" + "Manufactured Object".
Indexation conceptuelle• Outil adapté aux documents en anglais
Identification des éléments de dimension• Défini par un concept• Si c dim, alors c est un élément de la dimension dim
Pondération des éléments de dimension• Modèle vectoriel : variante du tf*idf (LTC)
IntroductionEtat de l’art ModèleExpérimentationsConclusions
ObjectifsDonnéesRéalisationsRésultats
18 juillet 2008 © S. Radhouani 36
ISI
MRIM
Interrogation
T1: Un document est considéré pertinent s'il contient les trois dimensions présentes dans la requête
Anatomie ⊓ Pathologie ⊓ Modalité
T2 : Un document est considéré pertinent s'il contient au moins une des dimensions de la requête
Anatomie ⊔ Pathologie ⊔ Modalité
T3 : Un document pertinent doit contenir l'anatomie, sinon la pathologie, sinon la modalité
AnatomiePriorité=1 PathologiePriorité=2 ModalitéPriorité=3
T4 : Un document est considéré pertinent s'il contient les dimensions anatomie et pathologie
(Anatomie ⊓ Pathologie) ⊔ Modalité
IntroductionEtat de l’art ModèleExpérimentationsConclusions
ObjectifsDonnéesRéalisationsRésultats
18 juillet 2008 © S. Radhouani 37
ISI
MRIM
Apport de l’usage des dimensions
Précision
TestMoyenne à 5 docs à 10 docs
Baseline 0.1451 0.2720 0.2440
%à 10 docs%à 5 docs%MoyennePrécision
Test
+32.780.3240+29.410.3520+8.820.1579T3
+60.650.3920+44.110.3920+20.050.1742T4
+27.860.3120+23.520.3360+5.720.1534T2
+36.590.3333+29.550.3524-1.610.1428T1
IntroductionEtat de l’art ModèleExpérimentationsConclusions
ObjectifsDonnéesRéalisationsRésultats
Baseline : modèle vectoriel•Variante du tf*idf (LTC)•Sac de concepts
Notre approche
18 juillet 2008 © S. Radhouani 38
ISI
MRIM
Mise en œuvre du modèle
1. Identification des éléments de dimension• document Traitement Automatique des Langues• requête interface
2. Construction de la T-Box• être humain DL vs. Machine langage adéquat (OWL)• outil basé sur des heuristiques
v Fonction de Correspondance calcul de la subsomption• raisonneur existant
1. Pellet [Sirin et al. 04]
v Ordonnancement des documents• modèle vectoriel
IntroductionEtat de l’art ModèleExpérimentationsConclusions
ObjectifsDonnéesRéalisationsRésultats
18 juillet 2008 © S. Radhouani 39
ISI
MRIM
Plan
I. Introduction
II. État de l’art : ressources externes & dimensions• Indexation• Interrogation• Dimensions• Synthèse
III. Modèle de RI fondé sur les dimensions de domaine• Formalisme de représentation de connaissances • Modèle de connaissances• Unité d’indexation• Modèle de document• Modèle de requête
IV. Expérimentations
V. Conclusion
18 juillet 2008 © S. Radhouani 40
ISI
MRIM
Conclusion
Modèle de RI capable de résoudre des requêtes précises
• Fondé sur les dimensions de domaine• Mettre en exergue les éléments pertinents dans un domaine particulier
• Nouvelle unité d’indexation : l’élément de dimension• Définie par des dimensions, concepts, et relations
• Langages de document et de requête expressifs• Représenter la sémantique véhiculée par la structure extraite des
documents (requêtes)
IntroductionEtat de l’art ModèleExpérimentationsConclusions
BilanPerspectives
18 juillet 2008 © S. Radhouani 41
ISI
MRIM
Conclusion
Modélisation à base de la Logique Descriptive
• Représentation uniforme des documents, requêtes, et connaissances• Fonction de correspondance
• Correspondance entre un document et une requête qui ne partagent pas les mêmes termes
• La subsomption n’est pas suffisante définir des propriétés transitives• Flexibilité : utiliser n’importe quelle relation … mais
Résultats expérimentaux• Prise en compte des dimensions améliore les performances de recherche
IntroductionEtat de l’art ModèleExpérimentationsConclusions
BilanPerspectives
18 juillet 2008 © S. Radhouani 42
ISI
MRIM
Perspectives
Quantifier l’apport de l’approche mise en œuvre de l’intégralité du modèle
• Extraction des éléments de dimension• Traitement automatique de la langue
Fonction d'ordonnancement adéquate au contexte de RI orientée précision
• Étudier la notion de pertinence• Collaboration avec des utilisateurs professionnels (ex. médecins)
• Intégrer les pondérations dans le modèle
Construction automatique des dimensions [Radhouani 07]• Évaluation [Dakka et al.06, Stoica et al.06]
Développement d’une interface interactive• Test d’utilisabilité
IntroductionEtat de l’art ModèleExpérimentationsConclusions
BilanPerspectives
ISI
MRIMLIGCUI
Un modèle de Recherche d’Information orienté précision fondé sur les
dimensions de domaine
Directeurs de thèse :
Jean-Pierre CHEVALLET, UJF
Yves CHIARAMELLA, UJF
Gilles FALQUET, UniGe
Saïd RADHOUANI
18 juillet 2008