utilisation raisonnée de connaissances sémantiques pour la recherche dinformation le cas de...

28
Utilisation raisonnée de connaissances sémantiques pour la Recherche d’Information Le cas de l’expansion de requêtes par « voisins distributionnels » Mardi 11 Octobre 2005 Aurélie Picton

Upload: mahaut-hamelin

Post on 03-Apr-2015

103 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Utilisation raisonnée de connaissances sémantiques pour la Recherche dInformation Le cas de lexpansion de requêtes par « voisins distributionnels » Mardi

Utilisation raisonnée de connaissances sémantiques pour

la Recherche d’Information

Le cas de l’expansion de requêtes par « voisins

distributionnels »

Mardi 11 Octobre 2005Aurélie Picton

Page 2: Utilisation raisonnée de connaissances sémantiques pour la Recherche dInformation Le cas de lexpansion de requêtes par « voisins distributionnels » Mardi

2

Plan

Contexte de l’expérimentation Outils Démarche et Résultats Discussion Perspectives

Page 3: Utilisation raisonnée de connaissances sémantiques pour la Recherche dInformation Le cas de lexpansion de requêtes par « voisins distributionnels » Mardi

Contexte de l’expérimentation

Page 4: Utilisation raisonnée de connaissances sémantiques pour la Recherche dInformation Le cas de lexpansion de requêtes par « voisins distributionnels » Mardi

4

Projet ARIEL

ARIEL : Adaptation d’une chaîne de Recherche d’Information à l’Expression des besoins sur la base de traitements Linguistiques. Collaboration IRIT/ERSS

Complémentarité des connaissances des domaines informatiques et linguistiques

Étude de différentes techniques et ressources linguistiques pour la Recherche d’Information

Page 5: Utilisation raisonnée de connaissances sémantiques pour la Recherche dInformation Le cas de lexpansion de requêtes par « voisins distributionnels » Mardi

5

Problématique (?)

La requête = quelques mots clefs (moyenne = 2.21 selon Jansen, Spink et Saracevic, 2000) Ex : Révolte au Chiapas

Problème : souvent incomplet ou inadéquat

Traitement possible : l’expansion de requêtes

Page 6: Utilisation raisonnée de connaissances sémantiques pour la Recherche dInformation Le cas de lexpansion de requêtes par « voisins distributionnels » Mardi

6

Définition

l’expansion de requêtes :

« A process of adding new terms to a given query in attempt to provide better contextualization (and hopefully retrieve documents which are more useful to the user) » (Baeza-Yates, Ribeiro-Neto, 1999, p449).

Page 7: Utilisation raisonnée de connaissances sémantiques pour la Recherche dInformation Le cas de lexpansion de requêtes par « voisins distributionnels » Mardi

7

Objectif

Mise en place d’un premier contexte d’expérimentation d’expansion de requêtes par ressources linguistiques : Reproductible Ressources inédites : les « voisins

distributionnels » Les données issues de l’analyse

distributionnelle automatique sont-elles de bonnes candidates dans le cadre de l’expansion de requêtes?

Page 8: Utilisation raisonnée de connaissances sémantiques pour la Recherche dInformation Le cas de lexpansion de requêtes par « voisins distributionnels » Mardi

Outils

Page 9: Utilisation raisonnée de connaissances sémantiques pour la Recherche dInformation Le cas de lexpansion de requêtes par « voisins distributionnels » Mardi

9

Upery : outil d’analyse distributionnelle automatique (1)

Analyse Distributionnelle (Z.S. Harris)

« On peut décrire toute langue par une structure distributionnelle, c’est-à-dire par l’occurrence des parties (et, en dernière analyse, des sons), relativement les unes aux autres, et cette description n’exige pas que l‘on fasse appel à d’autres caractéristiques, telles que l’histoire ou le sens. » (« La Structure Distributionnelle », 1952, repris par D. Maingueneau, 1991, p71).

Page 10: Utilisation raisonnée de connaissances sémantiques pour la Recherche dInformation Le cas de lexpansion de requêtes par « voisins distributionnels » Mardi

10

Upery (2) L’analyse distributionnelle

automatique « Rapprochement des couples d’unités

retrouvées dans des contextes syntaxiques identiques » Analyse syntaxique d’un gros corpus

(LM10) avec Syntex (D. Bourigault et al., 2005)

Prédicats qui se construisent avec les mêmes arguments et vice-versa Exemple : troupe/intervention : envoi des

troupes en Tchétchénie, intervention en Tchétchénie, troupes russes, intervention russe

Page 11: Utilisation raisonnée de connaissances sémantiques pour la Recherche dInformation Le cas de lexpansion de requêtes par « voisins distributionnels » Mardi

11

Plate-forme RFIEC

Plate-forme RFIEC (Recherche d’information, Filtrage d’Information, Extraction de Connaissances) Développée dans le cadre du projet ARIEL www.irit.fr/RFIEC Modules paramétrables

Indexation de requêtes Recherche et Évaluation :: évaluation « à la

TREC »

Page 12: Utilisation raisonnée de connaissances sémantiques pour la Recherche dInformation Le cas de lexpansion de requêtes par « voisins distributionnels » Mardi

Démarche et Résultats

Page 13: Utilisation raisonnée de connaissances sémantiques pour la Recherche dInformation Le cas de lexpansion de requêtes par « voisins distributionnels » Mardi

13

Données

Corpus Corpus CLEF 2001 (français)

Collection : 45000 documents Le Monde 94 50 requêtes CLEF associées

44 exploitables et exploitées 2 sources de voisins

Adgc et Upery 4 Traitement (par défaut)

Suppression des mots vides (liste par défaut)

Troncation à 7 Suppression des accents Principalement sur les requêtes Titres

Page 14: Utilisation raisonnée de connaissances sémantiques pour la Recherche dInformation Le cas de lexpansion de requêtes par « voisins distributionnels » Mardi

14

Exemple de requête expansée Requête 80 Totale : DF 20.10

<num>80 </num><title> Grèves de la faim Grèves de la faim</title><desc> Les documents contiendront des informations sur une

grève de faim menée afin d'attirer l'attention pour une cause. Les documents contiendront des informations sur une grève de faim menée afin d'attirer l'attention pour une cause. </desc>

<narr> Donner des exemples où la grève de la faim a été menée. Faire part également des raisons de la grève et de ce qu'il en est résulté. Donner des exemples où la grève de la faim a été menée. Faire part également des raisons de la grève et de ce qu'il en est résulté.  

</narr>

reclame commenc presentrefugie harceleobserveexpulseneutral reserve effectu

Page 15: Utilisation raisonnée de connaissances sémantiques pour la Recherche dInformation Le cas de lexpansion de requêtes par « voisins distributionnels » Mardi

15

Démarche (1)

Comparaison des résultats Précision à 5, 10, 15, 20, Moyenne

P5-20 Recherche de base Blind Feedback (« Retour à

l’aveugle ») Expansion à partir de t termes

sélectionnés dans les n premiers textes ramenés lors d’une recherche de base

Page 16: Utilisation raisonnée de connaissances sémantiques pour la Recherche dInformation Le cas de lexpansion de requêtes par « voisins distributionnels » Mardi

16

Démarche (2)

3 Hypothèses : Hypothèse 1 : aucune sélection

Adgc sans sélection Upery sans sélection

Hypothèse 2 : sur bases linguistiques Upery sans V Upery sans A

Hypothèse 3 : Feedback Distributionnel (DF)

Expansion à partir de t voisins sélectionnés dans les n premiers textes ramenés lors d’une recherche de base

Upery V seuls Upery N seuls

Page 17: Utilisation raisonnée de connaissances sémantiques pour la Recherche dInformation Le cas de lexpansion de requêtes par « voisins distributionnels » Mardi

17

Résultats (RequêtesTitre) (1)

Blin

d F

eed

back

Rech

erc

he d

e

Base

Page 18: Utilisation raisonnée de connaissances sémantiques pour la Recherche dInformation Le cas de lexpansion de requêtes par « voisins distributionnels » Mardi

18

Résultats (RequêtesTitre) (2)

  BF Adgc sans sélection

DF

Nombre de requêtes améliorées

10

Nombre de requêtes dégradées

21

  BF Adgc sans sélection

DF

Valeur moyenne Gain 0,1029

Valeur moyenne Perte -0,0623

  BF Adgc sans sélection

DF

Valeur maximale de gain 0,2083

Valeur maximale de perte -0,2375

25 12

-0,1917 -0,1215

-0,6292-0,5042

5 11

0,0692 0,0663

0,1083 0,1667

Requêtes modifiées

Moyennes de Gain/Perte

Valeurs maximales de Gain/Perte

Page 19: Utilisation raisonnée de connaissances sémantiques pour la Recherche dInformation Le cas de lexpansion de requêtes par « voisins distributionnels » Mardi

Discussion

Page 20: Utilisation raisonnée de connaissances sémantiques pour la Recherche dInformation Le cas de lexpansion de requêtes par « voisins distributionnels » Mardi

20

Remarques générales

Dégradation des performances MAIS

Résultats sur la moyenne masquent certaines performances (C. De Loupy, 2000)

Observation locale des requêtes pour trouver des comportements généralisables?

Page 21: Utilisation raisonnée de connaissances sémantiques pour la Recherche dInformation Le cas de lexpansion de requêtes par « voisins distributionnels » Mardi

21

Observation locale

Certaines requêtes sont améliorées/dégradéesPourquoi?

Difficile à dire à ce stade : Pas assez de textes pertinents par

requêtes Jeu de requêtes restreint

Page 22: Utilisation raisonnée de connaissances sémantiques pour la Recherche dInformation Le cas de lexpansion de requêtes par « voisins distributionnels » Mardi

22

Analyse statistique

Nombre de méthodes d’expansion qui entraînent une modification

Ampleur de la modification

Observation « statistique » : Analyse en Composantes Principales

• Pas d‘homogénéité apparente Mise au jour de comportements isolés non généralisables

Page 23: Utilisation raisonnée de connaissances sémantiques pour la Recherche dInformation Le cas de lexpansion de requêtes par « voisins distributionnels » Mardi

23

Expansion : quelques observations

Des explications « ad hoc » Invasion des troupes russes en Tchéchénie =

>Tchétchène L’affaire du sang contaminé => séropositif

Le poids et éthique

Catégories grammaticales Adjectifs : Intervention des troupes russes =>

israélien allemand italien américain chinois européen étranger britannique local français espagnol régional irakien anglais national bosniaque japonais occidental serbe iranien algérien palestinien belge militaire international indépendant tchétchène turque arabe croate indien africain serbe libanais, etc.

Clonage

Page 24: Utilisation raisonnée de connaissances sémantiques pour la Recherche dInformation Le cas de lexpansion de requêtes par « voisins distributionnels » Mardi

24

Sources d’expansion

Répartition selon la source de l’expansion? Opposition des résultats Adgc et Upery sur

certaines requêtes Appuyé par une Classification Ascendante

Hiérarchique

Adgc Upery 4

Mais toujours : Existe-t-il des caractéristiques généralisables au

niveau des requêtes qui permettent de prédire

l’efficacité et d’adapter l’expansion ?

Page 25: Utilisation raisonnée de connaissances sémantiques pour la Recherche dInformation Le cas de lexpansion de requêtes par « voisins distributionnels » Mardi

Perspectives

Page 26: Utilisation raisonnée de connaissances sémantiques pour la Recherche dInformation Le cas de lexpansion de requêtes par « voisins distributionnels » Mardi

26

Perspectives (1)

De nouvelles données Vers des requêtes totales

Premiers résultats encourageants sur DF Plus de requêtes, plus de textes

De nouveaux voisins Évolution d’Upery (D. Bourigault & E.

Galy, 2005)

Page 27: Utilisation raisonnée de connaissances sémantiques pour la Recherche dInformation Le cas de lexpansion de requêtes par « voisins distributionnels » Mardi

27

Perspectives (2)

De nouvelles possibilités sur la plate-forme Lemmatisation, conservation des

accents

Vers des corrélations de traits Travaux de M. Vergez-Couret

Page 28: Utilisation raisonnée de connaissances sémantiques pour la Recherche dInformation Le cas de lexpansion de requêtes par « voisins distributionnels » Mardi

28

Éléments bibliographiques

BAEZA-YATES, R. & B. RIBEIRO-NETO (1999), Modern Information Retrieval, ACM Press, Addison Wesley, New York.

BOURIGAULT, D. (2002) « UPERY : un outil d’analyse distributionnelle étendue pour la consultation d’ontologies à partir de corpus », In Actes de la 9ème conférence annuelle sur le Traitement Automatique des Langues (TALN 2002), Nancy, pp75-84.

BOURIGAULT, D. & E. GALY (2005) « Les Voisins de Le Monde : Une base lexicale distributionnelle du français construite à partir d'un gros corpus », Communication orale, In 4èmes Journées de Linguistique de corpus, Lorient,15-17 septembre 2005.

BOURIGAULT D., FABRE C., FRÉROT C., JACQUES M.-P. & S. OZDOWSKA (2005) « Syntex, analyseur syntaxique de corpus », In Actes de la 12e conférence annuelle sur le Traitement Automatique des Langues (TALN 2005), Dourdan, 6-10 juin 2005.

DE LOUPY, C. (2000), Évaluation de l'apport de connaissances linguistiques en désambiguïsation sémantique et recherche documentaire, Thèse de doctorat en informatique de l'Université d'Avignon et des Pays de Vaucluse.

EFTHIMIADIS, E.N. (1996) « Query expansion », In Williams, M.E. (ed.), Annual Revieew of Information Systems and Technology (ARIST), volume 31, pp121-187.

GREFENSTETTE, G. (1992) « Use of syntactic context to produce term association lists for information retrieval », In Actes de la 15ème Conférence Annuelle Internationale ACM-SIGIR sur la Recherche et le Développement en Recherche d’Information,(SIGIR), pages 89—97.

GREFENSTETTE, G. (1994), Exploration in Automatic Thesaurus Discovery, Kluwer Academic Publishers, Londres.

HARRIS, Z.S. (1968) Mathematical Structures of Language, New-York, John Wiley & Sons. JANSEN, B.J., SPINK, A. & SARACEVIC, T. (2000) « Real Life, Real Users, and Real Needs : A Study and

Analysis of User Queries on the Web », In Information Processing & Management, volume 36(2), pp207-227.

SALTON, G. & C., BUCKLEY (1990) « Improving retrieval performance by relevance feedback », In Journal of the American Society for Information Sciences, volume 41(4), pp288-297.

MAINGUENEAU, D. (1991) L’analyse du discours : introduction aux lectures de l’archive, Hachette, Paris. VOORHEES, E. (1993) « On expanding query vectors with lexically related words », In Donna K. Harman (ed.),

TREC-2 (Text REtrieval Conference), pp223-231.VOORHEES, E.M. (1994) « Query expansion using lexical-semantic relations », In Actes de la 17ème

Conférence Annuelle Internationale ACM-SIGIR sur la Recherche et le Développement en Recherche d’Information, Dublin, Irlande, pp61-69.