mémoire dea système d'information management and...

60
Mémoire DEA Système d'Information Management and Technology of Information Systems Titre : Expérience sur l'utilisation de conjonctions de termes et la prise en compte des dépendances entre termes d'indexation dans le cadre du filtrage adaptatif. Le 27 juin 2003 Etudiant : BISIAUX Cédric Encadré par : Brouard Christophe

Upload: others

Post on 06-Oct-2020

6 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Mémoire DEA Système d'Information Management and …mrim.imag.fr/publications/2003/BC001/memoire_DEA_bisiaux_cedric.pdf · Mémoire DEA Système d'Information Management and Technology

Mémoire DEA Système d'InformationManagement and Technology of Information Systems

Titre :Expérience sur l'utilisation de conjonctions de termes et

la prise en compte des dépendances entre termes d'indexationdans le cadre du filtrage adaptatif.

Le 27 juin 2003

Etudiant : BISIAUX Cédric

Encadré par : Brouard Christophe

Page 2: Mémoire DEA Système d'Information Management and …mrim.imag.fr/publications/2003/BC001/memoire_DEA_bisiaux_cedric.pdf · Mémoire DEA Système d'Information Management and Technology
Page 3: Mémoire DEA Système d'Information Management and …mrim.imag.fr/publications/2003/BC001/memoire_DEA_bisiaux_cedric.pdf · Mémoire DEA Système d'Information Management and Technology

RESUME

L'objet de ce mémoire est la présentation d'une évolution du système RELIEFS(RELevance Information Fuzzy System). RELIEFS est un système de filtrage adaptatif dedocuments textuels. Il se base sur la présence ou l'absence de termes pour sélectionner ourejeter les documents qui lui sont présentés, et il utilise le retour de pertinence de l'utilisateur(oui ce document est pertinent, non ce document ne l'est pas) pour s'adapter à la demande del'utilisateur. Dans sa version actuelle, le système considère la présence des termesindépendamment les uns des autres. Il ne tient, par exemple, pas compte du contexte danslequel le mot est employé (autres mots présents dans son voisinage) et des relations desynonymie ou d'hyperonymie qui peuvent exister avec d'autres mots (cette fois-ci hors dudocument présenté). Bien que la première version du système donne des résultatssatisfaisants, une évolution consiste à prendre en compte ces aspects (écartées dans la majeurepartie des modèles de recherche d'information). Sur la base de travaux antérieurs et d'uneanalyse de la notion de dépendance, nous avons proposé une solution intégrant la notion decontexte. Nous avons implémenté cette solution et nous l'avons expérimenté sur un corpus decommuniqués de presse utilisé dans le cadre de la conférence TREC11.

Mots-clefs : Filtrage adaptatif, pertinence, dépendances, conjonctions de mots, système derecherche d'information.

ABSTRACT

The report deals with a the presentation of an evolution of the system RELIEFS (RELevanceInformation Fuzzy System). RELIEFS is a system of adaptive filtering of textual documents.It is based on the presence or the absence of terms to select or reject the documents which arepresented to him and it uses the return of relevance of the user (yes this document is relevant,not this document is not it) to adapt at the request of the user. In its current version, thesystem considers the presence of the terms independently to each other. It does not hold forexample not account of the context in which the word is employed (other words present in itsvicinity) and of the relations of synonymy or hyperonymy which can exist with other words(this time out of the document presented). Although the first version of the system givessatisfactory results, an evolution consists in taking into account these aspects (isolated in themajor part of the models of search for information). On the basis of former work and ananalysis of the concept of dependence, we proposed a solution integrating the concept ofcontext. We implemented this solution and tried out we it on a corpus of press releases usedwithin the framework of conference TREC11.

Keywords: Adaptive filtering, relevance, dependences, words conjunctions, retrievalinformation system.

Page 4: Mémoire DEA Système d'Information Management and …mrim.imag.fr/publications/2003/BC001/memoire_DEA_bisiaux_cedric.pdf · Mémoire DEA Système d'Information Management and Technology
Page 5: Mémoire DEA Système d'Information Management and …mrim.imag.fr/publications/2003/BC001/memoire_DEA_bisiaux_cedric.pdf · Mémoire DEA Système d'Information Management and Technology

REMERCIEMENTS

Je tiens à remercier mon responsable de stage, Christophe Brouard, pour tous sesconseils, commentaires et explications. Je le remercie pour l'écoute qu'il m'a apporté et quim'a permit de bien amorcer et de faire évoluer cette recherche.

je remercie aussi l'équipe MRIM qui a constituée un agréable cadre de travail. Lesréunions de l'équipe ont apporté beaucoup d'échanges et de discussions. Les présentations quiy ont été faites, ont permis de partager des points de vue, mais aussi de lever desinterrogations sur les recherches exposées et ainsi les faire évoluer.

Enfin, je remercie Céline et Raymond pour leur soutien et pour la correction dudocument, ainsi que leurs commentaires.

Page 6: Mémoire DEA Système d'Information Management and …mrim.imag.fr/publications/2003/BC001/memoire_DEA_bisiaux_cedric.pdf · Mémoire DEA Système d'Information Management and Technology
Page 7: Mémoire DEA Système d'Information Management and …mrim.imag.fr/publications/2003/BC001/memoire_DEA_bisiaux_cedric.pdf · Mémoire DEA Système d'Information Management and Technology

TABLE DES MATIERES

7

TABLE DES MATIERES

1 INTRODUCTION..........................................................................................................92 EXPOSE DE LA PROBLEMATIQUE.........................................................................10

2.1 Présentation de la tâche de filtrage..............................................................................102.1.1 La tâche de filtrage en général..............................................................................102.1.2 Les sous-tâches de TREC.....................................................................................11

2.2 Les systèmes de filtrages ............................................................................................122.2.1 Formule de Rocchio.............................................................................................122.2.2 Formule OKAPI...................................................................................................13

2.3 Présentation de RELIEFS ...........................................................................................142.3.1 Représentation des documents et requêtes ............................................................14

2.3.1.a Construction du réseau associatif...................................................................142.3.1.b Règle d'apprentissage ....................................................................................15

2.3.2 Fonction de correspondance.................................................................................152.3.4 Réglage des seuils du système..............................................................................16

2.4 Ce que l'on veut faire ..................................................................................................172.4.1 Les conjonctions ..................................................................................................172.4.2 Les dépendances ..................................................................................................17

3 INDEXATION PAR CONJONCTION DE TERMES ET PRISE EN COMPTE DESDEPENDANCES DANS LES MODELES DE RI................................................................18

3.1 Modèles de RI ............................................................................................................183.2 Prise en compte des dépendances................................................................................19

3.2.1 L'extension de requête..........................................................................................193.2.2 Illustration du problème de dépendance ...............................................................20

3.3 Utilisation de conjonctions de termes..........................................................................203.4 Modèle vectoriel.........................................................................................................21

3.4.1. Représentation des documents et requêtes ...........................................................213.4.1.a Les schémas de pondération ..........................................................................223.4.1.b Combinaison des pondérations ......................................................................24

3.4.2 Fonction de correspondance.................................................................................243.4.3 Prise en compte des dépendances dans le modèle vectoriel...................................25

3.4.3.a Modèle Latent Semantic Indexing .................................................................253.4.3.b Modèle DSIR [Besançon 2002] .....................................................................28

3.4.4 Conjonctions de termes dans le modèle vectoriel..................................................313.5 Modèle logique...........................................................................................................32

3.5.1 Représentation des documents et requêtes ............................................................323.5.2 Fonction de correspondance.................................................................................333.5.3 Evolution du modèle logique de base ...................................................................333.5.4 Prise en compte des dépendances dans le modèle logique ....................................343.5.5 Conjonctions dans le modèle logique ...................................................................34

3.6 Modèle probabiliste ....................................................................................................353.6.1 Représentation des documents et de la requête .....................................................353.6.2 Fonction de correspondance.................................................................................363.6.3 Prise en compte des dépendances dans le modèle probabiliste..............................363.6.4 Conjonctions dans le modèle probabiliste.............................................................37

Page 8: Mémoire DEA Système d'Information Management and …mrim.imag.fr/publications/2003/BC001/memoire_DEA_bisiaux_cedric.pdf · Mémoire DEA Système d'Information Management and Technology

TABLE DES MATIERES

8

3.7 Modèle de réseaux de neurones...................................................................................373.7.1 Représentation des documents et Requêtes...........................................................373.7.2 Les fonctions de correspondances ........................................................................38

3.7.2.a Approche par mesure du cosinus [Wilkinson et Hingston 1991] ....................393.7.2.b Approche probabiliste d'un réseau de neurone [Kwok 1995]..........................40

3.7.3 La prise en compte des dépendances dans le modèle des réseaux de neurones......413.7.4 Conjonctions dans le modèle des réseaux de neurones .........................................41

4 MODIFICATION DE RELIEFS EN VUE DE LA PRISE EN COMPTE DESCONJONCTIONS DE TERMES ET DE LA DEPENDANCE ENTRE LES TERMESD'INDEXATION .................................................................................................................43

4.1 Le modèle...................................................................................................................434.1.1 Construction des conjonctions..............................................................................434.1.2 Analyse du problème de dépendances ..................................................................45

4.2 Validation...................................................................................................................464.2.1 Expériences .........................................................................................................48

4.2.1.a Première expérience ......................................................................................494.2.1.b Seconde expérience.......................................................................................504.2.1.c Troisième expérience.....................................................................................51

4.2.2 Discussion ...........................................................................................................534.2.2.a Expérience 1..................................................................................................534.2.2.b Expérience 2 .................................................................................................544.2.2.c Expérience 3..................................................................................................544.2.2.d Evolution du système ....................................................................................55

5 Conclusion ........................................................................................................................57BIBLIOGRAPHIE ...............................................................................................................58

Page 9: Mémoire DEA Système d'Information Management and …mrim.imag.fr/publications/2003/BC001/memoire_DEA_bisiaux_cedric.pdf · Mémoire DEA Système d'Information Management and Technology

INTRODUCTION

9

1 INTRODUCTION

Ce sujet de DEA traite de la prise en compte des dépendances entre termes pourl'indexation de documents textuels. Cet aspect est rarement traité dans les modèles derecherche d'information du fait des difficultés de traitement introduites, et de la relativeabsence d'amélioration généralement constatée.

Ainsi, le calcul de la contribution d'un mot dans l'évaluation de la pertinence dudocument dans lequel il survient n'intègre généralement pas les autres mots présents dans ledocument. On sommera par exemple les contributions de deux mots synonymes comme onsomme les contributions de deux mots qui n'ont pas de rapport l'un avec l'autre. En se plaçantdans l'espace des sens et non dans celui des termes, on peut pourtant légitimement sedemander si finalement, dans le cas des synonymes, on ne commet pas l'erreur de compterdeux fois une contribution qui devrait n'être comptée qu'une fois.

Par ailleurs, la présence d'un mot particulier dans un texte est précisée par les autresmots présents dans le même texte (contexte). Un mot peut décrire plusieurs sens (polysémie),et cette richesse du langage est compréhensible pour un lecteur, car il se sert du contexte pourlever l'ambiguïté. Mais cette richesse devient problématique pour les systèmes de recherched'information puisqu'il faut alors modéliser ces dépendances. Il semble ainsi important detenir compte de la présence des autres mots du document pour évaluer la contribution d'unmot particulier, car ces derniers peuvent en modifier ou en préciser le sens.

Dans le cadre de ce mémoire de DEA, nos recherches ont pour but la prise en comptede ces dépendances en les incluant dans la fonction qui évalue la correspondance entrerequêtes et documents (appelée communément fonction de correspondance). Dans notreétude, le système qui est utilisé est le système RELIEFS [Brouard 2002a], qui est un systèmepour le filtrage adaptatif de documents textuels. Nous essayons de faire évoluer ce systèmeafin d'y inclure une solution de traitement de ces dépendances au travers de sa fonction decorrespondance.

L'articulation de ce document est la suivante : dans le chapitre deux, nous exposeronsla problématique qui est liée au sujet. Dans le chapitre trois, nous verrons comment cettedépendance est traitée dans les modèles majeurs de la recherche d'information. Le quatrièmechapitre présentera la solution que l'on propose, ainsi que les expériences qui nous permettentde l'évaluer. Le dernier chapitre conclut sur ce stage et présente les réflexions que noussuggérons dans cette recherche et les perspectives de ces travaux.

Page 10: Mémoire DEA Système d'Information Management and …mrim.imag.fr/publications/2003/BC001/memoire_DEA_bisiaux_cedric.pdf · Mémoire DEA Système d'Information Management and Technology

EXPOSE DE LA PROBLEMATIQUE

10

2 EXPOSE DE LA PROBLEMATIQUE

2.1 Présentation de la tâche de filtrage

2.1.1 La tâche de filtrage en général

Dans la plupart des systèmes de recherches d'informations, les documents demeurentrelativement statiques tandis que de nouvelles requêtes sont soumises au système. Ce modeopérationnel se nomme la recherche "ad hoc", qui est la plus commune des tâches utilisateur.Dans le cadre du filtrage, au contraire la requête reste relativement statique tandis que denouveaux documents sont injectés dans la base (ou la quittent). On retrouve ce type desituations dans le cadre des systèmes de bourses en lignes1 ou les sites d'informations enlignes2.

Dans la tâche de filtrage [Belkin et Croft 1992], un profil utilisateur doit décrire lespréférences de l'utilisateur. Un tel profil est alors comparé aux documents entrants afind'essayer de déterminer ceux qui pourraient être intéressants pour cet utilisateur particulier.Actuellement, cette approche est utilisée pour sélectionner un article parmi une collectiond'articles entrant chaque jour pour les systèmes de dépêches. D'autres scénarii potentiels pourl'application du filtrage sont inclus dans le choix des décisions juridiques ou des articles dujournal quotidien.

Concrètement, la tâche de filtrage permet simplement d'indiquer à l'utilisateur lesdocuments qui sont susceptibles de l'intéresser. Le système de filtrage détermine lesdocuments qui sont vraiment pertinents et qui méritent d'être présentés à l'utilisateur. Si aucunordre n'est présenté à l'utilisateur, la tâche de filtrage met en place dans son processus unordonnancement interne pour déterminer les documents pertinents. Par exemple, tous lesdocuments supérieurs à un seuil donné sont sélectionnés. Les autres sont alors écartés. Dans latâche de filtrage, l'étape importante consiste en la construction d'un profil utilisateur quireflète correctement les préférences de cet utilisateur. De nombreuses approches pourconstruire les profils utilisateurs ont été proposées. En voici quelques-unes :

Une approche simpliste pour la construction d'un profil utilisateur est de construire ceprofil en utilisant, pour le décrire, des mots-clés qui seront fournis par l'utilisateur lui-même.Cette approche est simpliste car elle fait appel à l'utilisateur à tous les niveaux. En fait, sil'utilisateur n'est pas familier du processus donnant les documents, il pourrait trouver assezdifficile de fournir les mots-clés qui décrivent convenablement ses préférences dans cecontexte. En outre, une tentative par l'utilisateur de se familiariser avec le vocabulaire desdocuments pourrait se transformer en exercice pénible et long. Ainsi, bien que ceci soit unepossibilité, nous ne pouvons demander à l'utilisateur de décrire précisément son profil, carceci serait laborieux.

Une alternative est de collecter des informations sur les préférences de l'utilisateurpour construire un profil utilisateur de manière dynamique. Au début, l'utilisateur fournit unensemble de mots-clés décrivant ses préférences afin de permettre au système de construire unprofil initial. A l'arrivée de nouveaux documents, le système utilise le profil utilisateur pourchoisir les documents pouvant potentiellement l'intéresser. Par un processus de retour depertinence ("Relevance feedback" en anglais), l'utilisateur n'indique pas seulement les

1 Exemple le site de boursorama.com,2 exemple le site de l'AFP ou les services dépêches de moteur de recherche comme voilà.fr ou encore lesjournaux comme lemonde.fr

Page 11: Mémoire DEA Système d'Information Management and …mrim.imag.fr/publications/2003/BC001/memoire_DEA_bisiaux_cedric.pdf · Mémoire DEA Système d'Information Management and Technology

EXPOSE DE LA PROBLEMATIQUE

11

documents pertinents mais aussi les documents non-pertinents (figure 2.1). Le système utiliseces informations pour ajuster la description du profil utilisateur qui reflètera les nouvellespréférences. Cette procédure provoque une évolution constante du profil utilisateur. Ce profilse stabilise après plusieurs recherches, une fois que le profil est défini au plus proche despréférences utilisateur.

La difficulté majeure du filtrage est de décrire le mieux possible les préférencesutilisateur au sein de son profil. L'approche la plus commune est de collecter les informationssur l'utilisateur pour constituer ce profil, extraire ses préférences de ces informations, etmodifier le profil en concordance.

2.1.2 Les sous-tâches de TREC

La conférence annuelle Text REtrieval Conference3 est organisée chaque année sousl'égide du National Institute of Standards and Technology (NIST) sous le patronage de laDARPA. Elle offre un forum d’évaluation et de discussions pour la communauté scientifiquequi se consacre au traitement automatique des textes en général, et au filtrage en particulier.Un ensemble de tâches différentes est proposé aux différents participants qui soumettent desrésultats à autant de tâches qu'ils le souhaitent. Certaines tâches font uniquement appel à desapproches issues du traitement automatique du langage naturel. D'autres, comme la tâche defiltrage, nécessitent l'utilisation de méthodes à base de statistiques. Une description généralede la onzième édition de cette conférence (TREC-2002) peut-être trouvée dans [Voorhees etBuckland, 2002].

La tâche de filtrage proposée à TREC se décompose en trois sous-tâches :

3 Toutes les informations et publications relatives à cette conférence sont disponibles sur : http://trec.nist.gov

flux de documents document courant rejetutilisateur

sélection

retour de pertinence(oui ,pertinent ou

non, pas pertinent)

Figure 2.1 : Représentation d'un système de filtrage

Figure 0

Page 12: Mémoire DEA Système d'Information Management and …mrim.imag.fr/publications/2003/BC001/memoire_DEA_bisiaux_cedric.pdf · Mémoire DEA Système d'Information Management and Technology

EXPOSE DE LA PROBLEMATIQUE

12

1. Le filtrage adaptatif (adaptive filtering) consiste à construire un premiermodèle grâce à une requête formulée en langage naturel, puis à simuler un flux dedocuments. Le système peut tirer parti de la pertinence ou de la non-pertinence desdocuments sélectionnés pour s’améliorer au fil du temps.

2. Le filtrage par lots (batch filtering) consiste à utiliser une base de documentspréalablement étiquetés pour construire un modèle. Pour chaque document d’un flux,le système doit prendre une décision binaire et peut utiliser, comme précédemment, laclasse des documents sélectionnés pour s’améliorer.

3. Pour le routage (routing), le système dispose également d’une base dedocuments étiquetés pour l’apprentissage. Les documents de la base de test doiventêtre ensuite ordonnés, du plus pertinent au moins pertinent. Le système ne doit doncpas effectuer une décision binaire, mais il doit être capable de calculer un score depertinence.

Il est toujours possible de passer du routage au filtrage par lots en considérant que lesdocuments dont le score est au-dessus d’un certain seuil sont pertinents. Il est nécessaire dechoisir un "bon" seuil, ce qui n'est pas trivial : un système performant pour le routage peutêtre médiocre pour le filtrage par lots si le seuil n'est pas correctement choisi.

2.2 Les systèmes de filtrages

Les systèmes de filtrages représentent les profils utilisateurs par une liste de termespondérés. Ces systèmes sont conçus à partir de deux ingrédients principaux. Le premierconcerne la mise à jour des poids associés aux termes. Le second concerne le calcul de lacorrespondance entre les documents et les profils.

2.2.1 Formule de Rocchio

La formule de Rocchio [Rocchio 1971] propose un mode de calcul des poids. Elletransforme automatiquement une requête initiale (représentée par un vecteur de termes notéQ0) en une nouvelle requête (représentée par un vecteur noté Q1). Un ensemble de documentsrépondant à la requête initiale est proposé à un utilisateur qui les jugent (retour de pertinence).La nouvelle requête Q1 est construite grâce à la formule de Rocchio, dont l’idée est d’ajouter àla requête initiale les termes des documents pertinents et de lui retrancher les termes desdocuments non pertinents :

 Œ -Œ-

-+=Rd RNd

dRN

dR

QQ)(

01gba (2.1)

Dans cette formule, les documents sont représentés par un vecteur d, R est l’ensembledes documents pertinents, |R| son cardinal et |N| le nombre total de documents de lacollection; le triplet (a, b, g) est choisi en fonction de l’importance que l’on souhaite donner àchaque terme.

La principale motivation est qu’en pratique, la requête originale (Q0) peut contenird'importantes informations. Par ailleurs, les informations contenues dans les documents

Page 13: Mémoire DEA Système d'Information Management and …mrim.imag.fr/publications/2003/BC001/memoire_DEA_bisiaux_cedric.pdf · Mémoire DEA Système d'Information Management and Technology

EXPOSE DE LA PROBLEMATIQUE

13

pertinents sont souvent plus importantes que les informations contenues dans les documentsnon-pertinents. C'est ce que suggère la constante g qui est inférieure à la constante b. Uneapproche alternative est de prendre g=0, ce qui nous ramène à une stratégie positive de"feedback".

Cette formule de mise à jour des poids peut être associée à différents modèlesclassiques de RI pour le calcul de la correspondance entre documents et requêtes (modèlevectoriel ou modèle probabiliste).

2.2.2 Formule OKAPI

Le modèle probabiliste Okapi, dont les idées sont développées par Robertson, prend encompte la fréquence des termes dans les documents. Il a été testé plusieurs fois avec succèspour les campagnes TREC [Robertson et al 1994]. Ce modèle inclut un mode particulier demise à jour des poids que nous détaillons ici.

Ce modèle utilise l'idée d'expansion de requête en fonction du retour d'informationsobtenu des documents pertinents. Le retour d'informations est l'apport de nouveaux termes quipermettent de désigner la composition possible d'un document que l'on juge pertinent.

Le calcul des poids des termes dans le système OKAPI évolue en fonction desdocuments pertinents déjà trouvés par le système. Il repose sur la formule de Robertson etSparck Jones [Robertson et Sparck Jones 1976] :

)5.0/()5.0()5.0/()5.0(log)1(

++--+-+-+=

rRnNrnrRrw

où N est le nombre de document de la collectionn est le nombre de document contenant le termeR est le nombre de document pertinents connus pour une requête donnér est le nombre de document pertinents contenant le terme

La fonction permettant de décrire le score d'un document est la suivante :

Π+

-+++

++

QT dlavdldlavdlQk

qtfkqtfk

tfKtfkw .)1()1(

23

31)1(

où Q représente la requête contenant les termes TK est égale à k1((1-b)+b.dl/avdl)k1, k2, k3 sont des paramètres qui dépendent de la nature de la requêtetf est la fréquence d'occurrence d'un terme pour un document donnéqtf est la fréquence du terme dans la requêtedl et avdl sont respectivement la longueur du document et la longueur moyenne

des documents

L'évolution du système repose sur l'évolution de la requête. Cette évolution tient dufait que lors de retours d'informations du système, sur les documents pertinents, le systèmeordonne les termes présents dans ce document pertinent en fonction du poids de ces termes.Ce classement des termes, qui évolue à chaque retour de pertinence, permet de faire évoluer la

Page 14: Mémoire DEA Système d'Information Management and …mrim.imag.fr/publications/2003/BC001/memoire_DEA_bisiaux_cedric.pdf · Mémoire DEA Système d'Information Management and Technology

EXPOSE DE LA PROBLEMATIQUE

14

requête. En effet, le système sélectionne les x premiers termes de cette ordre afin de lesinclure dans la requête de base. Ces termes sélectionnés dépendent ainsi de leur position dansl'ordonnancement qui est fait après chaque arrivée de documents jugés pertinents pour larequête.

Le formule de mise à jour peut être combinée à d'autres formules pour le calcul de lacorrespondance (exemples : modèle vectoriel ou probabiliste).

2.3 Présentation de RELIEFS

Le système RELIEFS [Brouard 2000a] (RElevance Information Extraction FuzzySystem) est un système pour le filtrage adaptatif de documents textuels. Son fonctionnements'inspire des mécanismes cognitifs pour les processus de sélection d'informations. Ce systèmerepose sur un ensemble de mécanismes de base renvoyant à la notion d'activation et depropagation d'activation pour la sélection d'informations "pertinentes". Ce système a étéimplémenté et testé pour la tâche de filtrage adaptatif de TREC-9 [Brouard et Nie 2000] etTREC-2002 [Brouard 2002a]. La formalisation de la pertinence se définit comme unerésonance dans un réseau de concept associé.

2.3.1 Représentation des documents et requêtes

2.3.1.a Construction du réseau associatif

Dans le cadre de la sélection de documents textuels, les stimulis sont représentés parles différents termes (ou mots) des documents. La requête est symbolisée par le nœud requêtequi représente la pertinence d'un document. Le nœud requête est unique et distinct pourchaque requête présentée au système. Un réseau, liant les nœuds représentant les différentsmots présents dans les documents et le nœud requête, est mis à jour continuellement (figure2.2).

mot i

(représentation du document)

(représentation de la requête)

pertinence

Connexionsassociatives

Figure 2.2 : Réseau construit et mis à jour par RELIEFS [Brouard 2002b]

Page 15: Mémoire DEA Système d'Information Management and …mrim.imag.fr/publications/2003/BC001/memoire_DEA_bisiaux_cedric.pdf · Mémoire DEA Système d'Information Management and Technology

EXPOSE DE LA PROBLEMATIQUE

15

Lorsqu'un document se présente, les termes présents dans ce document vont activer lesnœuds correspondants dans le réseau et agir comme des indices de la pertinence du document.Un bon indice est un terme dont la résonance avec le nœud requête est importante (les deuximplications sont fortes tiÆQ et QÆti). La pertinence globale du document est calculée sur labase de l'ensemble des mots vis-à-vis du nœud requête. Pour adapter le système au besoin del'utilisateur, le système doit apprendre à partir des retours de pertinence (relevance feedback)provenant de l'utilisateur pour les documents qui lui ont été proposé par le systèmeprécédemment. Cet apprentissage consiste à modifier la valeur des connexions entre les motset le nœud requête.

2.3.1.b Règle d'apprentissage

Etant donné un document et un jugement de pertinence, il faut mettre à jour lesconnexions présentes dans la structure. Soient WAB(k-1) et WABk les évaluations de laconnexion orientée du nœud A vers le nœud B, avant et après la prise en compte de la kième

observation (un couple document jugement de pertinence, que l'on note). Soit mA(ok) unevaleur indiquant la présence ou l'absence de l'objet A dans Ok (1 si présent et 0 si absent). Larègle d'apprentissage proposée est :

)(

)().()1(

kA

kBkAkABABk O

OOWw

ma

mma

+

+= - avec Â

-

=

=1

1

)(k

ikA Oma (2.2)

Dans notre cas, A et B correspondent respectivement à un mot (représenté par unnœud du document) et à la "pertinence" (représentée par un nœud requête) ou inversement. Larègle fonctionne de la façon suivante :

- Si A et B sont présents dans l'observation, la connexion de A vers B et laconnexion inverse sont renforcées. On prend ainsi en compte le jugement del'utilisateur en augmentant le poids des mots apparaissant dans le document jugépertinent.

- Si A est présent et B ne l'est pas, la connexion de A vers B est affaiblie et laconnexion inverse reste inchangée. Si A est un mot et B le nœud requête, cecirevient à affaiblir le poids attribué à un mot qui apparaît dans un document jugécomme non pertinent par l'utilisateur. Si A est le nœud requête et B est un mot,ceci revient à affaiblir le poids attribué à un mot qui n'apparaît pas dans undocument jugé comme pertinent par l'utilisateur.

Le numérateur de la règle (2.2) correspond précisément à la forme générale de la règlede Hebb dont le principe est associatif (si deux nœuds sont activités simultanément, leursconnexions sont renforcées). Le dénominateur permet de normaliser le poids. La règleassociative présentée permet donc simplement de calculer de façon incrémentale la fréquencerelative de documents pertinents sachant la présence d'un mot ainsi que la fréquence d'un motdans les documents pertinents.

2.3.2 Fonction de correspondance

La fonction de pertinence pour un document est évaluée par une résonance. Afind'évaluer la pertinence entre un document et une requête, [Brouard 2002b] décompose ces

Page 16: Mémoire DEA Système d'Information Management and …mrim.imag.fr/publications/2003/BC001/memoire_DEA_bisiaux_cedric.pdf · Mémoire DEA Système d'Information Management and Technology

EXPOSE DE LA PROBLEMATIQUE

16

évaluations en calculant la résonance de chacun des mots présents dans les documents. Laqualité de résonance d'un mot indique sa capacité à propager l'activation vers le nœud requêteet à recevoir une activation de ce même nœud. Le poids de la connexion orientée du mot ivers le nœud requête est appelé WiR et le poids de la connexion inverse est appelé WRi. Ainsi,la résonance entre le mot i et la requête est représentée par le produit de ces deux poidsWiR.WRi. L'absence d'un mot est donc d'autant plus pénalisante que ce mot est résonant avec larequête, c'est-à-dire que WiR.WRi est grand. Elle correspond à l'idée que l'absence d'un relaisde l'activation entraînerait une dissipation de l'activation et ne favoriserait pas l'émergenced'un état de résonance. Le profil est donc représenté comme dans les autres systèmes defiltrage adaptatif par une liste de termes i pondérés par WiR.WRi . La fonction decorrespondance se traduit par la somme des produits pour chacun des mots présents. Afin denormaliser cette somme, elle est rapportée à la même somme pour l'ensemble des mots (tousles mots appartenant au document). L'évaluation de la pertinence d'un document D pour unerequête Q s'écrit alors :

ÂÂ

=

i

iRRi

i

iRRi

WW

WWQDR *),( (2.3)

où i* sont les indices des termes présents dans le document.

Le produit WiR.WRi a une interprétention en termes de propagation d'activation. [Brouard2002b] prend aussi en compte qu'il s'agit de fréquences relatives, et par conséquent il adopteune interprétation plus empirique. Ainsi, un mot important (un mot dont la présence influe demanière significative sur la décision de prendre ou non le document qui le contient) est unmot qui est assez fréquemment présent lorsqu'un document est pertinent. La prise en comptede WiR permet de sélectionner de bons "prédicteurs". La prise en compte de WRi permet desélectionner parmi ces "prédicteurs" ceux qui surviennent le plus fréquemment, c'est-à-direceux pour lesquels la qualité de prédiction a le moins de chance d'être liée à la présencefortuite du mot dans quelques documents pertinents et ceux qui seront plus susceptibles d'êtreprésents dans les prochains documents pertinents, et donc le plus susceptible d'être utiles auxfutures prises de décision concernant la pertinence des documents. On notera que la prise encompte de WRi permet aussi d'éviter les mots qui sont simplement très présents comme lesmots vides qui sont donc plus présents que les autres mots dans les documents pertinents sanspour autant être "réellement" liés au thème sur lequel porte la requête. Il s'agit des mots quisont écartés dans le modèle vectoriel sur la base idf. Ces mots correspondent aussi, dans lecadre des méthodes de propagation d'activation, aux nœuds à forte connectivité, nœuds àéviter si l'on ne souhaite pas activer tout le réseau.

2.3.4 Réglage des seuils du système

Afin que RELIEFS puisse s'adapter à la tâche de filtrage [Brouard 2002b], il fautpouvoir définir le score à partir duquel le système peut sélectionner le document. Le seuiloptimal dépend de la requête et de l'apprentissage réalisé sur les précédents documentssélectionnés. Dans RELIEFS, cette mise à jour de ces seuils dépend des règles suivantes :

- Si un document sélectionné n'est pas pertinent, le seuil est augmenté (onconsidère que le système est trop tolérant).

Page 17: Mémoire DEA Système d'Information Management and …mrim.imag.fr/publications/2003/BC001/memoire_DEA_bisiaux_cedric.pdf · Mémoire DEA Système d'Information Management and Technology

EXPOSE DE LA PROBLEMATIQUE

17

- Si un document (qu'il soit pertinent ou pas) n'est pas sélectionné, le seuil estabaissé (on considère que le système est trop sélectif).

Ces seuils permettent de régler le Bruit ou le Silence du système. L'amplituded'augmentation ou de diminution des seuils dépend de différents critères :

- Le nombre de documents non pertinents consécutifs sélectionnés. Plus cenombre est important, plus l'augmentation est forte et la diminution estfaible.

- Le nombre de documents pertinents consécutifs (uniquement pour ladiminution). Plus ce nombre est important, plus la diminution est forte.

- Le nombre de documents traités (on prend plus de risque au début qu'à lafin). Plus ce nombre est important moins l'amplitude de la variation estforte.

- La densité de documents pertinents estimée, c'est-à-dire le nombre dedocuments pertinents trouvés sur le nombre de documents traités.

2.4 Ce que l'on veut faire

2.4.1 Les conjonctions

Actuellement, les nœuds ne représentent que des termes simples. Ainsi, pourreprésenter un document contenant les mots a, b, et c on active les 3 nœuds représentantrespectivement a, b et c. Notre souhait est de construire des nœuds représentant a&b; a&c,b&c, a&b&c de façon à tenir compte du contexte dans lesquels les mots surviennent.

Par exemple, il est possible que seulement 10% des documents soient pertinentslorsque a ou b sont présents, et que 95% des documents soient pertinents lorsque a ET b sontprésents simultanément. Il est impossible de tenir compte de ce type de situation si l'on nedispose pas d'une représentation indépendante des conjonctions. Les conjonctions permettenten outre d'interpréter un mot dans son contexte (les mots intégrés dans la même conjonction)

L'évolution que nous proposons consiste donc à construire des conjonctions et à lesinclure dans l'évaluation de la pertinence des documents.

2.4.2 Les dépendances

Dans le cadre des conjonctions, il existe une dépendance entre la conjonction elle-même et les termes qui la composent. Il faut pouvoir quantifier cette dépendance afin que leurrôle soit équilibré dans les fonctions de correspondance. Le problème vient du poids que l'onattribut à ces termes. Le but de ce travail est de leur attribuer un poids qui tient compte de laprésence et de l'utilisation des termes composants.

Page 18: Mémoire DEA Système d'Information Management and …mrim.imag.fr/publications/2003/BC001/memoire_DEA_bisiaux_cedric.pdf · Mémoire DEA Système d'Information Management and Technology

ETAT DE L'ART

18

3 INDEXATION PAR CONJONCTION DE TERMES ET PRISE ENCOMPTE DES DEPENDANCES DANS LES MODELES DE RI

3.1 Modèles de RI

Le but d'un système est de stocker des informations (textuels, images, son, vidéo …) etde retrouver dans sa base les éléments qui correspondent aux critères qui sont exposés dans larequête. Un système de recherche d'informations permet à un utilisateur d'exprimer un besoinau travers d'une requête, souvent écrite en langage naturel, qui est traitée par le système. Cesystème renvoie à un ensemble de documents, tiré d'une collection de documents, qui sontcensés être liés à la recherche de l'utilisateur. Il s'agit donc d'un système de sélectiond'informations qui évalue la correspondance entre les différents documents d'une collection etla requête de l'utilisateur.

Selon [Baeza-Yates et Ribeiro-Neto 1999], un modèle de recherche d'informations sedéfini par un quadruplet {D, Q, ¡, R(qi, dj)} (figure 3.1).où :

- D est un ensemble de représentations pour les documents de la collection.- Q est un ensemble de représentations de la demande d'informations de l'utilisateur,

cette représentation est appelée requête.- ¡ est le système qui modélise les documents, la requête et les relations qui

existent.- R(qi, dj) est la fonction de correspondance qui associe un nombre réel à une

requête qi Œ Q et la représentation d'un document dj Œ D. Cette fonction peutfournir un ordonnancement des documents par rapport à la requête qi.

Figure 3.1 : Représentation de l’architecture d’un système de recherche d’informations(encadré) et de ses entrées et sorties.

Représentationde la requête

Fonction decorrespondance

Représentationdes documents

Requête(exprimant un

besoind'information)

Documents

Documentsordonnés

Page 19: Mémoire DEA Système d'Information Management and …mrim.imag.fr/publications/2003/BC001/memoire_DEA_bisiaux_cedric.pdf · Mémoire DEA Système d'Information Management and Technology

ETAT DE L'ART

19

La construction d'un modèle de recherche d'informations se symbolise en premier parune représentation des documents et des informations utiles exprimées par l'utilisateur, etd'une fonction de correspondance qui évalue la pertinence d'un document par rapport à unerequête. Cette fonction de correspondance correspond le plus souvent à l'évaluation du degréde satisfaction des critères de recherche exprimés dans la requête en effectuant unecomparaison de la représentation du document et de la requête (identification, par exemple,des mots de la requête avec les mots-clefs représentants le document). Mais il existe d'autrestypes de relations qui peuvent symboliser cette pertinence.

3.2 Prise en compte des dépendances

On peut remarquer que dans la plupart des modèles de base en RI, l'hypothèsed'indépendance des termes est automatiquement faite afin de faciliter la complexité descalculs. Le principal problème des systèmes d'informations est que souvent les mots utiliséspour définir la requête ne sont pas identiques aux mots servant à indexer le document qui estmalgré tout pertinent pour cette requête. Ce problème tient du langage, car les mots utiliséspeuvent être polysémiques ou synonymes d'un terme d'indexation. L'utilisation de synonymefait référence au fait qu'il peut y avoir plusieurs façons d'exprimer un même concept.L'utilisation des ces différents termes dépend souvent du contexte, du domaine, des habitudeslinguistiques ou encore de l'auditoire dans lequel il est utilisé. La prise en compte dessynonymes tend à faire baisser la mesure de "Rappel" du système. Par polysémie, nousfaisons référence au fait qu'un mot peut avoir plusieurs sens distincts. Dans différentscontacts, où l'utilisation par différentes personnes peut faire varier le sens du mot, l'utilisationde ces mots dans une requête peut apporter en réponse des documents non pertinents pour larequête, car n'ayant pas le même contexte. La polysémie est un facteur qui fait baisser la"Précision" d'un système.

Ce problème d'indexation, selon [Deerwester et al. 1990], peut être imputé à troisfacteurs. Le premier facteur est que la manière d'identifier les termes d'indexations estincomplète. Les termes qui sont utilisés pour décrire ou indexer un document sont seulementune fraction des termes possibles utilisables par les utilisateurs pour rechercher cesdocuments. Ceci parce que le document lui-même ne contient pas la totalité des termespouvant le décrire et ainsi ces documents ne seront pas retrouvés.

Le second facteur est le manque de méthode pour traiter la polysémie. Des pistes sontdonnées par Deerwester et bien d'autres peuvent être données, mais le but premier est detraiter correctement le sens du mot, d'où une importance de tenir compte du contexte danslequel évoluent ces mots, comme dans le cadre de l'hypothèse de sémantique distributionnelle[Besançon 2002].

Le troisième et dernier facteur est plus technique. On remarque (comme il vous seraprésenté par la suite) dans les systèmes de recherche d'informations que l'indépendance destermes est faite pour faciliter les traitements de ces systèmes, ce qui implique que la prise encompte des dépendances entre termes oblige de modifier ces modèles. Cette dépendance destermes (synonymie et polysémie) doit être prise en compte car elle tient un rôle important,comme on peut le constater dans l'illustration suivante.

3.2.1 L'extension de requête

L'extension de requête est une modification de la requête de base qui est soumise ausystème. Cette modification consiste à augmenter la quantité d'informations de la requête

Page 20: Mémoire DEA Système d'Information Management and …mrim.imag.fr/publications/2003/BC001/memoire_DEA_bisiaux_cedric.pdf · Mémoire DEA Système d'Information Management and Technology

ETAT DE L'ART

20

(ajout de nouveaux termes). Pour l'extension de requête, il est souvent utilisé des thésaurus(dictionnaire de termes ayant une relation conceptuelle entre eux), de termes co-occurrent.L'augmentation de la requête permet d'étendre les correspondances avec les documents.

3.2.2 Illustration du problème de dépendance

Nous allons illustrer ce problème de termes au sein des systèmes de recherched'informations en utilisant une matrice terme-document (table 3.1).

En dessous de cette table, on donne la requête qui est soumise à cette base de données.Un "R" dans la colonne Pert (pertinent) indique que l'utilisateur a jugé le document pertinentpour cette requête (ici les documents 1 et 3 sont pertinents). Les termes ressortant de larequête et des documents (informatique et information) sont indiqués par un astérisque dans lacase correspondante; "M" dans la colonne Ret (retrouvé) indique que le document a étéretrouvé et que le système l’a retourné à l'utilisateur. Les documents 1 et 2 illustrent leproblème exprimé précédemment. Le document 1 est un document pertinent, mais ne contientaucun mot de la requête, ce qui implique que ce document ne soit pas retrouvé par le système.Le document 2 n'est pas pertinent mais il contient les termes de la requête, ce qui impliqueque lui soit retrouvé par le système, malgré que le contexte de ce document ne correspondepas au contexte exprimé par la requête. Notez que dans cet exemple, aucune information designification de la requête n'est trouvée. De ce fait, il n'y a aucune possibilité d'empêcher quele document 2 ne soit pas retrouvé.

3.3 Utilisation de conjonctions de termes

L'utilisation de termes simples sert souvent pour indexer les documents et les requêtes.Mais dans le langage naturel, il existe des conjonctions de termes qui représentent des motscomposés ou des expressions complexes. La difficulté pour un système est de pouvoiridentifier ces conjonctions, ce qui signifie savoir s'il faut prendre en compte la conjonction ouchaque terme qui le compose de manière dissociée. Dans le cas des multi-termes, certainssystèmes utilisent des patrons morpho-syntaxiques pour pouvoir identifier les multi-termesdans un document ou une requête [Jacquemin et al. 1997], mais ces multi-termes peuvent êtreprésentés dans un document selon différentes variations :

- Les variations morphologiques ; les expressions peuvent varier en raison devariations flexionnelles ou dérivationnelles : pluriel, conjugaison ou remplacement

accès document recherche information théorie base dedonnées

indexation informatique Pert Ret

Doc1

x x x x x R

Doc2

x* x x* M

Doc3

x x* x* R M

Requête : "IDF en informatique pour la collecte d'information"

Table 3.1 : Exemple d'une matrice terme-document

Page 21: Mémoire DEA Système d'Information Management and …mrim.imag.fr/publications/2003/BC001/memoire_DEA_bisiaux_cedric.pdf · Mémoire DEA Système d'Information Management and Technology

ETAT DE L'ART

21

d'un mot par un mot de même racine mais de nature syntaxique différente (peupler,peuple, peuplement)

- Les variations syntaxiques ; les modifications d'expressions peuvent provenir devariations syntaxiques de différentes natures :

• Coordination : combinaison de deux termes avec un mot de tête communou un argument commun par exemple "élection présidentielle etlégislative"

• Substitution/modification : la substitution est le remplacement d'un mot parun multi-terme, la modification est l'insertion d'un modificateur à un autreterme : par exemple "République fédérale tchèque" est une substitution de"République tchèque" si "République fédérale" est un multi-terme (sinonc'est une modification). La synapse est une modification ou seuls les motsde liaisons changent (par exemple "consommation de l'oxygène" est unevariation synaptique de "consommation d'oxygène").

- Les variations sémantiques ; un multi-terme peut être remplacé par un synonyme.

Les conjonctions de termes ne sont pas constituées que de multi-termes, elles peuventêtre composées de termes simples non directement proches (qui ne se suivent pasdirectement). Une conjonction de termes peut apporter un autre sens que les termes qui lacomposent. Ce sens, dans certain cas, peut être totalement différent du sens qui est apporté parchaque terme qui le compose. Il est évident que la conjonction de termes à une relation dedépendance (pour le sens) avec chacun de ces termes composant.

3.4 Modèle vectoriel

Le modèle vectoriel standard (ou VS : Vector Space) est un modèle de recherched'information très connu. Il intègre dans un espace vectoriel une représentation qui symboliseles documents ou les requêtes en fonction des termes d'indexation qui les composent. Laforme d'implémentation la plus connue du modèle vectoriel est le système de recherchedocumentaire SMART [Salton 1971], [Salton and McGill 1983].

3.4.1. Représentation des documents et requêtes

Ce modèle représente les requêtes et les documents sous forme de vecteurs qui sontplacés dans un espace vectoriel spécifique. Nous présentons ici une représentation graphique(Figure 3.2) qui montre deux vecteurs documents et un vecteur requête présents dans le mêmeespace vectoriel.

Page 22: Mémoire DEA Système d'Information Management and …mrim.imag.fr/publications/2003/BC001/memoire_DEA_bisiaux_cedric.pdf · Mémoire DEA Système d'Information Management and Technology

ETAT DE L'ART

22

Figure 3.2 : Représentation des vecteurs document et requête

Dans le cas de la recherche documentaire, ces vecteurs sont composés decaractéristiques. Une caractéristique _i correspond généralement à un terme appelé aussiterme d'indexation (ceci peut être un mots clef du document) et le vecteur représente le poidsde chacun des termes. Si on considère m caractéristiques pour un document et n termesprésents dans une requête, on peut par exemple définir les vecteurs ainsi :

),..,,..,( ,,,1 jmjijj wwwd =

),..,,..,( ,,,1 qnqiq wwwq=

où jd est le vecteur représentant le document j, wi,j représente le poids qui la

caractérise _i pour le document jd , q quant à lui, représente le vecteur de la requête, wi,q

représente le poids de la caractéristique _i dans le vecteur q . Ainsi, dans le cadre de larecherche d'informations, le poids équivaut à 0 si le terme d'indexation qui y correspondn'apparaît pas dans la requête, et 1 s'il est présent dans la requête. Il en est de même pour laprésence d'un terme dans le document.

3.4.1.a Les schémas de pondération

La pondération qui est accordée à un document d contenant un certain termed'indexation tj a fait l'objet de nombreuses études [Salton and Buckley 1988] qui prennent engénéral en compte des facteurs de pondération locale, de pondération globale et denormalisation en fonction de la taille du document.

La pondération locale :

Ce type de pondération prend en compte les informations locales du terme qui nedépendent que du document. Cette pondération correspond à une fonction de la fréquence

Page 23: Mémoire DEA Système d'Information Management and …mrim.imag.fr/publications/2003/BC001/memoire_DEA_bisiaux_cedric.pdf · Mémoire DEA Système d'Information Management and Technology

ETAT DE L'ART

23

d'occurrence du terme dans le document, elle est notée tf (term fréquency). C'est le nombre defois où le terme est présent dans le document. Les fonctions les plus utilisées sont lessuivantes :

- Facteur tf : il indique le nombre d'occurrences d'un terme donné dans le document.- Facteur binaire : il prend pour valeur 1 si le terme est présent dans le document, et a

pour valeur 0 si le terme n'est pas présent. Ce facteur est utilisé pour lesreprésentations de type ensembliste. Il permet aussi de donner une base decomparaison par rapport aux autres pondérations locales.

- Facteur logarithmique : Ce facteur est une fonction logarithmique de la fréquence duterme dans le document, valant :

Wl(d,ti)= )log(1 tf+

Cette fonction est proposée par [Buckley et al 1992], elle montre qu'un termed'une requête, qui est présent un grand nombre de fois dans un document, n'est pasplus pertinent qu'un document contenant un petit nombre de fois plusieurs termes de larequête. D'où l'importance qu'un plus grand nombre d'occurrences d'un terme dans undocument ne soit pas prédominant par rapport à un plus petit nombre d'occurrences deplusieurs termes.

- Facteur augmenté [Salton et Buckley 1998] : il permet de réduire les différences entrevaleurs pour les poids accordés aux termes du document. Il accorde pour tous termesprésents dans le document une valeur minimale, et un poids ne dépassant pas unevaleur maximale pour les termes présents plusieurs fois :

tftf

max*5.05.0)t(d,W il +=

Pondération globale :

La pondération globale contrairement à la pondération locale s'intéresse auxinformations concernant les termes et dépendant de la collection de documents. Ainsi, unepondération qui prend en compte l'importance d'un terme dans toute la collection améliore lesperformances dans le cadre de la recherche d'informations [Salton et al.1975]. Un poids plusimportant doit être donné aux termes qui apparaissent le moins fréquemment dans lacollection, car les termes d'indexations qui sont utilisés dans de nombreux documents ont unpouvoir discriminant moins important que ceux présents dans peu de documents. Le facteurde pondération globale dépend de l'inverse de la fréquence en documents, comme parexemple le facteur idf (inverted document frequency) [Salton et al.1975], valant pour unecollection de document D.

))(

log()(i

ittf

Dtidf =

Où |D| représente le nombre de documents de la collection et tf(ti) la fréquence du terme ti (leterme considéré) dans l'ensemble des documents de la collection.

Page 24: Mémoire DEA Système d'Information Management and …mrim.imag.fr/publications/2003/BC001/memoire_DEA_bisiaux_cedric.pdf · Mémoire DEA Système d'Information Management and Technology

ETAT DE L'ART

24

Normalisation :

La normalisation est la prise en compte de la taille du document par rapport à lapondération locale ou globale qui sont des pondérations qui ne la prennent pas en compte. Eneffet, la taille d'un document joue un rôle dans le style et le vocabulaire qui est utilisé dans cedocument. Les documents qui sont très longs auront tendance à utiliser les même termes defaçon répétée, ce qui a une importance dans le calcul des facteurs. Un document long peutcomporter aussi pour des raisons stylistiques un grand nombre de synonymes d'un terme pouréviter les répétitions.

3.4.1.b Combinaison des pondérations

La donnée de ces trois fonctions de pondération locale, globale et de normalisationforme un schéma de pondération qui est repéré dans le système SMART de la manièresuivante :

Le poids du terme t dans le document d= (la pondération locale de t dans d)*(la pondération globale de t)*(la normalisation de d)

que l'on peut noter aussi:

( ) ( ) ( ) ( )dwtwtdwdtw ngl ,,1 =

où w1(t,d) représente le poids du terme t qui apparaît dans un document d, wl(d,t) est lapondération locale du terme t dans le document d, wg(t) la pondération globale du terme t etwn(d) facteur de normalisation du document d. On utilise souvent la pondération suivantepour un terme ti

W(t,d)= tf.idf

3.4.2 Fonction de correspondance

Pour le calcul d'une similarité dans un document par rapport à une requête, la mesuredu cosinus est le plus souvent utilisée dans le cadre du modèle vectoriel. Elle représente lecosinus de l'angle entre le vecteur représentant la requête et celui représentant le document :

( )qdqddq

j

jj

.,cos =r

en reprenant les définitions de q et dj citées au début de ce chapitre :

),..,,..,( ,,,1 jmjijj wwwd =

),..,,..,( ,,,1 qnqiq wwwq=

Page 25: Mémoire DEA Système d'Information Management and …mrim.imag.fr/publications/2003/BC001/memoire_DEA_bisiaux_cedric.pdf · Mémoire DEA Système d'Information Management and Technology

ETAT DE L'ART

25

on obtient:

( )Â Â

Â

= =

==m

i

n

iqiji

m

i

qiji

j

ww

wwdq

1 1

2,

2,

1

,,

cos ,r (3.1)

Cette mesure est indépendante de la norme des vecteurs représentant les documents, cequi permet d'éviter d'augmenter les valeurs des similarités entre les documents plus longs. Lecosinus est une forme de normalisation. Cette mesure est une généralisation des mesuresensemblistes, c'est à dire une intersection (représentée par le produit scalaire) qui estnormalisée par la norme des vecteurs.

3.4.3 Prise en compte des dépendances dans le modèle vectoriel

Dans le cadre des modèles vectoriels simples, il est souvent fait l'hypothèse simplistede l'orthogonalité des axes, ce qui signifie l'indépendance des termes, puisque dans l'espacevectoriel de représentation, les axes représentent les termes. Cette représentation poseproblème lorsqu'on essaye de prendre en compte des termes synonymes, car un même senspeut être décrit par différents termes qui ne seront jamais considérés comme identiques aveccette représentation.

Certaines solutions pour remédier à ce problème ont été proposées pour tenir comptedes dépendances sémantiques dans le cadre du modèle vectoriel. Elles consistent à construireun espace dans lequel les axes ne sont plus orthogonaux en se basant sur les dépendancescalculées pour les différents termes.

Nous allons voir dans la suite de ce chapitre deux modèles qui, en se basant sur lemodèle vectoriel simple, essaient de palier ce problème de dépendance en prenant en comptel'aspect sens et concept des documents et des requêtes. Le premier modèle vu et le modèleLSI qui se base sur la décomposition des termes d'indexations, puis nous continuerons sur lemodèle DSIR [Besançon 2002] qui, lui, repose sur l'hypothèse de sémantique distributionnelleet se focalise sur les co-occurrences des termes.

3.4.3.a Modèle Latent Semantic Indexing

Latent Semantic Indexing (LSI) est un modèle algébrique de recherche de documentsbasé sur la décomposition des termes d'indexations au travers l'espace vectoriel. C'est unevariante du modèle vectoriel qui tente de prendre en compte, pour la représentation desdocuments, la structure sémantique des unités linguistiques, qui sont implicites (ici latent),représentées par leurs dépendances cachées [Deerwester et al. 1990] et [Furnas et al. 1988].

Ainsi, le but de LSI est de transformer une représentation standard par des mots clésen une autre représentation qui permet de "meilleurs" résultats. Ce qui signifie que lesdocuments et les requêtes sémantiquement similaires seront plus proches avec lareprésentation transformée qu'avec les mots-clés.

L'idée est de se placer dans un nouvel espace (généralement plus petit), espace associéau concept. Ceci peut être accomplit en plaçant les vecteurs des termes d'indexations dansl'espace dimensionnel où les dimensions sont indépendantes et réduites. Cette nouvelledimension est une combinaison linéaire des anciennes dimensions. Le problème est que la

Page 26: Mémoire DEA Système d'Information Management and …mrim.imag.fr/publications/2003/BC001/memoire_DEA_bisiaux_cedric.pdf · Mémoire DEA Système d'Information Management and Technology

ETAT DE L'ART

26

recherche dans un espace réduit doit être supérieure à la recherche dans l'espace des termesd'indexations.

LSI utilise une matrice X (terme ¥ documents) qui est composée des vecteurs mots-clés des requêtes et de documents comme pour le modèle vectoriel standard. Ensuite, unedécomposition de la matrice X est effectuée. Cette décomposition en valeur singulière(appelée aussi SVD : Singular Value Decomposition) de cette matrice X (le symbolisme estreprésenté sur la figure 3.3) permet de créer un nouvel espace vectoriel :

X=T0 S0 D'0

Où X est la matrice de document-terme original (de taille t ¥ d), T0 est une matrice de taille t¥ m, D'0 est une matrice de taille m ¥ d et S0 est une matrice diagonale de taille m ¥ m qui esttrié dans l'ordre croissant. Il existe juste une seule décomposition de cette façon.

La représentation par mots-clés contient beaucoup de bruits, ces bruits se retrouventdans les dimensions de S0 qui ont des valeurs faibles. Le modèle LSI supprime cesdimensions de valeurs faibles (en les remplaçant par la valeur 0), ce qui diminue la dimensionde S0 à k, cette matrice modifiée est appelée maintenant S. En conséquence, les matrices T0 etD'0 qui ont été nettoyées deviennent T et D' (figure 3.4). On peut remarquer dans cette figureque k (£m) est le nombre de dimensions choisies pour le modèle réduit.

Documents

Termes

Valeur de décomposition singulière de la matrice terme ¥ document, X oùT0 est orthogonal, (T'0T0 =1)D0 est orthogonal, (D'0D0 =1)S0 est une matrice diagonale de valeur singulièreT est le nombre de lignes de XD est le nombre de colonnes de XM est de l'ordre de X (£min(t,d))

Figure 3.3 : Représentation de la décomposition de valeur singulière d'unematrice termes-documents de taille t ¥ d

Page 27: Mémoire DEA Système d'Information Management and …mrim.imag.fr/publications/2003/BC001/memoire_DEA_bisiaux_cedric.pdf · Mémoire DEA Système d'Information Management and Technology

ETAT DE L'ART

27

On obtient ainsi un nouvel espace vectoriel :

'ˆD' S TX 000 DSTX =ª=

Ce modèle permet donc de représenter les documents dans un espace de dimension k.Il permet, de façon symétrique, de représenter les termes des vecteurs qui sont une indicationdu profil de co-occurrence du terme dans les documents. Cette propriété peut être utilisée pourétablir une notion de similarité entre termes, ou représenter des documents comme moyennedes vecteurs représentant les termes qu'ils contiennent [Besançon 2002].

L'utilisation du modèle LSI pour la recherche d'information se traduit ainsi: lorsquel'on soumet une requête, elle est aussi traduite dans ce nouvel espace. On peut remarquer quedans l'article de [Deerwester et al. 1990], une requête est transformée en pseudo document, etécrit de la manière suivante :

1'ˆ -= TSXD qq

Où Xq est le vecteur de mots clés de la requête (dans l'espace des mots-clés). Ensuite, cepseudo-document est ajouté dans la matrice D comme un nouveau "document". Le calcul desimilarité entre chaque paire de documents peut se faire par :

( ) ''ˆ'ˆ ' TSDTSDXX =

''TSDDST=

'2DDS=

Ainsi, après ce calcul, on peut connaître la similarité de ce pseudo–document, ou larequête avec tous les autres documents. [Deerwester et al. 1990] montrent l'existence de troissortes de comparaisons :

- Comparaison de deux termes ("le terme i est similaire au terme j ?")

'?ˆ'ˆ TTSXX =

Documents

termes

Figure 3.4 : Réduction de la SVD de la matrice terme ¥ document X

Page 28: Mémoire DEA Système d'Information Management and …mrim.imag.fr/publications/2003/BC001/memoire_DEA_bisiaux_cedric.pdf · Mémoire DEA Système d'Information Management and Technology

ETAT DE L'ART

28

- Comparaison de deux documents ("le document i est similaire au document j ?")

'ˆ'ˆ 2DDSXX =

- Comparaison entre un terme et un document (" le terme i se trouve dans ledocument j ?")

'ˆ TSDX =

Ce modèle a montré des performances très intéressantes. Pour des corpus de petit et demoyenne taille, la performance est très supérieure au modèle vectoriel classique. D'après lesconclusions des systèmes qui ont expérimenté le modèle LSI [Deerwester et al. 1990] et[Furnas et al. 1988], quand la taille du corpus augmente, la différence avec les autres modèlessemble diminuer.

3.4.3.b Modèle DSIR [Besançon 2002]

Le modèle DSIR (Distributional Semantics based Information Retrieval) ou Recherchedocumentaire à base de sémantique distributionnelle, est un modèle qui intègre lareprésentation vectorielle des documents et de leurs connaissances sémantiques. Le modèleDSIR intègre des données de fréquences de co-occurrence4 et d'occurrence entre les termes,extraites automatiquement à partir des corpus de textes. L'utilisation de co-occurrence de motspour représenter les liens sémantiques entre ces mots repose sur la notion de sémantiquedistributionnelle.

Représentation du modèle :

L'hypothèse est faite que dans le cadre de la "sémantique distributionnelle"[Besançon2002], on suppose l'existence d'une forte corrélation entre les caractéristiquesdistributionnelles observables des mots et leurs sens : la sémantique d'un mot est reliée àl'ensemble des contextes dans lesquels il apparaît. Par exemple, en considérant les troisexemples suivants pour un mot X :

(1) "Certains X, par exemple, attaquent naturellement les rats." (Darwin,l'origine des espèces)

(2) "Quelque X sur les toits, marchant lentement, bombait son dos aux rayonspâles du soleil." (Flaubert, Madame Bovary)

(3) "il entendait au loin dans la forêt les miaulements des X." (Anatole France,L'étui de nacre)

L'hypothèse principale pour la sémantique distributionnelle est de considérer que cescontextes apportent suffisamment d'informations pour identifier X. Et ainsi montrer dans lecas présent que X est un chat. La démarche permettant d'aboutir à ce résultat est décomposéeen trois étapes:

- Définition du contexte d'un mot dans un corpus, qui permet d'identifier lesmots qui sont considérés comme co-occurrents à un lot donné et qui, selonl'hypothèse de la SD, contribuent à son sens.

- La représentation des mots selon la définition prise en compte pour lescontextes.

- La définition d'une mesure de similarité entre les représentations des mots quiest alors identifiée avec la mesure de la similarité entre les contextes.

4 La co-occurrence est la relation entre des termes qui peuvent partager partiellement un concept.

Page 29: Mémoire DEA Système d'Information Management and …mrim.imag.fr/publications/2003/BC001/memoire_DEA_bisiaux_cedric.pdf · Mémoire DEA Système d'Information Management and Technology

ETAT DE L'ART

29

Afin d'identifier les types de relations sémantiques, plusieurs sortes de contextespeuvent être définis :

- Les contextes positionnels : fenêtres de n mots, si n est petit alors ça favoriseles relations de composition.

- Les contextes syntaxiques : les contextes dépendent de la structure syntaxiquede l'unité textuelle (grammaire et analyse).

- Les contextes documentaires : les contextes sont définis selon les unitéstextuelles à l'intérieur d'un document (paragraphe, section, chapitre).

La représentation de ces unités linguistiques se fait à l'aide d'une matrice appelée matrice deco-occurrence (i.e. C). Chaque ligne de cette matrice représente le profil de co-occurrence del'unité linguistique :

˜˜˜

¯

ˆ

ÁÁÁ

Ë

Ê=˜

˜

¯

ˆ

ÁÁ

Ë

Ê=

TUUU

T

T

ccc

cccccc

c

cc

C

LMOMM

LL

M21

22221

12211

3

21

Fonction de représentation :

L'hypothèse de la SD peut être reformulée ainsi : deux unités linguistiques sontsémantiquement similaires si leurs contextes textuels sont similaires. Ce qui permet d'écrire lafonction de représentation du modèle DSIR ainsi :

[ ]( )Â=

=U

i

iDSiDS urepudwdrep1

),()(

où la représentation d'une unité linguistique particulière (terme d'indexation) est son profil deco-occurrence, pondérée par un facteur associé à l'importance de cette unité : repDS([ui])= pi ci.Les pondérations w(d,ui) et pi données à chaque unité linguistique ui sont définies commedans le modèle vectoriel standard, mais ces pondérations sont calculées pour toutes les unitéslinguistiques de U, et non seulement sur T. On a donc :

Â=

=U

iiiDS cudwdrep

11 ),()( (3.2)

avec w1(d,ui) = w(d,ui) pi = wl(d,ui) wn(d) wg(ui)

La collection de documents est alors représentée par le produit matriciel :

D = FC

Où F est une matrice d'occurrence de dimension |D| ¥ |U| comme dans le modèle vectoriel, etC la matrice de co-occurrence de dimension |U| ¥ |T|.

Page 30: Mémoire DEA Système d'Information Management and …mrim.imag.fr/publications/2003/BC001/memoire_DEA_bisiaux_cedric.pdf · Mémoire DEA Système d'Information Management and Technology

ETAT DE L'ART

30

Intégrations des co-occurrences :

Le modèle DSIR n'est pas un modèle d'expansion de requêtes, mais un modèle dereprésentation. C'est à dire que dans le modèle DSIR, les requêtes et les documents sontreprésentés de la même manière; l'intégration des co-occurrences change donc la fonction dereprésentation (rep). Pour prendre un exemple, un modèle d'expansion de requête à base deco-occurrence cherche pour la requête "chat" des documents qui contiennent également "lait","gouttière" ou "miauler", alors que le modèle DSIR cherche, pour la même requête, lesdocuments qui contiennent des mots qui ont aussi pour contexte les mots "lait", "gouttière" ou"miauler" (Figure 3.5).

Pour [Besançon 2002] et [Besançon 2001], la façon de calculer les fréquences de co-occurrence dépend des relations de co-occurrence qui sont prises en compte. L'approche laplus simpliste est de calculer toutes les co-occurrences entre toutes les unités linguistiques surun corpus de référence. Mais cette position n'est pas suffisante. En effet, les co-occurrencesnon linguistiquement pertinentes peuvent être prises en compte.

Cette approche repose sur un filtrage négatif des co-occurrences, qui permet d'éliminercertaines co-occurrences non souhaitées. Une autre approche peut être de sélectionner lesbonnes co-occurrences à conserver. Ceci en utilisant les résultats d'une analyse syntaxiquepour extraire les relations entre les différents mots de la phrase. Par exemple, les relations quipourraient être données par un analyseur syntaxique :

SUBJ (serpent avaler)OBJ (avaler proie)ADJ (proie entier)NN (serpent boa)

Toutes ces informations sont synthétisées dans un graphe de co-occurrence figure 3.6,après un pré traitement ne gardant que les lemmes des noms, des verbes et des adjectifs.

chat matou

lait laitgouttièregouttière

miaulermiauler

D Q

Figure 3.5 recherche contextuelle pour le modèle DSIR

Page 31: Mémoire DEA Système d'Information Management and …mrim.imag.fr/publications/2003/BC001/memoire_DEA_bisiaux_cedric.pdf · Mémoire DEA Système d'Information Management and Technology

ETAT DE L'ART

31

Cet exemple permet de montrer que les filtrages syntaxiques des co-occurrencesréduisent le nombre de co-occurrences prises en compte, et ainsi éliminent les co-occurrencesentre termes non liés syntaxiquement. Néanmoins, on remarque par exemple que le terme"mâcher" n'est relié avec aucun autre terme de la phrase (alors qu'une co-occurrence du type(avaler mâcher) est suggérée par la phrase). La pratique permet de remarquer que les résultatsde l'intégration de connaissances syntaxiques, pour le calcul des co-occurrences pour unetâche de recherche documentaire, montre qu’un filtrage syntaxique sur les groupessyntaxiques par rapport aux co-occurrences permet de réduire le bruit et d’avoir de meilleuresperformances.

Pour l'évaluation de la pertinence, le modèle DSIR utilise le cosinus comme pour lemodèle vectoriel. Dans ce modèle, on tient compte des dépendances entre les termes grâce àl'utilisation des co-occurrences de ces termes.

3.4.4 Conjonctions de termes dans le modèle vectoriel

Dans le cadre du modèle vectoriel, où la représentation des termes se fait sur les axesde l'espace vectoriel, il n'est pas impossible de représenter ces conjonctions de termes de lamême manière en utilisant les mêmes axes de représentation de l'espace vectoriel. Leproblème qui survient est la différenciation, de par cette représentation, de la conjonction etdes termes composants. Il n'est pas possible de comptabiliser dans les fréquences laconjonction d'un côté et les termes composants5 de l'autre, car ils ne sont pas dépendant ensens. De plus ceci modifierait leur véritable poids dans le document. 5 Les termes composant sont les termes qui composent la conjonction ou le multi-terme (ex : les termes"République" et "Fédérale" pour le multi-terme "République fédérale").

serpent boa

avaler proie entier

mâcher

serpent boa

avaler proie entier

mâcher

serpent boa

avaler proie entier

mâcher(a)

(b) (c)

Figure 3.6 : Exemples de graphes de co-occurrences, (a) sans filtrage syntaxique, (b) avec filtrage syntaxique surles groupes syntaxiques, (c) avec filtrage syntaxique sur les relations syntaxiques. [Besançon 2002]

Page 32: Mémoire DEA Système d'Information Management and …mrim.imag.fr/publications/2003/BC001/memoire_DEA_bisiaux_cedric.pdf · Mémoire DEA Système d'Information Management and Technology

ETAT DE L'ART

32

Une solution qui est utilisée par certains systèmes, comme dans le cadre du modèleDSIR [Besançon 2002], est d'hybrider deux systèmes vectoriels séparant le traitement destermes simples et les conjonctions de termes. Dans le cadre du modèle DSIR, un modèle dereprésentation vectorielle simple ne prend en compte que les multi-termes, et les résultatsobtenus pour ce modèle sont combinés avec les résultats du modèle DSIR sur les autrestermes d'indexations. L'intégration des multi-termes se fait a posteriori, comme unecombinaison des résultats de deux systèmes de recherches documentaires. Besançon a choisiune combinaison linéaire des similarités des deux systèmes agrémentés d'un paramètreréglable permettant de gérer les priorités sur les systèmes :

),()1(),(),( dqSdqSdqS CDS bb -+=

où SDS mesure de similarité du modèle DSIR sans prise en compte des multi-termes,SC est la similarité entre les représentations vectorielles des documents et de la requête surl'ensemble des multi-termes et b est un paramètre du système. Les résultats montrent quemême avec une stratégie de fusion simple, l'intégration des multi-termes permet d'améliorerlégèrement les performances [Besançon 2002].

3.5 Modèle logique

On considère qu'un document est jugé pertinent à une requête de l'utilisateur si soncontenu sémantique implique logiquement celle-ci. La notion de pertinence, intrinsèque à toutsystème de recherche d'informations, est alors vue comme une inférence logique. Ce modèlepermet de formaliser les paramètres intervenant dans un processus de recherched'informations et de définir correctement la correspondance entre un document et une requêtede l'utilisateur. Il permet aussi de définir la formulation automatique d'une requête, ainsi quela mesure de pertinence associée aux réponses données par le système.

3.5.1 Représentation des documents et requêtes

Le modèle booléen est un exemple simple qui met en œuvre l'implication logique. Undocument est modélisé par une proposition logique formée de la conjonction de ses mots clés.On considère ces mots clés comme des propositions atomiques dans les modèles de la logiquedes propositions. La requête est une expression logique quelconque. L'idée de base de cemodèle est la suivante: étant donné un document D et une requête Q, D est pertinent vis à visde Q si D implique Q, ce qui se note mathématiquement DÆQ. Prenons l'exemple dedocuments et d'une requête contenant des termes d'indexations :

D1={AŸB}D2={BŸC}D3={AŸBŸC} A, B, C sont des termes d'indexationsQ={AŸBŸÿC}

D1 est retrouvé par le système parce que D1 est vrai et implique Q qui est vrai (tab3.2)D2 et D3 ne sont pas retrouvés.

Page 33: Mémoire DEA Système d'Information Management and …mrim.imag.fr/publications/2003/BC001/memoire_DEA_bisiaux_cedric.pdf · Mémoire DEA Système d'Information Management and Technology

ETAT DE L'ART

33

D Q DÆQFaux Faux VraiFaux Vrai VraiVrai Faux FauxVrai Vrai Vrai

Tab 3.2 : Tableau logique de l'implication

L'implication logique DÆQ peut être réécrite ainsi (règle de logique ) ÿD⁄Q

Le terme d'indexation est une partie du texte dans une forme sémantique. Le termed'indexation est vrai s'il apparaît dans le document. Dans l'exemple ci-dessus, ceci signifie quele document D1 parle de A et B, et que l'utilisateur recherche un document qui parle de A et Bmais pas de C. Le principe du calcul de la correspondance consiste à établir l'implicationlogique entre D et Q, c'est à dire que le document répond à la requête si D…Q est évaluée àVrai, il faut établir que D…Q est une tautologie, et donc que l'on a |=D…Q.

3.5.2 Fonction de correspondance

Une condition nécessaire exprimée dans la plupart des modèles existants est que ledocument doit satisfaire "exactement" la requête. En logique, ceci signifie : étant donné undocument D, la requête Q doit être totalement satisfaite, et l'implication "documentÆrequête" doit être évaluée à vrai, i.e. P(DÆQ)=1. Exemple: dans le cas du modèle booléen,une requête comportant une conjonction de deux termes Q="information"Ÿ"donnée", larequête ne peut être satisfaite par un document D que si les deux termes sont contenus dans ledocument :"information"ŒD et "donnée"ŒD. La requête est ainsi totalement satisfaite.

Ceci reste une mesure de correspondance attachée au modèle booléen, de nombreux travauxont été menés afin d'utiliser une logique utilisant les principes d'incertitude [Nie 1988] [VanRijsbergen 1986].

3.5.3 Evolution du modèle logique de base

En conclusion, les travaux de [Van Rijsbergen 1986] donne une interprétation del'implication par des probabilités conditionnelles et non plus par une implication matérielleafin de mesurer la certitude de l'implication qui est représentée par la formule suivante :

( ) ( ) ( )( )DP

QDPQDPQDP «==Æ

Quant à [Nie 1988], il évoque l'implication inverse de DÆQ (ici QÆD est appeléespécification) qui lui permet de présenter une nouvelle fonction de correspondance enfonction de la proposition suivante:

Page 34: Mémoire DEA Système d'Information Management and …mrim.imag.fr/publications/2003/BC001/memoire_DEA_bisiaux_cedric.pdf · Mémoire DEA Système d'Information Management and Technology

ETAT DE L'ART

34

Proposition :

Etant donnés un document D et une requête Q, la correspondance R entre D et Q estdéterminée à la fois par l'exhaustivité du document pour la requête et par la spécificitédu document pour la requête :

R(D,Q)=F[P(DÆQ),P'(QÆD)]

Où P et P' sont des fonctions mesurant la force de l'implication, et F dénote unefonction combinant ces deux implications.

3.5.4 Prise en compte des dépendances dans le modèle logique

Dans le cadre du modèle logique, l'implication DÆQ signifiant que le document Drépond à la requête Q et où les documents et la requête sont symbolisés par un ensemble determes qui ne prend pas en compte le sens des termes d'indexations. La principale solution de[Nie 1988] pour prendre en compte ces dépendances est l'ajout d'informations nécessaires à lasatisfaction de l'implication. Ces informations sont choisies dans l'ensemble des informationsétendues. Ceci pousse à la transformation à la fois du document et de la requête comme onpeut le constater sur la figure 2.7.

Ce qui revient à un système de prise en compte des dépendances par le biais del'extension de requête, principe connus depuis longtemps et utilisable sur tous les modèles.L'inconvénient est que l'élargissement de la requête augmente le rappel des documents maisaltère sa précision car les nouveaux termes utilisés provoquent l'ajout de nouveau sens.

3.5.5 Conjonctions dans le modèle logique

Dans le cadre du modèle logique, l'implication DÆQ signifie qu'un document Drépond à une requête Q, et la représentation de D et Q est une représentation booléenne d'un

Réponse

Connaissances

Evaluation del'implication

Requête

Document

Figure 2.7 Evaluation d'une requête [Nie 1988]

Page 35: Mémoire DEA Système d'Information Management and …mrim.imag.fr/publications/2003/BC001/memoire_DEA_bisiaux_cedric.pdf · Mémoire DEA Système d'Information Management and Technology

ETAT DE L'ART

35

ensemble de termes. Dans le modèle booléen, il existe l'opérateur "ADJ" qui indique que lestermes sur lesquels il évolue, sont juxtaposés dans le document. Ainsi, en utilisant l'opérateur,on indique dans notre représentation que certains termes (qui ont un sens particulier lorsqu'ilssont ensemble) doivent être proches. Cette représentation des conjonctions de terme permetleur prise en compte.

Ainsi, dans le modèle logique de base, la prise en compte des conjonctions de termesn'est pas prise en compte afin de faciliter les calculs de la fonction de correspondance et letraitement de ces conjonctions par prétraitement dans la représentation des documents et de larequête.

3.6 Modèle probabiliste

A la différence du modèle logique où on intègre déjà la probabilité de l'implicationcomme dans le modèle de [Van Rijsbergen 1986], le modèle probabiliste représente laprobabilité de la pertinence d'un document D par rapport à une requête Q. Le but de cettefonction de similarité dans ce modèle est d'essayer de séparer les documents pertinents desnon pertinents au sein d'une collection. L'idée de base, dans ce modèle probabiliste, est detenter de déterminer les probabilités P(R/D) et P(NR/D) pour une requête donnée. Cetteprobabilité signifie : si on retrouve le document D, quelle est la probabilité qu'on obtiennel'information pertinente et non pertinente (figure 3.8).

[Robertson 1977] énonce le principe d'ordre des probabilités : si la réponse d'unsystème de recherche pour chaque requête est un ordonnancement des documents de lacollection par ordre de probabilité décroissante d'importance pour l'utilisateur qui a soumis lademande, sur la base où les probabilités sont estimées aussi exactement que possible sur labase des données rendues disponibles au système, l'efficacité globale du système pourl'utilisateur sera la meilleure possible sur la base de ces données.

3.6.1 Représentation des documents et de la requête

On ne prend en compte que l'absence ou la présence de termes dans les documents etdans les requêtes comme des caractéristiques observables. Ainsi, les termes considérés ne sontpas pondérés, mais prennent seulement les valeurs 0 (absent) ou 1 (présent).

Document Pertinent (R)

Document Non Pertinent (NR)

Figure 3.8 Corpus pour une requête Q

Corpus

Page 36: Mémoire DEA Système d'Information Management and …mrim.imag.fr/publications/2003/BC001/memoire_DEA_bisiaux_cedric.pdf · Mémoire DEA Système d'Information Management and Technology

ETAT DE L'ART

36

Puisque nous supposons que chaque document est décrit par la présence ou l'absencede termes, n'importe quel document peut être représenté par un vecteur binaire :

x=(x1,x2,…,xn)

xi = 0 ou 1 indique l'absence ou la présence des termes considérés. Nous supposons égalementqu'il y a deux événements mutuellement exclusifs :

w1= document pertinentw2= document non pertinent

Ce que nous désirons calculer pour chaque document est P(w1/x) et peut-être P(w2/x) de sorteque nous puissions décider ce qui est pertinent et ce qui est non-pertinent.

Compte tenu de ces probabilités, différentes utilisations en sont faites. Par exemple, larègle de décision qui est employée par [Van Rijsbergen 1979] est connue en tant que règle dela décision de Bayes.

[P(w1/x) > P(w2/x) Æ x pertinent, x est non pertinent]6 (3.3)

3.6.2 Fonction de correspondance

On suppose que l'on a une requête fixe, et on tente de déterminer les caractéristiquesde R et NR pour cette requête donnée. Donc, de manière implicite, P(R/D) et P(NR/D)correspondent plutôt à P(R/Q,D) et P(NR/Q,D). Ainsi, on établit la probabilité qu'undocument D soit jugé pertinent par rapport à une requête spécifique Q.

Il existe de nombreux modèles probabilistes [Fuhr 1992]. Dans le modèle BIR (BinaryIndependence Retrieval Model).S'il est possible de calculer les deux probabilités P(R/Q,D) etP(NR/Q,D), il sera possible de classer les documents selon ces deux probabilités et la fonctionsuivante (appelée odd) qui compare les deux probabilités est utilisée :

( ) ( )( )DQNRP

DQRPDO

,/

,/=

3.6.3 Prise en compte des dépendances dans le modèle probabiliste

Comme dans la plupart des modèles de recherche d'information, l'hypothèsed'indépendance qui est faite pour le modèle probabiliste est présente pour permettre defaciliter et de réduire la complexité des calculs de correspondance de ce modèle. En fait,l'hypothèse de dépendance des événements pour la théorie de probabilité implique que lesévénements sont liés entre eux. Il en est de même pour les termes servant à l'indexer. En effet,on peut penser que la présence d'un terme comme "ordinateur" dans un document, implique laprésence du terme "informatique" avec une très grande probabilité. Ce qui devrait nousobliger d'écrire que la probabilité qu'un document D appartenant à l'ensemble des documentsR pour une requête Q de la manière suivante : 6 La signification de [EÆp,q] est si E est vrai alors on prend p, ou sinon on prend q

Page 37: Mémoire DEA Système d'Information Management and …mrim.imag.fr/publications/2003/BC001/memoire_DEA_bisiaux_cedric.pdf · Mémoire DEA Système d'Information Management and Technology

ETAT DE L'ART

37

),/,...,,(),/( 332211 QRxtxtxtPQRDP ====

),,,/(*),,/(*),/( 221133112211 QRxtxtxtPQRxtxtPQRxtP =======

Ce calcul complexe est souvent ramené par le biais de l'hypothèse d'indépendance qui est faiteà :

),/(*),/(*),/(),/( 332211 QRxtPQRxtPQRxtPPRDP ====

3.6.4 Conjonctions dans le modèle probabiliste

Comme dans le modèle logique, les conjonctions de termes ne sont pas prisesen compte. De part l'hypothèse de l'indépendance des termes, afin de faciliter les calculs, lesconjonctions de termes ne peuvent être incluses dans le calcul. Une conjonction de terme estcomposée de plusieurs termes ayant une dépendance spéciale entre eux.

3.7 Modèle de réseaux de neurones

Les scientifiques en neurologie ont étudié le cerveau humain depuis de nombreusesannées, ils ont pu constater qu'il était constitué d'un grand nombre (billions) de cellules dedifférents types appelés neurones. Chaque neurone est connecté à plusieurs autres neuronespar des liaisons que l'on nomme liaisons synaptiques. Un neurone est stimulé par la réceptiond'un signal. Par le biais d'une réaction automatique, il émet un signal de sortie destiné auxautres neurones avec lesquels il a une liaison.

3.7.1 Représentation des documents et Requêtes

Ce symbolisme est un graphe simplifié représentant les connexions entre les neuronesd'un cerveau humain. Les nœuds de ce graphe sont des unités processus et les liens entre cesunités jouent le rôle des connections synaptiques. Pour simuler le fait que la force (l'intensitédu signal) d'une connexion synaptique dans le cerveau humain change continuellement, unpoids est affecté à chaque connexion de notre réseau de neurone. A chaque instant, l'état desnœuds est définit par un niveau d'activation (par l'utilisation d'une fonction ayant pourparamètre l'état initial et le signal reçu par le neurone). Dépendant du niveau d'activation, unnœud A peut envoyer un signal à un nœud voisin B. L'intensité du signal reçu par le nœud Bdépend du poids qui est affecté au lien synaptique entre les nœuds A et B.

Page 38: Mémoire DEA Système d'Information Management and …mrim.imag.fr/publications/2003/BC001/memoire_DEA_bisiaux_cedric.pdf · Mémoire DEA Système d'Information Management and Technology

ETAT DE L'ART

38

Un réseau de neurones pour la recherche d'information peut être illustré comme dansla figure 3.9 [Baeza-Yates et Ribeiro-Neto 1999]. On utilise le modèle de réseau de neuronespour symboliser la relation entre un document de la collection et les termes qu'il contient,ainsi que les termes de la requête. On remarque que le réseau est composé de troiscouches qui sont elles même composées de nœuds : une couche contenant les nœuds quireprésentent les termes de la requête, une couche qui contient les nœuds représentant lestermes des documents et la troisième couche qui contient les nœuds qui représentent lesdocuments eux-même. Selon [Baeza-Yates et Ribeiro-Neto 1999] il est possible d'observerune similarité entre les topologies du réseau de neurones, le réseau d'inférence et le réseau "decroyance".

Les nœuds documents sont activés par l'ensemble de nœuds terme-document, qui euxaussi sont activés par les nœuds correspondant au terme de la requête.

3.7.2 Les fonctions de correspondances

Le réseau de neurones est implémenté sous forme de propagation d'activation demodèle plus classique. En effet, nous pouvons constater deux approches : la première estl'utilisation de la mesure du cosinus dans le réseau de neurones [Wilkinson et Hingston1991], la seconde utilise plutôt une approche probabiliste sur les réseaux de neurones [Kwok1995] et [Kwok 1989]. Les réseaux de neurones sont une représentation de la relationexistante entre les différents nœuds documents ou requêtes. Le calcul de similarité, pour lemodèle des réseaux de neurones, est effectué par les fonctions de similarité de modèle pluscommune (modèle vectorielle et modèle probabiliste).

Pour Wilkinson et Hingston, il n'est pas possible de comparer une requête donnée avecun million de ligne de documents dans un temps acceptable. D'où l'utilisation de l'indexationdes documents avant la requête, cette requête est transformée et ensuite comparée aux termes

ka

kb

kc

k1

ka

kb

kc

kt

d1

dj

dj+1

dN

Termesrequête

Termesdocument

Documents

Figure 3.9 Modèle de réseau de neurones pour la RI [Baeza-Yates et Ribeiro-Neto 1999]

Page 39: Mémoire DEA Système d'Information Management and …mrim.imag.fr/publications/2003/BC001/memoire_DEA_bisiaux_cedric.pdf · Mémoire DEA Système d'Information Management and Technology

ETAT DE L'ART

39

d'indexations. Ainsi, un réseau de neurones consiste en une collection de nœuds et deconnexions entre ces nœuds. Le réseau de neurones est donc une symbolisation de ces nœudset des relations qui existent entre eux. Prenons l'exemple d'une collection contenant 5documents constitués des phrases suivantes, "le chien et le chat mangent", "le chien a unesouris", "les souris mangent n'importe quoi", "les chats jouent avec les souris et les rats" et"les chats jouent avec les rats". Placé respectivement dans les documents D1 à D5, nous avonsla requête suivante " est-ce que les chats jouent avec les souris ? ". Nous obtenons ainsi leréseau suivant (figure 3.10) :

Le réseau a un nœud pour chaque terme du document et un nœud pour chaque termede la requête. Les connexions sont bidirectionnelles entre les termes de la requête et lestermes correspondants dans les documents s'ils existent. Le poids de connexion pour un termej est appelé wqj. Ce poids est valable pour la connexion quel que soit le sens utilisé, de larequête vers les termes du document ou inversement. Le poids de la connexion entre le nœuddu jième terme est le nœud du iième document est noté wij. Il n'existe pas de connexion entre lesnœuds "termes documents" eux même, ainsi que pour les documents eux-même. Ici, lesnœuds sont divisés entre trois couches distinctes.

3.7.2.a Approche par mesure du cosinus [Wilkinson et Hingston 1991]

Lorsque les nœuds des documents activés sont calculés pour la première fois, seuls lesnœuds "termes documents" connectés aux nœuds "termes requête" seront activés, et ainsi leuractivation est la somme des nœuds requête activés correspondant aux nœuds "termesdocuments" et les poids de connexion des nœuds documents. La somme est alors :

( )( )ÂÂÂ

==

=

t

j ijt

j qj

t

jijqj

ww

ww

12

12

1

chat

souris

jouer

manger

chien

rat

chat

souris

jouer

D1

D2

D3

D4

D5

Figure 3.10 exemple du réseau de documents

Page 40: Mémoire DEA Système d'Information Management and …mrim.imag.fr/publications/2003/BC001/memoire_DEA_bisiaux_cedric.pdf · Mémoire DEA Système d'Information Management and Technology

ETAT DE L'ART

40

où wqj est le poids de la connexion entre le nœud terme j de la requête et le nœudterme document j, wij est le poids de la connexion entre le nœud terme document j et ledocument i.

On remarque que cette formule est équivalente à la mesure standard de cosinus qui vous a étéprésentée dans le modèle vectoriel (cf. équation 3.1 ).

Le processus ne s'arrête pas pour autant. En effet, l'activation des nœuds "termesdocument" représente seulement l'activation initiale. Ceci a généré l'activation des documents,cette activation peut être utilisée pour calculer une nouvelle activation des nœuds "termesdocuments", en complément des nœuds requêtes. En conséquence, un terme peut apparaîtredans plusieurs documents activés, sans qu'il apparaisse dans la requête originale(transformation de la requête), mais peut devenir actif et peut activer d'autres documents(relevance feedback).

3.7.2.b Approche probabiliste d'un réseau de neurone [Kwok 1995]

Kwok met en place le concept de réseaux de neurones artificiels (ANN : ArtificialNeural Network) L'approche utilisée ici pour la recherche d'informations, est que les requêteset les documents sont considérés de manière identique. Le réseau de neurones est constitué entrois couches, comme représenté dans la figure 3.11 ; une couche requête, un terme dedocuments et la troisième une couche document. Le mécanisme du réseaux utilise les

Figure 3.11 Les trois couches d'un réseau de neurones probabiliste [kwok 1995]

DTQQTD

qa

Wak

Wka Wik

Wki

tk

di

DT

Q

Page 41: Mémoire DEA Système d'Information Management and …mrim.imag.fr/publications/2003/BC001/memoire_DEA_bisiaux_cedric.pdf · Mémoire DEA Système d'Information Management and Technology

ETAT DE L'ART

41

opérations de "feedforward ", opération indiquant le sens d'activation allant de la requête versle document (QTD Query To Document) et l'opération de "feedbackward" indiquant le sensde document vers les requêtes (DTQ Document To Query) [Kwok 1995] et [Kwok 1989]. Cescouches ont des connexions bidirectionnelles avec des poids directionnelles, des poidsdirection QTD et les poids wik, wka pour la direction DTQ.

Les poids de connexions de ce modèle ANN reposent sur les composants de la théoriede la probabilité, où il y est ajouté le principe de "relevance feedback". Kwok considère troisfaçons de mise en place des poids de connexions :

1. Aucun apprentissage des connexions2. Auto apprentissage des connexions3. "Relevance feedback" sans apprentissage4. "Relevance feedback" avec modification de la structure du réseau

La fonction de similarité est ainsi calculée de la même manière que dans le modèleprobabiliste, le calcul des poids dépend ici de la façon utilisée.

3.7.3 La prise en compte des dépendances dans le modèle des réseaux de neurones

Comme dans la plupart des modèles présentés précédemment, la prise en compte desdépendances sont inexistantes sauf dans les travaux de [Wilkinson et Hingston 1991] où ilutilise la "Relevance feedback" qui permet d'augmenter le nombre de nœuds document-termequi sont activés (retro-propagation). Ceci apporte une modification de la structure du réseau,où cette méthode utilise l'activation des documents afin d'activer d'autres nœuds (à différentniveau) de la couche terme-document qui mettront en évidence de nouveaux documents. Cetteactivation est identique de par l'augmentation des nœuds termes activés à une extension desrequêtes. Cette méthode vous a été présentée dans le modèle logique.

3.7.4 Conjonctions dans le modèle des réseaux de neurones

De même que pour les autres modèles, les conjonctions de termes ne sont pas prises encompte dans ce modèle pour des raisons de fréquence de présence de ces multi-termes dansles documents qui sont très inférieurs aux termes simples. Les conjonctions de termes peuventêtre intégrées en tant que nœuds de la couche requête ou termes document. Une fois que cesconjonctions de termes sont identifiées et leurs nœuds créés, les activations entre elles sontidentiques aux activations pour les termes simples et leurs prises en compte sont complètes.Le problème est de pouvoir différencier un multi-terme ou les termes simples qui lecomposent selon le contexte du document ou de la requête.

Stricker [Stricker et al 2000] met en place un système permettant d'extraire d'unefenêtre un contexte par rapport à un mot cible. Le but de cette sélection de contexte est dedéfinir, pour chaque sujet, un vecteur des dispositifs qui ne sont ni trop fréquents ni trop rares,typique des documents appropriés. Il montre dans son modèle que l'architecture de réseauxneurologiques sous l'influence d'un mot de cible doit diminuer ou augmenter selon soncontexte local. Par conséquent, au lieu d'avoir une entrée simple par mot de cible, le contextelocal est inclus comme indiqué dans le côté gauche du schéma 3.12; le bon côté montre leréseau neuronal entier.

Page 42: Mémoire DEA Système d'Information Management and …mrim.imag.fr/publications/2003/BC001/memoire_DEA_bisiaux_cedric.pdf · Mémoire DEA Système d'Information Management and Technology

ETAT DE L'ART

42

Figure 3.12 Architecture de réseaux de neurones [Stricker et al 2000]

Stricker annonce, de part ces expériences, qu'il était souhaitable d'exclure de la phased'entraînement les documents non pertinents pour tous les mots cible qui sont absents. Cetteméthode est entièrement automatique et se fonde seulement sur le calcul de la fréquence decorpus pour chaque dispositif. Il n'y a aucun besoin, par exemple, de définir une liste de motsd'arrêt qui dépendront de la langue.

Page 43: Mémoire DEA Système d'Information Management and …mrim.imag.fr/publications/2003/BC001/memoire_DEA_bisiaux_cedric.pdf · Mémoire DEA Système d'Information Management and Technology

EXPOSE DE LA SOLUTION

43

4 MODIFICATION DE RELIEFS EN VUE DE LA PRISE EN COMPTEDES CONJONCTIONS DE TERMES ET DE LA DEPENDANCE ENTRELES TERMES D'INDEXATION

Nous allons vous présenter ici une solution permettant de prendre en compte lesconjonctions au sein du système RELIEFS. L'analyse de la solution, qui vous a été proposéedans la problématique de ce rapport, est une réflexion sur le fait qu'une conjonction de termesqui est construite dans le système doit être prise en compte avec un poids raisonnable. Unpoids raisonnable signifie qu'il ne doit pas prendre en son calcul le poids de chacun des termesqui le composent. Le poids doit être réduit pour que la conjonction ne prenne pas uneinfluence démesurée pour le système.

4.1 Le modèle

Le model RELIEFS vous a été présenté dans la section (2.3). En partant sur la base dece modèle, nous allons dans un premier temps utiliser le système sans les prises en comptedes conjonctions afin d'avoir une référence sur les résultats du système dans sa configurationinitiale. Dans un second temps, nous allons mettre en place la prise en compte desconjonctions termes au sein du modèle. Ces conjonctions seront construites suivant le schémaprésenté ci-dessous. Dans un troisième temps nous intégrerons la gestion de ces dépendancesentre les conjonctions et les termes qui les composent. Cette gestion se fera en incluant dansla fonction de correspondance l'interprétation que l'on fait pour le calcul de ces dépendances.Nous mettrons ainsi en place une solution qui inclue ces dépendances selon des critères, afinque l'apport fait au système soit optimisé.

4.1.1 Construction des conjonctions

Dans le système RELIEFS [Brouard 2000b], les relations entre les nœuds contenantles termes et le nœud pertinence sont mesurés. Cette mesure permet de déterminer à quelpoint ces nœuds impliquent le nœud pertinence. Comme il vous a été présenté précédemment(section 2.3.1), toutes les relations entre les nœuds du document et le nœud requête sontconstruites pour le réseau.

En essayant de construire toutes les conjonctions possibles dans le réseau, ceci nous amène à une explosion combinatoire liée à la construction de ces conjonctions. Afin de pallierce problème, on met en place un principe d'économie. Ce principe se traduit de la façonsuivante : "Si toutes les implications qui portent le nœud P, portent le nœud Q, alors lesconnexions ayant pour origine ou pour extrémité P, valent pour la conjonction P&Q . Il estdonc inutile de construire un nœud représentant cette conjonction pour tenir à jour la valeurdes connexions dont l'origine ou l'extrémité est P&Q".

Ce qui signifie, comme on peut le constater ci-dessous (figure 4.1), que la conjonction"chien & canin" peut être construite si l'implication qui existe entre chien et canin disparaît.Cette disparition est causée par la présence (par exemple) dans un document pertinent duterme chien, mais pas du terme canin, provoquant ainsi la suppression de la valeur del'implication (valant 1). Ainsi, ceci permet de garder ces informations nécessaire pour leréseau.

Page 44: Mémoire DEA Système d'Information Management and …mrim.imag.fr/publications/2003/BC001/memoire_DEA_bisiaux_cedric.pdf · Mémoire DEA Système d'Information Management and Technology

EXPOSE DE LA SOLUTION

44

Seules les conjonctions apportant une information non redondante pour le systèmesont construites. Mais la structure du réseau et ces conjonctions qui le composent évoluent parle biais de mises à jours à chaque nouveau document. Ainsi, par de nouvelles informations, ilest possible qu'une conjonction ne soit plus utile. De cette façon, ces conjonctions sontsymbolisées dans le réseau du système RELIEFS par la figure 4.2.

mot i

(représentation du document)

(représentation de la requête)

pertinence

Connexionsassociatives

Figure 4.2 : Réseau construit et mis à jour par RELIEFS avec des conjonctions

mot j mot j & mot i

niche

chien

os maître

canin1

0.7

0.20.1

niche

Chien& canin

os maître

0.7

0.20.1

Recopie des connexions

Figure 4.1: création des connexions

texte (présence dechien, pas cannin)

Page 45: Mémoire DEA Système d'Information Management and …mrim.imag.fr/publications/2003/BC001/memoire_DEA_bisiaux_cedric.pdf · Mémoire DEA Système d'Information Management and Technology

EXPOSE DE LA SOLUTION

45

4.1.2 Analyse du problème de dépendances

La prise en compte des dépendances dans les modèles de recherche d'information datedes années 80. Malgré une importance pour la compréhension et l'amélioration des systèmes,la difficulté d'inclusion de ces dépendances entraîne pour ces modèles l'ajout de l'hypothèsed'indépendance des termes. Nous savons pourtant que cette hypothèse n'est pas vérifiéepuisque certains termes entretiennent des relations sémantiques.

Nous nous plaçons ici dans un cadre plus général en englobant les modèles proposésen RI dans lesquels la pertinence d'un document est évaluée comme la somme de poids liésaux termes présents dans le document (ce que considèrent la plupart des modèles). Nousconsidérons d'une part qu'un terme t peut être représenté par un ensemble T "d'atomes desens". Nous considérons d'autre part que la contribution de cet ensemble est mesurée par m(T)où m est une mesure, c'est-à-dire une fonction définie sur l'ensemble des ensembles "d'atomesde sens" à valeur dans ¬ qui a la propriété d'être additive (si deux ensembles X et Y sontdisjoints alors m(X»Y)=m(X)+m(Y)).

Nous partons du constat que lorsque deux termes X et Y sont présents et que leurscontributions respectives (que nous noterons m(X) et m(Y)) sont sommés par l'hypothèse faiteimplicitement que X et Y sont indépendants. Cette contribution montre à l’évidence que ledocument est pertinent. En effet, s'il existe une dépendance entre X et Y, alors X«Y≠∅. Dece fait, si la contribution globale m(X»Y) est calculée comme la somme (figure 4.3)m(X)+m(Y), m(X«Y) est prise en compte deux fois.

En exploitant la propriété d'additivité d'une mesure, on obtient :

m(X»Y)=m(X-Y)+m(Y-X)+m(X«Y)

m(X»Y)=m(X)- m(X«Y)+m(Y)-m(X«Y)+m(X«Y)

m(X»Y)=m(X)+m(Y)-m(X«Y)

X«YX Y

m(X-Y) m(X«Y))))

m(Y-X)

Figure 4.3 : Poids des dépendances entre les termes

Page 46: Mémoire DEA Système d'Information Management and …mrim.imag.fr/publications/2003/BC001/memoire_DEA_bisiaux_cedric.pdf · Mémoire DEA Système d'Information Management and Technology

EXPOSE DE LA SOLUTION

46

Ainsi dans le cas d'une synonymie parfaite, X« Y=X=Y et doncm(X»Y)=m(X)=m(Y), et à l'opposé dans le cas d'une indépendance totale X«Y=∅ et doncm(X»Y)=m(X)+m(Y). Mais entre les deux, dans le cas de polysémie, il existe unedépendance d'inclusion (figure 4.4) :

Où XÃ Y et donc m(X»Y)=m(Y). Ce qui nous permet ainsi de généraliser en voyant cesdifférents cas de dépendances entre termes :

)()()())(),(( YmXmYXmYmXmMAX +£»£ (4.1)

Pour n termes :

ÂÂÂ<<<

«««-««+«-=»kji

nkji

ji

ji

i

ii XXXmXXXmXXmXmXm )...(...)()()()( 21

Dans tous les cas de dépendances, la question se pose sur la quantité de m(X«Y) que nousdevrons retirer à nos fonctions de correspondance pour la prise en compte des dépendances.En reprenant l'équation (4.1) on peut délimiter la mesure de m(X»Y) :

)()()()()())(),(( YmXmYXmYmXmYmXmMAX +£«-+£

0)())(),(( £«-£-- YXmYmXmMAX

))(),(()(0 YmXmMINYXm £«£

Mais on s'aperçoit que nous ne nous trouvons pas dans une mesure d'additivité.L'hypothèse d'additivité n'est malheureusement pas satisfaisant (le double produit n'est pasadditif). L'idée de retrait d'une valeur qui dépendrait de degrés de dépendance nous apparaîtnéanmoins intuitivement bonne.

4.2 Validation

La prise en compte des dépendances pour les conjonctions qui apparaissent dans lesystème (pour le traitement des documents) peut se faire de différentes manières. Lors denotre recherche, nous avons suivi deux pistes nous permettant de traduire cette dépendance

XY

Figure 4.4 : dépendance d'inclusion

Page 47: Mémoire DEA Système d'Information Management and …mrim.imag.fr/publications/2003/BC001/memoire_DEA_bisiaux_cedric.pdf · Mémoire DEA Système d'Information Management and Technology

EXPOSE DE LA SOLUTION

47

dans notre calcul de pertinence. En effet, nous avons pu vous montrer précédemment que laconjonction ne peut apparaître trop fortement dans le calcul, afin que celle-ci ne soit pasdéterminante et ne fasse disparaître des informations importantes sur les termes simples.

Première solution :

Nous souhaitons intégrer dans notre solution la prise en compte du contexte(utilisation des conjonctions comme pour les travaux de Stricker [Stricker et al 2000]). Laprise en compte des dépendances comme pour le modèle LSI ou DSIR, ne peut êtreimplémentée dans notre système.

La première méthode, qui vous sera présentée dans ce rapport, repose sur le fait quenous ne voulons prendre en compte que les conjonctions qui ont une grande importance ausein du réseau (les conjonctions ayant un fort poids). Ainsi, on ne prend en compte que lesconjonctions dont le poids est supérieur au maximum des poids des termes qui la composent.

Nous partons du principe que pour la dépendance entre deux mots, il faut pouvoir biengérer l'apport des poids de ces mots pour le système. Nous savons que dans le système, lespoids des nœuds sont sommés. Ce qui donne dans le cas de conjonctions (ceci est l'expériencen°2) pour la présence des mots A et B :

m(A)+m(B)+m(A&B)

Comme il vous a été présenté dans la prise en compte des dépendances entre lestermes, nous avons constaté qu'il est utile de retirer une proportion au poids d'une conjonctionafin que son influence sur le réseau soit proportionnée. Nous avons décidé de retirer le plusgrand des poids des termes composant la conjonction. Intuitivement, l'idée est de ne compterque ce qui n'est pas expliqué par les composants. Comme nous ne nous trouvons pas dans unemesure d'additivité, les bornes que nous avons démontrées pour les ensembles (section 4.1.2)ne sont pas valables ici. Nous préférons alors ne prendre en compte que les conjonctions quisont notablement différentes de l'apport de ses composants.

Ainsi, nous prenons en compte les conjonctions dans notre réseau de la manièresuivante :

si m(A&B) > max(m(A),m(B))

alors on notera pour la présence des mots A et B :

m(A)+m(B)+m(A&B)-h max(m(A),m(B)) (4.2)

où h est un paramètre qui est égal à 1 dans les premières expériences. Il seraitintéressant de le faire varier pour pouvoir étudier l'importance de ce que l'on retire dans lafonction de correspondances du système. En se rapportant à la figure 4.2 et l'équation 4.2, onpeut ainsi réécrire la formule de correspondance ainsi :

si m(A&B) ≥ Max(m(A),m(B))

alors m(A)+m(B)+m(A&B)-hmax(m(A),m(B))

sinon m(A)+m(B) (4.3)

Page 48: Mémoire DEA Système d'Information Management and …mrim.imag.fr/publications/2003/BC001/memoire_DEA_bisiaux_cedric.pdf · Mémoire DEA Système d'Information Management and Technology

EXPOSE DE LA SOLUTION

48

Dans le cadre des expériences nous n'utiliserons que des conjonctions composées determes doubles. Il sera intéressant par la suite d'étendre le système à l'utilisation deconjonctions de termes plus grandes.

Deuxième solution :

La deuxième méthode, que nous avons écartée pour le moment, est d'inclure dansnotre calcul un paramètre sur la prise en compte de chaque conjonction. Ces prises en comptereposent sur l'observation des ensembles. Cette solution nous fait traiter les conjonctions demanières générales. Cette méthode se base sur les ensembles, ainsi le poids de cetteconjonction est paramétré par une variable a qui dépend de la cardinalité de cette conjonction.Ainsi le a équivaut à :

)(*1

nConjonctioCARDk=a

où k est un paramètre à définir (k est un nombre réel), il permet de faire varierl'importance que l'on souhaite donner à a.

Ainsi on obtient cette formule :

)&(*)&(*

1)()( BAmBACARDk

BmAm ++

Cette solution n'a pas été retenue parce qu'elle traite de manière générale et identiquetoutes les conjonctions. Mais il est évident que deux conjonctions différentes n'ont pas lemême rapport de dépendance avec les termes qui les composent. Par exemple, si la présencedu terme A dans un document D indique que le document D est pertinent, alors la conjonctioncomposée des termes A&B indique de la même manière la pertinence de D (grâce au terme Aqui compose la conjonction). Ici, une autre conjonction composée des termes B&C n'aura pasla même implication sur le document (même si B est présent). L'importance de la conjonctiondans le réseau dépend alors de ses composants.

4.2.1 Expériences

Afin de tester les différentes améliorations du système RELIEFS qui ont été apportées,dans le cadre de ce mémoire de DEA, on utilise le corpus qui a été utilisé dans le cadre deTREC11. Ce corpus est le RCV1 fourni par Reuters pour les recherches7. C'est une collectiond'environ 800.000 dépêches d'informations, couvrant une période d'une année de 1996 à 1997.Les articles de la collection ont un identificateur unique et sont datés. Nous utilisons lors denos expériences les 50 premières requêtes fournies par le NIST pour l'épreuve de TREC11 surle corpus RCV1 [Robertson et Soboroff 2002].

Ainsi, les expériences seront menées dans l'optique de TREC. Chaque "run" soumettrales 800000 documents à 50 requêtes. Selon les différentes expériences qui seront soumises,elles nous permettrons de voir les évolutions du système RELIEFS :

7 Reuters corpus volume 1. http://about.reuters.com/researchandstandards/corpus/. Visité le 26Septembre 2002.

Page 49: Mémoire DEA Système d'Information Management and …mrim.imag.fr/publications/2003/BC001/memoire_DEA_bisiaux_cedric.pdf · Mémoire DEA Système d'Information Management and Technology

EXPOSE DE LA SOLUTION

49

- La première expérience utilisera le système sans prise en compte des conjonctionsexistantes dans la collection.

- La seconde expérience utilisera les conjonctions sans traitement particulier, ce quisignifie que les nœuds représentant les conjonctions sont considérées de la mêmemanière que les nœuds représentant les termes simples.

- La troisième expérience utilisera les conjonctions et un traitement dans le calculde prise en compte de ces conjonctions sera utilisé. Ce traitement permet deprendre en compte les dépendances entre les conjonctions et les termes simplesqui la composent.

Les trois expériences qui vont être présentées ici seront comparées suivant desmesures de rappel, de précisions, le nombre de documents pris, trouvés et ratés dansl'ensemble des documents pertinents que l'on désire retrouver pour une requête précise. Nousnous permettons de vous faire un rappel sur ces mesures qui vont être utilisées pour nosexpériences :

- La précision est la capacité du système à ne retrouver que des documentspertinents. La précision est égale au nombre des documents pertinents et retrouvéssur le nombre de documents retrouvés.

- Le rappel est la capacité du système à retrouver tous les documents pertinents. Lerappel est égal au nombre de documents pertinents et retrouvés sur le nombre dedocuments pertinents.

- Pris signifie le nombre de documents qui ont été ramenés par le système.- Trouves est la mesure du nombre de documents pertinents qui ont été trouvés par

le système- Rate est le nombre de documents pertinents de la collection pour la requête qui

n'ont pas été trouvés par le système.

Nous utiliserons aussi des opérations de moyenne afin d'avoir un résultat d'ensemblede l'expérience. La moyenne représente pour la précision la moyenne des précisions de chaquerequête de l'expérience, de même que pour le rappel. La moyenne représente la moyennecorrigée, Elle est constituée pour la précision du nombre total de document "trouvés" surl'ensemble de l'expérience, divisé au nombre total de document "pris" par le système tout aulong de l'expérience. Pour la moyenne corrigé du rappel, c'est l'ensemble des documentstrouvés sur l'ensemble des documents trouvés et les documents ratés. Cette moyenne corrigéedonne une mesure plus générale du système.

4.2.1.a Première expérience

Dans cette expérience, le système RELIEFS ne prend pas en compte les conjonctions.Chaque nœud représente un terme simple et est traité par le phénomène d'activation et derésonance. Cette première expérience nous permet de donner un point de départ ainsi qu'unpoint de comparaison, afin de pouvoir constater les évolutions possibles qui vont êtreapportées sur le système. Le nombre de nœuds retenus dans le cadre des "meilleursprédicteurs" est placé sur 20 mots distincts qui sont pris en compte. Ceci permet, pour lacomparaison des systèmes, de se faire sur le même nombre de mots utilisés.

Page 50: Mémoire DEA Système d'Information Management and …mrim.imag.fr/publications/2003/BC001/memoire_DEA_bisiaux_cedric.pdf · Mémoire DEA Système d'Information Management and Technology

EXPOSE DE LA SOLUTION

50

numreq

precision rappel pris trouves ratenumreq

precision rappel pris trouves rate

101 0,80712163 0,8859935 337 272 35 126 0,5882353 0,23255815 68 40 132102 0,6368715 0,7169811 179 114 45 127 0,4390244 0,42857143 41 18 24103 0,5 0,3114754 38 19 42 128 0,07142858 0,03030303 14 1 32104 0,5564516 0,7340425 124 69 25 129 0,30769232 0,14035088 26 8 49105 0,15625 0,1 32 5 45 130 0,14285715 0,125 14 2 14106 0,09090909 0,03225806 11 1 30 131 0,6075949 0,6486486 79 48 26107 0 0 9 0 37 132 0,3181818 0,3181818 22 7 15108 0 0 9 0 15 133 0,5 0,75 42 21 7109 0,4117647 0,1891892 34 14 60 134 0,48 0,53731346 75 36 31110 0,34210527 0,41935483 38 13 18 135 0,61009175 0,39465874 218 133 204111 0 0 5 0 15 136 0,1923077 0,07462686 26 5 62112 0,3043478 0,35 23 7 13 137 0,14285715 0,22222222 14 2 7113 0,34375 0,15714286 32 11 59 138 0,3125 0,22727273 32 10 34114 0,41666666 0,16129032 24 10 52 139 0,5 0,7058824 24 12 5115 0,5090909 0,44444445 55 28 35 140 0 0 12 0 67116 0,57894737 0,50574714 76 44 43 141 0,20689656 0,07317073 29 6 76117 0,42424244 0,4375 33 14 18 142 0,21428572 0,25 28 6 18118 0,0952381 0,14285715 21 2 12 143 0 0 7 0 23119 0 0 9 0 40 144 0,640625 0,74545455 64 41 14120 0 0 12 0 158 145 0,07692308 0,03703704 13 1 26121 0,44067797 0,30952382 59 26 58 146 0,47435898 0,33333334 78 37 74122 0,4923077 0,627451 65 32 19 147 0,40625 0,38235295 32 13 21123 0,1875 0,1764706 16 3 14 148 0,70053476 0,5745614 187 131 97124 0 0 7 0 33 149 0,34375 0,19298245 32 11 46125 0,44642857 0,18939394 56 25 107 150 0,4 0,33333334 45 18 36

precision rappel pris trouves rate

moyenne 0,32834133 0,292978639 moyenne 50,52 26,32 43,36moyennec 0,52098179 0,377726751 total 2526 1316 2168

Tab 4.1 Résultat de l'expérience 1 sans conjonction, ni traitement

Ces premiers résultats Tab 4.1 vont servir de base de comparaison pour lesexpériences suivantes. Nous avons fait la moyenne de la précision et du rappel afin de pouvoiravoir une référence générale des performances du système dans cette configuration initiale.Ainsi, cette moyenne nous permet d'avoir une appréciation générale du système surl'ensemble des 50 requêtes qui lui sont soumises.

4.2.1.b Seconde expérience

Cette seconde expérience est une modification du type de nœud qui se trouve dans leréseau construit par le système RELIEFS. En effet, le but de ce travail de recherche et deprendre en compte les dépendances qui peuvent exister entre les termes dans un document.Ici, le système construit donc des conjonctions, ces conjonctions sont placées dans des nœudset évoluent au sein du système de la même manière qu'un nœud représentant un terme simple.

Page 51: Mémoire DEA Système d'Information Management and …mrim.imag.fr/publications/2003/BC001/memoire_DEA_bisiaux_cedric.pdf · Mémoire DEA Système d'Information Management and Technology

EXPOSE DE LA SOLUTION

51

numreq

precision rappel pris trouves ratenumreq

precision rappel pris trouves rate

101 0,828125 0,8631922 320 265 42 126 0,2 0,06395349 55 11 161102 0,6540881 0,6540881 159 104 55 127 0,44117647 0,35714287 34 15 27103 0,14814815 0,06557377 27 4 57 128 0,14285715 0,15151516 35 5 28104 0,57522124 0,69148934 113 65 29 129 0,42857143 0,21052632 28 12 45105 0,08888889 0,08 45 4 46 130 0,14285715 0,125 14 2 14106 0,07142858 0,03225806 14 1 30 131 0,6451613 0,5405405 62 40 34107 0,12121213 0,10810811 33 4 33 132 0,1923077 0,22727273 26 5 17108 0,4 0,53333336 20 8 7 133 0,48387095 0,53571427 31 15 13109 0,5 0,33783785 50 25 49 134 0,41791046 0,41791046 67 28 39110 0,34615386 0,58064514 52 18 13 135 0,6059113 0,36498517 203 123 214111 0,2857143 0,26666668 14 4 11 136 0,12 0,04477612 25 3 64112 0,35714287 0,5 28 10 10 137 0,15789473 0,33333334 19 3 6113 0,31707317 0,18571429 41 13 57 138 0,27586207 0,18181819 29 8 36114 0,43243244 0,2580645 37 16 46 139 0,5 0,5882353 20 10 7115 0,41935483 0,20634921 31 13 50 140 0,1 0,02985075 20 2 65116 0,53061223 0,29885057 49 26 61 141 0,21875 0,08536585 32 7 75117 0,36842105 0,21875 19 7 25 142 0,33333334 0,45833334 33 11 13118 0,07407408 0,14285715 27 2 12 143 0 0 14 0 23119 0 0 16 0 40 144 0,68421054 0,7090909 57 39 16120 0,06896552 0,01265823 29 2 156 145 0 0 17 0 27121 0,4117647 0,5 102 42 42 146 0,35714287 0,18018018 56 20 91122 0,546875 0,6862745 64 35 16 147 0,27586207 0,23529412 29 8 26123 0 0 13 0 17 148 0,74698794 0,54385966 166 124 104124 0,14285715 0,06060606 14 2 31 149 0 0 22 0 57125 0,35714287 0,18939394 70 25 107 150 0,30555555 0,2037037 36 11 43

Tab 4.2 Résultat de l'expérience 2 avec conjonction, sans traitement

Dans le tableau 4.2, on peut voir les résultats du système RELIEFS lorsqu’on met enplace la création et l'utilisation de conjonctions. En effet, afin de mieux traiter les documents,le système construit toutes les conjonctions intéressantes pour le réseau. Ces résultatspermettront de voir le comportement du système et l'apport des ces conjonctions.

4.2.1.c Troisième expérience

Dans le cadre de cette troisième expérience, nous désirons ne pas donner à laconjonction de termes une trop grande importance dans le calcul de la fonction decorrespondance. C'est pour cela que nous ne prenons en considération que les conjonctionsqui ont une grande influence sur le système. A cette conjonction, nous retirons, par soucisd'équilibre pour le système et ses performances, le poids du terme le plus grand qui composela conjonction. Ici, la fonction de correspondance dépend aussi de l'importance que l'on veutleur donner.

precision rappel pris trouves rate

moyenne 0,31643838 0,28122227 moyenne 50,34 23,94 45,74moyennec 0,47556615 0,34357061 total 2517 1197 2287

Page 52: Mémoire DEA Système d'Information Management and …mrim.imag.fr/publications/2003/BC001/memoire_DEA_bisiaux_cedric.pdf · Mémoire DEA Système d'Information Management and Technology

EXPOSE DE LA SOLUTION

52

numreq

precision rappel pris trouves ratenumreq

precision rappel pris trouves rate

101 0,8106509 0,89250815 338 274 33 126 0,59016395 0,20930232 61 36 136102 0,6457143 0,7106918 175 113 46 127 0,4489796 0,52380955 49 22 20103 0,5227273 0,37704918 44 23 38 128 0,10526316 0,06060606 19 2 31104 0,5726496 0,71276593 117 67 27 129 0,32 0,14035088 25 8 49105 0,1764706 0,12 34 6 44 130 0,16666667 0,125 12 2 14106 0 0 10 0 31 131 0,6282051 0,6621622 78 49 25107 0,0769231 0,02702703 13 1 36 132 0,31578946 0,27272728 19 6 16108 0,3684211 0,46666667 19 7 8 133 0,4857143 0,60714287 35 17 11109 0,3333333 0,12162162 27 9 65 134 0,4868421 0,5522388 76 37 30110 0,2222222 0,19354838 27 6 25 135 0,6161137 0,38575667 211 130 207111 0 0 5 0 15 136 0,18181819 0,05970149 22 4 63112 0,3636364 0,4 22 8 12 137 0,14285715 0,22222222 14 2 7113 0,15 0,04285714 20 3 67 138 0,31034482 0,20454545 29 9 35114 0,45 0,29032257 40 18 44 139 0,5 0,7058824 24 12 5115 0,5294118 0,42857143 51 27 36 140 0 0 14 0 67116 0,5 0,25287357 44 22 65 141 0,20689656 0,07317073 29 6 76117 0,4054054 0,46875 37 15 17 142 0,1904762 0,16666667 21 4 20118 0,12 0,21428572 25 3 11 143 0 0 9 0 23119 0 0 11 0 40 144 0,66129035 0,74545455 62 41 14120 0,1666667 0,02531646 24 4 154 145 0,08333334 0,03703704 12 1 26121 0,442623 0,32142857 61 27 57 146 0,5063291 0,36036035 79 40 71122 0,5342466 0,7647059 73 39 12 147 0,3548387 0,32352942 31 11 23123 0 0 11 0 17 148 0,71005917 0,5263158 169 120 108124 0,1 0,03030303 10 1 32 149 0 0 21 0 57125 0,4461539 0,21969697 65 29 103 150 0,4390244 0,33333334 41 18 36

Tab 4.3 Résultat de l'expérience 3 avec conjonction, avec traitement et paramètre h=1

Les résultats, que nous exposons ici tab 4.3, sont l'utilisation des conjonctions avec letraitement décrit dans la première solution (cf: 4.2) avec h=1. Ce qui nous donne unepremière opinion sur les avantages d'une telle solution. Afin de voir l'évolution lorsque l'onfait varier h sur l'ensemble [0.0;1.0], nous exposerons le tableau suivant (tableau 4.4) qui nousmontre cette évolution.

Moyenne\h 0 0.1 0.2 0.3 0.4 0.5Précision 0,2742816 0,276391933 0,276632202 0,286107415 0,30351004 0,30877718

Rappel 0,20984674 0,212586714 0,219506491 0,23037933 0,2540421 0,26007393

Moyenne\h 0.6 0.7 0.8 0.9 1.0Précision 0,31262084 0,316332085 0,303274706 0,327863654 0,32776524

Rappel 0,262307093 0,27126734 0,257575767 0,279048343 0,28756612

Tab 4.4 Résultat de l'expérience 3 avec conjonction et traitementpour h variant de [0.0;1.0]

precision Rappel Pris trouves rate

moyenne 0,327765239 0,287566124 moyenne 49,3 25,58 44,1moyennec 0,518864097 0,367106774 total 2465 1279 2205

Page 53: Mémoire DEA Système d'Information Management and …mrim.imag.fr/publications/2003/BC001/memoire_DEA_bisiaux_cedric.pdf · Mémoire DEA Système d'Information Management and Technology

EXPOSE DE LA SOLUTION

53

Nous obtenons ainsi du tableau 4.4 les courbes suivantes. Ces courbes permettent uneinterprétation plus rapide des résultats figure 4.5.

évolution du paramètre de prise en compte des conjonctions

0

0,05

0,1

0,15

0,2

0,25

0,3

0,35

0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1.0

paramètre des conjonctions

mes

ure

s m

oye

nn

es

précision

rappel

figure 4.5 Courbe d'évolution du paramètre pour le traitement des conjonctions

4.2.2 Discussion

Nous allons commenter ici les différents résultats obtenus des expériences faitessuccessivement et qui vous ont été présentées précédemment. Ces commentaires reposeronssur les observations des chiffres appartenant aux tableaux de résultats.

4.2.2.a Expérience 1

Pour la première expérience, le système ne s'intéresse qu'aux termes simples. Leréseau n’est composé que de nœuds représentant les termes simples des documents de lacollection. Les résultats pour les 50 requêtes qui ont interrogé la collection de 800000documents, donnent une précision moyenne de 0,32834133 et un rappel moyen de0,29297864. On peut remarquer dans le tableau 4.1, que 16% des requêtes (soit 8 requêtes)qui sont soumises n'ont trouvé aucun des documents pertinents.

Cette expérience nous sert d'expérience de référence sur le système, nous permettantainsi d'avoir des points de comparaison.

Page 54: Mémoire DEA Système d'Information Management and …mrim.imag.fr/publications/2003/BC001/memoire_DEA_bisiaux_cedric.pdf · Mémoire DEA Système d'Information Management and Technology

EXPOSE DE LA SOLUTION

54

4.2.2.b Expérience 2

Pour la seconde expérience, le système introduit dans la construction du réseau desconjonctions de termes. Mais nous restons sur un seuil de 20 mots sélectionnés. Ce quisignifie que les conjonctions, dont les mots composants sont présents dans cette liste ne sontpas comptabilisées; ce qui nous donne par rapport à la première expérience le même nombrede mots différents. Les conjonctions de termes sont considérées comme des informationssupplémentaires (ces nouveaux nœuds apportent des possibilités plus étendues d'activation denœuds) pour le système. Les résultats exposés dans le tableau 4.2 nous donnent une précisionmoyenne de 0,31643838 et un rappel moyen de 0,2812227. On remarque de même dans cesrésultats qu'il y a 10% des requêtes soumises à la collection, qui n'ont trouvé aucun desdocuments pertinents. Cette observation peut s'interpréter par le fait que certaines requêtesrépondent plus facilement aux conjonctions termes, car elles leurs sont plus favorables.

Il est déjà possible de voir que l'utilisation de conjonctions de termes dans le systèmeRELIEFS, permet de faire baisser le pourcentage de requêtes qui n'obtiennent pas en réponsede documents pertinents. Le système avec conjonctions prend environ le même nombre dedocuments, mais dans ce document pris par le système, il y a moins de documents pertinents,environ 8%, pour le système utilisant les conjonctions. Ce qui signifie dans un premier tempsque l'utilisation des conjonctions n'apportent pas d'amélioration dans la configuration actuelle,les résultats sont moins favorables.

Ceci pourrait s'expliquer par le fait que l'utilisation de conjonctions de termes rende lesystème plus sélectif. En effet, La présence de nœuds qui représentent des conjonctions determes, oblige que ces nœuds soient activés dans le document afin que ce document ait unpoids plus fort (dénominateur). La présence d'un nœud complexe est moins probable quecelle d'un nœud simple.

4.2.2.c Expérience 3

Dans la troisième expérience, le système construit toujours au sein de son réseau lesconjonctions de termes. La différence ici, est qu'un traitement est fait sur ces conjonctions, enaccord avec la formule de la solution 1 (équation 4.3). Le système ne s'intéresse qu'auxconjonctions supérieures au poids maximal de ses composants, un impact important sur lafonction de correspondance. Le nombre de conjonctions qui sont utilisées dans le calcul estplus faible que pour l'expérience 2. L'expérience est toujours menée dans les mêmesconditions que précédemment. Les premiers résultats exposés sur le tableau 4.3, nous donnentune précision moyenne de 0.32778554 et un rappel moyen de 0.287566124 pour une valeurde h valant 1.

La comparaison de cette expérience avec l'expérience 2 , nous montre qu'il y a uneamélioration du système grâce au traitement fait. Cette amélioration est due au choix desconjonctions fait par le système. En comparant l'expérience 1 et 3 on ne remarque pasd'amélioration entre les systèmes. Ceci est peut-être dû au bon résultat du système dans saconfiguration de base. Une autre possibilité est que la présence des conjonctions traitéesn'apporte pas assez d'information (la présence de ces conjonctions doivent permettre au réseaude par leur activation de retrouver plus de documents pertinents) afin de permettre demeilleurs résultats. On remarque de même dans ces résultats qu'il y a 14% des requêtessoumises à la collection, qui n'ont trouvé aucun des documents pertinents.

De plus peu de conjonctions comptent pour h=1, puisque l'on compte que cellesupérieure au poids maximal de ses composants. Ce système est très sélectif, car pour les

Page 55: Mémoire DEA Système d'Information Management and …mrim.imag.fr/publications/2003/BC001/memoire_DEA_bisiaux_cedric.pdf · Mémoire DEA Système d'Information Management and Technology

EXPOSE DE LA SOLUTION

55

mêmes raisons que dans l'expérience 2, on augmente le nombre de termes en commun quidoivent être présent. L'amélioration ici est que cette sélection est restreinte (nous utilisonsmoins de conjonctions), entraînant ainsi la possibilité de prendre plus de document que dansl'expérience 2. Ce qui montre que le traitement apporte un certain équilibre sur cesconjonctions de termes par rapport à l'utilisation de ces conjonctions sans différenciation.

Traitement avec paramètre variant :

Lorsque sur cette expérience, nous avons décidé de voir l'évolution du système, enfonction de l'évolution du paramètre h. Nous ne pensions pas que les résultats sedégraderaient aussi rapidement pour h petit. Pour le cas où h=0 les résultats sont largementinférieurs à ceux de l'expérience 2 ou l'on utilise aucun traitement des conjonctions. Ladifférence entre ces deux expériences réside, non pas dans le traitement de la conjonction(puisqu'il n'y a pas de retrait au poids de la conjonction), mais plutôt par la sélection de cesconjonctions. En effet, ici le système choisit toujours les conjonctions étant supérieur aumaximum des poids qui les composent. De plus, en additionnant le poids de la conjonction aupoids des termes simples, on ne tient pas compte de la relation de dépendance existante entreles termes simples et la conjonction qu'ils peuvent composer. Cette réflexion est confirméepar les résultats de l'expérience 2. Ces résultats ne contredisent en rien l'analyse faite sur lesdépendances qui vous a été exposée dans ce rapport (section 4.1.2).

Avec cette évolution du paramètre h (figure 4.5), nous remarquons une augmentationde la précision moyenne et le rappel moyen qui suit l'augmentation de la valeur de h vers 1.0.Ainsi, en retirant au poids de la conjonction une partie du poids d'un des termes composants(terme ayant le plus grand poids), on améliore les résultats pour le système utilisant lesconjonctions de termes. Ce qui confirme de manière générale l'analyse et l'interprétation quenous avons faite sur le problème de dépendances.

Dans cette configuration du système, la valeur du paramètre h, pour lequel les résultatssont les meilleurs, est h=1. Dans le cas ou l'on désirerait utiliser une valeur supérieur à 1 pourh, le risque serait de perdre l'ajout du poids de la conjonction de termes. Ce qui aurait poureffet de faire baisser énormément le score du document, et ainsi de l'exclure du système. Cecidonnerait les mêmes résultats que pour le système de base (utilisant que les termes simples).

4.2.2.d Evolution du système

Nous pensons que le problème de cette solution, qui ne donne pas de résultatsconcluants sur l'utilisation des conjonctions de termes et le traitement des dépendancesexistantes entre ces conjonctions et les termes qui les composent, est un problèmed'émergence des ces conjonctions au sein du système. En effet, les bonnes conjonctions ont dumal à émerger, car à chaque fois qu'un document pertinent permet que m(A) et m(B)augmentent leur poids par le biais de la fonction de mise à jour des poids, ceci entraîne uneaugmentation de max (m(A),m(B)). Cette augmentation engendre une prise en compte desconjonctions de plus en plus sélective. Ainsi, nous tendons vers un système approchant dusystème de base (qui utilise que des termes simples).

Une solution permettant de remédier à ce problème, sur la prise en compte desconjonctions de termes, serait d'utiliser le "pseudo relevance feedback". Le "pseudo relevancefeedback" consiste à utiliser les informations que l'on peut obtenir des documents non

Page 56: Mémoire DEA Système d'Information Management and …mrim.imag.fr/publications/2003/BC001/memoire_DEA_bisiaux_cedric.pdf · Mémoire DEA Système d'Information Management and Technology

EXPOSE DE LA SOLUTION

56

pertinent. Ces documents non pertinents sont des documents dont les score sont très faible, ilsont ainsi classé par le système, car le score est inférieur au seuil fixé (dans notre système leseuil est 1). L’utilisation des documents non pertinents peut nous permettre de faire baisser lepoids des termes A et B. Ce qui entraîne automatiquement une baisse de max (m(A),m(B)), etainsi augmente le nombre de conjonctions qui seront sélectionnées par le système.

Une autre perspective d'amélioration de ce système, est l'optimisation du code dusystème RELIEFS. Cette optimisation de ce code nous permettra d'exécuter un "run" dans untemps d'exécution plus faible.

Page 57: Mémoire DEA Système d'Information Management and …mrim.imag.fr/publications/2003/BC001/memoire_DEA_bisiaux_cedric.pdf · Mémoire DEA Système d'Information Management and Technology

CONCLUSION

57

5 Conclusion

Ce rapport de DEA traite de la recherche effectuée sur la prise en compte du contexteet des dépendances. Il a permis de faire un état de l'art sur les différents modèles, ainsi qu'uneétude des modèles de recherches d'information. Cette étude a permis de déterminer commentles modèles de bases traitent le problème des dépendances et des conjonctions de termes.Cette analyse des modèles a apporté les premières fondations de notre recherche. Des travauxsur ces sujets ont été menés [Besançon 2002] et [Stricker et al 2000]. Ils ont exploré des voiesde recherche qui traitent différemment le sujet, mais qui montre une très grande importance etun besoin de s'intéresser au contexte (au sens des termes) pour la recherche d'information.

Une nouvelle réflexion, que nous avons menée autour de l'intégration des cesdépendances et du contexte, s'est inspirée de ces travaux. Notre but était alors de prendre enconsidération ces dépendances par le biais de conjonctions. Ces conjonctions devaient êtreintégrées dans notre system RELIEFS, et bénéficier d'un traitement intervenant dans lafonction de correspondance.

Afin de traiter ce problème, nous avons proposé une solution reposant sur le besoin detraiter les conjonctions qui sont crées par le système, et qui sont intégrées dans le réseau.Cette solution émerge de la réflexion et de l'observation que l'on a pu faire en observant lesensembles. On s'aperçoit ainsi du besoin de ne pas ajouter la conjonction sans retirer unepartie du poids de cette conjonction. Cette partie de poids peut correspondre à la mesure de ladépendance entre la conjonction et les termes qui la composent. Nous avons implémenté surle système RELIEFS la construction des conjonctions en suivant l'algorithme proposé par[Brouard 2000b]. L'implémentation du traitement de ces conjonctions de termes s'est faite enintégrant notre solution, qui prend en compte le poids de la conjonction et le traite suivant lesrègles que nous avons établis pour notre solution.

L'implémentation de cette solution devait être ainsi testée, afin de pouvoir vérifier sonfonctionnement au travers du système en suivant des protocoles d'expériences que nous avonsmis en place. Les tests de la solution intégrée dans le système RELIEFS se sont révélés avoirune exécution dans le temps très importante. En effet, l'utilisation d'une grande collection etl'utilisation des conjonctions de termes demandaient beaucoup de temps au système afind'apporter des résultats. L'expérience 2 a demandé 40 heures pour exécuter le "run". Dans lecadre de l'expérience 3, pour chaque variance du paramètre de traitement des conjonctions, le"run" avait besoin de 28 heures pour s'exécuter. Ainsi, ces tests ont demandé une grandepériode pour se dérouler.

Les résultats que nous avons obtenus de ces différents tests effectués sur le systèmeRELIEFS non pas été concluants pour l'utilisation des conjonctions avec le type de traitementque nous avons mis en place. Par contre, les expériences menées (expériences 3) necontredisent en aucun cas l'analyse que nous vous avons proposée. Le besoin de retirer unemesure, correspondant à la relation de dépendance, au poids de conjonction du terme esttoujours valable dans le raisonnement, mais aussi par l'expérimentation.

Ces résultats non concluants nous ont obligé à nous interroger sur les raisons qui lesont entraînés. Les perspectives d'amélioration de cette solution seraient d'utiliser le "pseudofeedback" qui nous permettrait ainsi de privilégier plus les conjonctions en pénalisant lestermes simples lorsque les documents ne sont pas pertinents. L'utilisation de cetteamélioration de notre solution devrait entraîner de meilleurs résultats.

Page 58: Mémoire DEA Système d'Information Management and …mrim.imag.fr/publications/2003/BC001/memoire_DEA_bisiaux_cedric.pdf · Mémoire DEA Système d'Information Management and Technology

BIBLIOGRAPHIE

58

BIBLIOGRAPHIE

[Baeza-Yates et Ribeiro-Neto 1999] Baeza-Yates R. et Ribeiro-Neto B. , Modern informationretrieval, edition ACM press, 1999

[Belkin et Croft 1992] Nicholas J. Belkin et W. Bruce Croft. Information filtering aninfromation retrieval : two sides of the same coin? Communication of the ACM. Vol 35, n°12pages 29-38, 1992.

[Besançon 2001] R. Besançon, J.-C. Chappelier, M. Rajman, A. Rozenknop, Improving Textrepresentations through Probabilistic Integration of Synonymy Relations, Proceedings of theXth International Symposium on Applied Stochastic Models and Data Analysis(ASMDA'2001), 1, 2001, pp. 200-205.

[Besançon 2002] Romaric Besançon, Intégration de connaissances syntaxiques et sémantiquesdans les représentations vectorielles de textes. Application au calcul de similaritéssémantiques dans le cadre du modèle DSIR. Thèse de doctorat 2002.

[Brouard 2000] C. Brouard, Construction et exploitation de réseaux sémantiques flous pourl'extraction d'information Pertinente: Le système RELIEFS, Thèse de doctorat, 2000

[Brouard 2000b] C. Brouard, Une méthode associative et incrémentale pour l'extraction derègles floues, RIA, CAP'99, pages 397-426, 2000.

[Brouard 2002a] C. Brouard, CLIPS at TREC 11: Experiments in Filtering, The EleventhText Retrieval Conference (TREC 2002), 2002.

[Brouard 2002b] C. Brouard. RELIEFS : un système d'inspiration cognitive pour le filtrageadaptatif de documents textuels. Recherche et filtrage d'information In génierie des systèmesd'information Vol 7, 2002.

[Brouard et Nie 2000] C. Brouard and J-Y Nie, The System RELIEFS: A New Approach forInformation Filtering, The Ninth Text REtrieval Conference (TREC 9), 2000

[Buckley et al 1992] C. Buckley, G. Salton, J. Allan (Cornell University), Automatic retrievalwith locality information using SMART, The first Text Retrieval Conference, page 59-721992.

[Deerwester et al. 1990] Deerwester S, Dumais S.T., Furnas G.W., Landauer T.K., HrashmanR., Indexing by latent semantic analysis, Journal of th american society for informationscience, 41(6), pages 391-407, 1990.

[Fuhr 1992] Fuhr N, Probabilistic models in information retrieval, 1992

Page 59: Mémoire DEA Système d'Information Management and …mrim.imag.fr/publications/2003/BC001/memoire_DEA_bisiaux_cedric.pdf · Mémoire DEA Système d'Information Management and Technology

BIBLIOGRAPHIE

59

[Furnas et al. 1988] Furnas G.W., Deerwester S, Dumais S.T., Landauer T.K., Hrashman R.,Streeter L.A. Lochbaum K.E., Information retrieval using singular decomposition model ofmatent semantic structure. In Proc. Of the 11th Annual ACM SIGIR Conference on researchand development in information retrieval, pages 465-480, 1988.

[Jacquemin et al. 1997] Christian Jacquemin, Judith L. Klavans Evelyne Tzoukermann.Expansion of Multi-Word for Indexing and Retrieval Using Morphology and Syntax. InProceedings of the Thirty-fifth Annual Meeting of the Association for computationelLinguistics ((E)ACL'97), Barcelona. 7-10 July 1997.

[Kwok 1989] Kwok K.L., A neural network for probabilistic information retrieval, ACMSIGIR, pages 21-30, 1989

[Kwok 1995] Kwok K.L., A network approach to probabilistic information retrieval, ACMTansaction on information systems, Vol 13, N°3, pages 324-353, 1995

[Nie 1988] Nie J. Y., An outline of a general model for information retrieval. Proceedings ofthe 11th Annual ACM Conference on Research and Development in Information Retrieval,Grenoble 1988.

[Robertson et al 1994] S.E. Robertson, S. Walker, S.jones, M. M. Hancok-Beaulieu and M.Gatford. Okapi at TREC-3 . In proceedings of the third Text Retrieval Conférence, pages 109-126, 1994.

[Robertson et Soboroff 2002] S.E. Robertson, I. Soboroff. The TREC 2002 Filtering trackreport. The eleventh Text REtrieval Conference (TREC 11), 2002

[Robertson 1977] S.E. Robertson, 'The probability ranking principle in IR', Journal ofDocumentation, 33, pages 294-304, 1977.

[Robertson et Sparck Jones 1976] S.E. Robertson, K. Sparck Jones, Relevance weighting ofsearch terms. Journal of the American Society for Information Science, pages 129 à 146, mai-juin1976.

[Rocchio, 1971] J. J. Rocchio. Relevance Feedback in Information Retrieval. The SMARTInformation Retrieval System. G. Salton, Ed. Prentice Hall, Englewood Cliffs, NJ, 313-323,1971.

[Salton 1971] Salton, G ,The SMART retrieval system : experiments in automatic documentprocessing, Prentice-Hall, 1971

[Salton and Buckley 1988] Gerard Salton and Christopher Buckley, Term-weightingapproaches in automatic text retrieval. Information Processing & Management, Volume 24,Issue 5, Pages 513-523 (1988).

[Salton and McGill 1983] Salton, G., and M. J. McGill. Introduction to Modern InformationRetrieval. New York: McGraw-Hill, 1983.

Page 60: Mémoire DEA Système d'Information Management and …mrim.imag.fr/publications/2003/BC001/memoire_DEA_bisiaux_cedric.pdf · Mémoire DEA Système d'Information Management and Technology

BIBLIOGRAPHIE

60

[Salton et al. 1975] Salton, G., Yang, C. S., and Yu, C. T. A theory of term importance inautomatic text analysis. Journal of the American Society for Information Science andTechnology, Volume 26(1) pages 33-44, 1975.

[Stricker et al 2000] M. Stricker , F. Vichot, G. Dreyfus et F. Wolinski, Training Context-Sensitive Neural Networks With Few Relevant Examples for the TREC-9 Routing, The NinthText REtrieval Conference (TREC 9), 2000

[Van Rijsbergen 1979] Van Rijsbergen C. J., INFORMATION RETRIEVAL

[Van Rijsbergen 1986] Van Rijsbergen C. J., A non-classical logic for information retrieval,The computer Journal, Vol. 29, No. 6 1986

[Voorhees et Buckland 2002] Voorhees E. M. et Buckland L. P.. NIST Special Publication:SP 500-251 The Eleventh Text Retrieval Conference (TREC 2002)

[Wilkinson et Hingston 1991] Wilkinson R. et Hingston P., Using the cosine measure in aneural network for document retrieval, ACM SIGIR, pages 202-210, 1991