evaluation de la précision pour un système de recherche d’information hypertexte

Evaluation de la précision sur un système de recherche d’information hypertexte

Idir Chibane {[email protected]}; Bich-Liên Doan {[email protected]}

Supélec, Plateau de Moulon, 3 rue Joliot Curie, 91 192 Gif/Yvette, France

Résumé : La fonction de correspondance, qui permet de sélectionner et de classer les documents par rapport à une requête est un composant essentiel dans tout système de recherche d'information. Nous proposons de modéliser une fonction de correspondance prenant en compte à la fois le contenu d’une page et le voisinage de cette page. Ce voisinage est calculé dynamiquement en pondérant les liens entre les pages en fonction du nombre de termes de la requête contenus dans ces pages. Nous avons expérimenté notre système sur un sous-ensemble significatif de la collection de test TREC-9, et nous concluons que notre fonction réalise de bons résultats par rapport à l’algorithme de base reposant sur le contenu seulement de la page et celui de INDEGREE reposant sur la popularité de la page indépendamment des termes de la requête.

1. Introduction Les systèmes de recherche d’information (SRI) sont composés essentiellement de deux modules. Un module

d’indexation qui représente les documents, et un module d’interrogation qui représente la requête. La fonction de correspondance permet de calculer le degré d’appariement entre les termes de la requête et les termes d’indexation des documents afin d’évaluer la pertinence des documents par rapport à la requête. Avec le succès grandissant du Web (Google recense plus de 8 milliards de pages Web1) le classement des réponses devient critique. Aussi des fonctions de correspondance prenant en compte les liens hypertextes ont vu le jour. Ces dernières années, plusieurs méthodes de recherche d’information employant des informations sur la structure des liens ont été développées. En réalité, la plupart des fonctions de correspondance utilisées par les systèmes de recherche hypertextes combinent une mesure de pertinence calculée en fonction du contenu de la page et de la requête utilisateur avec une mesure de popularité de la page qui elle, est indépendante de la requête. Cette dernière mesure repose sur la structure du Web, considéré comme un graphe orienté de pages et de liens. Un certain nombre de systèmes qui tiennent compte de la structure du web dans la fonction de correspondance ont été développés. Le PageRank (Brin et al., 1998) de Google et le HITS (Kleinberg, 1998) de Clever sont deux algorithmes fondamentaux utilisant la structure d'hyperlien entre les pages Web. Un certain nombre d’extension de ces deux algorithmes ont été proposés, comme (Lempel et al., 2000) (Kamvar et al., 2003) (Jeh et al., 2003) (Deng et al., 2004) et (Xue-Mei et al., 2004). Tous ces algorithmes reposent sur la règle suivante : Si une page A cite une page B, alors c'est que la page A juge que la page B est suffisamment importante pour mériter d'être citée et d'être proposée aux visiteurs. L’étude des systèmes existants nous a permis de conclure que toutes les fonctions de correspondance utilisant les liens hypertextes ne dépendent pas des termes de la requête. Cela a diminué considérablement la précision des résultats retrouvés. Dans les sections suivantes, nous exposons notre modèle, nous détaillons la fonction de correspondance reposant sur le voisinage de la page, ainsi que la méthodologie utilisée lors de nos expérimentations. Nous présentons aussi les expériences effectuées sur la collection de test TREC-9 et nous terminons par une analyse des résultats obtenus et une conclusion.

2. Notre modèle Nous proposons un nouveau modèle de calcul de pertinence des documents par rapport à une requête

utilisateur. Notre modèle tient compte à la fois du contenu textuel d’une page et du voisinage de cette page. Le voisinage d’une page est calculé dynamiquement en pondérant les liens entre les pages voisines en fonction du nombre de termes de la requête présents dans ces pages.

2.1. Indexation Notre système procède premièrement par la suppression des balises HTML et des caractères de ponctuation,

puis élimine les termes fréquemment utilisés en utilisant une liste de mots vides. Puis le système remplace chaque mot (ou terme) par sa classe représentative (la racine) en employant l’algorithme de lemmatisation de Porter (Porter, 1980).

1 1 http://www.zorgloob.com/2005/08/8-168-684-336-pages-pour-google.asp

mailto:%[email protected]%7D

mailto:%[email protected]%7D

Notre choix du modèle de représentation des documents et requêtes s’est porté sur le modèle vectoriel (Salton et al, 1975). Ce choix est motivé par le succès du modèle vectoriel dans la communauté Web et les résultats très satisfaisants qu’il engendre. La dimension de notre espace vectoriel est égale au nombre de termes distincts dans toute la collection. Chaque document et chaque requête sont représentés par un vecteur de poids des termes. Pour calculer ces poids, nous avons choisi la combinaison des pondérations locales et globales (TF-IDF) de la manière suivante

( )( )( ) )1(

)(log**5.05.0, ⎟

⎟⎠

⎞⎜⎜⎝

⎛⎟⎟⎠

⎞⎜⎜⎝

⎛⎟⎟⎠

⎞⎜⎜⎝

⎛+=

tdfP

ttfMaxttfW pt

Où tf(t) est la fréquence d’occurrence du terme t dans la page p (term fréquency) et df(t) est le nombre de pages dans la collection qui contient le terme t (document frequency). |P| représente le nombre total des pages de la collection.

2.2. Fonction de voisinage La nouveauté dans notre modèle est l’utilisation d’une fonction de correspondance qui dépend en plus du

contenu textuel des pages, de son voisinage. Cette dépendance permet une meilleure adéquation des résultats retrouvés par un modèle classique de recherche d’information (RI) avec un besoin utilisateur. Notre fonction de correspondance repose sur deux mesures : l’une est classique et utilisée dans les systèmes actuels. C’est la mesure cosinus qui calcule le cosinus de l’angle entrant entre le vecteur représentant la requête et celui représentant le document. Cette mesure est définie ci-dessous :

( )3.

),(2

,2

,

,,

22 ∑ ∑

∑

∈

∩∈

⋅=

⋅

⋅=

ii i

iii

ii

iii

Pt tQtPt

QPtQtPt

i

ii

ww

ww

QP

QPQPSD

La deuxième mesure est celle de voisinage de la page qui tient compte de la structure du Web composée des liens hypertextes. Afin de comprendre notre démarche, nous partons de l’hypothèse suivante : on considère qu’une page est bien connue pour un terme t de la requête si celle-ci contient beaucoup de liens entrants et/ou sortants de ou vers des pages qui elles aussi contiennent le terme t de la requête (Doan et al., 2005).

Cette mesure tient compte du nombre de termes de la requête contenus dans les pages Web. Elle est calculée de la manière suivante :

Supposons une requête Q contenant n termes et supposons Pj une page retournée par un système traditionnel de recherche d’information. Soit T(Q) et T(Pj) deux ensembles contenant les termes de la requête Q et de la page Pj respectivement. Notons In(Pj) l’ensemble des pages qui pointe vers la page Pj et |In(Pj)| le nombre des liens entrants de la page Pj. Notre mesure de voisinage est définie comme suit :

( ) ( )( )[ ] ( ) ( )[ ] ( )4)(*2

1,1

1 ∑ ∑=

=∩∩∈− ∗∗

=n

kkQTPTPINP inj

ijiPSDk

PjINnQPVD

2.3. Méthodologie Nos expériences sont conduites selon les étapes suivantes :

Étape 1. Liste initiale (l’ensemble du travail). Une première liste de pages Web répondant partiellement ou complètement à la requête posée par l’utilisateur est obtenue. Ces pages contiennent au moins un terme de la requête et elles sont classées selon un score calculé sur la base de TF-IDF expliqué dans la section précédente. On notera SD le score de la page par rapport à la requête. C’est un score qui repose sur le contenu seul de la page. Cet ensemble de pages constitue l’ensemble de travail de notre système. Il nous permet de calculer un score reposant sur le voisinage d’une page calculé dans la section précédente.

Étape 2. Partition des pages. Une méthode de partition est appliquée pour partitionner les pages retrouvées dans des ensembles. Chaque ensemble se compose des pages qui contiennent exactement k termes de la requête (k=1...n) où n est le nombre total des termes de la requête. Cette partition nous permet de pondérer les liens entre les pages selon le nombre de termes de la requête contenus dans chaque page. Nous donnons des poids aux liens entrants ou sortants des pages en fonction du nombre de termes de la requête contenus dans ces pages. Plus une page contient de termes de la requête, plus les poids de ces liens entrants et sortants sont élevés.

Étape 3. Liste finale. La liste finale des pages Web classées selon une combinaison d’un score de la page et de son voisinage est construite à partir des pages qui contiennent tous les termes de la requête. Un score est associé à chaque page de la liste finale. Ce score est calculé en combinant le contenu textuel de la page et de son voisinage de la manière suivante :

( ) ( ) ( ) ( ) )2(,1,, QPSVQPSDQPS iii ∗−+∗= αα Avec α un paramètre compris entre 0 et 1. Il nous permet de voir l'impact de notre fonction de voisinage sur

celle reposant sur le contenu seul de la page. On note SV(Pi,Q) le score de voisinage de la page Pi reposant sur la propagation des scores des pages du voisinage de Pi à travers les liens. On note SD(Pi,Q) le score associé à la page Pi reposant sur le contenu textuel de cette page par rapport à la requête.

3. Expérimentations sur la collection TREC-9 (WT10g) Dans le cadre de nos expérimentations, nous avons choisi comme collection de test la collection WT10g

issue du corpus de la conférence TREC-9 ayant eu lieu en 2000. Nous l’avons choisie en raison de la notoriété des collections issues de TREC et par conséquent, leur statut de collections standard dans le domaine de la recherche d’information. La collection est composée de 1.692.096 documents (page Web) totalisant environ 11 gigaoctets de données. Pour ce qui est de la structure du graphe sous-jacent à ces données, il existe 1.532.012 pages avec des liens entrants et 1.295.841 pages avec des liens sortant. L’idée de départ consistait à tester toute la collection TREC. Cependant, pour une question d’espace mémoire et de calcul, nous avons sélectionné pour les tests les sites contenant au moins deux pages pertinentes à l’une des requêtes exécutées sur notre système. Avec cette limite, nous sommes passés de 870 sites à 490 sites. Notre collection de tests contient 546.423 pages dont 477.064 pages avec des liens entrants et 410.378 pages avec des liens sortants. Nous avons exécuté 50 requêtes sur trois systèmes différents selon la fonction de correspondance utilisée et nous avons comparé trois catégories d’algorithmes (le contenu seulement, la popularité et notre algorithme reposant sur le voisinage d’une page). L’évaluation expérimentale de l'algorithme que nous avons proposé, ainsi que certains des algorithmes existants est présentée dans la figure ci-dessous. La mesure principale d’évaluation de nos expériences est la précision moyenne aux 11 niveaux standard du rappel qui sont 0%, 10%, 20%,…,100% du rappel. Nous avons aussi évalué la précision obtenue à k documents retrouvés avec k0{5, 10} (P@5 et P@10).

4. Analyse des résultats :

0

0,1

0,2

0,3

0,4

0,5

0,6

0% 10% 20% 30% 40% 50% 60% 70% 80% 90% 100%11 niveaux standards du rappel

Prec

isio

n

Contenu + voisinageContenu seulement (Baseline)INDEGRE

0,2

0,25

0,3

0,35

0,4

0,45

0,5

0,55

0,05 0,

1

0,15 0,

2

0,25 0,

3

0,35 0,

4

0,45 0,

5

0,55 0,

6

0,65 0,

7

0,75 0,

8

0,85 0,

9

0,95 1

Parametre α

Pré

cisi

on

0% rappel 10% rappel 20% rappel

Fig 1. La précision moyenne aux 11 niveaux standard du rappel pour les 50 requêtes exécutées

Figure2. La précision moyenne aux niveaux 0%, 10% et 20% du rappel en fonction du paramètre α

La figure Fig-1 montre les résultants expérimentaux obtenus en utilisant trois fonctions de correspondance

différentes. La première fonction repose sur le contenu seulement de la page. Elle représente l’algorithme de base de nos évaluations. La deuxième fonction repose sur la popularité d’une page indépendamment des termes de la requête. Pour cela, nous avons utilisé l’algorithme INDEGREE. C’est une simple heuristique qui peut être vue comme le prédécesseur de tous les algorithmes d'analyse des liens. Cet algorithme classe les pages retrouvées par un moteur de recherche par leurs popularités où la popularité d’une page est calculée indépendamment des termes de la requête et correspond à la fraction du nombre de liens entrants de la page sur le nombre des liens existants dans toute la collection. La dernière fonction concerne la fonction que nous avons proposée. C’est une combinaison d’une mesure reposant sur le contenu textuel d’une page et une autre mesure reposant sur le voisinage de cette page avec α optimal (α=0,15). La dépendance entre la précision moyenne aux niveaux 0%, 10%, 20% du rappel et α est illustré dans la Fig 2. Toute les courbes convergent vers la l’algorithme de base quand α=1. D’après la figure Fig 1, On peut constater que l’algorithme INDEGREE réalise de mauvais résultats par rapport aux deux autres algorithmes. Avec cet algorithme qui est INDEGREE, une page a le même score (un indice de popularité indépendant de la requête) pour chaque requête exécutée sur le système.

C’est pour cette raison que les résultats obtenus sont mauvais. La combinaison entre une mesure reposant sur le contenu d’une page et son voisinage montre de meilleurs résultats par rapport à l’algorithme de base qui n’est autre que la fonction basée sur le contenu seul de la page. Ceci signifie que le voisinage d’une page peut apporter plus de précision dans les résultats retournés par un moteur de recherche classique. Nous remarquons aussi, d’après la figure Fig 2, que les performances de notre système augmentent quand α diminue. Ça veut dire que plus on donne de l’importance au voisinage de la page, meilleur est le résultat. La valeur optimale de α pour avoir plus de documents pertinents au top de classement est de 0.15.

Tab-1. P@5 et P@10 Précision InDegree Baseline 0.15*SD+0.85*VD P@5 0,077 0,216 0,306 P@10 0,072 0,163 0,208

Le tableau Tab-1 montre les résultats obtenus en comparant les différents algorithmes testés par rapport à la

précision moyenne à 5 et 10 documents retrouvés (P@5, P@10). Les performances de notre algorithme restent toujours au-dessus de l’algorithme de base. Cela signifie qu’il y a trop de document pertinent au top de classement. Par exemple, P@5 et le P@10 de notre algorithme ont les valeurs de 0.306 et 0.208 respectivement. Ces résultats montrent une amélioration de 42% et de 28% par rapport à l'algorithme de base sur la précision moyenne P@5 et P@10 (0.216 et 0.163 respectivement pour l’algorithme de base). Les résultats obtenus par INDEGREE reste toujours au-dessous des deux autres algorithmes.

5. Conclusion et des perspectives Plusieurs travaux ont été menés sur l’utilisation des liens dans la recherche d’information sur le WEB mais,

jusqu’à maintenant de nombreuses expériences ont montré qu’il n’y a pas de gain significatif par rapport aux méthodes de recherche reposant seulement sur le contenu. Ce que nous avons proposé dans ce papier est un moteur de recherche utilisant à la fois le modèle vectoriel et les liens hypertextes. La nouveauté dans notre système est l’utilisation d’une fonction de correspondance qui tient compte du contenu de la page et de son voisinage. Les résultats obtenus montrent qu’ils sont meilleurs par rapport à ceux qui reposent sur le contenu seul ou sur les liens indépendamment de la requête. Les expérimentations que nous avons menées avec la collection TREC-9 montrent que notre modèle pourrait s’avérer utile pour la recherche d’information sur le Web. Nous poursuivons actuellement un travail pour intégrer une mesure sur la propagation des scores à travers le graphe des liens d’un site pour améliorer les performances de notre système. Nous allons estimer l’importance d’un site calculée dynamiquement par rapport à la requête utilisateur. De plus, nous allons évaluer l’impact d’un tel procédé sur les résultats pour les collections de test TREC et GOV.

6. Bibliographie Doan B. L., Chibane I., Expérimentations sur un modèle de recherche d’information utilisant les liens

hypertextes des pages Web, cinquième journées francophones d’Extraction et de Gestion des Connaissances ( EGC’05), Paris, 2005.

Brin S., Page L., The anatomy of a large-scale hypertextual Web search engine, In Proceeding of WWW7, 1998.

Kleinberg J., Authoritative sources in a hyperlinked environment, In Proceeding of 9th ACM-SIAM Symposium on Discrete Algorithms, 1998.

Lempel R., Moran S., The stochastic approach for link-structure analysis (SALSA) and the TKC Effect, In Proceeding of 9th International World Wide Web Conference, 2000.

Kamvar S., Haveliwala T., Manning C., Golub G., Exploiting the Block Structure of the Web for Computing PageRank, 2003.

Deng C., Shipeng Y., Ji-Rong W., Wei-Ying M., Block-based Web Search, Microsoft research ASIA, 2004.

Xue-Mei J., Gui-Rong X., Wen G.S., Hua-Jun Z., Zheng C., Wei-Ying M., Exploiting PageRank at Different Block Level - International Conference on Web Information Systems Engineering, 2004.

Jeh G., Widom J., Scaling personalized web search, In Proceedings of the Twelfth International World Wide Web Conference, 2003.

Salton G., Yang C.S., Yu C.T., A theory of term importance in automatic text analysis, Journal of the American Society for Information Science and Technology, 1975.

Porter M.F., An algorithm for suffix stripping, 1980.

evaluation de la précision pour un système de recherche d’information hypertexte

Documents