plan du chapitre

Chapitre 2 : Les modèles de recherche d’information page 14

Matière : Recherche d’ information (3ème année Licence Informatique – ISIL)

Chapitre 2 : Les modèles de recherche d’information

Plan du chapitre :

1. Système de Recherche d’Information (SRI)

2. Les modèles de RI

2.1. Classification des modèles selon la théorie

2.2. Le modèle vectoriel (Vector Space Model = VSM)

2.3. Le modèle booléen (boolean model)

2.4. Modèle booléen étendu (extended boolean model)

2.5. Modèle probabiliste (Probabilistic Model)

1. Système de Recherche d’Information (SRI)

Un SRI intègre un ensemble de modèles pour la représentation des unités d’information (documents et requêtes) ainsi qu’un processus de recherche/décision qui permet de sélectionner l’information pertinente en réponse au besoin exprimé par l’utilisateur à l ’aide d’une requête. Le processus 𝑈 de RI est illustré sur la figure 2.1.

Figure 2.1 : Processus U de recherche d’information

On y dégage les principaux mots clés suivants :

1.1. Collection de documents

La collection de documents (ou encore base documentaire, fond documentaire, corpus) constitue l'ensemble des informations exploitables et accessibles au travers du système de RI. Elle est constituée d'un ensemble de documents.

1.2. Document

Le document constitue le potentiel d’informations élémentaire d’une base (ou collection) documentaire. La taille d’un document et son contenu sémantique dépendent en grande partie du domaine d’application considéré. De ce fait, un document peut être un texte, un fragment de texte, une audio, ou une bande de vidéo, une image, etc.

1.3. Requête

La requête est l’expression du besoin en informations de l’utilisateur. Elle représente l’interface entre le SRI et l’utilisateur. A cet effet, divers types de langages d’interrogation sont proposés dans la littérature. Une requête est un ensemble de mots clés, mais elle peut être exprimée en langage : Naturel ou quasi naturel (exemple, "𝑇𝑟𝑜𝑢𝑣𝑒𝑟 𝑡𝑜𝑢𝑡𝑒𝑠 𝑙𝑒𝑠 𝑢𝑠𝑖𝑛𝑒𝑠 𝑑𝑒 𝑓𝑎𝑏𝑟𝑖𝑐𝑎𝑡𝑖𝑜𝑛 𝑑𝑒 𝑣𝑜𝑖𝑡𝑢𝑟𝑒𝑠 𝑒𝑡 𝑙𝑒𝑢𝑟𝑠 𝑎𝑑𝑟𝑒𝑠𝑠𝑒𝑠”) ; Booléen (exemple, ”𝑣𝑜𝑖𝑡𝑢𝑟𝑒𝑠 𝐸𝑇 𝑚𝑎𝑟𝑞𝑢𝑒 𝐸𝑇 𝑢𝑠𝑖𝑛𝑒𝑠” ) ; Ou graphique à partir d’une interface graphique.

Collection de

documents

Requête

utilisateur

Analyse Indexation

Représentation

des documents

Représentation

de la requête

Documents

sélectionnés

Modèle de

représentation

Modèle de recherche

d’information (Appariement requête-documents)

Reformulation

Requête

reformulée



1.4. Modèle de représentation

Le modèle de représentation constitue un référentiel qui définit un ensemble de règles et notations permettant la traduction d’une requête ou document à partir d’une description brute (contenu brut) vers une description structurée. Ce processus de conversion est appelé indexation. L'indexation essaye de répondre à la question suivante : « Comment organiser au mieux une collection de

documents afin de pouvoir plus tard retrouver facilement celui qui m'intéresse ? » L’indexation est un processus permettant d’extraire d’un document ou d’une requête, une représentation paramétrée qui couvre au mieux son contenu sémantique. Le résultat de l’indexation constitue le descripteur (appelé aussi signature ou index) du document ou requête. L’ensemble des termes reconnus par le SRI est rangé dans une structure appelée vocabulaire1, parfois appelé dictionnaire, constituant le langage d’indexation.

1.5. Modèle de recherche d’information (ou appariement requête-documents)

C’est le modèle noyau d’un SRI. Il comprend la fonction de décision fondamentale qui permet d’associer à une requête, l’ensemble des documents pertinents à restituer. Notons que le modèle de RI est étroitement lié au modèle de représentation des documents et requêtes. L’appariement requête-documents consiste à calculer un score, supposé représenter la pertinence du document vis-à-vis de la requête. Le score est souvent calculé à partir d’une fonction ou une probabilité de similarité, en fonction du modèle utilisé, qui tient compte du poids des termes dans les documents. L’assignation d’un score de pertinence à un document permet d’ordonner les documents renvoyés à l’utilisateur, et ce qui peut influencer le jugement de l’utilisateur vis-à-vis du SRI.

1.6. La reformulation de la requête de l’utilisateur (en cas de besoin) afin de faire correspondre au mieux la pertinence utilisateur et la pertinence système. Les requêtes des utilisateurs sont modifiées parce qu’elles expriment le besoin d’information d’une manière pas assez satisfaisante pour un SRI. Nous pouvons distinguer deux causes principales à la mauvaise qualité des requêtes des utilisateurs du point de vue du système : le choix des termes et celui des paramètres.

Le premier problème est que l’utilisateur n’a pas forcément une idée précise de la collection de documents sur laquelle il exécute sa requête (surtout sur le Web). Il n’a donc pas la capacité de prédire les termes à la fois correspondant à son besoin d’information et apparaissant dans les documents pertinents. Deuxièmement, pour des raisons comme le manque d’expertise ou de temps, un utilisateur standard n’emploie pas les paramètres fournis par le modèle de recherche pour mieux exprimer sa requête (comme les opérateurs de proximité et de pondération), pourtant ces paramètres permettent au système de mieux cibler les documents pertinents.

La reformulation de la requête consiste généralement à rajouter de nouveaux termes à la requête initiale, et/ou à re-pondérer ses termes dans la nouvelle requête. Cette reformulation est donc souvent nécessaire pour que les requêtes des utilisateurs profitent au mieux des capacités fournies par un SRI.

La reformulation de la requête a pour objectif d’améliorer les performances du SRI, donc la précision dans les réponses du système.

2. Les modèles de RI

Les modèles de RI sont des programmes qui aident les utilisateurs à trouver les informations qu’ils recherchent dans une collection de documents. Pour une demande d’information donnée, le but de ces modèles est de retourner un sous-ensemble de documents de la collection qui pourraient contenir l’information recherchée. Les documents de ce sous-ensemble qui contiennent effectivement l’information recherchée sont appelés documents pertinents, les autres documents étant des documents non pertinents par rapport à la requête.

Un modèle de RI a pour rôle de fournir une formalisation du processus de RI. Il doit accomplir deux rôles : Créer une représentation interne pour un document et une requête basée sur les termes de l’indexation.

1 Le vocabulaire est l’ensemble des termes (token en anglais) sur lesquels on peut poser une requête.



Définir une méthode de comparaison entre une représentation de document et une représentation de requête afin de déterminer leur degré de correspondance ou de similarité (mesure de pertinence).

Les modèles de RI manipulent plusieurs variables : les besoins, les documents, les termes, les jugements de pertinence, les utilisateurs, ... Les modèles de RI sont classés selon les critères suivants : expression de la requête, index du document, ordonnancement des réponses, fonction de correspondance.

Les modèles de RI se distinguent par le principe d’appariement (matching) : appariement exact / appariement approché (Exact matching /Best matching).

i. Appariement exact Requête spécifie de manière précise les critères recherchés. L’ensemble des documents respectant exactement la requête sont sélectionnés, mais pas ordonné.

ii. Appariement approché

Requête décrit les critères recherchés dans un document. Les documents sont sélectionnés selon un degré de pertinence (similarité/ probabilité) vis-à-vis de la

requête et sont ordonnés.

2.1. Classification des modèles selon la théorie

Nous pourrons distinguer trois grandes familles de modèles selon la théorie :

L'approche algébrique ou vectorielle : qui représente les documents et les requêtes par des vecteurs. L'approche ensembliste ou booléenne : c'est l'un des premiers modèles utilisés en RI, qui offre une

représentation mathématique du contenu d'un document selon l'approche ensembliste. L'approche probabiliste : qui permet d'estimer la probabilité de pertinence d'un document par rapport à une

requête. Son principe est de retrouver les documents qui ont en même temps une forte probabilité d'être pertinents, et une faible probabilité d'être non pertinents.

2.2. Le modèle vectoriel (Vector Space Model = VSM)

Ce modèle de RI a été proposé en 1971 par Gerard Salton. Ce modèle se base sur une formalisation géométrique. Ce modèle concernait originellement les documents textuels et a été étendu depuis à d'autres types de contenus. En effet, ce modèle permet de représenter les documents et les requêtes sous forme de vecteurs dans un espace vectoriel à 𝑛 dimension engendré par tous les termes de la collection de documents : 𝑇 < 𝑡1 , … , 𝑡𝑛 > où 𝑛 est le nombre de termes du langage utilisé (les termes d’indexation). L’ensemble {𝑡1, 𝑡2 , … , 𝑡𝑛} appelé vocabulaire, est l’ensemble des termes du corpus. Ces termes peuvent être des mots, également des groupes de mots ou des phrases. Un document 𝑑𝑖 est représenté par un vecteur 𝑑𝑖 (𝑤𝑖1 , 𝑤𝑖2, … , 𝑤𝑖𝑗 , … , 𝑤𝑖𝑛 ). Une requête 𝑞 est représentée par un vecteur 𝑞 (𝑤𝑞1 , 𝑤𝑞2 , … , 𝑤𝑞𝑗 , … , 𝑤𝑞𝑛 ). Où 𝑤𝑖𝑗 (resp. 𝑤𝑞𝑗 ) le poids du terme 𝑡𝑗 dans le document 𝑑𝑖 (resp. dans la requête 𝑞).

Théorie

Ensemble

Booléen

Booléen étendu

Booléen flou

Algèbre

Vectoriel

Vectoriel généralisé

LSI (Latent Semantic Indexing)

Probabilité

Réseau inférentiel

Probabiliste

Réseau bayésien

Modèle de langage



Une collection de 𝑚 documents et 𝑛 termes distincts peut être représentée sous forme de matrice 𝑑𝑜𝑐𝑢𝑚𝑒𝑛𝑡𝑠 − 𝑡𝑒𝑟𝑚𝑒𝑠 : 𝒕𝟏 𝒕𝟐 ⋯ 𝒕𝒏 𝒅𝟏 𝑤11 𝑤12 ⋯ 𝑤1𝑛 𝒅𝟐 𝑤21 𝑤22 ⋯ 𝑤2𝑛 ⋮ ⋮ ⋮ ⋱ ⋮ 𝒅𝒎 𝑤𝑚1 𝑤𝑚2 ⋯ 𝑤𝑚𝑛

Le poids d’un terme représente l’importance du terme dans le document et sa discrimination dans le corpus. Le poids d’un terme dénote la capacité du terme à discriminer les documents.

La pertinence est traduite comme une similarité de vecteurs : un document est d’autant plus pertinent à une requête que le vecteur associé est similaire à celui de la requête. Le traitement d’une requête est basé sur la comparaison des vecteurs documents et requête. Plus les vecteurs représentant les documents sont « proches », plus les documents sont similaires. La figure ci-dessous montre un exemple d’espace vectoriel composé des trois termes 𝑡1, 𝑡2 et 𝑡3 . Les vecteurs de deux documents 𝐷1 et 𝐷2 et une requête 𝑄 sont représentés dans cet espace.

Dans l’exemple de la figure ci-dessus, le document 𝐷1 est plus similaire à la requête 𝑄 que le document 𝐷2. Remarque :

La représentation vectorielle ne tient pas compte de l’ordre d’apparition des termes dans les documents. Pour cette raison, cette représentation est aussi connue sous le nom de représentation par "𝑠𝑎𝑐 𝑑𝑒 𝑚𝑜𝑡𝑠"2 (ou 𝐵𝑎𝑔 𝑜𝑓 𝑤𝑜𝑟𝑑𝑠 en anglais).

Exemple : « 𝑢𝑛 𝑔𝑎𝑟ç𝑜𝑛 𝑚𝑎𝑛𝑔𝑒 𝑢𝑛𝑒 𝑝𝑜𝑚𝑚𝑒 » est représenté par le même vecteur que « 𝑢𝑛𝑒 𝑝𝑜𝑚𝑚𝑒 𝑚𝑎𝑛𝑔𝑒 𝑢𝑛 𝑔𝑎𝑟ç𝑜𝑛 ». Question : 𝐶𝑜𝑚𝑚𝑒𝑛𝑡 𝑡𝑟𝑜𝑢𝑣𝑒𝑟 𝑙𝑒𝑠 𝑝𝑜𝑖𝑑𝑠 𝑑𝑒𝑠 𝑡𝑒𝑟𝑚𝑒𝑠 𝑝𝑜𝑢𝑟 𝑙𝑒𝑠 𝑑𝑜𝑐𝑢𝑚𝑒𝑛𝑡𝑠 ? 2.2.1. Calcul du poids (fonction de pondération) :

Le modèle vectoriel offre des moyens pour la prise en compte du poids de terme dans le document. Dans la littérature, plusieurs schémas de pondération ont été proposés. La majorité de ces schémas prennent en compte la pondération locale et la pondération globale.

La pondération locale permet de mesurer l’importance du terme dans le document. Elle prend en compte les informations locales du terme qui ne dépendent que du document. Elle correspond en général à une fonction de la fréquence d’occurrence du terme dans le document (noté 𝑡𝑓 pour 𝑡𝑒𝑟𝑚 𝑓𝑟𝑒𝑞𝑢𝑒𝑛𝑐𝑦 ). Elle indique que si un terme apparaît souvent dans un document, il sera considéré comme pertinent pour ce document.

Il y a plusieurs possibilités pour calculer 𝑡𝑓 :

Facteur binaire : présence/absence du

terme dans le document 𝑡𝑓𝑖𝑗 = {1 𝑠𝑖 𝑡𝑗 ∈ 𝑑𝑖0 𝑠𝑖 𝑡𝑗 ∉ 𝑑𝑖

Facteur fréquentiel : fréquence du

terme dans le document (nombre

d'occurrences)

𝑡𝑓𝑖𝑗 = 𝑓𝑟𝑒𝑞 (𝑡𝑗, 𝑑𝑖) Où 𝑓𝑟𝑒𝑞 (𝑡𝑗 , 𝑑𝑖) est la fréquence du terme 𝑡𝑗 dans le document 𝑑𝑖.

2 Dans le modèle « sac de mots » pour l’indexation et la recherche, on oublie l’ordre des mots et on raisonne en termes de présence/absence des termes dans un document ou en terme de fréquence de ces termes.



Facteur fréquentiel normalisé : 𝑡𝑓𝑖𝑗 = 𝑓𝑟𝑒𝑞 (𝑡𝑗, 𝑑𝑖)𝑚𝑎𝑥𝑡∈𝑑𝑖 𝑓𝑟𝑒𝑞(𝑡, 𝑑𝑖) Facteur logarithmique : 𝑡𝑓𝑖𝑗 = {1 + log(𝑓𝑟𝑒𝑞 (𝑡𝑗, 𝑑𝑖)) 𝑠𝑖 𝑓𝑟𝑒𝑞 (𝑡𝑗, 𝑑𝑖) > 00 𝑠𝑖𝑛𝑜𝑛

Facteur logarithmique normalisé : 𝑡𝑓𝑖𝑗 = 1 + log (𝑓𝑟𝑒𝑞 (𝑡𝑗, 𝑑𝑖))1 + 𝑙𝑜𝑔(𝑚𝑜𝑦𝑡∈𝑑𝑖𝑓𝑟𝑒𝑞 (𝑡, 𝑑𝑖) ) 𝑠𝑖 𝑓𝑟𝑒𝑞(𝑡𝑗 , 𝑑𝑖) ≠ 0 Facteur augmenté : 𝑡𝑓𝑖𝑗 = 0,5 + 0,5 × 𝑓𝑟𝑒𝑞 (𝑡𝑗, 𝑑𝑖)𝑚𝑎𝑥𝑡∈𝑑𝑖 𝑓𝑟𝑒𝑞(𝑡 , 𝑑𝑖) Quant à la pondération globale, elle prend en compte les informations concernant le terme dans la collection. Ce facteur nommé 𝑖𝑑𝑓 (𝑖𝑛𝑣𝑒𝑟𝑠𝑒 𝑑𝑜𝑐𝑢𝑚𝑒𝑛𝑡 𝑓𝑟𝑒𝑞𝑢𝑒𝑛𝑐𝑦 en anglais), facteur de discrimination pour donner un poids important pour les termes moins fréquents, considérés comme plus discriminants.

Un terme qui apparaît seulement dans un petit nombre de documents permet bien de discriminer les documents. Au contraire, un terme qui apparaît dans un grand nombre, voire dans tous les documents d’une collection n’est pas discriminant en raison de sa distribution uniforme.

Soit 𝑡𝑗 un terme, et une collection 𝐷 . On mesure la rareté de 𝑡𝑗 par l’inverse de sa fréquence dans 𝐷 comme suit : 𝑁𝑑𝑓𝑗 Où : 𝑑𝑓𝑗 (fréquence documentaire d’un terme ; 𝑑𝑜𝑐𝑢𝑚𝑒𝑛𝑡 𝑓𝑟𝑒𝑞𝑢𝑒𝑛𝑐𝑦 en anglais) est la fréquence dans le corpus du terme 𝑡𝑗 est le nombre de documents du corpus où 𝑡𝑗 apparaît. et 𝑁 le nombre de documents du corpus (taille de la collection). La valeur obtenue par la formule ci-dessus croît très vite avec la taille de la collection. On ajuste en prenant le 𝑙𝑜𝑔𝑎𝑟𝑖𝑡ℎ𝑚𝑒 de l’inverse normalisé de 𝑑𝑓𝑗 pour rendre 𝑖𝑑𝑓𝑗 moins prononcé et on obtient : 𝑖𝑑𝑓𝑗 = log ( 𝑁𝑑𝑓𝑗)

La définition la plus simple possible pour ce facteur est : 𝑖𝑑𝑓𝑗 = 1𝑑𝑓𝑗 La définition la plus utilisée dans la littérature est : 𝑖𝑑𝑓𝑗 = 1 + log ( 𝑁𝑑𝑓𝑗)

Une autre définition pour ce facteur est : 𝑖𝑑𝑓𝑗 = log (𝑁 − 𝑑𝑓𝑗𝑑𝑓𝑗 )



En RI, le codage le plus courant des documents (pour calculer le poids d’un terme), connu sous le nom du codage 𝑇𝐹 − 𝐼𝐷𝐹 est défini comme : ∀𝑗 ∈ {1, … , 𝑛} ; 𝑤𝑖𝑗 = 𝑡𝑓𝑖𝑗 × 𝑖𝑑𝑓𝑗 Le 𝑇𝐹 − 𝐼𝐷𝐹 (de l'anglais 𝑇𝑒𝑟𝑚 𝐹𝑟𝑒𝑞𝑢𝑒𝑛𝑐𝑦 − 𝐼𝑛𝑣𝑒𝑟𝑠𝑒 𝐷𝑜𝑐𝑢𝑚𝑒𝑛𝑡 𝐹𝑟𝑒𝑞𝑢𝑒𝑛𝑐𝑦) est une méthode de pondération souvent utilisée en RI. Cette mesure statistique permet d'évaluer l'importance d'un terme contenu dans un document, relativement à une collection ou un corpus. Le poids augmente proportionnellement au nombre d'occurrences du terme dans le document. Il varie également en fonction de la fréquence du terme dans le corpus. Des variantes de la formule originale sont souvent utilisées dans des moteurs de recherche pour apprécier la pertinence d'un document en fonction des critères de recherche de l'utilisateur.

2.2.2. Justification théorique du schéma de pondération 𝑻𝑭 − 𝑰𝑫𝑭 : La justification théorique a posteriori de ce schéma de pondération repose sur l'observation empirique de la fréquence des termes dans un document. Si une requête contient le terme t, un document a d'autant plus de chances d'y répondre qu'il contient ce terme : la fréquence du terme au sein du document (𝑡𝑓) est grande. Néanmoins, si le terme t est lui-même très fréquent au sein du corpus, c'est-à-dire qu'il est présent dans de nombreux documents, il est en fait peu discriminant. C'est pourquoi le schéma propose d'augmenter la pertinence d'un terme en fonction de sa rareté au sein du corpus (fréquence du terme dans le corpus 𝑖𝑑𝑓 élevée). Ainsi, la présence d'un terme rare de la requête dans le contenu d'un document fait croître le « score » de ce dernier.

2.2.3. Poids d’un terme dans un vecteur requête : Utilisation du tf ou du tf.idf pour une requête

Une requête est traitée de la même manière qu’un document et est pondérée selon le 𝑇𝐹 − 𝐼𝐷𝐹. Il est difficile pour un utilisateur du SRI de pondérer les termes de sa requête. On choisit donc, en général, l’une des deux variantes suivantes :

𝑤𝑞𝑗 = {1 si le terme 𝑡𝑗 apparaît dans la requête 𝑞0 sinon

𝑤𝑞𝑗 = {𝑖𝑑𝑓𝑗 (pondération globale du terme 𝑡𝑗) si le terme 𝑡𝑗 apparaît dans la requête0 sinon 2.2.4. Fonction de correspondance :

L’appariement document-requête dans le modèle vectoriel, consiste à trouver les vecteurs documents qui s’approchent le plus de vecteur de la requête. Cet appariement est obtenu par l’évaluation de la distance entre les deux vecteurs et est appelé 𝑅𝑒𝑡𝑟𝑖𝑒𝑣𝑎𝑙 𝑆𝑡𝑎𝑡𝑢𝑠 𝑉𝑎𝑙𝑢𝑒 ou 𝑅𝑆𝑉. Plusieurs mesures de similarités ont été définies, dont les plus courantes sont décrites dans le tableau ci-dessous :

Le produit scalaire : 𝑅𝑆𝑉(𝑑𝑖 , 𝑞) = ∑ 𝑤𝑖𝑗 ×𝑤𝑞𝑗𝑛𝑗=1

Distance euclidienne : 𝑅𝑆𝑉(𝑑𝑖 , 𝑞) = √∑ (𝑤𝑖𝑗 − 𝑤𝑞𝑗 )2𝑛𝑗=1

La mesure cosinus : 𝑅𝑆𝑉(𝑑𝑖 , 𝑞) = 𝑑𝑖⃗⃗⃗⃗ |𝑑𝑖⃗⃗⃗⃗ | . �⃗� |�⃗� | = ∑ 𝑤𝑖𝑗×𝑤𝑞𝑗𝑛𝑗=1√∑ 𝑤𝑖𝑗2𝑛𝑗=1 ×√∑ 𝑤𝑞𝑗2𝑛𝑗=1

La mesure de Dice : 𝑅𝑆𝑉(𝑑𝑖 , 𝑞) = 2×∑ 𝑤𝑖𝑗×𝑤𝑞𝑗𝑛𝑗=1∑ 𝑤𝑖𝑗2𝑛𝑗=1 +∑ 𝑤𝑞𝑗2𝑛𝑗=1

La mesure de Jacard : 𝑅𝑆𝑉(𝑑𝑖 , 𝑞) = ∑ 𝑤𝑖𝑗×𝑤𝑞𝑗𝑛𝑗=1∑ 𝑤𝑖𝑗2𝑛𝑗=1 +∑ 𝑤𝑞𝑗2𝑛𝑗=1 −∑ 𝑤𝑖𝑗×𝑤𝑞𝑗𝑛𝑗=1

Le coefficient de superposition (overlap) : 𝑅𝑆𝑉(𝑑𝑖 , 𝑞) = ∑ 𝑤𝑖𝑗×𝑤𝑞𝑗𝑛𝑗=1𝑚𝑖𝑛(∑ 𝑤𝑖𝑗2𝑛𝑗=1 ,∑ 𝑤𝑞𝑗2𝑛𝑗=1 ) Remarque :

La similarité cosinus est un bon candidat pour mesurer la proximité des vecteurs dans l’espace vectoriel à 𝑛 dimension, car :

- indifférente de la longueur (norme) des vecteurs ; - maximale si les vecteurs sont sur la même direction (𝑎𝑛𝑔𝑙𝑒 = 0, 𝑐𝑜𝑠𝑖𝑛𝑢𝑠 = 1) ; - minimale si les vecteurs ont des directions "orthogonales" (pas de terme en commun) ; - varie continument entre 0 et 1.

https://fr.wikipedia.org/wiki/Corpus



Sous l’angle de ce modèle, le mécanisme de recherche consiste à retrouver les vecteurs documents qui se rapprochent le plus du vecteur requête. Cela implique que la pertinence d’un document relativement à une requête est reliée à la mesure de similarité des vecteurs associés.

2.2.5. Les avantages du modèle vectoriel :

Le modèle vectoriel est relativement simple à appréhender (algèbre linéaire) et est facile à implémenter. Le langage de requête est plus simple (liste de termes). Les performances sont meilleures grâce à la pondération des termes. Il permet de renvoyer des documents qui répondent approximativement à la requête (le renvoi de documents

à pertinence partielle est possible). La représentation vectorielle permet une mise en correspondance des documents avec une requête

imparfaite. Son efficacité dépendant pour une grande part de la qualité de la représentation (vocabulaire et schéma de

pondération). Les documents sont restitués dans un ordre décroissant de leur degré de similarité avec la requête.

2.2.6. Les inconvénients du modèle vectoriel :

Le modèle vectoriel suppose l'indépendance entre termes (inconvénient théorique). En effet, la représentation vectorielle considère chaque terme séparément alors qu'on peut avoir des termes qui sont en relation sémantique entre eux (par exemple, véhicule et automobile).

Ainsi, dans un texte, l'ordre des termes n'est pas pris en compte. Dans sa version la plus simple, il ne prend pas non plus en compte les synonymes ou la morphologie des contenus.

Le langage de requête est moins expressif. Par exemple, la formulation de requêtes sous la forme d’expressions logiques comme “𝑑𝑜𝑐𝑢𝑚𝑒𝑛𝑡𝑠 𝑐𝑜𝑛𝑐𝑒𝑟𝑛𝑎𝑛𝑡 𝑙𝑒 𝑠𝑝𝑜𝑟𝑡, 𝑚𝑎𝑖𝑠 𝒑𝒂𝒔 𝑙𝑒 𝑓𝑜𝑜𝑡𝑏𝑎𝑙𝑙 ” n’est toutefois pas possible dans le modèle vectoriel.

2.3. Le modèle booléen (boolean model)

Le modèle booléen a été introduit en 1983 par Salton et McGill. Il s’est imposé grâce à la simplicité et à la rapidité de sa mise en œuvre. L’interface d’interrogation de la plupart des moteurs de recherche (Google, Alta Vista) est basée sur les principes de ce modèle.

Un modèle booléen est une méthode ensembliste de représentation du contenu d'un document. Le modèle booléen considère que les termes de l’index sont présents ou absents d’un document, en conséquence, les poids des termes dans l’index sont binaires c.à.d 𝑤𝑖𝑗 = {0,1}. Dans ce modèle, un document 𝑑𝑖 est représenté comme une conjonction logique des termes non pondérés qui le composent (liste de termes, ensemble de termes ou encore un vecteur booléen). Un exemple de représentation d’un document est comme suit : 𝑑𝑖 = 𝑡1 ∧ 𝑡2 ∧ . .. ∧ 𝑡𝑛 .

Le modèle booléen peut être expliqué en considérant une requête formée d’un terme comme une définition non ambigüe d’un ensemble de documents. Ainsi la requête 𝑞 = 𝑡 définit simplement l’ensemble de tous les documents indexés avec le terme 𝑡. Une requête 𝑞 est représentée par une expression booléenne dont les termes sont reliés par des opérateurs logiques (Georges Boole a défini trois opérateurs de base : le produit logique 𝐴𝑁𝐷 :′∧′, la somme logique 𝑂𝑅 ∶ ′∨ ′ et la différence logique 𝑁𝑂𝑇 ∶ ′¬′) permettant d’effectuer des opérations d’intersection, d’union et de différence entre les ensembles de résultats associés à chaque terme.

Un exemple de représentation d’une requête est comme suit : 𝑞 = (𝑡1 ∧ 𝑡2) ∨ (𝑡3 ∧ ¬𝑡4). L’appariement (𝑅𝑆𝑉) entre une requête et un document est un appariement exact. Autrement dit, pour qu'un document corresponde à une requête, il faut que l'implication suivante soit valide : 𝑑𝑖 ⇒ 𝑞, un document du corpus est ainsi considéré comme pertinent uniquement quand son contenu est 𝑣𝑟𝑎𝑖 pour l'expression de la requête ; sinon, il est considéré non pertinent (c’est ce qu’on appelle la pertinence binaire). La fonction de correspondance entre document et requête est basée sur 𝑙’ℎ𝑦𝑝𝑜𝑡ℎè𝑠𝑒 𝑑𝑒 𝑝𝑟é𝑠𝑒𝑛𝑐𝑒/𝑎𝑏𝑠𝑒𝑛𝑐𝑒 des termes de la requête dans le document et vérifie si l’index (ou descripteur) de chaque document 𝑑𝑖 implique

https://fr.wikipedia.org/wiki/Synonymes

https://fr.wikipedia.org/wiki/Morphologie_%28linguistique%29



l’expression logique de la requête 𝑞 . Autrement dit, un document est sélectionné si et seulement si il satisfait l'expression booléenne. Le résultat de cette fonction est donc binaire. Ainsi, la 𝑠𝑖𝑚𝑖𝑙𝑎𝑟𝑖𝑡é 𝑑𝑜𝑐𝑢𝑚𝑒𝑛𝑡 − 𝑟𝑒𝑞𝑢ê𝑡𝑒 est calculée de la façon suivante : 𝑅𝑆𝑉 ∶ 𝐷 × 𝑄 → {0, 1} 𝑅𝑆𝑉(𝑑𝑖 , 𝑡𝑗) = {1 𝑠𝑖 𝑡𝑗 ∈ 𝑑𝑖0 𝑠𝑖𝑛𝑜𝑛 𝑅𝑆𝑉(𝑑𝑖 , 𝑞1 ∧ 𝑞2) = 𝑅𝑆𝑉(𝑑𝑖 , 𝑞1) ∧ 𝑅𝑆𝑉(𝑑𝑖 , 𝑞2) = 𝑅𝑆𝑉(𝑑𝑖 , 𝑞1) × 𝑅𝑆𝑉(𝑑𝑖 , 𝑞2) 𝑅𝑆𝑉(𝑑𝑖 , 𝑞1 ∨ 𝑞2) = 𝑅𝑆𝑉(𝑑𝑖 , 𝑞1) ∨ 𝑅𝑆𝑉(𝑑𝑖 , 𝑞2) = 𝑅𝑆𝑉(𝑑𝑖 , 𝑞1) + 𝑅𝑆𝑉(𝑑𝑖 , 𝑞2) − 𝑅𝑆𝑉(𝑑𝑖 , 𝑞1) × 𝑅𝑆𝑉(𝑑𝑖 ,𝑞2) 𝑅𝑆𝑉(𝑑𝑖 , ¬𝑞) = ¬𝑅𝑆𝑉(𝑑𝑖 , 𝑞) = 1 − 𝑅𝑆𝑉(𝑑𝑖 , 𝑞) 𝑅𝑆𝑉(𝑑𝑖 , (𝑞)) = 𝑅𝑆𝑉(𝑑𝑖 , 𝑞) 2.3.1. Réponse à une requête :

La réponse à une requête est l’ensemble des documents qui sont similaires à cette requête. 𝑟𝑒𝑝(𝑡) = {𝑑 ∈ 𝐷 | 𝑡 ∈ 𝑑 } 𝑟𝑒𝑝(𝑞) = {𝑑 ∈ 𝐷 | 𝑅𝑆𝑉(𝑑, 𝑞) = 1} 𝑟𝑒𝑝(𝑞1 ∧ 𝑞2) = 𝑟𝑒𝑝(𝑞1) ∩ 𝑟𝑒𝑝(𝑞2) 𝑟𝑒𝑝(𝑞1 ∨ 𝑞2) = 𝑟𝑒𝑝(𝑞1) ∪ 𝑟𝑒𝑝(𝑞2) 𝑟𝑒𝑝(¬𝑞) = 𝐷 − 𝑟𝑒𝑝(𝑞) 𝑟𝑒𝑝((𝑞)) = 𝑟𝑒𝑝(𝑞) Remarques :

Une requête combinant deux termes reliés par un 𝐴𝑁𝐷 retrouvera un ensemble de documents 𝑖𝑛𝑓é𝑟𝑖𝑒𝑢𝑟 𝑜𝑢 é𝑔𝑎𝑙 à l’ensemble des documents restitués par chacun des termes pris séparément.

Une requête combinant deux termes reliés par un 𝑂𝑅 retrouvera un ensemble 𝑠𝑢𝑝é𝑟𝑖𝑒𝑢𝑟 𝑜𝑢 é𝑔𝑎𝑙 à l’ensemble des documents restitués par chacun des termes pris séparément.

2.3.2. Les avantages du modèle booléen :

Le modèle de recherche booléen est reconnu pour sa force pour faire une recherche très restrictive et obtenir, pour un utilisateur expérimenté, une information exacte et spécifique : il répond à une formule logique.

L’efficacité du modèle est due aux spécialistes qui ont explorés le corpus avec une bonne connaissance du vocabulaire.

La simplicité du modèle le rend aisément compréhensible pour un utilisateur.

2.3.3. Les inconvénients du modèle booléen :

La formulation des requêtes devient vite laborieuse (pas toujours évidente) quand la requête se fait précise (donc longue).

Il est difficile pour l’utilisateur d’exprimer son besoin en information avec de bonnes expressions booléennes et ces expressions formulées sont généralement très simples, ce qui ne permet pas d’utiliser au mieux les caractéristiques de ce modèle. Par conséquent, l’ensemble des documents trouvés est souvent trop grand, pour les requêtes courtes, ou complètement vide dans le cas de requêtes longues.

La correspondance entre un document et une requête est soit 1, soit 0. En conséquence, le système détermine un ensemble de documents non ordonnés comme réponse à une requête.

le modèle ne permet pas de retourner un document s'il ne contient qu'une partie des termes de la requête (si le connecteur 𝐸𝑇 est utilisé).

Problème de collections volumineuses : le nombre de documents retournés peut être considérable dans le cas où beaucoup de documents répondent aux critères de la requête.

La représentation binaire d’un terme dans un document est peu informative, car elle ne renseigne ni sur la fréquence du terme dans le document ni sur la longueur de document, qui peuvent constituer des informations importantes pour la RI.

Le modèle booléen standard n'est utilisé que dans très peu de systèmes de nos jours. Si on utilise un modèle booléen, c'est plutôt une extension de ce modèle qu'on utilise. Les extensions proposées essaient justement de corriger ces lacunes.



2.4. Modèle booléen étendu (extended boolean model)

Dans le modèle booléen de base, tous les documents qui satisfont une requête sont retrouvés (généralement classés dans un ordre chronologique). Ils ne sont pas classés selon leur pertinence. Cela est d û au fait qu’un document satisfait une requête ou ne la satisfait pas (1 𝑜𝑢 0). Une approche venant compléter le modèle booléen de base : le modèle booléen étendu, appelé aussi 𝑚𝑜𝑑è𝑙𝑒 𝑃_𝑁𝑜𝑟𝑚 (tel que l‘opérateur 𝐿𝑝 − 𝑁𝑜𝑟𝑚 est défini pour la mesure de pertinence requête-document), il a été introduit en 1983 par Salton.

Ce modèle peut être vu comme une combinaison des modèles booléen et vectoriel. L’idée est de profiter des avantages du modèle vectoriel (le fait que les termes sont pondérés en fonction de leur importance dans le document) et des avantages du modèle booléen (la simplicité du point de vue de l’utilisateur : la requête demeure une expression booléenne classique).

Le modèle booléen étendu consiste à associer des poids d’indexation à chaque terme d’une requête et d’un document, ceci permet au SRI de supporter un appariement approché et de mesurer un score de pertinence requête-document.

Considérons un ensemble de termes {𝑡1, … , 𝑡𝑛} et soit 𝑤𝑖𝑗 le poids du terme 𝑡𝑗 dans le document 𝑑𝑖 =(𝑤𝑖1 , 𝑤𝑖2 , … , 𝑤𝑖𝑗 , 𝑤𝑖𝑛 ), avec 1 ≤ 𝑗 ≤ 𝑛 et 𝑤𝑖𝑗 ∈ [0, 1]. ∀𝑗 ∈ {1,… , 𝑛} ; 𝑤𝑖𝑗 = 𝑡𝑓𝑖𝑗 × 𝑖𝑑𝑓𝑗 = 𝑓𝑟𝑒𝑞(𝑡𝑗 ,𝑑𝑖)𝑚𝑎𝑥𝑡∈𝑑𝑖 𝑓𝑟𝑒𝑞(𝑡, 𝑑𝑖) × 𝑖𝑑𝑓𝑗𝑚𝑎𝑥𝑡∈𝐶 𝑖𝑑𝑓𝑡 𝑤𝑖𝑗 : est une mesure normalisée en divisant 𝑓𝑟𝑒𝑞(𝑡𝑗 , 𝑑𝑖) par le maximum des fréquences dans un document 𝑑𝑖 et en divisant 𝑖𝑑𝑓𝑗 par le maximum des 𝑖𝑑𝑓𝑡 parmi tous les termes de la collection 𝐷 .

La similarité entre le document 𝑑𝑖 et une requête 𝑞 est décrite sous une forme conjonctive ou disjonctive basée sur les 𝑝_𝑑𝑖𝑠𝑡𝑎𝑛𝑐𝑒𝑠 est donnée comme suit (la formulation suivante tient compte de la pondération des termes dans la requête) : 𝑂𝑝é𝑟𝑎𝑡𝑒𝑢𝑟 𝑂𝑅 ∶ 𝑅𝑆𝑉(𝑑𝑖 , 𝑞𝑂𝑅) = (∑ 𝑤𝑞𝑗𝑝 .𝑤𝑖𝑗𝑝𝑛𝑗=1∑ 𝑤𝑞𝑗𝑝𝑛𝑗=1 )1𝑝 𝑂𝑝é𝑟𝑎𝑡𝑒𝑢𝑟 𝐴𝑁𝐷 ∶ 𝑅𝑆𝑉(𝑑𝑖 , 𝑞𝐴𝑁𝐷) = 1 − (∑ 𝑤𝑞𝑗𝑝 .(1−𝑤𝑖𝑗)𝑝𝑛𝑗=1∑ 𝑤𝑞𝑗𝑝𝑛𝑗=1 )1𝑝 𝑂𝑝é𝑟𝑎𝑡𝑒𝑢𝑟 𝑁𝑂𝑇 ∶ 𝑅𝑆𝑉 (𝑑𝑖 , 𝑞𝑁𝑂𝑇) = 1 − 𝑅𝑆𝑉(𝑑𝑖 , 𝑞) Où 𝑝 est une constante telle que 𝑝 ∈ [1,∞[, et 𝑤𝑞𝑗 le poids du terme 𝑡𝑗 dans la requête 𝑞 .

Remarque :

La littérature rapporte qu’aucune méthode formelle n’est proposée pour la détermination de la valeur du paramètre 𝑝.

La 𝑝 − 𝑑𝑖𝑠𝑡𝑎𝑛𝑐𝑒 est rarement utilisée en dehors des cas 𝑝 = 1, 2 𝑜𝑢 ∞.

On considère dans ce qui suit que tous les termes de la requête sont d'égale importance.

2.4.1. Cas particulier de requêtes non pondérées avec deux termes 𝒕𝟏 et 𝒕𝟐 : Dans le cas d'une requête comportant deux termes 𝑡1 et 𝑡2, On peut représenter les requêtes et les documents dans un espace à deux dimensions. Une condition logique de type 𝐴𝑁𝐷 est alors représentée par la distance entre le document et les coordonnées « idéales » ( 1 , 1 ) ; tandis qu'une condition de type 𝑂𝑅 est calculée par la distance du document à l'origine ( 0 , 0 ) . Le but étant d'ordonner les documents 𝑑𝑖 en réponse à une requête 𝑞 .



Mesure de similarité entre un document et une requête de type 𝑶𝑼. On

veut être le plus loin de (0,0) (le pire cas où aucun des deux termes n'est présent dans le document).

Un document est pertinent pour une requête de type 𝑶𝑼 si le terme 𝑡1 ou le terme 𝑡2 est pondéré à 1. Il doit alors se trouver (ou proche) au point (1,0), (0,1) ou (1,1) 𝑅𝑆𝑉(𝑑𝑖 ,𝑞𝑂𝑅 ) = (𝑤𝑖12 + 𝑤𝑖222 )12

Mesure de similarité entre un document et une requête de type 𝑬𝑻. On

veut se rapprocher du point (1,1) (cas où les deux termes sont présents

dans le document) 𝑅𝑆𝑉(𝑑𝑖 , 𝑞𝐴𝑁𝐷) = 1 − ((1 − 𝑤𝑖1 )2 + (1 − 𝑤𝑖2 )22 )12 Cette définition peut être généralisée à un nombre quelconque de termes.

2.4.2. Généralisation du cas particulier de requêtes non pondérées avec 𝒎 termes :

L’appariement 𝑟𝑒𝑞𝑢ê𝑡𝑒 − 𝑑𝑜𝑐𝑢𝑚𝑒𝑛𝑡 est le plus souvent déterminé par les relations introduites dans le modèle 𝑝 −𝑛𝑜𝑟𝑚 basées sur les 𝑝 − 𝑑𝑖𝑠𝑡𝑎𝑛𝑐𝑒𝑠 (distance euclidienne à plusieurs dimensions), avec 𝑝 ∈ [1,∞[. La valeur de 𝑝 est indiquée au moment de la requête. Si 𝑚 est le nombre de termes dans la requête (𝑞(𝑡1, 𝑡2 , … , 𝑡𝑚)), les fonctions de similarité se calculent comme suit :

𝑂𝑝é𝑟𝑎𝑡𝑒𝑢𝑟 𝑂𝑅 ∶ 𝑅𝑆𝑉(𝑑𝑖 , 𝑞𝑂𝑅) = (∑ 𝑤𝑖𝑗𝑝𝑚𝑗=1𝑚 )1𝑝 ; 𝑂𝑝é𝑟𝑎𝑡𝑒𝑢𝑟 𝐴𝑁𝐷 ∶ 𝑅𝑆𝑉(𝑑𝑖 ,𝑞𝐴𝑁𝐷) = 1 − (∑ (1−𝑤𝑖𝑗)𝑝𝑚𝑗=1 𝑚 )1𝑝 Où 𝑤𝑖𝑗 est le poids du terme 𝑡𝑗 de la requête 𝑞 dans le document 𝑑𝑖. Remarques :

Quand le paramètre 𝑝 = 1, on retrouve le cas du modèle vectoriel (𝑅𝑆𝑉(𝑑𝑖 ,𝑞𝑂𝑅 ) = 𝑅𝑆𝑉(𝑑𝑖 ,𝑞𝐴𝑁𝐷)). 𝑝 = 2 correspond à la distance euclidienne, semble être le meilleur choix. Lorsque 𝑝 𝑡𝑒𝑛𝑑 𝑣𝑒𝑟𝑠 𝑙′𝑖𝑛𝑓𝑖𝑛𝑖 , on se ramène au cas du modèle booléen standard, avec des requêtes 𝐴𝑁𝐷 et 𝑂𝑅 strictes.

En ce sens, le modèle booléen étendu est une généralisation de ces deux modèles (le modèle vectoriel et le modèle booléen).

2.4.3. Points forts et points faibles du modèle booléen étendu :

(+) Modèle puissant. (+) Les requêtes sont simples à formuler pour les utilisateurs. (+) Il est possible de trier les documents en fonction de leur pertinence (contrairement au modèle booléen

classique). (-) Calcul complexe. (-) Problème de distributivité :

- 𝑞1 = (𝑡1 ˅ 𝑡2) ˄ 𝑡3

- 𝑞2 = (𝑡1 ˄ 𝑡3) ˅ (𝑡2 ˄ 𝑡3) - 𝑅𝑆𝑉(𝑑𝑖 , 𝑞1) ≠ 𝑅𝑆𝑉(𝑑𝑖 , 𝑞2)

2.5. Modèle probabiliste (Probabilistic Model)

2.5.1. Pourquoi les probabilités ?

La RI est un processus incertain et imprécis : - incertitude dans la représentation des informations ; - imprécision dans l’expression des besoins.

La théorie des probabilités semble adéquate pour prendre en compte cette incertitude et imprécision .

𝑡1

𝑡2

𝑡1

𝑡2

https://fr.wikipedia.org/wiki/Mod%C3%A8le_vectoriel



2.5.2. RI et probabilité :

Le modèle probabiliste (principe de classement probabiliste, ou 𝑃𝑅𝑃 ∶ 𝑃𝑟𝑜𝑏𝑎𝑏𝑖𝑙𝑖𝑡𝑦 𝑅𝑎𝑛𝑘𝑖𝑛𝑔 𝑃𝑟𝑖𝑛𝑐𝑖𝑝𝑙𝑒 en anglais) est une méthode probabiliste de représentation du contenu d'un document, proposée en 1976 par Robertson et Jones. Il est utilisé en RI pour exprimer une estimation de la probabilité de pertinence d'un document par rapport à une requête, et ainsi classer une liste de documents dans l'ordre décroissant d'utilité probable (ou de probabilité de pertinence) pour l'utilisateur.

2.5.3. Modélisation :

Étant donné une requête 𝑞, il s'agit d'estimer un score 𝑠𝑐𝑜𝑟𝑒(𝑑𝑖|𝑞) pour chaque document 𝑑𝑖 du corpus considéré. Ce score (appelé aussi 𝑑𝑒𝑔𝑟é 𝑑𝑒 𝑝𝑒𝑟𝑡𝑖𝑛𝑒𝑛𝑐𝑒 ) doit exprimer la probabilité relative que le document soit pertinent pour la requête considérée. Dans ce modèle, on s'intéresse en effet plus à l'ordre relatif des documents renvoyés qu'à leur pertinence absolue.

Pour une requête 𝑞, estimer 𝑃𝑟𝑜𝑏(𝑅𝑒𝑙 /𝑑𝑖), probabilité qu'on obtienne une information pertinente par le document 𝑑𝑖. On peut estimer de la même façon 𝑃𝑟𝑜𝑏(𝑛𝑜𝑛𝑅𝑒𝑙/𝑑𝑖), la probabilité de non-pertinence de 𝑑𝑖. On modélise la pertinence d'un document pour une requête 𝑞 comme le ratio de probabilité que le document 𝑑𝑖 soit pertinent sur celle qu'il ne le soit pas : 𝑠𝑐𝑜𝑟𝑒(𝑑𝑖|𝑞) = 𝑃𝑟𝑜𝑏((𝑅𝑒𝑙 /𝑑𝑖)𝑃𝑟𝑜𝑏((𝑛𝑜𝑛𝑅𝑒𝑙/𝑑𝑖) L’idée de base est de sélectionner les documents 𝑑𝑖 ayant à la fois une forte probabilité d’être pertinents et une faible probabilité d’être non-pertinents à la requête. Le document 𝑑𝑖 est retourné si 𝑠𝑐𝑜𝑟𝑒(𝑑𝑖|𝑞) > 1 (𝑎𝑢𝑡𝑟𝑒𝑚𝑒𝑛𝑡 𝑑𝑖𝑡, 𝑠𝑖 ∶ 𝑃𝑟𝑜𝑏((𝑅𝑒𝑙 /𝑑𝑖) > 𝑃𝑟𝑜𝑏 ((𝑛𝑜𝑛𝑅𝑒𝑙 /𝑑𝑖)). Les documents peuvent donc être triés selon 𝑠𝑐𝑜𝑟𝑒(𝑑𝑖|𝑞). 2.5.4. Utilisation du théorème de Bayes :

𝑃𝑟𝑜𝑏((𝑅𝑒𝑙/𝑑𝑖) = 𝑃𝑟𝑜𝑏(𝑑𝑖/𝑅𝑒𝑙)× 𝑃𝑟𝑜𝑏(𝑅𝑒𝑙)𝑃𝑟𝑜𝑏(𝑑𝑖)

𝑃𝑟𝑜𝑏((𝑅𝑒𝑙/𝑑𝑖) : probabilité qu’on obtienne une information pertinente par le document 𝑑𝑖. 𝑃𝑟𝑜𝑏(𝑑𝑖/𝑅𝑒𝑙) : probabilité que le document 𝑑𝑖 fasse partie de l’ensemble des documents pertinents. 𝑃𝑟𝑜𝑏(𝑅𝑒𝑙) : probabilité à priori d’obtenir un document pertinent, si on choisit un document au hasard dans le corpus. 𝑃𝑟𝑜𝑏(𝑑𝑖) : probabilité que le document soit choisi au hasard (constante).

Avec : 𝐶𝑜𝑟𝑝𝑢𝑠 = 𝑟𝑒𝑙 ∪ 𝑛𝑜𝑛𝑟𝑒𝑙 𝑟𝑒𝑙 ∩ 𝑛𝑜𝑛𝑟𝑒𝑙 = ∅

RI & probabilité

Modèle probabiliste classique

BIR

2-poisson

Modèle inférentiel

Inquery

Modèle de croyance

Modèle de langue

Ngram

Unigram



𝑃𝑟𝑜𝑏((𝑛𝑜𝑛𝑅𝑒𝑙/𝑑𝑖) = 𝑃𝑟𝑜𝑏(𝑑𝑖/𝑛𝑜𝑛𝑅𝑒𝑙) × 𝑃𝑟𝑜𝑏(𝑛𝑜𝑛𝑅𝑒𝑙)𝑃𝑟𝑜𝑏(𝑑𝑖)

𝑃𝑟𝑜𝑏((𝑛𝑜𝑛𝑅𝑒𝑙/𝑑𝑖) : probabilité qu’on obtienne une information non-pertinente par le document 𝑑𝑖. 𝑃𝑟𝑜𝑏(𝑑𝑖/𝑛𝑜𝑛𝑅𝑒𝑙) : probabilité que le document 𝑑𝑖 fasse partie de l’ensemble des documents non-pertinents. 𝑃𝑟𝑜𝑏(𝑛𝑜𝑛𝑅𝑒𝑙) : probabilité à priori d’obtenir un document non-pertinent, si on choisit un document au hasard dans le corpus. 𝑃𝑟𝑜𝑏(𝑑𝑖) : probabilité que le document soit choisi au hasard (constante).

N.B. 𝑃𝑟𝑜𝑏(𝑅𝑒𝑙) +𝑃𝑟𝑜𝑏(𝑛𝑜𝑛𝑅𝑒𝑙) = 1. 𝑃𝑟𝑜𝑏(𝑅𝑒𝑙) et 𝑃𝑟𝑜𝑏(𝑛𝑜𝑛𝑅𝑒𝑙) sont fixes (des constantes).

Alors : 𝑠𝑐𝑜𝑟𝑒(𝑑𝑖|𝑞) = 𝑃𝑟𝑜𝑏 (𝑅𝑒𝑙/𝑑𝑖)𝑃𝑟𝑜𝑏(𝑛𝑜𝑛𝑅𝑒𝑙 /𝑑𝑖) = 𝑃𝑟𝑜𝑏 (𝑑𝑖/𝑅𝑒𝑙).𝑃𝑟𝑜𝑏(𝑅𝑒𝑙)𝑃𝑟𝑜𝑏(𝑑𝑖/𝑛𝑜𝑛𝑅𝑒𝑙).𝑃𝑟𝑜𝑏(𝑛𝑜𝑛𝑅𝑒𝑙 ) = 𝑃𝑟𝑜𝑏 (𝑑𝑖/𝑅𝑒𝑙).𝑃𝑟𝑜𝑏(𝑑𝑖/𝑛𝑜𝑛𝑅𝑒𝑙 )× 𝑃𝑟𝑜𝑏 (𝑅𝑒𝑙)𝑃𝑟𝑜𝑏(𝑛𝑜𝑛𝑅𝑒𝑙) En supposant que 𝑃𝑟𝑜𝑏(𝑅𝑒𝑙) et 𝑃𝑟𝑜𝑏(𝑛𝑜𝑛𝑅𝑒𝑙) sont égales pour chaque document de la collection, donc on peut éliminer 𝑃𝑟𝑜𝑏 (𝑅𝑒𝑙)𝑃𝑟𝑜𝑏 (𝑛𝑜𝑛𝑅𝑒𝑙) pour une requête donnée (comme c'est l'ordre qui est important, les modifications de score

par des constantes : 𝑃𝑟𝑜𝑏(𝑅𝑒𝑙), 𝑃𝑟𝑜𝑏(𝑛𝑜𝑛𝑅𝑒𝑙) et 𝑃𝑟𝑜𝑏(𝑑𝑖), qui ne changent pas l'ordre peuvent être ignorées).

Différentes méthodes sont utilisées pour estimer ces différentes probabilités. Nous décrivons particulièrement le modèle d’indépendance binaire, connu sous le modèle 𝐵𝐼𝑅 (𝐵𝑖𝑛𝑎𝑟𝑦 𝐼𝑛𝑑𝑒𝑝𝑒𝑛𝑑𝑎𝑛𝑐𝑒 𝑅𝑒𝑡𝑟𝑖𝑒𝑣𝑎𝑙). 2.5.5. Le modèle 𝑩𝑰𝑹 (𝑩𝒊𝒏𝒂𝒓𝒚 𝑰𝒏𝒅𝒆𝒑𝒆𝒏𝒅𝒂𝒏𝒄𝒆 𝑹𝒆𝒕𝒓𝒊𝒆𝒗𝒂𝒍) : Soit le vocabulaire 𝑇 = {𝑡1, 𝑡2, … , 𝑡𝑛}. On considère dans ce modèle que la variable document : 𝑑𝑖 = (𝑡1 = 𝑥1, 𝑡2 = 𝑥2, . . , 𝑡𝑗 = 𝑥𝑗,… , 𝑡𝑛 = 𝑥𝑛) (respectivement, la variable requête 𝑞 = (𝑡1 = 𝑦1 , 𝑡2 = 𝑦2 , . . , 𝑡𝑗 = 𝑦𝑗 , … ,𝑡𝑛 = 𝑦𝑛)) est représentée par un ensemble d’événements indépendants qui dénotent la présence (𝑥𝑗 = 1) ou l’absence (𝑥𝑗 = 0) d’un terme 𝑡𝑗 dans un document 𝑑𝑖 pertinent ou non pertinent (respectivement, la présence (𝑦𝑗 = 1) ou l’absence (𝑦𝑗 = 0) d’un terme 𝑡𝑗 dans une requête 𝑞). C’est ce qu’on appelle l’ indexation binaire des termes et on note : ∀𝑗 = 1. . 𝑛̅̅ ̅̅ ̅̅ , 𝑥𝑗 = {1 𝑠𝑖 𝑡𝑗 ∈ 𝑑𝑖0 𝑠𝑖 𝑡𝑗 ∉ 𝑑𝑖 (𝑟𝑒𝑠𝑝𝑒𝑐𝑡𝑖𝑣𝑒𝑚𝑒𝑛𝑡, 𝑦𝑗 = {1 𝑠𝑖 𝑡𝑗 ∈ 𝑞0 𝑠𝑖 𝑡𝑗 ∉ 𝑞) En supposant que ces événements soient indépendants, d’où l’appellation 𝐵𝐼𝑅. Si on suppose que les termes d’indexation sont indépendants (sac de mots), alors on peut estimer les deux probabilités (𝑃𝑟𝑜𝑏(𝑑𝑖/𝑅𝑒𝑙) et 𝑃𝑟𝑜𝑏(𝑑𝑖/𝑛𝑜𝑛𝑅𝑒𝑙 )) ainsi : 𝑡𝑗 peut être vu comme une variable aléatoire −𝐵𝑒𝑟𝑛𝑜𝑢𝑙𝑙𝑖 3 −. Considérons un document comme une liste de termes. 𝑃𝑟𝑜𝑏(𝑑𝑖/𝑅𝑒𝑙 ) = 𝑃𝑟𝑜𝑏(𝑡1 = 𝑥1 , 𝑡2 = 𝑥2, . . , 𝑡𝑛 = 𝑥𝑛/𝑅𝑒𝑙) = ∏ 𝑝𝑟𝑜𝑏 (𝑡𝑗 = 𝑥𝑗/𝑅𝑒𝑙)𝑛𝑗=1

= ∏ 𝑃𝑟𝑜𝑏(𝑡𝑗/𝑅𝑒𝑙)𝑡𝑗∈𝑑𝑖 ×∏ (1 − 𝑃𝑟𝑜𝑏(𝑡𝑗/𝑅𝑒𝑙))𝑡𝑗∉𝑑𝑖 = ∏ 𝑝𝑗𝑥𝑗 (1 − 𝑝𝑗 )1−𝑥𝑗𝑛𝑗=1 (𝐿𝑎 𝑑𝑖𝑠𝑡𝑟𝑖𝑏𝑢𝑡𝑖𝑜𝑛 𝑑𝑒𝑠 𝑡𝑒𝑟𝑚𝑒𝑠 𝑠𝑢𝑖𝑡 𝑢𝑛𝑒 𝑙𝑜𝑖 𝑑𝑒 𝐵𝑒𝑟𝑛𝑜𝑢𝑙𝑙𝑖 ) avec 𝑝𝑗 = 𝑃𝑟𝑜𝑏(𝑡𝑗 ∈ 𝑑𝑖/𝑟𝑒𝑙) 𝑃𝑟𝑜𝑏(𝑑𝑖/𝑛𝑜𝑛𝑅𝑒𝑙) = 𝑃𝑟𝑜𝑏(𝑡1 = 𝑥1, 𝑡2 = 𝑥2, . . , 𝑡𝑛 = 𝑥𝑛/𝑛𝑜𝑛𝑅𝑒𝑙) = ∏ 𝑝𝑟𝑜𝑏 (𝑡𝑗 = 𝑥𝑗/𝑛𝑜𝑛𝑅𝑒𝑙 )𝑛𝑗=1

= ∏ 𝑃𝑟𝑜𝑏(𝑡𝑗/𝑛𝑜𝑛𝑅𝑒𝑙 )𝑡𝑗∈𝑑𝑖 × ∏ (1 −𝑃𝑟𝑜𝑏 (𝑡𝑗/𝑛𝑜𝑛𝑅𝑒𝑙 ))𝑡𝑗∉𝑑𝑖 = ∏ 𝑞𝑗𝑥𝑗 (1 − 𝑞𝑗)1−𝑥𝑗𝑛𝑗=1 (𝐿𝑎 𝑑𝑖𝑠𝑡𝑟𝑖𝑏𝑢𝑡𝑖𝑜𝑛 𝑑𝑒𝑠 𝑡𝑒𝑟𝑚𝑒𝑠 𝑠𝑢𝑖𝑡 𝑢𝑛𝑒 𝑙𝑜𝑖 𝑑𝑒 𝐵𝑒𝑟𝑛𝑜𝑢𝑙𝑙𝑖 ) avec 𝑞𝑗 = 𝑃𝑟𝑜𝑏(𝑡𝑗 ∈ 𝑑𝑖/𝑛𝑜𝑛𝑅𝑒𝑙) - 𝑃𝑟𝑜𝑏(𝑡𝑗/𝑅𝑒𝑙 ) : Probabilité d’apparition du terme 𝑡𝑗 dans le document 𝑑𝑖 sachant que ce dernier est pertinent pour la requête. - 𝑃𝑟𝑜𝑏(𝑡𝑗/𝑛𝑜𝑛𝑅𝑒𝑙 ) : Probabilité d’apparition du terme 𝑡𝑗 dans le document 𝑑𝑖 sachant que ce dernier n’est pas pertinent pour la requête.

Remarque : 𝑝𝑗 = 𝑞𝑗 pour les termes du vocabulaire qui n’apparaissent pas dans la requête. Ces termes sont uniformément répartis dans les documents pertinents et non pertinents. 𝑠𝑐𝑜𝑟𝑒(𝑑𝑖|𝑞) peut s’écrie alors comme suit :

3 𝑋 = {0,1}. 𝑃(𝑋 = 1) = 𝑝. 𝑃(𝑋 = 0) = 1− 𝑝. 𝑃(𝑋 = 𝑥) = 𝑝𝑥(1 − 𝑝)(1−𝑥)



𝑠𝑐𝑜𝑟𝑒(𝑑𝑖|𝑞) = ∏ 𝑝𝑗𝑥𝑗 (1 −𝑝𝑗 )1−𝑥𝑗𝑛𝑗=1∏ 𝑞𝑗𝑥𝑗 (1− 𝑞𝑗 )1−𝑥𝑗𝑛𝑗=1

En RI, on passe par la fonction 𝑙𝑜𝑔 et après un petit développement, la fonction 𝑠𝑐𝑜𝑟𝑒(𝑑𝑖|𝑞) s’écrit ainsi :

𝑠𝑐𝑜𝑟𝑒(𝑑𝑖|𝑞) = 𝑙𝑜𝑔 (∏ 𝑝𝑗𝑥𝑗 (1 − 𝑝𝑗 )1−𝑥𝑗𝑛𝑗=1∏ 𝑞𝑗𝑥𝑗 (1 − 𝑞𝑗)1−𝑥𝑗𝑛𝑗=1 ) =∑𝑥𝑗 𝑙𝑜𝑔 (𝑝𝑗 (1 − 𝑞𝑗)𝑞𝑗(1 − 𝑝𝑗 ))⏟ 𝑤𝑖𝑗𝑛𝑗 =1 + ∑ 𝑙𝑜𝑔 (1 −𝑝𝑗1 −𝑞𝑗)𝑛

𝑗=1⏟ 𝑐𝑜𝑛𝑠𝑡𝑎𝑛𝑡𝑒(𝑞𝑢𝑒𝑙𝑞𝑢𝑒 𝑠𝑜𝑖𝑡 𝑙𝑒 𝑑𝑜𝑐𝑢𝑚𝑒𝑛𝑡)

En utilisant notamment le théorème de Bayes, on peut montrer que le score du modèle probabiliste peut se mettre sous la forme : 𝑠𝑐𝑜𝑟𝑒(𝑑𝑖|𝑞) = ∑𝑥𝑗 ×𝑤𝑖𝑗𝑛

𝑗=1

Où le poids 𝑤𝑖𝑗 dépend de la probabilité de présence du terme 𝑡𝑗 dans l'ensemble des documents pertinent et son complément. 𝑠𝑐𝑜𝑟𝑒(𝑑𝑖|𝑞) est une formule qui ressemble à un produit scalaire d’un facteur fréquentiel binaire et d’un poids dépendant du terme.

2.5.6. Expression du poids 𝒘𝒊𝒋 (comment estimer 𝒑𝒋 et 𝒒𝒋 ?) : a. Estimation avec des données d’apprentissage :

Considérons les notations suivantes (pour chaque terme 𝑡𝑗) : Documents contenants 𝑡𝑗 Documents ne contenants 𝑡𝑗 Total Documents pertinents (𝑅𝑒𝑙) 𝑟 𝑅− 𝑟 𝑅 Documents non pertinents (𝑛𝑜𝑛𝑅𝑒𝑙 ) 𝑛 −𝑟 𝑁 − 𝑛− 𝑅 +𝑟 𝑁− 𝑅 Total 𝑛 𝑁− 𝑛 𝑁

TABLEAU 2.1 : Distribution de probabilités de pertinence des termes d’un corpus d’apprentissage

Avec : 𝑟 ∶ nombre de documents pertinents contenant le terme 𝑡𝑗 𝑅 ∶ nombre total de documents pertinents 𝑛 ∶ nombre de documents contenant le terme 𝑡𝑗 𝑁 ∶ nombre de documents dans la collection

Si en outre, on suppose connus l’ensemble 𝑅𝑒𝑙 des documents pertinents et l’ensemble 𝑛𝑜𝑛𝑅𝑒𝑙 des documents non pertinents, alors on peut aisément estimer les probabilités 𝑝j et 𝑞j, en utilisant les proportions définies en 𝑇𝑎𝑏𝑙𝑒𝑎𝑢 2.1 ci-dessus, comme suit :

𝑝j = 𝑃𝑟𝑜𝑏(𝑡𝑗 ∈ 𝑑𝑖/𝑟𝑒𝑙) = 𝑟𝑅 1 − 𝑝j = 𝑃𝑟𝑜𝑏(𝑡𝑗 ∉ 𝑑𝑖/𝑟𝑒𝑙 ) = 𝑅−𝑟𝑅 : probabilité qu’un document pertinent 𝑑𝑖 ne contienne pas le terme 𝑡𝑗

𝑞j = 𝑃𝑟𝑜𝑏(𝑡𝑗 ∈ 𝑑𝑖/𝑛𝑜𝑛𝑅𝑒𝑙 ) = 𝑛−𝑟𝑁−𝑅 1 − 𝑞j = 𝑃𝑟𝑜𝑏(𝑡𝑗 ∉ 𝑑𝑖/𝑛𝑜𝑛𝑅𝑒𝑙) = 𝑁−𝑛−𝑅+𝑟𝑁−𝑅 : probabilité qu’un document non-pertinent 𝑑𝑖 ne contienne pas le terme 𝑡𝑗 𝑛𝑁 : probabilité qu’un document

contienne le terme 𝑡𝑗 𝑁−𝑛𝑁 : probabilité qu’un document ne contienne pas le terme 𝑡𝑗 Le poids du modèle probabiliste est donné par : 𝑤𝑖𝑗 = 𝑙𝑜𝑔 (𝑟(𝑁 − 𝑛 − 𝑅+ 𝑟)(𝑅 − 𝑟)(𝑛 − 𝑟) ) Pour éviter les poids aberrants (prosaïquement, les divisions par 0), on propose un lissage de la formule :

https://fr.wikipedia.org/wiki/Th%C3%A9or%C3%A8me_de_Bayes



𝑤𝑖𝑗 = 𝑙𝑜𝑔 ((𝑟 + 0,5)(𝑁 − 𝑛 − 𝑅 + 𝑟 + 0,5)(𝑅 − 𝑟 + 0,5)(𝑛 − 𝑟 + 0,5) )

L’ajout de 0,5 à tous les membres s’explique par la nécessité d’écarter tous les cas limites qui entraîneraient des valeurs nulles de ces membres.

b. Estimation sans des données d’apprentissage : Processus itératif (relevance feedback)

Lorsque des données d'apprentissage pour l'évaluation ne sont pas disponibles, on estime a priori les valeurs de 𝑝j et 𝑞j. La présence des termes de la requête dans un document contribue au calcul de la pertinence des documents à restituer. Cette contribution va dépendre du nombre d’apparitions du terme dans le document ainsi que du nombre total de documents qu’il indexe.

b.1. Estimation initiale de 𝒑𝐣 : Croft et Harper (1979) proposent d’utiliser 𝑝j comme une constante (lors de

l’initialisation). 𝑝j = 0,5 pour tous les termes 𝑡j de la requête. Cela signifie que chaque terme a la même chance d'apparaître dans un document pertinent.

b.2. Estimation initiale de 𝒒𝐣 : Sous l'hypothèse que l'ensemble des documents non-pertinents est beaucoup plus

important que l'ensemble des documents pertinents, il est plausible d’approximer les documents non pertinents par l'ensemble de la collection (au sens statistique). Sous

cette hypothèse, 𝑞j (la probabilité d'occurrence de terme dans les documents non

pertinents pour une requête) peut être estimée par : 𝑞j = 𝑛𝑁. D’où : 𝑤𝑖𝑗 = 𝑙𝑜𝑔 (𝑝𝑗(1−𝑞𝑗)𝑞𝑗(1−𝑝𝑗)) = 𝑙𝑜𝑔 (𝑁−𝑛𝑛 ) On retrouve le facteur 𝑖𝑑𝑓 probabiliste intégré dans le modèle vectoriel : (𝑖𝑑𝑓𝑗 = 1 + 𝑙𝑜𝑔 (𝑁 − 𝑛𝑛 )) Ceci revient aussi à considérer qu'on n'a pas d'informations de pertinence dans la

formule précédente (𝑅 = 𝑟 = 0). Pour éviter les 0, un lissage de cette formule est proposé : 𝑤𝑖𝑗 = 𝑙𝑜𝑔 (𝑁 − 𝑛 + 0,5𝑛 + 0,5 ) b.3. Déterminer une taille de l’ensemble des documents pertinents. b.4. Nous ré-estimons par suite pj et qj sur la base des documents pertinents et non pertinents : 𝑝𝑗 = 𝑟𝑅 ; 𝑞j = 𝑛−𝑟𝑁−𝑅 Dans la pratique, on effectue un lissage de ces estimations comme suit : 𝑝j = 𝑟+12𝑅+1 ; 𝑞j = 𝑛−𝑟+12𝑁−𝑅+1 b.5. Passez à l'étape b.3. jusqu'à ce que le classement des résultats retournés

converge.

2.5.7. Avantages du modèle probabiliste :

Apprentissage du besoin d’information La fonction d'appariement permet de trier les documents

2.5.8. Inconvénients du modèle probabiliste :

Tout comme le modèle booléen ou vectoriel, le modèle probabiliste utilise l ’hypothèse d’indépendance des termes dans un document (inconvénient théorique)

Pas de langage de requête ! Problème des probabilités initiales : un des inconvénients de ce modèle est l’impossibilité d’estimer les

paramètres initiaux si des collections d’entraînement ne sont pas disponibles. Ce modèle est coûteux à implémenter et à utiliser à grande échelle. La complexité augmente rapidement

avec la taille des collections de documents.