Le cosinus de Saltonou
modèle vectoriel.
Comment un moteur détermine la pertinence d’une page?
Synthèse d’articles par Laurent Hermann || citinet.fr 2014
Moteur = 2 tâches distinctes
• Analyse pertinence = par rapport à une requête -> modèle vectoriel
• Classement des pages = Page Rank
• Le modèle vectoriel initié par Gérard Salton(1927-1995, professeur à l’Université de Cornell, pionnier de l’Information Retrieval)
• Les fréquences d’occurrences des termes d’un texte donnent une bonne représentation du contenu du texte.
• De calculer le cosinus de l'angle formé par les vecteurs représentant le document et la requête.
Quoi ?
• Comment classer des documents (indexation)
• Comment retrouver des documents (recherche d ’information)
• En fonction des mots qu’ils contiennent
• Orienter au maximum le vecteur de la page optimisée dans le même sens que le vecteur de la requête ciblée.
L’idée ?
• Représenter, dans le même espace vectoriel, les requêtes et les documents.
• Documents et requêtes sont exprimés comme des vecteurs de termes.
• Estimer l’affinité en mesurant l’angle entre 2 vecteurs (document, requête)
• Plus l’angle entre les vecteurs document et requête est petit (cosinus élevé) plus le document est pertinent par rapport à la requête.
• Le cosinus de Salton varie entre 0 et 1.
Christian Jacquemin (Université Paris 11 et LIMSI-CNRS)
N dimension
• En réalité, il y a autant que dimension que de termes.
SEO Camp’us 2009/ Philippe YONNET
Exemple…Prenons les textes suivants :
• Texte 1 : la loutre est dans la rivièreTexte 2 : la loutre est avec les loutres dans la rivière
On va lemmatiser tout ça (sans prendre en compte les verbes) :
• Texte 1 : loutre, rivièreTexte 2 : loutre, loutre, rivière
On va ensuite représenter chacun de ces textes par un vecteur dans l’espace des fréquences des mots rivière, loutre (dans cet ordre).•Texte 1 : (1/2, 1/2 )•Texte 2 : (1/3, 2/3)Ce qui donne graphiquement :
Sylvain Peyronnet 2009 http://www.peyronnet.eu/blog/modele-vectoriel-et-cosinus-de-salton/
Itératif
• On rédige un texte.
• On le soumet à Google.
• On mesure le positionnement. (un bon outil SEO Soft)
• On améliore le texte.
• On réitère.
Optimiser, c’est…
• Permettre de trouver le bon « angle de Salton »