mesure de pertinence par le cosinus de salton

Post on 03-Jul-2015

708 Views

Category:

Technology

3 Downloads

Preview:

Click to see full reader

DESCRIPTION

Le cosinus de Salton est un modèle vectoriel pour mesurer la pertinence des termes d'un documents face à une requête de recherche.

TRANSCRIPT

Le cosinus de Saltonou

modèle vectoriel.

Comment un moteur détermine la pertinence d’une page?

Synthèse d’articles par Laurent Hermann || citinet.fr 2014

Moteur = 2 tâches distinctes

• Analyse pertinence = par rapport à une requête -> modèle vectoriel

• Classement des pages = Page Rank

• Le modèle vectoriel initié par Gérard Salton(1927-1995, professeur à l’Université de Cornell, pionnier de l’Information Retrieval)

• Les fréquences d’occurrences des termes d’un texte donnent une bonne représentation du contenu du texte.

• De calculer le cosinus de l'angle formé par les vecteurs représentant le document et la requête.

Quoi ?

• Comment classer des documents (indexation)

• Comment retrouver des documents (recherche d ’information)

• En fonction des mots qu’ils contiennent

• Orienter au maximum le vecteur de la page optimisée dans le même sens que le vecteur de la requête ciblée.

L’idée ?

• Représenter, dans le même espace vectoriel, les requêtes et les documents.

• Documents et requêtes sont exprimés comme des vecteurs de termes.

• Estimer l’affinité en mesurant l’angle entre 2 vecteurs (document, requête)

• Plus l’angle entre les vecteurs document et requête est petit (cosinus élevé) plus le document est pertinent par rapport à la requête.

• Le cosinus de Salton varie entre 0 et 1.

Christian Jacquemin (Université Paris 11 et LIMSI-CNRS)

N dimension

• En réalité, il y a autant que dimension que de termes.

SEO Camp’us 2009/ Philippe YONNET

Exemple…Prenons les textes suivants :

• Texte 1 : la loutre est dans la rivièreTexte 2 : la loutre est avec les loutres dans la rivière

On va lemmatiser tout ça (sans prendre en compte les verbes) :

• Texte 1 : loutre, rivièreTexte 2 : loutre, loutre, rivière

On va ensuite représenter chacun de ces textes par un vecteur dans l’espace des fréquences des mots rivière, loutre (dans cet ordre).•Texte 1 : (1/2, 1/2 )•Texte 2 : (1/3, 2/3)Ce qui donne graphiquement :

Sylvain Peyronnet 2009 http://www.peyronnet.eu/blog/modele-vectoriel-et-cosinus-de-salton/

Itératif

• On rédige un texte.

• On le soumet à Google.

• On mesure le positionnement. (un bon outil SEO Soft)

• On améliore le texte.

• On réitère.

Optimiser, c’est…

• Permettre de trouver le bon « angle de Salton »

top related