mesure de pertinence par le cosinus de salton

11
Le cosinus de Salton ou modèle vectoriel. Comment un moteur détermine la pertinence d’une page? Synthèse d’articles par Laurent Hermann || citinet.fr 2014

Upload: laurent-hermann

Post on 03-Jul-2015

708 views

Category:

Technology


3 download

DESCRIPTION

Le cosinus de Salton est un modèle vectoriel pour mesurer la pertinence des termes d'un documents face à une requête de recherche.

TRANSCRIPT

Page 1: Mesure de pertinence par le Cosinus de Salton

Le cosinus de Saltonou

modèle vectoriel.

Comment un moteur détermine la pertinence d’une page?

Synthèse d’articles par Laurent Hermann || citinet.fr 2014

Page 2: Mesure de pertinence par le Cosinus de Salton

Moteur = 2 tâches distinctes

• Analyse pertinence = par rapport à une requête -> modèle vectoriel

• Classement des pages = Page Rank

Page 3: Mesure de pertinence par le Cosinus de Salton

• Le modèle vectoriel initié par Gérard Salton(1927-1995, professeur à l’Université de Cornell, pionnier de l’Information Retrieval)

• Les fréquences d’occurrences des termes d’un texte donnent une bonne représentation du contenu du texte.

• De calculer le cosinus de l'angle formé par les vecteurs représentant le document et la requête.

Page 4: Mesure de pertinence par le Cosinus de Salton

Quoi ?

• Comment classer des documents (indexation)

• Comment retrouver des documents (recherche d ’information)

• En fonction des mots qu’ils contiennent

• Orienter au maximum le vecteur de la page optimisée dans le même sens que le vecteur de la requête ciblée.

Page 5: Mesure de pertinence par le Cosinus de Salton

L’idée ?

• Représenter, dans le même espace vectoriel, les requêtes et les documents.

• Documents et requêtes sont exprimés comme des vecteurs de termes.

• Estimer l’affinité en mesurant l’angle entre 2 vecteurs (document, requête)

Page 6: Mesure de pertinence par le Cosinus de Salton

• Plus l’angle entre les vecteurs document et requête est petit (cosinus élevé) plus le document est pertinent par rapport à la requête.

• Le cosinus de Salton varie entre 0 et 1.

Christian Jacquemin (Université Paris 11 et LIMSI-CNRS)

Page 7: Mesure de pertinence par le Cosinus de Salton

N dimension

• En réalité, il y a autant que dimension que de termes.

Page 8: Mesure de pertinence par le Cosinus de Salton

SEO Camp’us 2009/ Philippe YONNET

Page 9: Mesure de pertinence par le Cosinus de Salton

Exemple…Prenons les textes suivants :

• Texte 1 : la loutre est dans la rivièreTexte 2 : la loutre est avec les loutres dans la rivière

On va lemmatiser tout ça (sans prendre en compte les verbes) :

• Texte 1 : loutre, rivièreTexte 2 : loutre, loutre, rivière

On va ensuite représenter chacun de ces textes par un vecteur dans l’espace des fréquences des mots rivière, loutre (dans cet ordre).•Texte 1 : (1/2, 1/2 )•Texte 2 : (1/3, 2/3)Ce qui donne graphiquement :

Sylvain Peyronnet 2009 http://www.peyronnet.eu/blog/modele-vectoriel-et-cosinus-de-salton/

Page 10: Mesure de pertinence par le Cosinus de Salton

Itératif

• On rédige un texte.

• On le soumet à Google.

• On mesure le positionnement. (un bon outil SEO Soft)

• On améliore le texte.

• On réitère.

Page 11: Mesure de pertinence par le Cosinus de Salton

Optimiser, c’est…

• Permettre de trouver le bon « angle de Salton »