ranking (par ibrahim sirine et tanios dany)

46
RANKING Présenté par : IBRAHIM Sirine TANIOS Dany Présenté à : Prof. CHBEIR Richard 1 12/27/2013

Upload: rchbeir

Post on 07-Jul-2015

135 views

Category:

Documents


2 download

TRANSCRIPT

Page 1: Ranking (par IBRAHIM Sirine et TANIOS Dany)

RANKING

Présenté par : IBRAHIM Sirine

TANIOS Dany

Présenté à : Prof. CHBEIR Richard

1

12/27/2013

Page 2: Ranking (par IBRAHIM Sirine et TANIOS Dany)

Plan2/46

Introduction au Ranking

Les modèles de Ranking

Vector space model

PageRank

Language Model For IR

HITS

Conclusion

12/27/2013

Page 3: Ranking (par IBRAHIM Sirine et TANIOS Dany)

Ranking – Conception Globale

Lorsque l'utilisateur donne une requête, une

comparaison de mots est fait pour obtenir les

documents les plus pertinents à la requête. Les

documents pertinents sont ensuite classés en fonction

de leur degré de pertinence, importance..

C’est le Ranking

3/46

12/27/2013

Page 4: Ranking (par IBRAHIM Sirine et TANIOS Dany)

Pourquoi le Ranking ?

Avec le grand nombre de pages web qui existent

aujourd'hui, les moteurs de recherche prennent un rôle

important dans l'Internet actuel.

Mais même si elles permettent de trouver des pages

pertinentes pour un sujet de recherche, de nos jours, le

nombre de résultats renvoyés est souvent trop grand

pour être exploré avec soin.

4/46

12/27/2013

Page 5: Ranking (par IBRAHIM Sirine et TANIOS Dany)

Le rôle de Ranking

Le rôle des algorithmes de classement est donc de:

sélectionnez les pages qui sont probablement en mesure de

satisfaire les besoins de l'utilisateur, et de les amener dans

les premières positions.

5/46

12/27/2013

Page 6: Ranking (par IBRAHIM Sirine et TANIOS Dany)

Moteur de recherche

Le moteur de recherche est un simple outil pour nous6/46

12/27/2013

Page 7: Ranking (par IBRAHIM Sirine et TANIOS Dany)

Le contenu réel des moteurs 7/46

12/27/2013

Page 8: Ranking (par IBRAHIM Sirine et TANIOS Dany)

Les modèles de Ranking8/46

12/27/2013

Page 9: Ranking (par IBRAHIM Sirine et TANIOS Dany)

Les modèles de Ranking9/46

12/27/2013

Page 10: Ranking (par IBRAHIM Sirine et TANIOS Dany)

Vector Space Model

Vector Space Model a été largement utilisé dans le

domaine IR traditionnelle

La plupart des moteurs de recherche utilisent également

des mesures de similarité basées sur ce modèle pour

classer les documents sur le Web

Chaque terme , i, dans un document ou une requête, j,

possède un poids de valeur réelle, Wij.

Le modèle crée un espace dans lequel les documents

et les requêtes sont représentés par des vecteurs

10/46

12/27/2013

Page 11: Ranking (par IBRAHIM Sirine et TANIOS Dany)

Vector space model11/46

12/27/2013

Page 12: Ranking (par IBRAHIM Sirine et TANIOS Dany)

Vector space model

Les poids associés aux termes sont calculés sur la base

de deux numéros:

En terme de fréquence fij: le nombre d’occurrence

du terme yj dans le document xi

Document de fréquence inverse: gj=log(N/dj)

avec N est le nombre de documents total et dj est le

nombre de documents contenant le terme yj

12/46

12/27/2013

Page 13: Ranking (par IBRAHIM Sirine et TANIOS Dany)

Vector space model

TF-IDF [ Term Frequency – Inverst document Frequency ]

méthode pour calculer les poids

wij = tfij idfi = tfij log2 (N/ dfi)

Avec tfij=fij / max(fij )

Exemple:

Considérant un document contenant les termes de fréquences données

A(3), B(2), C(1)

Supposons une collection contenant 10 000 documents etfréquences des documents pour ces termes sont les suivants:

A:50, B:1300, C:250

Donc :

A: tf = 3/3 et idf = log2(10000/50) = 7.6 => TF-IDF = 7.6

B: tf = 2/3 et idf = log2 (10000/1300) = 2.9 => TF-IDF = 2.0

C: tf = 1/3 et idf = log2 (10000/250) = 5.3 => TF-IDF = 1.8

13/46

12/27/2013

Page 14: Ranking (par IBRAHIM Sirine et TANIOS Dany)

Mesure de similarité

Une mesure de similarité est une fonction qui

calcule le degré de similarité entre deux

vecteurs

L'utilisation d'une mesure de similarité entre la

requête et chaque document:

Permet de classer les documents trouvés dans

l'ordre de pertinence présumée

But de Ranking

14/46

12/27/2013

Page 15: Ranking (par IBRAHIM Sirine et TANIOS Dany)

Mesure de similarité

Similarité entre les vecteurs pour un document di et la

requête q peut être calculé comme le produit intérieur vecteur

Mesure combien de termes sont identifiés mais pas

combien de termes qui ne le sont pas

15/46

12/27/2013

Page 16: Ranking (par IBRAHIM Sirine et TANIOS Dany)

Mesure de Similarité

Exemple: D1 = 2T1 + 3T2 + 5T3 D2 = 3T1 + 7T2 +

1T3

Q = 0T1 + 0T2 + 2T3

=> sim(D1 , Q) = 2*0 + 3*0 + 5*2 = 10

=> sim(D2 , Q) = 3*0 + 7*0 + 1*2 = 2

16/46

12/27/2013

Page 17: Ranking (par IBRAHIM Sirine et TANIOS Dany)

Mesure de Similarité Cosinus

MSC mesure le cosinus de l'angle entre les deux vecteurs

D1 = 2T1 + 3T2 + 5T3 CosSim(D1 , Q) = 10 / (4+9+25)(0+0+4) = 0.81

D2 = 3T1 + 7T2 + 1T3 CosSim(D2 , Q) = 2 / (9+49+1)(0+0+4) = 0.13

Q = 0T1 + 0T2 + 2T3

17/46

12/27/2013

Page 18: Ranking (par IBRAHIM Sirine et TANIOS Dany)

Les modèles de Ranking18/46

12/27/2013

Page 19: Ranking (par IBRAHIM Sirine et TANIOS Dany)

PageRank

PageRank est un algorithme d'analyse des liens qui attribue une pondération numérique à chaque page Web, dans le but de «mesurer» l'importance relative.

Une excellente façon de hiérarchiser les résultats des recherches par mot clé web

Chaque lien pointant d’une page à une autre est considéré comme un vote pour cette page

Le PageRank d'une page A est donnée comme suit :

PR (A) = (1 -d) + d (PR (T1) / C (T1) + ... + PR (Tn) / C (Tn) )

19/46

12/27/2013

Page 20: Ranking (par IBRAHIM Sirine et TANIOS Dany)

PageRank

les PageRanks forment un indicateur d’importance pour

évaluer les pages Web

PageRank est également affiché sur la barre d'outils de votre

navigateur si vous avez installé la barre d'outils Google

(http://toolbar.google.com/)

20/46

12/27/2013

Page 21: Ranking (par IBRAHIM Sirine et TANIOS Dany)

PageRank

Chaque page comporte un certain nombre de

outlinks (outedges) et backlinks (inedges)

B

C

D

E

A

• B et C sont les backlinks de A

• D et E sont les outlinks de A

21/46

12/27/2013

Page 22: Ranking (par IBRAHIM Sirine et TANIOS Dany)

PageRank

Deux cas du PageRank sont intéressants:

1) PageRank des Pages Web varient

considérablement en termes de nombre de

backlinks qu'ils ont.

Par exemple, la page d'accueil de Netscape a 62 804

backlinks par rapport à la plupart des pages qui ont

juste un peu de backlinks.

22/46

12/27/2013

Page 23: Ranking (par IBRAHIM Sirine et TANIOS Dany)

PageRank

2) Backlinks provenant des pages importantes

véhiculent plus d'importance à une page.

Par exemple, si une page web a un lien de la page

d'accueil de Yahoo, il peut être juste un lien, mais il est

très important

23/46

12/27/2013

Page 24: Ranking (par IBRAHIM Sirine et TANIOS Dany)

PageRank

Conclusion de deux cas du PageRank:

Une page peut avoir un PageRank élevé:

si il ya beaucoup de pages qui pointent vers elle

Ou

si il y a peu de pages qui pointent vers elle mais

qui ont un PageRank élevé

24/46

12/27/2013

Page 25: Ranking (par IBRAHIM Sirine et TANIOS Dany)

Exemple 2 PageRank

A B

Nous ne connaissons pas le PR des deux pages, donc il nous faut une

valeur de départ : 1.0 par exemple

PR (A) = (1 -d) + d (PR (T1) / C (T1) + ... + PR (Tn) / C (Tn) )

PR(A) = 0.15 + 0.85 * ( 1 /1 ) = 1

PR(B) = 0.15 + 0.85 * ( 1 / 1 ) = 1

les valeurs ne changent pas...

Prenons une valeur de départ différente : 0

25/46

12/27/2013

Page 26: Ranking (par IBRAHIM Sirine et TANIOS Dany)

Exemple PageRank

Première itération

PR(A) = 0.15 + 0.85 * 0 = 0.15

PR(B) = 0.15 + 0.85 * 0.15 = 0.2775

Deuxième itération PR(A) = 0.15 + 0.85 * 0.2775 = 0.385875

PR(B) = 0.15 + 0.85 * 0.385875 = 0.47799375

Troisième itération PR(A) = 0.15 + 0.85 * 0.47799375 = 0.5562946875

PR(B) = 0.15 + 0.85 * 0.5562946875 = 0.622850484375

...

26/46

12/27/2013

Page 27: Ranking (par IBRAHIM Sirine et TANIOS Dany)

Exemple PageRank

prenons une valeur 2.0 pour redémarrer notre

expérience.

PR(A) = 0.15 + 0.85 * 2 = 1.85

PR(B) = 0.15 + 0.85 * 1.85 = 1.7225

cela baisse, essayons une fois de plus :

PR(A) = 0.15 + 0.85 * 1.7225 = 1.614125

PR(B) = 0.15 + 0.85 * 1.614125 = 1.52200625

Nos valeurs continuent à converger vers 1

27/46

12/27/2013

Page 28: Ranking (par IBRAHIM Sirine et TANIOS Dany)

Les modèles de Ranking28/46

12/27/2013

Page 29: Ranking (par IBRAHIM Sirine et TANIOS Dany)

Language Model For IR

L'approche du Langage Model For IR : un

document est un bon match pour une requête si

le modèle de document est susceptible de

générer la requête, qui à son tour se produit si

le document contient les mots de la requête

29/46

12/27/2013

Page 30: Ranking (par IBRAHIM Sirine et TANIOS Dany)

Query likelihood Model

P (d | q):

La probabilité qu'un utilisateur interrogeant

une requête q, aura le document d à l'esprit

=> P (d | q) = P (q | d) P (d) / P (q)

P (q) - même pour tous les documents =>

ignoré

P (d) - souvent considérée comme uniforme

dans les documents => ignoré

=>Classement par P (q | d)

30/46

12/27/2013

Page 31: Ranking (par IBRAHIM Sirine et TANIOS Dany)

Query likelihood Model

P (q | d) : la probabilité qu'une requête Q soit générer par un modèle de langage provenant de documents d

Algorithme:

1. Déduire un LM pour chaque document.

2. Estimation de P (Q/Mdi) , la probabilité de génération de la requête en fonction de chacun de ces modèles de document.

3. Classez les documents selon ces probabilités

31/46

12/27/2013

Page 32: Ranking (par IBRAHIM Sirine et TANIOS Dany)

Query likelihood Model32/46

12/27/2013

Page 33: Ranking (par IBRAHIM Sirine et TANIOS Dany)

Query likelihood Model

Exemple

:

33/46

12/27/2013

Page 34: Ranking (par IBRAHIM Sirine et TANIOS Dany)

Ranking Models34/46

12/27/2013

Page 35: Ranking (par IBRAHIM Sirine et TANIOS Dany)

Fondateur

Hypertext Induced Topic Search (HITS) ou

Hubs and Authorities est un algorithme

d’analyse de lien développé par Jon Kleinberg

en 1998 pour prioriser les pages web

35/46

12/27/2013

Page 36: Ranking (par IBRAHIM Sirine et TANIOS Dany)

Concept de l’algorithme

Hits est un algorithme de recherche par

requête qui priorise les pages web en

récupérant tous les in links et les out links

tout en se basant sur l’analyse du contenu

textuel de la requête donnée

36/46

12/27/2013

Page 37: Ranking (par IBRAHIM Sirine et TANIOS Dany)

HITS

Quand un utilisateur fait entrer une requête,

HITS procède comme le suivant:

Récupère la liste des pages relatives retournées

par le moteur de recherche

Classifier les pages récupérées en 2 types de

Ranking :

authority ranking et hub ranking

37/46

12/27/2013

Page 38: Ranking (par IBRAHIM Sirine et TANIOS Dany)

Hubs et Authorities

A est une authority A est une hub

• Une page web est nommée Authority si elle est pointée par plusieurs

hyperlink

• Une page web est nommée Hub si elle pointe sur plusieurs hyperlink

38/46

12/27/2013

Page 39: Ranking (par IBRAHIM Sirine et TANIOS Dany)

Hubs et Authorities

Authority : des pages qui contiennent des

informations importantes ciblées pour le sujet

L’Authority contient notre données cibles

Hub: des pages qui contiennent des liens vers

des authorities

Le hub est une page intermédiaire qui nous aide à

trouver notre données cibles

39/46

12/27/2013

Page 40: Ranking (par IBRAHIM Sirine et TANIOS Dany)

Le score d’Authority

Le score d’une page Authority est la somme des

scores de toutes les pages qui pointent vers elle

Sc(B

)

Sc(

C)Sc(

D)

Sc(A)= Sc(B)+ Sc(C)+ Sc(D)

Le score Authority estime l’importance que apporte le contenu de cette

page

40/46

12/27/2013

Page 41: Ranking (par IBRAHIM Sirine et TANIOS Dany)

Le score du Hub

Le score d’une page Hub est la somme des

scores de toutes les pages qu’elle pointe sur

Sc(A)= Sc(B)+ Sc(C)+ Sc(D)

Sc(B

)Sc(

C)

Sc(

D)

Le score hub estime l’importance des liens qu’elle pointe

sur

41/46

12/27/2013

Page 42: Ranking (par IBRAHIM Sirine et TANIOS Dany)

Affichage

Après avoir calculer les scores des hubs et authorities, le navigateur affiche les pages web comme suit:

1. Les pages Authority par ordre décroissant de score, qui contiennent les données visées

2. Les pages Hub par ordre décroissant de score, qui contiennent les informations qui m’ont aidé à attendre mon sujet cible

42/46

12/27/2013

Page 43: Ranking (par IBRAHIM Sirine et TANIOS Dany)

Conclusion

12/27/2013

43/46

Les algorithmes de Ranking facilitent la vie

des utilisateurs de web en évitant que ces

derniers se perdent dans des milliers et des

milliers de pages web non classées

Page 44: Ranking (par IBRAHIM Sirine et TANIOS Dany)

Références

12/11/2013

44/46

Alessio Signorini. "A Survey of Ranking Algorithms". Tiré de http://homepage.divms.uiowa.edu/~asignori/phd/report/a-survey-of-ranking-algorithms.pdf. (2005)

Ian Rogers. "The Google Pagerank Algorithm and How It Works". Tiré de http://www.sirgroane.net/google-page-rank/

"Lecture #3: PageRank Algorithm - The Mathematics of Google Search". Tiré de http://www.math.cornell.edu/~mec/Winter2009/RalucaRemus/Lecture3/lecture3.html

Page 45: Ranking (par IBRAHIM Sirine et TANIOS Dany)

MERCI

45/46

12/27/2013

Page 46: Ranking (par IBRAHIM Sirine et TANIOS Dany)

Question ?

46/46

12/27/2013