moteurs de recherche

24
Moteurs de Recherche Vincent VANDENBUSSCHE DEA – SIR / GR BD Mars 2002

Upload: yasuo

Post on 13-Jan-2016

71 views

Category:

Documents


3 download

DESCRIPTION

Moteurs de Recherche. Vincent VANDENBUSSCHE DEA – SIR / GR BD Mars 2002. Plan. Introduction Fonctionnement Crawling Sélection Rafraîchissement Stockage Stockage distribué Indexage Index de texte Classement PageRank Conclusion. Introduction – Défis. Taille du Web - PowerPoint PPT Presentation

TRANSCRIPT

Page 1: Moteurs de Recherche

Moteurs de Recherche

Vincent VANDENBUSSCHEDEA – SIR / GR BD

Mars 2002

Page 2: Moteurs de Recherche

2

Plan Introduction

Fonctionnement Crawling

Sélection Rafraîchissement

Stockage Stockage distribué

Indexage Index de texte

Classement PageRank

Conclusion

Page 3: Moteurs de Recherche

30

0,5

1

1,5

2

2,5

3

3,5

4

4,5

août-99 déc-99 mars-00 juin-00 oct-00 janv-01 avr-01

Nom

bre

de

pages

Introduction – Défis Taille du Web

Plusieurs milliards de pages Croissance exponentielle Plusieurs dizaine de terabytes

Page 4: Moteurs de Recherche

4

Introduction – Défis Rafraîchissement

40 % des pages changent chaque jour La demi-vie des pages est de 10 jours

Enchevêtrement de liens nœud de papillon

Cœur : 28 %Pages accessibles depuis le cœur et donnant accès au coeur

22 %Pages accessibles depuis le cœur et mais ne donnant

pas accès au coeur

22 %Pages donnant accès au cœur mais pas accessible depuis le coeur

.com

Page 5: Moteurs de Recherche

5

Introduction – Défis Moteurs de recherche

Google : www.google.com WiseNut : www.wisenet.com AllTheWeb : www.alltheweb.com Lycos : www.lycos.com Altavista : www.altavista.com Northern Light : www.northernlight.com HotBot : www.hotbot.com MSN Search : search.msn.com Teoma : www.teoma.com

Page 6: Moteurs de Recherche

6

Introduction – Fonctionnement

Crawler(s)Crawler(s)

Contrôleur Crawl

Contrôleur Crawl

Module Indexag

e

Module Indexag

e

Module

Analyse

Module

Analyse

Module Interrogatio

n

Module Interrogatio

n

ModuleClasseme

nt

ModuleClasseme

nt

Entrepôt de

pages

Entrepôt de

pagesWWWWWW

ClientClient

Index

texte

Index

texte

Indexstructur

e

Indexstructur

e

Indexservice

s

Indexservice

s

Page 7: Moteurs de Recherche

7

Crawling – Description Algorithme :

S0 : ensemble initial d’URLs à récupérer R S0

Tant que R : Récupérer l’URL Télécharger la page correspondante Extraire les URLs de cette page et les ajouter à R

Challenges : Quelles pages le crawler doit-il télécharger ? Comment le crawler doit-il tenir compte du

rafraîchissement des pages ?

Julie Thevenin
Page 8: Moteurs de Recherche

8

Crawling – Sélection Métrique d’importance

Basé sur l’intérêt : IS(P) Définir un intérêt : requête d’intérêt Q Quantifier la similarité textuelle entre P et

Q Basé sur la popularité : IB(P)

Décompte des citations Basé sur la localisation : IL(P)

Sur le domaine : .com plus important Sur la syntaxe : nombre de slashs

Page 9: Moteurs de Recherche

9

Crawling – Sélection Stratégies de crawl

Crawl & Stop K : nombre de pages à télécharger IK : Kème importance sur la totalité des pages du Web M : nbre de pages téléchargées dont l’importance >

IK Performance crawler : (M x 100)/K

Crawl & Stop avec seuil G : importance seuil H : nombre de pages du Web dont l’importance > G N : nbre de pages téléchargées dont l’importance >

G Performance crawler :

Si K>H : (N x 100)/K Si K<H : (N x 100)/H

Page 10: Moteurs de Recherche

10

Crawling – Sélection Métriques d’ordonnancement

Métrique a priori Métrique d’importance page Métrique d’ordonnancement URL

Métrique de localisation IL(P) Métrique de popularité IB’(P) approchée

Uniquement à partir des pages déjà téléchargées Métrique d’intérêt IS’(A(P)) approchée

Basée sur le texte de l’ancre pointant vers P Uniquement à partir des pages déjà téléchargées

Combinaison de ces métriques IC(P) = k1 x IL(P) + k2 x IB’(P) + k3 x IS’(A(P))

Page 11: Moteurs de Recherche

11

Crawling – Sélection 225 000 pages Métrique d’ordonnancement : IB’(P) Stratégies : Crawl & Stop avec seuil pour G = 100 (

H=1400)

Page 12: Moteurs de Recherche

12

Crawling – Rafraîchissement

Métrique de rafraîchissement Fraîcheur page P :

À l’instant t :

En moyenne : Âge page P :

À l’instant t :

En moyenne : Fraîcheur et âge collection

t

tdttPA

0),(lim (P)A

sinon 0

t àjour àest P si 1 t)F(P,

t

tdttPF

0),(lim (P)F

sinon onmodificatidate

t àjour àest P si 0 t)A(P,

t

Page 13: Moteurs de Recherche

13

Crawling – Rafraîchissement Stratégie de rafraîchissement

Uniforme : fréquence f Proportionnelle : i/fi constant

Ressource limitée e1 1/2 x 1/2 = 1/4 e2 1/2 x 1/18 = 1/32

Résultat Si l’évolution des pages suit une loi de

Poisson, la stratégie uniforme est toujours meilleure que la stratégie proportionnelle quelque soit le nbre de page, leurs fréquences d’évolution et leurs fréquences de rafraîchissement au sens de la métrique de fraîcheur ou d’âge.

Page 14: Moteurs de Recherche

14

Crawling – Rafraîchissement Optimisation du rafraîchissement

Nbre de pages : 5 avec fréquence d’évolution respective 1, 2,…, 5.

Capacité crawler : 5 pages Evolution selon loi de Poisson

Page 15: Moteurs de Recherche

15

Stockage – Défis Extensibilité

Distribution de l’entrepôt de pages Modes d’accès

Random : module d’interrogation Streaming : module d’indexage et d’analyse

Rafraîchissement Massif Fréquent

Effacement pages obsolètes

Page 16: Moteurs de Recherche

16

Stockage – Distribution Politique de distribution des pages

Uniforme Hashage

Méthode d’organisation des pages sur un site Hashage Uniforme Hashage par intervalle

Méthode de rafraîchissement Mode batch ou mode rigide Crawl complet ou partiel En place ou avec image

Page 17: Moteurs de Recherche

17

Indexage – Description Types d’index :

Index de structure (ou de liens) Stocker les informations de voisinage

Index de contenu (ou de texte) Index inversé

Index de services Index de site

Partitionnement d’index : Locale Globale

Page 18: Moteurs de Recherche

18

Indexage – Index inversé Définition

Mot d’indexage Localisation : URL + poids Index inversé : liste des localisations

par mot d’indexage Lexique : ensemble des mots

d’indexage Challenge

Taille Rafraîchissement Format de stockage (compression)

Page 19: Moteurs de Recherche

19

Indexage – Distribution

Etape 1

Etape 2

Distributeurs

Indexeurs Serveurs de requêtes

Statisticiens

Pages Web

Indexinversé

Etapeintermédiaire

Page 20: Moteurs de Recherche

20

Classement – Challenge Présenter les résultats d’une requête de

façon efficace Taille importante du Web Pages Web pas suffisamment auto-

descriptive Utiliser la structure des liens du Web PageRank

Algorithme développé par Page & Brine en 1998 à la base de Google

Étendre la notion de citation en prenant en compte l’importance du citant.

Page 21: Moteurs de Recherche

21

Classement – PageRank Version théorique

N(i) : nbre de liens sortant de la page i B(i) : nbre de pages citant i Définition récursive du PageRank r(i)

de i :

Interprétation de r comme vecteur propre

Méthode de la puissance itérée

)(

)(/)()(iBj

jNjrirr2=0.286

r3=0.143r1=0.286

r4=0.143r5=0.143

Page 22: Moteurs de Recherche

22

Classement – PageRank Version pratique

Le Web n’est pas un graphe fortement connexe : Existence de voies sans issue Existence de points d’arrêts

Enlever les nœuds sans liens de sortie Donner la possibilité de sortir des voies sans

issue

d traduit l’aptitude à l’ennui du surfeur lorsqu’il est bloqué dans une voie sans issue. A partir d’un moment il va décider de repartir d’un autre point.

mdjNjrdiriBj

/)1()(/)()()(

1

2

3

45

1

2

3

4

Page 23: Moteurs de Recherche

23

Conclusion 2 contraintes fortes

Taille Rafraîchissement

Heuristiques de crawling Stockage distribué Indexage parallélisé Classement basé sur les liens

(PageRank) Ce qu’il reste à faire

Images, vidéos Multiplication des contenus dynamiques

Page 24: Moteurs de Recherche

24

Bibliographie [1] A. Arasu, J. Cho, H. Garcia-Molina,

and S. Raghavan. Searching the web. ACM Transactions on Internet Technologies, 1(1), June 2001

[2] The Search Engine Showdown www.searchengineshowdown.com

[3] B. Murray, A. Moore. Sizing the Internet, White Paper, July 2000 disponible sur www.cyveillance.com