crawlers (par de courchelle inès et jacob sophie)

39
CRAWLER Sophie Jacob Inès de Courchelle 1

Upload: rchbeir

Post on 22-Jun-2015

206 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Crawlers (par DE COURCHELLE Inès et JACOB Sophie)

1

CRAWLER

Sophie JacobInès de Courchelle

Page 2: Crawlers (par DE COURCHELLE Inès et JACOB Sophie)

PLAN

I. IntroductionII. Les types de CrawlerIII. Protocole et sécurité

IV. Conclusion

Page 3: Crawlers (par DE COURCHELLE Inès et JACOB Sophie)

3

Introduction ConclusionLes types de Crawler Protocole et sécurité

Définitions 1

Définition 1 « Un crawler est un programme qui visite les sites internet, lit les pages et leur informations afin de créer des entrées pour permettre à un moteur de recherche de les indexer. »

PROGRAMME

Site internet

Moteur de rechercheEntrée

Page 4: Crawlers (par DE COURCHELLE Inès et JACOB Sophie)

4

Introduction ConclusionLes types de Crawler Protocole et sécurité

Définitions 2

Définition 2 « Un Crawler est un programme qui collecte automatiquement des pages web

pour construire un index ou une collection locale. »

Collection

PROGRAMME

Page 5: Crawlers (par DE COURCHELLE Inès et JACOB Sophie)

5

Introduction ConclusionLes types de Crawler Protocole et sécurité

Définition 3

Définition 3 « Le crawler est le robot logiciel utilisé par les moteurs de recherches pour parcourir le réseau et les sites web de lien en lien afin d’archiver les pages web parcourues au sein des index de référencement. Chaque moteur utilise un robot qui lui est propre. »

Page 6: Crawlers (par DE COURCHELLE Inès et JACOB Sophie)

6

Introduction ConclusionLes types de Crawler Protocole et sécurité

Ce que l’on retient

Les robots d’indexation sont liés aux moteurs de recherche

En anglais : Web crawler, Web Spider

En français : araignée du Web, collecteur

Le crawler est un programme : – Collecte automatiquement des données– Tri les données – Stock les données

Page 7: Crawlers (par DE COURCHELLE Inès et JACOB Sophie)

7

Introduction ConclusionLes types de Crawler Protocole et sécurité

Genesis

1990 : Le premier moteur de recherche Archie

1993 : Wanderer (« le Vagabond ») est le premier robot

d’indexation

1993 : Le premier moteur intelligent Excite

1994 : Yahoo

1995 – 1997 : Altavista

1998 : Google

Page 8: Crawlers (par DE COURCHELLE Inès et JACOB Sophie)

8

Introduction ConclusionLes types de Crawler Protocole et sécurité

Enjeux des moteurs de recherche

Indexer plus précisément

Mieux cibler le contenu de la page

Mieux déterminer sa pertinence

Répondre aux besoins de l’utilisateur

Page 9: Crawlers (par DE COURCHELLE Inès et JACOB Sophie)

9

Introduction ConclusionLes types de Crawler Protocole et sécurité

Le principe du Crawler

Lire les méta données d’un site

Les classer

Les stocker

Les lier

Page 10: Crawlers (par DE COURCHELLE Inès et JACOB Sophie)

10

Introduction ConclusionLes types de Crawler Protocole et sécurité

Fonctionnement d’un crawler

Il arrive sur une page

– Déjà indexée

– Non indexée

Le robot a le droit de l’indexer ?

Le robot stock le lien dans une file

Le robot extrait les méta données

Le robots enregistre les méta données

Page 11: Crawlers (par DE COURCHELLE Inès et JACOB Sophie)

11

Introduction ConclusionLes types de Crawler Protocole et sécurité

Illustration

Lien1Lien2Lien3

Lien 4Lien 5Lien 6

Index / collection locale

File de pages à visiter

Lien 1

Mot 1

Mot 2

Mot 3

Lien 4

Lien 5

Lien 6

Page 12: Crawlers (par DE COURCHELLE Inès et JACOB Sophie)

12

Introduction ConclusionLes types de Crawler Protocole et sécurité

Bilan

Un crawler voyage de site en site

Aucune intervention humaine

Une Base de données

Un Web crawler a une durée de vie limitée

– But : ne pas surcharger le serveur

Page 13: Crawlers (par DE COURCHELLE Inès et JACOB Sophie)

13

Introduction ConclusionLes types de Crawler Protocole et sécurité

Les différents types de crawler

Différent types d’indexation

Coder un crawler en php

Les crawlers des moteurs de recherches

Page 14: Crawlers (par DE COURCHELLE Inès et JACOB Sophie)

14

Introduction ConclusionLes types de Crawler Protocole et sécurité

Crawler Périodique

Crawler de « rafraîchissement », tourne en continuOptimise la fraîcheur de la bases

Collection

Lien A

Lien B

Lien C

Page 15: Crawlers (par DE COURCHELLE Inès et JACOB Sophie)

15

Introduction ConclusionLes types de Crawler Protocole et sécurité

Crawler de deep-web

Crawler couplé à une table d’association (Label/Value)Capable de remplir un formulaire

Label Value

1 Pierre

2 Claire

Page 16: Crawlers (par DE COURCHELLE Inès et JACOB Sophie)

16

Introduction ConclusionLes types de Crawler Protocole et sécurité

Crawler de forum

Corrélation topologique/sémantique naturelleExtraction de profils d’acteurs

Acteurs

Acteur A

Acteur B

Acteur C

Page 17: Crawlers (par DE COURCHELLE Inès et JACOB Sophie)

17

Introduction ConclusionLes types de Crawler Protocole et sécurité

Crawler incrémental

Continue à visiter les pages, même après l’atteignabilité de

la taille maximum de la collection

Puis lorsque l’on demande de remettre à jour la collection

on remplace les pages selon leur «importance»

Collection

1 Lien A

2 Lien B

3 Lien C

Page 18: Crawlers (par DE COURCHELLE Inès et JACOB Sophie)

18

Introduction ConclusionLes types de Crawler Protocole et sécurité

Les crawlers des moteurs de recherches

Robot d’exploration Moteur de recherche

Googlebot Google

Yahoo Slurp Yahoo! Search

Bingbot Bing

Scooter AltaVista

Page 19: Crawlers (par DE COURCHELLE Inès et JACOB Sophie)

19

Introduction ConclusionLes types de Crawler Protocole et sécurité

Protection contre les Crawlers

Protocole d’exclusion des robotsStandard for Robot Exclusion (SRE)Format du fichier « /robots.txt »Intérêt du protocole d’exclusionRobots malveillants

Page 20: Crawlers (par DE COURCHELLE Inès et JACOB Sophie)

20

Introduction ConclusionLes types de Crawler Protocole et sécurité

Règles de bon usage

selection policy revisit policy politeness policy parallelization policy

Page 21: Crawlers (par DE COURCHELLE Inès et JACOB Sophie)

21

Introduction ConclusionLes types de Crawler Protocole et sécurité

Règles de bon usage

selection policy – quelles pages indexer – éviter d'indexer tout le web – exemple : l'importance de la page peut être déterminée

par le nombre de liens dirigés ou redirigés par cette page

revisit policy – quand vérifier s'il y a des changements dans les pages – minimiser les visites – éviter de retourner une valeur obsolète

Page 22: Crawlers (par DE COURCHELLE Inès et JACOB Sophie)

22

Introduction ConclusionLes types de Crawler Protocole et sécurité

Règles de bon usage

politeness policy – Éviter les surcharges de page web – Interdire certaines portions du site web

parallelization policy – coordonner les robots d'indexation qui visitent le même

espace – maximiser les téléchargements de page empêcher les

robots de télécharger les mêmes pages

Page 23: Crawlers (par DE COURCHELLE Inès et JACOB Sophie)

23

Introduction ConclusionLes types de Crawler Protocole et sécurité

Protocole d’exclusion des robots

Années 1990 Augmentation d’incidents : ralentissement des serveursRédaction de règles pour indiquer aux robots les zones non accessibles des sites web

Page 24: Crawlers (par DE COURCHELLE Inès et JACOB Sophie)

24

Introduction ConclusionLes types de Crawler Protocole et sécurité

Standard for Robot Exclusion (SRE)

Méthode pour exclure les robots d’un serveurPolitique d’accès pour les robotsListe de pages qui ne peuvent être visitéesAccessible via l’adresse ‘’/robots.txt’’Facile à implémenter sur tous les sites

Page 25: Crawlers (par DE COURCHELLE Inès et JACOB Sophie)

25

Introduction ConclusionLes types de Crawler Protocole et sécurité

Protocole d’exclusion des robots

Inconvénient : seul l’administrateur du serveur a accès au fichier et peut mettre à jour cette liste

Avantage : limitation des pages et des informations à indexer

Page 26: Crawlers (par DE COURCHELLE Inès et JACOB Sophie)

26

Introduction ConclusionLes types de Crawler Protocole et sécurité

Format du fichier « /robots.txt »

Il se compose de plusieurs enregistrements

User-agent Nom du ou des robots décrit par l’enregistrement

Disallow Spécifie les adresses URL des sites qu’il ne faut pas visiter. Le chemin peut être entier ou non

Page 27: Crawlers (par DE COURCHELLE Inès et JACOB Sophie)

27

Introduction ConclusionLes types de Crawler Protocole et sécurité

Recherche du fichier « /robots.txt »

En-tête du site Robot.txt Vide

Visite toutes les

pages

Page 28: Crawlers (par DE COURCHELLE Inès et JACOB Sophie)

28

Introduction ConclusionLes types de Crawler Protocole et sécurité

Format du fichier « /robots.txt »

Autoriser tous les robots à accéder au site

User-agent: * Disallow:

Interdire l’accès au site à tous les robots

User-agent: * Disallow: /

Page 29: Crawlers (par DE COURCHELLE Inès et JACOB Sophie)

29

Introduction ConclusionLes types de Crawler Protocole et sécurité

Format du fichier « /robots.txt »

Interdire l’accès au site à un robot particulier

User-agent: googlebot #nom du robot Disallow:

Interdire l’accès à une URL du siteUser-agent: * Disallow: /help

Page 30: Crawlers (par DE COURCHELLE Inès et JACOB Sophie)

30

Introduction ConclusionLes types de Crawler Protocole et sécurité

Démonstration

Page 31: Crawlers (par DE COURCHELLE Inès et JACOB Sophie)

31

Introduction ConclusionLes types de Crawler Protocole et sécurité

Intérêt du protocole d’exclusion

Éviter que des ressources sans intérêt public soient visibles

dans la page de résultat d’un moteur de recherche

Alléger le travail du serveur HTTP

Alléger le trafic sur le réseau informatique (moins de

requêtes)

Page 32: Crawlers (par DE COURCHELLE Inès et JACOB Sophie)

32

Introduction ConclusionLes types de Crawler Protocole et sécurité

Robots malveillants

Ignorent le fichier ‘’robots.txt’’

Accèdent aux adresses URL quand même

Récolte d’informations privées (adresses personnelles)

Revente (SPAM et HACK)

Ralentissent le trafic

Page 33: Crawlers (par DE COURCHELLE Inès et JACOB Sophie)

33

Introduction ConclusionLes types de Crawler Protocole et sécurité

Bilan

Créer un fichier robots.txtBloquer l’adresse IP lorsqu’elle est identifiéeRobots.txt est une convention : peut ne pas être respectée

Page 34: Crawlers (par DE COURCHELLE Inès et JACOB Sophie)

34

Introduction ConclusionLes types de Crawler Protocole et sécurité

Quelques chiffres

Ces informations sont fournies par YAKINO © sondage réalisé le 12/12/201310966 connexions échantillonnées sur 11 sitespériode concernée : 27/11/2013 - 11/12/2013

Page 35: Crawlers (par DE COURCHELLE Inès et JACOB Sophie)

35

Introduction ConclusionLes types de Crawler Protocole et sécurité

Quelques chiffres

NAHRGANG MarcoDELHOMME David2003 – 2004 Les moteurs de recherches comment ça marche ?

Page 36: Crawlers (par DE COURCHELLE Inès et JACOB Sophie)

36

Introduction ConclusionLes types de Crawler Protocole et sécurité

Sources

[1] http://www.robotstxt.org/orig.html– Titre : A Standard for Robot Exclusion – Auteur : Martijn Koster – Date de publication : 2007

[2] http://nlp.stanford.edu/IR-book/pdf/20crawl.pdf : – Auteurs : Campbridge– Titre : Crawling and web indexes – Date de publication : 2009

Page 37: Crawlers (par DE COURCHELLE Inès et JACOB Sophie)

37

Introduction ConclusionLes types de Crawler Protocole et sécurité

Sources

[3] http://www.lesitedemika.org/ressources/moteurs_recherche.pdf– Auteurs : Mickaël MARCHAL, Nadia TEA – Date publication : 2007– Titre : les moteurs de recherche

[4] http://www.sfs.uni-tuebingen.de/~parmenti/slides/slides11-1x4.pdf– Auteurs : Wintersemester – Date publication : 2007– Titre : Web crawling

Page 38: Crawlers (par DE COURCHELLE Inès et JACOB Sophie)

38

Introduction ConclusionLes types de Crawler Protocole et sécurité

Sources

[5] http://www.cellopoint.com/media_resources/blogs/2011/03/Web_Crawlers : – Titre Crawling Policies – Auteur : June Huang– Date de publication : 8/03/2011

[6] http://www.thesitewizard.com/archive/robotstxt.shtml– Titre : How to set up a robots.txt to control search

engine spiders – Auteur : Christopher Heng – Date de publication : 2001-2010

Page 39: Crawlers (par DE COURCHELLE Inès et JACOB Sophie)

QUESTIONS ?