présentation biblio. (dess iir) les moteurs de recherche web jérémy cluzel philippe rochebloine

Post on 03-Apr-2015

104 Views

Category:

Documents

0 Downloads

Preview:

Click to see full reader

TRANSCRIPT

Présentation Biblio. (DESS IIR)Présentation Biblio. (DESS IIR)

Les moteurs de recherche WebLes moteurs de recherche Web

Jérémy CLUZEL

Philippe ROCHEBLOINE

Les moteurs de recherche web

SommaireSommaire

IntroductionDéfinitionPrésentationFonctionnementArchitectureConclusion

Les moteurs de recherche web

IntroductionIntroduction

Les moteurs de recherche web

IntroductionIntroduction

Internet en croissance exponentielle.

Source importante d’informations ne pouvant être ignorée (même si utilisée en complément…).

Données et documents pertinents noyés dans l’immensité du réseau.

Utilisation d’outils de recherche quasi-obligatoire.

Les moteurs de recherche web

DéfinitionDéfinition

Les moteurs de recherche web

DéfinitionDéfinition

Expression « moteur de recherche » souvent employée à tord.

Importance de la différenciation entre les différents outils existants

Diversité plus complémentaire que concurrentielle

Les moteurs de recherche web

PrésentationPrésentation

Les moteurs de recherche web

PrésentationPrésentation

moteursméta–moteursannuairesportailsanneaux« web invisible »autres…

Les moteurs de recherche web

MoteursMoteurs

Outil permettant de rechercher les pages comportant une expression donnée.

Ex: AltaVista, Excite, Google, Lycos…

+ Exhaustif, options de recherche utiles, indexation de chaque mot.

– Nombre de réponses souvent élevé, une certaine expérience d’utilisation est requise.

Les moteurs de recherche web

Moteurs (suite) – les catégoriesMoteurs (suite) – les catégories

Sémantiques : intégration du sens du langage au processus de recherche (dictionnaires de concepts, thésaurus).

Multi-dimensionnels : paramétrage poussé, affinage de la catégorisation des documents, et des procédés de requêtes croisées.

Verticaux : adaptation à des problématiques métier bien particulières.

Les moteurs de recherche web

Méta-moteursMéta-moteurs

« Super-moteurs » permettant d’effectuer simultanément une recherche sur plusieurs moteurs et annuaires.

Ex: Debriefing, MetaCrawler, Savvy Search.

+ Puissance cumulée de plusieurs outils, efficacité croissante.

– Longueur de la recherche, fantaisie de certains résultats, efficacité moindre par rapport aux moteurs spécialisés.

Les moteurs de recherche web

Annuaires (ou répertoire)Annuaires (ou répertoire)

C’est un catalogue de sites, ne recensant que certains sites seulement.

Création de fiches descriptives avec titre, URL, et bref descriptif (15 à 25 mots).

Utilisation de bases de données décrivant une sélection de sites indexée par une liste arborescente de catégories (ou rubriques).

Ex: Francité, Nomade, Yahoo...

Les moteurs de recherche web

Annuaires (suite)Annuaires (suite)

+ Utilisation simple, encadrement de l’internaute dans sa recherche à l’aide de raffinements successifs.

– Non-exhaustif (seule une petite partie du réseau est référencée) nécessité de mettre à jour très régulièrement le contenu des rubriques.

Les moteurs de recherche web

PortailsPortails

Site offrant un ensemble de ressources et de services (généraux ou propres à un domaine) à un ensemble d'utilisateurs défini (grand public, membre d'une profession, d'une branche d'activité...). 

Ex: Cuisinons, Visioweb.

+ Navigation et recherche d'information facilitées, services à valeur ajoutée.

– Sites cloisonnant…

Les moteurs de recherche web

Portails (suite)Portails (suite)

Les moteurs de recherche web

Portails (suite) – les servicesPortails (suite) – les services

Outils de recherche, Information (actualité, finance, météo, etc.), Outils de communication (E-mail, listes de

diffusion, groupes de discussion), Outils de consommation (vente en ligne,

publicité, etc.), Personnalisation, Du contenu...

Les moteurs de recherche web

Anneaux (« WebRings »)Anneaux (« WebRings »)

Communauté (de sites) décentralisée à l'extrême, liée par un thème commun.

L'anneau sélectionne et contrôle humainement la qualité des sites proposés.

+ Qualité et fiabilité de l'information.– Recherche du « bon » anneau laborieuse.

http://nav.webring.yahoo.com

Les moteurs de recherche web

« Web invisible »« Web invisible »

Partie du Web contenant des documents n’ayant pas été indexés.

Origines : Type de fichiers, données dynamiques, robot de recherche bridé, documents « interdits de référencement »…

Outils :, All-One-Search, AlphaSearch, Fossick, Invisibleweb, Searchability…

Les moteurs de recherche web

Autres…Autres…

Impossibilité de citer, et de classer la totalité des outils de recherche existants.

Quelques exemples de ces catégories difficilement « classables » :

Recherche d'adresses classées par zone géographique (FinderSeeker, Excite Travel).

Recherche d‘objets perdus (Yellowtag).

Les moteurs de recherche web

FonctionnementFonctionnement

Les moteurs de recherche web

FonctionnementFonctionnement

Vue d’ensemble,

Le robot – explorateur,

Le système d’indexation,

Le module de recherche,Modes d’interrogation,Techniques utilisées.

Les moteurs de recherche web

Vue d’ensembleVue d’ensemble

Le « spider » récupère et analyse le maximum d’informations provenant des pages qu’il visite. 

Le système d’indexation s’occupe de stocker, et classer ces informations dans une base de données.

Le « searcher » est chargé de retrouver dans cette base, les documents qui correspondent le mieux à la requête émise.

Les moteurs de recherche web

Fonctionnement généralFonctionnement général

Les moteurs de recherche web

Le robot – explorateur (« spider Le robot – explorateur (« spider »)») C’est un robot logiciel qui explore de façon

autonome le « Web ». Son efficacité est capitale pour le moteur. Identifie les liens des pages, puis les visite

à son tour, parcourant ainsi rapidement la totalité du site, puis ceux qui lui sont rattachés.

Examine périodiquement des millions de pages et constitue de cette façon une base de données de celles déjà visités.

Les moteurs de recherche web

Le système d’indexationLe système d’indexation

Analyse les informations collectées, construit un index des mots rencontrés (et des pages correspondantes), puis stocke l’ensemble dans une base de données.

Convertit certains fichiers ne pouvant pas être indexés à cause de leur format.

Utilise des outils d’extraction pour ne récupérer que « l’essence » des documents.

Ex: Fulcrum, Infoseek, Intelliserv, Livelink.

Les moteurs de recherche web

Le système d’indexation (suite)Le système d’indexation (suite)

Les techniques d’indexation :

Au début, seulement les titres des documents,

Puis, tous les mots du premier paragraphe,

Aujourd’hui : les méta-données (ou metatags), ex: balise HTML <META>.

Les moteurs de recherche web

Module de recherche (« searcher »)Module de recherche (« searcher »)

Le searcher est le frontal de l'utilisateur. Grâce à son interface graphique, on peut

poser une question, sélectionner les options disponibles, et lancer une recherche.

Un script faisant alors appel au système d'indexation pour qu’il exécute la requête sur la base de données.

Les résultats affichés sous forme de page Web intégrant généralement les réponses sous forme de liste.

Les moteurs de recherche web

Module de recherche – modes d’interro.Module de recherche – modes d’interro.

Booléen : utilisation des opérateurs logiques (AND, OR, NOT, NEAR, etc.),

Liste de mots : requête retranscrite en une expression booléenne,

En langage naturel (expérimental).

Les moteurs de recherche web

Module de recherche - techniquesModule de recherche - techniques

Documentaire classique : utilisant des fichiers d'index de type mots-clés (mots ou expressions normalisés).

Textuelle : cherchant à retrouver les documents " ressemblant " le plus à la question posée.Pour cela, on utilise des techniques linguistiques (question posée en langue naturelle) ou statistiques (pondération des valeurs des mots et des documents)

Floue : autorisant les erreurs (OCR)

Les moteurs de recherche web

ArchitectureArchitecture

Les moteurs de recherche web

ArchitectureArchitecture

Architecture Générale

Exemple de base de données (DILIB)

Exemple d’architectures (ALTAVISTA)

Les moteurs de recherche web

Architecture GénéraleArchitecture Générale

P ages W eb

BD

Robots

Indexation

Recherche

Serveur W eb

N av iga teu rC lien t

M o teu r d e rech erch e

R e c h e rc h e

Les moteurs de recherche web

DILIBDILIB

DILIB est une plate-forme pour l'Ingénierie du Document et de l'Information Scientifiques et Techniques

partie recherche 

Les moteurs de recherche web

Structure base de données (DILIBStructure base de données (DILIB))

Données Source

Génération

Fichier D irect

Consignes

Fichiers Inverse

Fichiers Param ètre

Les moteurs de recherche web

Fichier direct / inverseFichier direct / inverse

N° enregistrement Titre Auteur Mots clés

000000 Tintin au Congo Herge Tintin, Milou, chien

000001 Tintin en Amérique Herge Tintin, Milou, cheval, chien

000003 Les Dalton Morris, Goscinny Lucky Luke, cheval

000004 Astérix le Gaulois Goscinny, Uderzo Asterix, Idefix, chien

Asterix 000004

Cheval 000002, 000003

Chien 000001, 000002, 000004

Idefix 000004

Lucky Luke 000003

Milou 000001, 000002

Tintin 000001, 000002

Goscinny 000003, 000004

Herge 000001, 000002

Morris 000004

Uderzo 000004

M ots clés Auteurs

Fichier direct

Fichier inverse

Les moteurs de recherche web

Architecture moteur ALTAVISTAArchitecture moteur ALTAVISTA

Les moteurs de recherche web

Deux serveursDeux serveurs

Les moteurs de recherche web

Serveurs en parallèlesServeurs en parallèles

Les moteurs de recherche web

Serveurs IndépendantsServeurs Indépendants

Les moteurs de recherche web

ConclusionConclusion

Accroissement important de la quantité d’informations disponible sur le réseau.

Progression notable (mais pas encore suffisante) des performances des outils de recherche.

Nouvelles technologies intelligentes prometteuses : agents, recherche en langage naturel.

Les moteurs de recherche web

BibliographieBibliographie

Glossaire spécialisé dans le domaine :

http://www.idf.net/mdr/glossaire.html

Divers sites explicatifs :

http://www.decisionnel.net/recherche/

http://www-dist.cea.fr/ext/neuf/moteur/

Sur le Web invisible :

http://www.asktibbs.com/web_invisible.html

Sur les Anneaux:

http://2sevres.clipewebring.free.fr/quoi.html

Liste de discussions :

motrech-subscribe@egroups.com 

top related