economie-gestion.ac-creteil.freconomie-gestion.ac-creteil.fr/img/doc/m1a4acomplementprofes…  ·...

30
DOSSIER PROFESSEUR – QUELQUES APPORTS THEORIQUES LA RECHERCHE DOCUMENTAIRE (d'après le site www.ccr.jussieu.fr/urfist/cerise ) INTRODUCTION - RECHERCHER SUR INTERNET Le réseau Internet était au départ, en 1969, un système de transmission de données à distance réservé aux spécialistes de la recherche militaire des Etats- Unis. Ses protocoles techniques ont ensuite été utilisés par un grand nombre d'universités et d'établissements de recherche, d'abord en Amérique du Nord, puis dans le monde entier. Les chercheurs l'utilisaient pour l'échange de messages et de fichiers. C'est l'invention du Web, en 1989, qui a permis la diffusion planétaire de ce nouveau média : il a rendu l'Internet convivial et accessible à tous, pour consulter des informations et pour en publier. Il reste un extraordinaire instrument documentaire mais accueille aussi désormais de façon majoritaire toutes les applications du commerce électronique mondial et des ressources non validées destinées à des publics très divers. Le monde Internet n'est pas un monde ordonné : on peut y errer longtemps sans trouver ce que l'on cherche. Pour vous aider dans vos démarches, vous trouverez ici quelques repères. I - LES INSTRUMENTS DE RECHERCHE Pour se repérer dans l'énorme masse de ressources accessibles sur Internet, différentes sortes d'outils sont disponibles, entièrement automatiques, comme les robots, ou contrôlé humainement comme tous les autres… Les robots (appelés aussi "moteurs de recherche"), et les annuaires thématiques (appelés aussi "portails" qui tendent maintenant à se confondre, sont des outils d'exploration nés avec le Web. Certains portails, ici appelés meta-index, sont organisés selon des thématiques disciplinaires et destinés au monde éducatif. Enfin des répertoires, des catalogues et des banques de données sont d'autant plus utiles à connaître qu'ils contiennent souvent des ressources inexplorées par les robots, cachées dans le "web invisible". Une question peut trouver réponse de plusieurs manières, mais, selon la nature de la recherche, certains outils se révèlent plus efficaces pour apporter rapidement des réponses pertinentes. Le tableau ci-dessous s'efforce de guider votre choix et liste quelques outils. M1 - METHODOLOGIE page 1/30 M1A – La recherche documentaire

Upload: others

Post on 13-Mar-2020

0 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: economie-gestion.ac-creteil.freconomie-gestion.ac-creteil.fr/IMG/doc/M1A4AComplementprofes…  · Web viewLes chercheurs l'utilisaient pour l'échange de messages et de fichiers

DOSSIER PROFESSEUR – QUELQUES APPORTS THEORIQUES

LA RECHERCHE DOCUMENTAIRE

(d'après le site www.ccr.jussieu.fr/urfist/cerise)

INTRODUCTION - RECHERCHER SUR INTERNETLe réseau Internet était au départ, en 1969, un système de transmission de données à distance réservé aux spécialistes de la recherche militaire des Etats-Unis. Ses protocoles techniques ont ensuite été utilisés par un grand nombre d'universités et d'établissements de recherche, d'abord en Amérique du Nord, puis dans le monde entier. Les chercheurs l'utilisaient pour l'échange de messages et de fichiers.C'est l'invention du Web, en 1989, qui a permis la diffusion planétaire de ce nouveau média : il a rendu l'Internet convivial et accessible à tous, pour consulter des informations et pour en publier. Il reste un extraordinaire instrument documentaire mais accueille aussi désormais de façon majoritaire toutes les applications du commerce électronique mondial et des ressources non validées destinées à des publics très divers.Le monde Internet n'est pas un monde ordonné : on peut y errer longtemps sans trouver ce que l'on cherche. Pour vous aider dans vos démarches, vous trouverez ici quelques repères.

I - LES INSTRUMENTS DE RECHERCHEPour se repérer dans l'énorme masse de ressources accessibles sur Internet, différentes sortes d'outils sont disponibles, entièrement automatiques, comme les robots, ou contrôlé humainement comme tous les autres…

Les robots (appelés aussi "moteurs de recherche"), et les annuaires thématiques (appelés aussi "portails" qui tendent maintenant à se confondre, sont des outils d'exploration nés avec le Web. Certains portails, ici appelés meta-index, sont organisés selon des thématiques disciplinaires et destinés au monde éducatif. Enfin des répertoires, des catalogues et des banques de données sont d'autant plus utiles à connaître qu'ils contiennent souvent des ressources inexplorées par les robots, cachées dans le "web invisible".

Une question peut trouver réponse de plusieurs manières, mais, selon la nature de la recherche, certains outils se révèlent plus efficaces pour apporter rapidement des réponses pertinentes. Le tableau ci-dessous s'efforce de guider votre choix et liste quelques outils.

Questions précises : Robots de recherche

Recherches thématiques : Annuaires de sites ou portails

Ressources dans une discipline universitaire : Index et Meta-index thématiques

Coordonnées d'institutions et de services : Répertoires

Etablir une bibliographie : Catalogues et banques de données

Pour débuter une recherche documentaire : Sites d'orientation

M1 - METHODOLOGIE page 1/17 M1A – La recherche documentaire

Page 2: economie-gestion.ac-creteil.freconomie-gestion.ac-creteil.fr/IMG/doc/M1A4AComplementprofes…  · Web viewLes chercheurs l'utilisaient pour l'échange de messages et de fichiers

DOSSIER PROFESSEUR – QUELQUES APPORTS THEORIQUES

1. Les robots

Outils et Usage Une sélectionRobots de rechercheOutils entièrement automatiques, interrogeables par formulaire de requête.Très puissants, ils explorent automatiquement les sites (sur les noms de documents, les titres, les mots du texte…), et constituent ainsi un énorme stock de données à partir desquelles les questions posées trouvent réponses.Cependant les ressources intéressantes obtenues sont souvent noyées dans un flot de références dépourvues d'intérêt.Très utiles pour des questions précises, ils restent efficaces à condition d'éviter les termes polysémiques ou trop larges.Ils se distinguent principalement par la taille et la qualité de leur corpus (pages indexées) et par leurs critères de présentation des résultats de requête.Les indications fournies dans la rubrique d'aide ou le recours au module "recherche avancée" permettent d'obtenir des résultats plus pertinents.Ils s'associent souvent avec des sites portails pour offrir également un accès thématique.Attention les robots n'explorent pas la totalité d'Internet dont une partie reste invisible. Pour en savoir plus : le web invisible (JP Lardy).

Cybermondiaux et francophonesAltavista en Français www.altavista.fr permet d'étendre la recherche à des ressources de même catégorie ou de la limiter par une série de mots clés.Exalead www.exalead.comPropose une série de mots-clés associés à la question posée.Google en Français www.google.frRéponses pertinentes, corpus très important, critères de présentation des résultats liés à la fréquence d'usage.Teoma www.teoma.comRéponses pertinentes, sélectionnant en premier lieu les sites universitairesMeta-robotsAri@ne www.espace2001.com/moteur/Propose l'utilisation simultanée, avec tri des doublons, d'une quinzaine de robots et de portails principalement francophones. Très rapide.Kartoo www.kartoo.comInterface cartographique avec affichage d'un réseau sémantique.Metacrawler www.metacrawler.comRapide, tri des doublons et présentation des résultats par ordre de pertinence (citation par plusieurs robots)Copernic (logiciel à télécharger) www.copernic.comRecherche sur plusieurs moteurs, agit comme un méta-moteurs

2. Les annuaires

Outils et Usage Une sélectionAnnuaires de sites ou portailsConstitués avec la collaboration d’indexeurs (humains) professionnels, ils offrent à la fois un formulaire de requête et des rubriques organisées en thèmes et sous-thèmes. Cette double entrée les rend faciles à utiliser et efficaces.Ils constituent un précieux moyen de repérage de sites ou d’organismes (association, institutions, entreprises, sociétés). Les références fournies sont souvent plus pertinentes et moins nombreuses que celles obtenues par les robots. Cependant, ils visent un large public et leur indexation est sommaire.Ils sont maintenant le plus souvent associés à des robots et le passage des rubriques de l’annuaires à l’exploration du web rend assez confuse la lecture des résultats de requête.

FrancophonesNomade www.nomade.frVoilà www.voilà.frYahoo France www.yahoo.frLycos en français www.lycos.fr

CybermondiauxYahoo www.yahoo.comEINet Galaxy //galaxy.einet.net

M1 - METHODOLOGIE page 2/17 M1A – La recherche documentaire

Page 3: economie-gestion.ac-creteil.freconomie-gestion.ac-creteil.fr/IMG/doc/M1A4AComplementprofes…  · Web viewLes chercheurs l'utilisaient pour l'échange de messages et de fichiers

DOSSIER PROFESSEUR – QUELQUES APPORTS THEORIQUES

3. Les index et les Meta-index

Outils et Usage Une sélectionIndex et Meta-index thématiquesSouvent pris en charge par des institutions à vocation éducative, ils sont organisés en listes hiérarchisées pointant sur des ressources sélectionnées et parfois commentées par un spécialiste.Recherche à partir de la liste des domaines et sous-domaines. Certains index sont également assortis d’un formulaire de requête. Ces index permettent d’accéder rapidement à des ressources dont la qualité est vérifiée.Ils donnent une vue d’ensemble des ressources dans une disipline universitaire et permettent de les explorer sans perte de temps.Cependant , il arrive que le contrôle scientifique soit défaillant et la mise à jour irrégulière…

MultidisciplinairesThe WWW Virtual Library //vlib.orgLe plus ancien répertoire sur le Web, pris en charge par domaines de manière répartie par des experts de diverses institutions responsables de la sélection et de la mise à jour. L’ensemble est ainsi constitué de plus de 300 « bibliothèques virtuelles », de qualité inégale.BUBL LINK //bubl.ac.uk/link/ddc.htmlCatalogue de ressources, classées par rubriques et sous-rubriques, indexées en Dewey. Plus de 11 000 références décrites et évaluées, les pages portent la date de vérification des liens.Lii.Org/Librarians’Index to the Internet //lii.org/Près de 10 000 ressources anglophones sélectionnées et évaluées par un collectif d’une centaine de bibliothécaires californiensSpécialisés en sciences humainesThe HUMBUL Gateway   : International ressources for the humanitieswww.humbul.ac.ukpour un domaine précisCISMEF, sites médicaux francophones www.chu-rouen.fr/cismef/Voir aussi : sites spécialisés par discipline

4. Les répertoires

Outils et Usage Une sélectionRépertoiresOrganisés en liste alphabétique ou sous forme de banque de données, comme les répertoires papier, interrogeables par l’intermédiaire d’un index alphabétique ou par formulaire de requête.Ils fournissent rapidement les coordonnées d’un ensemble d’organismes ou de ressources de même nature.Assurez vous cependant de la fiabilité du site, de son caractère non commercial et de la fréquence de sa mise à jour.

Répertoire des services Internet de l’Administration FrançaiseService public www.service-public.frRépertoire de bibliothèquesCatalogue Collectif de France www.ccfr.bnf.frRépertoire de catalogues de bibliothèquesSibel Sciences de l’Information et Bibliothèques en Ligne //sibel.enssib.frEn France et dans le monde, classement par lieu et par type de bibliothèque.Répertoire de musées français.Museofile //mistral.culture.frRépertoire de ressources inaccessibles aux robotsThe invisible web directory //invisible-web.net

M1 - METHODOLOGIE page 3/17 M1A – La recherche documentaire

Page 4: economie-gestion.ac-creteil.freconomie-gestion.ac-creteil.fr/IMG/doc/M1A4AComplementprofes…  · Web viewLes chercheurs l'utilisaient pour l'échange de messages et de fichiers

DOSSIER PROFESSEUR – QUELQUES APPORTS THEORIQUES

5. Les catalogues et les sites d’orientation

Outils et Usage Une sélectionCatalogue et banques de donnéesRépertoires spécialisés de documents ou d’objet, produits par les bibliothèques, les musées, éditeurs, libraires…Pour établir une bibliographie ou localiser des documents.

Catalogues de bibliothèquesBanques de données bibliographiques

Sites d’orientationCes sites, d’intérêt universitaire, généralistes ou spécialisés dans un domaine, assurent des repères et constituent des moyens de formation.Ils permettent de débuter une recherche documentaire.Ces points de départ guident la démarche et présentent les outils de recherche et les ressources utiles sur Internet dans un cursus universitaire.Il ne faut cependant pas hésiter à sortir des pistes proposées lorsqu’elles ne sont pas suffisantes

Cerise/Pistes sur Internetwww.ccr.jussieu.fr/urfist/ceriseGIRI – Guide des indispensables de la recherche sur Internetwww.bibl.ulaval.ca/vitrine/giri/giri2/sapristi – Sentiers d’Accès et Pistes de Recherche d’Informations Scientifiques et Techniques sur Internet//csidoc.insa-lyon.fr/sapristi/Tous les outils en une page//urfist.univ-lyon1.fr/risi/outils.htmoutils de recherche sur le web//outils.abondance.com

Quelques adresses de guides utiles :

- Recherche d’information sur l’Internet Urfist Lyon /urfist.univ-lyon1.fr/risi/- Bien débuter sur Internet : comment chercher l’information sur le Web ? Urfist Strasbourg www.scd-ulp.u-

strasbg.fr/urfist/recherche_information/- Netexpress www.wanadoo.fr/wanadoo_et_moi/comprendre/netexpress- Des séquences animées pour comprendre le fonctionnement et les multiples utilisations d’Internet

(conçu par France Télécom Multimedia)- ETIC sur le Web //etic.univ-lille1.fr/

6. Le web invisible

(d'après Jean-Pierre LARDY - http://urfist.univ-lyon1.fr)

Le web invisible est l'ensemble des documents (textes, vidéos, images…) du web qui n'est pas indexé par les outils de recherche traditionnels. Les documents constituant le web invisible peuvent être dynamiques (non localisables), non référencés (volontairement ou non), ou de nature non indexable (ex. : les animations Flash).

Divers obstacles s'opposent aux robots :

- Sites protégés par mots de passe

- Problèmes de cadres : une structure de cadres (frames) se compose d'une page mère et de pages filles. Le contenu informatif se trouve toujours dans les pages filles. La difficulté est que lorsqu'une page mère est soumise aux moteurs, ceux-ci ne sont souvent pas capables de retrouver les pages filles et de les indexer. Seule la page mère se trouve alors indexée. Mais comme il s'agit d'une page sans contenu, le référencement est inefficace.

- Formats de fichiers : HTML est le format natif du web reconnu par tous les robots mais beaucoup se sont ajoutés. Seul Google indexe d'autres formats (pdf et PostScript ; xls ; ppt ; doc ; rtf…)

- Pages interdites de référencement en utilisant un fichier Robots.txt : cette interdiction est posée par l'auteur des pages ou le gestionnaire du site

M1 - METHODOLOGIE page 4/17 M1A – La recherche documentaire

Page 5: economie-gestion.ac-creteil.freconomie-gestion.ac-creteil.fr/IMG/doc/M1A4AComplementprofes…  · Web viewLes chercheurs l'utilisaient pour l'échange de messages et de fichiers

DOSSIER PROFESSEUR – QUELQUES APPORTS THEORIQUES

- Pages HTML statiques/pages HTML dynamiques : les robots ont besoin de suivre des liens à l'intérieur du site afin de pouvoir indexer les pages correspondantes. Si les pages dynamiques ne peuvent être accédées que par le biais de l'interrogation d'un formulaire, celles-ci ne pourront pas être indexées par les moteurs.

- Pages tronquées : les robots n'indexent pas entièrement les pages, ainsi Google se limite à 101 Koctets. Cette information est rarement publique.

- Les robots stoppent : quand ils rencontrent une URL contenant un point d'interrogation.

- Absence de liens hypertextes :

- L'information de presse : de plus en plus de sites de presse (quotidiens, radio, télévision…) diffusent en temps réel de l'information. Les robots classiques sont incapables de suivre. (le délai moyen de rafraîchissement de l'index est de 4 semaines).

Il existe des solutions : parallèlement aux grands moteurs et annuaires, il existe de nombreux outils qui franchissent les limites du web invisible et identifient ou interrogent les sites web invisibles : guides et annuaires sélectifs, sites fédérateurs, annuaires thématiques et "vortails", agents de recherche et la veille.

- bases de données gratuites : BD gratuites http://urfist.univ-lyon1.fr/gratuits/index.html

- moteurs de presse Moreover www.moreover.comFindArticles www.findarticles.comGoogle News //news.google.comAllTheWeb News www.alltheweb.com

- répertoires manuels LII www.lii.orgBubl link www.bubl.ac.uk…

- répertoires automatiques Comple Planet www.completeplanet.comLycos //dir/lycos.com/reference/searchable_databases/InvisibleWeb.com www.invisibleweb.com

7. Qui fait quoi   ?

Il existe de nombreux portails mondiaux ou francophones. La plupart proposent un annuaire proposant des fiches descriptives de sites (de type Yahoo!) et un moteur de recherche en texte intégral sur les pages web (de type Altavista).

Mais qui réalise, qui fournit cet annuaire et ce moteur lorsqu'ils ne sont pas conçus en interne ?

Voici un tableau qui donne, pour chaque grand portail, le nom de la société qui fournit ces données.

Annuaire MoteurPortails mondiauxAltavista Looksmart InterneHotbot Open Directory InktomiLycos Open Directory et données

internesFast

Alltheweb Pas d'annuaire InterneGoogle Open Directoriy InterneYahoo! Interne GoogleLooksmart Interne InktomiOpen Directory Interne Pas de moteurAOL Interne et Open Directory GoogleMSN Looksmart Inktomi

M1 - METHODOLOGIE page 5/17 M1A – La recherche documentaire

Page 6: economie-gestion.ac-creteil.freconomie-gestion.ac-creteil.fr/IMG/doc/M1A4AComplementprofes…  · Web viewLes chercheurs l'utilisaient pour l'échange de messages et de fichiers

DOSSIER PROFESSEUR – QUELQUES APPORTS THEORIQUES

Annuaire MoteurPortails francophonesAltavista France Looksmart France InterneVoilà Le Guide de Voilà (interne) InterneLycos France Interne FastYahoo! France Interne GoogleNomade.fr Interne FastMSN France La Mine InktomiFrancité Interne DeepIndexWanadoo Le Guide Voilà (interne) VoilàAOL France Interne ExaleadClub Internet Interne fast

II - PETITE METHODOLOGIE DE RECHERCHE(d'après www.abondance.com)

Comment utiliser au mieux les outils de recherche actuels afin d'être plus efficace dans ses recherches d'informations ? Voici quelques pistes de réflexion sous la forme d'une première approche méthodologique.

1. Généralités

Lorsque vous avez une recherche à effectuer sur le Web, la première chose à faire est … de ne pas aller sur le Web ! Laissez le clavier de côté et réfléchissez au mieux à ce que vous recherchez.

Une fois que vous avez sous la main une liste la plus descriptive possible des termes qui définissent au mieux votre investigation, il est alors temps d'aller sur la Toile pour la mettre à l'épreuve.

Information ou Source d'information ?

Première question à se poser : Est-ce que ma recherche est assez vaste pour faire l'objet d'un site à lui tout seul ? En d'autres termes : est-ce que je recherche une source d'information globale ou directement une donnée précise, pointue ? Par exemple, dans "la vie réelle", si vous cherchez à acheter un radiateur d'un certain modèle, vous n'irez pas chercher dans les pages jaunes le nom précis de ce modèle que vous désirez, mais plutôt celui de son constructeur ou d'un commerçant le proposant. Il en sera de même sur Internet.

L'outil à utiliser (annuaire ou moteur) sera fonction du type d'information que vous recherchez. Vous désirez identifier un site, une source d'information (ici le nom du constructeur) ? Utilisez un annuaire tel que Yahoo! Ou Nomade, puisque leur vocation est de les recenser.

Vous désirez rechercher directement des informations sur un produit (par exemple ici un modèle de radiateur) sans passer par la case "constructeur" ? Alors utilisez un moteur, puisque ces outils de recherche vont effectuer leurs requêtes directement dans les pages des sites. Ils sont donc beaucoup plus précis dans leurs recherches, mais génèrent obligatoirement beaucoup plus de "bruit" (des pages ne répondant pas spécifiquement à la demande).

Exemple : recherche de partitions musicales

Vous recherchez la partition de la chanson "L'encre de tes yeux" de Francis Cabrel. Vous avez le choix entre deux solutions :

1. Taper le mot clé partitions sur un annuaire comme Yahoo! France ou Nomade pour trouver un site qui propose de façon globale des partitions. Identifiez dans un premier temps la bonne rubrique.Sur Yahoo! :http://fr.dir.yahoo.com/art_et_culture/Musique/Partitions/

M1 - METHODOLOGIE page 6/17 M1A – La recherche documentaire

Page 7: economie-gestion.ac-creteil.freconomie-gestion.ac-creteil.fr/IMG/doc/M1A4AComplementprofes…  · Web viewLes chercheurs l'utilisaient pour l'échange de messages et de fichiers

DOSSIER PROFESSEUR – QUELQUES APPORTS THEORIQUES

sur Nomadehttp://www.nomade.fr/cat/arts_culture/musique/tablatures_partitio/

Une fois dans cette catégorie, choisissez le site qui semble le plus adéquat par rapport à votre demande, allez-y et recherchez si la source d'information choisie propose spécifiquement des partitions de Francis Cabrel.

Dans ce cas, vous avez effectué une recherche en deux phases : premièrement utilisation d'un annuaire pour identifier la source, puis recherche de l'info plus précise à l'intérieur du site identifié.

Aller directement sur un moteur de recherche, comme Altavista France, et tapez la requête :"l'encre de tes yeux"ou "l'encre de tes yeux" +partitionVous arrivez alors directement sur une page qui proposera la partition demandée. Mais comme les moteurs n'indexent jamais TOUTES les pages de TOUS les sites, vous risquez de passer à côté d'un document intéressant que vous auriez identifié grâce à la première stratégie de recherche, en utilisant un annuaire. Mais ceux-ci ne référencent pas non plus TOUS les sites… D'où la difficulté de la recherche d'information sur le Web…

Aucune des deux stratégies n'est à exclure, car elles sont plutôt complémentaires. Elle peuvent être utilisées simultanément. Mais l'erreur fatale serait de taper des mots clés trop pointus ("l'encre de tes yeux") sur un annuaire ou trop larges ("partitions") sur un moteur de recherche. Dans ce cas il est certain que vous ne trouverez rien ou pas grand chose, même au bout de quelques heures de recherche…

2. Comment améliorer l'efficacité des recherches ?

2.1. Trouvez les bons mots clés

Vous vous en êtes certainement aperçu : l'une des plus dures "épreuves", lorsqu'on recherche une information sur le Web, consiste à trouver les bons mots clés, ceux qui vont caractériser au mieux une recherche. Pourtant, certaines stratégies importantes peuvent être mises en place pour être plus efficace dans ce domaine.

Que se passe-t-il en règle générale lorsqu'on recherche une information sur l'Internet ? On va sur un outil de recherche (annuaire, moteur) et on tape quelques mots (ceux qui nous viennent à l'esprit, la plupart du temps), séparés par un espace.

Le fait de séparer les termes par un espace, sur une majorité d'outils de recherche, consiste à proposer un OU entre ces mots. Donc à élargir la recherche.

Trois grandes familles

Essayez de bien définir les mots clés que vous allez utiliser. Globalement, les mots clés peuvent être classés en trois grandes familles :

- mots clés "primaires" ou "larges" : ils définissent, de façon globale, le champ d'investigation. Exemple : agro-alimentaire, finance, commerce, santé, cinéma, loisirs, voyages, tourisme, littérature, histoire, sciences, etc.…

- mots clés "secondaires" ou "profonds" : dans le domaine global décrit précédemment, ils définissent, pour leur part, la requête elle-même. Exemple : jus d'orange, marché, bourse, Chicago (recherche le cours du jus d'orange à la bourse de Chicago), Marignan, 1515, François 1er, Léon X (pour des renseignements sur la bataille de Marignan) Montréal, Québec, Canada, hôtels, hébergement (pour trouver où dormir à Montréal), etc.

- mots clés "interdits". Il s'agit de mots qui peuvent vous induire en erreur lors de vos recherches. Exemple: vous recherchez des informations sur le marché de la pomme dans le monde francophone. Mot clé primaire : agro-alimentaire, Mots clés secondaires : pomme, marché, étude, France (par exemple). Mot clé interdit : Adam. Car la pomme d'Adam ne fait pas l'objet de vos investigations.

M1 - METHODOLOGIE page 7/17 M1A – La recherche documentaire

Page 8: economie-gestion.ac-creteil.freconomie-gestion.ac-creteil.fr/IMG/doc/M1A4AComplementprofes…  · Web viewLes chercheurs l'utilisaient pour l'échange de messages et de fichiers

DOSSIER PROFESSEUR – QUELQUES APPORTS THEORIQUES

Une fois que vous avez noté au moins quatre mots clés (mais pourquoi pas dix ou quinze), vous pouvez lancer votre recherche.

Pour en savoir plus :Le générateur de mots clés d'Abondance :http://www.abondance.com/audit/motsclés.html

2.2. L'ordre des mots

Une question que l'on se pose souvent, lorsque l'on recherche de l'information sur le Web, est l'importance de l'ordre dans lequel sont donnés les mots dans une requête. En d'autres termes, si je saisis :

Paris Dakar

Aurai-je le même résultat que si je saisis :

Dakar Paris

La réponse est oui, mais pas tout le temps. En tout cas, pas sur tous les outils de recherche. Sur la plupart des outils, cela ne pose pas de problème, vous pouvez saisir les mots dans n'importe quel ordre, les réponses fournies sont exactement identiques. Mais il existe quelque outils sur lesquels l'ordre a une certaine importance : le poids le plus fort sera donné au premier mot, puis au deuxième et ainsi de suite par ordre décroissant d'importance. Une recherche dans un ordre donné (voyage paris dakar par exemple) donnera donc le même nombre de résultats que dans un autre ordre (dakar paris voyage), mais différemment triés, puisque, dans chaque cas, c'est le premier mot clé fourni qui sera estimé comme étant le plus important : voyage dans le premier exemple, dakar dans le second.

Parmi les moteurs et annuaires majeurs, ceux qui ne tiennent pas compte de l'ordre des mots (vous pouvez saisir vos requêtes dans n'importe quel ordre) sont les suivant : HotBot, Excite, Lycos, Webcrawler, Alltheweb, Voilà, Lokace, Yahoo!, Snap, Looksmart, Open Directory et Nomade.

En revanche, ceux sur lesquels l'ordre est important (indiquez toujours, dans ce cas, en premier le mot clé le plus important à vos yeux) sont : Altavista, Infoseek (Go Network), Northern Light, Google et Ecila.

Ces données sont valables à la fois pour les versions internationale et française des outils (Yahoo.com et Yahoo! France, Lycos et Lycos France, etc.).

En revanche, si vous utilisez les guillemets dans votre requête pour demander une expression seul l'ordre indiqué entre les guillemets sera pris en compte.

2.3. Les guillemets : expressions et mots isolés

Lors d'une recherche sur le Web, il arrive souvent que l'on ait à faire une investigation sur une expression comprenant plusieurs mots séparés par un espace. Exemple : New York, Euro 2000, Festival d'Avignon…

Pour être plus efficace, n'oubliez pas de saisir ces expressions sur votre annuaire ou votre moteur favori, à l'aide des guillemets, ainsi :

"New York"

"Euro 2000"

Cela signifiera : "recherche les pages ou les sites qui contiennent les mots demandés, tels que présentés, l'un à côté de l'autre et dans cet ordre".

M1 - METHODOLOGIE page 8/17 M1A – La recherche documentaire

Page 9: economie-gestion.ac-creteil.freconomie-gestion.ac-creteil.fr/IMG/doc/M1A4AComplementprofes…  · Web viewLes chercheurs l'utilisaient pour l'échange de messages et de fichiers

DOSSIER PROFESSEUR – QUELQUES APPORTS THEORIQUES

Ainsi, pour revenir à des articles précédents dans cette rubrique :

- la saisie de New York (les deux mots séparés par un espace) recherchera soit le mot New seulement, soit le mot York seulement, soit les deux termes dans la base de données appropriée (annuaire ou moteur)

- la saisie de +New +York induira la recherche simultanée des deux mots, mais l'un pouvant se trouver au début du document et l'autre à la fin. Donc, la présence des deux mots est nécessaire (opérateur ET), mais pas obligatoirement l'un à côté de l'autre.

- la saisie de "New York" provoquera une recherche avec les deux mots demandés, mais cette fois obligatoirement l'un à côté de l'autre. Il s'agit donc là de la syntaxe la plus restrictive des trois.

Attention cependant : si les guillemets sont fortement recommandés pour rechercher de façon plus fine une expression, la demande effectuée auprès du moteur devient alors très stricte et sans dérivés possibles. Par exemple, la saisie de "festival d'Avignon" ne trouvera pas l'expression "festival à Avignon". Et "coupe du monde" ne trouvera pas "coupes du monde", avec un pluriel sur le premier mot.

2.4. Les opérateurs logiques

le OU (espace ou OR) et le ET (+ ou AND)

Lorsque vous effectuez une recherche sur un annuaire (Yahoo!) ou un moteur (Altavista) et que vous désirez proposer plusieurs mots, peut-être les tapez-vous souvent avec un espace entre eux. Exemple :

football marseille

Attention, car, sur l'immense majorité des outils de recherche, l'espace équivaut à un OU. La requête précédente signifie donc : "je demande les pages qui contiennent football OU les pages qui contiennent Marseille ou celles qui contiennent les deux" ! Au lieu d'affiner votre recherche, vous l'avez élargie de façon involontaire.

Si vous désirez lier les mots demandés par un ET, il faut utiliser le signe + comme dans l'exemple :

+football +marseille

Vous demandez alors uniquement les pages qui contiennent les deux mots et plus celles qui n'en comptent qu'un. Cette syntaxe fonctionne sur la plupart des outils de recherche "sérieux" actuels.

Trois points importants pour finir :

- la syntaxe est importante : le signe + doit être "collé" au mot qui le suit, sans espace entre les deux.- Un espace doit en revanche, être présent à la gauche du deuxième signe + pour séparer les deux mots :

+football de +marseille.- Chaque mot exigé doit être accompagné d'un signe +. Dans la requête football +marseille, le mot

marseille reste obligatoire, mais football devient accessoire, puisqu'aucun signe + ne lui est alloué !

Le SAUF (- ou NOT)

L'opérateur ET (explicité sous la forme du signe +) permet de rendre obligatoire la présence d'un mot dans la page ou le site web recherché.

Inversement, il est possible d'indiquer à l'outil de recherche utilisé un ou plusieurs mot(s) que vous ne désirez pas voir apparaître dans vos recherches. Exemple : vous êtes médecin et vous recherchez des articles sur le cancer. Cependant, l'horoscope des gens nés sous le signe du cancer ne vous intéresse pas. Votre requête sera alors :

cancer -horoscope

Qui signifie "recherche les pages ou le sites contenant le mot cancer et ne contenant pas le mot horoscope".

M1 - METHODOLOGIE page 9/17 M1A – La recherche documentaire

Page 10: economie-gestion.ac-creteil.freconomie-gestion.ac-creteil.fr/IMG/doc/M1A4AComplementprofes…  · Web viewLes chercheurs l'utilisaient pour l'échange de messages et de fichiers

DOSSIER PROFESSEUR – QUELQUES APPORTS THEORIQUES

Le signe - est compris par la majeure partie des outils de recherche actuels. Il doit être collé au mot qui le suit, aucun espace ne le séparant de celui-ci. Les syntaxes peuvent bien entendu être mixées, avec les guillemets et l'opérateur ET

+cancer +santé -horoscope

+"rhume des foins" +santé -horoscope

Petit exercice pratique : quelle est la différence entre ces deux requêtes :

cancer -horoscope

+cancer -horoscope

Réponse : aucune différence, dans les deux cas, le mot demandé expressément est cancer et le mot clé "interdit est horoscope. Le signe + (ET) est donc accessoire dans ce cas.

Deuxième exercice : quelle est la différence entre ces deux requêtes :

cancer sein -horoscope

+cancer +sein -horoscope

Réponse : il y a cette fois une différence notable : les mots cancer et sein sont liés dans le premier cas par un OU (on recherchera alors cancer OU sein OU les deux), dans le deuxième cas par un ET (seule la présence simultanée des deux termes sera détectée).

Faites donc attention à la syntaxe de vos questions, car plus vous utiliserez d'opérateurs comme ET ou SAUF et moins l'erreur sera permise.

2.5. La troncature

Ce terme signifie "tout ce qui commence par…". Par exemple, sur Yahoo! La saisie du terme capi trouvera les mots capital, capitale, capitaine, etc. Bref, "tout ce qui commence par capi". On dira alors que vous avez fait une troncature à droite. Yahoo! Effectue ainsi cette opération de façon automatique, si vous ne demandez rien. Chaque mot saisi sur Yahoo! signifie donc en fait "cherche tous les termes qui commencent par ce mot".

Il n'en est rien, en revanche, sur Altavista. Sur ce moteur, si vous saisissez le mot capi, Altavista cherchera uniquement les occurrences de ce mot et elles seules. Si vous désirez effectuer une troncature à droite, il faudra saisir obligatoirement l'expression capi*.

La plupart des outils de recherche réagissent ainsi : soit ils effectuent la troncature automatiquement, soit il faut la leur indiquer à l'aide de l'astérisque.

En revanche, il n'existe quasiment aucun qui accepte, de façon automatique ou à l'aide d'un opérateur, la troncature à gauche ("tout ce qui finit par…").

Il faudra donc se contenter le plus souvent de la troncature à droite. Renseignez-vous bien sur la façon dont votre outil de recherche favori la prend en compte, car vous pourriez passer à côté de pas mal d'informations importantes. Exemple : sur Altavista, si vous recherchez des informations sur votre animal et que vous tapez chien, vous passez à côté des orthographes suivantes : chiens, chienne, chiennes etc. Alors qu'avec la saisie de chien*, vous les auriez toutes prises en compte…

Enfin, pour savoir comment l'outil de recherche que vous utilisez réagit à la troncature, vérifiez à la rubrique "syntaxe" correspondant à l'outil en question :

- pour les moteurs, à l'adresse : www.abondance.com/outils/moteurs.html

M1 - METHODOLOGIE page 10/17 M1A – La recherche documentaire

Page 11: economie-gestion.ac-creteil.freconomie-gestion.ac-creteil.fr/IMG/doc/M1A4AComplementprofes…  · Web viewLes chercheurs l'utilisaient pour l'échange de messages et de fichiers

DOSSIER PROFESSEUR – QUELQUES APPORTS THEORIQUES

- pour les annuaires à l'adresse : www.abondance.com/outils/annuaires.html

2.6. Règles d'écriture

Minuscules ou Majuscules ?

Vous utilisez bien souvent des outils de recherche comme Altavista ou Yahoo!, mais savez-vous que le fait de taper les mots demandés en minuscules ou en majuscules peut avoir une importance capitale ?

La casse des lettres a effectivement son importance sur de nombreux outils alors que d'autres l'ignorent totalement.

Yahoo!, par exemple, ne fait aucune différence entre un mot saisi en minuscules ou en majuscules. IBM est équivalent à ibm ou Ibm.

Mais Altavista, en revanche, est très pointilleux sur ce point : si vous saisissez ibm, il trouvera les occurrences des mots ibm, IBM ou Ibm. Comme Yahoo! dans ce cas. Mais si vous saisissez le mot demandé avec au moins une lettre majuscule, il ne recherchera plus que le mot dans l'orthographe et la casse demandée. En clair : la saisie de IBM trouvera IBM mais plus ibm ou Ibm. De même, si vous demandez le mot clé Ibm, seule cette version du terme demandé sera trouvée. On dit qu'Altavista est sensible à la casse des lettres lorsqu'au moins une lettre en majuscule est présente dans le mot demandé".

Donc, sachez que si vous saisissez le mot clé Peugeot sur Altavista, le moteur ne trouvera pas les pages contenant peugeot ou PEUGEOT !

Comment faire, alors ? Eh bien, tout simplement, saisissez tous vos mots clés en minuscules, vous aurez ainsi toutes les occurrences désirées et vous n'en manquerez pas une. Bannissez tout simplement les lettres capitales de vos requêtes et vous n'aurez plus de problèmes.

Les accents

Les outils de recherche réagissent de trois façons différentes dans ce cas :

- soit (c'est notamment le cas de Yahoo! et Voilà) ils ne tiennent pas compte de l'accentuation : la saisie du mot "bébé" est équivalente à celle de "bebe" ou "bebé" ;

- soit (c'est le cas d'Altavista) ils trouvent toutes les occurrences si le mot demandé est non accentué. Exemple "bebe" trouve "bebe", "bébé" ou "bebé". Mais dès qu'une lettre accentuée est présente dans le terme de la requête, c'est ce terme là, et pas un autre, qui sera trouvé : "bébé" trouve alors "bébé" mais plus "bebe" ou "bebé".

- Soit (c'est le cas de Lycos), c'est toujours la graphie exacte qui est recherchée : "bebe" trouve "bebe" et rien d'autre, "bébé" trouve "bébé" et rien d'autre.

La situation est donc assez complexe et totalement dépendante des outils utilisés. Aussi, le conseil que je peux vous donner est le suivant : si vous êtes sûr de l'orthographe exacte du mot recherché, tapez-le en lettres accentuées. Au pire, vous éliminerez les pages le contenant avec une faute d'orthographe.

En revanche, si vous n'êtes pas sûr de la façon dont il faut l'écrire, essayez de l'écrire en non accentué.

M1 - METHODOLOGIE page 11/17 M1A – La recherche documentaire

Page 12: economie-gestion.ac-creteil.freconomie-gestion.ac-creteil.fr/IMG/doc/M1A4AComplementprofes…  · Web viewLes chercheurs l'utilisaient pour l'échange de messages et de fichiers

DOSSIER PROFESSEUR – QUELQUES APPORTS THEORIQUES

3. Comment sont classés les résultats ?

Mieux utiliser les outils de recherche, c’est également mieux comprendre comment ils fonctionnent. Et, notamment, comment ils classent les informations fournies lorsque vous recherchez une information en leur sein.

3.1. Les annuaires

Il existe deux façons d'utiliser un annuaire comme Yahoo! ou Nomade.fr : soit en explorant l'arborescence, soit en saisissant des mots clés. En règle générale, selon les outils, les deux types de recherche sont souvent assez équitablement réparties entre les internautes adeptes de l'une ou l'autre des façons, avec une tendance actuelle plus forte cependant pour la recherche par mots clés.

Navigation : ordre alphabétique

Première possibilité : naviguer dans l'arborescence de l'outil, pour arriver à une liste détaillée de sites. Par exemple, sur Yahoo!, on peut cliquer successivement, depuis la page d'accueil, sur les liens "Commerce & Economie", "Sociétés", "Mariage", "Produits et services pour les particuliers", "Listes de mariage", puis enfin "Boutiques et magasins" pour obtenir la liste des sites qui correspondent à votre demande.

Dans ce cas, à l'intérieur d'une catégorie, c'est l'ordre alphabétique du titre des sites qui est pris en compte pour afficher la liste des résultats. La plupart des annuaires peuvent cependant proposer certains sites en tête de liste, sans prendre en compte l'ordre alphabétique. Nouvelle tendance : faire payer aux sites référencés un positionnement en tête de liste pour une rubrique donnée.

Dans ce cas, il ne s'agit en rien d'un classement basé sur la pertinence. Si le "meilleur" site a un nom qui commence par Z, il sera présenté en dernier.

Mots clés : fiche descriptive

Deuxième possibilité pour consulter un annuaire : en tapant des mots clés dans le formulaire proposé par l'outil de recherche sur toutes ses pages. Dans ce cas, une page de résultats est fournie, proposant les sites jugés les plus pertinents. Rappelons que chaque site est décrit, sur un annuaire, sous la forme d'une fiche descriptive reprenant :

- le nom du site ;- son adresse ;- un résumé (écrit par les documentalistes de l'outil) décrivant en quelques mots le contenu du site ;- le plus souvent des mots clés complémentaires, éventuellement inscrits sur la "fiche" du site, lors de son

inscription, si le documentaliste a trouvé pertinent d'effectuer cet ajout. Ces mots clés n'apparaissent jamais à l'écran, ils restent "transparents" pour l'internaute.

- l'intitulé de la catégorie dans laquelle le site est inscrit.

Le classement des résultats proposés, lors de la saisie d'un ou plusieurs mots clés, va donc porter sur ces champs qui auront chacun une importance spécifique et relative. Par exemple : le titre est plus important que le résumé, qui lui-même est plus important que l'adresse, etc. Si vous demandez un terme, l'outil de recherche va identifier, dans toutes ses fiches descriptives, celles qui contiennent ce terme dans un des champs indiqués ci-dessus, leur attribuer une note selon l'emplacement où se trouve le mot et effectuer un calcul de pertinence global sur toutes les fiches trouvées. Celle qui obtient la meilleure note est alors classée première.

Point important donc : l'annuaire n'accorde aucune importance à la façon dont est créé techniquement un site et ses pages. Seules lui importent ses fiches descriptives, réalisées par son équipe de netsurfeurs qui parcourent le web sur la base de propositions qui leur sont soumises ou de leur propre veille. Si la source d'information leur semble digne d'entrer dans leur base de données (c'est-à-dire qi elle est susceptible de répondre aux interrogations des internautes se servant de l'outil de recherche), ils la prennent en compte. Sinon, ils la refusent.

M1 - METHODOLOGIE page 12/17 M1A – La recherche documentaire

Page 13: economie-gestion.ac-creteil.freconomie-gestion.ac-creteil.fr/IMG/doc/M1A4AComplementprofes…  · Web viewLes chercheurs l'utilisaient pour l'échange de messages et de fichiers

DOSSIER PROFESSEUR – QUELQUES APPORTS THEORIQUES

Les "oscars"

Mais ces netsurfers ont souvent des "coups de cœur", notamment si le site web visité propose un contenu réellement intéressant, complet et fiable, bref, s'il peut être considéré comme un incontournable du domaine. Dans ce cas, le "cyber-documentaliste" a, le plus souvent, la possibilité de lui décerner une "décoration".

- Ainsi Yahoo! France décerne "une paire de lunettes" : cette distinction s'attribue uniquement aux sites non commerciaux. Cette distinction permet au site d'être placé en tête de liste dans la rubrique sans tenir compte du classement par ordre alphabétique.

- Nomade.fr : attribue une "palme", le plus souvent accompagnée d'un court article complémentaire qui présente de façon plus approfondie le site.

- Lycos.fr : décerne un "chien d'or". Là aussi le site est placé en tête de chapitre. Notons que, sur une recherche par mots clés, Lycos France propose également un chien d'or à certaines catégories de l'annuaire qui semblent correspondre aux mots clés demandés.

- Open Directory : attribue une "étoile", assez rare cependant dans les pages de l'annuaire

- MSN : décerne un "papillon"

Ces indications signifient que les netsurfeurs des annuaires ont déjà effectué un premier travail de tri. Ils vous recommandent ainsi, en décernant cette récompense, ce site comme étant l'un des meilleurs de sa catégories. Il faut noter que le pictogramme n'apparaît, le plus souvent, qu'à l'intérieur d'une rubrique, lorsque l'on descend l'arborescence de l'annuaire de plus en plus finement. Il apparaît rarement sur la page de résultats lors d'une saisie par mots clés.

Adresses :

Les principaux annuaires francophones Looksmart France : www.looksmart.fr

Nomade : www.nomade.fr

Yahoo! France : www.yahoo.fr

lycos France : www.lycos.fr

Guide de Voilà : //guide.voila.fr

MSN : //search.msn.fr

les principaux annuaires anglophones

Open Directory : (www.dmoz.org

Yahoo! : www.yahoo.com

Looksmart : www.looksmart.com

3.2. Les moteurs

En ce qui concerne les moteurs de recherche, qui effectuent leurs investigations dans plusieurs milliards (8 pour Google) de pages Web, la situation est plus complexe. En effet, de nombreux paramètres sont pris en compte pour effectuer le calcul de pertinence. Citons :

- la présence du mot demandé dans le titre du document ;- sa présence sans le texte de la page, mais cela ne suffit pas : une page contenant le mot demandé en

haut du document sera mieux "notée" qu'une autre le présentant en bas de page. De nombreux critères sur la façon dont le texte est affiché sont ainsi pris en compte, comme la proximité, la mise en exergue (gras, taille de caractères, etc.) ;

- la présence du mot demandé dans certains champs qui n'apparaissent pas sur la page mais qui sont fournis aux outils de recherche. On appelle ces champs les "balises Meta" ;

- sa présence dans l'adresse de la page- l'indice de popularité du document (le nombre de liens "pointant" vers cette page sur le Web).

M1 - METHODOLOGIE page 13/17 M1A – La recherche documentaire

Page 14: economie-gestion.ac-creteil.freconomie-gestion.ac-creteil.fr/IMG/doc/M1A4AComplementprofes…  · Web viewLes chercheurs l'utilisaient pour l'échange de messages et de fichiers

DOSSIER PROFESSEUR – QUELQUES APPORTS THEORIQUES

Les critères de pertinence sont très nombreux pour les moteurs de recherche. Historiquement, ils se sont basés, pour classer leurs documents, sur des critères dits "in the page", c'est-à-dire contenus dans le document à classer : titre, texte visible, balises Meta, etc.

Nouveaux critères : "off the page"

Mais ces critères n'ont rapidement pas suffi, car trop de "petits malins" ont essayé de les détourner à leur avantage pour voir leur site bien classé sur ces outils. Aussi, les moteurs de recherche ont imaginé de nouveaux critères, dits "off the page". Ceux-ci sont alors pris en compte, non plus dans le contenu de la page, mais dans son environnement. L'indice de popularité a été le premier d'entre eux. Autre exemple de critère "off the page" : l'indice de clic, symbolisé par le système DirectHit (http://www.directhit.com).

Pour bien comprendre comment il fonctionne, analysons le comportement "classique" d'un internaute devant un moteur de recherche. Il va sur la page d'accueil, saisit un ou plusieurs mots dans un formulaire, consulte la page de résultats proposée (sur laquelle plusieurs liens sont indiqués, classés par ordre de pertinence), il choisit l'un d'entre eux, va sur le site correspondant, le consulte. Si cette page ne lui convient pas, il revient sur la page de résultats du moteur (par le bouton "précédent" du navigateur), choisit un autre lien parmi ceux proposés, jusqu'à ce qu'il ait trouvé son bonheur.

DirectHit va, en fait, fonctionner en tâche de fond sur un moteur existant. A chaque consultation d'un internaute, il va noter sur quel lien il a cliqué et quel était le rang (le classement) de ce lien. Il calcule ensuite combien de temps l'utilisateur met avant de revenir sur la page de résultats. S'il ne revient pas, il en "déduit" que le site proposé était à priori pertinent. Son adresse sera alors mieux classée dans les résultats suivants, lors d'une interrogation sur le même mot clé. Et ainsi de suite, les interrogations et la façon d'interroger et de naviguer des internautes vont alors enrichir la base de données de DirectHit.

On peut le voir, le système de classement des moteurs de recherche est basé sur des calculs de pertinence associés à de très nombreux critères. Et tout cela en quelques dixièmes de secondes.

Adresses :

Les principaux moteurs de recherche francophones :

Voilà : www.voila.fr

Altavista France : www.altavista.fr

Hotbot France : www.hotbot.fr

Lycos France : www.lycos.fr

Google : www.google.fr

Les principaux moteurs de recherche anglophones :

Fast/Alltheweb : www.alltheweb.com

Lycos (Fast) : ww-english.lycos.com

Google : www.google.com

Altavista : www.altavista.com

HotBot (Inktomi) : www.hotbot.lycos.com

NorthernLight : www.northernlight.com

Excite : www.excite.com

M1 - METHODOLOGIE page 14/17 M1A – La recherche documentaire

Page 15: economie-gestion.ac-creteil.freconomie-gestion.ac-creteil.fr/IMG/doc/M1A4AComplementprofes…  · Web viewLes chercheurs l'utilisaient pour l'échange de messages et de fichiers

4. Chercher dans les FAQs

Vous êtes certainement souvent à la recherche d'un document qui tente de faire le point sur un domaine donné, quel qu'il soit. Vous vous posez peut-être beaucoup de questions sur un thème précis, sans obligatoirement réussir à identifier un document qui en synthétiserait les réponses adéquates. Mais savez-vous qu'ils existent sur le web. Cela s'appelle des FAQ, pour Frequently Asked Questions en anglais. Cet acronyme a été francisé en Foire Aux Questions ou Forum Aux Questions.

Ces FAQs ont été écrites, la plupart du temps, par des experts d'un domaine qui, à un moment donné, ont été un peu lassé de répondre, plusieurs fois par jour parfois, toujours la même chose aux questions, très souvent identiques, que les internautes leur posaient. Ces experts ont donc décidé, un jour, d'écrire une FAQ qui va lister toutes les interrogations qui sont les plus couramment posées sur un domaine en tentant d'y répondre de la façon la plus efficace possible. Ces documents sont donc extrêmement utiles pour commencer une quête d'informations sur un sujet donné. Quel que soit votre domaine d'intérêt, vous pouvez être à peu près sûr qu'il existe une FAQ qui le décrit, quelque part sur le réseau…

Rajoutez le mot clé "FAQ" à vos requêtes

S'il existe des tentatives de sites regroupant ces document (voir adresses à la fin) dans le monde anglophone, on attend toujours un annuaire des FAQs francophones. Pour effectuer vos recherches, vous devez donc "passer" par des outils de recherche "classiques".

Il y est possible d'identifier une FAQ en ajoutant le mot clé "FAQ" à la requête et en demandant obligatoirement la présence de tous les mots demandés par l'intermédiaire de l'opérateur ET (signe +). Un exemple : vous êtes passionné par la musique au format MP3 et vous voudriez en savoir plus ! Tapez :

+mp3 +FAQ

L'outil de recherche (Yahoo!, Voilà, Altavista, Google…) vous proposera alors toutes les pages qui contiennent les deux mots. Autre exemple : vous désirez en savoir plus sur les métamoteurs de recherche ! Saisissez :

+metamoteurs +FAQ

Encore mieux. En utilisant la fonction NEAR d'Altavista France (disponible uniquement dans la recherche avancée de ce moteur), vous aurez comme résultat les pages qui contiennent les mots demandés proches l'un de l'autre (dans une fenêtre" de 10 mots au plus les séparant).

mp3 NEAR FAQ

metamoteurs NEAR FAQ

Vous en saurez ainsi plus en quelques minutes grâce aux FAQs du réseau. Comme nous l'avons dit, il existe des milliers de ces documents disponibles gratuitement sur la Toile. N'hésitez pas à les consulter. Ils représentent beaucoup de temps gagné et de nombreuses connaissances acquises en quelques minutes.

Pour en savoir plus :

Quelques sites sur les FAQs (en anglais)//dir.yahoo.com/reference/faqswww.faqs.org/faqs

Page 16: economie-gestion.ac-creteil.freconomie-gestion.ac-creteil.fr/IMG/doc/M1A4AComplementprofes…  · Web viewLes chercheurs l'utilisaient pour l'échange de messages et de fichiers

5. Les groupes de discussion (ou Newsgroup ou Forum)

Groupes de discussion

Les groupes de discussion sont aussi appelés conférences, infogroupes, newsgroups ou news. L'ensemble des groupes forme le réseau Usenet. Les groupes de discussion forment un lieu d'échange d'idées et de renseignements et d'astuces sur un nombre très important de sujets. Les groupes de discussion sont classés par sujet et il suffit de s'abonner (gratuitement) à un groupe pour recevoir systématiquement les nouvelles contributions* au débat, sous forme d'articles*. Le terme abonnement est pris ici dans un sens particulier : votre ordinateur ne garde que l'adresse des groupes de discussion que vous avez sélectionnés et chaque nouvelle connexion au groupe il ne télécharge que les messages que vous n'avez pas lu.

*(Journal officiel du 16 mars 1999 "Vocabulaire de l'informatique et de l'Internet")

Usenet

- Techniquement :

de façon synthétique et simplificatrice, la définition la plus couramment acceptée de Usenet est celle d'un ensemble de machines reliées à différents réseaux qui véhiculent des articles postés dans des groupes de discussion. Les articles véhiculés doivent respecter un format de diffusion standard (RFC-1036) acceptable par tous les réseaux. En effet, chaque réseau a ses particularités et ne transporte pas tous les groupes de discussion. En ce sens il ne faut pas confondre Usenet et Internet, ce dernier n'étant qu'un des réseaux participant au système.

- Humainement :

Par extension, Usenet est aussi la communauté des personnes qui lisent et écrivent des articles dans les groupes de discussion auxquels ils ont accès.

III.Comment contrôler sa stratégie de recherche documentaire…lorsqu'on utilise un robot de recherche ? A  partir de quels éléments d'analyse, de quels critères distinguer les robots entre eux  d'un point de vue documentaire ? Quel outil, en fonction de l'objet d'étude, permettra le mieux possible de limiter le bruit et le silence ? Les critères d'analyse mentionnés ci-dessous permettent les comparaisons.

Corpus Les robots se distinguent entre eux par 

le nombre de pages explorées le format des ressources indexées

(html, ,word, ppt, images, sons, video...) les modalités de la collecte de données  (en

fonction des langues, domaines, profondeur des liens, indices de fréquentation...)

les possibilités de sélection automatique de ce corpus (langue, aire géographique, format, types de documents, actualités...)

- le délai de mise à jour et vérification des liens

L'information sur ces points , dont on peut glaner des éléments dans la presse spécialisée, constitue le plus souvent une "inconnue" de la stratégie de recherche. Altavista :1,1 milliard de pages,vérifiées toutes les 4 semaines Exalead : 50 millions de pages en français, vérifiées toutes les 4 semaines. Google : 4,3 milliards de pages, vérifiées toutes les 4 semaines. Google Scholar sélection documentaire (bases de pré-print, "archives ouvertes", bases de données bibliographiques, sites de laboratoires et sociétés savantes...) Teoma : 500 millions de pages, vérifiées toutes les 4 semaines. Alltheweb : 3,2 milliards de pages, vérifiées toutes les 2 ou 3 semaines.

Page 17: economie-gestion.ac-creteil.freconomie-gestion.ac-creteil.fr/IMG/doc/M1A4AComplementprofes…  · Web viewLes chercheurs l'utilisaient pour l'échange de messages et de fichiers

Algorithme de présentation des données  L'ordre de présentation des ressources, souvent très nombreuses, intervient fortement dans la consultation et la sélection des documents. Les robots de première génération (Altavista en 95) s'appuyaient principalement sur  la fréquence d'apparition des termes dans la page, sur leur présence dans le titre et sur la place de cette page dans l'arborescence du site.  Ces critères ayant été détournés à des fins commerciales, les robots de deuxième génération (Google en 98) se sont appuyés principalement sur des critères de popularité : fréquence de consultation de la page, nombre de sites pointant sur la page. Malheureusement, des agences se sont spécialisées dans le "spamdexing", par la création de sites artificiels de référencement ("fermes de liens"), pour gagner des places à leurs clients...

L'algorithme de présentation des données fait partie des secrets de fabrication du logiciel et n'est pas mis à disposition du public. Nous n'en connaissons que des bribes, diffusées par des aides en ligne ou dans la presse spécialisée.  

Algorithme Google : critères de popularité, combinés avec des critères d'analyse de la page, 

Algorithme Teoma : critères de popularité en fonction du sujet.

 

Outils linguistiques - traduction - indexation automatique permettant

l'extension ou la limitation du corpus de ressources sélectionnées par la question initiale

 

Altavista : propose, à la suite d'une requête, une série de termes "Recherches associées" permettant d'affiner la recherche. Il offre également un outil de traduction "Babel Fish"(Systran) - Exalead :.repose sur un système d'analyse

statistique linguistique. - Google : offre des possibilités de sélection par

langue et un traducteur automatique. - Teoma : propose, à la suite d'une requête, une

série de termes utilisables pour limiter la recherche 'Refine", ainsi qu'une série de sites offrant des liens sur le thème recherché "Resources, link collections from experts and enthusiasts"

- Alltheweb : propose une série de termes "Refine your search"

Publicité Les robots ont souvent pour origine des travaux de recherche universitaires ou militaires et ils trouvent ensuite dans la publicité une source importante de financement. Il faut être attentif - à la place et aux modalités de signalement

des liens publicitaires. - - au poids du financement publicitaire dans

l'ordre de présentation des ressources, certains outils pratiquant la vente de position sans le signaler de façon claire..

Altavista : fait apparaître en premier lieu des sites qui ont payé leur place, avec cette mention "résultats sponsorisés"

- Exalead : le robot en ligne constitue un produit d'appel publicitaire de la société Exalead.

- Google : fait apparaître les sites qui ont payé leur place dans une colonne particulière, à droite de la page avec cette mention "liens commerciaux".

- Teoma : les sites payants apparaissent en premier lieu, avec cette mention "Sponsored Links".

- Alltheweb : les sites payants apparaissent en premier lieu, avec cette mention "Sponsor Results"

Sites thématiques associés A l'origine du web, annuaires de sites et robots de recherche correspondaient à des outils clairement différenciés. Actuellement, les rachats, fusions et associations tendent de plus en plus à les confondre.

Altavista, qui propose aussi un accès thématique "Répertoire", appartient maintenant à Yahoo, propriétaire également de Alltheweb. Yahoo avait précédemment fait alliance avec Google.