boostez vos recherches sur internet
Post on 28-Nov-2014
7.728 Views
Preview:
DESCRIPTION
TRANSCRIPT
Boostez vos recherches sur Internet
Béatrice Foenix-RiouBFR Consultantswww.bfr-consultants.com
ADBS Lyon Rhône-Alpes &ADBS Secteur Veille15 avril 2011
© BFR Consultants - 20111
Boostez ses recherches sur Internet
En France, en mars 2011,91,6 % des internautes utilisant un outil de recherche
ont interrogé … Google !Google, pourtant :
-> ne couvre que partiellement le Web visible,-> et ignore totalement le Web invisible…
© BFR Consultants - 20112
Boostez ses recherches sur Internet
WEB VISIBLETout ce qui peut être indexé par un moteur
FONCTIONNEMENT DES MOTEURS
Les moteurs (Google…) sont composés de trois éléments : • un robot : logiciel qui parcourt le Web de liens en liens et qui « copie »
toutes les pages qu’il rencontre
• un index : qui contient le texte des pages rencontrées par le robot
• une interface Web
© BFR Consultants - 20113
Boostez ses recherches sur Internet
WEB VISIBLETout ce qui peut être indexé par un moteur
-> Croissance exponentielle
☛ Entre septembre 1998 et septembre 2005, l’index de Google a étémultiplié par 1000 ! (de 24 millions à 24 milliards de pages !). Dernièrecommunication sur la taille de son index en sept. 2005.
☛ Juillet 2008 : Cuil.com : 120 milliards de pages☛ Juillet 2008 : Google annonce que son système a identifié (mais pas indexé)
… mille milliards d’URLs !
☛ Pour autant, la recherche ne se fait que sur une partie de l’index dumoteur, et le nombre de résultats annoncé est toujours très largementsurestimé ! (il suffit de tenter d’afficher « tous » les résultats – dans la limitedes 1000 autorisés – pour prendre Google en défaut…)
© BFR Consultants - 20114
Boostez ses recherches sur Internet
© BFR Consultants - 20115
Boostez ses recherches sur Internet
WEB INVISIBLELa partie immergée de l’iceberg
Appartiennent au Web invisible : • Banques de données = pages dynamiques • Sites avec identification • Serveurs classiques • Formats spécifiques • [no robot]
☛ Gisement mal couvert par les moteurs ☛ Mais frontières de plus en plus « perméables »
© BFR Consultants - 20116
Boostez ses recherches sur Internet
CONSEQUENCES
Ce mode de fonctionnement des moteurs a plusieursconséquences :
-> aucun moteur n’a la même couverture (ni le même classement) ; -> la recherche se fait sur l’index des moteurs -> sur la copie des
pages telles qu’elles étaient lorsqu’il les a copiées -> pour être indexé par un moteur, un site doit être référencé, ou
posséder de nombreux « backlinks » -> pour optimiser sa recherche sur le Web visible et invisible, il faudra
choisir avec soin la famille d’outils de recherche que l’on va interroger
© BFR Consultants - 20117
Les moteurs de recherche
1. LES MOTEURS DE RECHERCHE
Yahoo!
Bing.com
Exalead
etc
© BFR Consultants - 20118
Les moteurs de recherche
PRINCIPES DE FORMULATION
• L’utilisateur saisit un ou plusieurs mots-clés dans le formulaire
• La requête est lancée sur le texte intégral des pages enregistrées parle moteur (contenues dans son index)
• La page de résultats affiche la liste et les extraits des (copies de) pages contenant le(s) mot(s)-clé(s) (à la date de l’indexation)
• Un clic sur le titre affiche la page aujourd’hui sur le Web
© BFR Consultants - 20119
Les moteurs de recherche
REGLES
• Utiliser des mots aussi PRECIS que possible, dans la langue desdocuments que l’on recherche
• Utiliser « LES GUILLEMETS » pour rechercher une personnalité (« prénomnom »), un mot-composé ou une expression/citation (titre d’un ouvrage…)
• Ecrire de préférence les mots AVEC leurs ACCENTS
• Comparer les résultats au SINGULIER et au PLURIEL(ex.: « agent intelligent » OR « agents intelligents »)
© BFR Consultants - 201110
Les moteurs de recherche
MAIS ATTENTION…
• GUILLEMETS : signifie théoriquement « tel quel » (dans l’ordre)
- il faudra donc utiliser les différentes variantes : exemple « prénom nom » OR « nom prénom » OR « initiale prénom nom » OR…
- à utiliser uniquement lorsque les mots doivent être obligatoirementcôte à côte : exemple : « bibliothèque numérique » oui ; « consommationde carburants » non…
• ACCENTS : théoriquement non pris en compte par Google…
- mais incohérences lorsque le mot est entre « guillemets » exemple : « a parts egales » : 295000 résultats ; « a parts égales » : 77 500 résultats ; « à parts égales » : 5 490 000 résultats !
- mais bug lorsque la recherche est limitée au titre :recherche alors sur l’occurrence exacte du mot (avec ou sans accents)
© BFR Consultants - 201111
Les moteurs de recherche
MAIS ATTENTION…
• TRONCATURE :- l’utilisateur ne peut exiger la troncature sur Google (contrairement à
Exalead) ;- mais Google l’applique « quand il le juge utile » !!!, et pas seulement
sur les pluriels/singuliers…exemple : bibliographie « jean racine » recherche aussi « biographie « jean racine »
-> vérifier la façon dont Google a pris en compte les mots- utiliser le cas échéant le + (+bibliographie « jean racine »)
- sur Google, le * fait office d’opérateur « de proximité » (« bibliothèque*numérique* » recherche « bibliothèque mondiale numérique »…)
© BFR Consultants - 201112
Les moteurs de recherche
FONCTIONS AVANCEES
• Si le nombre de réponses est trop important : limiter la recherche aux titres des pages
(ex.: intitle:«développement durable» (OR intitle:«developpement durable»)
• Pour identifier des documents spécifiques (publications, chiffres…) :limiter à un type de fichierex.: statistiques énergie filetype:pdf (ou doc, ppt, xls)
• Pour restreindre à certains types de sites : limiter selon le nom de domaineEx.: statistiques énergie site:gouv.fr (ou site:industrie.gouv.fr)
• Si besoin : limiter à l’URL (veille inurl:univ)
-> Ne pas hésiter à combiner les critères
© BFR Consultants - 201113
Les moteurs de recherche
EXEMPLE : identifier rapidement quelques statistiquesofficielles sur la consommation d’énergie en France
- consommation énergie : 13 800 000 pages sur Google- consommation énergie site:gouv.fr OR site:insee.fr : 360 000 pages
- consommation énergie site:gouv.fr OR site:insee.fr filetype:doc OR filetype:pdf : 13 500 pages
- consommation énergie site:gouv.fr OR site:insee.fr filetype:doc OR filetype:pdf 2011 OR 2010 OR 2009 : 8 920 pages
- consommation intitle:énergie OR intitle:energie site:gouv.fr OR site:insee.fr filetype:doc OR filetype:pdf 2011 OR 2010 OR 2009 : 2160 pages
© BFR Consultants - 201114
Les moteurs de recherche
ASTUCES
• Fonctions En cache de Google :-> retrouver une page disparue-> repérer les extraits pertinents
• Fonction Pages similaires (related:url sur Google)-> identifier les sites concurrents-> identifier d’autres sites de même type
• Utiliser l’opérateur OR (en majuscules), pour étendre aux mots de forme voisine, aux synonymes…
• Utiliser les symboles +mot pour rechercher un mot tel qu’il est écrit et -mot pour exclure un mot
© BFR Consultants - 201115
Les moteurs de recherche
ASTUCES
• Fonctions define: de Google (ex.: define:blog)-> trouver des définitions (mais il faut vérifier la source ; ex. define:ordinateur)
• Fonction conversion de Google (ex.: 18 dollars en euro ; devise du Brésil enmonnaie mexicaine)
• Fonction numrange: de Google(ex.: « énergie renouvelable » 2015..2100) -> trouver des pages contenant un chiffre compris entre deux fourchettes ; utilepour données prospectives
• opérateur AROUND(n) sur Google, NEAR/n sur Exalead (ex.: marché AROUND(5) tourisme : retrouve les pages contenant marché et
tourisme à 5 mots maximum l’un de l’autre
© BFR Consultants - 201116
Les moteurs de recherche
NOUVELLES FONCTIONNALITES
Nouvelles fonctionnalités de Google, dans la colonne de gauche :- Sources : sélection par type de résultats (vidéos, actualités, blogs, forums) ;-> Date de publication (résultats récents, moins d’une heure, depuis 24h, depuis
une semaine…) ou Période personnalisée : possibilité de retrouver desdocuments « publiés » à une date donnée ou une période donnée (équivalentdaterange:date1-date2)
- Informations connexes : Recherches associées ; Roue magique (conceptsproches)…
-> Chronologie : sélection chronologique de résultats les plus populaires- Affichage : avec images, résumé textuel + long…- Traduction des résultats
© BFR Consultants - 201117
Les moteurs de recherche
IDENTIFIER DES PAGES DE LIENS
Lorsque l’on souhaite identifier une liste de sites web sur un sujet,et que la requête amène trop de résultats -> rechercherspécifiquement des pages de liens
Pages contenant le mot-clé + le mot liens (ou le mot sites) dans le titre ou dans l’URL
Exemple : identifier une liste de ressources concernant les énergies renouvelables
- « énergies renouvelables » : 2 190 000 pages sur Google
- « énergies renouvelables » intitle:liens OR inurl:liens :47 800 pages sur Google
- intitle: « énergies renouvelables » OR intitle: « énergies renouvelables » intitle:liens OR inurl:liens : 1 130 pages
© BFR Consultants - 201118
Optimiser ses recherches sur Google
© BFR Consultants - 201119
Les moteurs de recherche
GOOGLE TRADUCTIONPour savoir savoir ce qui se dit sur un sujet dans une langue différente…
© BFR Consultants - 201120
Les moteurs de recherche
UN MONDE DOMINE PAR TROIS GEANTS
Google (sept. 1998) (www.google.fr)• Juillet 2000 : 1% du trafic mondial. Est choisi par Yahoo! pour remplacer Inktomi• Septembre 2001 : 30% du trafic en France (1ere place) (Xiti)• Février 2011 : 91,4 % du trafic en France (Xiti) (64,9 % aux USA - Comscore)
Yahoo! (avril 1994) (fr.search.yahoo.com ou www.yahoo.fr)• Septembre 2001 : 24% du trafic en France (1ere place) (Xiti)• Février 2011 : 1,4% du trafic en France (Xiti) (17,3 % aux USA)• Juillet 2009 : accord Yahoo/Microsoft. Yahoo! utilise la technologie Bing aux USA
Microsoft (www.bing.com)• Septembre 2001 : 8% du trafic en France (5° place) (Xiti)• Février 2011 : 3,7 % du trafic en France (Xiti) (13,4% aux USA)
© BFR Consultants - 201121
Les moteurs de recherche
DES OUTSIDERS A PRENDRE EN CONSIDERATION
Exalead (2004) (www.exalead.fr)
• développé par la société française Exalead• point fort : expressions connexes• point fort : critères de recherche sophistiqués
16 milliards de pages
© BFR Consultants - 201122
Les annuaires généralistes
2. LES ANNUAIRES GENERALISTES
Dmoz
© BFR Consultants - 201123
Les annuaires généralistes
FONCTIONNEMENT
☛ Description de sites Web (titre et résumé) répertoriés dans des rubriques etsous-rubriques. Travail humain d’indexation
☛ Recensent les sites grand public et professionnels, tous domaines confondus.Pas de sélection qualitative
☛ Part très importante de sites d’entreprises.
☛ Recherche par choix successifs ou par mots sur les catégories et les descriptifs des sites
☛ La page de résultats affiche la liste des sites répondant à la requête
© BFR Consultants - 201124
Les annuaires généralistes
EVOLUTION
☛ En voie de disparition
☛ Exception : l’Open Directory (www.dmoz.org) - modèle économique différent
© BFR Consultants - 201125
Les annuaires généralistes
UTILES POUR :• débroussailler un sujet en identifiant des SITES spécialisés
• identifier des sites localisés dans un pays
Exemple : repérer des sites dans le domaine de la pollution
- pollution : 93 400 000 pages sur Google
-> sur Dmoz.org : pollution dans World: Français:
rubrique «World: Français: Sciences: Environnement: Pollution» :31 sites et sous-rubriques comme Ozone, Pollution sonore…
© BFR Consultants - 201126
Les répertoires sélectifs
3. LES REPERTOIRES SELECTIFS
Signets de la BnF
Intute.ac.uk
etc
© BFR Consultants - 201127
Les répertoires sélectifs
LES REPERTOIRES SELECTIFS
• Une offre ancienne, qui évolue peu
• Réalisés souvent par des universités pour répondre aux questions des enseignants, chercheurs…
• Recensent les sites professionnels à valeur ajoutée, dans les domaines couverts par l’université (nombreuses ressources du Web invisible). Sélection qualitative
• Couverture internationale, majoritairement anglo-saxonne
☛ Utiles pour identifier les sites de référence.
© BFR Consultants - 201128
Les répertoires sélectifs
UTILES POUR : identifier les sites de référence sur unsujet (couverture ± université/recherche)
Exemple : identifier des banques de données sur le théâtre
• Google : « banque de données » théâtre : 5 310 000 pages
• Dmoz : «théâtre » : catégorie Top: World: Français: Regional: Europe: France:Arts et culture: Arts du spectacle: Théâtre : 417 sites mais pas bdd
• Signets.bnf.fr : Arts: Arts du spectacle: Théâtre: Répertoires, bases de donnéeset catalogues
© BFR Consultants - 201129
Les répertoires sélectifs
QUELQUES REPERTOIRES SELECTIFS
• Bubl Link : http://bubl.ac.uk/link Infomine : http://infomine.ucr.edu/ Intute : www.intute.ac.uk IPL2 : www.ipl.org Signets de la BnF : http://signets.bnf.fr Signets universités : www.signets-universites.fr
Pour identifier les répertoires sélectifs :☛ Signets de la BNF : signets.bnf.fr/rubrique Outils Internet - choix Répertoires sélectifs
© BFR Consultants - 201130
Les outils thématiques
4. LES OUTILS THEMATIQUES
Cismef
etc
© BFR Consultants - 201131
Les outils thématiques
LES OUTILS THEMATIQUES
Recensement aussi complet que possible de sites sur un sujet ou dans undomaine particulier (chimie, agriculture, bois…).
2 niveaux :• Sites fédérateurs et pages de liens• Annuaires thématiques et « vortails »
© BFR Consultants - 201132
Les outils thématiques
☛ Les sites fédérateurs Listes de liens sur un sujet -> signets
Réalisés par un expert / passionné Sélection qualitative
☛ Utiles pour démarrer une recherche sur une question précise
☛ Identifiables via les fonctions avancées des moteurs (veille inurl:liens ORintitle:liens)
© BFR Consultants - 201133
Les outils thématiques
☛ Les annuaires et portails thématiquesEx.: CTC, Cismef…
Approche verticale Nombreuses informations sur un domaine : annuaire + actualités + forums Arborescence plus homogène
☛ Utiles pour approfondir une recherche, ou pour identifier lesprofessionnels d’un domaine
© BFR Consultants - 201134
Les outils thématiques
QUELQUES ANNUAIRES ET PORTAILS THEMATIQUES
Chimie : www.chemindustry.com Industrie : www.usinenouvelle.com/web Médecine : www.cismef.org Management : www.manager-go.com Statistiques : www.nationmaster.com Economie : www.helsinki.fi/WebEc
☛ Pour identifier un annuaire thématique• interroger un annuaire d’annuaires : www.lesannuaires.com
www.objectifgrandesecoles.com/pro/secteurs/index.htm; www.indicateur.com• interroger un annuaire généraliste, avec « thème + annuaire »• interroger un moteur, avec « annuaire de … » (ou intitle:annuaire intitle:thème)
© BFR Consultants - 201135
Optimiser ses recherches sur Google
CONCLUSIONS :
• L’interrogation de Google reste un excellent point de départ pour démarrerune recherche – à la condition toutefois de bien formuler sa requête et de tirerparti des fonctions avancées du moteur –
• Mais il est impératif d’utiliser :-> d’autres moteurs (Exalead..) pour compléter des résultats ;-> d’autres familles d’outils – notamment des annuaires généralistes, sélectifsou thématiques – dès lors que l’on souhaite identifier une liste de sites (dans unpays, dans un domaine, etc), repérer des sources à valeur ajoutée, etc.
© BFR Consultants - 201136
POUR EN SAVOIR PLUS
Sites Web + blogs– www.abondance.com– www.outilsfroids.net…– http://blog.recherche-eveillee.com
Lettre bimestrielle NETSOURCES (articles de plus d’un an en accès libre surwww.bases-publications.com)
« Recherche éveillée sur Internet : mode d’emploi - Outils et méthodespour explorer le Web (visible, invisible, social, temps réel) »Béatrice Foenix-RiouCo-édité par Bases Publications et Lavoisier, avril 2011
© BFR Consultants - 201137
Pour tous renseignements
Béatrice Foenix-Riou
BFR Consultants
www.bfr-consultants.comcontact [at] bfr-consultants [point] com
top related