recherche web 2013

108
REP2400 Internet et relations publiques La recherche web A2013 1

Upload: patrice-leroux

Post on 01-Dec-2014

2.337 views

Category:

Education


0 download

DESCRIPTION

Mise à jour du cours portant sur la recherche web (automne 2013): moteurs, opérateurs, recherche avancée, Google, annuaires et catalogues, web invisible web profond). Fiabilité et crédibilité des informations.

TRANSCRIPT

Page 1: Recherche web 2013

REP2400 Internet et relations publiques

La recherche webA2013

1

Page 2: Recherche web 2013

Enjeux de la recherche

Moteurs de recherche:le cas Google

Stratégies d’interrogation

Écueils de la personnalisation de la recherche

Médias sociaux et recherche

Évaluation de l’information

Le Web dit invisible ou Web profond (Bases de données spécialisées)

2

Page 3: Recherche web 2013

Cinq de ces dix propriétés sont des moteurs de recherche (ou variantes)...Source: http://stephenslighthouse.com/2012/03/14/how-people-spend-their-time-online/

Les chiffres diffèrent beaucoup entre le graphique ci-dessus et cette autre compilation dehttp://www.ebizmba.com/articles/search-engines

Difficile aussi de croire que FB recevait 137 millions de visiteurs unique par mois au début de 2012 !

Leçon # 1: ne jamais se fier sur une seule ressource

http://news.cnet.com/8301-1023_3-57566550-93/facebook-by-the-numbers-1.06-billion-monthly-active-users/

3

Page 4: Recherche web 2013

Source: Top-10 US sites & Social Networks 2011 (Hitwise)http://www.hitwise.com/us/datacenter/main/dashboard-10133.html

Top 15 search engines (September 2012)http://www.ebizmba.com/articles/search-engines

4

Page 5: Recherche web 2013

Source: Top-20 US sites & engines en 2010 (Hitwise)http://www.hitwise.com/us/datacenter/main/dashboard-10133.html

Voir aussi:Search Engine Trends (Bing dépasse Yahoo en 2012)http://www.experian.com/hitwise/online-trends-search-engine.html

5

Page 6: Recherche web 2013

20  +  stats  on  user  behaviour  (e-­‐Consultancy

h7p://econsultancy.com/us/blog/7027-­‐20-­‐stats-­‐you-­‐might-­‐not-­‐know-­‐about-­‐user-­‐search-­‐behaviour

6

Page 7: Recherche web 2013

Source: Longer search queries of eight or more words increase 3% in september 2011http://www.hitwise.com/us/about-us/press-center/press-releases/google-share-of-searches-66-percent-in-sept-2011/

7

Page 8: Recherche web 2013

Source: Top-15 moteurs de recherche (US) en 2013http://www.ebizmba.com/articles/search-engines

8

Page 9: Recherche web 2013

La recherche dans Internet (WWW)

Comment les données sont-elles cataloguées et indexées ?Quelques outils de recherche disponibles.Les techniques à utiliser.Les comportements des chercheursVers la recherche collaborative ?

Bots, Blogs and news Agregators (mis à jour en 2011) par Marcus P. Zillmanhttp://www.botsblogs.com/

100 useful tips to search the deep web (Alisa Miller)http://www.online-college-blog.com/features/100-useful-tips-and-tools-to-research-the-deep-web/

9

Page 10: Recherche web 2013

Quelques mythes

On trouve tout dans InternetC'est facile de chercher et de trouverLes sources sont fiables et à jour...

LES RECHERCHES DANS INTERNET PEUVENT SE FAIRE À PARTIR DES RESSOURCES SUIVANTES, ENTRE AUTRES :

Moteurs de recherche et Annuaires (catologues/répertoires)+Les Newgroups (groupes de discussion) dont les contenus peuvent être accessibles avec un lecteur de nouvelles...http://alt.binaries.movies.french.usenetor.com/

http://groups.google.com/group/tourisme-recherches-institutions-pratiques?lnk=

Par le biais du web, les «news» étaient accessibles avec

Google Groupes (désactivé en 2011 mais 20 ans d’archives toujours disponibles...)

Les bloguesCertains réseaux sociaux ouverts (ou par compte Google)Sites de signets sociauxTwitter (temps réel)Le Web profond dit invisible

10

Page 11: Recherche web 2013

Moteurs de recherche :

Il s'agit de programmes informatiques permettant de faire des recherches dans les bases de données, conçues par les robots collecteurs.

Dans Internet, les moteurs nous proposent leur information grâce à 3 fonctions ou étapes principales :

1) Un robot collecteur : ( crawler, spider, bot)

Il indexe le web automatiquement 24 heures par jour en "glanant" (en scannant) les informations dans le texte visible d'un site (les premiers mots ou phrases) et dans le texte invisible (i.e. dans le code HTML, où on retrouve les méta-étiquettes, entre autres).N.B. : Les meilleurs glaneurs/robots peuvent indexer plusieurs millions de pages par jour ( ils prennent quelques heures, jours et semaines pour faire le tour du Web en entier).

11

Page 12: Recherche web 2013

Le robot visite chaque page (ou pages représentatives) d'un site (qui veut bien être trouvé ou découvert !) et lit les pages ainsi que les hyperliens offerts dans le but de découvrir les autres pages (ou fichiers).

2) Un programme crée un index ou catalogue immense

(base de données/statique) à partir des sites (fichiers) visités.

3) Un autre programme (le service de requêtes) reçoit votre requête, la compare à ses entrées de données (catalogue) et renvoie ses résultats.

C'est dans la fenêtre de requête des moteurs qu'on tape les informations et qu'on interroge leurs bases de données.La recherche d'information se fait donc par interrogation.Il existe des milliers de moteurs de recherche...

Search Engine Colossus (par pays, par thèmes, etc.)http://www.searchenginecolossus.com/

12

Page 13: Recherche web 2013

Principales techniques de recherche Identification du sujet :

Contexte et objet de la recherche; délimitation de la recherche (langues, pays, etc.); genre de réponses désirées.

Quelle est votre connaissance sémantique du sujet ou de la discipline recherchée ?

Formulation du sujet :

Quels mots ou expressions précisent ou traduisent le mieux les concepts de la recherche; choix de mots-clés et de termes à retenir; trouver des équivalences (synonymes, acronymes et mots en anglais ou dans une autre langue).

13

Page 14: Recherche web 2013

Recherche sur les termes exactesExemple concernant l'exactitude des termes anglais sur Google...

 

 

Source: http://www.googleguide.com/interpreting_queries.html

14

Page 15: Recherche web 2013

La stratégie de recherche inclut la traduction de mots clés et leur regroupement en fonctions de règles syntaxiques propres aux moteurs de recherche.

On peut combiner des mots ou des termes dans le but de

traduire la requête en une expression de recherche.

Attention aux majuscules et minuscules sur certains moteurs

Requête saisie en minusculesToutes les occurrences seront recherchées : ibm trouve ibm, IBM ou Ibm

Requête saisie en majusculesIdem: IBM trouve IBM, ibm, Ibm ou IbM

Lettres accentuées

L'occurrence exacte est recherchée :

électricité trouve électricité mais pas electricite ou electricité (HotBot)

Requête saisie sans accents

Toutes les occurrences sont recherchées :

electricite trouve electricite, électricité ou electricité (pas toujours vrai sur certains moteurs)

15

Page 16: Recherche web 2013

Requête saisie sans accents

Toutes les occurrences sont recherchées :

electricite trouve electricite, électricité ou electricité (pas toujours vrai sur certains moteurs).

Ordre des motsSur certains moteurs, la recherche (Paris Montréal) ne donne pas les mêmes résultats que la recherche (Montréal Paris) surtout pour le classement des résultats.

Majuscules, minuscules et accents sur Google

Les recherches Google ne tiennent pas compte de la « casse » des lettres (MAJUSCULES/minuscules).

Quelle que soit la typographie utilisée, Google interprète toujours les lettres composant vos termes de recherche comme des minuscules.

Par défaut, les recherches Google ne tiennent pas compte des accents ou autres signes diacritiques (cédille, tilde espagnol, umlaut allemand, etc.).

Ainsi les termes [FRANÇAIS] et [FRANCAIS] retrouvent les mêmes pages.Pour indiquer que ces deux termes ont une signification différente, utilisez-les l’un après l’autre. Google ne prend plus en compte le signe plus ( + ) devant un mot.

Pour certains mots français dont la graphie est semblable à l'anglais (éléphant/elephant), il vaut mieux insérer les accents, SI on veut obtenir uniquement des documents en français. Par contre, pour les mots français dont la graphie n'a pas de correspondance en anglais, on favorisera un meilleur taux de rappel (résultat) si le mot en question n'est pas accentué, i.e. zebre ou lieu de zèbre.

16

Page 17: Recherche web 2013

Les 3 opérateurs "booléens"

Nommés ainsi en l'honneur de Georges Boole (1815-1864) mathématicien et logicien anglais, inventeur de la logique symbolique moderne et de l'algèbre booléienne.

1-(AND) (Principe d'association)

Représenté par le symbole + ou la saisie en majuscules AND. Sur Google, le + est implicite et on ne peut plus l’utiliser pour «forcer» la présence d’un mot. Il faut utiliser l’expression (champ) intext: ou la fonction Mot à mot (voir menu dans la colonne de gauche de Google)

Correspond à la conjonction ET en français.

Exemple : la requête moteur de recherche en français force Google à trouver les pages qui contiennent à la fois les mots moteur ET recherche ET français.

+moteur +recherche +françaisDans certains cas, Google peut omettre certains mots de votre expression de recherche...

Les articles, adjectifs indéfinis, préposition et/ou déterminants de toutes sortes (le, la, les, en, des, du, pour, et, ou etc..) sont ignorés. Les Américains appellent ces mots des "Stop Words" ou mots-vides.

17

Page 18: Recherche web 2013

2-(OR/OU)(Principe de regroupement)

Parfois représenté par le symbole ( | )Correspond à la conjonction OU en français.

Exemple : moteur OU recherche OU français force le moteur à trouver les pages qui contiennent l'un ou l'autre des mots, soit moteur, soit recherche, soit français ou les trois.

Avec Google, l'opérateur OU doit être saisi en MAJUSCULE obligatoirement.

Source:http://support.google.com/websearch/bin/answer.py?hl=fr&answer=136861&topic=1221265&ctx=topic

Le sigle | est rarement utilisé pour le OU mais fonctionne dans Google.

18

Page 19: Recherche web 2013

La recherche «adaptée»...

Les résultats obtenus par ma propre recherche risquent d’être assez différents des vôtres !

Quand Google omet des mots que vous avez inscrits...

Source: Dear Google, stop messing with my search (Karen Blakeman)http://www.rba.co.uk/wordpress/2011/11/08/dear-google-stop-messing-with-my-search/

19

Page 20: Recherche web 2013

Dans les deux exemples suivants, le moteur tentera de trouver des pages contenant au moins le premier de ces mots, les deux premiers ou les trois à la fois: blouse, shirt, chemise.

Cliquez sur les expressions de recherche suivantes (si ça ne fonctionne pas, réécrivez-les telles quelles dans Google…)

[ blouse OU shirt OU chemise ]

[ blouse|shirt|chemise ]

Remarque: avec l'opérateur OR un espace doit précéder le mot alors que le signe | ne nécessite aucun espace précédant le mot.

Source: http://www.googleguide.com/or_operator.html

20

Page 21: Recherche web 2013

3-(NOT/ANDNOT)(Principe d'exclusion) Représenté par le symbole (-)Correspond à SAUF/Excepté en français.

Exemple : moteur -voiture forcerait le moteur à trouver les pages qui contiennent le mot moteur mais SANS le mot voiture.

Avec Google, l'opérateur (-) doit être utilisé devant le mot à exclure (sans espace) et non le NOT ou ANDNOT

Si on veut trouver plus facilement une recette de "salsa", on risque d'avoir de meilleurs résultats avec:

En anglais: [ salsa -danse] j’obtiens des résultats reliés à la danse ?En anglais: [ salsa salsa -dance ] La répétition du mot salsa ne semble pas avoir porté fruit...En français [ salsa -musique -danse -cours ]

Avec la combinaison suivante, je devrais trouver en théorie des informations avec les mots moteur et hybride mais sans les mots voiture et automobile. Les résultats ne sont pas très concluants...[-voiture -automobile moteur hybride]

Différence avec l'ordre suivant ?[moteur hybride -voiture -automobile][moteur moteur hybride -voiture -automobile] et avec la répétition du mot moteur ?

Combien de mots-clés peut-on utiliser dans une requête ?Jusqu'à 32 mots incluant les opérateurs mais pas les "stop-words", i.e. les articles, pronoms ou conjonctions, etc.: Exemple: le, du, des, quand, ou, où (mots-vides)

21

Page 22: Recherche web 2013

Source: Advanced Web Searching (Karen Blakeman)http://fr.slideshare.net/KarenBlakeman/advanced-web-searching-ifeg-3rd-april-2012

22

Page 23: Recherche web 2013

L'utilisation de parenthèses (Hotbot)Lorsqu'on utilise simultanément plusieurs opérateurs booléens pour raffiner une recherche,

on peut utiliser les parenthèses.

Exemples :salade (thon AND Crabe) -Cesar

=Je veux avoir des informations sur des salades de thon, de crabe ou les deux,

mais pas d'informations sur la salade césar

Les parenthèses permettent aussi de coupler des requêtes :Exemple :

(+moteur +voiture) -(+moteur +recherche)

Seul Hotbot acceptait encore bien les parenthèses...

23

Page 24: Recherche web 2013

Les opérateurs de proximité

L'adjacence (ADJ) ( base de données)Pour introduire une proximité nette entre les mots

Exemple :Relations ADJ Publiques. Dans Google «Relations Publiques» (ou fonction Mot à mot)Public ADJ Relations N.B.: Très peu de moteurs acceptent l'adjacence (ADJ) et les résultats sont peu concluants dans Google avec cet opérateur...mais cela pourrait être utile ailleurs...

La proximité (~) (base de données)

Pour introduire une notion de proximité entre des mots mais pas aussi nette que l’ADJ.Les mots doivent être proches l'un de l'autre. Représenté par le sigle NEAR ou ONEAR et aussi par le symbole ~

Exemple :

conception AND fabrication NEAR ordinateur ou computer NEAR translation=computer ~translation

Il s'agit donc d'une recherche sur la conception et la fabrication assistées par ordinateur (CAO-FAO) et sur la traduction assistée par ordinateur (TAO).

24

Page 25: Recherche web 2013

Dans Google, on utilise le symbole ~ pour trouver un synonyme du mot qu'on fait précédé par ~.

Exemple: [~portable]Exemple: [~portable téléphonie -ordinateur]

Google trouve des informations similaires à quelques mots ou à tous les mots d'une requête précédée du ~

Le masque (?)

Le masque sert à spécifier le nombre exact de caractères à rechercher (ou quand on cherche des mots différenciés que par un seul caractère)

On représente le masque par le symbole ? (interrogation)

wom?n (woman, women)français?? (française et françaises)

25

Page 26: Recherche web 2013

Les guillemets

Pour trouver un groupe de mots ou une phrase exacte.Pour trouver une expression particulière...

On utilisera les guillemets.

Représenté par "_"

Exemple:

"moteur de recherche" recherche les trois mots les uns à côté des autres et dans cet ordre.

"Histoire de la renaissance italienne"

ou

"Post-secondary education in the USA"N.B.: Les guillemets fonctionnent assez bien avec certains «autres»

moteurs mais parfois Google demande de les retirer...

26

Page 27: Recherche web 2013

27

Page 28: Recherche web 2013

La troncature (base de données)

Pour faire une recherche sur une partie d'un mot.Utilisez la troncature pour obtenir de l'information à partir d'un même radical (troncature à gauche) ou d'un suffixe

(troncature à droite).

Représentée par le symbole * (astérisque) appelé aussi en anglais Wildcard

Exemples:

bio* peut chercher..

(biologie, biographie, biochimie, biotechnologie, biochemistry, biography, biology, etc.)

*sexuel peut chercher…

(transexuel, homosexuel, bisexuel)

Notez bien que - dans Google - la troncature placée avant ou après un mot peut chercher aussi des termes généralement associés au mot en question

(dans une requête plus complexe). Voir diapo #57 par exemple.

28

Page 29: Recherche web 2013

Avec Google on peut utiliser le * pour tenter de trouver un ou des mots manquants dans une phrase ou pour trouver des ressources dans lesquelles apparaissent des mots qu'on fait précéder du signe *

Exemple: [*google *ma *vie]

Si vous n'êtes pas certain du titre d'un livre (ou d’une chanson) mais que vous en connaissez quelques mots, Google peut vous aider à retrouver le titre précis.

Comment s'intitulait déjà un des livres de J.K. Rowling?

? ? ? [Harry Potter et les * de la mort] ? ? ? Source: http://www.googleguide.com/wildcard_operator.html

29

Page 30: Recherche web 2013

Les méta-données ou la recherche par zone spécifique

Il est aussi très utile de connaître la spécificité des documents Internet en utilisant les métadonnées ou les champs à inscrire dans la fenêtre de requête. On nomme aussi ces champs ou métadonnées recherche linguistique ou par zone.

Exemples de métadonnées (champs par zones) les plus connues :

Avec Google:

title: ou intitle: Récupère les sites dont le titre spécifié apparaît dans une page. title:soleil trouve toutes les pages contenant le mot soleil dans le titre.

N.B.: Parfois ce champ s'écrit intitle: au lieu de title:

url: ou inurl: Récupère selon combinaison (nom du serveur, répertoire, fichier)url:jardin récupère ou trouve toutes les pages de tous les serveurs ayant le mot jardin à n'importe quel endroit : nom de domaine (URL), répertoire d'accès, nom de fichiers.

30

Page 31: Recherche web 2013

intext:

Récupère des documents contenant un mot particulier.intext:impluvium trouve des documents contenant le mot impluvium.

inlink: curation inlink:lapresse.ca

Recherche des documents qui contiennent le mot curation soit dans le site de www.lapresse.ca ou qui nomme la presse ou y pointe un lien.

site: et -site:Recherche à l’intérieur d’un site spécifique

gaz de schiste site:gouv.qc.ca trouve des documents contenant les mots gaz de schiste, mais seulement sur le site du gouvernement du Québec

L’expression -site: est particulièrement utile pour exclure spécifiquement un nom de domaine.

gaz de schiste -site:gouv.qc.ca

gaz de schiste -url:gouv.qc.ca (-url fonctionne aussi bien)

31

Page 32: Recherche web 2013

Est-il possible de combiner une zone avec un opérateur ? OUI !

Exemples :

allinurl: www.honda.com +hybrid (mais on n’a plus besoin du + chez Google)

On recherche des documents qui contiennent le mot hybridesur le site http://www.honda.com/

intitle:education superieure fr

On recherche des ressources dont le titre porte précisément sur l'éducation supérieure et on tient à ce que ces informations soient en français.

filetype:pdf curation francais (cherche un document Pdf sur la curation en français)

Peut on combiner deux zones ? NON ! OUI ! (voir prochaine diapo)

inurl:garden intext:rosesLes opérateurs (anciens moteurs)http://searchengineshowdown.com/features/

Boolean Logichttp://internettutorials.net/boolean.asp

32

Page 33: Recherche web 2013

Source:  How to use Google Search More effectively (Josh Catone) [Infog.]http://mashable.com/2011/11/24/google-search-infographic/

33

Page 34: Recherche web 2013

OU

?

Google decides that coots are really lions (Karen Blakeman)http://www.rba.co.uk/wordpress/2011/02/12/google-decides-that-coots-are-really-lions/

Update: http://www.rba.co.uk/wordpress/2011/02/21/update-on-coots-vs-lions/

Source : Image du macrouleAuteur: Luc Viatour http://commons.wikimedia.org/wiki/User:Lviatourhttp://fr.wikipedia.org/wiki/Fichier:Fulica_atra_Luc_Viatour.jpg

Source: Image du lionAuteur: James Temple http://www.flickr.com/photos/82932964@N00/312326732https://commons.wikimedia.org/wiki/File:Panthera_leo_Sabi_Sands.jpg#filehistory

34

Page 35: Recherche web 2013

Source: Advanced Web Searching (Karen Blakeman)http://fr.slideshare.net/KarenBlakeman/advanced-web-searching-ifeg-3rd-april-2012

35

Page 36: Recherche web 2013

Tendances en recherche web

Socialisation

Personnalisation

Localisation (mobilité)

Voir mon billet au sujet de La recherche web en 2012 (et la présentation de Karen Blakeman)http://patriceleroux.blogspot.ca/2012/04/la-recherche-web-en-2012.html

36

Page 37: Recherche web 2013

(RAPPEL) Personnalisation de la recherche...

Source: Eli Pariser, Beware online «filter bubbles» (2011)http://www.ted.com/talks/eli_pariser_beware_online_filter_bubbles.html

Voir aussi : Google Personalisation: Web History isn’t the only problem (Karen Blakeman)http://www.rba.co.uk/wordpress/2012/02/22/google-personalisation-web-history-isnt-the-only-problem/

37

Page 38: Recherche web 2013

Source: Advanced Web Searching (Karen Blakeman)http://fr.slideshare.net/KarenBlakeman/advanced-web-searching-ifeg-3rd-april-2012

Google Dashboardhttps://www.google.com/dashboard/

38

Page 39: Recherche web 2013

Visualiser et gérer toutes ses données avec le tableau de bord Google (Dashboard)https://www.google.com/settings/dashboard?hl=fr

39

Page 40: Recherche web 2013

Télécharger (et archiver toutes ses données de Google) avec le service Takeouthttps://www.google.com/settings/exportdata?hl=fr

Voir aussi The Data Liberation Fronthttp://www.dataliberation.org/

40

Page 41: Recherche web 2013

41

Page 43: Recherche web 2013

Supprimer les cookies permet de dépersonnaliser la recherche selon vos activités passées et votre historique de navigation...

43

Page 44: Recherche web 2013

Chrome et Firefox

44

Page 45: Recherche web 2013

Sécurité numérique, les bases https://www.wefightcensorship.org/fr/article/securite-numerique-baseshtml.html

45

Page 46: Recherche web 2013

Google: un cas particulier (ancienne interface ci-dessus)

http://www.google.ca/

46

Page 49: Recherche web 2013

[...] «So what’s our straightforward definition of the ideal search engine?

Your best friend with instant access to all the world’s facts and a photographic memory of everything you’ve seen and know. That search engine could tailor answers to you based on your preferences, your existing knowledge and the best available information; it could ask for clarification and present the answers in whatever setting or media worked best.» [...]

Marissa Mayer, V-P, Recherche-Produits et expérience utilisateur (chez Google jusqu’en 2012)Source: http://googleblog.blogspot.com/2008/09/future-of-search.html

Une pub de Google durant le SuperBowl de 2010 (une vidéo disponible depuis plusieurs mois...)http://www.youtube.com/watch?v=nnsSUqgkDwU

Is Google Making Us Stupid ? (Nicholas Carr)http://www.theatlantic.com/doc/200807/google

Traduction française :(Framablog)http://www.framablog.org/index.php/post/2008/12/07/est-ce-que-google-nous-rend-idiot

Are we renting our collective intelligence to Google ? (Matteo Pasquinelli)http://mastersofmedia.hum.uva.nl/2009/11/16/matteo-pasquinelli-are-we-renting-our-collective-intelligence-to-google/

49

Page 50: Recherche web 2013

La fonction Recherche avancée de Google n’est plus aussi apparente qu’auparavant...Elle apparaît dans le menu outil lors de l’affichage d’un résultat de recherche et

non plus sur sa page d’accueil

Il faut développer le réflexe d’utiliser les fonctions de recherche avancée...http://www.google.ca/advanced_search?hl=fr

50

Page 51: Recherche web 2013

51

Page 52: Recherche web 2013

PageRank de GooglePageRank est un champion de la démocratie : il profite des innombrables liens du Web pour évaluer le contenu des pages Web -- et leur pertinence vis-à-vis des requêtes exprimées. Le principe de PageRank est simple : tout lien pointant de la page A à la page B est considéré comme un vote de la page A en faveur de la page B. Toutefois, Google ne limite pas son évaluation au nombre de « votes » (liens) reçus par la page ; il procède également à une analyse de la page qui contient le lien. Les liens présents dans des pages jugées importantes par Google ont plus de « poids », et contribuent ainsi à « élire » d'autres pages.

Source:http://www.google.ca/intl/fr/why_use.html

Plusieurs centaines de millions de requêtes par jour !

Des fonctions et services moins connus ou utilisés...

Le choix parmi 45 langues (2012):http://www.google.ca/preferences?hl=fr#languages Google News/Actualités (+4500 sources médias dont 500 en français)http://news.google.com/news?cf=all&ned=fr_ca&ict=ln Alerte Google (monitoring de l'actualité)http://www.google.ca/alertshttp://www.googlealert.com Google Imageshttp://images.google.ca/

Google Scholar (en français aussi maintenant)http://scholar.google.com/

52

Page 53: Recherche web 2013

Google...suite

Google Blog Searchhttp://blogsearch.google.com/

La numérisation de tous les livres...http://books.google.com/ Localisation de magasins pour les achats:(ancien Froogle/Google Shopping)http://www.google.com/products Recherches dans un lieu géographique précis. (Google Maps)http://local.google.com/

Google Earth (Images satellites...)http://earth.google.com/

Rechercher dans les données publiqueshttp://www.google.com/publicdata/directory#

Moteur de recherches personnalisées Googlehttp://www.google.com/cse/

Google (vue d'ensemble des services et options)http://www.google.com/help/features.html

Le blogue Inside Searchhttp://insidesearch.blogspot.ca/

Quelques bonnes références:Guide Google de Nancy Blachmanhttp://www.googleguide.com/

Centre d’aide de Google:http://www.google.com/support/

53

Page 54: Recherche web 2013

http://translate.google.com/

Voir aussi: A fresh look for Google translate on iOS...http://insidesearch.blogspot.ca/2013/09/a-fresh-look-for-google-translate-on.html

54

Page 55: Recherche web 2013

Le niveau de lecture (Reading level) ne semble pas exister dans l’interface française...Advanced=associé à des recherches universitaires ou des terminologies spécialisées

Cette fonction semble fonctionner qu’en anglais....

55

Page 57: Recherche web 2013

http://www.google.com/trends

57

Page 58: Recherche web 2013

Source:Groupes sur Googlehttps://groups.google.com/forum/#!forum/tourisme-recherches-institutions-pratiques

58

Page 59: Recherche web 2013

Google GogglesRecherche visuelle/photographique

Il n’y a plus d’entrée de texte...Application pour mobile

http://www.google.com/mobile/goggles/#text

Voir entrevue avec Marissa Mayer, V-P Google, produits de recherche et expérience-utilisateur (LeWeb/Paris/2009)http://www.ustream.tv/recorded/2759667

Pour la musique, voir http://www.shazam.com/

59

Page 60: Recherche web 2013

Recherche par imagehttp://images.google.fr/

60

Page 61: Recherche web 2013

Recherche par image (tout de même assez précis comme résultat)http://images.google.fr/

61

Page 62: Recherche web 2013

Recherche par image par le biais de Google Imageshttp://images.google.fr/

Aucune différence entre une image de moi, une image prise par moi (de quelqu’un d’autre) ou d’une image de moi prise par quelqu’un d’autre...ou encore d’images d’autres Patrice Leroux de ce monde...

62

Page 63: Recherche web 2013

Google Art Project ( entente avec plus de 150 musées et galeries)http://www.google.com/culturalinstitute/project/art-project?hl=fr

63

Page 64: Recherche web 2013

Pourquoi la vidéo domine la recherche ? (enfin presque...)«Pourquoi préfère-t-on passer plus de temps à regarder la TV qu’à lire la presse ? Nous sommes tout simplement fainéants. C’est plus facile et surtout plus accessible de s’informer avec des images animées, qu’avec du texte statique.» (Laurent Maisonnave)

http://www.youtube.com/

YouTube 1er moteur de recherche devant Google (Laurent Maisonnave)http://zelaurent.com/video-news/youtube-1er-moteur-de-recherche-devant-google/

64

Page 65: Recherche web 2013

Recherche sociale de Google:http://www.youtube.com/watch?v=aYf5iSA6t6g

Accéder aux recherches sociales de Google:http://www.google.com/support/websearch/bin/answer.py?answer=165228

Explication vidéo de Matt Cutts: http://www.youtube.com/watch?v=BlpTjP6h6Ms

Voir aussi Social Search: http://www.socialsearch.com/

65

Page 66: Recherche web 2013

Recherche avec les mots Internet et relations publiques dans Google+ parmi Tout (la priorité des résultats proviendraient tout de même de mes cercles).

66

Page 67: Recherche web 2013

Recherche avec les mots Internet relations publiques dans Google avec la fonction Mot à motVoir colonne de gauche sous Tous les résultats

67

Page 68: Recherche web 2013

Recherche avec les mots New York dans Google+ parmi mes cercles

68

Page 69: Recherche web 2013

Recherche avec les mots New York dans Google+ parmi la rubrique De vous (donc de moi seulement)

69

Page 70: Recherche web 2013

Catalogues, annuaires et répertoires:

Les informations sont constituées, organisées en catégories et même filtrées par des personnes. (pensez curation web)

L'intervention humaine faisait en sorte que l'information était souvent moins à jour qu'avec les moteurs. Par contre, plusieurs répertoires sont devenus hybrides en intégrant à la fois un

répertoire et un moteur. Exemple: Yahoo

La recherche d'information se fait donc plutôt par navigation dans le classement (hiérarchies et répertoires structurés par des humains). On gagne en qualité ce qu’on perd en quantité ?Avec le phénomène «l’infobésité», les annuaires et catalogues pourraient renaître...(curation)Exemple : http://www.mahalo.com/

70

Page 71: Recherche web 2013

Répertoires et annuaires généralistes (quelques exemples)

Purdue (OWL) Search & Directory listhttps://owl.english.purdue.edu/owl/resource/558/06/

Family Friendly Sites: http://familyfriendlysites.com/World Site Index: http://www.worldsiteindex.com/

Greenstalk:http://www.greenstalk.com/Open Directory Project (AOL): http://www.dmoz.org/

Links To Go: http://www.links2go.com/Splash Directory: http://www.splashdirectory.com/Global Web Links: http://www.global-weblinks.com/

Annuaires et répertoires spécialisés

Jobboom:http://www.jobboom.com/Passeport santé:http://www.passeportsante.net/France Culture: http://www.culture.fr/fr/sections/

Voir aussi:Les 25 répertoires les plus puissants sur la toilehttp://www.searchenginepeople.com/francais/liste-des-25-repertoires-les-plus-puissants-sur-la-toile

71

Page 72: Recherche web 2013

Internet Archive : un vrai trésor.http://archive.org/

À la recherche de sites disparus... avec son Way Back Machine (+150 milliards de documents)http://www.archive.org/

72

Page 73: Recherche web 2013

Autres moteurs

HotBot:http://www.hotbot.com/AOL Search:http://search.aol.com/

Lycos: http://www.lycos.com/Search Cube: http://www.search-cube.com/Exalead:http://www.exalead.com/search/

Quixey: http://www.quixey.com/

RéférenceSearch Engine Watchhttp://searchenginewatch.com/reports

73

Page 74: Recherche web 2013

Source: Advanced Web Searching (Karen Blakeman)http://fr.slideshare.net/KarenBlakeman/advanced-web-searching-ifeg-3rd-april-2012

Voir aussi:Sanity Checking Google (The Disruptive Searcher)http://disruptivesearcher.wordpress.com/2012/02/27/sanity-checking-google/

74

Page 76: Recherche web 2013

«I also don’t know which papers written by Scott Wilson were written by the Scott I know and which one’s were written by the Scott Wilson who is based at the University of British Columbia.

Will the real Scott Wilson please stand up ! »

Analyse du service Academic Search de Microsoft (Brian kelly)http://ukwebfocus.wordpress.com/2011/09/20/will-the-real-scott-wilson-please-stand-up-please-stand-up/

Academic Search de Microsofthttp://academic.research.microsoft.com/

76

Page 77: Recherche web 2013

http://www.ask.com/

77

Page 78: Recherche web 2013

http://search.yahoo.com/http://ca.yahoo.com/

78

Page 79: Recherche web 2013

http://www.yandex.com/

79

Page 80: Recherche web 2013

Pas de personnalisation ni de suivi (tracking)http://duckduckgo.com/

Voir aussi: http://duckduckgo.com/goodies.html

Ce moteur a affiché une ressource que je ne retrouvais plus sur Google (avec mon nom comme requête...)

Translating Tweetdeck: http://tweetdeck.posterous.com/translating-tweetdeck-the-next-five-languages

80

Page 81: Recherche web 2013

Search Team ( vers de la recherche web collaborative ?)

http://searchteam.com/

81

Page 82: Recherche web 2013

Recherche avancée de Flickrhttp://www.flickr.com/search/advanced/

Voir aussihttp://www.morguefile.com/

82

Page 83: Recherche web 2013

Méta-moteursMetaCrawler: http://www.metacrawler.comBeaucoup: http://www.beaucoup.comSurfwax:http://www.surfwax.comDogpile: http://www.dogpile.comIceRocket: http://www.icerocket.com

Applications à télécharger ? Pas nécessaire !WebFerret:http://www.webferret.com(Win)Copernic:http://www.copernic.com (Win)

Références: UC Berleleyhttp://www.lib.berkeley.edu/TeachingLib/Guides/Internet/MetaSearch.html

RBS Search strategies (Karen Blakeman)http://www.rba.co.uk/search/index.shtml

83

Page 84: Recherche web 2013

http://ca.millionshort.com/

Moteur/répertoire qui retire jusqu’à un million de sites parmi les plus populaires du web dans ses pages de résultats...

84

Page 85: Recherche web 2013

Différence entre Google et Million Short pour la même requête(moins le top 10k sites pour Million Short)

85

Page 86: Recherche web 2013

Mais SURTOUT...

Il faut lire les "modes d'emploi", les guides et les FAQ de chacun des moteurs et savoir comment utiliser les

fonctions de recherche raffinée telles le "Advanced Search", le "Power Search" et le "Related Search".

Apprenez à lire (à interpréter) rapidement les informations (sites) que vous retournent les moteurs, notamment grâce aux titres, aux

résumés, à l'adresse web (nom de domaine)...

86

Page 87: Recherche web 2013

Autres ressources pour la recherche

Groupes de discussionhttp://groups.google.com/ BlogPulsehttp://www.blogpulse.com/ Technoratihttp://technorati.com/ La recherche de périodiques électroniques par le biais du réseau des bibliothèques de l'Université de Montréal

Périodiques électroniques (UdeM)http://opurl.bib.umontreal.ca:9003/sfx_local/a-z/default

Le portail de la Bibliothèque et Archives nationales du Québechttp://www.banq.qc.ca/

Voir aussi Questia (Plus grande bibliothèque en ligne ?)http://www.questia.com/

87

Page 88: Recherche web 2013

Ne pas oublier Twitter pour la recherche en temps réel ! http://search.twitter.com

Mais voir aussi OneRiot: http://www.oneriot.comReal-Time Search and your businesshttp://www.clickz.com/3636242

88

Page 89: Recherche web 2013

Utilisation des opérateurs pour plus de précision sur Twitter

89

Page 90: Recherche web 2013

Problèmes ??? Difficultés ???Pas assez de résultats ? (silence)

Trouver de nouveaux synonymes, acronymes ou termes plus conceptuels se rapprochant de votre recherche.

Trop de résultats ? (bruit)

Utiliser les opérateurs booléens et combiner certains mots;

Utiliser des métadonnés (champs);

Utiliser les fonctions de recherche raffinée des moteurs.

90

Page 91: Recherche web 2013

Évaluation et validation de l'information trouvée

Quelques concepts importants:

Fiabilité (auteur, expertise)

Objectifs/Buts (éditorial, pour ou contre une cause?)

Équilibre ( faits bruts, point de vue différent ?)

Mise à jour (actualité, date de parution ?)

Type de couverture (rapport complet, études, petit paragraphe ?)

Les sources semblent bien documentées ? (liens fonctionnels, sites reconnus, etc.)

Autres sources Web offrant lien vers le site en question ?Quel rang dans un moteur de recherche ? Équilibre ? (opinions, biais, pamphlet, autres points de vue ?)Types de référence offerts (Livre blanc, rapport, petit paragraphe ?)Pertinence (rapport statistique ou article)Réputation et crédibilité de la source (commanditaire ?)Reconnaissance professionnelle ou institutionnelle ?

91

Page 92: Recherche web 2013

Si c'est écrit, c'est vrai ? (Réseau UQuébec)http://youtu.be/lXwgv8kq6rA

Lire aussi «60 000 times faster than text»...Really ? (Darren Kuropatwa)http://adifference.blogspot.ca/2012/07/60-000-times-faster-than-text-really.html

92

Page 93: Recherche web 2013

Quelques références utiles....

UQAM/Bibliothèqueshttp://www.bibliotheques.uqam.ca/InfoSphere/sciences/module7/evaluer.html

Déterminer la fiabilité de l’information (Bibliothèques UdeM)http://guides.bib.umontreal.ca/disciplines/74-Determiner-la-fiabilite-de-l-information

Robert Harris/Virtual Salthttp://www.virtualsalt.com/evalu8it.htm

Évaluation de l’information présente sur Internet (Université de Lyon)http://sapristi-docinsa.insa-lyon.fr/conseils-pour-chercher/evaluer-linformation

93

Page 94: Recherche web 2013

Le Web invisible ou profond...Quelques définitions

Web Invisible: informations que les moteurs de recherche conventionnels ne peuvent trouver et répertorier.

Web caché: synonyme de Web invisible.

Web profond: terme utilisé d’abord par BrightPlanet qui le préfère à Web invisible. Selon BrightPlanet, les informations ne sont pas nécessairement invisibles mais plutôt cachées. Il s'agit d'apprendre comment les trouver !

Web de surface: informations disponibles par le biais des moteurs et répertoires.

La majorité des gens ne savent pas que plusieurs documents parmi les plus crédibles du Web, c.-à-d. ceux qui font autorité, demeurent "invisibles" auprès des moteurs de recherche comme Google, Yahoo! ou Bing.

La plupart de ces documents dits invisibles proviennent des bases de données des universités, bibliothèques, agences gouvernementales, associations, entreprises... partout dans le monde !

Références A+

DeepWeb (Wikipedia):http://en.wikipedia.org/wiki/Deep_web

Inventeur du terme «DeepWeb» (Mike. K. Bergman)http://www.mkbergman.com/about-mike/

The DeepWeb Internet Tutorialshttp://www.internettutorials.net/deepweb.asp

94

Page 95: Recherche web 2013

«99% des contenus du web profond demeurent accessibles dans le Web; cependant la plupart se trouve dans des bases de données que les moteurs n’indexent pas». (Steve Gruchawka)

Références A+:Deep Web expliqué par osti.gov: http://www.youtube.com/watch?v=YskdGh8XU5I

Invisible or Deep Web: What it is, How to find it, and Its inherent ambiguity (UC-Berkeley)http://www.lib.berkeley.edu/TeachingLib/Guides/Internet/InvisibleWeb.html

Voir autre vidéo Deep Web: http://www.osti.gov/media/DeepWebVideo

Source de l’image Iceberg: http://elibrary.icrisat.org/Google Search/Surface Web.htmSource du graphique: http://21cif.com/resources/materials/webinar/

95

Page 96: Recherche web 2013

Web profond: exemples de sites contenant des bases de donnés qu’il faut interroger pour accéder aux informations.

Références A+: Steve Gruchawka: http://techdeepweb.com

Source de l’image: http://pipl.com/help/deep-web/

96

Page 97: Recherche web 2013

Le Web profond, c'est aussi...

Pages discrètes: existantes mais non liées par des hyperliens

Bases de données accessibles à travers une requête ou formulairePages générées de façon dynamique (ASP, Cold Fusion);

Il est plus facile (et aussi moins onéreux) de générer une réponse de façon dynamique par requête plutôt que d'entreposer (archiver) toutes les pages possibles contenant toutes les réponses possibles de toutes les questions possibles...

Pages contenant des scripts (code avec un "?" par exemple)

Par exemple, Google Scholar ne peut que pointer vers des citations de références de périodiques très spécialisés (revues savantes, etc.). Il ne peut aller directement vers un contenu complet et protégé (mot de passe, abonnement payant, etc.) des bases de données des grandes universités.

Véritable Intranet (entre les murs d'un immeuble, sans plus)Ex: Compagnies d'assurance

Intranet/Extranet/ou wiki interne:Le wiki interne de la Faculté de l'éducation permanentehttps://intrawiki.umontreal.ca/

Une recherche dans une bibliothèque virtuelle. (La requête disparaît lorsque la session se termine).

97

Page 98: Recherche web 2013

Pourquoi les moteurs n'indexent pas tout le Web ?

Les robots des moteurs sont surtout conçus pour chercher des pages en HTML (statiques) qui reposent dans un serveur.

Depuis 2005-2006,plusieurs moteurs comme Google peuvent trouver des pages dynamiques (avec un lien stable)...

Un moteur ne peut pas "penser" ni taper du texte...(code utilisateur, mot de passe, autre texte, opérateurs propres au moteur de recherche interne).

On entend souvent dire que les méthodes de recherche de base et leur technologies n'ont pas évolué de manière vraiment significative depuis les débuts d'Internet...

On commence à entendre parler de "smart robots" qui pourraient indexés le Web profond. C’est déjà commencé...

Seuls des fichiers HTML, les fichiers musicaux ( MP3, midi, etc.) et certaines images (gif, jpg) accompagnés de texte sont indexés convenablement.Tout ce qui est en «flash» n’est pas indexé....

98

Page 99: Recherche web 2013

Comment trouver des informations du Web profond ?

Pensez toujours en fonctions des bases de données

Bases de données:

“Ensemble structuré d'éléments d'information, généralement agencés sous forme de tables, dans lesquels les données sont organisées selon certains critères en vue de permettre leur exploitation”.

Source: Grand dictionnaire http://gdt.oqlf.gouv.qc.ca/ficheOqlf.aspx?Id_Fiche=8355656

Mot clé à ajouter à votre requête: database

Certains répertoires du Web permettent la recherche par mot clé ou par navigation à l'intérieur de liens pointant vers des bases de données...

Exemples (par où commencer):

Infomine: http://infomine.ucr.edu

Internet Public Library (IPL2): http://www.ipl.org Répertoire des bases de données gratuites disponibles dans Internethttp://dadi.univ-lyon1.fr/

Libdex (Index des grandes bibliothèques du monde entier)http://www.libdex.com/

99

Page 100: Recherche web 2013

1e niveau de recherche:

Accès à une base de données par le biais d’un moteur conventionnel.

2e niveau:interrogation profonde d’une base de données.

Avec Google, par exemple, on peut trouver des bases de données en ajoutant comme mots clés le mot database:

Exemples simples de requêtes de recherche:

Accident Avion OR Plane +database (Avec Google) www.google.ca Languages database (Avec Google)

database Toxic Products (Google)

Autres mots clés à utiliser pour faire des recherches dans le Web profond, en plus des mots reliés à une industrie particulière:

PortalComplianceIndex

Références A+Research Beyond Google:http://oedb.org/library/college-basics/research-beyond-google

100

Page 101: Recherche web 2013

Web Profond/Recherche sémantique

Quelques ressources

List of Academic databases and search engineshttp://en.wikipedia.org/wiki/List_of_academic_databases_and_search_engines

Hakia:http://www.hakia.comQuintura:http://www.quintura.comBiznar:http://biznar.com/biznar/Complete planet: http://www.completeplanet.comPipl:http://www.pipl.comDeepPeep:http://www.deeppeep.orgInternet Archive: http://www.archive.orgBeaucoup: http://www.beaucoup.comIncyWincy: http://www.incywincy.com/

Deep Web Research 2010 (Marcus P. Zellman)http://www.llrx.com/features/deepweb2010.htmExploring a DeepWeb that Google can’t grasphttp://www.nytimes.com/2009/02/23/technology/internet/23search.html?_r=1&th&emc=thVoir aussi:Ressources d’images (web profond) http://www.readwriteweb.com/archives/digital_image_resources_on_the_deep_web.php

101

Page 102: Recherche web 2013

Exemples de base de donnés du Web profond (art, littérature, gouvernements, affaires, etc.)

Musée du Louvre: http://www.louvre.fr/llv/oeuvres/bdd_oeuvre.jsp?bmLocale=fr_FR

Musée Guggenheim: http://www.guggenheim.org/new-york/collections/collection-online

Smithsonian Institution:http://www.siris.si.edu

Library of Congress:http://www.loc.gov/search/new/

Projet Gutenberg:http://www.gutenberg.org/wiki/Main_Page

US Consumer Product Safety Commission:http://www.cpsc.gov/cpscpub/prerel/prerel.html

American Association of Advertising Agencies: http://www.aaaa.org/eweb/dynamicpage.aspx?webcode=findagency

Hoovers: http://www.hoovers.com

Documents de la CIA (Accès information/FOI): http://www.foia.cia.gov

FreeLunch:http://www.economy.com/freelunch/default.asp

FlightWise:http://flightwise.com/default.aspx

Voir aussi:99 Resources to Research and Mine the Invisible Webhttp://www.collegedegree.com/library/college-life/99-resources-to/

102

Page 103: Recherche web 2013

Un wiki offrant une base de données (entre autres)http://www.alacrawiki.com/

103

Page 104: Recherche web 2013

L'ambiguïté du Web invisible... Selon les spécialistes en sciences de l'information de Berkeley, on ne peut toujours savoir ou prévoir quels types de sites (ou portions de sites) font partie du Web invisible.

Voici quelques facteurs : Quels sites offrent le contenu de leur base de données en pages statiques (visible, hybride, invisible) ?

Politique d'inclusion ou d'exclusion des moteurs de recherche.

Autres exemples de sites dits invisiblesNASA Image Exchange http://nix.nasa.gov/

JSTOR project http://www.jstor.org

Right-to-Know Network http://www.rtk.net/

National Climatic Data Center http://www.ncdc.noaa.gov/oa/ncdc.html

Voir aussi Search Engine Landhttp://searchengineland.com

104

Page 105: Recherche web 2013

Accès à des données publiques via Googlehttp://www.google.com/publicdata/directory

105

Page 106: Recherche web 2013

L'ambiguïté du Web invisible...

Source: Deep Web: 20,000 lieues sous Googlehttp://leblogalupus.com/2013/08/25/deep-web-20000-lieues-sous-google/

106

Page 107: Recherche web 2013

Une recherche efficace et exhaustive favorisera une approche moteur et

une approche répertoire multiples.

Il faut en effet passer à travers plusieurs outils de recherche.

Évitez d’utiliser qu'un seul outil de recherche.

Bonne recherche !

107

Page 108: Recherche web 2013

Merci de votre attention

Patrice Leroux

[email protected]

http://twitter.com/patriceleroux

http://patriceleroux.blogspot.com/

108