pour les professionnels rechercher l’information

30
& Informat on stratég e Rechercher l’information stratégique sur le web Sourcing, veille et analyse à l’heure de la révolution numérique Véronique Mesguich Préface d’Anne-Marie Libmann

Upload: others

Post on 07-Nov-2021

4 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Pour les professionnels Rechercher l’information

Nouveau défi pour l’entreprise après les réseaux sociaux et les big data, l’intelligence artificielle et l’Internet des objets révolutionnent le monde numérique. Pour évoluer dans ce nouvel environnement de travail, les professionnels doivent pouvoir rechercher, surveiller et analyser efficacement l’information.

Rédigé par une experte en veille stratégique, cet ouvrage actualise les connaissances dans les domaines de la recherche d’information et de la veille sur Internet. Il permet de comprendre le fonctionnement actuel des moteurs de recherche, d’optimiser les recherches web, d’identifier des sources d’information méconnues, de mettre en place différents types de veille stratégique et de découvrir un éventail de méthodes d’analyse automatisée de l’information.

Pratique et opérationnel grâce à ses exemples concrets, cet ouvrage permet à tout internaute de trouver, collecter, qualifier et analyser l’information réellement utile : un véritable guide de survie dans la jungle de l’information numérique.

VÉRONIQUE MESGUICH est consultante-formatrice dans le domaine de la méthodologie de veille et du management stratégique de l’information. Elle intervient dans de nombreux établissements d’enseignement supérieur, dont l’École européenne d’intelligence économique (EEIE) et le CNAM, ainsi qu’en entreprise. Elle a dirigé l’Infothèque du Pôle universitaire Léonard de Vinci et a été coprésidente de l’ADBS.

ANNE-MARIE LIBMANN (préface) est directrice des opérations FLA Consultants.

&Informat onstratég e

Pour les professionnels de la documentation, de l’information, de la communication et du marketing stratégique ; pour les étudiants et enseignants de ces filières.

Rec

herc

her l

’info

rmat

ion

stra

tégi

que

sur l

e w

ebVé

roni

que

Mes

guic

h

Desi

gn c

eris

e.be

&Informat onstratég e

Rechercher l’information stratégique sur le webSourcing, veille et analyse à l’heure de la révolution numérique

Véronique Mesguich

Préface d’Anne-Marie Libmann

ISBN 978-2-8073-1578-5ISSN 2295-3825

www.deboecksuperieur.comCréée en 1963, l’ADBS (Association des Professionnels de l’information) fédère une grande variété de professionnels de l’information numérique (veilleurs, knowledge managers, gestionnaires de contenus numériques, documentalistes, records managers, etc.). Elle compte plus de 3 000 membres en France. En 2013, l’ADBS s’associe aux éditions De Boeck pour créer la collection « Information & Stratégie » qui allie les savoir-faire des deux partenaires.

9782807315785_INFOSTRAT_CV.indd Toutes les pages 05/06/2018 12:08

Page 2: Pour les professionnels Rechercher l’information
Page 3: Pour les professionnels Rechercher l’information

Rechercher l’information stratégique sur le web

p001-208_9782807315785.indd 1 04/06/2018 13:52

Page 4: Pour les professionnels Rechercher l’information

regroupe des ouvrages pratiques et de réflexion destinés à l’entreprise et à ses professionnels, aux enseignants et aux étudiants concernés par la gestion de l’information et toutes les problématiques stratégiques qui y sont liées.

La collection s’adresse tant aux responsables marketing, communication, business analysts, RH, docu-mentalistes, ingénieurs, chercheurs, bibliothécaires ou journalistes qu’aux étudiants et enseignants de ces filières. Elle fournit des outils et analyses de qualité, au contenu complet bien que concis, avec des exemples concrets et des illustrations. Des encadrés thématiques et une structure bien découpée per-mettent, au choix, une lecture fragmentée ou continue des ouvrages, toujours opérationnelle.

« Information & Stratégie » porte le label de l’ADBS, l’Association des professionnels de l’information et de la documentation, la plus importante association professionnelle de France dans le domaine des métiers de l’information. Créée en 1963, l’ADBS compte près de 3000 membres actifs.

La collection est dirigée par Stéphane Cottin, chargé de mission pour le développement des systèmes d’information et la valorisation des ressources documentaires auprès du cabinet du Secrétaire général du Gouvernement, et Ghislaine Chartron, professeur au Conservatoire national des arts et métiers de Paris (CNAM) et directrice d’un institut de formation des professionnels de l’information (INTD). Tous deux lui apportent leur expertise dans les domaines de l’information et de la documentation.

DÉJÀ PARUS :

Joumana Boustany, Evelyne Broudoux, Ghislaine Chartron (dir.), La médiation numérique : renouvellement et diversification des pratiques. Actes du colloque « Document numérique et société », Zagreb, 2013

Evelyne Broudoux, Ghislaine Chartron (dir.) Big data – Open data. Quelles valeurs ? Quels enjeux ? Actes du colloque « Document numérique et société », Rabat, 2015

Franck Bulinge Maîtriser l’information stratégique. Méthodes et techniques d’analyse

Lisette Calderan, Pascale Laurent, Hélène Lowinger et Jacques Millet (coord.) BIG DATA. Nouvelles partitions de l’information. Actes du séminaire IST Inria, octobre 2014 Publier, éditer, éditorialiser. Nouveaux enjeux de la production numérique

Pascal Junghans Les dirigeants face à l’information. Traitement, appropriation, décision

Véronique Mesguich, Armelle Thomas Net Recherche 2013. Surveiller le web et trouver l’information utile

Véronique Mesguich Rechercher l’information stratégique sur le web. Sourcing, veille et analyse à l’heure de la révolution numérique

Sébastien Rouquette (dir.), Site internet : audit et stratégie

Jean-Michel Salaün, Benoît Habert (dir.) Architecture de l’information. Méthodes, outils, enjeux

Frédéric Simonet WordPress, Joomla, Drupal. Comparer avant de s’engager

André Tricot, Gilles Sahut, Julie Lemarié Le document : communication et mémoire

&Informat onstratég e

p001-208_9782807315785.indd 2 04/06/2018 13:52

Page 5: Pour les professionnels Rechercher l’information

&Informat onstratég e

Rechercher l’information stratégique sur le web

Véronique Mesguich

Préface d’Anne-Marie Libmann

Sourcing, veille et analyse à l’heure de la révolution numérique

p001-208_9782807315785.indd 3 04/06/2018 13:52

Page 6: Pour les professionnels Rechercher l’information

Couverture et maquette intérieure : cerise.beMise en page : PCA

© De Boeck Supérieur s.a., 2018 1re édition Rue du Bosquet, 7 – B-1348 Louvain-la-Neuve Tous droits réservés pour tous pays. Il est interdit, sauf accord préalable et écrit de l’éditeur, de reproduire (notamment par photocopie)

partiellement ou totalement le présent ouvrage, de le stocker dans une banque de données ou de le communiquer au public, sous quelque forme et de quelque manière que ce soit.

Dépôt légal :

Bibliothèque nationale, Paris : juillet 2018 ISSN 2295-3825 Bibliothèque royale de Belgique, Bruxelles : 2018/13647/057 ISBN 978-2-8073-1578-5

Pour toute information sur notre fonds et les nouveautés dans votre domaine de spécialisation, consultez notre site web : www.deboecksuperieur.com

p001-208_9782807315785.indd 4 04/06/2018 13:52

Page 7: Pour les professionnels Rechercher l’information

5

PRÉFACEAvant l’arrivée d’Internet, tout était simple dans le monde de l’infor-mation… ou en tout cas bien rangé.

Le savoir était classé et codifié, à chaque instant, consciencieuse-ment, courageusement, par les tenants de la science bibliothécaire, animés d’une foi messianique dans leur mission de conservation durable du patrimoine universel. Des rayonnages physiques codifiés aux bases de données électroniques structurées, la connaissance était accessible via des méthodologies et langages de requêtes experts et propriétaires.

Et seuls ces hyperspécialistes, bibliothécaires ou documentalistes, détenaient les clefs d’un monde de contenus et de données hermé-tiquement codé. Le « client », simple citoyen ou cadre d’entreprise, devait impérativement passer par cette intermédiation profession-nelle qui seule permettait et sécurisait l’accès à la connaissance.

Internet est venu balayer cet ordre bien établi. Son arme fatale, le moteur de recherche, a brutalement anéanti toutes les barrières à l’entrée du monde de l’information, ouvrant au chercheur d’infor-mation une infinité de ressources numériques, immédiatement accessibles dans leur intégralité, quels que soient la nature et le format du document ou de la donnée.

Et sur ce marché de consommation de « masses d’information », l’internaute exige d’avoir en temps réel, et en toute autonomie, un accès direct au produit informationnel, offrant lui-même, commerce oblige, son identité numérique en échange d’un peu de gratuité…

Dans cette nouvelle relation entre l’internaute à la fois consomma-teur, produit et producteur, et le fournisseur classique d’information, le rôle de la référence institutionnalisée a été fortement ébranlé. Le centre de référence, bibliothèque et centre de documentation, a été déclassé, avec toutes les compétences développées depuis des décennies.

La perte de référence reconnue s’accompagne d’ailleurs de la dis-parition des filtres permettant d’apprécier qualitativement la valeur des informations. On citera pour exemple la relégation fréquente au second plan ou même l’ignorance, dans l’arsenal des sources d’information, des bases de données professionnelles, dont la valeur repose précisément sur la notion de tri et de filtre : n’y sont acces-sibles que les articles émanant de revues qualifiées.

En extrapolant, la perte de la référence globale et du filtre qualitatif trouve une illustration avec le fléau des fameuses « fake news », phénomène majeur de la consommation indifférenciée et primaire de l’information.

Il est difficile de mesurer les dommages économiques de la perte de la compétence de recherche d’information, consécutive à celle du centre référent expert. On ne compte plus les entreprises qui ont décidé de remplacer cette expertise par des recherches primaires,

p001-208_9782807315785.indd 5 04/06/2018 13:52

Page 8: Pour les professionnels Rechercher l’information

6

Préf

ace

non structurées, voire hasardeuses sur le web… quand elles ne choisissent pas de confier le devenir de leur R&D au seul Google Scholar, balayant d’un coup l’expertise interne de recherche et les outils jusque-là admis. En effet, même si elles sont désormais appe-lées, ce n’est pas un hasard, « web invisible », les bases de données professionnelles, bien sûr payantes, constituent toujours des outils irremplaçables, dont l’accès exige heureusement toujours une métho-dologie structurée et qualifiée. Il s’agit d’une expertise et d’outils stratégiques, au regard des enjeux de développement de l’entreprise.

Comment aborder un monde numérique sans limites, réservoir de données sans fond, où tout, document, image, voix, jusqu’à la personne même de l’être humain, devient donnée de recherche ? Peut-on véritablement s’y retrouver tout seul avec efficacité ? Le chemin de la connaissance est-il vraiment devenu plus simple que celui de la bibliothèque ? Peut-on se fier à la seule sérendipité de la navigation, certes concept d’exploration intéressant, et ignorer l’apport des véritables méthodologies de recherche, a fortiori quand on a un objectif fort de performance de recherche, comme doivent l’avoir une entreprise, un étudiant, un chercheur ?

Rien n’est moins sûr et la lecture du livre de Véronique Mesguich nous apporte justement la réponse qu’il nous fallait : oui, ce monde est beaucoup plus complexe et infiniment plus large que le monde d’avant, et oui, il faut (ré)apprendre à le maîtriser. Mais on peut y arriver si l’on utilise méthode et intelligence.

Et ce sont précisément ces méthodologies, ces meilleures pratiques de recherche d’information que nous apporte l’auteur, et qui de fait constituent un véritable « benchmark » à l’aune duquel chacun pourra évaluer sa pratique d’Internet pour l’enrichir et la faire évoluer.

Au-delà de la question de l’accès à l’information au cœur de ce livre, Véronique Mesguich met également au premier plan une ques-tion tout aussi cruciale : la qualification, la validation et l’analyse de l’information. Cruciale car elle touche à notre compréhension du monde et conditionne nos décisions. Elle conditionne aussi les décisions des entreprises et, à ce titre, a un impact considérable sur la vie économique.

Les entreprises devraient être conscientes, certaines le sont, de l’enjeu que représente un dispositif de captation et d’analyse de l’information pertinent. Ceux-ci à notre avis ne peuvent être effi-cients que s’ils intègrent une modernité numérique qui est celle du monde de l’information d’aujourd’hui.

Ce sont les clefs de l’accès à ce monde de l’information actuel, dans son état de révolution numérique permanente, que nous délivre ici Véronique Mesguich, faisant la synthèse de sa riche expérience dans un monde de l’information pris au sens le plus large, qui couvre sans barrières inutiles la veille, la recherche d’information, l’intelligence économique, la bibliothèque.

Par Anne-Marie Libmann, Directrice des opérations FLA Consultants

p001-208_9782807315785.indd 6 04/06/2018 13:52

Page 9: Pour les professionnels Rechercher l’information

7

INTRODUCTIONLa révolution numérique se déploie depuis déjà plusieurs décen-nies, et comme toute révolution, avance par bonds et par étapes. Cette révolution a bouleversé peut-être plus que tout autre secteur le vaste univers de l’information. Depuis une trentaine d’années, la nature des contenus informationnels a profondément évolué : il ne s’agit pas d’une simple mutation technique, mais d’une véritable révolution – que l’on a souvent comparée à l’invention de l’imprime-rie – dans les modes de production, de consommation, de stockage, d’échange d’informations de toutes natures. Ces nouveaux para-digmes concernent tant les professionnels de l’information que les utilisateurs, que ce soit dans le monde de l’entreprise, de l’ensei-gnement ou tout simplement pour les besoins de la vie quotidienne. Comme toute révolution, la numérisation de l’information voit surgir de nouveaux modèles économiques, de nouveaux acteurs et une multitude de services.

« Organiser l’information mondiale et la rendre universellement accessible et utile » : telle est la mission que s’étaient fixée les deux cofondateurs de Google dans les premières années d’existence du célèbre moteur. Alors que Google fête aujourd’hui ses vingt ans – un âge canonique à l’aune du web –, peut-on considérer que la mission est accomplie ? Et comment cette mission peut-elle s’accom-plir de façon efficace face aux volumétries toujours plus importantes de documents et données ? À l’origine, la pratique de la recherche d’information est issue d’une longue tradition, à la fois universi-taire et professionnelle, de requêtes dans des bases de données structurées. Aujourd’hui, selon John Battelle, cofondateur du célèbre magazine Wired, le « Search » ne se limite pas à quelques mots saisis dans un formulaire en ligne. Il s’agit plus d’un mode, « d’une méthode d’interaction avec les mondes physiques et virtuels »1.

Immense et protéiforme, le web peut être perçu aujourd’hui à la fois comme un formidable moyen d’accès à la connaissance et au savoir, mais aussi (et ce n’est pas contradictoire) comme une gigantesque « base de données d’intentions » marketing. Google illustre parfai-tement cette double approche et son ambiguïté.

En 2006, nous avions, avec la consultante Armelle Thomas, coécrit la première édition de l’ouvrage Net Recherche, guide de la recherche et de la veille sur Internet. L’objectif était de présenter aux inter-nautes (qui n’étaient pas encore équipés de smartphones !) la variété des méthodes de recherche web ainsi que les différents moteurs (ils étaient plus nombreux qu’aujourd’hui…). Quatre édi-tions se sont succédé au fil des années et ont suivi l’évolution du web et son impact sur la recherche d’information : déploiement des réseaux sociaux grand public et professionnels, du web de données, avènement du web temps réel, des applications et des contenus multimédias…

1 http://www.wired.co.uk/article/the-future-of-search

p001-208_9782807315785.indd 7 04/06/2018 13:52

Page 10: Pour les professionnels Rechercher l’information

8

Intr

oduc

tion

En ce début du xxie siècle se profile une nouvelle révolution numérique, résultant des avancées en matière d’objets intelli-gents et traitement des données massives. Sommes-nous en train d’intégrer une nouvelle ère, ou plutôt selon la belle expression de Yuval Harari2, une « religion des données numériques » dans laquelle l’univers consiste en un flux de données ? À l’heure où les géants du numérique investissent massivement dans l’intelligence artificielle, la réalité augmentée, la reconnaissance vocale, la datavisualisation, qu’en est-il de la recherche d’information aujourd’hui ? Effectuer une recherche sur Internet n’a jamais été aussi simple pour les utilisateurs ; pourtant, derrière cette apparente simplicité se cache une grande complexité, dans la nature des contenus comme dans les dispositifs techniques. Il ne s’agit pas de verser dans un opti-misme béat devant les progrès apportés par les « GAFA »3, ni de les diaboliser de façon stérile. Il est important, en revanche, que l’on soit un professionnel d’entreprise, un enseignant, un étudiant ou un simple internaute, d’être conscient des formidables capacités des outils de recherche et de veille, mais aussi de leurs limites et des moyens de les pallier. La culture de l’honnête « homo numeri-cus » passe aujourd’hui par la compréhension du fonctionnement des outils, de la maîtrise de leurs fonctionnalités avancées et de la diversité des sources d’information.

Dans l’actuelle société de l’information, dans l’écosystème complexe du web actuel, comment optimiser ses recherches, collecter l’infor-mation stratégique ? Comment trouver par exemple des données financières sur ses concurrents, détecter les dernières innovations et tendances d’un secteur, suivre les nouvelles technologies, iden-tifier des influenceurs sur les réseaux sociaux, surveiller des offres d’emploi, repérer des cours en ligne ? Au temps de « post-vérité », comment juger de la qualité d’une information ? Comment prévenir la redondance et la perte de temps ? Comment éviter de passer à côté d’une information potentiellement stratégique ? Comment dégager des « signaux faibles » et représenter graphiquement la complexité d’une situation ?

Cet ouvrage a pour objectif de présenter, à travers des articles clairs et synthétiques, les solutions, méthodes et sources indispensables pour répondre à ces besoins professionnels et stratégiques.

Un premier chapitre fait le point sur le paysage du web et de l’infor-mation numérique aujourd’hui. Ce chapitre permet de décrypter des termes liés au web actuel : big data, machine learning, chatbots, réalité augmentée (etc.), et fait le point sur l’évolution des réseaux sociaux et des interfaces mobiles. Plusieurs notions techniques fon-damentales et standards du web sont également expliqués.

Le deuxième chapitre est entièrement consacré à la recherche : on y détaille le fonctionnement des moteurs et l’évolution de leurs algo-rithmes. Les concurrents de Google y sont présentés, ainsi que les nombreux moyens d’optimiser les recherches sur les pages web et les réseaux sociaux. Un panorama des sources stratégiques et

2 Y. Harari, Homo deus. Une brève histoire de l’avenir, Albin Michel, 2017.3 L’acronyme GAFA désigne les géants du numérique Google, Apple, Facebook, Amazon. On utilise parfois l’acronyme GAFAM qui inclut également Microsoft.

p001-208_9782807315785.indd 8 04/06/2018 13:52

Page 11: Pour les professionnels Rechercher l’information

9

Rec

herc

her l

’info

rmat

ion

stra

tégi

que

sur l

e w

eb

méthodes de sourcing complète ce chapitre, qui se termine par de nombreux conseils méthodologiques.

Le troisième chapitre est consacré à la veille stratégique et les différentes phases du processus : après une étude de la phase pré-paratoire (plan de veille) sont présentées les multiples façons de collecter l’information, des flux RSS aux alertes automatisées, en passant par la surveillance des réseaux sociaux. Un tableau comparatif des outils de collecte automatisée termine ce chapitre.

Le quatrième chapitre expose les nombreuses méthodes d’analyse de l’information pour la prise de décision. L’analyse peut se baser sur les modèles classiques, mais met en œuvre des méthodes automa-tisées, parmi lesquelles on peut citer la datavisualisation, la fouille de données ou l’analyse du sentiment exprimé entre autres sur les réseaux sociaux.

Le chapitre 5 est composé de mini-études de cas, présentées sous forme de « recettes » correspondant à des besoins récurrents pour les entreprises et organisations : trouver des données financières sur les concurrents, rassembler des informations sur des personnes, repérer les innovations, identifier des experts, etc. Ce chapitre se conclut par un récapitulatif méthodologique général, et déroule pas à pas, à partir d’une étude de cas, les bonnes pratiques de recherche, veille, analyse, stockage et diffusion de l’information stratégique.

La conclusion présente les perspectives d’évolution à l’horizon 2020 et esquisse les contours d’un véritable plaidoyer pour une « litté-ratie numérique », en évoquant les compétences indispensables aujourd’hui et demain.

Cet ouvrage s’adresse à tout internaute confronté à des problé-matiques de recherche, collecte ou analyse de l’information utile. Professionnels d’entreprises ou organisations dans tous secteurs, enseignants, universitaires, étudiants, porteur de projets : chacun y trouvera des méthodes, astuces, bonnes pratiques, et une aide au choix des solutions les plus appropriées.

« Google peut vous donner 100 000 réponses, un bibliothécaire peut vous donner LA bonne » : cette formule de l’auteur britannique Neil Gaiman date du début des années 2010. Elle pourrait ne plus être vraie d’ici peu, tant Google a pour ambition de devenir un moteur de résultats et d’adapter les réponses à ce qu’il devine être l’inten-tion de l’internaute. Quelles que soient les futures orientations des différents outils de recherche, la société de l’information et de la connaissance requiert une bonne maîtrise de leur fonctionnement ainsi qu’une véritable littératie numérique. C’est ce que souhaite apporter cet ouvrage, dont nous vous souhaitons bonne lecture.

p001-208_9782807315785.indd 9 04/06/2018 13:52

Page 12: Pour les professionnels Rechercher l’information

p001-208_9782807315785.indd 10 04/06/2018 13:52

Page 13: Pour les professionnels Rechercher l’information

11

CHAPITRE 1UN UNIVERS NUMÉRIQUE INFINI

Sommaire1. Le paysage du web aujourd’hui 11

2. Un modèle économique et juridique complexe 21

3. Quelques repères techniques 24

4. Quels enjeux pour les utilisateurs ? Quels enjeux professionnels ? 28

Intelligence artificielle, big data, machine learning, algorithmes, « fake news »… Tous ces termes se sont invités dans nos vies numé-riques et sont devenus indissociables de l’Internet de ce premier quart du xxie siècle. La recherche d’information et la veille sont depuis plusieurs années déjà largement impactées par la transformation numérique, et ce phénomène va s’amplifier avec l’évolution toujours rapide d’un web toujours plus complexe. Ce premier chapitre fait le point sur les notions fondamentales liées à cette transformation, et présente les enjeux actuels pour les entreprises et les organi-sations. Nous étudierons notamment la stratégie de Google, qui ne se contente plus depuis longtemps d’être un simple moteur de recherche, mais conquiert constamment de nouveaux utilisateurs pour différents usages sur tous les (vastes) terrains du numérique.

1. LE PAYSAGE DU WEB AUJOURD’HUI

1.1 Web 2, web 3, web 4… où va le web ?

Le grand magazine Wired titrait à sa une en 2010 « The web is dead1 », pour mieux rajouter en sous-titre « Long live the Internet ». Si à l’aube des années 2020 le web est loin d’être mort, malgré le titre un peu provocateur du magazine, force est de constater l’évo-lution constante qu’a connue le web depuis sa création à la fin des années 1980. L’histoire d’Internet est désormais bien connue et nous nous contenterons d’en rappeler les événements marquants. Ce « réseau de réseaux » interconnectés, créé dans les années 1960 par le département des projets spéciaux de l’armée américaine,

1 https://www.wired.com/2010/08/ff_webrip/

p001-208_9782807315785.indd 11 04/06/2018 13:52

Page 14: Pour les professionnels Rechercher l’information

12

Un

univ

ers

num

ériq

ue in

fini

constitue l’infrastructure de nombreux services : le courrier électro-nique, les échanges point à point, les transferts de fichiers… et le web, créé en 1989 par Tim Berners-Lee. Les premiers sites à propre-ment parler apparaissent en 1991, ce sont encore des ensembles de pages statiques, reliées entre elles via des liens hypertextes, et pré-sentant des contenus encore très textuels. Pourtant, dès les années 1990 se développent les premiers sites de commerce électronique. La personnalisation et la mutualisation percent déjà à cette époque à travers les forums et les « sites personnels », ancêtres des blogs. Le fameux « éclatement de la bulle Internet », au début des années 2000, est suivi d’une courte période d’essoufflement du web. Ce n’est que pour mieux repartir avec une déferlante de plateformes toujours plus dynamiques, interactives et multimédias. La publication sur le web est rendue plus simple, interactive et s’effectue de plus en plus en temps réel. C’est la grande vague du « web 2.0 ». Ce phénomène, qui doit son nom à une conférence tenue en 2004 à San Francisco, ne peut se limiter au succès planétaire des réseaux sociaux. Il s’agit bel et bien d’un recentrage du web autour de l’utilisateur lui-même, qui devient plus actif et à même de publier, commenter ou partager des contenus textuels ou multimédias. De nouveaux usages du web apparaissent, notamment via les applications iPhone ou Android, du fait de la généralisation des smartphones et tablettes à partir de la fin des années 2000.Après le web 2, le web 3 ? Le web des années 2010 poursuit en effet les tendances de la décennie précédente en accentuant ses carac-téristiques : temps réel, mobile, multimédia. La notion de « web 3 », beaucoup moins médiatisée et plus difficile à appréhender que le « web 2.0 », élargit la vague précédente du « web social » vers la notion de « web de données » (web of data) : Tim Berners-Lee le définit comme un immense réseau de données liées entre elles par des liens d’interopérabilité. Ce web « sémantique » est surtout destiné à des machines qui vont y effectuer des traitements automatisés, sur la base de standards édictés par le World Wide Web Consortium (W3C).De plus en plus de données sont générées, en temps réel, non seu-lement par les humains (via entre autres les médias sociaux), mais aussi par des capteurs ou objets connectés. C’est le phénomène des « big data », ou données massives, caractérisées par la règle des « 3V » : volume, variété, vitesse. Des modèles de traitement sont mis en place pour analyser en temps réel ces énormes flux de données et en extraire des signaux faibles et hypothèses prédictives.À l’horizon 2020 se profile le web des objets connectés, appelé éga-lement « Internet of things », « IOT » ou parfois « web 4.0 ». Cinquante milliards d’objets pourraient être connectés à Internet d’ici 2020, et ce nombre pourrait atteindre 200 milliards en 2030. Le web des objets repose sur des connexions entre des capteurs connectés à des objets du monde physique et à leurs « jumeaux numériques », c’est-à-dire une représentation digitale d’un objet, d’une personne ou d’un lieu.De façon un peu schématique, on pourrait retracer l’évolution du web comme une superposition de multiples interconnexions : des documents liés par des liens hypertextes, des personnes liées entre elles par des réseaux sociaux, des données liées entre elles par des liens d’interopérabilité, et enfin des objets interconnectés entre eux. Le Gartner Group désigne sous l’appellation « Intelligent digital mesh2 »

2 https://www.gartner.com/smarterwithgartner/gartner-top-10-strategic-technology-trends-for-2018/

p001-208_9782807315785.indd 12 04/06/2018 13:52

Page 15: Pour les professionnels Rechercher l’information

13

Rec

herc

her l

’info

rmat

ion

stra

tégi

que

sur l

e w

eb

(maillage digital intelligent), la complexité des interactions entre les personnes, contenus, services et dispositifs du web.

1.2 Le rythme de l’algorithme

Selon le chercheur Serge Abiteboul, un algorithme n’est rien d’autre « qu’une séquence d’instructions utilisée pour résoudre un problème. La transmission de cet algorithme va permettre de ne pas avoir à inventer une solution à chaque fois3. » Le principe n’est pas nouveau et est utilisé par les mathématiciens depuis des milliers d’années. L’arrivée de la micro-informatique à la fin du xxe siècle, puis la démocratisation d’Internet à travers les smartphones et tablettes, ainsi que la prolifération de contenus numériques ont contribué à un essor sans précédent des algorithmes. Ces programmes dotés d’une puissance de calcul inouïe peuvent analyser en un temps réel des millions de données hétérogènes. On trouve des applications dans tous les secteurs impactés par le numérique : le commerce en ligne, la santé, la finance, la gestion des transports… Dans le domaine de la recherche d’information, ils servent aux moteurs et aux réseaux sociaux à classer les résultats d’une requête. Les machines peuvent désormais apprendre sans l’aide des humains. Le machine learning (ou apprentissage automatique), sous-ensemble de l’intelligence artificielle, donne aux ordinateurs la capacité d’apprendre grâce à des algorithmes. Il existe de nombreuses méthodes d’apprentissage en machine learning, comme les réseaux bayésiens qui analysent les relations entre plusieurs variables. On distingue l’apprentissage supervisé, dans lequel les algorithmes exploitent des données étiquetées existantes, de l’apprentissage non supervisé, appelé également parfois clustering, lorsque les algorithmes doivent découvrir par eux-mêmes des règles et points communs entre des éléments ou données non étiquetées.Le « deep learning », ou apprentissage profond, est un sous-ensemble du machine learning basé sur des « réseaux de neurones profonds », inspirés par le fonctionnement du cerveau humain. Un algorithme de deep learning peut identifier des caractéristiques communes à de nombreuses données et concevoir des modèles prédictifs. Le deep learning est surtout utilisé pour la reconnaissance visuelle, les sys-tèmes de recommandation et le traitement du langage naturel.Les ordinateurs peuvent ainsi prédire le comportement d’un utilisateur à partir de données concernant ses choix effectués précédemment (achats effectués, vidéos visionnées, liens cliqués…). Le laboratoire d’IBM travaille depuis plusieurs années sur les réseaux de neurones et les systèmes cognitifs, à travers son programme « Watson » capable d’analyser le langage, les émotions, le ton de la conversation. Watson trouve ainsi des applications dans des domaines musicaux (par exemple, composer un album de musique), mais surtout dans l’aide à la décision dans les domaines médicaux ou bancaires.Le deep learning, ainsi que le machine learning et l’intelligence arti-ficielle, ont progressé rapidement au cours de ces dernières années, en suscitant à la fois espoirs et inquiétudes. Tout en reconnais-sant les progrès des technologies, le regretté grand spécialiste du cosmos Stephen Hawking avait émis dès 2014 des craintes vis-à-vis

3 S. Abiteboul et G. Dowek, Le temps des algorithmes, Éditions du Pommier, 2017.

p001-208_9782807315785.indd 13 04/06/2018 13:52

Page 16: Pour les professionnels Rechercher l’information

14

Un

univ

ers

num

ériq

ue in

fini

d’une intelligence artificielle qui serait capable de s’améliorer et de se reproduire sans les humains, et à terme de surpasser, voire remplacer les humains4. En début 2018, une trentaine d’experts internationaux alertaient les différents gouvernements et acteurs concernés sur les risques d’une utilisation malveillante de l’intelli-gence artificielle5.Les géants du numérique misent énormément sur l’intelligence artificielle. Les chercheurs de Google ont notamment mis au point un type de réseau neuronal « convolutif » inspiré par des processus biologiques, aux multiples applications dans le domaine du traite-ment de l’imageLes métiers de l’information, et plus généralement les métiers de médiation, vont-ils être remplacés par des algorithmes ? Si de nom-breuses fonctions risquent de disparaître et d’être remplacées par des intelligences artificielles, l’humain reste indispensable pour apporter la sensibilité, l’empathie et le relationnel. Car selon la jolie formule de Christian Fauré, manager chez Octo Technology : « Notre humanité réside justement dans l’incalculable6. »

1.3 Le mobile first et les nouvelles interfaces

De nombreux sites et contenus sont désormais conçus en premier lieu pour le mobile, sous forme d’applications ou de sites adaptatifs (en anglais, « responsive »). À l’été 2017, les requêtes sur mobile ont dépassé, en France, les recherches effectuées via un ordinateur (c’était le cas aux États-Unis depuis 2015). Ces nouveaux usages ont un impact fort sur les interfaces, notamment dans le cas des moteurs de recherche. Les géants du web ont mis en place des tech-nologies destinées à accélérer le chargement des contenus, comme les formats AMP (accélérateur de pages sur mobile) chez Google, ou les Instant Articles chez Facebook (ce format ne faisant d’ailleurs pas l’unanimité chez les éditeurs de presse…).Nous détaillerons au chapitre 2 la stratégie de Google dans ce domaine et notamment le déploiement du nouvel index « mobile first » qui privilégie des versions mobiles des pages.Ajoutons à cela l’importance grandissante de la recherche vocale. 20 % des recherches Google s’effectuent aujourd’hui de cette façon. Les « GAFA » misent actuellement beaucoup sur les assistants per-sonnels commandés par la voix : le marché du « smart home » se développe avec des produits comme l’enceinte connectée Google Home, ou le boîtier « intelligent » Alexa d’Amazon. Là encore, des conséquences sont à attendre en matière d’usages de la recherche d’information : les recherches vocales sont formulées en langage naturel, et non pas sous forme de mots-clés comme les requêtes saisies sur un clavier.

4 http://www.bbc.com/news/av/technology-30299992/stephen-hawking-full-interview-with-rory- cellan-jones5 https://www.eff.org/files/2018/02/20/malicious_ai_report_final.pdf6 https://www.apologos.org/app/download/12944294327/Cours+Les+algorithmes.pdf

p001-208_9782807315785.indd 14 04/06/2018 13:52

Page 17: Pour les professionnels Rechercher l’information

15

Rec

herc

her l

’info

rmat

ion

stra

tégi

que

sur l

e w

eb

1.4 Bots et chatbots

Ce fut l’un des mots phares du monde du numérique en 2016 : les chatbots, ou robots conversationnels, se sont invités dans les réseaux sociaux, les messageries instantanées et plusieurs sites de commerce électronique. Facebook est l’un des pionniers dans ce domaine, de même que Google et Microsoft, ce dernier testant au printemps 2016 sur Twitter sa créature virtuelle « Tay », désactivée assez rapidement suite à des « dérapages » dus à une mauvaise influence d’internautes humains… Google, de son côté, mise sur des solutions d’aide à la création de chatbots en langage naturel via sa console Dialogflow, avec en vue des applications autour de la commande vocale et de l’enceinte connectée Google Home (voir plus haut). La solution Chatbase, créée également par Google, permet d’analyser la performance des chatbots, à l’instar d’un Google Analytics qui mesure l’audience de sites classiques.Les chatbots représentent-ils l’avenir de la relation client ? Seront-ils capables de « pousser » automatiquement des contenus personnali-sés vers les internautes ? Les sites classiques risquent-ils d’évoluer vers de simples stocks de contenus animés par des robots conver-sationnels ? Nous ne sommes certainement qu’au tout début d’une technologie qui va gagner en maturité et en spécialisation, et ne se limitera pas à la relation client ni au commerce conversationnel, mais s’invitera de plus en plus dans le domaine de l’accès à l’information.

1.5 Réalité augmentée ou réalité virtuelle ?

Ces deux concepts très en vogue dans le monde du numérique sont proches, mais il convient de les distinguer. L’utilisateur de réalité virtuelle se trouve plongé dans la simulation d’une situation, grâce à l’immersion totale au milieu d’images 3D programmées pour réagir en temps réel aux actions effectuées par l’utilisateur. Le dispositif de spatialisation sonore est assuré par un casque de réalité virtuelle. La réalité augmentée est plus proche de la « vraie » réalité, puisqu’elle consiste en une superposition au monde réel de données ou images virtuelles diffusées via un casque, mais aussi un smartphone ou des lunettes telles que les Google Glass. La réalité mixte se situe entre les deux types de réalité, en proposant une immer-sion partielle dans un monde virtuel. Google et Apple ont développé des applications de réalité augmentée pour équiper les smartphones dotés des systèmes Android ou iOS. Facebook fait aussi le pari de la réalité augmentée, afin d’enrichir les contenus du réseau social et s’attaquer à la concurrence de nouveaux entrants comme Snapchat.

1.6 Les data sont-elles forcément big ?

Les chiffres atteignent des sommets vertigineux dès qu’il s’agit des données : selon le cabinet Deloitte, la taille de l’univers numérique devrait atteindre d’ici 2020 40 zettabytes de données, soit 44 mil-liards de téraoctets7. Il convient de différencier la provenance de ces données massives : elles sont générées en temps réel, non seule-ment par les humains (via entre autres les médias sociaux), mais

7 https://www2.deloitte.com/fr/fr/pages/technology/articles/tendances-data-analytics-2017.html

p001-208_9782807315785.indd 15 04/06/2018 13:52

Page 18: Pour les professionnels Rechercher l’information

16

Un

univ

ers

num

ériq

ue in

fini

aussi par des capteurs, ou encore des transactions via des systèmes d’informations ou objets connectés. Les big data ne sont pas toutes en ligne, elles peuvent être stockées dans des « data centers » ou autres « data lakes » au sein d’une entreprise.En quoi ces données massives peuvent-elle être utiles pour la recherche d’information et la veille ? Tout d’abord, n’oublions pas que toutes les data ne sont pas forcément « big » et il existe une grande variété de qualificatifs dans le vocabulaire de la donnée :

• On parle de « small data » pour désigner des données dont la lecture et la compréhension ne nécessitent pas de recourir à des outils d’analyse complexes. Les « small data » ne s’opposent pas aux « big data », elles en constituent plutôt un sous-ensemble, plus facile à manipuler ou à appréhender.

• Le phénomène de l’« open data » concerne la libération et la réu-tilisation de données généralement publiques, illustrée en France par la plateforme data.gouv.fr, qui agrège des jeux de données en formats ouverts et réutilisables, provenant d’institutions et collectivités. De nombreux gouvernements, institutions ou col-lectivités proposent désormais leurs données dans des formats ouverts. Ce phénomène est particulièrement intéressant pour la recherche d’information et la veille.

• Le concept de « smart data » désigne un dispositif d’analyse de données en temps réel et directement depuis leur source, portant généralement sur des données provenant d’objets connectés, et pertinentes par rapport à une problématique (par exemple, analyse marketing du sentiment exprimé par les utilisateurs d’un produit, diagnostic des équipements et maintenance préventive dans l’industrie, etc.). Le « smart data » apporte ainsi une nouvelle dimension issue de l’intelligence à la « business intelligence ». Nous développerons ces points au chapitre 4.

• La notion de « dark data » (à ne pas confondre avec le « dark web ») correspond à d’innombrables données non utilisées et non analysées, souvent par méconnaissance de leur existence, ou de leur intérêt potentiel.

• Quant au concept de « linked data », il a été défini dès le milieu des années 2000 par Tim Berners-Lee et utilisé dans le cadre du web de données (voir plus haut) pour désigner ce vaste réseau d’informations liées entre elles. De grandes bases de données ouvertes comme DBpedia ou Geonames servent de référentiels destinés à lier les données entre elles et constituer ce « grand graphe géant » qui rendra la recherche web plus efficace et dynamique. Les liens entre ces « linked data » sont effectués par et pour des machines, de façon à rendre ces données interopérables entre elles, et faciliter la compréhension de ces données par des outils automatisés. Le principe des linked data s’appuie entre autres sur le RDF, langage de base du web sémantique.

Une étude menée par le cabinet Qlik portant sur « Les salariés européens et leurs connaissances sur la data », pointe les lacunes des Français dans le domaine de la data et les présente comme des « datanalphabètes »8 . La « data literacy » consiste en la capacité

8 http://www.influencia.net/fr/actualites/tendance, etudes, francais-sont-analphabetes-data, 7819.html

p001-208_9782807315785.indd 16 04/06/2018 13:52

Page 19: Pour les professionnels Rechercher l’information

17

Rec

herc

her l

’info

rmat

ion

stra

tégi

que

sur l

e w

eb

à rechercher, lire, manipuler, mais surtout analyser des jeux de données et les utiliser dans le processus de décision.Dans le domaine de la recherche d’information et de la veille, on aura principalement affaire à de l’« open data » en tant que données brutes à traiter, ou bien à des « smart » ou « small » data, jeux de données pertinents par rapport à une problématique donnée. Un parallèle peut être établi avec le datajournalisme, ou journalisme de données, qui consiste à exploiter des données pour mettre en évidence des faits, des relations, des tendances…Le « data scientist » ou le « chief data officer » sont davantage concernés par la gestion et l’analyse des big data ou l’identification des « dark data ». Quant aux « linked data », elles sont surtout exploitées par des architectes de l’information ou promoteurs du web de données.Le chapitre 4 présentera un panorama des principales méthodes de datavisualisation, utiles aux professionnels de la veille ou du datajournalisme.

1.7 Réseaux sociaux : de nouveaux usages

Apparus il y a une dizaine d’années, les réseaux sociaux ont boule-versé le paysage de la publication et du partage d’information, et se sont peu à peu invités dans la panoplie des solutions de recherche d’information et de veille.Le monde des réseaux sociaux a connu au cours des dernières années plusieurs bouleversements : disparitions, rachats, nouveaux entrants (etc.), mais semble se stabiliser actuellement autour de plusieurs grands acteurs.Actuellement, Facebook domine largement le secteur avec plus de 2 milliards d’utilisateurs actifs dans le monde (et plus de 33 millions en France)9 . Le groupe Facebook détient par ailleurs non seulement Instagram, mais aussi les applications de messagerie Messenger et WhatsApp. Nous détaillerons au chapitre 2 la stratégie actuelle du groupe, qui souhaite élargir son périmètre bien au-delà de ses objectifs originaux que sont le divertissement et la mise en relation des internautes. Facebook veut constituer le point d’entrée unique pour l’accès au web, et va ainsi de plus en plus concurrencer Google sur son propre terrain, notamment dans le domaine des recherches de proximité ou les recherches de produits et services marchands.Dans la catégorie des réseaux généralistes, Twitter reste loin der-rière avec 330 millions d’utilisateurs actifs, dont 15 millions en France. Le réseau à l’oiseau bleu a connu une fin d’année diffi-cile en 2016, et plusieurs candidats, dont Google, étaient sur les rangs en vue d’un éventuel rachat. Malgré, ou à peut-être cause de ses qualités intrinsèques (l’ouverture, le caractère « professionnel » des échanges conversationnels, l’instantanéité), la monétisation d’audience reste difficile pour ce réseau, qui peine à dépasser une sorte de plafond de verre.En raison de la viralité forte des images et vidéos, les réseaux multimédias se taillent la part du lion : YouTube dépasse les 1,5 milliard d’utilisateurs dans le monde ; Instagram, racheté par Facebook, en compte 800 millions, tandis que Pinterest rassemble plus de 200 millions. Nous étudierons au chapitre 2 les modalités

9 Sources des données chiffrées mentionnées dans ce paragraphe : http://www.alexitauzin.com/2013/04/combien-dutilisateurs-de-facebook.html

p001-208_9782807315785.indd 17 04/06/2018 13:52

Page 20: Pour les professionnels Rechercher l’information

18

Un

univ

ers

num

ériq

ue in

fini

de recherche via ces réseaux, et au chapitre 3 leur intérêt pour les différents types de veille.La progression la plus spectaculaire est celle de Snapchat, qui est entré dans la « cour des grands » avec plus de 170 millions d’utili-sateurs dans le monde, dont 8 millions en France. Très prisé par les adolescents et les jeunes adultes, cette application de partage de photos et vidéos éphémères a conquis la génération « selfie » grâce entre autres au caractère éphémère, visuel et privé des « snaps ». Autre mode de publication phare du réseau, les « stories » consistent en une sorte de diaporama d’images ou vidéos, disponibles durant 24 heures. Cette fonctionnalité a d’ailleurs été par la suite adoptée par Instagram (application Instagram Direct) et d’autres réseaux du groupe Facebook.Facebook et Twitter s’étaient déjà lancés depuis 2015 dans le streaming de vidéos en direct, avec leurs applications respectives Facebook Live et Periscope. La réalité augmentée et la réalité mixte (voir plus haut) devraient intégrer peu à peu aux réseaux sociaux des capacités d’immersion partielle.Du côté des réseaux professionnels, LinkedIn, racheté en 2016 par Microsoft, reste de loin en tête avec plus de 500 millions d’uti-lisateurs dans le monde, éclipsant largement Viadeo racheté par Le Figaro en fin 2016.La sphère universitaire est également impactée par le phénomène des réseaux sociaux académiques, permettant aux chercheurs d’échanger et d’interagir entre eux (on parle alors de « science 2.0 ») et de promouvoir leurs publications de recherche. Nous verrons au chapitre 3 l’intérêt de réseaux comme ResearchGate (plutôt orienté sciences exactes) ou Academia (plutôt orienté sciences sociales) pour la veille stratégique. Espaces de convivialité, les réseaux sociaux académiques se distinguent des plateformes de dépôt d’archives ouvertes (comme HAL mis en place par le CNRS) dans la mesure où ils n’ont pas vocation à l’archivage pérenne. Certains éditeurs de publications scientifiques considèrent les réseaux sociaux académiques comme une concurrence déloyale. En fin 2017, ResearchGate était visé par une plainte de plusieurs éditeurs scientifiques, dénonçant une violation du droit d’auteur. Des milliers d’articles pourraient à terme être amenés à disparaître du réseau académique.De façon plus générale, cette évolution des réseaux sociaux vers des contenus de plus en plus multimédias, privés et éphémères est-elle compatible avec la pratique de la recherche et de la veille ? Nous verrons dans les chapitres suivants comment contourner ces difficultés et rechercher ou collecter des contenus de qualités via les différents réseaux sociaux.Car on constate depuis déjà plusieurs années la convergence – et la concurrence accrue – entre moteurs de recherche et réseaux sociaux. Facebook s’est doté de son propre moteur depuis 2015 : inversement, les deux leaders Google et Bing se sont dotés (sans grand succès !) de réseaux sociaux, ou de flux d’actualité comme Google Feed. Une grande partie des internautes – et notamment pour des recherches très « quotidiennes » – sont en attente en effet de résultats concis et précis… que ne fournissent pas toujours les moteurs classiques, mais que les réseaux sociaux sont plus à même de fournir.D’un autre côté, le monde des réseaux sociaux est marqué par des phénomènes de manipulation d’information ou d’influence (les

p001-208_9782807315785.indd 18 04/06/2018 13:52

Page 21: Pour les professionnels Rechercher l’information

19

Rec

herc

her l

’info

rmat

ion

stra

tégi

que

sur l

e w

eb

fameuses « fake news »), et de redondance dus aux nombreux relais de messages. Le danger des « bulles de filtres », ou enfermement algorithmique, est également régulièrement pointé : l’utilisateur de réseaux sociaux aurait tendance à s’isoler dans une sorte de bulle de « pensée unique », et n’échangerait qu’avec des personnes par-tageant les mêmes opinions ; et les algorithmes auraient tendance à « pousser » vers l’utilisateur, afin de le fidéliser, des contenus cor-respondant à ses opinions.Le concept des « bulles de filtre », défini dès 2011 par le militant Eli Pariser10, a été largement évoqué dans le contexte très politique des années électorales 2016 et 2017, aux États-Unis, comme au Royaume-Uni et en France. Pour autant, une étude récente11 destinée à mesurer la polarisation de la société tendrait à prouver que cette polarisation se manifeste principalement chez des groupes de per-sonnes utilisant peu Internet et les réseaux sociaux. Quoi qu’il en soit, Mark Zuckerberg a annoncé une modification des algorithmes de Facebook, destinée à donner moins de visibilité aux messages des médias ou des marques, pour mieux favoriser les publications des amis et des proches.

1.8 Blogs, wikis et forums

Blogs et wikis sont deux formes de publication ne nécessitant pas de compétences techniques pour leur utilisation. Ces deux formes illustrent parfaitement les deux tendances complémentaires du web 2.0 : personnalisation et mutualisation. Un blog est bien sûr un espace personnel, dans lequel des billets sont publiés et organisés par ordre antéchronologique. L’auteur du blog est géné-ralement le seul à publier, les billets pouvant être commentés par les internautes. Un wiki est davantage destiné à la publication collaborative : plusieurs personnes peuvent participer à l’élabora-tion et à la modification des contenus. L’apparence est plus neutre, et les articles sont organisés généralement sous forme d’une arbo-rescence de thèmes.Où en sont les blogs et wikis aujourd’hui ? Après avoir rencontré un grand succès au milieu des années 2000, la blogosphère a beau-coup évolué et s’est en quelque sorte « fondue » dans la masse du web. Peu de choses distinguent désormais un blog d’un site « nou-velle génération » créé par exemple avec la plateforme Wordpress. Ceci étant, il existe encore de nombreux blogs d’experts, de jour-nalistes ou de chercheurs, dont les contenus peuvent apporter des éléments éclairants, notamment pour la veille stratégique. Les blogs ont également évolué vers des formats multimédias : le « vlog » désigne un blog diffusant essentiellement des vidéos, en lien avec la plateforme YouTube. De façon générale, les blogs sont souvent liés à une présence dans le web social, les réseaux (notamment Twitter) faisant fonction de « caisse de résonance » aux publications.On rencontre sur le web relativement peu de wikis spécialisés : la célèbre encyclopédie Wikipédia (et ses produits « frères » Wiktionnaire, Wikisource, etc.) laisserait-elle trop peu de place aux autres wikis ? Les wikis peuvent être également privés, et servir à

10 https://www.ted.com/talks/eli_pariser_beware_online_filter_bubbles?language=fr11 https://www.brown.edu/Research/Shapiro/pdfs/age-polars.pdf

p001-208_9782807315785.indd 19 04/06/2018 13:52

Page 22: Pour les professionnels Rechercher l’information

20

Un

univ

ers

num

ériq

ue in

fini

partager des documents et informations dans le cadre d’un projet par exemple. Nous verrons au chapitre 2 les « bonnes pratiques » concernant l’utilisation de Wikipédia pour la recherche et la veille.

Les forums ont fait leur apparition dès les premiers temps de l’Inter-net : le système de forums Usenet remonte en effet à la fin des années 1970 ! Les forums web ont démarré dans les années 1990, et certains restent très fréquentés, notamment sur des questions grand public comme la vulgarisation médicale (le célèbre Doctissimo), ou encore sur des thèmes ayant trait aux nouvelles technologies (assistance informatique, programmation, jeux vidéo…). À l’heure des réseaux sociaux temps réel et des messageries instantanées, des espaces de publications asynchrones comme les forums continuent à se main-tenir et peuvent présenter un intérêt pour la veille, notamment dans le cadre de la collecte et analyse de l’opinion.

1.9 Un univers numérique toujours plus multimédia

Les premiers sites apparus dans les années 1990 étaient encore très textuels, et, pour des raisons liées aux techniques et capacités de l’époque, laissaient peu de place au multimédia.Le web regorge aujourd’hui de contenus multimédias dont voici une brève typologie :

• Images : on trouve à profusion sur le web photos, images ou dessins numérisés… Les principaux formats associés sont les suivants : JPG, GIF, TIFF, PNG… et correspondent à différents types d’encodage ou de compression. Attention, toutes les images ne sont pas libres de droits.

• Vidéos : les supports vidéo sur le web servent au divertissement (films, clips, courts métrages), mais aussi à l’enseignement avec une déferlante de cours en ligne sous la forme MOOC (massive open online course) ou SPOC (Small private online course), plus personnalisés et interactifs. Avec le développement de la réalité virtuelle, la vidéo 360° connait un fort engouement et envahit peu à peu les réseaux sociaux. La vidéo est de plus en plus produite et diffusée en temps réel, à travers Snapchat, mais aussi les appli-cations Facebook Live et Periscope Twitter. Plusieurs plateformes de streaming légaux sont proposées, de façon généralement payante, aux internautes.

• Sons : là encore, le streaming payant s’est généralisé avec des plateformes comme Spotify, Deezer ou Qobuz. Mais il existe également des solutions de publication et partage de fichiers musicaux comme Soundcloud. Les chaînes de radio sont éga-lement disponibles sur le web et permettent de réécouter de nombreux contenus sous forme de podcasts.

Face à cette déferlante de nouveaux contenus, la recherche textuelle classique via des mots-clés demeure assez peu efficace. Selon une expression reprise maintes fois courant 2017, « la caméra est le nouveau clavier12 » ! De nouvelles technologies, que nous détail-

12 https://www.wired.com/2017/05/camera-wants-kill-keyboard/

p001-208_9782807315785.indd 20 04/06/2018 13:52

Page 23: Pour les professionnels Rechercher l’information

21

Rec

herc

her l

’info

rmat

ion

stra

tégi

que

sur l

e w

eb

lerons dans les prochains chapitres, se sont développées, parmi lesquelles :

• La recherche inversée d’images : on recherche des images à partir non pas d’un mot-clé, mais d’une autre image, ou d’une forme.

• L’analyse automatisée d’images : les géants du numérique élaborent actuellement des systèmes sophistiqués d’analyse d’images à travers des techniques d’intelligence artificielle. Avec en vue des systèmes de reconnaissance faciale, de recomman-dation automatisée (etc.).

• Le « speech to text » : retranscription du contenu d’un fichier audio sous forme de texte. Cette technique est utilisée entre autres par YouTube pour générer « à la volée » des sous-titres à une vidéo, à partir d’un fichier son retranscrit sous forme de texte et traduit automatiquement (parfois de façon encore approximative !).

• Le « text to speech » : à l’inverse, ce système transforme un texte écrit en langage parlé. On trouvera des applications dans le monde des assistants virtuels et des objets connectés.

• La recommandation musicale : des moteurs de découverte et recommandation musicale sont basés sur des algorithmes spéci-fiques et analysent automatiquement les métadonnées associées aux fichiers musicaux.

2. UN MODÈLE ÉCONOMIQUE ET JURIDIQUE COMPLEXE

2.1 L’économie de l’attention

« Si c’est gratuit, vous êtes le produit » : cette formule illustre par-faitement le modèle économique adopté entre autres par Google et Facebook. Ces services gratuits se rémunèrent à travers différents mécanismes publicitaires : « retargeting » (annonces commerciales diffusées en temps réel, ciblées en fonction des centres d’intérêts manifestés par l’internaute), cookies (petits fichiers qui mémorisent le passage d’un internaute sur un site), et surtout revente de données personnelles à des tiers. Certains moteurs comme Qwant mettent en avant le respect de la vie privée et s’engagent à ne pas « pister » les utilisateurs. En revanche ils peuvent monétiser des données four-nies volontairement par les internautes et promouvoir des services d’achats à travers des partenariats.Du côté des médias classiques comme des « pure players », la recherche du modèle économique idéal s’avère complexe. Les jeunes générations sont bien éloignées des usages classiques (abonnement, achat au numéro) servant à financer les médias. De nouveaux modèles apparaissent, comme le « paywall » ou « mur de monétisation », bloquant une partie de l’accès aux contenus via un système de paiement à l’acte ou d’abonnement. Au moment où nous écrivons ces lignes, Facebook teste un système de « paywall » sur Android et iOS pour les « Instant articles » (voir plus haut).De façon plus générale, les éditeurs de contenus de toutes natures se livrent à une véritable « course à l’attention » : il s’agit d’attirer l’attention des internautes sollicités de toutes parts, de les retenir et de les fidéliser. À l’heure de la surabondance de l’information,

p001-208_9782807315785.indd 21 04/06/2018 13:52

Page 24: Pour les professionnels Rechercher l’information
Page 25: Pour les professionnels Rechercher l’information

203

TABLE DES MATIÈRES

PRÉFACE 5

INTRODUCTION 7

Chapitre 1 Un univers numérique infini 11

1. Le paysage du web aujourd’hui 111.1 Web 2, web 3, web 4… où va le web ? 111.2 Le rythme de l’algorithme 131.3 Le mobile first et les nouvelles interfaces 141.4 Bots et chatbots 151.5 Réalité augmentée ou réalité virtuelle ? 151.6 Les data sont-elles forcément big ? 151.7 Réseaux sociaux : de nouveaux usages 171.8 Blogs, wikis et forums 191.9 Un univers numérique toujours plus multimédia 20

2. Un modèle économique et juridique complexe 212.1 L’économie de l’attention 212.2 Ouvert, gratuit, payant ? 222.3 Quantité… mais qualité ? 222.4 La neutralité du net 232.5 Le droit à l’oubli numérique 232.6 Le RGPD 24

3. Quelques repères techniques 243.1 HTML et XML : des langages « cousins » 243.2 Métadonnées et microdonnées : ne pas confondre ! 253.3 Du cloud à l’edge 263.4 Quelques notions fondamentales 26

4. Quels enjeux pour les utilisateurs ? Quels enjeux professionnels ? 284.1 Les enjeux pour les entreprises et organisations 284.2 Les enjeux dans le monde de l’enseignement et de la recherche 294.3 Les enjeux pour le professionnel de l’information…

et l’internaute 30

Chapitre 2 Trouver rapidement l’information pertinente 31

1. Ce que rechercher veut dire 311.1 L’aiguille et la botte de foin numériques 311.2 Quelques notions incontournables

pour le chercheur d’information 331.3 8 facteurs de complexité 35

2. Comment fonctionnent les moteurs 372.1 Quels moteurs aujourd’hui ? 372.2 Le fonctionnement des moteurs web 382.3 Les algorithmes de classement 422.4 Les mises à jour de Google 452.5 Un ou plusieurs Google ? 472.6 Deep web, invisible web, dark web : ne pas confondre 482.7 L’évolution de Google 492.8 Les concurrents de Google 51

p001-208_9782807315785.indd 203 04/06/2018 13:53

Page 26: Pour les professionnels Rechercher l’information

204

Tabl

e de

s m

atiè

res

2.9 Pourquoi utiliser Bing pour la recherche d’information stratégique ? 53

2.10 Le véritable concurrent de Google aujourd’hui : Facebook 542.11 Comment Facebook classe-t-il les résultats de recherche ? 552.12 Les moteurs de recherche dans les autres médias sociaux 56

3. Préparer sa recherche 593.1 Pourquoi le choix des mots-clés est-il important ? 593.2 Mots-clés, tags ou hashtags ? 603.3 Les mots… mais aussi les sources ! 613.4 Combien de mots-clés ? 613.5 Identifier le champ lexical d’une requête 623.6 L’ordre de saisie des termes a-t-il une importance ? 633.7 Lemming, stemming et troncature 63

4. Optimiser les recherches 644.1 Les 5 opérateurs indispensables chez Google 644.2 Des fonctionnalités utiles et méconnues 674.3 Filtrer et classer les résultats par dates 674.4 Limiter sa recherche par zones géographiques ou linguistiques 684.5 Autres astuces peu connues de recherche avancée Google 684.6 Exemples de requêtes complexes chez Google 704.7 Ce que Google ne prend pas en compte… 704.8 La recherche d’images chez Google 714.9 La recherche avancée de Qwant 724.10 La recherche avancée dans Facebook Search 724.11 La recherche avancée dans Twitter Search 734.12 La recherche avancée dans LinkedIn 764.13 La recherche dans ResearchGate et Academia 774.14 Opérateurs de recherche : récapitulatif général 77

5. Les sources « classiques » 805.1 Qu’est-ce qu’une source d’information aujourd’hui ? 805.2 Typologie des sources d’information utiles :

la « check list » des sources 815.3 7 types de sources parfois injustement méconnues 825.4 Intérêt des blogs et wikis pour la recherche d’information 845.5 Les « réservoirs » de documents 86

6. Sourcing, curation et bookmarking social 866.1 Curation et bookmarking social 866.2 Importance du sourcing et panorama des méthodes 88

7. MÉTHODOLOGIE GÉNÉRALE : UNE SYNTHÈSE 907.1 Les limites des moteurs généralistes 907.2 Une méthode itérative 907.3 Le duo gagnant : la combinaison source + mots-clés 907.4 Quand faut-il utiliser la recherche booléenne ? 917.5 Quand on ne trouve pas… 927.6 Combien de temps consacrer à la recherche ?

Combien de résultats faut-il prendre en compte ? 937.7 Points de vigilance 93

Chapitre 3 Mettre en place une veille stratégique 95

1. Organiser un plan de veille 1001.1 À quoi sert le plan de veille ? 1001.2 Sourcing et sources humaines 102

p001-208_9782807315785.indd 204 04/06/2018 13:53

Page 27: Pour les professionnels Rechercher l’information

205

Rec

herc

her l

’info

rmat

ion

stra

tégi

que

sur l

e w

eb

1.3 Y a-t-il des sources spécifiques pour la veille ? 1021.4 Comment organiser ses sources ? 103

2. Automatiser la collecte de pages web 1032.1 Les flux RSS 1032.2 Identifier des flux RSS 1042.3 Deux agrégateurs RSS à la loupe : Netvibes et Inoreader 1052.4 Générer des flux à partir d’une requête 1062.5 « Travailler » les flux pour les rendre plus pertinents 1102.6 Les alertes 1102.7 Veille dans l’actualité 1112.8 Les convertisseurs HTML/RSS 1122.9 Les solutions de surveillance automatisée 113

3. Veille sur les réseaux sociaux 1133.1 Intérêt des réseaux sociaux pour la veille 1133.2 Surveiller Twitter 1153.3 Surveiller Facebook 1183.4 Surveiller LinkedIn 1193.5 Surveiller Instagram, Pinterest et YouTube 120

4. Méthodologie : approche sources et mots-clés 122

5. Les logiciels de veille « intégrés » et les solutions d’écoute des médias sociaux 123

6. Panorama général des outils de veille 124

7. Points de vigilance et conseils pour une collecte d’information réussie 129

Chapitre 4 Analyser l’information pour fiabliser la prise de décision 131

1. Analyser la qualité et la fiabilité 1321.1 Les facteurs de risque 1321.2 Quelles solutions face à la désinformation ? 1331.3 Comment savoir qui est l’auteur d’un site ?

D’un profil sur les réseaux sociaux ? 1341.4 Les critères de qualité d’une information 1361.5 Méthodes de cotations issues du renseignement 139

2. Mesurer l’importance d’un chercheur ou d’une thématique 1402.1 Les méthodes bibliométriques et leur évolution 140

3. L’analyse « humaine » 141

4. L’analyse automatisée 1414.1 Technologies d’analyse automatisée 1424.2 La fouille de textes et de données (data mining, text mining) 1444.3 Faire parler la donnée… mais ne pas la faire mentir ! 1454.4 L’analyse big data 146

5. Les solutions de datavisualisation 1465.1 Les différentes familles de solutions 1475.2 Quels types de graphiques ? 1485.3 Datavisualisation par les graphes 1485.4 Une « datavisualisation » des méthodes de visualisation

d’information 149

6. Exemples d’application 1506.1 Application : extraction de nuages de mots 1506.2 Application : mise en évidence des corrélations

et liens entre les personnes 150

p001-208_9782807315785.indd 205 04/06/2018 13:53

Page 28: Pour les professionnels Rechercher l’information

206

6.3 Application : détection d’influenceurs et de propagation de rumeurs 151

6.4 Application : l’analyse des discours politiques 1526.5 Application : la cartographie des controverses 152

7. Analyse automatisée : tableau récapitulatif des méthodes 152

Chapitre 5 Études de cas 155

CAS N° 1 : Étude documentaire pour une étude de marché 1561.1 Les enjeux 1561.2 Les ingrédients 1561.3 Les étapes 1561.4 Conseils 158

CAS N° 2 : Identifier des experts 1582.1 Les enjeux 1582.2 Les ingrédients 1582.3 Les étapes 158

CAS N° 3 : Trouver des informations financières sur les entreprises 1603.1 Les enjeux 1603.2 Les ingrédients 1613.3 Les étapes 161

CAS N° 4 : Trouver des informations stratégiques sur les pays et zones géographiques 1634.1 Les enjeux 1634.2 Les ingrédients 1634.3 Les étapes 163

CAS N° 5 : Trouver des informations sur des personnes 1645.1 Les enjeux 1645.2 Les ingrédients 1655.3 Les étapes 165

CAS N° 6 : Naviguer sans laisser de traces 1686.1 Naviguer sans laisser de traces 1686.2 Rechercher et collecter sans laisser de traces 171

CAS N° 7 : Surveiller les concurrents 1717.1 Les enjeux 1717.2 Les ingrédients 1727.3 Les étapes 1727.4 Conseils 172

CAS N° 8 : Identifier des innovations 1738.1 Les enjeux 1738.2 Les ingrédients et les étapes 173

CAS N° 9 : Rechercher ou collecter des images ou vidéos 1749.1 Les enjeux 1749.2 Rechercher ou collecter des images 1759.3 Conseils 1779.4 Rechercher ou collecter des vidéos 1779.5 Émissions radios/podcasts 179

CAS N° 10 : Trouver des contenus académiques pour une bibliographie 18010.1 Les enjeux 18010.2 Les ingrédients 180

11. Récapitulatif général : étude de cas recherche, veille, analyse, stockage, diffusion 181

Tabl

e de

s m

atiè

res

p001-208_9782807315785.indd 206 04/06/2018 13:53

Page 29: Pour les professionnels Rechercher l’information

207

Rec

herc

her l

’info

rmat

ion

stra

tégi

que

sur l

e w

eb

11.1 Sujet : le secteur des revêtements de sols en France 181

Conclusion Plaidoyer pour une vraie culture des contenus numériques 185

1. Les paradoxes du numérique 1851.1 Décloisonnement et jardins fermés 1851.2 Sources innombrables et pensée unique 1861.3 Contenus éphémères et mémoire absolue 1861.4 Isolement et rapprochement 1871.5 Web marchand et démocratisation du savoir 187

2. Au moment où nous écrivons ces lignes… 1872.1 Le « mobile first » 1872.2 La recherche conversationnelle via les objets connectés 1882.3 La fin de la recherche booléenne ? 1882.4 Le secret des sources 1882.5 La protection des données personnelles 189

3. Plaidoyer pour de véritables compétences numériques 189

BIBLIOGRAPHIE/WEBOGRAPHIE 193

INDEX 195

p001-208_9782807315785.indd 207 04/06/2018 13:53

Page 30: Pour les professionnels Rechercher l’information

Nouveau défi pour l’entreprise après les réseaux sociaux et les big data, l’intelligence artificielle et l’Internet des objets révolutionnent le monde numérique. Pour évoluer dans ce nouvel environnement de travail, les professionnels doivent pouvoir rechercher, surveiller et analyser efficacement l’information.

Rédigé par une experte en veille stratégique, cet ouvrage actualise les connaissances dans les domaines de la recherche d’information et de la veille sur Internet. Il permet de comprendre le fonctionnement actuel des moteurs de recherche, d’optimiser les recherches web, d’identifier des sources d’information méconnues, de mettre en place différents types de veille stratégique et de découvrir un éventail de méthodes d’analyse automatisée de l’information.

Pratique et opérationnel grâce à ses exemples concrets, cet ouvrage permet à tout internaute de trouver, collecter, qualifier et analyser l’information réellement utile : un véritable guide de survie dans la jungle de l’information numérique.

VÉRONIQUE MESGUICH est consultante-formatrice dans le domaine de la méthodologie de veille et du management stratégique de l’information. Elle intervient dans de nombreux établissements d’enseignement supérieur, dont l’École européenne d’intelligence économique (EEIE) et le CNAM, ainsi qu’en entreprise. Elle a dirigé l’Infothèque du Pôle universitaire Léonard de Vinci et a été coprésidente de l’ADBS.

ANNE-MARIE LIBMANN (préface) est directrice des opérations FLA Consultants.

&Informat onstratég e

Pour les professionnels de la documentation, de l’information, de la communication et du marketing stratégique ; pour les étudiants et enseignants de ces filières.

Rec

herc

her l

’info

rmat

ion

stra

tégi

que

sur l

e w

ebVé

roni

que

Mes

guic

h

Desi

gn c

eris

e.be

&Informat onstratég e

Rechercher l’information stratégique sur le webSourcing, veille et analyse à l’heure de la révolution numérique

Véronique Mesguich

Préface d’Anne-Marie Libmann

ISBN 978-2-8073-1578-5ISSN 2295-3825

www.deboecksuperieur.comCréée en 1963, l’ADBS (Association des Professionnels de l’information) fédère une grande variété de professionnels de l’information numérique (veilleurs, knowledge managers, gestionnaires de contenus numériques, documentalistes, records managers, etc.). Elle compte plus de 3 000 membres en France. En 2013, l’ADBS s’associe aux éditions De Boeck pour créer la collection « Information & Stratégie » qui allie les savoir-faire des deux partenaires.

9782807315785_INFOSTRAT_CV.indd Toutes les pages 05/06/2018 12:08