module us240l : tic et veille · 1.qu'est-ce que la veille ?..... 41 2.typologie de la veille...

CS22-US240L

Module US240L : TIC et Veille

Evelyne BROUDOUX, Maitre de conférences, CNAM

Loïc LEBIGRE, Directeur des projets Métier, ADBS

1er octobre 2012 - mise à jour 2013

V2

Table des matières

Objectifs 5

Introduction 7

I - De la recherche d'informations à une veille automatisée 9

A. Qu'est-ce que la recherche d'informations ?......................................................9

B. De l'indexation aux composants de la recherche automatisée...........................10

1.Méthodes d'indexation : full text, indexation contrôlée, extraction automatique de concepts. 10 2.Méthodes de recherche d'informations........................................................................... 13 3.Les moteurs de recherche............................................................................................ 21

C. Les modalités de surveillance....................................................................... 36

1.Les agents d'alerte...................................................................................................... 36 2.Les techniques d'agrégation..........................................................................................37 3.Techniques de filtrage et d'agrégation............................................................................39 4.Quelques lectures supplémentaires autour des techniques de filtrage et d'agrégation...........40

II - Les outils de veille 41

A. Méthodologie de mise en place d'un système de veille.....................................41

1.Qu'est-ce que la veille ?............................................................................................... 41 2.Typologie de la veille en fonction des objectifs à atteindre................................................ 42 3.Cycle de veille.............................................................................................................43 4.Méthodologie de mise en place d'une surveillance............................................................46 5.Les prestations de veille............................................................................................... 47

B. Panorama des outils de veille........................................................................51

1.Classement des outils.................................................................................................. 51 2.Plate-formes de veille.................................................................................................. 52 3.Modèle architectural de collecte.....................................................................................54 4.Quelques lectures supplémentaires autour de la veille professionnelle................................55

C. Les réseaux sociaux et folksonomies.............................................................55

1.Qu'est-ce qu'un réseau social ?..................................................................................... 55 2.Le « bookmarking social » et les « folksonomies »........................................................... 57

III - Exploitation et analyse 61

A. Les méthodes d'analyse linguistique.............................................................. 61

B. Les méthodes d'analyse : statistiques, sémantiques........................................62

1.Etude de cas : quelle image a le nucléaire en France un mois après l'incident survenu à Fukushima ?...................................................................................................................62

3

C. Les outils d'analyse..................................................................................... 65

1.Les solutions d'extraction automatique : datamining et text mining....................................66 2.Les outils de cartographie et de visualisation des résultats................................................68

IV - Travaux pratiques 73

A. TP à venir.................................................................................................. 73

Glossaire 75

Références 77

Bibliographie 79

Webographie 81

Crédit des ressources 83

4

Objectifs

Maîtriser les techniques et outils utilisés actuellement pour la veille.

Il s'agira à l'issue de ce module d'avoir une appréciation globale de l'ensemble des techniques et des outils disponibles aujourd'hui dans les processus de recherche et de veille informationnelle. Les outils en libre accès associés au Web seront particulièrement explorés, ainsi que la nouvelle donne du web social.

Objectifs généraux du Certificat CS 22

- Etre capable de se repérer dans le paysage technologique actuel de l'info-connaissance : comprendre l'intérêt et les enjeux de ces technologies.

- S'approprier ces innovations technologiques, en comprendre le fonctionnement global, pour être en mesure de proposer de nouveaux services et de répondre à de nouveaux besoins informationnels.

- Connaître les standards et protocoles dominants liés à la production, description, diffusion des ressources informationnelles et savoir gérer leur hétérogénéité.

- Connaître et positionner les différentes familles d'outils.

5

Introduction

Ce module fournit les éléments clés permettant d'obtenir une vue globale de l'ensemble des techniques et des outils disponibles aujourd'hui dans les processus de veille informationnelle. Aux côtés de la recherche documentaire classique, de nouvelles familles d'outils sont apparues pour explorer les contenus du web : propriétaires ou en libre accès, ces outils misent sur la nouvelle donne du web social. L'objectif de ce module est de pouvoir se saisir de ces outils pour connaître l'évolution d'un produit, une marque, un marché, détecter l'émergence de tendances, afin de renseigner les processus décisionnels.

7

I - De la recherched'informations àune veilleautomatisée

I

Qu'est-ce que la recherche d'informations ? 9

De l'indexation aux composants de la recherche automatisée 10

Les modalités de surveillance 36

La veille qui a pour objectif d'anticiper les évolutions d'un secteur (ex : automobile, agriculture biologique) ou d'un environnement (ex : épidémiologie) en construisant une activité automatisée de recherche d'informations repose sur deux activités majeures :

1. La constitution du socle de base d'éléments à connaître avant de démarrer la veille (l'état de l'art) et qui passe par la recherche documentaire dont l'objectif est de retrouver les références de documents pertinents dans des fonds documentaires classiques (ex : bases documentaires de type Questel, LexisNexis, Dialog, Medline, etc.).

2. La recherche d'informations d'éléments non connus qui vise à trouver et fouiller directement les documents ou proto-documents (web) pour en tirer les éléments pertinents.

A. Qu'est-ce que la recherche d'informations ?

Définition : Recherche d'informations

Ensemble des méthodes, procédures et techniques permettant, en fonction de critères de recherche propres à l'usager, de sélectionner l'information dans un ou plusieurs fonds de documents plus ou moins structurés.

Toute recherche d'information suppose trois phases successives : 1. une recherche bibliographique des références de documents pertinents ; 2. une recherche documentaire, c'est-à-dire une recherche bibliographique

complétée par la recherche (l'acquisition) des documents eux-mêmes ; 3. et enfin le repérage de l'information dans les documents sélectionnés

(recherche de l'information).

9

UDINO Karine

UDINO Karine

[Boulogne, 2004] [Boulogne]

B. De l'indexation aux composants de la recherche automatisée

L'automatisation de la recherche d'informations repose sur les technologies linguistiques de traitement de l'information, elles-mêmes issues des techniques de documentation.

Deux grandes tendances technologiques sont imbriquées : les méthodes statistiques qui mesurent la fréquence des chaînes de caractères sans se préoccuper du sens des mots et les méthodes sémantiques qui s'attachent à reconnaître le sens des termes en les rattachant à des systèmes d'organisation des connaissances : thésaurus, ontologies.

1. Méthodes d'indexation : full text, indexation contrôlée, extraction automatique de concepts

a) Les principes de l'indexation

Selon la définition la plus large qu'en donne le Vocabulaire de la documentation (Boulogne 2004 [Boulogne]), l'indexation est un processus.

Cette proposition comprend l'indexation comme un processus d'identification qui tend à représenter les contenus (sous forme de documents) de manière plus ou moins formelle pour en faciliter la repérabilité (et répondre ainsi à un questionnement).

b) Evolution de la notion d'indexation

Les notions clés de l'indexation

Collection

Document

Ressource

Fragment

Termes/Indices contrôlés

x x x x

Mots libres/Catégories

x x x

Concepts/Listes x x x x

Descripteurs/Thésaurus

x x x

Langage naturel

x x x

Langage documentaire

x x x

De la recherche d'informations à une veille automatisée

10

Tableau 1 L'analyse documentaire macro et micro

L'opération d'indexation est longtemps restée un acte destiné à répertorier - pour les localiser - des documents fixés sur des supports tangibles (livres, cd, cassettes, bandes vidéos, dvd, etc.) coordonné par un système d'information documentaire.

D'après Jacques Chaumier [Chaumier], l'indexation est la « « description du contenu du document à l'aide de mots-clés (ou d'indices de classification) pour faciliter la mémorisation du contenu de ce document pour une recherche ultérieure » ».

Pour Pomart et Sutter [Pommart], l'indexation « « a pour but de faciliter l'accès au contenu d'un document ou d'un ensemble de documents à partir d'un sujet ou d'une combinaison de sujets (ou de tout autre type d‘entrée utile à la recherche) » ».

Ces deux définitions classiques indiquent une polarisation autour de la recherche d'informations contenus dans des documents authentifiés en tant que tels et rendus accessibles par une interface d'interrogation du système documentaire.

Remarque : De l'utilité restreinte de l'appariement ?

Dans ce cadre, on peut dire que la recherche d'informations est conditionnée par les langages documentaires qui encadrent et déterminent l'opération d'indexation. Cette co-dépendance se prolonge dans la technique de l'appariement qui consiste à penser que les mots servant à la requête sont les mêmes que ceux issus de l'analyse documentaire. Muriel Amar [Amar] (2000) qui met en doute cette affirmation a rappelé que l'indexation servait moins à « transmettre » l'information qu'à caractériser les conditions de son interprétation.

c) L'indexation « plein texte » (full text) correspond à l'indexation automatisée en « texte intégral » ou en « texte libre »

Le processus d'indexation est automatisé et se déroule à la volée à l'aide d'un moteur d'indexation intégrant des dictionnaires de synonymes, des lemmatiseurs et des antidictionnaires. Ne seront gardées que les formes signifiantes des termes employés, les unités syntaxiques, enregistrées dans un index inverse.

La recherche en langage naturel sur le texte intégral des documents a été rendue possible dès les années 1970 avec l'augmentation des capacités informatiques de calcul et de stockage.

Les premiers éléments de l'indexation automatique à avoir été automatisés par les SGBD sont les données bibliographiques, les titres et les résumés. Le traitement de gros volumes de données textuelles, avec une organisation en phrases, paragraphes... a nécessité la mise en œuvre de techniques plus élaborées que l'indexation automatique de champs structurés dont les contenus ont pour caractéristique d'être court.

Au début de l'indexation automatique, la polysémie qui caractérise le langage « naturel » a freiné son efficacité, les risques de bruit et de silence étaient accentués à l'interrogation. On constatait que moins on en faisait à l'entrée des données (sans l'introduction de métadonnées et sans méthode d'indexation contrôlée), plus le travail de l'utilisateur final était complexe.. Pour remédier à ces problèmes, les informaticiens ont travaillé avec des spécialistes de la linguistique pour développer des outils évolués capables de proposer une troisième voie entre le langage totalement libre et les langages contrôlés, le TALN. Basés sur des outils et


11

traitements linguistiques à différents niveaux (morphologique, syntaxique, grammatical, sémantique et même parfois pragmatique), ces programmes sont devenus au fil du temps de véritables logiciels packagés qui se sont imposés sur le marché dans les années 90.

d) L'indexation contrôlée

L'indexation contrôlée décrit manuellement les contenus en sélectionnant des termes – en nombre fini - appartenant à un langage documentaire classificatoire ou combinatoire.

Les langages classificatoires sont des langages à structure hiérarchique pouvant être représentés par des arborescences ou des emboîtements. On trouvera sous cette appellation les classifications décimales encyclopédiques (Dewey, Library of congress, CDU, etc.) et les classifications à facettes. Le créateur de ces dernières, Ranganathan, supposait que n'importe quel sujet pouvait être ramené à cinq catégories au moment de son analyse – c'est-à-dire décomposé en cinq facettes – lesquelles à leur tour pouvaient être de nouveau décomposées selon un processus récursif. Les facettes introduisent la notion de point de vue sous lequel un concept peut être interprété.

Les langages combinatoires procèdent par recoupements ou intersection des domaines représentés par des mots-clés ou des concepts. Le résultat de l'intersection définit la notion recherchée. L'indexation peut être contrôlée par des lexiques de mots-clés ou de concepts classés par ordre alphabétique constituant des listes terminologiques pouvant servir de référentiels. Les concepts agrégeant des mots ou groupes de mots appelés expressions sont nommés descripteurs. Leur rôle est de représenter de manière univoque un concept indexable. Lorsque les descripteurs concernent un thème spécialisé ou un champ d'activité, ils peuvent être assemblés en thésaurus. Le rôle du thésaurus est d'organiser les descripteurs et les termes non descripteurs par des indications de relations hiérarchiques et associatives, ce qui constitue le point le plus avancé d'une organisation documentaire mais est aussi le plus lourd à faire évoluer. Parmi les différentes formes de thésaurus, notons ceux à facettes caractérisés par un mode spécifique de regroupement des termes mais aussi ceux à caractère encyclopédique ou sectoriels caractérisés par l'amplitude ou la profondeur des domaines couverts.

Exemple de thésaurus pouvant être parcouru comme un graphe : Visual Thesaurus1.

e) L'extraction automatique de concepts

La définition [Afnor. Indexation.] de l'indexation comme « opération qui consiste à décrire et à caractériser un document à l'aide de représentations des concepts contenus dans ce document » pousse à envisager des formes de représentation des concepts différentes des classifications documentaires classiques. En effet, à partir d'un document numérisé en texte intégral, il existe des méthodes d'extraction et de représentation automatique de concepts qui permettent d'affiner la sélection des termes retenus dans les index générés. Pour améliorer l'identification des descripteurs, il est possible de combiner différentes méthodes [Normier, 2007]:

- les méthodes statistiques identifient des suites de mots dans les documents, par calcul de collocation ; elles identifient également des catégories pour placer un document dans un plan de classement ;

- les méthodes linguistiques utilisent des moteurs sémantiques qui combinent des niveaux d'analyse morphologique, syntaxique et sémantique et améliorent la qualité de l'interprétation des textes pendant leur analyse.

1 - http://www.visualthesaurus.com/


12

http://www.visualthesaurus.com/

Les besoins croissants de traiter une information-flux de plus en plus volumineuse, distribuée, hétérogène poussent à concevoir des systèmes aptes à gérer une sémantique fluctuante selon les points de vue et située de plus en plus souvent hors-document.

La branche linguistique représentée par le Traitement automatique des langues (Tal) a conçu un ensemble d'outils allant de l'indexation automatique à l'extraction d'informations en passant par la conception de crawlers et de moteurs de recherche.

* *

*

Cette présentation globale des différentes formes d'indexation indique une multiplicité des manières de faire dans les systèmes de classement des documents, ce qui aura une incidence sur les services d'interrogation des bases documentaires.

Les différentes formes d'index générés devront pouvoir être interrogés par un outil de veille qui saura traiter avec l'hétérogénéité des systèmes et des données.

2. Méthodes de recherche d'informations

Les méthodes de recherche seront directement dépendantes des objets informationnels à traiter. Dans un monde documentaire organisé par des langages classificatoires, seront interrogés des index pré-renseignés ou l'entièreté des textes. Dans les univers informationnels peu ou non structurés comme ceux que l'on trouve sur le web, les index sont réalisés à partir d'algorithmes établissant des statistiques autour des termes utilisés autour et dans les liens et leurs différents pointages, les noms des ancres, les noms de domaines, le contenu des "pages web", etc.

a) La recherche simple et avancée

La recherche d'informations simple consiste en l'introduction d'un mot ou un groupe de mots dans un unique champ.

La recherche avancée permet de rechercher des mots ou groupes de mots en sélectionnant des descripteurs pouvant se présenter sous la forme de listes déroulantes dans un ou plusieurs champs.

Les moteurs de recherche du web ont ouvert l'univers de la recherche d'informations au grand public en simplifiant l'entrée de termes dans un unique champ à remplir : c'est la recherche simplifiée pour tous.


13

Rapports d'information du Sénat accessibles par les champs de recherche simple et avancée.

b) La recherche par opérateurs booléens, proximité, troncature, champ

L'interrogation des objets informationnels se réalise en langage naturel et avec des termes spécifiques - les opérateurs - que les modules d'interrogation reconnaissent. La syntaxe de ces termes varie d'un moteur à l'autre ainsi que les fonctionnalités d'interrogation.

Opérateurs booléens

Les opérateurs booléens sont des termes de logique permettant d'agir sur des ensembles de données : union, intersection, exclusion.

Les requêtes sont formulées sous la forme d'une équation avec les opérateurs correspondants :

OU, OR : union de concepts

ET, AND : intersection de concepts

SAUF, NOT, - : exclusion de concepts

Exemples

Parcs OU Paris OU Marseille : documents ou pages web contenant le terme Parcs s'ajoutant aux documents contenant le terme Paris et aux documents contenant le terme Marseille

Parcs ET Paris ET Marseille : documents ou pages web contenant les termes Parcs, Paris et Marseille et excluant les documents ne contenant qu'un ou deux des trois termes

Parcs ET Paris SAUF Marseille : documents ou pages web contenant les termes Parcs et Paris mais ne retenant pas les documents contenant le terme Marseille

Les réponses obtenues à ces requêtes sur des ensembles constituent aussi des ensembles qui pourront être ultérieurement triés.

Exercice : à partir de Google2, cherchez les campings :

- dans les Cévennes ou dans les Causses

- dans les Cévennes et dans les Causses

Examinez les différences de résultats obtenus.

Opérateurs de proximité

Un des moyens d'affiner la recherche et de commencer à trier des ensembles de données est d'utiliser des opérateurs de proximité.

Les guillemets peuvent être utilisés comme "opérateur de proximité" dans la mesure où ils autorisent la recherche de termes adjacents comme par exemple "véhicules d'occasion". La recherche se fait alors sur la chaîne de caractères située entre les guillemets et seront sélectionnées uniquement les occurences correspondant

2 - http://www.google.fr


14

Recherche avancée sur le site du Sénat (senat.fr)

http://www.google.fr/

exactement à l'expression demandée.

L'opérateur NEAR ou NEXT sert à rechercher des termes à proximité d'autres termes quelque soit leur ordre.

Ex : Véhicules NEXT Occasion

Suivant les moteurs, les bases de données et les modalités de l'indexation, l'opérateur NEAR peut être combiné avec plusieurs spécifications d'écart :

l'ordre des mots peut être contraint : véhicules NEAR-ORDER occasion. Dans cet exemple, le terme véhicules doit précéder occasion.

les mots peuvent être séparés par n termes : véhicules NEAR/N occasion.

Exercice : à partir de Google et Exalead3, ajoutez à la recherche précédente la notion de proximité :

- Campings dans les Cévennes ou dans les Causses situés à proximité d'une rivière,

- Campings dans les Cévennes et dans les Causses situés à proximité d'une rivière.

Comparez les différences de résultats obtenus entre les deux moteurs en utilisant en anglais la syntaxe appropriée.

Troncature

La troncature autorise la recherche sur des portions de termes. L'opérateur habituellement utilisé est une étoile *.

Tous les moteurs n'offrent pas cette possibilité ; actuellement, seul Exalead apparaît avoir conservé cette fonctionnalité.

L'opérateur de troncature est surtout utilisé dans la recherche plein texte et non sur des mots-clés pré-enregistrés. La combinaison d'étoiles ** est possible comme dans l'Encyclopédie Universalis.

L'interface de recherche d'Exalead propose différentes facettes à l'introduction de l'opérateur de troncature, le caractère *

Exercice : à partir de l'Encyclopédie Universalis4, faites les tests suivants en observant ce qui se produit dans le champ de recherche de l'encyclopédie en ligne :

- *chat, chat, *habit, habit, *fluoro, fluoro

- *mobil*, mobile

A partir d'Exalead, rechercher chlor* et path*. Observez les résultats.

Champs de recherche

Les termes peuvent être recherchés dans des champs spécifiés. Google autorise la recherche par format de fichier, par termes utilisés dans le titre ou seulement dans le nom de domaine d'un site ; mais il est possible de filtrer les résultats par date de publication du document, la langue utilisée, etc.

Ex : filetype:, intitle:, all intitle:, site:

3 - http://www.exalead.fr4 - http://www.universalis.fr/


15

Recherche Exalead avec troncature

http://www.universalis.fr/

http://www.exalead.fr/

Les fonctions avancées accessibles en pied de la page d'accueil de Google permettent de fouiller le web en paramétrant directement des champs sans avoir à les écrire sous forme d'équation.

Exalead ajoute à ces fonctionnalités une recherche par période avec before: et after:, ou par consonance avec soundslike: ou avec une orthographe approximative avec spellslike:.

Exercice : rechercher les informations contenant le terme CFC parues avant le 1er janvier 1999 sur Exalead.

La formulation d'une requête d'interrogation

La syntaxe des requêtes est représentée par un ensemble de codes ou expressions partagées ou non par les moteurs.

Les guillemets autorisent la recherche d'une expression exacte sur tous les moteurs.

L'absence d'opérateurs entre les mots d'une requête est traduite par les moteurs par ET.

Exercice : observer les résultats des requêtes suivantes dans Google, Exalead et Bing :

- "CFC et substituts"

- CFC ET substituts

- CFC substituts

c) Exercice : Réaliser une équation booléenne

Réalisez l' équation proposée par différentes intersections des ensembles A, B et C. Choisissez l'opérateur approprié : ET, OU, -

Cliquer sur correction pour vérifier votre réponse.


16

Ensembles A et B

(A B)

d) Exercice : Réaliser une équation booléenne (1)




17

Ensembles B et C

(B C)

e) Exercice : Réaliser une équation booléenne (2)




18

Ensembles A, B et C

(A B C)

f) Exercice : Réaliser une équation booléenne (3)




19

Ensembles A, B et C

(A B C)

g) Exercice : Réaliser une équation booléenne (4)




20

Ensembles A, B et C

(A B) (B C) (A C)

3. Les moteurs de recherche

Les moteurs de recherche sur le web sont à différencier des moteurs de recherche dédiés à la documentation stockée dans des banques et bases de données, dans des centres de documentation ou des bibliothèques. Au contraire de ces institutions, un moteur de recherche du web génère des revenus en fonction des recherches réalisées par ses usagers.

Il s'agit donc d'outils dont la technicité sert autant à classer/chercher/trouver des informations qu'à générer des revenus en fonction de la fréquence de consultation des sites web, du profil social des internautes, de la mise aux enchères de mots-clés, et de bien d'autres paramètres...

Dans ce module, nous n'aborderons que la partie "technique documentaire" de ces moteurs de recherche.

a) Composition d'un moteur de recherche

La composition technique d'un moteur de recherche du web est directement inspirée des systèmes d'information documentaires. Les schémas ci-dessous sont destinés à détailler les interfaces de recherche d'information spécifiques aux catalogues des bibliothèques et aux centres de documentation lorsqu'ils sont déconnectés du web.


21

Système de recherche d'information (Information Retrieval ou IR)

Dans un système documentaire de recherche d'informations, la recherche s'effectue dans un corpus de documents à partir de chaines de caractères entrés par l'utilisateur. Le système propose à l'usager une liste de documents ordonnée selon différents critères.

User Interface : gestion de l'interaction - usager

Entrée/Requêtes et Sortie/Documents

Feedback sur la pertinence

Visualisation des résultats

Text Operations : opération de génération de l'index

Elimination des mots vides

Racinisation ou lemmatisation des mots

Query Operations : optimisation de la recherche par la transformation de la requête

Expansion de requête utilisant un thésaurus

Expansion de requête utilisant le feedback sur la pertinence

Indexing construit un index inversé de mots vers les pointeurs de documents.

Database manager est le système de gestion de bases de données.

Searching recherche les documents qui contiennent un terme de l'index inversé.

Ranking trie tous les documents trouvés selon un score de pertinence.

b) Fonctionnement d'un moteur de recherche sur le web

Les quatre étapes de l'indexation web 1. Parcourir le web

Des robots d'exploration nommés « crawlers », « spiders », « bots » utilisent la structure hypertextuelle du web pour circuler et rassembler les informations concernant « pages », « sites » et « documents ».

2. Indexer la matière publiée sur le webLe contenu indexé automatiquement de ces pages et documents est conservé dans des bases de données. Cet index doit être géré de manière à rechercher des billions de documents et satisfaire les requêtes en quelques fractions de secondes.Suivant les moteurs et la fréquence de la mise à jour des sites web, le délai de rafraîchissement des index va de quelques heures à plusieurs semaines.

3. Traiter les requêtes


22

Bases d'un système de traitement de requêtes

Système de traitement des requêtes à base documentaire

Le traitement des requêtes comprend l'analyse des termes entrés (équations de recherche, coordonnées géolocalisées des données de connexion, etc.), la recherche de correspondances dans l'index et la récupération des informations associées.

4. Classer les résultatsLe classement de la matière indexée par le moteur est obtenu par des algorithmes établissant un ordre de pertinence dans les résultats, mais aussi des tris par catégories, indice de notoriété et par mesure d'audience.

Le spider pendant son parcours sur le web construit un corpus de documents en créant ou en mettant à jour des index qui seront interrogés par le système de traitement de requêtes (IR) qui fournit à l'usager des résultats triés.

Le serveur d'URL envoie aux spiders les URL des liens et pages à visiter. Celles-ci sont traitées par un serveur de stockage (store server) qui les envoie dans un entrepôt (repository).

Le système d'indexation (indexer) lit ce qui se trouve dans l'entrepôt et attribue un Identifiant à chaque page qui sera représentée par un ensemble d'occurrences de termes. Ces occurrences sont stockées en silos (barrels). Les liens et ancres hypertextes sont stockées par un gestionnaire d'ancres (anchors) qui les envoie à un solveur d'URL (Url resolver).

Le gestionnaire de liens (links) contient les paires de liens issues des ancres (chaque ancre est posée sur une page et pointe vers une autre page). Ceci servira au calcul du PageRank (rang de la page) qui détermine la notoriété d'une page.

L'index inversé est généré par le trieur (sorter) qui récupère les données stockées en silos et les convertit en en identifiants de mots.

Pour fournir des résultats aux requêtes des utilisateurs, l'interface de recherche (searcher) utilise le lexique créé par le système d'indexation, l'index inversé contenu dans les silos, les URL associées (doc index) et le pagerank.

Ce schéma est issu de l'article fondateur5 du moteur de recherche Google.

Remarque : La taille de l'index de Google

L'index de Google, en réalité constitué de nombreux index, représente aujourd'hui (en 2012) plus de 100 millions de Go qui ont nécessité plus d'un 1 million d'heures de calcul pour le constituer.

Pour chaque requête d'un internaute sur le moteur, l'algorithme qui trie les résultats

5 - http://infolab.stanford.edu/~backrub/google.html


23

Schéma des composants d'un moteur de recherche sur le web

Anatomie d'un moteur de recherche à large échelle hypertextuelle

http://infolab.stanford.edu/~backrub/google.html

utilise plus de 200 critères (signals). Depuis 2003, Google a ainsi répondu à plus de 450 milliards de requêtes différentes et chaque jour, 16% des requêtes faites sur Google sont nouvelles.

Les chiffres clés d'une requête sur Google traduit par WebRankInfos6.

Complément : La taille du web

Si l'index de Google pèse plus de 100 millions de Go c'est que le nombre de pages indexées par le moteur croît chaque jour. En 2008, Google aurait indexé 1 trillion d'URL uniques. En 2010, il y aurait 205,8 millions de noms de domaine enregistrés.

Schéma posté sur The Next Web7 début 2011.

6 - http://www.webrankinfo.com/dossiers/google-search/chiffres-cles-recherche7 - http://thenextweb.com/shareables/2011/01/11/infographic-how-big-is-the-internet/


24

Split Second Search

La taille du web depuis 2008

http://thenextweb.com/shareables/2011/01/11/infographic-how-big-is-the-internet/

http://www.webrankinfo.com/dossiers/google-search/chiffres-cles-recherche

c) Evolution des moteurs de recherche

Les moteurs de recherche sont pris en tension entre différentes innovations : économiques et sociales avec l'arrivée du web participatif et techniques avec les technologies du web sémantique qui pourraient à terme venir bouleverser leur paysage.

i Les méthodes statistiques au cœur des moteurs

La première génération de moteurs est basée sur l'indexation automatique du contenu des "pages web" et l'ordonnancement des résultats établi par des algorithmes qui calculent, en fonction de la fréquence de liens, des principes de pages populaires (pageranking), et en fonction de l'origine de la source, des principes de confiance (trustranking).

Les méthodes employées sont morphologiques (identification des mots d'une phrase) et statistiques : elles concernent des chaînes de caractères. Le sens des mots n'est pris en compte ni dans la constitution des index ni les résultats de la recherche.

On peut situer temporellement cette première génération de 1995 à aujourd'hui. Un des premiers moteurs à avoir été lancé est Altavista mais il sera rapidement concurrencé par Google fondé en 1998. Dans la foulée apparaissent sur le marché Yahoo!, MSN, Voila (France Telecom) et les métamoteurs dont la fonction est d'interroger plusieurs moteurs et de fournir les résultats sur une seule liste. Le métamoteur français Kartoo (2001-2011) visualise la structure hypertextuelle de la liaison entre les sites et pages web.

Sur cette carte, les sites sont représentés par des icônes de taille différente selon leur pertinence. Au survol de la souris, les mots-clés concernés se manifestent en surbrillance et une brève description du site apparait sur un des côtés de la page web.

ii Méthodes morpho-syntaxiques et moteurs sémantiques

Premières clustérisations

Dès le début des années 2000, une seconde génération de moteurs voit le jour avec l'objectif de rendre plus opérationnelles les réponses aux requêtes. Les méthodes d'analyse des requêtes sont morpho-syntaxiques dans la mesure où s'ajoute à l'identification des mots d'une phrase, l'identification des constituants de la phrase elle-même.

Aux côtés de la liste principale des résultats classés, apparaît une colonne regroupant des significations différentes attribuées aux termes entrés. Il s'agit de clusterisation

ou de catégorisation automatique des différentes significations imputables à un terme en fonction de son voisinage et/ou en fonction de catégories prédéterminées.

Exalead, créé en 2000 par des ex-collaborateurs d'Altavista, et racheté en 2006 par


25

Kartoo : le métamoteur qui proposait une représentation graphique des liaisons

hypertextuelles des résultats.

Dassault Systems est le premier moteur français à expérimenter cette fonctionnalité.

A partir de la recherche "substituts CFC", un clic sur la catégorisation "Ozone troposphérique" restreint les résultats du moteur.

La clusterisation telle qu'elle est pratiquée à ses débuts n'est pas vraiment sémantique dans la mesure où elle est générée à partir d'un index en texte brut (plein text), c'est-à-dire sans notion de descripteur ni d'entité nommée.

Il faut des méthodes linguistiques pour ajouter du sens à un index : en regroupant les synonymes, les dérivations, les variantes, et en faisant appel à des dictionnaires spécialisés.

Les bases terminologiques sont indispensables à la statistique pour produire de la sémantique.

Il s'agira donc d'ajouter aux documents ou aux portions de documents indexés sur le web des informations permettant de les caractériser avant leur indexation. C'est tout l'enjeu du web sémantique. (Cette partie est abordée par le Module Architecture de l'information US240M).

Des mots-clés aux syntagmes

Selon Philippe Yonnet, l'indexation des pages web par Google passe progressivement des mots-clés aux syntagmes entre 2006 et 2008 [Recherche & Référencement n°138 [Lettre_Abondance_juin]].

Les moteurs de recherche du web s'éloignent donc progressivement de la représentation d'un document par ses mots-clés.

Suivant leur fréquence, des corrélations peuvent alors être effectuées entre les groupes de mots indexés. Les résultats en terme de requêtes sont observables dès l'entrée des mots dans le champ de recherche. Les deux exemples ci-dessous montrent ce processus à l'œuvre pendant une recherche tandis que le troisième pointe les différences de traitement selon les moteurs (google.fr et google.com).

Proposition de Google.fr à l'entrée de "Président de la".

Proposition de Google.fr à l'entrée de "Président de la banque".

Proposition de Google.com à l'entrée de "Président de la banque".

Pour en savoir plus sur l'indexation par syntagmes, consultez l'article de WebRankInfos8 sur le dépôt de brevet par Google sur la "phrasification".

8 - http://www.webrankinfo.com/dossiers/redaction/brevet-phrasification


26

Exemple Clusterisation Exalead

Requête 1

Requête 2

Requête 3

http://www.webrankinfo.com/dossiers/redaction/brevet-phrasification

Définition : Entités nommées

Les "entités nommées" sont des unités textuelles qui font référence à des appellations. Le nom propre d'une personne, l'intitulé d'une organisation, l'adresse, la date, les coordonnées de géolocalisation sont des entités qui peuvent être nommées, ce qui suppose qu'elle peuvent être appelées sous une forme générique et donc prendre différentes valeurs selon le contexte de leur utilisation.

Les entités nommées générées et extraites après publication

Les entités nommées peuvent être repérées et agrégées après leur publication sur le web, au moment de leur affichage sur un navigateur client.

Clearforest Gnosis est une application créée par Thomson Reuters sous la forme d'une extension du navigateur Firefox. Elle permet d'analyser rapidement l'ensemble du contenu d'une page web consultée suivant des entités nommées : villes, sociétés, continents, pays, entités naturelles, organisations, personnalités, régions, url, technologies, etc.

Un exemple d'entités nommées générée après publication web par ClearForest Gnosis.

Les entités nommées générées pendant le processus d'indexation

Les entités nommées peuvent être extraites au moment de l'indexation par les moteurs : un index spécialisé est alors généré qui stocke pour chaque entité nommée les pages qui les contiennent. L'index inversé étant alors complété avec ces informations.

Microsoft a lancé son moteur d'entités nommées spécialisés sur les personnalités : EntityCube9.

Les entités nommées peuvent aussi être extraites des résultats d'une requête, comme ici avec le moteur Cluuz10 qui propose une clusterisation à partir des entités nommées détectées à l'envoi du formulaire de recherche.

Ex : lors de la recherche sur "Jean-Claude Trichet", on renverra aux pages associées à l'entité nommée "Jean-Claude Trichet" et aux pages qui contiennent "Jean-Claude Trichet".

9 - http://entitycube.research.microsoft.com/10 - http://www.cluuz.com


27

ClearForest Gnosis

http://www.cluuz.com/

http://entitycube.research.microsoft.com/

Présentation des entités nommées liées à la recherche "Jean-Claude Trichet" dans la colonne de droite.

Extrait de la représentation graphique du cluster "Jean-Claude Trichet" sous forme de graphe de liens.

Vers les index de concepts

Bien que couvrant des pans entiers du réel lié aux actions humaines, les entités nommées sont insuffisantes à représenter les notions abstraites qui organisent la compréhension elle-même.

Pour parvenir à automatiser les calculs sur le langage, il est nécessaire d'aller plus loin et de couvrir les entités abstraites que sont les concepts.

La notion de graphe conceptuel qui est ancienne sert à représenter les formalismes utilisés dans la définition des connaissances.

Explication d'un réseau sémantique avec l'exemple du chat, ses concepts et ses relations.

Le Knowledge Graph11 de Google lancé en mai 2012 repose sur l'interconnexion de concepts en dehors des liens traditionnels de l'hypertexte. Il s'agit donc d'une couche supplémentaire d'organisation des données sur le web.

Pour l'instant non disponible en français, la recherche d'informations construit une page de résultats à partir des données sémantiques disponibles dont un certain nombre émane de Metafilter et Wikipédia. Voir exemples de cette évolution par Olivier Duffez sur WebRankInfos12.

11 - http://www.google.com/insidesearch/features/search/knowledge.html12 - http://www.webrankinfo.com/dossiers/google-search/evolutions-aout-2012


28

Réseau sémantique du chat

Graphe du cluster "Jean-Claude Trichet" généré par Cluuz

Extraction d'entités nommées avec le moteur Cluuz

http://www.webrankinfo.com/dossiers/google-search/evolutions-aout-2012

http://www.google.com/insidesearch/features/search/knowledge.html

La vidéo13 de présentation du Knowledge Graph.

Cette innovation de Google qui vise à répondre à des questions que se posent les internautes plutôt qu'à fournir des adresses où se trouvent des réponses suit deux initiatives de moteurs sémantiques : Wolfram Alpha et DuckDuckGo.

Pour se servir de Wolfram Alpha14, il est nécessaire de poser directement des questions en anglais : le moteur se définissant comme un Computational knowledge engine se charge de définir, donner les résultats aux calculs qu'on lui soumet dans des domaines très étendus.

Par exemple, à la question "combien y a t-il de vaches en France ?", le moteur propose 18,6 millions pour l'année 2009 et génère un graphique évaluant la population du cheptel de 1961 à 2009, mais aussi propose les chiffres de l'ensemble des animaux d'élevage destinés à la consommation sur le territoire français.

Le métamoteur DuckDuckGo15 qui interroge aussi Wolfram Alpha peut être qualifié de sémantique dans la mesure où ce service propose de lui-même des définitions à des termes qu'il ne peut désambiguïser et suggère des termes en relation avec la recherche. Sa face collaborative lui permet en outre d'améliorer la pertinence des résultats entre autres en filtrant le spam.

iii Les briques informatiques constituant un moteur de recherche

L'architecture d'un moteur spécialisé en recherche de nouvelles comme Silobreaker se compose de :

indexation et outils associés,

extraction d'entités nommées,

analyses relationnelles,

clustering et catégorisation,

interface de recherche

Restitution des informations crawlées et agrégées par le moteur de nouvelles Silobreakers.

La traduction architecturale d'un moteur de recherche spécialisé en veille repose sur les phases suivantes :

l'interprétation des requêtes,

la gestion des sources,

l'indexation et la connexion des sources,

13 - http://youtu.be/mmQl6VGvX-c14 - http://www.wolframalpha.com15 - http://duckduckgo.com/


29

Architecture du moteur de news Silobreaker

http://duckduckgo.com/

http://www.wolframalpha.com/

http://youtu.be/mmQl6VGvX-c

l'interrogation des bases de connaissances,

l'analyse des résultats.

Cette architecture d'un moteur de recherche multisources d'Ami Software met en évidence le rôle central de la base de connaissances pour la cohérence des réponses aux requêtes.

d) Typologie des moteurs

Réaliser une typologie de l'offre actuelle des "moteurs de recherche" présente une double difficulté. D'une part, parce que les "moteurs de recherche" possédant leurs propres index sont rares, d'autre part parce que sous cette appellation s'est déployée toute une offre de services liées à la recherche d'informations sur index mais aussi en temps réel.

L'exemple typique est l'intégration de la technologie de Métamoteurs dans ces services, sans qu'il soit toujours possible de savoir quels index sont en réalité interrogés. Pour explorer quelques-uns des anciens et nouveaux métamoteurs, consultez les signets de la BNF16.

Aussi cette typologie ne restitue que les tendances actuelles fortes en matière de technologies et de services liés à la recherche d'informations se servant de moteurs sur le web, en présentant quelques exemples à tester.

Une liste mondiale17 de moteurs de recherche répertoriés par pays indique une grande variété d'approches dans leur couverture et leurs thématiques.

Un répertoire anglosaxon18 des moteurs de recherche par thématique est aussi consultable par thématique.

Lancé en novembre 2006, Search Engine Land19 est un site d'informations couvrant le marketing et l'industrie des moteurs de recherche et les questions liées à la recherche d'informations.

Notons que les moteurs de recherche possédant leur propre index sont en réalité peu nombreux, la majorité d'entre-eux louant des index à Google, Yahoo et Bing.

i La recherche d'informations par détection visuelle et sonore

Il est possible aujourd'hui de ne pas faire intervenir le texte comme premier critère de recherche d'informations. La recherche visuelle fait appel à des techniques de reconnaissance de formes dans l'image. La recherche d'images devient ainsi la recherche par images.

TinEye permet ainsi de retrouver l'original d'une image, ses versions modifiées et la première fois qu'elle a été publiée sur le web.

Exercice : tester TinEye20 et Google Image Search21 en cliquant sur le petit appareil photo dans le champ de recherche.

16 - http://signets.bnf.fr/html/categories/c_025metamoteurs.html17 - http://www.searchenginecolossus.com/18 - http://www.searchengineguide.com/searchengines.html19 - http://searchengineland.com/20 - http://www.tineye.com/21 - http://images.google.com/


30

Architecture d'un moteur de recherche

http://images.google.com/

http://www.tineye.com/

http://searchengineland.com/

http://www.searchengineguide.com/searchengines.html

http://www.searchenginecolossus.com/

http://signets.bnf.fr/html/categories/c_025metamoteurs.html

De nombreux moteurs de recherche faisant appel à la visualisation d'images ont vu le jour ces dernières années.

Notons Mufin22 et sa recherche d'images par similarité.

D'autres services proposent de rechercher des informations par introduction de leurs caractéristiques sémiotiques : indications chromatiques musicales ou tonalité des images (luminosité, saturation, etc.). Voir Muma23 et Chromatik24 d'Exalead.

ii Recherche sociale et personnalisation des résultats

L'innovation technique rend possible la recherche sociale

Depuis 2004, une nouvelle génération de sites web a vu le jour. Construits par des calculs gérés directement par les navigateurs (Javascript et XML), ces sites ont deux particularités : leur contenu est systématiquement géré et stocké sous forme de bases de données et ils sont basés sur l'apport direct, indirect et dans la plupart des cas consenti de données appartenant aux usagers du web. C'est le web dit "social" ou web2.0.

Cette fourniture d'informations par les « amateurs » va se conjuguer avec la personnalisation de la recherche d'informations.

De nombreux sites collaboratifs se sont développés et le plus grand moteur de recherche, Google, finit par introduire en 2010, les images des internautes dans les prises de vues constituant GoogleStreetView (lire article GeoWeb25).

La description en XML des liens menant aux bases de données va permettre leur indexation (avant 2004, on peut considérer que le contenu des bases de données était peu ou pas indexé et qu'elles faisaient donc partie du web invisible) et le web indexé va gagner en taille.

L'arrivée du web dit "social" autorise des pondérations réalisées par les internautes. Aux résultats affichés sur les navigateurs par les moteurs de recherche, s'ajoutent donc les avis des usagers, par l'intermédiaire d'extensions sur les navigateurs, c'est le socialsearch. Depuis 2011 Google propose ainsi aux internautes de recommander les pages web avec Google+26.

L'arrivée de l'informatique dans les nuages (cloud computing) crée aussi la possibilité de créer des moteurs personnalisés comme le moteur « pour la famille et les amis » de Yippy.27

Constitution de la recherche sociale

La recherche sociale d'informations se spécialise dans les blogs, microblogs, réseaux sociaux, outils de bookmarking, et plus généralement tous les outils qualifiés de web 2.0 même si par ailleurs la moitié d'entre eux existait avant leur qualification 2.0.

Notons Social Mention28, qui s'intitule Recherche et analyse en temps réel de médias sociaux (blogs, microblogs, bookmarks, commentaires, événements, images, nouvelles, videos, audios, questions/réponses, réseaux). Des statistiques affinant la recherche sur les résultats sont générées : avis (positifs, négatifs et neutres), dix premiers producteurs d'infos, dix premiers mots-clés, tags twitter (hashtags) et enfin sources d'informations.

22 - http://mufin.fi.muni.cz/imgsearch23 - http://muma.labs.exalead.com24 - http://chromatik.labs.exalead.com/25 - http://www.geoinweb.com/2010/06/10/google-fusionne-street-view-photos-utilisateurs/?utm_source=twitterfeed&utm_medium=twitter26 - https://www.google.com/intl/fr/+1/button/27 - http://yippy.com/28 - http://socialmention.com


31

http://socialmention.com/

http://yippy.com/

https://www.google.com/intl/fr/+1/button/

http://www.geoinweb.com/2010/06/10/google-fusionne-street-view-photos-utilisateurs/?utm_source=twitterfeed&utm_medium=twitter

http://chromatik.labs.exalead.com/

http://muma.labs.exalead.com/

http://mufin.fi.muni.cz/imgsearch

Topsy29 est un moteur de recherche spécialisé en réseaux sociaux (Google +), en microblogging (Twitter) et en bookmarking. Il dit sélectionner les sites les plus influents en repérant les profils d'experts sur un sujet (nombre de mentions classées chronologiquement). Une partie analytique compare trois requêtes selon trois critères (nom de domaine, @identifiant, ou mot-clé) sur une période allant d'une journée à un mois. Les termes entrés servent ensuite à sélectionner les sources les ayant cités, classées par ordre d'influence (traduite par le nombre de mentions).

Search Cube30 recherche sur Flickr, Facebook, YouTube, Google, Blekko etTwitter.

La recherche d'informations possède aussi sa face collaborative avec le partage de pages web comme Yoolink31, de signets (ou bookmarking) sur des services dédiés. Par exemple, la revue Internet-Actu32 utilise le mot-clé interneactu33 sur Delicious pour signaler et recueillir les informations qu'elle juge intéressante de disséminer (mais aussi suivant ses rubriques, les mots-clés villes2.0, identitesactives, pluslonguelavie, etc.).

iii Spécialisation par médias et sélection des sources d'information

La spécialisation de la recherche d'informations suit deux directions : 1. la spécialisation par types de contenus (médias texte, image, vidéo, etc.) 2. la spécialisation par genres éditoriaux (publications et conversations)

Les moteurs de recherche se sont rapidement spécialisés par média (images, vidéos).

Notons Blinkx34 pour les vidéos (moteur de recherche incluant les dernières innovations en matière de reconnaissance sonore et d'image) et Picsearch35 qui possède son propre crawler pour les images.

SpaceTime36 établit ses recherches d'images et vidéos en interrogeant Google, Wikipédia, Facebook, YouTube et fait défiler les résultats sous forme d'une galerie.

La spécialisation par genres éditoriaux se compose de moteurs concernant :

- la presse : Silobreakers37, PickaNews38, etc ;

- le blogging : Technorati39, Twingly40, etc.

- le microblogging : TwitterPowerSearch41, TweetGri42d43, etc.

iv Les moteurs de recherche verticaux

Qu'est-ce qu'un moteur de recherche vertical ?

Les moteurs de recherche verticaux représentent une tentative réussie de maintien de cohérence dans les résultats car leur périmètre d'indexation se restreint à un secteur, une technique, une spécialité, un service, etc.

Les moteurs de recherche verticaux travaillent sur leurs propres bases de données,

29 - http://topsy.com/30 - http://search-cube.com31 - http://www.yoolink.fr/32 - http://www.internetactu.net/33 - http://delicious.com/tag/internetactu34 - http://www.blinkx.com/35 - http://www.picsearch.com36 - http://www.spacetime.com/37 - http://www.silobreaker.com/38 - http://www.pickanews.com/39 - http://www.technorati.com40 - http://www.twingly.com/41 - http://twitterpowersearch.com/42 - http://tweetgrid.com/43 - http://tweetgrid.com/


32

http://tweetgrid.com/

http://tweetgrid.com/

http://twitterpowersearch.com/

http://www.twingly.com/

http://www.technorati.com/

http://www.pickanews.com/

http://www.silobreaker.com/

http://www.spacetime.com/

http://www.picsearch.com/

http://www.blinkx.com/

http://delicious.com/tag/internetactu

http://www.internetactu.net/

http://www.yoolink.fr/

http://search-cube.com/

http://topsy.com/

annuaires et index et ne constituent pas seulement un sous-ensemble filtré thématiquement et uniquement par Google Custom Search Engine44.

Nous reprenons la définition45 donnée par Christophe Asselin, de Digimind, à I-Expo en 2008.

« Il s'agit d'outils de recherche (seuls ou intégrés à un portail, un répertoire) focalisés sur un secteur, une spécialité professionnelle (ex : les télécoms, le juridique, la biotechnologie, la finance) ou dont le contenu transverse est dédié au B2B. »

Sélectionnés manuellement ou automatiquement, les contenus de moteurs de recherche verticaux sont indépendants des médias : pas de spécialisation par blogs, forums, images, etc. Ils ne sont pas à confondre avec les agrégateurs.

Exemple d'une spécialité, la médecine française possède son moteur de recherche accessible par le portail Cismef46 (Catalogue et index des sites médicaux de langue française) au CHU de Rouen. Son but affiché est de « faciliter l'accès à l'information de santé pour les professionnels mais aussi les patients et le grand public, en recensant les sites et documents médicaux présents sur l'Internet répondant à certains critères de qualité. »

La page d'accueil propose une double entrée :

- le moteur qui balaie les recommandations professionnelles, les documents concernant l'enseignement et les associations et documents concernant les patients,

- l'accès au portail terminologique de santé (classification des maladies, des actes médicaux, thésaurus Mesh, etc.).

Autre exemple de spécialisation, cette fois-ci en technologies de l'information, à destination des entrepreneurs, le moteur IThound47 (The business technology article library) possédé par Incisive Media48, éditeur britannique de revues professionnelles (Finance, Immobilier, Information et Technologies) et en ligne (VNUNet49, IWR50) propose l'accès à une bibliothèque d'articles constituée par des livres blancs, rapports d'analyse, études de cas, spécifications de produits et séminaires web.

La recherche s'effectue par mots-clés ou en sélectionnant des catégories prédéterminées et selon le type de documents recherchés.

Le marché des moteurs verticaux

Le marché des moteurs verticaux prend deux directions :

- celui dédié à la recherche verticale "interne" comme Verticrawl51 qui propose des solutions informatiques de moteurs d'indexation pour recherche interne, logiciels de recherche SaaS, référencement, analyse de trafic et text mining.

- celui dédié à la recherche verticale "externe" dont l'objectif est de fédérer les ressources, les agréger pour les restituer dans des index spécialisés comme Globalspec5253 qui est aujourd'hui le moteur de recherche industriel de référence proposant des contenus adaptés par secteur d'activité.

44 - https://www.google.com/cse/45 - http://fr.slideshare.net/jdeyaref/les-moteurs-de-recherche-verticaux46 - http://www.cismef.org/47 - http://www.ithound.com48 - http://www.incisivemedia.com/49 - http://www.vnunet.fr/50 - http://www.iwr.co.uk/51 - http://www.verticrawl.com/fr/homepage.php52 - http://www.globalspec-europe.com53 - http://www.globalspec.com/


33

http://www.globalspec.com/

http://www.globalspec-europe.com/

http://www.verticrawl.com/fr/homepage.php

http://www.iwr.co.uk/

http://www.vnunet.fr/

http://www.incisivemedia.com/

http://www.ithound.com/

http://www.cismef.org/

http://fr.slideshare.net/jdeyaref/les-moteurs-de-recherche-verticaux

https://www.google.com/cse/

v La recherche d'informations en temps réel

La transformation du web de documents en web de conversations avec l'arrivée des réseaux sociaux de type Facebook et du microblogging de type Tumblr et Twitter et l'ouverture de leurs bases de données aux API ont rendu possible leur interrogation en temps réel.

Bien entendu, cette recherche d'informations équivaut à une "prise de température" susceptible de varier mais il est possible d'évaluer de manière régulière l'évolution d'une croyance, d'un avis, d'une conviction, d'un buzz marketing sur internet et d'observer leur reprise et leur appropriation par les relais d'opinion que sont devenus les internautes.

Un exemple de ce type de moteurs est Spezify, moteur de recherche branché sur les réseaux sociaux du web2.0. Il suit les conversations de Twitter, les recommandations d'Amazon, sélectionne les photos de Flickr et les morceaux de musique de SoundCloud et les propose sous forme d'îcones cliquables agrégées sur une page web navigable.

Observez par exemple les résultats de la recherche "platinum mining " sur Spezify54.

Twirus55 recherche sur Twitter en 10 langues les tendances par région et par langue et calcule les hashtags et les tweets les plus populaires du jour.

La recherche en temps réel a tendance à se confondre avec la recherche sociale d'informations puisqu'elle est axée sur les conversations en train de se produire.

SamePoint56 réalise des recherches sur ce qui se dit sur les marques et établit une liste d'influençeurs.

e) Quelques lectures supplémentaires autour de la recherche d'informations et des moteurs

Recherche éveillée sur Internet [Foenix]

Dans le labyrinthe, évaluer l'information sur internet [Serres]

Net Recherche 2010 [Mesguich]

Moteurs de recherche, usages et enjeux [Questions_de_Com]

C. Les modalités de surveillance

Une surveillance automatisée de l'information repose sur une visite régulière d'un ensemble de médias et du repérage des changements s'opérant sur ces médias. Réservée hier aux pages de sites, la surveillance s'est affinée en même temps que se diversifiaient les publications sur le web : autopublications et commentaires sur les blogs, conversations avec le microblogging, regroupements de personnes sur les réseaux sociaux, re-publications avec l'agrégation de contenus. Autant de techniques qui font que la surveillance ne concerne plus seulement des documents mais s'est progressivement élargie aux interactions entre les entités sociales avec le repérage des opinions, l'évolution de la réputation d'une marque, d'une entreprise ou d'une personnalité politique.

Deux types de veille sont alors repérables :

- celle visant l'information identifiée où l'on va de manière systématique surveiller l'évolution

54 - http://www.spezify.com/#/mining%20platinum55 - http://fr.twirus.com/56 - http://www.samepoint.com/brands


34

http://www.samepoint.com/brands

http://fr.twirus.com/

http://www.spezify.com/#/mining%20platinum

en repérant les modifications,

- celle cherchant à repérer l'émergence en vue de détecter des ruptures ou des changements et qui concerne autant l'information identifiée que celle qui n'est pas encore connue.

1. Les agents d'alerte

Les agents d'alerte nommés aussi agents de recherche concernent l'information identifiée, c'est-à-dire l'information dont on connaît l'émetteur et l'adresse. Ils visent à émettre des alertes lorsque les conditions que l'on aura précisées seront réunies. Leurs capacités sont liées à leurs caractéristiques de collecte : capacité à visiter le web "invisible", à utiliser les moteurs de recherche, à circuler dans les bases de données et à lire les contenus.

Il signalent les modifications à l'intérieur de pages ou de sites tels que blogs, wikis, portails, ou pages de flux RSS par l'intermédiaire de notifications journalières par mail, ou en ligne. Ces modifications concernent le nombre de phrases, les liens, les images, etc. et sont filtrables par mots-clés.

Il s'agit d'outils datant de plus d'une quinzaine d'années (ils apparaissent dès 1996 en même temps que les "aspirateurs de sites") et s'utilisent en ligne de manière autonome (comme Infominder57, WatchThatPage58, Femtoo59). Certains comme Website Watcher sont des logiciels clients qui s'enrichissent régulièrement de fonctionnalités et deviennent des outils apprenants.

Website Watcher60 dispose ainsi de filtres capables de différencier les modifications et de les hiérarchiser. A partir d'une URL de départ, l'outil est capable de suivre les liens et crawler des URLs selon leur forme. Il simule les connexions aux espaces protégés et est en mesure de réaliser des requêtes automatisées sur des moteurs de recherche.

La tendance est à combiner système d'alerte et plate-forme de gestion et d'analyse de la surveillance en ligne. Citons comme exemple Alerti 61qui propose entre autres : recherche de mots-clés, expression exacte, élimination de sites avec sources, sur des sites de news, de microblogging, forums, serveurs images et vidéos, réseaux sociaux et blogs. Des fonctionnalités de partage transforment la recherche en veille collaborative et des outils d'analyse permettent de traiter l'information.

Les agents d'alerte peuvent avoir deux fonctions :

alertes simples sur mots-clés

surveillance de sources spécifiques à intervalles réguliers avec possibilité de traitement des données collectées

2. Les techniques d'agrégation

Qu'est-ce que l'agrégation ?

L'agrégation est une technique qui permet de juxtaposer dans un même fichier ou sur une même page des informations issues de différentes sources. Textes, images, vidéos, infographies peuvent être ainsi assemblées pour être présentées ensemble.

57 - http://www.infominder.com/58 - http://www.watchthatpage.com59 - http://femtoo.com/60 - http://www.website-watcher.fr/61 - http://fr.alerti.com/


35

http://fr.alerti.com/

http://www.website-watcher.fr/

http://femtoo.com/

http://www.watchthatpage.com/

http://www.infominder.com/

L'agrégation RSS

L'agrégation RSS repose sur un format et est un moyen de diffuser/recevoir de l'information qui s'est généralisé avec la multiplication des outils de publication (CMS, blogs, web2, etc.).

Lorsqu'un site publie des informations encodées en RSS, il met à disposition des fils ou flux à des tiers qui peuvent les télécharger et mettre à jour automatiquement des espaces réservés.

Que contient un fil RSS ?

Titre de l'information

Début du texte ou résumé

Lien vers une page avec suite de l'information ou son détail

RSS se compose de la première lettre du sigle RDF (Resource Description Framework) suivi de Site Summary. Les appellations Rich Site Summary ou Real Simple Syndication sont des interprétations vulgarisées et adaptées du format RSS. Une traduction possible de RSS est « Sommaire de site encodé en RDF ».

Syndication : mise à disposition de tout ou partie du contenu d'un site Web

Simple : remplace d'autres formats de syndication plus complexes et lourds (NewsML)

Really : un webmaster connaissant le HTML comprend rapidement le RSS.

RDF (Resource Description Framework) vise à utiliser des métadonnées sur le web . Il s'agit d'un modèle et d'une description de syntaxe, spécifiés par le W3C, réalisés en vue d'enrichir les contenus du web au moment de leur codage.

Un fichier au format .rss contient la description du contenu partiel ou entier d'un site par des balises XML au format RDF.

mettre un exemple de syntaxe

Les agrégateurs de contenus

L'agrégation automatique de flux rss par des logiciels nommés agrégateurs favorise de multiples usages (individuels et collectifs) et a entraîné la création de nouveaux acteurs de l'édition : les éditeurs - agrégateurs de collections. Dans l'édition, une société comme immateriel.fr propose de gérer pour les libraires et collectivités des collections d'e-books. (Voir crevilles.org).

Un logiciel agrégateur de nouvelles (ou fils ou flux) est un lecteur de fichier RSS. Il se présente comme un utilitaire de messagerie avec des fonctionnalités qui lui sont réservées : moteur de recherche, filtres, indicateurs de veille, etc.

Il existe des logiciels agrégateurs en ligne et hors ligne.

Un agrégateur extrait les contenus balisés et actualise automatiquement un fichier réservé. Une actualisation paramétrable permet donc des mises à jour en fonction du genre (brève d'agence de presse, article de quotidien, billet de blog, etc.) et des thématiques (opinion, environnement, etc.).

Débouchés : méta-édition, agrégateurs personnels de nouvelles, communautés et collaboration en ligne.

Les métadonnées transportées avec RSS

Les flux RSS contiennent des informations paramétrées sous forme de nouvelles ou articles (titre, corps de l'article, liens, url) et des données concernant ces informations (les métadonnées) comme le nom de l'auteur, la date de publication, les droits d'usage (Licences creative commons, DRM), la géolocalisation (longitude et latitude attachés au contenu), etc.


36

L'encodage des données en XML autorise la lecture individuelle mais aussi le traitement par d'autres programmes d'informations qui ne seront pas forcément affichées :

OPML

OPML (Outline processor markup languagel) est principalement utilisé pour importer/exporter des flux RSS entre agrégateurs ou d'un outil à un autre. Ce format d'enregistrement se matérialise par une arborescence : chaque nœud contient un ensemble d'attributs nommés avec des chaines de caractères pour valeur.

OMPL Manager

Bitty.com

Share Your OPML

OPMLgenerator

Il est possible de visualiser des pages web en OPML.

Exercice :

Génération de flux RSS

Il est techniquement possible de produire soi-même des flux RSS à partir d'une page web qui n'en contient pas. Des services en ligne génèrent les métadonnées et les flux : Dapper, Feedily, FeedYes, etc.

Devenir des usages du RSS ?

L'usage d'agrégateurs de contenus est resté confiné à une population manipulant de grandes quantités de documents et cherchant à optimiser les recherches en hiérarchisant l'information pour des objectifs liés aux professions concernées : documentalistes, bibliothécaires, journalistes, étudiants.

Cet usage se rétrécit aujourd'hui face aux systèmes de recommandations mis en place sur les réseaux sociaux comme LinkedIn, Facebook ou par les services web de conversations comme Twitter.

Typologie des lecteurs de flux RSS

Agrégateurs hors ligne

Agrégateurs clients : Feedreader, RSS Bandit, Feeddemon, etx ;

Agrégateurs intégrés à d'autres logiciels : Thunderbird, Firefox, Outlook, etc.

Agrégateurs en ligne

Intégrés : Google Reader, myYahoo, etc.

Services autonomes : NetVibes, Blogline Reader, etc.

Tri dans l'agrégation

Bscopes62, Yahoo Pipes

3. Techniques de filtrage et d'agrégation

L'agrégation de conversations et de flux RSS représente un moyen relativement simple d'automatiser la surveillance de termes dans une liste de sites ou services web choisis,

Il existe des services qui possèdent leurs propres moteurs de recherche et proposent des systèmes d'alerte à partir des mots-clés introduits par l'usager.

62 - http://www.bscopes.com/


37

http://www.bscopes.com/

Les techniques de clusterisation associées à l'extraction d'entités nommées donnent des résultats très performants chez les agrégateurs de nouvelles de presse.

Ex : NewsExplorer63

clustering de tous les articles du jour, séparément pour chaque langue, en groupes d'articles liés ;

pour chaque cluster, identifie les identité nommées : personnes, lieux, organisations ;

applique des techniques de matching pour trouver tous les noms dans le même cluster, dans l'objectif d'identifier les variations d'appellation désignant la même personne ;

lie les clusters d'une langue avec les autres clusters d'autres langues qui sont en rapport avec le même sujet ;

identifie l'article le plus typique de chaque cluster et l'utilise comme titre du cluster ;

stocke l'information extraite chaque jour, concernant les personnes, etc. dans une base de données de connaissances.

Autre exemple du même consortium de la Communauté européenne Europe Media Monitor, le moteur d'agrégation NewsBrief64 montre les thèmes les plus discutés de dernière minute ou dans les dernières heures à partir de multiples sources de presse et en 60 langues.

Toutes les 10 minutes, à partir de 3750 portails générant plus de 10000 flux RSS le site regroupe les informations, génère des timelines et classe en premier les articles suscitant le plus d'intérêt.

A partir de filtrages, il est possible de générer des flux RSS, produire des rapports au format pdf, envoyer des mails.

4. Quelques lectures supplémentaires autour des techniques de filtrage et d'agrégation

Utiliser les fils Atom et RSS [Courrier]

La curation : entre usages individuels et pratiques professionnelles [DocSI 49]

63 - http://emm.newsexplorer.eu64 - http://emm.newsbrief.eu


38

http://emm.newsbrief.eu/

http://emm.newsexplorer.eu/

II - Les outils de veille II

Méthodologie de mise en place d'un système de veille 41

Panorama des outils de veille 51

Les réseaux sociaux et folksonomies 55

A. Méthodologie de mise en place d'un système de veille

1. Qu'est-ce que la veille ?

Définition simplifiée

Un veilleur recherche des sources d'informations et des ressources pour documenter une question, un marché, un public, dans l'objectif de donner des conseils à un bénéficiaire.

Définition : Définition savante

« Activité continue et en grande partie itérative visant à une surveillance active de l'environnement technologique, commercial ... pour en anticiper les évolutions » [Afnor, 1998 [Veille Afnor]]

Activité de surveillance permanente de l'environnement interne ou externe d'une organisation qui permet le repérage de signes ou d'indices révélateurs de changements importants

Cette activité consiste à repérer les plus récents acquis technologiques (commerciaux, scientifiques, etc.), à évaluer les facteurs de risques et à collecter et traiter toutes les informations pertinentes susceptibles de faire réussir un projet, contribuer à la prospérité d'une entreprise, une organisation, et ce, à court et à long terme.

39

2. Typologie de la veille en fonction des objectifs à atteindre

Les raisons pour lesquelles une entité commerciale, un institut d'études politiques, un département de recherche et développement ou un institut de recherche scientifique souhaitent mettre en place une veille sont variées. Néanmoins dans un environnement de plus en plus incertain, l'analyse prospective est une nécessité et ses composantes sont repérables à travers les différents types de veille :

Veille marketing : connaître le marché, les produits liés à une activité et identifier de nouveaux marchés afin de proposer de nouveaux produits

Veille financière : détection des mouvements sur les marchés financiers, monétaires et des matières premières

Veille concurrentielle : observation du positionnement des concurrents pour ajuster le « sien »

Veille technologique : repérage des innovations et évolutions technologiques

Veille juridique et réglementaire : surveillance des modifications législatives et réglementaires ainsi que les décisions de justice et administratives

Veille sur la propriété intellectuelle, les normes, les brevets

Veille sociale : surveille l'évolution des réglementations en matière sociale et leur retentissement sur le public

Veille d'opinions : évalue l'appréciation des marques, relève les avis des consommateurs, des citoyens

Veille politique : surveille l'évolution des opinions politiques en fonction des réseaux situés dans les institutions et hors institution

Veille sur les médias : regarde la façon dont les différents médias traitent d'un sujet particulier

Veille sur les usages : mieux connaitre les besoins des usagers pour inventer des produits et des services

Notons que la "veille stratégique" occupe une place à part car elle engage le pilotage de l'organisation ou du département en entier et suppose utiliser plusieurs sortes de veille pour parvenir à ses fins.

Sur ce nuage de mots-clés représentant les différentes pratiques de veille observées par l'un de ses acteurs, Digimind, relevons la place centrale de la veille stratégique.

3. Cycle de veille

Un cycle itératif en cinq étapes

Réaliser un cycle de veille suppose passer par des séquences ordonnées en étapes. 1. Ciblage

Expression et clarification des sujets de surveillance (thèmes plus généraux, contraintes, enjeux, décisions liées, objectifs)Mise au clair des besoins (périmètre géographique, linguistique, indicateurs à

Les outils de veille

40

Les différents types de veille repérés par Digimind

surveiller, type d'informations souhaitées, terminologie, etc.) 2. Sourcing

Recherche, identification, sélection et qualification des sources (voir matrice).L'étape du sourcing va distinguer entre ce qui peut être automatisé et ce qui ne l'est pas (recherche sur bases documentaires scientifiques et techniques à accès contrôlé, accès aux archives sur abonnements, etc.)

3. Collecte et surveillanceCollecte des sources identifiées + recherches par équations + surveillance

4. Traitement et analyseTri, dédoublonnage, regroupement, analyse des informations collectées

5. Exploitation et diffusionOrganisation des informations analysées et préparation de la diffusion des résultats

L'étape du ciblage

Comme pour tout projet, la veille résulte d'une demande interne ou externe à l'organisation et il s'agit de bien identifier les acteurs de la demande pour pouvoir évaluer correctement les besoins que la veille est censée remplir.

Les acteurs de la veille : la recherche et collecte d'informations répondant à un objectif de veille prennent place dans un processus de validation de l'information réalisée par des experts avant de parvenir aux décideurs.

La matrice de ciblage vise à répertorier de façon précise les sources à observer en fonction des types de veille à exercer.

L'étape de la collecte et de la surveillance

Cette étape à deux dimensions est le cœur du cycle de veille.


41

Acteurs de la veille

Matrice de ciblage de Help Management

Paramétrage de la profondeur des sites web à surveiller pendant la collecte d'informations (outil KB Crawl).

Paramétrage de la fréquence de la surveillance (outil KB Crawl).

L'étape du traitement et de l'analyse

La double étape du traitement et de l'analyse se caractérise par des degrés de complexité qui s'échelonnent du micro au macro pour rendre possible une vue d'ensemble globale du problème de départ..

L'analyse des pages modifiées est facilitée par la prévisualisation graphique des éléments clés de la surveillance (outil KB Crawl).

L'étape de l'exploitation et de la diffusion

L'étape finale de la communication des résultats repose sur une organisation optimisée des contenus collectés et analysés.

Automatisation de la création et envoi d'une newsletter (outil Lexis Nexis).


42

Paramétrage de la surveillance des sites

Paramétrage de la fréquence des surveillances

Détection des pages modifiées

Préparation d'une newsletter automatisée

4. Méthodologie de mise en place d'une surveillance

Stratégie, surveillance et exploitation

Ce schéma distingue trois phases dans la mise en place d'une veille.

Mise au point de la stratégie de veille qui va traduire en termes d'axes et vigilances ce qui doit être surveillé de manière automatique. Cette surveillance à automatiser est destinée à compléter l'état de l'art du sujet : toute la documentation accessible qui sera réunie au préalable par la

recherche documentaire.

Traduction de cette stratégie sous la forme d'un cahier des charges qui liera le tableau des sources avec les requêtes adéquates à paramétrer et qui constituera la surveillance.

L'exploitation doit être validée et fournir des résultats sous forme de rapports, bulletins de veille qui seront évalués selon des grilles de type Swot, Pestel, etc.

Les différents niveaux de profondeur d'une veille

Différencier et hiérarchiser les sources suivant les objectifs spécifiques d'une veille permet de structurer les orientations de recherche documentaire et d'informations.

Ce schéma issu d'une présentation65 de Loïc Hay met en évidence les différences de profondeur de la veille qui permettent d'écouter les signaux forts émanant des institutions et atteindre les signaux faibles du web émergent.

5. Les prestations de veille

Caractéristiques d'une prestation de veille

Connaître précisément les attendus d'une prestation de veille réalisée par un acteur externe à l'entreprise ou l'organisation peut être utile pour mesurer le périmètre exact du travail à réaliser.

D'après la norme [Afnor, 1998 [Veille Afnor]], §4.1, les caractéristiques différenciant les offres en prestation de veille sont les suivantes :

la finalité (opérationnelle ou stratégique),

65 - http://fr.slideshare.net/loichay/la-veille-sur-internet-en-5-tapes-cls


43

Méthodologie de mise en place d'une surveillance

Régler le niveau de profondeur de la veille

http://fr.slideshare.net/loichay/la-veille-sur-internet-en-5-tapes-cls

le nombre de destinataires et leur degré d'implication dans le processus de veille,

l'étendue du champ ou des thèmes à surveiller (nombre de sujets, de pays, d'entreprises, etc.),

la nature et la diversité des sources ou support mobilisés,

les opérations de traduction en langue étrangère,

le niveau de valeur ajoutée concernant :- l'accès à certaines sources,- la profondeur de la recherche,- la sélection,- la qualification de l'information,- l'analyse,- l'organisation de l'information,- les commentaires,

le rythme de mise à disposition des données,

le critère de seuil ou le degré de réactivité,

la présentation des résultats de la surveillance,

les modalités de la fourniture des résultats,

les modalités de réajustement ou d'interactivité.

Schéma A de Processus de veille dans le cadre d'une prestation.

A1 – Définition ou redéfinition des axes de surveillance et des finalités

Il s'agit d'une part, de décrire ou de préciser les sujets qui intéressent et l'organisme et pour lesquels il convient de collecter des données ou informations pouvant concerner les aspects technologiques, juridiques, normatifs et réglementaires, économiques, concurrentiels, sociétaux, etc., et d'autre part, d'identifier les finalités visées par le client.

A2 – Détermination des types d'informations utiles

Il s'agit de préciser si la collecte doit porter principalement sur des éléments statistiques, des avis d'experts, des supports documentaires, ...

A3 – Identification et sélection des sources d'information

Parmi les diverses sources existantes (telles que bases de données, centre de documentation, experts ou spécialistes, publication périodiques, ouvrages, manifestations professionnelles, acteurs du domaine...), il convient de choisir la ou les sources pertinentes ou accessibles en fonction de leurs caractéristiques propres, des axes de surveillance et des types d'informations requises, des contraintes imposées par l'organisme en matière de délais, de confidentialité et de coûts.

A4 – Collecte et sélection des informations


44

Processus de la veille (d'après Afnor)

La collecte des informations est menée de façon régulière ou selon une périodicité variable. Le prestataire prendra soin de donner le bon niveau de pertinence aux informations correspondant directement ou indirectement aux axes de surveillance.

A5 – Traitement/analyse des données collectées

Il s'agit d'analyser les informations collectées et de les organiser de façon à les rendre exploitables (à travers, par exemple, des résumés, un système de classification, une synthèse, une analyse bibliométriques,...).

A6 – Synthèse et mise en perspective

Il s'git de dégager le « sens » ou les aspects stratégiques des informations collectées et de proposer une formulation adaptée au processus de décision de l'organisme.

A7 – Communication des résultats de la veille

Cette communication périodique peut s'effectuer sous des formes diverses : note, dossier, support électronique, présentation orale, etc.

A8- Validation et réajustement

La communication des résultats peut être l'occasion d'un ajustement par approfondissement et/ou réorientation des objectifs et moyens de la veille.

Au cours de ce processus, les prestataires de veille interne ou externe à l'organisme peuvent assurer la totalité des phases A1 à A8 ou seulement certaines d'entre elles, le client réalisant alors lui-même les phases manquantes.

Réalisation d'un système de veille

La réalisation d'une prestation de veille inclut d'après le §4.2 de la norme [Afnor, 1998] :

1. le cahier des charges détaillant l'offre (expression des besoins et caractéristiques du service à fournir) et la garantie de moyens, notamment en termes de compétences du ou des intervenants,

2. les résultats de la veille sous les formes convenues en termes de présentation (rapports, etc.) et de périodicité.


45

Schéma B de Mise en place d'un système de veille dans le cadre d'une prestation.

B1 – Sensibilisation

Le bon fonctionnement du système de veille repose sur l'adhésion des collaborateurs directement concernés par le processus. Aussi, il est nécessaire que le prestataire, à travers une réunion par exemple, les informe sur les finalités de la veille et les exigences qu'elle impose.

B2 – Prise de connaissance de la situation

Il s'agit pour le prestataire d'acquérir une connaissance approfondie de l'entité – bénéficiaire de la prestation afin de parfaitement positionner sa démarche. Les éléments incontournables à connaître relèvent du métier, de la qualification et de l'organisation humaine, de la culture, des produits, des moyens de conception, de production et de vente, des marchés, de la concurrence et de la situation financière de l'entité.

B3 – Définition des enjeux

Le futur système de veille de l'organisme alimentera la réflexion, stratégique ou opérationnelle de l'entité. Aussi, le prestataire se soit de connaître et de comprendre les enjeux majeurs de l'entité à court, moyen et long terme, eu égard à l'évolution pressentie de son environnement : objectifs poursuivis et stratégie retenue, menaces et opportunités détectées, etc.

B4 – Traduction en axes de veille

L'objet de cette phase pour le prestataire est de traduire les enjeux, définis précédemment, en axes de surveillance (types d'information à collecter, sources d'information à solliciter).

B5 – Diagnostic de l'organisation et des pratiques

Le prestataire établit un bilan de l'organisation et des pratiques humaines actuelles au sein de l'entité, ceci en terme de collecte, de circulation, de traitement et d'utilisation de l'information dans le processus de décision.

B6 – Recensement des sources

De même, le prestataire recense les sources sollicitées régulièrement ou ponctuellement par l'organisme et caractérise les types d'information collectés et/ou


46

Mise en place d'un système de veille (d'après Afnor )

exploités.

B7 – Evaluation des écarts

Les phases B4 à B6 étant réalisées, le prestataire dispose des éléments lui permettant d'évaluer et d'analyser les écarts entre la situation actuelle de l'organisme en termes de processus d'information et la situation souhaitable, eu égard aux axes de veille définis précédemment.

B8 – Recommandations

Les recommandations du prestataire recouvrent trois thèmes : - Le recensement des catégories d'information à collecter par l'entité pour alimenter ses axes de surveillance ; - La hiérarchisation des sources d'information pertinentes à mobiliser (sources maîtrisées ou non au moment du diagnostic) et l'évaluation des coûts d'accès. - La proposition d'outils, de méthodes et d'une organisation adaptée à la culture d'entreprise et lui permettant d'optimiser la collecte (désignation de capteurs, définition des missions et des périodicités de collecte,...) la circulation de l'information utile (manuelle, informatisée,...), le traitement (interprétation, évaluation, intégration au processus de décision,...) et éventuellement son stockage.

B9 – Mise en place

Sous réserve de l'acceptation de ses recommandations par l'entité, le prestataire apporte son soutien avec méthode à la mise en œuvre concrète du système de veille proposé.

B10 – Accompagnement

Cette phase, optionnelle, permet au prestataire de conseiller et d'aider l'entité dans l'application et l'évolution de son système de veille. Cet accompagnement s'effectue sur une période plus ou moins longue en fonction des besoins du client.

Complément : Les compétences requises

Un prestataire de services de veille doit réunir et maîtriser des savoir-faire et des moyens techniques associés lui permettant de mener avec succès vis-à-vis du client, au minimum, les tâches suivantes :

- Comprendre son métier, son organisation, sa culture et sa stratégie ;

- Décrypter son réel besoin en termes de veille et les finalités d'une telle opération pour l'entreprise ;

- S'immerger aisément dans la thématique correspondant au thème de la veille ;

- Accéder à une large diversité de sources (formelles et informelles) et savoir sélectionner les sources adéquates par rapport au thème de la veille ;

- Maîtriser les techniques d'investigation auprès des sources formelles (langage d'interrogation des sources électroniques, accès aux réseaux documentaires en France et à l'étranger) et/ou des sources informelles (repérage des organisations et des interlocuteurs idoines, conception d'argumentaires, entretien téléphonique ou en face-à-face) ;

- Interpréter l'information collectée (donner du sens) en s'appuyant sur les techniques d'analyse les mieux adaptées au thème de la veille, à sa finalité et au coût de la prestation (sans exhaustif, citons les techniques suivantes : analyse d'avis d'experts, analyse financière, analyse marketing, analyse fonctionnelle, analyse des jeux d'acteurs, prospective, etc.) ;

- Restituer l'information traitée de manière intelligible et sous un angle opérationnel pour le client et adapté à la culture de son organisme ;

- Alerter le client, en cas de besoin en dehors des périodicités de restitution convenues dans le contrat, de toute information captée et jugée potentiellement critique.


47

Extraits du §4.3 de la norme [Afnor, 1998 [Veille Afnor]].

B. Panorama des outils de veille

1. Classement des outils

Ce classement réalisé par l'ADBS a pour objectif de mettre en rapport des outils avec les différentes étapes de la veille énoncées plus haut.

Ciblage : outils de mind mapping

En amont : organiser son plan de veille.

En aval : présenter les résultats d'une analyse.

Ex : FreeMind, XMind, Mind Manager, etc.

Sourcing : moteurs de recherche

Effectuer des recherches ponctuelles sur le web.

Identifier des sources à surveiller.

Ex : Google, Bing, Exalead, etc.

Sourcing : plate-formes de bookmarking

Repérer des sources ou document sélectionnés par les internautes.

Réaliser une veille collaborative.

Ex : Diigo, Delicious, Pearltrees, Scoopit.

Sourcing + Collecte : agrégateurs de flux RSS

S'abonner à des flux RSS, les organiser.

Mener une veille coopérative.

Diffuser une veille.

Ex : Google Reader, Netvibes, etc.

Sourcing + surveillance : services d'alertes

Surveiller l'utilisation de mots-clés sur le web ou sur seulement sur certains sites.

Ex : Alerti, Google Alerts

Sourcing + surveillance + collecte : outils de surveillance automatisée

Surveiller les modifications sur tout ou partie d'un site.

Ex : Website Watcher, KBCrawl, etc.

Traitement : outils d'analyse automatisée

Analyser automatiquement des volumes importants de données non structurées (résumés automatiques, catégorisation, cartographie text mining...)

Ex : RapidMiner, etc.


48

Sourcing + collecte + surveillance + traitement + analyse + diffusion : plate-formes de veille

Une plate-forme de veille a pour objectif d'effectuer tout le cycle de la veille.

Ex : Digimind, AMI Software, KBCrawl Platform, Qwam, etc.

Ex de nouvelle génération (cloud) : Sindup, Asknread, etc.

Diffusion : réseaux sociaux d'entreprises (RSE), outils de gestion de contenu (CMS)

Publier des contenus, créer des produits livrables, diffuser l'information.

Ex : Jamespot, Joomla, Wordpress, etc.

2. Plate-formes de veille

Plates-formes, applications dédiées, services

Nous reprenons ici la distinction opérée par Aref Jdey (Help Management) entre plate-formes de veille généralistes et applications dédiées.

1. Les plate-formes de veille sont constituées par un ensemble de briques ou modules logiciels couvrant la totalité de la chaîne (du sourcing à la diffusion).Elle peuvent être utilisées pour différents types de veille.L'offre est assez souple en terme d'intégration et présente des options larges d'interopérabilité (capacité à traiter des requêtes différenciées en termes d'index).Ex : Ami66, 67 Digimind68, 69 70Squido71, Synthesio72, etc.

2. Les applications dédiées conservent les mêmes caractéristiques que les logiciels de veille mais se spécialisent en termes de métiers ou de fonctions spécifiques en matière de veille (ex : brevets, marchés, prix, veille opinion).Ex : Vecteur Plus73 (marchés privés et publics), Radian674 (veille commerciale et e-reputation), Rapid75 (brevets, information scientifique)

Ces solutions logicielles sont "propriétaires" et supposent donc des licences d'utilisation payantes selon une durée déterminée qui doit être renouvelée en fonction des mises-à-jour. Elles sont constituées par une partie portail et une partie client et/ou utilisent le cloud computing en mutualisant les ressources.

De nouveaux services uniquement en cloud sont aujourd'hui accessibles sous forme d'abonnement sans téléchargement de partie client. Ex : Sindup76 (test possible sur période d'utilisation gratuite), Askenread77,

Couverture fonctionnelle de l'offre

Sourcing

Accès aux bases de données déjà mémorisées par le prestataire

66 - http://www.amisw.com/fr/67 - http://www.squido.fr/68 - http://www.digimind.com/69 - http://synthesio.com/corporate/fr70 - http://www.amisw.com/fr/71 - http://www.squido.fr/72 - http://synthesio.com/corporate/fr73 - http://www.vecteurplus.com/74 - http://www.radian6.com/75 - http://www.rapidmonitoring.com/76 - http://www.sindup.fr/77 - http://www.asknread.com/fr


49

http://www.asknread.com/fr

http://www.sindup.fr/

http://www.rapidmonitoring.com/

http://www.radian6.com/

http://www.vecteurplus.com/

http://synthesio.com/corporate/fr

http://www.squido.fr/

http://www.digimind.com/

http://www.amisw.com/fr/

Connecteurs aux bases de données tierces

Gestion du bookmarking (import, export)

Formats et protocoles gérés

Collecte

Recherche dans la base de données d'actualités

Adaptation au vocabulaire métier

Recherche dans le web invisible

Recherche dans les informations capitalisées (plan de classement)

Gestion des formulaires d'authentification

Exploitation des résultats de recherche

Surveillance

Sources d'actualités

Pages Web

Crawling de sites

Web invisible

Forums

Newsletters

Réseaux sociaux

Surveillance "ouverte"

Intégration de « packs » de sources pré-qualifiées

Extraction automatique des alertes

Structuration automatique des contenus non structurés

Mécanismes et paramétrage de surveillance

Analyse et exploitation

Analyse sémantique de la collecte (Text mining, Catégorisation et Clustering)

Filtrages (par période, par entité, par source et canal d'information)

Mise en forme graphique et cartographique des informations

Résumé automatique

Traductions

Collaboration et capitalisation

Recueil d'informations du terrain

Capitalisation et partage des informations

Capitalisation par fiches et profils dynamiques

Envoi automatique d'articles

Diffusion

Edition et mise en page intégrée de newsletters, rapports thématiques, bulletins

Gestion du plan de classement (structure arborescente de rubriques auxquelles sont rattachés les documents publiés ou en attente de publication)

Gestion des livrables avec dates d'échéance paramétrables

Alimentation automatique de systèmes externes

Tenue d'un portail

Déploiement des projets

Portail de veille personnalisé

Reporting et pilotage

Gestion de projets

Gestion des droits


50

Administration et sécurité

Migration de plate-formes

Fonctions d'administration de la plate-forme

Archivages et sauvegardes automatisés

3. Modèle architectural de collecte

La traduction architecturale d'un automate de collecte repose sur les éléments suivants :

la programmation du plan de veille et la fréquence des requêtes

l'attaque des sources identifiées et visibles (bases de données, l'attaque des sources du web non visible),

la sélection des informations candidates au travers de deux index :- index de datation des informations- index de référence des informations récentes

le tri avec dédoublonnage des informations nouvelles

le post-traitement des résultats

la livraison sous forme de flux RSS ou d'alertes via messagerie électronique.

Sur cette architecture d'un robot de collecte d'Ami Software, sont visibles les interfaces de définition des thématiques et d'administration des sources, les différences entre connecteurs qui traduisent les requêtes en fonction de chaque source, la sélection et le tri des informations

candidates jusqu'à leur livraison.

4. Quelques lectures supplémentaires autour de la veille professionnelle

L'information non structurée dans l'entreprise [gARNIER]

Organiser sa veille sur internet [Delengaigne]

Veille et innovation : s'informer pour conquérir de nouveaux territoires [DocSI 48]

La boite à outils de l'intelligence économique [Moinet]

C. Les réseaux sociaux et folksonomies

Scruter la matière formelle et informelle des relations entre groupes de personnes et de leurs intérêts sur le web est rendue possible par l'examen des réseaux sociaux et folksonomies.


51

Architecture d'un automate de collecte

Le sens que nous donnons ici au "réseau social" excède celui attribué communément par les médias à Facebook, Google+, LinkedIn et autres. Nous entendons par "réseau social" tout regroupement formel ou informel d'individus, repérable par les outils de recherche et d'analyse du web.

Les folksonomies sont une forme particulière de regroupement : celle de listes de mots-clés ayant servi à catégoriser des ressources trouvées sur le web.

1. Qu'est-ce qu'un réseau social ?

Comme le rappelle Pierre Mercklé [Mercklé], la notion de réseau social est ancienne. Elle fait sa première apparition en 1954 avec l'anthropologue John Barnes. Cette notion sociologique qualifiant les ensembles de relations entre les personnes et entre les groupes sociaux s'est largement répandue depuis. En 30 ans (1960-1990), le nombre d'occurrences du terme "réseau" a été multiplié par vingt dans la littérature liée au management.

Aujourd'hui, avec la vague logicielle "sociale" du web, le terme s'est démocratisé au point de vouloir signifier "site de rencontres". Sont apparus de multiples Facebook...

Définition : Service de réseau social

Catégorie de site web basé sur la gestion d'un « profil utilisateur » semi-public où l'objectif principal de l'utilisateur est de s'insérer dans - ou créer - un réseau de connaissances à partir des autres profils utilisateurs.

Le réseau navigable créé en relation avec chaque profil individuel est articulé sous forme de graphe :

Dans lequel chaque nœud du graphe mène à un profil visible par tous les « contacts » ou « amis »,

Il est possible de naviguer sur le réseau en circulant de « contact » en « contact ».

Le graphe généré est deux sortes :

« dirigé » dans lequel les associations n'ont pas besoin d'être confirmés par les utilisateurs (ex : Twitter),

« non dirigé » dans lequel les associations doivent être confirmées par les utilisateurs (ex : Facebook).

En dehors des sites automatisant la production de connaissances sous la forme d'«amis», les réseaux sociaux informels, c'est-à-dire reposant sur le partage de valeurs communes ou d'intérêts partagés existent. Ils sont latents car ils peuvent se manifester aux médias ou au public le temps d'une simple actualité. On retrouvera un exemple de ces réseaux informels avec les anonymes partageant des liens vers des sites web sur les sites de bookmarking par exemple.

La structure des réseaux en ligne

Les caractéristiques des réseaux en ligne réalisent finalement les théories sociologiques connues autour des structures entre les personnes que nous pouvons résumer en deux points :

La force des liens faibles de Granovetter (Mercklé, p. 60) repose sur l'idée que : a. les liens forts tendent à se renforcer : les groupes entretenant des

relations soutenues et intenses ont tendance à s'isoler du reste des individus

b. par conséquent, la communication entre ces groupes entretenant des liens forts ne peut se faire que par des liens plus "faibles", c'est-à-dire des


52

personnes qui entretiennent moins de contacts avec les centres de ces groupes

c. les "liens faibles" sont donc générateurs de cohésion sociale alors que les "liens forts" contribuent à la fragmentation.

La théorie des trous structuraux (Mercklé, p. 62) repose sur l'idée que l'acteur dans son réseau a la possibilité d'exploiter à son avantage les "liens faibles" : A connaît B et C mais B et C ne se connaissent pas.

Exemple de calcul de proximité entre les membres d'un réseau (phase 1)

Exemple de calcul de proximité entre les membres d'un réseau (phase 2)

La mise en évidence des réseaux sociaux informels par les graphes

Une des premières initiatives d'études des réseaux sociaux en France à avoir suscité l'intérêt est celle de Blogopole78 par Linkfluence79 qui visait à prendre un instantané de la vie politique française reflétée par les blogs pendant la campagne présidentielle de 2007. Le résultat publié est une carte arborescente cliquable reflétant les tendances créées par l'interconnexion des blogs entre eux (liens entrants, sortants et réciproques). Depuis, Linkfluence propose son propre outil de veille Radarly80.

La visualisation des conversations sous Twitter est rendue possible avec les outils générateurs de graphes comme Social Collider81 qui offre des recherches par usager, phrase ou tendances sur des périodes allant d'une semaine à 1 mois. A partir d'un mot-clé de Twitter (hashtag), il est possible de répertorier toutes les conversations qui y sont attachées et de retracer l'impact d'un événement.

78 - http://blogopole.observatoire-presidentielle.fr/79 - http://fr.linkfluence.net/80 - http://radarlyapp.com/81 - http://socialcollider.net/


53

Représentation de la proximité à partir de la matrice d'adjacence

Représentation d'un graphe par une matrice adjacente.

http://socialcollider.net/

http://radarlyapp.com/

http://fr.linkfluence.net/

http://blogopole.observatoire-presidentielle.fr/

2. Le « bookmarking social » et les « folksonomies »

Apparition de nouveaux services

Le « bookmarking social » créant une forme d' « indexation collaborative » date de la fin 2003, au moment où Joshua Schachter créait Delicious, un service partageant « favoris » ou « signets » ou « bookmarks » en ligne.

Ce fût une petite révolution dans le monde du web car le service permettait pour la première fois d'accéder à ses propres signets depuis n'importe quel ordinateur connecté. De plus, il était possible de s'abonner aux signets d'autres personnes et de renvoyer tout ou partie de ces signets dans un système de filtrage comme Yahoo Pipes ou un agrégateur comme Netvibes. S'exerçait donc une sorte de veille collaborative à partir de l'intérêt partagé avec des inconnus et des connaissances pour des thématiques précises.

Définition

Adresse d'une ressource internet mémorisée pour un accès ultérieur [Urfist, 2009] comprenant :

le titre qui identifie le signet – par défaut, le titre de la page (balise title),

l'adresse de la page concernée (url de la page),

les mots-clés associés par l'utilisateur (tags).

Ont été nommées « folksonomies » par Thomas Vanderwal82 ces systèmes de catégorisation horizontale de l'information, par opposition aux taxonomies, systèmes de classification hiérarchique des connaissances intégrés dans les systèmes d'information documentaire.

La distinction par Thomas Vanderwal des foksonomies larges et folksonomies étroites vise à caractériser les différences d'intensité dans l'activité de taguage où dans le premier cas, l'objectif est bien de référencer la ressource dans le système de bookmarking afin de la retrouver et dans le second l'objectif est d'accéder à la ressource sans spécifiquement avoir besoin de la taguer (ex : dailymotion,

youtube, etc.).

Les fonctionnalités de base associées sont :

l'abonnement à des tags (crée une liste d'adresses enregistrées sous ces tags et classée par date),

l'abonnement à des utilisateurs permettant de visionner un ensemble de tags et de ressources associées,

la possibilité de constituer des groupes publics ou privés,

la recherche par tags et par nom d'utilisateur,

la possibilité d'importer automatiquement des liens provenant d'autres systèmes (ex : Twitter),

l'export automatisé sous forme de flux opml, RSS pour constituer des sauvegardes ou des fichiers sur lesquels travailler.

82 - http://www.vanderwal.net/random/entrysel.php?blog=1635


54

Typologie des folksonomies

http://www.vanderwal.net/random/entrysel.php?blog=1635

Intérêts pour la veille

Grâce à son immédiateté, le bookmarking facilite la découverte de ressources non encore référencées par les moteurs de recherche.

Avec ses fonctionnalités de partage, le bookmarking propulse la veille collaborative. Celle-ci est identifiable par les groupes créés par des institutions ou/et des thématiques précises. Le bookmarking facilite le repérage d'experts par sujets.

Les professionnels de l'information se sont très vite intéressés à cette technologie. D'un côté, ceux dont le métier est d'inciter à la lecture (ex : bibliothécaires) ont rapidement tenté d'associer le vocabulaire des usagers aux vocabulaires contrôlés des thésaurus, listes d'autorités structurant les catalogues et le parcours des ressources, pour en varier les accès.

D'un autre côté, ceux dont les fonctions sont liées au renseignement (ex : marketing avec le repérage de changements d'opinion ou l'évolution de l'adoption de produits) se sont trouvés face à une manne d'informations gratuite et ouverte alimentée par les internautes se spécialisant eux-mêmes dans diverses tribus.

L'intégration du bookmarking dans les logiciels spécialisés de veille professionnelle peut recouvrir un triple objectif :

le traçage d'un réseau d'usagers (regroupements d'usagers),

le repérage de thématiques émergentes (contenus tagués),

l'accès à un vocabulaire précis (nuages de tags).

L'offre de services

L'offre logicielle se compose d'une offre de base (ex : Blogmarks83, Mister Wong84, Delicious85, Pinboard86) à laquelle il faut ajouter une offre par type d'activité :

Partage, mise en évidence et récupération de contenus avec Diigo87

Thématisés : communiqués de presse pour les métiers du web avec PowerPress88, DZone89 pour les développeurs web et le dernier orienté consommation culturelle Pinterest90

Recommandations avec Digg91.

L'arrivée de Digg ouvre la voie aux votes et appréciations des tagueurs : la liste publique des ressources taguées ne s'affiche plus en fonction de la date d'insertion mais du nombre d'évaluations positives. C'est le cas de StumbleUpon92, Reddit93, Gmiix94 et Social-bookmarking95.

Le bookmarking est rapidement intégré à de nouveaux services où il devient central comme Librarything96, services de partage de fiches de lecture par les lecteurs qui cataloguent eux-mêmes leurs livres en ligne.

Enfin, des services à vocation bibliographique et scientifique s'ouvrent et agrègent

83 - http://blogmarks.net/84 - http://www.mister-wong.fr/85 - http://delicious.com/86 - http://www.pinboard.com87 - http://diigo.com88 - http://www.powerpress.fr/89 - http://www.dzone.com/links/index.html90 - http://www.pinterest.com91 - http://diigo.com92 - http://www.stumbleupon.com/93 - http://www.reddit.com/94 - http://www.gmiix.com/fr/95 - http://www.social-bookmarking.net/96 - http://www.librarything.com/


55

http://www.librarything.com/

http://www.social-bookmarking.net/

http://www.gmiix.com/fr/

http://www.reddit.com/

http://www.stumbleupon.com/

http://diigo.com/

http://www.pinterest.com/

http://www.dzone.com/links/index.html

http://www.powerpress.fr/

http://diigo.com/

http://www.pinboard.com/

http://delicious.com/

http://www.mister-wong.fr/

http://blogmarks.net/

des réseaux sociaux de chercheurs. Citons les quatre précurseurs : CiteUlike97, Bibsonomy98, Zotero99 et Mendeley100.

Twitter : la conversation en réseau couplée au "bookmarking"

A la fois réseau social et outil de bookmarking générant des folksonomies, Twitter illustre bien le culte de l'instant avec ses messages de 140 caractères au plus. Ouvert en 2006, le service connaît une progression fulgurante depuis la fin 2009 puisqu'aujourd'hui plus de 575 millions de comptes seraient ouverts sous Twitter, chiffre à relativiser cependant car comme pour tout service de web2.0, seuls 1% crée et 10% participent pendant que les 90% autres restent silencieux.

Entre signalements de ressources et d'événements, dévoilement d'humeurs et d'opinions sur le réseau, arène pour personnalités politiques, les usages de Twitter sont nombreux mais il est certain que le service dépasse largement les individus et intéresse toute entité sociale collective souhaitant figurer dans la communication en ligne. Ce sera donc un outil parfait pour mesurer l'émotion.

H8y.me101 génère un cluster cliquable de tags Twitter attachés au "#hashtag" entré de manière principale. Les "influençeurs" ou les personnes ayant tagués le plus avec ce mot-clé sont aussi répertoriés dans un graphique.

Twitter sert indiscutablement à la veille avec ses alertes sur mots-clés (TweetAlarm102, Tweetbeep103, etc.) et ses flux rss (liste de services104 permettant de générer des flux rss).

97 - www.citeulike.org98 - http://www.bibsonomy.org99 - http://www.zotero.org/100 - http://mendeley.com/101 - http://hashtagify.me/102 - http://www.tweetalarm.com/103 - tweetbeep.com/104 - http://sociable.co/tag/rss-feeds/


56

http://sociable.co/tag/rss-feeds/

http://www.tweetalarm.com/

http://hashtagify.me/

http://mendeley.com/

http://www.zotero.org/

http://www.bibsonomy.org/

III - Exploitation etanalyse

III

Les méthodes d'analyse linguistique 61

Les méthodes d'analyse : statistiques, sémantiques 62

Les outils d'analyse 65

A. Les méthodes d'analyse linguistique

Nous avons vu dans la partie "Moteurs de recherche" que les technologies à la base de la recherche d'information étaient issues de l'ingénierie linguistique, c'est le traitement automatique du langage (naturel), le Tal(n).

Nous retrouvons ces mêmes méthodes à l'œuvre dans la fouille de texte (textmining) et de données (datamining). L'ingénierie logicielle a construit des briques de base correspondant aux méthodes d'analyse du langage dans l'objectif d'agencer des solutions logicielles pour l'exploitation des données recueillies pendant la recherche d'informations.

L'analyse morphosyntaxique se compose de : 1. L'analyse morphologique consiste en l'identification des mots, reconnaître

qu'un mot est un mot :- les frontières des mots simples et composés et des phrases (phase de

tokenisation),- l'identification et l'étiquetage de la catégorie - nom, verbe, adjectif - à

laquelle appartient chaque mot (phase de tagging),- la lemmatisation : recherche de la forme canonique en utilisant des

dictionnaires. 2. L'analyse syntaxique consiste à identifier les constituants d'une phrase et leur

fonction au sein de celle-ci : - les limites des constituants (syntagme, groupe nominal, verbal, etc.) et les

relations majeures entre les mots (phase de chunking),- l'affectation de fonctions grammaticales aux constituants (phase de

tagging),- la construction d'un arbre traduisant la structure d'une phrase (parsing).

L'analyse sémantique consiste à détecter le sens des mots et la structure logique d'une phrase :

phase de désambiguification et choix du sens de chaque mot,

structure logique : identification des arguments de chaque prédicat105 et de

105 - http://www.semantique-gdr.net/dico/index.php/Pr%C3%A9dicat

57

http://www.semantique-gdr.net/dico/index.php/Pr%C3%A9dicat

leur rôle sémantique (agent, but, lieu, etc.) dans la phrase.

Les analyses morphosyntaxique et sémantique se déroulent à l'échelle d'un texte.

Un texte est lui-même pris dans un ensemble de textes ou de documents rassemblés dans un corpus.

L'analyse doit donc traiter ces deux entités : texte et corpus.

L'analyse d'un texte consistera dans la détection des relations entre les phrases et en rapport avec la structure. Seront examinées :

la structure rhétorique (argumentation, commentaires, etc.).

la structure thématique (détection des sujets abordés).

Enfin, au niveau macro, l'analyse de corpus déterminera :

la nature des documents rassemblés (textes réglementaires, articles de presse, articles scientifiques, etc.),

la structure thématique du corpus (les sujets traités).

Les outils d'exploitation et d'analyse vont donc se servir de ces méthodes pour extraire automatiquement :

entités nommées

événements

thèmes

sentiments

et en croisant ces variables, en déduire des corrélations et des tendances sur des périodes de temps définies.

Analyses comparatives de diifférentes sources, par scénarios, par sujets, de volumétrie, sur la durée,

B. Les méthodes d'analyse : statistiques, sémantiques

1. Etude de cas : quelle image a le nucléaire en France un mois après l'incident survenu à Fukushima ?

Techniques de clustérisation

Il s'agit de techniques statistiques (méthode des mots associés avec matrices de cooccurences) qui permettent d'extraire automatiquement des termes dans les pages de résultats trouvées par un moteur ou méta-moteur, afin d'affiner ou de réorienter une recherche.

Les clusters ainsi formés servent à mettre en évidence des thématiques présentes dans les documents trouvés par les outils de recherche.

Exemple

Afin de mieux comprendre à quoi sert le croisement des techniques statistiques et sémantiques, nous partons d'une étude de cas récente réalisée par des chercheurs de l'Inalco et Ami Software qui explicite le rôle des clusters dans l'interprétation des données recueillies.

Exploitation et analyse

58

Présentation du corpus de test

Des chercheurs d'Inalco et Ami Software [Lauf] ont réalisé une veille reposant sur l'analyse d'un corpus avec l'objectif d'assister le veilleur dans deux tâches :

1. dégager des thématiques du corpus (aide à la lecture et à l'interprétation) ; 2. ranger chaque texte dans une ou plusieurs de ces thématiques afin de faciliter

le tri et le retour au texte. Ce qui ouvre la voie à l'analyse de l'évolution des thématiques dans le temps.

Le corpus de test a été collecté à l'aide d'un méta-moteur de veille en réponse à la requête nucléaire. N'ont été considéré que les articles de presse rédigés en français entre le 17/04/2011 et le 16/05/2011 inclus. Cette période a été choisie pour son intérêt dans un cadre de veille : quelle image a le nucléaire en France un mois après l'incident survenu à Fukushima le 11 mars 2011 ? Après filtrage manuel, le corpus comporte 471 articles uniques, 170 437 mots et 12 070 vocables. Le corpus a été étiqueté avec Cordial106.

Présentation de la méthode de classification

La méthode utilisée est l'approche linguistique de classification non supervisée de documents à partir de l'analyse du graphe des cooccurrents de deuxième ordre (cooccurrents des cooccurrents).

La classification est non exhaustive (un mot peut n'appartenir à aucune thématique) et multiclasse (un mot peut appartenir à plusieurs thématiques – polysémie, homographie, etc.). Les thématiques obtenues ne sont pas uniquement des ensembles de mots : le formalisme de la théorie des graphes permet d'exprimer concrètement des relations sémantiques fines entre les mots de chaque thématique. Ces mots permettent enfin d'assigner à chaque document une ou plusieurs thématiques.

Aucun recours à des ressources sémantiques extérieures afin de qualifier les relations entre les mots (dictionnaires, thésaurus, ontologies) n'a été utilisé.

Les cooccurrents des mots du corpus sont censés représenter la forme minimale du contexte et du sens. Les regroupements sont réalisés de façon dynamique et dépendent uniquement du corpus analysé et non de relations universelles définies en amont : l'approche est indépendante du domaine, ce qui est important lorsque l'on travaille avec des données issues du web.

Résultats : présentation des thématiques

Le but des clusters dans cette étude est de permettre une bonne vision d'ensemble du corpus et servir de premières pistes d'exploration et d'interprétation pour le veilleur.

Les thématiques renvoyées par le systèmes sont intitulées par un nom issu de l'interprétation des mots :

1. la hausse des prix de l'électricité en France ;

2. Tchernobyl ;

3. la centrale de Mghleberg et le nucléaire suisse en général ;

4. écologie, société et politique ;

5. reportage La Zone à propos des familles vivant aux alentours de Tchernobyl ;

6. incident dans un brise-glace russe ;

7. bourse et entreprises (rachats, fusions, etc.) ;

8. mouvements anti-EPR ;

106 - http://www.synapse-fr.com/Cordial_Analyseur/Presentation_Cordial_Analyseur.htm


59

http://www.synapse-fr.com/Cordial_Analyseur/Presentation_Cordial_Analyseur.htm

9. candidature de Nicolas Hulot ;

10. nucléaire iranien.

Thématiques extraites du corpus : les mots en gras signifient leur appartenance à plusieurs thématiques.

Pour interpréter ces rapprochements, il est nécessaire d'avoir une bonne connaissance du domaine.

L'appartenance d'un mot à plusieurs thématiques révèle les tensions. Par exemple, EDF est ici lié précisément aux problématiques de la hausse des prix de l'électricité et aux mouvements anti-EPR. Le cas du mot système est intéressant car il est à la fois présent dans la thématique sur l'écologie et dans celle sur l'incident dans un brise-glace, mais avec un sens diffèrent.

Ces ensembles peuvent servir de points de départ à des recherches plus poussées sur le sujet.

Cluster Tchernobyl représenté sous forme de graphe. Tous les mots apparaissant moins de 15 fois ont été retirés pour améliorer la lisibilité. On constate que les liens privilégiés entre certains mots conduisent à des sous-regroupements.

Rappelons que les thématiques sont des sous-graphes et que les mots entretiennent donc des relations plus ou moins fortes entre eux ; certains mots entretiennent des relations privilégiées avec d'autres, ce qui provoque des sous-regroupements intéressants, illustrés par la figure ci-dessus.

Pour Tchernobyl, 3 sous-thématiques se démarquent clairement :

1. construction du sarcophage de confinement ;

2. radioactivité, santé et pollution ;

3. mort et commémorations.

On distingue des zones lexicalement pauvres et d'autres beaucoup plus denses. En périphérie du graphe, des ilots de forte cohérence lexicale donnent à penser qu'il s'agit de formes sémantiques stabilisées tant elles sont aisément restituables (par exemple, bougie et mémoire ; chape et sarcophage). L'épaisseur des liens attestent d'ailleurs de fréquences remarquables.


60

Extraits des thématiques générées

Thématique Tchernobyl représentée sous forme de graphe

Exemple d'un graphe dont les nœuds sont fortement interconnectés.

Les raisons pour lesquelles ce cluster apparaît difficilement interprétable deviennent plus évidentes lorsque l'on visualise sa configuration : les thématiques apparaissent toutes nettement en périphérie du graphe tandis que les mots fortement multiclasses se retrouvent au centre (au croisement des thématiques concernées).

Evaluation de la tâche de classification thématique.

Précision, rappel et F-Score pour la tâche d'assignation des documents aux thématiques, en fonction du nombre de mots des clusters présents dans le texte.

Voir la définition de Wikipédia107 pour ces 3 notions.

Remarque : Difficultés dues à la taille du corpus

Le corpus collecté est un « scénario réel » de collecte d'entreprise : il est courant d'avoir des corpus de veille de l'ordre de grandeur de moins d'un million de mots. Ceci fait pointer deux difficultés :

- il est difficile d'extraire des regroupements pertinents avec "peu" de données en entrée et il est communément admis que les modèles statistiques ont besoin de corpus de plusieurs millions de mots pour fournir de bons résultats,

- les corpus de plusieurs millions de mots engendrent des difficultés techniques qu'll faut savoir gérer.

Le fait que la méthode proposée engendre des résultats pertinents pour des corpus de taille moyenne laisse augurer des développements intéressants pour les logiciels de veille.

C. Les outils d'analyse

L'analyse des données regroupe l'ensemble des méthodes statistiques dont les principales caractéristiques sont d'être multidimensionnelles et descriptives.

Un bouquet de techniques correspond à l'analyse des données. La plupart sont géométriques et aident à faire ressortir les relations pouvant exister entre les différentes

107 - http://fr.wikipedia.org/wiki/Pr%C3%A9cision_et_rappel


61

Exemple d'un cluster fortement connecté

Evaluation de la classification automatique

http://fr.wikipedia.org/wiki/Pr%C3%A9cision_et_rappel

données de manière à en tirer une information statistique qui permette de décrire de façon succincte les principales informations contenues dans ces données. D'autres techniques vont regrouper les données de façon à faire apparaître clairement ce qui les rend homogènes dans l'objectif de mieux les connaître et les définir. (Voir Wikipédia108 sur l'analyse des données).

C'est toute la structure des informations que va révéler l'analyse des données.

Les méthodes d'analyse des données fournissent leurs propres représentations graphiques.

1. Les solutions d'extraction automatique : datamining et text mining

Des techniques d'enrichissement de documents

La fouille de données (data mining) ou exploration de données a pour objectif l'extraction de connaissances à partir de données numériques.

Elle se distingue de l'analyse de données dans la mesure où on n'a pas besoin d'hypothèse de départ pour démarrer une exploration : ce sont des données elles-mêmes que se dégageront les corrélations intéressantes à repérer.

Le vocabulaire utilisé par le datamining est spécifique. Attardons nous sur la notion de variable définie par Bertrand Llaudet [Llaudet] :

variable catégorielle ou numérique

ex : si l'attribut ou la variable taille peut prendre deux valeurs possibles : "grand" et "petit", c'est une variable catégorielle, si la même variable peut prendre une valeur en cm, il s'agit d'une variable numérique

variable cible qui va servir à la prédiction

Deux techniques sont à la base de la fouille de données :classer et prédire.

Les techniques descriptives visent à résumer, synthétiser, réduire, classer en mettant en évidence les informations présentes mais cachées par le volume des données : cas des recherches d'associations -> il n'y a pas de variable « cible » à prédire.

Elles vont produire des modèles de classement : typologies, méta-typologies.

Exemple d'usage : dégager des groupes homogènes à partir d'un ensemble d'individus.

Les techniques prédictives visent à extrapoler de nouvelles informations à partir des informations présentes : cas du scoring -> il y a une variable « cible » à prédire.

Elles vont produire des modèles de prédiction.

Exemple d'usage : expliquer et/ou prévoir un ou plusieurs phénomènes observables et effectivement mesurés.

Le text-mining ou fouille de textes rassemble les techniques computationnelles d'analyse du texte tirées de la linguistique. C'est l'ajout au datamining de la lexicométrie. Le text-mining rassemble les procédés consistant à synthétiser (classer, structurer, résumer, ...) les textes en analysant les relations, les patterns et les règles entre unités textuelles (mots, groupes, phrases, documents).

Comme le rappelle Christian Fauré [Fauré], le text-mining a pour vocation d'automatiser la structuration des documents peu ou faiblement structurés. A partir d'un document texte, un outil de text-mining va générer de l'information qui n'était pas présente de manière explicite dans le contenu du document. Cette information va être rajoutée et donc enrichir le document initial.

108 - https://fr.wikipedia.org/wiki/Analyse_des_donn%C3%A9es


62

https://fr.wikipedia.org/wiki/Analyse_des_donn%C3%A9es

Le text-mining sert à :

la classification automatique de documents,

l'alimentation automatique des bases de connaissances,

enrichir l'index d'un moteur de recherche,

générer un aperçu du contenu d'un document,

faire de la veille sur des corpus documentaires de volumes importants.

Les secteurs d'activités concernés par la fouille de données vont de l'analyse de la consommation jusqu'au sciences du web en passant par la banque, la détection des fraudes, le médical, etc.

Wikipédia dans son article sur le data mining109 présente plusieurs méthodologies associées dont celle du CRoss Industry Standard Process for Data Mining (CRISP-DM).

Processus de datamining d'après la méthode CRISP

Acteurs Etapes Phases

Maître d'oeuvre Objectifs 1. Compréhension du métier

Données 2. Compréhension des données

3. Préparation des données

Traitements 4. Modélisation

5. Evaluation de la modélisation

Maître d'ouvrage Déploiement 6. Déploiement des résultats de l'étude

La méthode CRISP-DM30 découpe le processus de fouille de données en six phases permettant de structurer la technique et de l'ancrer dans un processus industriel. Il s'agit d'un processus d'extraction des connaissances métiers.

2. Les outils de cartographie et de visualisation des résultats

Les outils de cartographie servent à présenter visuellement les résultats d'une recherche, généralement sous forme de "carte", pour aider à la prise de connaissance d'un corpus, et faire émerger des thématiques qui pourront servir à affiner la recherche ou à l'analyse.

109 - https://fr.wikipedia.org/wiki/Exploration_de_donn%C3%A9es


63

Phases du processus CRISP_DM

https://fr.wikipedia.org/wiki/Exploration_de_donn%C3%A9es

a) Outils de cartographie

Nous reprenons l'analyse réalisée par Muriel Amar de l'Urfist de Paris sur la cartographie de l'information110 dont les avantages peuvent être résumés en 5 points :

manipulation de structures complexes,

perception de l'émergence de propriétés «inconnues»,

mise en évidence des problèmes dans les données, dans leur collecte,

perception simultanée des propriétés à grande et à petite échelle sur les données,

formulation d'hypothèses sur les données.

La cartographie de l'information consiste à synthétiser par la représentations visuelle des données quantitatives abstraites.

Un exemple simple d'utilisation cartographique de l'information est Leximappe développé en 1990 par le Centre de documentation scientifique et technique du CNRS et le Centre de sociologie et innovation de l'Ecole Nationale Supérieure des Mines de Paris. Elle consiste à identifier les mots les plus fortement associés entre eux pour identifier les thèmes des documents.

Méthodes des mots associés : si deux documents sont proches parce qu'ils sont indexés par des mots-clés similaires, alors deux mots-clés figurant ensemble dans un grand nombre de documents seront considérés comme proches.

Deux phases dans la génération d'une leximappe : 1. Construction d'agrégats ou classes indexant un sous-ensemble du corpus

initial représentant un pôle d'intérêt du domaine étudié 2. Positionnement des pôles dans un diagramme "stratégique "suivant deux

variables- la centralité qui souligne le pouvoir de structuration (un agrégat est

structurant dans un domaine quand il est relié à d'autres pôles) ; - la densité qui reflète la cohérence interne du pôle (plus l'association entre

descripteurs est forte, plus le pôle est dense).

L'illustration suivante vise à expliciter le principe d'une Leximappe.

Leximappe

L'illustration suivante est l'application de Leximappe dans l'analyse de la presse grand public dans la détection de controverses autour du changement climatique.

110 - http://urfist.enc.sorbonne.fr/ressources/supports-pedagogiques/cartographie-de-linformation


64

Interprétation d'une Leximappe

http://urfist.enc.sorbonne.fr/ressources/supports-pedagogiques/cartographie-de-linformation

Carte des thèmes abordés par 166 dépêches émises par l'AFP en 1988-1989 positionnés sur une Leximappe.

b) Visualisation des résultats

Classement des infographies

Selon le nombre de variables en entrée 1. Variable unique

Graphiques avec abscisse et ordonnée : coordonnées de points, histogrammes, etc.

2. Deux variablesGraphiques établissant des liens entre les variables : nuages de points de multiples densités, etc.

3. Variable tempsGraphiques traduisant l'évolution de quantités pendant une période déterminée

4. Plus de deux variablesDiagrammes de dispersion

Selon l'objectif d'interprétation 1. Comparaison d'un jeu de valeurs : graphiques avec barres, histogrammes,

graphiques de bullesEx : bubble chart111, bar chart112, block histogram113

2. Evolution dans le temps : graphiques de lignes, d'empilements, chronologieEx : Dipity114, line graph115, stack graph116

3. Le tout et ses parties : camemberts, cartes inclusivesEx : pie chart117, treemap118

4. Relations entre les points de données : nuage de points, graphique matriciel, diagramme de réseauxEx : scatter plot119, matrix chart120, network diagram121

5. Analyse de texte : arborescence de mots, nuage de mots.Ex : Wordle122, Tagxedo123

111 - http://www-958.ibm.com/software/data/cognos/manyeyes/page/Bubble_Chart.html112 - http://www-958.ibm.com/software/data/cognos/manyeyes/page/Bar_Chart.html113 - http://www-958.ibm.com/software/data/cognos/manyeyes/page/Block_Histogram.html114 - http://www.dipity.com/115 - http://www-958.ibm.com/software/data/cognos/manyeyes/page/Line_Graph.html116 - http://www-958.ibm.com/software/data/cognos/manyeyes/page/Stack_Graph.html117 - http://www-958.ibm.com/software/data/cognos/manyeyes/page/Stack_Graph.html118 - https://www.msu.edu/~howardp/beersharezoom.html119 - http://www-958.ibm.com/software/data/cognos/manyeyes/page/Scatterplot.html120 - http://www-958.ibm.com/software/data/cognos/manyeyes/page/Matrix_Chart.html121 - http://www-958.ibm.com/software/data/cognos/manyeyes/page/Network_Diagram.html122 - http://www.wordle.net/123 - http://www.tagxedo.com/


65

Analyse leximappe sur la controverse du changement climatique dans la presse

grand public

http://www.tagxedo.com/

http://www.wordle.net/

http://www-958.ibm.com/software/data/cognos/manyeyes/page/Network_Diagram.html

http://www-958.ibm.com/software/data/cognos/manyeyes/page/Matrix_Chart.html

http://www-958.ibm.com/software/data/cognos/manyeyes/page/Scatterplot.html

https://www.msu.edu/~howardp/beersharezoom.html

http://www-958.ibm.com/software/data/cognos/manyeyes/page/Stack_Graph.html

http://www-958.ibm.com/software/data/cognos/manyeyes/page/Stack_Graph.html

http://www-958.ibm.com/software/data/cognos/manyeyes/page/Line_Graph.html

http://www.dipity.com/

http://www-958.ibm.com/software/data/cognos/manyeyes/page/Block_Histogram.html

http://www-958.ibm.com/software/data/cognos/manyeyes/page/Bar_Chart.html

http://www-958.ibm.com/software/data/cognos/manyeyes/page/Bubble_Chart.html

Exemple de traduction visuelle de données quantitatives : Mappingtext124 qui analyse 232 500 pages de journaux historiques numérisés.

Exemple de visualisation graphique des résultats d'une veille

Capture d'écran d'outils Digimind

Exemples de traduction graphiques d'analyse de données

Visualisation de réseaux

Touchgraph125 dans sa partie test en ligne établit des graphes de relations entre les sites à partir des mots-clés entrés. Sa partie client permet entre autres de générer des graphes et des clusters à partir d'un fichier.

Le Taggraph de Flick génère des graphes d'utilisateurs ou de mots-clés. Chaque clic sur une image dévoile un sous-graphe associé. Test avec le mot-clé Tarifa126.

Dans cet exemple, EdgeMaps127 les relations implicites entre les éléments informationnels sont traduites sous forme de liens.

Des instituts universitaires et des entreprises se sont spécialisés dans la cartographie en réseaux de l'information. Ex : Sciences-Po128 et Social Computing129.

Le texte d'un discours

Nancy Duarte analyse le célèbre discours de Martin Luther King : "I Have a Dream" en utilisant l'analyse du discours présentée sous forme infographique. Vidéo accessible ici130.

L'offre logicielle de génération de graphiques s'étoffe avec l'arrivée du data journalisme et de l'open data.

Datavisualization131, Protovis132, etc.

124 - http://mappingtexts.org/125 - http://www.touchgraph.com/navigator126 - http://taggraph.com/everybody/tarifa127 - http://mariandoerk.de/edgemaps/128 - http://cartographie.sciences-po.fr/129 - http://www.social-computing.com/130 - http://www.youtube.com/watch?v=l39CL0t-jyM131 - http://selection.datavisualization.ch/132 - http://mbostock.github.com/protovis/


66

Visualisation graphique de la provenance et de la répartition thématique des articles

http://mbostock.github.com/protovis/

http://selection.datavisualization.ch/

http://www.youtube.com/watch?v=l39CL0t-jyM

http://www.youtube.com/watch?v=l39CL0t-jyM

http://www.social-computing.com/

http://cartographie.sciences-po.fr/

http://mariandoerk.de/edgemaps/

http://taggraph.com/everybody/tarifa

http://www.touchgraph.com/navigator

http://mappingtexts.org/

IV - Travaux pratiques IV

TP à venir 73

A. TP à venir

Les textes des TP prendront place ici.

67

Glossaire

Cloud Computing

Le cloud computing ou informatique dans les nuages consiste en la délocalisation des ressources informatiques locales d'une entreprise sur des serveurs distants dont la fonction est de stocker, traiter et proposer des ressources virtualisées et mutualisées.

L'accès au nuage est à la demande et en libre-service.

Clusterisation

Le clustering ou "clusterisation" repose sur l'extraction de groupes (clusters) de documents à partir d'un ensemble de documents non classifiés. Il s'agit d'une organisation automatique d'un ensemble de documents en sous-groupes qui repose généralement sur un critère de proximité [Normier, 2007]

Descripteur

Le terme descripteur est utilisé en documentation pour définir un terme retenu pour caractériser un document.

Il existe des descripteurs contrôlés qui sont choisis dans des listes d'autorités tels que les thésaurus ou bien des descripteurs libres qui sont choisis librement en dehors de toute liste d'autorités.

Entité nommée

Les entités nommées sont des descripteurs qui désignent les objets par leur nom. Ex : personne, organisation, adresse, date, etc.

ET

Par défaut, le moteur de recherche Google interprète l'absence d'agent de coordination entre les termes d'une requête par ET ou AND.

Indexation

Processus destiné à représenter, au moyen des termes ou indices d'un langage documentaire ou au moyen des éléments d'un langage libre, les notions caractéristiques du contenu d'un document (ressource, collection) ou d'une question, en vue d'en faciliter la recherche, après les avoir identifiées par l'analyse. [Boulogne, 2004]

Métamoteur

Un métamoteur présente les résultats de la recherche en consultant les index d'autres moteurs.

Ontologies

Les ontologies sont une forme particulière de thésaurus.

Alors que les thésaurus concernent les organisations des connaissances accessibles

69

par des systèmes d'informations documentaires, les ontologies peuvent concerner des personnes, des organisations, des événements, des process, des lieux, etc. et orchestrer des actions à partir de ces notions.

Issu de la philosophie, le terme est adopté par l'informatique et les techniques computationnelles et a été adopté par le web sémantique depuis plusieurs années.

OU

Dans le cas de la recherche booléenne, le OU est inclusif (Aimer chanter ou chantonner) mais dans le sens commun, le OU possède un caractère exlusif (Préférez-vous le chocolat noir ou le chocolat blanc ?). Ouh...

Repérabilité

Potentialité à être repéré et donc trouvé. Fait référence à la trouvabilité (findability).

Thésaurus

Liste organisée de termes normalisés (descripteurs et non-descripteurs) servant à l'indexation des documents et des questions dans un système documentaire. Les descripteurs sont reliés par des relations sémantiques (génériques, associatives et d'équivalence) exprimées par des signes conventionnels. Les synonymes (non-descripteurs) sont reliés aux descripteurs par la seule relation d'équivalence. On peut distinguer les thésaurus en fonction du mode regroupement des termes (thésaurus à facettes) ; de la variété linguistique des termes (mono ou multilingue) ; des domaines de connaissances couverts (thésaurus spécialisé ou sectoriel, thésaurus encyclopédique). [Boulogne, 2004]

Glossaire

70

Références

[Abondance] Abondance133. L'actualité et l'information sur le référencement (SEO) et les moteurs de recherche, site d'Olivier Andrieu.

[ADBS] ADBS134

[Benchmarking] Benchmarking Outils de veille135 (CNRS et INIST).

[Blog de Béatrice

Foenix-Riou]Recherche éveillée136, Le blog de Béatrice Foenix-Riou

[Blog de Christophe

Deschamps]Outils froids137, Le blog de Christophe Deschamps

[Blog de Frédéric

Martinet]Actulligence138, Le blog de Frédéric Martinet

[Bog de Aref Jdey] Demain la veille, Le blog de Aref Jdey139

[Forum IES 2012] Forum IES 2012140 (forum de l'Intelligence Economique et Stratégique)

[GFII] Groupement Français de l'industrie de l'information141

[Outils de veille] Les Outils de veille142.

[Urfist] Unité Régionale de Formation à l'Information Scientifique et Technique (URFIST)

Nice143, Paris144, 145Rennes146147

133 - http://www.abondance.com/134 - http://www.adbs.fr/135 - http://outils.veille.inist.fr/136 - http://blog.recherche-eveillee.com/137 - Outils froids, Christophe Deschamps138 - http://www.actulligence.com/139 - http://www.demainlaveille.fr/140 - http://ies2012.com/141 - http://www.gfii.fr/fr/142 - http://outilsveille.com/143 - http://urfist.unice.fr/144 - http://urfist.enc.sorbonne.fr/

71

http://www.sites.univ-rennes2.fr/urfist/

http://www.sites.univ-rennes2.fr/urfist/

http://urfist.enc.sorbonne.fr/

http://urfist.unice.fr/

http://outilsveille.com/

http://www.gfii.fr/fr/

http://ies2012.com/

http://www.demainlaveille.fr/

http://www.actulligence.com/

http://blog.recherche-eveillee.com/

http://outils.veille.inist.fr/

http://www.adbs.fr/

http://www.abondance.com/

[Veille] Veille, la communauté de l'IE148

[Video Curation

Christophe Deschamps]Vous avez dit "curation" ?149 (1) Définition, historique des pratiques, outils et usages. 5 à 7 de l'ADBS, 13 mars 2012. Christophe Deschamps.

[Vidéo Veille et temps

réel]Veille et temps réel150 : The time is now. 5 à 7 de l'ADBS, 12 octobre 2010. Véronique Mesguich.

[Vidéo Web2.0 Serge

Courrier]Web 2.0 : Quels usages pour les spécialistes de l'information ?151 par Inist-Cnrs. Serge Courrier.

Références

72

http://www.dailymotion.com/video/xgmm8e_serge-courrier-quels-usages_tech

http://www.adbs.fr/veille-et-temps-reel-1-the-time-is-now-92803.htm?RH=1266334869518

http://www.adbs.fr/vous-avez-dit-curation-1-definition-historique-des-pratiques-outils-et-usages-115668.htm?RH=1266334869518

http://www.veille.com/

Bibliographie

[Afnor. Indexation.] Norme Afnor Z 47-102 (1978), p. 225.

[Amar] Amar Muriel. Les fondements théoriques de l'indexation. Une approche linguistique. ADBS Editions, 2000.

[Boulogne] Boulogne Arlette (Coord.) Vocabulaire de la documentation. ADBS, 2004.

[Chaumier] Chaumier Jacques. Travail et méthodes du documentaliste. ESF (1996), p. 18.

[Courrier] Courrier Serge. Utiliser les fils RSS et ATOM, ADBS Editions, L'essentiel sur... 2007.

[Delengaigne] Delengaigne Xavier. Organiser sa veille sur internet. Au-delà de Google, outils et astuces pour le professionnel. Eyrolles, décembre 2011.

[Foenix] Foenix-Riou Béatrice, Recherche éveillée sur internet Lavoisier, avril 2011.

[gARNIER] Garnier aLAIN ;L’information non structurée dans l’entreprise, usage et outils. Lavoisier, collection dirigée par Nicolas Manson, Octobre 2007 ;

[Lauf] Lauf Aurélien, Valette Mathieu, Khouas Leila. Analyse du graphe des cooccurrents de deuxième ordre pour la classification non-supervisée de documents. Communication JADT 2012 .

[Lettre_Abondance_juin] Recherche & Référencement. Lettre n° 138, juin 2012. Abondance.com.

[Mercklé] Mercklé Pierre. Sociologie des réseaux sociaux, Repères/La Découverte, 2004.

[Moinet] Moinet Nicolas et Deschamps Christophe. La boite à outils de l'intelligence économique. Dunod, 2012.

[Pommart] Pommart et Sutter. Dictionnaire encyclopédique de l'information et de la documentation. Nathan (1997).

[Questions_de_Com] Questions de communication n°14. Moteurs de recherche, usage et enjeux. 2008.

[Serres] Serres Alexandre. Dans le labyrinthe. Evaluer l'information sur internet. C&F, mai 2012.

[Veille Afnor] Norme XP X 50-053 (1998)

145 - http://urfist.enc.sorbonne.fr/146 - http://www.sites.univ-rennes2.fr/urfist/147 - http://www.sites.univ-rennes2.fr/urfist/148 - http://www.veille.com/149 - http://www.adbs.fr/vous-avez-dit-curation-1-definition-historique-des-pratiques-outils-et-usages-115668.htm?RH=1266334869518150 - http://www.adbs.fr/veille-et-temps-reel-1-the-time-is-now-92803.htm?RH=1266334869518151 - http://www.dailymotion.com/video/xgmm8e_serge-courrier-quels-usages_tech

73

http://lexicometrica.univ-paris3.fr/jadt/jadt2012/Communications/Lauf,%20Aurelien%20et%20al.%20-%20Analyse%20du%20graphe%20des%20coocurrents%20de%20deuxieme%20ordre.pdf

Webographie

[DocSI 48] Revue DocSI - Volume 48 : n°1 - Mars 2011 . Dossier : Veille et innovation : s'informer pour conquérir de nouveaux territoires.

[DocSI 49] • Revue DocSI - Volume 49: n 1 - Mars 2012 . Dossier : La curation : entre usages individuels et pratiques professionnelles

[Fauré] Fauré Christian . Introduction au text-mining. Blog Hypomnemata : supports de mémoire.

[Llaudet] Llaudet Bertrand. Cours de data mining . Septembre 2008.

[Mesguich] Mesguich Véronique et Thomas Armelle. Net recherche 2010 : le guide pratique pour mieux trouver l'information utile et surveiller le web. ADBS, 2010 (réactualisation prévue fin 2012).

75

http://www.adbs.fr/net-recherche-2010-le-guide-pratique-pour-mieux-trouver-l-information-utile-et-surveiller-le-web-82253.htm?RH=ACCUEIL

http://www.christian-faure.net/2007/05/30/introduction-au-text-mining/

http://www.adbs.fr/revue-docsi-volume-49-n-1-mars-2012-dossier-la-curation-entre-usages-individuels-et-pratiques-professionnelles-115365.htm?RH=REVUE%20

http://www.adbs.fr/revue-docsi-volume-48-n-1-mars-2011-dossier-veille-et-innovation-s-informer-pour-conquerir-de-nouveaux-territoires-100990.htm?RH=REVUE%20

Crédit des ressources

Bases d'un système de traitement de requêtes p. 22

http://creativecommons.org/licenses/by/2.0/fr/, Raymond Mooney, Université du Texas, Austin

Système de traitement des requêtes à base documentaire p. 22


Schéma des composants d'un moteur de recherche sur le web p. 23


Anatomie d'un moteur de recherche à large échelle hypertextuelle p. 23

http://creativecommons.org/licenses/by/2.0/fr/, Serge Brin, Lawrence Page. The anatomy of a large-scale hypertextual web search engine

Split Second Search p. 24

http://creativecommons.org/licenses/by/2.0/fr/, Google

Kartoo : le métamoteur qui proposait une représentation graphique des liaisons hypertextuelles des résultats. p. 25

http://creativecommons.org/licenses/by/2.0/fr/, Martin Dodge, 2002. http://www.cybergeography-fr.org/atlas/info_maps.php

Réseau sémantique du chat p. 28

http://creativecommons.org/licenses/by/2.0/fr/, Alain Mille, Liris-CNRS.

Architecture d'un moteur de recherche p. 30

http://creativecommons.org/licenses/by/2.0/fr/, Ami Software

Les différents types de veille repérés par Digimind p. 40

http://creativecommons.org/licenses/by/2.0/fr/, Digimind

Acteurs de la veille p. 41

http://creativecommons.org/licenses/by/2.0/fr/, Institut français de l'éducation (INRP)

Matrice de ciblage de Help Management p. 41

http://creativecommons.org/licenses/by/2.0/fr/, Aref Jdey. Help Management/ADBS.

Paramétrage de la surveillance des sites p. 42

http://creativecommons.org/licenses/by/2.0/fr/, Jérôme Bondu

Paramétrage de la fréquence des surveillances p. 42


77

Détection des pages modifiées p. 42


Préparation d'une newsletter automatisée p. 42


Méthodologie de mise en place d'une surveillance p. 43

http://creativecommons.org/licenses/by/2.0/fr/, Aref Jdey - Help Management - ADBS

Régler le niveau de profondeur de la veille p. 43

http://creativecommons.org/licenses/by/2.0/fr/, LoIc Hay

Architecture d'un automate de collecte p. 51

http://creativecommons.org/licenses/by/2.0/fr/, Ami Software

Représentation d'un graphe par une matrice adjacente. p. 53

http://creativecommons.org/licenses/by/2.0/fr/, Entre outillage et théorie, les réseaux sociaux : Alain Degenne – Lasmas – CNRS – Mai 2004.

Représentation de la proximité à partir de la matrice d'adjacence p. 53

http://creativecommons.org/licenses/by/2.0/fr/, Entre outillage et théorie, les réseaux sociaux : Alain Degenne – Lasmas – CNRS – Mai 2004.

Typologie des folksonomies p. 54

http://creativecommons.org/licenses/by/2.0/fr/, Vanderval.net

Extraits des thématiques générées p. 60

http://creativecommons.org/licenses/by/2.0/fr/, Inalco

Thématique Tchernobyl représentée sous forme de graphe p. 60


Exemple d'un cluster fortement connecté p. 60


Evaluation de la classification automatique p. 61


Phases du processus CRISP_DM p. 63

http://creativecommons.org/licenses/by/2.0/fr/, Jackverr - Wikimédia

Interprétation d'une Leximappe p. 64

http://creativecommons.org/licenses/publicdomain/2.0/fr/, INIST-CNRS, Centre de Sociologie et Innovation de l'Ecole Nationale Supérieure des Mines de Paris

Analyse leximappe sur la controverse du changement climatique dans la presse grand public p. 64

http://creativecommons.org/licenses/by/2.0/fr/, Vololona Rabeharisoa

Visualisation graphique de la provenance et de la répartition thématique des articles p. 66


Crédit des ressources

78