module us240l : tic et veille · 1.qu'est-ce que la veille ?..... 41 2.typologie de la veille...
TRANSCRIPT
CS22-US240L
Module US240L : TIC et Veille
Evelyne BROUDOUX, Maitre de conférences, CNAM
Loïc LEBIGRE, Directeur des projets Métier, ADBS
1er octobre 2012 - mise à jour 2013
V2
Table des matières
Objectifs 5
Introduction 7
I - De la recherche d'informations à une veille automatisée 9
A. Qu'est-ce que la recherche d'informations ?......................................................9
B. De l'indexation aux composants de la recherche automatisée...........................10
1.Méthodes d'indexation : full text, indexation contrôlée, extraction automatique de concepts. 10 2.Méthodes de recherche d'informations........................................................................... 13 3.Les moteurs de recherche............................................................................................ 21
C. Les modalités de surveillance....................................................................... 36
1.Les agents d'alerte...................................................................................................... 36 2.Les techniques d'agrégation..........................................................................................37 3.Techniques de filtrage et d'agrégation............................................................................39 4.Quelques lectures supplémentaires autour des techniques de filtrage et d'agrégation...........40
II - Les outils de veille 41
A. Méthodologie de mise en place d'un système de veille.....................................41
1.Qu'est-ce que la veille ?............................................................................................... 41 2.Typologie de la veille en fonction des objectifs à atteindre................................................ 42 3.Cycle de veille.............................................................................................................43 4.Méthodologie de mise en place d'une surveillance............................................................46 5.Les prestations de veille............................................................................................... 47
B. Panorama des outils de veille........................................................................51
1.Classement des outils.................................................................................................. 51 2.Plate-formes de veille.................................................................................................. 52 3.Modèle architectural de collecte.....................................................................................54 4.Quelques lectures supplémentaires autour de la veille professionnelle................................55
C. Les réseaux sociaux et folksonomies.............................................................55
1.Qu'est-ce qu'un réseau social ?..................................................................................... 55 2.Le « bookmarking social » et les « folksonomies »........................................................... 57
III - Exploitation et analyse 61
A. Les méthodes d'analyse linguistique.............................................................. 61
B. Les méthodes d'analyse : statistiques, sémantiques........................................62
1.Etude de cas : quelle image a le nucléaire en France un mois après l'incident survenu à Fukushima ?...................................................................................................................62
3
C. Les outils d'analyse..................................................................................... 65
1.Les solutions d'extraction automatique : datamining et text mining....................................66 2.Les outils de cartographie et de visualisation des résultats................................................68
IV - Travaux pratiques 73
A. TP à venir.................................................................................................. 73
Glossaire 75
Références 77
Bibliographie 79
Webographie 81
Crédit des ressources 83
4
Objectifs
Maîtriser les techniques et outils utilisés actuellement pour la veille.
Il s'agira à l'issue de ce module d'avoir une appréciation globale de l'ensemble des techniques et des outils disponibles aujourd'hui dans les processus de recherche et de veille informationnelle. Les outils en libre accès associés au Web seront particulièrement explorés, ainsi que la nouvelle donne du web social.
Objectifs généraux du Certificat CS 22
- Etre capable de se repérer dans le paysage technologique actuel de l'info-connaissance : comprendre l'intérêt et les enjeux de ces technologies.
- S'approprier ces innovations technologiques, en comprendre le fonctionnement global, pour être en mesure de proposer de nouveaux services et de répondre à de nouveaux besoins informationnels.
- Connaître les standards et protocoles dominants liés à la production, description, diffusion des ressources informationnelles et savoir gérer leur hétérogénéité.
- Connaître et positionner les différentes familles d'outils.
5
Introduction
Ce module fournit les éléments clés permettant d'obtenir une vue globale de l'ensemble des techniques et des outils disponibles aujourd'hui dans les processus de veille informationnelle. Aux côtés de la recherche documentaire classique, de nouvelles familles d'outils sont apparues pour explorer les contenus du web : propriétaires ou en libre accès, ces outils misent sur la nouvelle donne du web social. L'objectif de ce module est de pouvoir se saisir de ces outils pour connaître l'évolution d'un produit, une marque, un marché, détecter l'émergence de tendances, afin de renseigner les processus décisionnels.
7
I - De la recherched'informations àune veilleautomatisée
I
Qu'est-ce que la recherche d'informations ? 9
De l'indexation aux composants de la recherche automatisée 10
Les modalités de surveillance 36
La veille qui a pour objectif d'anticiper les évolutions d'un secteur (ex : automobile, agriculture biologique) ou d'un environnement (ex : épidémiologie) en construisant une activité automatisée de recherche d'informations repose sur deux activités majeures :
1. La constitution du socle de base d'éléments à connaître avant de démarrer la veille (l'état de l'art) et qui passe par la recherche documentaire dont l'objectif est de retrouver les références de documents pertinents dans des fonds documentaires classiques (ex : bases documentaires de type Questel, LexisNexis, Dialog, Medline, etc.).
2. La recherche d'informations d'éléments non connus qui vise à trouver et fouiller directement les documents ou proto-documents (web) pour en tirer les éléments pertinents.
A. Qu'est-ce que la recherche d'informations ?
Définition : Recherche d'informations
Ensemble des méthodes, procédures et techniques permettant, en fonction de critères de recherche propres à l'usager, de sélectionner l'information dans un ou plusieurs fonds de documents plus ou moins structurés.
Toute recherche d'information suppose trois phases successives : 1. une recherche bibliographique des références de documents pertinents ; 2. une recherche documentaire, c'est-à-dire une recherche bibliographique
complétée par la recherche (l'acquisition) des documents eux-mêmes ; 3. et enfin le repérage de l'information dans les documents sélectionnés
(recherche de l'information).
9
[Boulogne, 2004] [Boulogne]
B. De l'indexation aux composants de la recherche automatisée
L'automatisation de la recherche d'informations repose sur les technologies linguistiques de traitement de l'information, elles-mêmes issues des techniques de documentation.
Deux grandes tendances technologiques sont imbriquées : les méthodes statistiques qui mesurent la fréquence des chaînes de caractères sans se préoccuper du sens des mots et les méthodes sémantiques qui s'attachent à reconnaître le sens des termes en les rattachant à des systèmes d'organisation des connaissances : thésaurus, ontologies.
1. Méthodes d'indexation : full text, indexation contrôlée, extraction automatique de concepts
a) Les principes de l'indexation
Selon la définition la plus large qu'en donne le Vocabulaire de la documentation (Boulogne 2004 [Boulogne]), l'indexation est un processus.
Cette proposition comprend l'indexation comme un processus d'identification qui tend à représenter les contenus (sous forme de documents) de manière plus ou moins formelle pour en faciliter la repérabilité (et répondre ainsi à un questionnement).
b) Evolution de la notion d'indexation
Les notions clés de l'indexation
Collection
Document
Ressource
Fragment
Termes/Indices contrôlés
x x x x
Mots libres/Catégories
x x x
Concepts/Listes x x x x
Descripteurs/Thésaurus
x x x
Langage naturel
x x x
Langage documentaire
x x x
De la recherche d'informations à une veille automatisée
10
Tableau 1 L'analyse documentaire macro et micro
L'opération d'indexation est longtemps restée un acte destiné à répertorier - pour les localiser - des documents fixés sur des supports tangibles (livres, cd, cassettes, bandes vidéos, dvd, etc.) coordonné par un système d'information documentaire.
D'après Jacques Chaumier [Chaumier], l'indexation est la « « description du contenu du document à l'aide de mots-clés (ou d'indices de classification) pour faciliter la mémorisation du contenu de ce document pour une recherche ultérieure » ».
Pour Pomart et Sutter [Pommart], l'indexation « « a pour but de faciliter l'accès au contenu d'un document ou d'un ensemble de documents à partir d'un sujet ou d'une combinaison de sujets (ou de tout autre type d‘entrée utile à la recherche) » ».
Ces deux définitions classiques indiquent une polarisation autour de la recherche d'informations contenus dans des documents authentifiés en tant que tels et rendus accessibles par une interface d'interrogation du système documentaire.
Remarque : De l'utilité restreinte de l'appariement ?
Dans ce cadre, on peut dire que la recherche d'informations est conditionnée par les langages documentaires qui encadrent et déterminent l'opération d'indexation. Cette co-dépendance se prolonge dans la technique de l'appariement qui consiste à penser que les mots servant à la requête sont les mêmes que ceux issus de l'analyse documentaire. Muriel Amar [Amar] (2000) qui met en doute cette affirmation a rappelé que l'indexation servait moins à « transmettre » l'information qu'à caractériser les conditions de son interprétation.
c) L'indexation « plein texte » (full text) correspond à l'indexation automatisée en « texte intégral » ou en « texte libre »
Le processus d'indexation est automatisé et se déroule à la volée à l'aide d'un moteur d'indexation intégrant des dictionnaires de synonymes, des lemmatiseurs et des antidictionnaires. Ne seront gardées que les formes signifiantes des termes employés, les unités syntaxiques, enregistrées dans un index inverse.
La recherche en langage naturel sur le texte intégral des documents a été rendue possible dès les années 1970 avec l'augmentation des capacités informatiques de calcul et de stockage.
Les premiers éléments de l'indexation automatique à avoir été automatisés par les SGBD sont les données bibliographiques, les titres et les résumés. Le traitement de gros volumes de données textuelles, avec une organisation en phrases, paragraphes... a nécessité la mise en œuvre de techniques plus élaborées que l'indexation automatique de champs structurés dont les contenus ont pour caractéristique d'être court.
Au début de l'indexation automatique, la polysémie qui caractérise le langage « naturel » a freiné son efficacité, les risques de bruit et de silence étaient accentués à l'interrogation. On constatait que moins on en faisait à l'entrée des données (sans l'introduction de métadonnées et sans méthode d'indexation contrôlée), plus le travail de l'utilisateur final était complexe.. Pour remédier à ces problèmes, les informaticiens ont travaillé avec des spécialistes de la linguistique pour développer des outils évolués capables de proposer une troisième voie entre le langage totalement libre et les langages contrôlés, le TALN. Basés sur des outils et
De la recherche d'informations à une veille automatisée
11
traitements linguistiques à différents niveaux (morphologique, syntaxique, grammatical, sémantique et même parfois pragmatique), ces programmes sont devenus au fil du temps de véritables logiciels packagés qui se sont imposés sur le marché dans les années 90.
d) L'indexation contrôlée
L'indexation contrôlée décrit manuellement les contenus en sélectionnant des termes – en nombre fini - appartenant à un langage documentaire classificatoire ou combinatoire.
Les langages classificatoires sont des langages à structure hiérarchique pouvant être représentés par des arborescences ou des emboîtements. On trouvera sous cette appellation les classifications décimales encyclopédiques (Dewey, Library of congress, CDU, etc.) et les classifications à facettes. Le créateur de ces dernières, Ranganathan, supposait que n'importe quel sujet pouvait être ramené à cinq catégories au moment de son analyse – c'est-à-dire décomposé en cinq facettes – lesquelles à leur tour pouvaient être de nouveau décomposées selon un processus récursif. Les facettes introduisent la notion de point de vue sous lequel un concept peut être interprété.
Les langages combinatoires procèdent par recoupements ou intersection des domaines représentés par des mots-clés ou des concepts. Le résultat de l'intersection définit la notion recherchée. L'indexation peut être contrôlée par des lexiques de mots-clés ou de concepts classés par ordre alphabétique constituant des listes terminologiques pouvant servir de référentiels. Les concepts agrégeant des mots ou groupes de mots appelés expressions sont nommés descripteurs. Leur rôle est de représenter de manière univoque un concept indexable. Lorsque les descripteurs concernent un thème spécialisé ou un champ d'activité, ils peuvent être assemblés en thésaurus. Le rôle du thésaurus est d'organiser les descripteurs et les termes non descripteurs par des indications de relations hiérarchiques et associatives, ce qui constitue le point le plus avancé d'une organisation documentaire mais est aussi le plus lourd à faire évoluer. Parmi les différentes formes de thésaurus, notons ceux à facettes caractérisés par un mode spécifique de regroupement des termes mais aussi ceux à caractère encyclopédique ou sectoriels caractérisés par l'amplitude ou la profondeur des domaines couverts.
Exemple de thésaurus pouvant être parcouru comme un graphe : Visual Thesaurus1.
e) L'extraction automatique de concepts
La définition [Afnor. Indexation.] de l'indexation comme « opération qui consiste à décrire et à caractériser un document à l'aide de représentations des concepts contenus dans ce document » pousse à envisager des formes de représentation des concepts différentes des classifications documentaires classiques. En effet, à partir d'un document numérisé en texte intégral, il existe des méthodes d'extraction et de représentation automatique de concepts qui permettent d'affiner la sélection des termes retenus dans les index générés. Pour améliorer l'identification des descripteurs, il est possible de combiner différentes méthodes [Normier, 2007]:
- les méthodes statistiques identifient des suites de mots dans les documents, par calcul de collocation ; elles identifient également des catégories pour placer un document dans un plan de classement ;
- les méthodes linguistiques utilisent des moteurs sémantiques qui combinent des niveaux d'analyse morphologique, syntaxique et sémantique et améliorent la qualité de l'interprétation des textes pendant leur analyse.
1 - http://www.visualthesaurus.com/
De la recherche d'informations à une veille automatisée
12
Les besoins croissants de traiter une information-flux de plus en plus volumineuse, distribuée, hétérogène poussent à concevoir des systèmes aptes à gérer une sémantique fluctuante selon les points de vue et située de plus en plus souvent hors-document.
La branche linguistique représentée par le Traitement automatique des langues (Tal) a conçu un ensemble d'outils allant de l'indexation automatique à l'extraction d'informations en passant par la conception de crawlers et de moteurs de recherche.
* *
*
Cette présentation globale des différentes formes d'indexation indique une multiplicité des manières de faire dans les systèmes de classement des documents, ce qui aura une incidence sur les services d'interrogation des bases documentaires.
Les différentes formes d'index générés devront pouvoir être interrogés par un outil de veille qui saura traiter avec l'hétérogénéité des systèmes et des données.
2. Méthodes de recherche d'informations
Les méthodes de recherche seront directement dépendantes des objets informationnels à traiter. Dans un monde documentaire organisé par des langages classificatoires, seront interrogés des index pré-renseignés ou l'entièreté des textes. Dans les univers informationnels peu ou non structurés comme ceux que l'on trouve sur le web, les index sont réalisés à partir d'algorithmes établissant des statistiques autour des termes utilisés autour et dans les liens et leurs différents pointages, les noms des ancres, les noms de domaines, le contenu des "pages web", etc.
a) La recherche simple et avancée
La recherche d'informations simple consiste en l'introduction d'un mot ou un groupe de mots dans un unique champ.
La recherche avancée permet de rechercher des mots ou groupes de mots en sélectionnant des descripteurs pouvant se présenter sous la forme de listes déroulantes dans un ou plusieurs champs.
Les moteurs de recherche du web ont ouvert l'univers de la recherche d'informations au grand public en simplifiant l'entrée de termes dans un unique champ à remplir : c'est la recherche simplifiée pour tous.
De la recherche d'informations à une veille automatisée
13
Rapports d'information du Sénat accessibles par les champs de recherche simple et avancée.
b) La recherche par opérateurs booléens, proximité, troncature, champ
L'interrogation des objets informationnels se réalise en langage naturel et avec des termes spécifiques - les opérateurs - que les modules d'interrogation reconnaissent. La syntaxe de ces termes varie d'un moteur à l'autre ainsi que les fonctionnalités d'interrogation.
Opérateurs booléens
Les opérateurs booléens sont des termes de logique permettant d'agir sur des ensembles de données : union, intersection, exclusion.
Les requêtes sont formulées sous la forme d'une équation avec les opérateurs correspondants :
OU, OR : union de concepts
ET, AND : intersection de concepts
SAUF, NOT, - : exclusion de concepts
Exemples
Parcs OU Paris OU Marseille : documents ou pages web contenant le terme Parcs s'ajoutant aux documents contenant le terme Paris et aux documents contenant le terme Marseille
Parcs ET Paris ET Marseille : documents ou pages web contenant les termes Parcs, Paris et Marseille et excluant les documents ne contenant qu'un ou deux des trois termes
Parcs ET Paris SAUF Marseille : documents ou pages web contenant les termes Parcs et Paris mais ne retenant pas les documents contenant le terme Marseille
Les réponses obtenues à ces requêtes sur des ensembles constituent aussi des ensembles qui pourront être ultérieurement triés.
Exercice : à partir de Google2, cherchez les campings :
- dans les Cévennes ou dans les Causses
- dans les Cévennes et dans les Causses
Examinez les différences de résultats obtenus.
Opérateurs de proximité
Un des moyens d'affiner la recherche et de commencer à trier des ensembles de données est d'utiliser des opérateurs de proximité.
Les guillemets peuvent être utilisés comme "opérateur de proximité" dans la mesure où ils autorisent la recherche de termes adjacents comme par exemple "véhicules d'occasion". La recherche se fait alors sur la chaîne de caractères située entre les guillemets et seront sélectionnées uniquement les occurences correspondant
2 - http://www.google.fr
De la recherche d'informations à une veille automatisée
14
Recherche avancée sur le site du Sénat (senat.fr)
exactement à l'expression demandée.
L'opérateur NEAR ou NEXT sert à rechercher des termes à proximité d'autres termes quelque soit leur ordre.
Ex : Véhicules NEXT Occasion
Suivant les moteurs, les bases de données et les modalités de l'indexation, l'opérateur NEAR peut être combiné avec plusieurs spécifications d'écart :
l'ordre des mots peut être contraint : véhicules NEAR-ORDER occasion. Dans cet exemple, le terme véhicules doit précéder occasion.
les mots peuvent être séparés par n termes : véhicules NEAR/N occasion.
Exercice : à partir de Google et Exalead3, ajoutez à la recherche précédente la notion de proximité :
- Campings dans les Cévennes ou dans les Causses situés à proximité d'une rivière,
- Campings dans les Cévennes et dans les Causses situés à proximité d'une rivière.
Comparez les différences de résultats obtenus entre les deux moteurs en utilisant en anglais la syntaxe appropriée.
Troncature
La troncature autorise la recherche sur des portions de termes. L'opérateur habituellement utilisé est une étoile *.
Tous les moteurs n'offrent pas cette possibilité ; actuellement, seul Exalead apparaît avoir conservé cette fonctionnalité.
L'opérateur de troncature est surtout utilisé dans la recherche plein texte et non sur des mots-clés pré-enregistrés. La combinaison d'étoiles ** est possible comme dans l'Encyclopédie Universalis.
L'interface de recherche d'Exalead propose différentes facettes à l'introduction de l'opérateur de troncature, le caractère *
Exercice : à partir de l'Encyclopédie Universalis4, faites les tests suivants en observant ce qui se produit dans le champ de recherche de l'encyclopédie en ligne :
- *chat, chat, *habit, habit, *fluoro, fluoro
- *mobil*, mobile
A partir d'Exalead, rechercher chlor* et path*. Observez les résultats.
Champs de recherche
Les termes peuvent être recherchés dans des champs spécifiés. Google autorise la recherche par format de fichier, par termes utilisés dans le titre ou seulement dans le nom de domaine d'un site ; mais il est possible de filtrer les résultats par date de publication du document, la langue utilisée, etc.
Ex : filetype:, intitle:, all intitle:, site:
3 - http://www.exalead.fr4 - http://www.universalis.fr/
De la recherche d'informations à une veille automatisée
15
Recherche Exalead avec troncature
Les fonctions avancées accessibles en pied de la page d'accueil de Google permettent de fouiller le web en paramétrant directement des champs sans avoir à les écrire sous forme d'équation.
Exalead ajoute à ces fonctionnalités une recherche par période avec before: et after:, ou par consonance avec soundslike: ou avec une orthographe approximative avec spellslike:.
Exercice : rechercher les informations contenant le terme CFC parues avant le 1er janvier 1999 sur Exalead.
La formulation d'une requête d'interrogation
La syntaxe des requêtes est représentée par un ensemble de codes ou expressions partagées ou non par les moteurs.
Les guillemets autorisent la recherche d'une expression exacte sur tous les moteurs.
L'absence d'opérateurs entre les mots d'une requête est traduite par les moteurs par ET.
Exercice : observer les résultats des requêtes suivantes dans Google, Exalead et Bing :
- "CFC et substituts"
- CFC ET substituts
- CFC substituts
c) Exercice : Réaliser une équation booléenne
Réalisez l' équation proposée par différentes intersections des ensembles A, B et C. Choisissez l'opérateur approprié : ET, OU, -
Cliquer sur correction pour vérifier votre réponse.
De la recherche d'informations à une veille automatisée
16
Ensembles A et B
(A B)
d) Exercice : Réaliser une équation booléenne (1)
Réalisez l' équation proposée par différentes intersections des ensembles A, B et C. Choisissez l'opérateur approprié : ET, OU, -
Cliquer sur correction pour vérifier votre réponse.
De la recherche d'informations à une veille automatisée
17
Ensembles B et C
(B C)
e) Exercice : Réaliser une équation booléenne (2)
Réalisez l' équation proposée par différentes intersections des ensembles A, B et C. Choisissez l'opérateur approprié : ET, OU, -
Cliquer sur correction pour vérifier votre réponse.
De la recherche d'informations à une veille automatisée
18
Ensembles A, B et C
(A B C)
f) Exercice : Réaliser une équation booléenne (3)
Réalisez l' équation proposée par différentes intersections des ensembles A, B et C. Choisissez l'opérateur approprié : ET, OU, -
Cliquer sur correction pour vérifier votre réponse.
De la recherche d'informations à une veille automatisée
19
Ensembles A, B et C
(A B C)
g) Exercice : Réaliser une équation booléenne (4)
Réalisez l' équation proposée par différentes intersections des ensembles A, B et C. Choisissez l'opérateur approprié : ET, OU, -
Cliquer sur correction pour vérifier votre réponse.
De la recherche d'informations à une veille automatisée
20
Ensembles A, B et C
(A B) (B C) (A C)
3. Les moteurs de recherche
Les moteurs de recherche sur le web sont à différencier des moteurs de recherche dédiés à la documentation stockée dans des banques et bases de données, dans des centres de documentation ou des bibliothèques. Au contraire de ces institutions, un moteur de recherche du web génère des revenus en fonction des recherches réalisées par ses usagers.
Il s'agit donc d'outils dont la technicité sert autant à classer/chercher/trouver des informations qu'à générer des revenus en fonction de la fréquence de consultation des sites web, du profil social des internautes, de la mise aux enchères de mots-clés, et de bien d'autres paramètres...
Dans ce module, nous n'aborderons que la partie "technique documentaire" de ces moteurs de recherche.
a) Composition d'un moteur de recherche
La composition technique d'un moteur de recherche du web est directement inspirée des systèmes d'information documentaires. Les schémas ci-dessous sont destinés à détailler les interfaces de recherche d'information spécifiques aux catalogues des bibliothèques et aux centres de documentation lorsqu'ils sont déconnectés du web.
De la recherche d'informations à une veille automatisée
21
Système de recherche d'information (Information Retrieval ou IR)
Dans un système documentaire de recherche d'informations, la recherche s'effectue dans un corpus de documents à partir de chaines de caractères entrés par l'utilisateur. Le système propose à l'usager une liste de documents ordonnée selon différents critères.
User Interface : gestion de l'interaction - usager
Entrée/Requêtes et Sortie/Documents
Feedback sur la pertinence
Visualisation des résultats
Text Operations : opération de génération de l'index
Elimination des mots vides
Racinisation ou lemmatisation des mots
Query Operations : optimisation de la recherche par la transformation de la requête
Expansion de requête utilisant un thésaurus
Expansion de requête utilisant le feedback sur la pertinence
Indexing construit un index inversé de mots vers les pointeurs de documents.
Database manager est le système de gestion de bases de données.
Searching recherche les documents qui contiennent un terme de l'index inversé.
Ranking trie tous les documents trouvés selon un score de pertinence.
b) Fonctionnement d'un moteur de recherche sur le web
Les quatre étapes de l'indexation web 1. Parcourir le web
Des robots d'exploration nommés « crawlers », « spiders », « bots » utilisent la structure hypertextuelle du web pour circuler et rassembler les informations concernant « pages », « sites » et « documents ».
2. Indexer la matière publiée sur le webLe contenu indexé automatiquement de ces pages et documents est conservé dans des bases de données. Cet index doit être géré de manière à rechercher des billions de documents et satisfaire les requêtes en quelques fractions de secondes.Suivant les moteurs et la fréquence de la mise à jour des sites web, le délai de rafraîchissement des index va de quelques heures à plusieurs semaines.
3. Traiter les requêtes
De la recherche d'informations à une veille automatisée
22
Bases d'un système de traitement de requêtes
Système de traitement des requêtes à base documentaire
Le traitement des requêtes comprend l'analyse des termes entrés (équations de recherche, coordonnées géolocalisées des données de connexion, etc.), la recherche de correspondances dans l'index et la récupération des informations associées.
4. Classer les résultatsLe classement de la matière indexée par le moteur est obtenu par des algorithmes établissant un ordre de pertinence dans les résultats, mais aussi des tris par catégories, indice de notoriété et par mesure d'audience.
Le spider pendant son parcours sur le web construit un corpus de documents en créant ou en mettant à jour des index qui seront interrogés par le système de traitement de requêtes (IR) qui fournit à l'usager des résultats triés.
Le serveur d'URL envoie aux spiders les URL des liens et pages à visiter. Celles-ci sont traitées par un serveur de stockage (store server) qui les envoie dans un entrepôt (repository).
Le système d'indexation (indexer) lit ce qui se trouve dans l'entrepôt et attribue un Identifiant à chaque page qui sera représentée par un ensemble d'occurrences de termes. Ces occurrences sont stockées en silos (barrels). Les liens et ancres hypertextes sont stockées par un gestionnaire d'ancres (anchors) qui les envoie à un solveur d'URL (Url resolver).
Le gestionnaire de liens (links) contient les paires de liens issues des ancres (chaque ancre est posée sur une page et pointe vers une autre page). Ceci servira au calcul du PageRank (rang de la page) qui détermine la notoriété d'une page.
L'index inversé est généré par le trieur (sorter) qui récupère les données stockées en silos et les convertit en en identifiants de mots.
Pour fournir des résultats aux requêtes des utilisateurs, l'interface de recherche (searcher) utilise le lexique créé par le système d'indexation, l'index inversé contenu dans les silos, les URL associées (doc index) et le pagerank.
Ce schéma est issu de l'article fondateur5 du moteur de recherche Google.
Remarque : La taille de l'index de Google
L'index de Google, en réalité constitué de nombreux index, représente aujourd'hui (en 2012) plus de 100 millions de Go qui ont nécessité plus d'un 1 million d'heures de calcul pour le constituer.
Pour chaque requête d'un internaute sur le moteur, l'algorithme qui trie les résultats
5 - http://infolab.stanford.edu/~backrub/google.html
De la recherche d'informations à une veille automatisée
23
Schéma des composants d'un moteur de recherche sur le web
Anatomie d'un moteur de recherche à large échelle hypertextuelle
utilise plus de 200 critères (signals). Depuis 2003, Google a ainsi répondu à plus de 450 milliards de requêtes différentes et chaque jour, 16% des requêtes faites sur Google sont nouvelles.
Les chiffres clés d'une requête sur Google traduit par WebRankInfos6.
Complément : La taille du web
Si l'index de Google pèse plus de 100 millions de Go c'est que le nombre de pages indexées par le moteur croît chaque jour. En 2008, Google aurait indexé 1 trillion d'URL uniques. En 2010, il y aurait 205,8 millions de noms de domaine enregistrés.
Schéma posté sur The Next Web7 début 2011.
6 - http://www.webrankinfo.com/dossiers/google-search/chiffres-cles-recherche7 - http://thenextweb.com/shareables/2011/01/11/infographic-how-big-is-the-internet/
De la recherche d'informations à une veille automatisée
24
Split Second Search
La taille du web depuis 2008
c) Evolution des moteurs de recherche
Les moteurs de recherche sont pris en tension entre différentes innovations : économiques et sociales avec l'arrivée du web participatif et techniques avec les technologies du web sémantique qui pourraient à terme venir bouleverser leur paysage.
i Les méthodes statistiques au cœur des moteurs
La première génération de moteurs est basée sur l'indexation automatique du contenu des "pages web" et l'ordonnancement des résultats établi par des algorithmes qui calculent, en fonction de la fréquence de liens, des principes de pages populaires (pageranking), et en fonction de l'origine de la source, des principes de confiance (trustranking).
Les méthodes employées sont morphologiques (identification des mots d'une phrase) et statistiques : elles concernent des chaînes de caractères. Le sens des mots n'est pris en compte ni dans la constitution des index ni les résultats de la recherche.
On peut situer temporellement cette première génération de 1995 à aujourd'hui. Un des premiers moteurs à avoir été lancé est Altavista mais il sera rapidement concurrencé par Google fondé en 1998. Dans la foulée apparaissent sur le marché Yahoo!, MSN, Voila (France Telecom) et les métamoteurs dont la fonction est d'interroger plusieurs moteurs et de fournir les résultats sur une seule liste. Le métamoteur français Kartoo (2001-2011) visualise la structure hypertextuelle de la liaison entre les sites et pages web.
Sur cette carte, les sites sont représentés par des icônes de taille différente selon leur pertinence. Au survol de la souris, les mots-clés concernés se manifestent en surbrillance et une brève description du site apparait sur un des côtés de la page web.
ii Méthodes morpho-syntaxiques et moteurs sémantiques
Premières clustérisations
Dès le début des années 2000, une seconde génération de moteurs voit le jour avec l'objectif de rendre plus opérationnelles les réponses aux requêtes. Les méthodes d'analyse des requêtes sont morpho-syntaxiques dans la mesure où s'ajoute à l'identification des mots d'une phrase, l'identification des constituants de la phrase elle-même.
Aux côtés de la liste principale des résultats classés, apparaît une colonne regroupant des significations différentes attribuées aux termes entrés. Il s'agit de clusterisation
ou de catégorisation automatique des différentes significations imputables à un terme en fonction de son voisinage et/ou en fonction de catégories prédéterminées.
Exalead, créé en 2000 par des ex-collaborateurs d'Altavista, et racheté en 2006 par
De la recherche d'informations à une veille automatisée
25
Kartoo : le métamoteur qui proposait une représentation graphique des liaisons
hypertextuelles des résultats.
Dassault Systems est le premier moteur français à expérimenter cette fonctionnalité.
A partir de la recherche "substituts CFC", un clic sur la catégorisation "Ozone troposphérique" restreint les résultats du moteur.
La clusterisation telle qu'elle est pratiquée à ses débuts n'est pas vraiment sémantique dans la mesure où elle est générée à partir d'un index en texte brut (plein text), c'est-à-dire sans notion de descripteur ni d'entité nommée.
Il faut des méthodes linguistiques pour ajouter du sens à un index : en regroupant les synonymes, les dérivations, les variantes, et en faisant appel à des dictionnaires spécialisés.
Les bases terminologiques sont indispensables à la statistique pour produire de la sémantique.
Il s'agira donc d'ajouter aux documents ou aux portions de documents indexés sur le web des informations permettant de les caractériser avant leur indexation. C'est tout l'enjeu du web sémantique. (Cette partie est abordée par le Module Architecture de l'information US240M).
Des mots-clés aux syntagmes
Selon Philippe Yonnet, l'indexation des pages web par Google passe progressivement des mots-clés aux syntagmes entre 2006 et 2008 [Recherche & Référencement n°138 [Lettre_Abondance_juin]].
Les moteurs de recherche du web s'éloignent donc progressivement de la représentation d'un document par ses mots-clés.
Suivant leur fréquence, des corrélations peuvent alors être effectuées entre les groupes de mots indexés. Les résultats en terme de requêtes sont observables dès l'entrée des mots dans le champ de recherche. Les deux exemples ci-dessous montrent ce processus à l'œuvre pendant une recherche tandis que le troisième pointe les différences de traitement selon les moteurs (google.fr et google.com).
Proposition de Google.fr à l'entrée de "Président de la".
Proposition de Google.fr à l'entrée de "Président de la banque".
Proposition de Google.com à l'entrée de "Président de la banque".
Pour en savoir plus sur l'indexation par syntagmes, consultez l'article de WebRankInfos8 sur le dépôt de brevet par Google sur la "phrasification".
8 - http://www.webrankinfo.com/dossiers/redaction/brevet-phrasification
De la recherche d'informations à une veille automatisée
26
Exemple Clusterisation Exalead
Requête 1
Requête 2
Requête 3
Définition : Entités nommées
Les "entités nommées" sont des unités textuelles qui font référence à des appellations. Le nom propre d'une personne, l'intitulé d'une organisation, l'adresse, la date, les coordonnées de géolocalisation sont des entités qui peuvent être nommées, ce qui suppose qu'elle peuvent être appelées sous une forme générique et donc prendre différentes valeurs selon le contexte de leur utilisation.
Les entités nommées générées et extraites après publication
Les entités nommées peuvent être repérées et agrégées après leur publication sur le web, au moment de leur affichage sur un navigateur client.
Clearforest Gnosis est une application créée par Thomson Reuters sous la forme d'une extension du navigateur Firefox. Elle permet d'analyser rapidement l'ensemble du contenu d'une page web consultée suivant des entités nommées : villes, sociétés, continents, pays, entités naturelles, organisations, personnalités, régions, url, technologies, etc.
Un exemple d'entités nommées générée après publication web par ClearForest Gnosis.
Les entités nommées générées pendant le processus d'indexation
Les entités nommées peuvent être extraites au moment de l'indexation par les moteurs : un index spécialisé est alors généré qui stocke pour chaque entité nommée les pages qui les contiennent. L'index inversé étant alors complété avec ces informations.
Microsoft a lancé son moteur d'entités nommées spécialisés sur les personnalités : EntityCube9.
Les entités nommées peuvent aussi être extraites des résultats d'une requête, comme ici avec le moteur Cluuz10 qui propose une clusterisation à partir des entités nommées détectées à l'envoi du formulaire de recherche.
Ex : lors de la recherche sur "Jean-Claude Trichet", on renverra aux pages associées à l'entité nommée "Jean-Claude Trichet" et aux pages qui contiennent "Jean-Claude Trichet".
9 - http://entitycube.research.microsoft.com/10 - http://www.cluuz.com
De la recherche d'informations à une veille automatisée
27
ClearForest Gnosis
Présentation des entités nommées liées à la recherche "Jean-Claude Trichet" dans la colonne de droite.
Extrait de la représentation graphique du cluster "Jean-Claude Trichet" sous forme de graphe de liens.
Vers les index de concepts
Bien que couvrant des pans entiers du réel lié aux actions humaines, les entités nommées sont insuffisantes à représenter les notions abstraites qui organisent la compréhension elle-même.
Pour parvenir à automatiser les calculs sur le langage, il est nécessaire d'aller plus loin et de couvrir les entités abstraites que sont les concepts.
La notion de graphe conceptuel qui est ancienne sert à représenter les formalismes utilisés dans la définition des connaissances.
Explication d'un réseau sémantique avec l'exemple du chat, ses concepts et ses relations.
Le Knowledge Graph11 de Google lancé en mai 2012 repose sur l'interconnexion de concepts en dehors des liens traditionnels de l'hypertexte. Il s'agit donc d'une couche supplémentaire d'organisation des données sur le web.
Pour l'instant non disponible en français, la recherche d'informations construit une page de résultats à partir des données sémantiques disponibles dont un certain nombre émane de Metafilter et Wikipédia. Voir exemples de cette évolution par Olivier Duffez sur WebRankInfos12.
11 - http://www.google.com/insidesearch/features/search/knowledge.html12 - http://www.webrankinfo.com/dossiers/google-search/evolutions-aout-2012
De la recherche d'informations à une veille automatisée
28
Réseau sémantique du chat
Graphe du cluster "Jean-Claude Trichet" généré par Cluuz
Extraction d'entités nommées avec le moteur Cluuz
La vidéo13 de présentation du Knowledge Graph.
Cette innovation de Google qui vise à répondre à des questions que se posent les internautes plutôt qu'à fournir des adresses où se trouvent des réponses suit deux initiatives de moteurs sémantiques : Wolfram Alpha et DuckDuckGo.
Pour se servir de Wolfram Alpha14, il est nécessaire de poser directement des questions en anglais : le moteur se définissant comme un Computational knowledge engine se charge de définir, donner les résultats aux calculs qu'on lui soumet dans des domaines très étendus.
Par exemple, à la question "combien y a t-il de vaches en France ?", le moteur propose 18,6 millions pour l'année 2009 et génère un graphique évaluant la population du cheptel de 1961 à 2009, mais aussi propose les chiffres de l'ensemble des animaux d'élevage destinés à la consommation sur le territoire français.
Le métamoteur DuckDuckGo15 qui interroge aussi Wolfram Alpha peut être qualifié de sémantique dans la mesure où ce service propose de lui-même des définitions à des termes qu'il ne peut désambiguïser et suggère des termes en relation avec la recherche. Sa face collaborative lui permet en outre d'améliorer la pertinence des résultats entre autres en filtrant le spam.
iii Les briques informatiques constituant un moteur de recherche
L'architecture d'un moteur spécialisé en recherche de nouvelles comme Silobreaker se compose de :
indexation et outils associés,
extraction d'entités nommées,
analyses relationnelles,
clustering et catégorisation,
interface de recherche
Restitution des informations crawlées et agrégées par le moteur de nouvelles Silobreakers.
La traduction architecturale d'un moteur de recherche spécialisé en veille repose sur les phases suivantes :
l'interprétation des requêtes,
la gestion des sources,
l'indexation et la connexion des sources,
13 - http://youtu.be/mmQl6VGvX-c14 - http://www.wolframalpha.com15 - http://duckduckgo.com/
De la recherche d'informations à une veille automatisée
29
Architecture du moteur de news Silobreaker
l'interrogation des bases de connaissances,
l'analyse des résultats.
Cette architecture d'un moteur de recherche multisources d'Ami Software met en évidence le rôle central de la base de connaissances pour la cohérence des réponses aux requêtes.
d) Typologie des moteurs
Réaliser une typologie de l'offre actuelle des "moteurs de recherche" présente une double difficulté. D'une part, parce que les "moteurs de recherche" possédant leurs propres index sont rares, d'autre part parce que sous cette appellation s'est déployée toute une offre de services liées à la recherche d'informations sur index mais aussi en temps réel.
L'exemple typique est l'intégration de la technologie de Métamoteurs dans ces services, sans qu'il soit toujours possible de savoir quels index sont en réalité interrogés. Pour explorer quelques-uns des anciens et nouveaux métamoteurs, consultez les signets de la BNF16.
Aussi cette typologie ne restitue que les tendances actuelles fortes en matière de technologies et de services liés à la recherche d'informations se servant de moteurs sur le web, en présentant quelques exemples à tester.
Une liste mondiale17 de moteurs de recherche répertoriés par pays indique une grande variété d'approches dans leur couverture et leurs thématiques.
Un répertoire anglosaxon18 des moteurs de recherche par thématique est aussi consultable par thématique.
Lancé en novembre 2006, Search Engine Land19 est un site d'informations couvrant le marketing et l'industrie des moteurs de recherche et les questions liées à la recherche d'informations.
Notons que les moteurs de recherche possédant leur propre index sont en réalité peu nombreux, la majorité d'entre-eux louant des index à Google, Yahoo et Bing.
i La recherche d'informations par détection visuelle et sonore
Il est possible aujourd'hui de ne pas faire intervenir le texte comme premier critère de recherche d'informations. La recherche visuelle fait appel à des techniques de reconnaissance de formes dans l'image. La recherche d'images devient ainsi la recherche par images.
TinEye permet ainsi de retrouver l'original d'une image, ses versions modifiées et la première fois qu'elle a été publiée sur le web.
Exercice : tester TinEye20 et Google Image Search21 en cliquant sur le petit appareil photo dans le champ de recherche.
16 - http://signets.bnf.fr/html/categories/c_025metamoteurs.html17 - http://www.searchenginecolossus.com/18 - http://www.searchengineguide.com/searchengines.html19 - http://searchengineland.com/20 - http://www.tineye.com/21 - http://images.google.com/
De la recherche d'informations à une veille automatisée
30
Architecture d'un moteur de recherche
De nombreux moteurs de recherche faisant appel à la visualisation d'images ont vu le jour ces dernières années.
Notons Mufin22 et sa recherche d'images par similarité.
D'autres services proposent de rechercher des informations par introduction de leurs caractéristiques sémiotiques : indications chromatiques musicales ou tonalité des images (luminosité, saturation, etc.). Voir Muma23 et Chromatik24 d'Exalead.
ii Recherche sociale et personnalisation des résultats
L'innovation technique rend possible la recherche sociale
Depuis 2004, une nouvelle génération de sites web a vu le jour. Construits par des calculs gérés directement par les navigateurs (Javascript et XML), ces sites ont deux particularités : leur contenu est systématiquement géré et stocké sous forme de bases de données et ils sont basés sur l'apport direct, indirect et dans la plupart des cas consenti de données appartenant aux usagers du web. C'est le web dit "social" ou web2.0.
Cette fourniture d'informations par les « amateurs » va se conjuguer avec la personnalisation de la recherche d'informations.
De nombreux sites collaboratifs se sont développés et le plus grand moteur de recherche, Google, finit par introduire en 2010, les images des internautes dans les prises de vues constituant GoogleStreetView (lire article GeoWeb25).
La description en XML des liens menant aux bases de données va permettre leur indexation (avant 2004, on peut considérer que le contenu des bases de données était peu ou pas indexé et qu'elles faisaient donc partie du web invisible) et le web indexé va gagner en taille.
L'arrivée du web dit "social" autorise des pondérations réalisées par les internautes. Aux résultats affichés sur les navigateurs par les moteurs de recherche, s'ajoutent donc les avis des usagers, par l'intermédiaire d'extensions sur les navigateurs, c'est le socialsearch. Depuis 2011 Google propose ainsi aux internautes de recommander les pages web avec Google+26.
L'arrivée de l'informatique dans les nuages (cloud computing) crée aussi la possibilité de créer des moteurs personnalisés comme le moteur « pour la famille et les amis » de Yippy.27
Constitution de la recherche sociale
La recherche sociale d'informations se spécialise dans les blogs, microblogs, réseaux sociaux, outils de bookmarking, et plus généralement tous les outils qualifiés de web 2.0 même si par ailleurs la moitié d'entre eux existait avant leur qualification 2.0.
Notons Social Mention28, qui s'intitule Recherche et analyse en temps réel de médias sociaux (blogs, microblogs, bookmarks, commentaires, événements, images, nouvelles, videos, audios, questions/réponses, réseaux). Des statistiques affinant la recherche sur les résultats sont générées : avis (positifs, négatifs et neutres), dix premiers producteurs d'infos, dix premiers mots-clés, tags twitter (hashtags) et enfin sources d'informations.
22 - http://mufin.fi.muni.cz/imgsearch23 - http://muma.labs.exalead.com24 - http://chromatik.labs.exalead.com/25 - http://www.geoinweb.com/2010/06/10/google-fusionne-street-view-photos-utilisateurs/?utm_source=twitterfeed&utm_medium=twitter26 - https://www.google.com/intl/fr/+1/button/27 - http://yippy.com/28 - http://socialmention.com
De la recherche d'informations à une veille automatisée
31
Topsy29 est un moteur de recherche spécialisé en réseaux sociaux (Google +), en microblogging (Twitter) et en bookmarking. Il dit sélectionner les sites les plus influents en repérant les profils d'experts sur un sujet (nombre de mentions classées chronologiquement). Une partie analytique compare trois requêtes selon trois critères (nom de domaine, @identifiant, ou mot-clé) sur une période allant d'une journée à un mois. Les termes entrés servent ensuite à sélectionner les sources les ayant cités, classées par ordre d'influence (traduite par le nombre de mentions).
Search Cube30 recherche sur Flickr, Facebook, YouTube, Google, Blekko etTwitter.
La recherche d'informations possède aussi sa face collaborative avec le partage de pages web comme Yoolink31, de signets (ou bookmarking) sur des services dédiés. Par exemple, la revue Internet-Actu32 utilise le mot-clé interneactu33 sur Delicious pour signaler et recueillir les informations qu'elle juge intéressante de disséminer (mais aussi suivant ses rubriques, les mots-clés villes2.0, identitesactives, pluslonguelavie, etc.).
iii Spécialisation par médias et sélection des sources d'information
La spécialisation de la recherche d'informations suit deux directions : 1. la spécialisation par types de contenus (médias texte, image, vidéo, etc.) 2. la spécialisation par genres éditoriaux (publications et conversations)
Les moteurs de recherche se sont rapidement spécialisés par média (images, vidéos).
Notons Blinkx34 pour les vidéos (moteur de recherche incluant les dernières innovations en matière de reconnaissance sonore et d'image) et Picsearch35 qui possède son propre crawler pour les images.
SpaceTime36 établit ses recherches d'images et vidéos en interrogeant Google, Wikipédia, Facebook, YouTube et fait défiler les résultats sous forme d'une galerie.
La spécialisation par genres éditoriaux se compose de moteurs concernant :
- la presse : Silobreakers37, PickaNews38, etc ;
- le blogging : Technorati39, Twingly40, etc.
- le microblogging : TwitterPowerSearch41, TweetGri42d43, etc.
iv Les moteurs de recherche verticaux
Qu'est-ce qu'un moteur de recherche vertical ?
Les moteurs de recherche verticaux représentent une tentative réussie de maintien de cohérence dans les résultats car leur périmètre d'indexation se restreint à un secteur, une technique, une spécialité, un service, etc.
Les moteurs de recherche verticaux travaillent sur leurs propres bases de données,
29 - http://topsy.com/30 - http://search-cube.com31 - http://www.yoolink.fr/32 - http://www.internetactu.net/33 - http://delicious.com/tag/internetactu34 - http://www.blinkx.com/35 - http://www.picsearch.com36 - http://www.spacetime.com/37 - http://www.silobreaker.com/38 - http://www.pickanews.com/39 - http://www.technorati.com40 - http://www.twingly.com/41 - http://twitterpowersearch.com/42 - http://tweetgrid.com/43 - http://tweetgrid.com/
De la recherche d'informations à une veille automatisée
32
annuaires et index et ne constituent pas seulement un sous-ensemble filtré thématiquement et uniquement par Google Custom Search Engine44.
Nous reprenons la définition45 donnée par Christophe Asselin, de Digimind, à I-Expo en 2008.
« Il s'agit d'outils de recherche (seuls ou intégrés à un portail, un répertoire) focalisés sur un secteur, une spécialité professionnelle (ex : les télécoms, le juridique, la biotechnologie, la finance) ou dont le contenu transverse est dédié au B2B. »
Sélectionnés manuellement ou automatiquement, les contenus de moteurs de recherche verticaux sont indépendants des médias : pas de spécialisation par blogs, forums, images, etc. Ils ne sont pas à confondre avec les agrégateurs.
Exemple d'une spécialité, la médecine française possède son moteur de recherche accessible par le portail Cismef46 (Catalogue et index des sites médicaux de langue française) au CHU de Rouen. Son but affiché est de « faciliter l'accès à l'information de santé pour les professionnels mais aussi les patients et le grand public, en recensant les sites et documents médicaux présents sur l'Internet répondant à certains critères de qualité. »
La page d'accueil propose une double entrée :
- le moteur qui balaie les recommandations professionnelles, les documents concernant l'enseignement et les associations et documents concernant les patients,
- l'accès au portail terminologique de santé (classification des maladies, des actes médicaux, thésaurus Mesh, etc.).
Autre exemple de spécialisation, cette fois-ci en technologies de l'information, à destination des entrepreneurs, le moteur IThound47 (The business technology article library) possédé par Incisive Media48, éditeur britannique de revues professionnelles (Finance, Immobilier, Information et Technologies) et en ligne (VNUNet49, IWR50) propose l'accès à une bibliothèque d'articles constituée par des livres blancs, rapports d'analyse, études de cas, spécifications de produits et séminaires web.
La recherche s'effectue par mots-clés ou en sélectionnant des catégories prédéterminées et selon le type de documents recherchés.
Le marché des moteurs verticaux
Le marché des moteurs verticaux prend deux directions :
- celui dédié à la recherche verticale "interne" comme Verticrawl51 qui propose des solutions informatiques de moteurs d'indexation pour recherche interne, logiciels de recherche SaaS, référencement, analyse de trafic et text mining.
- celui dédié à la recherche verticale "externe" dont l'objectif est de fédérer les ressources, les agréger pour les restituer dans des index spécialisés comme Globalspec5253 qui est aujourd'hui le moteur de recherche industriel de référence proposant des contenus adaptés par secteur d'activité.
44 - https://www.google.com/cse/45 - http://fr.slideshare.net/jdeyaref/les-moteurs-de-recherche-verticaux46 - http://www.cismef.org/47 - http://www.ithound.com48 - http://www.incisivemedia.com/49 - http://www.vnunet.fr/50 - http://www.iwr.co.uk/51 - http://www.verticrawl.com/fr/homepage.php52 - http://www.globalspec-europe.com53 - http://www.globalspec.com/
De la recherche d'informations à une veille automatisée
33
v La recherche d'informations en temps réel
La transformation du web de documents en web de conversations avec l'arrivée des réseaux sociaux de type Facebook et du microblogging de type Tumblr et Twitter et l'ouverture de leurs bases de données aux API ont rendu possible leur interrogation en temps réel.
Bien entendu, cette recherche d'informations équivaut à une "prise de température" susceptible de varier mais il est possible d'évaluer de manière régulière l'évolution d'une croyance, d'un avis, d'une conviction, d'un buzz marketing sur internet et d'observer leur reprise et leur appropriation par les relais d'opinion que sont devenus les internautes.
Un exemple de ce type de moteurs est Spezify, moteur de recherche branché sur les réseaux sociaux du web2.0. Il suit les conversations de Twitter, les recommandations d'Amazon, sélectionne les photos de Flickr et les morceaux de musique de SoundCloud et les propose sous forme d'îcones cliquables agrégées sur une page web navigable.
Observez par exemple les résultats de la recherche "platinum mining " sur Spezify54.
Twirus55 recherche sur Twitter en 10 langues les tendances par région et par langue et calcule les hashtags et les tweets les plus populaires du jour.
La recherche en temps réel a tendance à se confondre avec la recherche sociale d'informations puisqu'elle est axée sur les conversations en train de se produire.
SamePoint56 réalise des recherches sur ce qui se dit sur les marques et établit une liste d'influençeurs.
e) Quelques lectures supplémentaires autour de la recherche d'informations et des moteurs
Recherche éveillée sur Internet [Foenix]
Dans le labyrinthe, évaluer l'information sur internet [Serres]
Net Recherche 2010 [Mesguich]
Moteurs de recherche, usages et enjeux [Questions_de_Com]
C. Les modalités de surveillance
Une surveillance automatisée de l'information repose sur une visite régulière d'un ensemble de médias et du repérage des changements s'opérant sur ces médias. Réservée hier aux pages de sites, la surveillance s'est affinée en même temps que se diversifiaient les publications sur le web : autopublications et commentaires sur les blogs, conversations avec le microblogging, regroupements de personnes sur les réseaux sociaux, re-publications avec l'agrégation de contenus. Autant de techniques qui font que la surveillance ne concerne plus seulement des documents mais s'est progressivement élargie aux interactions entre les entités sociales avec le repérage des opinions, l'évolution de la réputation d'une marque, d'une entreprise ou d'une personnalité politique.
Deux types de veille sont alors repérables :
- celle visant l'information identifiée où l'on va de manière systématique surveiller l'évolution
54 - http://www.spezify.com/#/mining%20platinum55 - http://fr.twirus.com/56 - http://www.samepoint.com/brands
De la recherche d'informations à une veille automatisée
34
en repérant les modifications,
- celle cherchant à repérer l'émergence en vue de détecter des ruptures ou des changements et qui concerne autant l'information identifiée que celle qui n'est pas encore connue.
1. Les agents d'alerte
Les agents d'alerte nommés aussi agents de recherche concernent l'information identifiée, c'est-à-dire l'information dont on connaît l'émetteur et l'adresse. Ils visent à émettre des alertes lorsque les conditions que l'on aura précisées seront réunies. Leurs capacités sont liées à leurs caractéristiques de collecte : capacité à visiter le web "invisible", à utiliser les moteurs de recherche, à circuler dans les bases de données et à lire les contenus.
Il signalent les modifications à l'intérieur de pages ou de sites tels que blogs, wikis, portails, ou pages de flux RSS par l'intermédiaire de notifications journalières par mail, ou en ligne. Ces modifications concernent le nombre de phrases, les liens, les images, etc. et sont filtrables par mots-clés.
Il s'agit d'outils datant de plus d'une quinzaine d'années (ils apparaissent dès 1996 en même temps que les "aspirateurs de sites") et s'utilisent en ligne de manière autonome (comme Infominder57, WatchThatPage58, Femtoo59). Certains comme Website Watcher sont des logiciels clients qui s'enrichissent régulièrement de fonctionnalités et deviennent des outils apprenants.
Website Watcher60 dispose ainsi de filtres capables de différencier les modifications et de les hiérarchiser. A partir d'une URL de départ, l'outil est capable de suivre les liens et crawler des URLs selon leur forme. Il simule les connexions aux espaces protégés et est en mesure de réaliser des requêtes automatisées sur des moteurs de recherche.
La tendance est à combiner système d'alerte et plate-forme de gestion et d'analyse de la surveillance en ligne. Citons comme exemple Alerti 61qui propose entre autres : recherche de mots-clés, expression exacte, élimination de sites avec sources, sur des sites de news, de microblogging, forums, serveurs images et vidéos, réseaux sociaux et blogs. Des fonctionnalités de partage transforment la recherche en veille collaborative et des outils d'analyse permettent de traiter l'information.
Les agents d'alerte peuvent avoir deux fonctions :
alertes simples sur mots-clés
surveillance de sources spécifiques à intervalles réguliers avec possibilité de traitement des données collectées
2. Les techniques d'agrégation
Qu'est-ce que l'agrégation ?
L'agrégation est une technique qui permet de juxtaposer dans un même fichier ou sur une même page des informations issues de différentes sources. Textes, images, vidéos, infographies peuvent être ainsi assemblées pour être présentées ensemble.
57 - http://www.infominder.com/58 - http://www.watchthatpage.com59 - http://femtoo.com/60 - http://www.website-watcher.fr/61 - http://fr.alerti.com/
De la recherche d'informations à une veille automatisée
35
L'agrégation RSS
L'agrégation RSS repose sur un format et est un moyen de diffuser/recevoir de l'information qui s'est généralisé avec la multiplication des outils de publication (CMS, blogs, web2, etc.).
Lorsqu'un site publie des informations encodées en RSS, il met à disposition des fils ou flux à des tiers qui peuvent les télécharger et mettre à jour automatiquement des espaces réservés.
Que contient un fil RSS ?
Titre de l'information
Début du texte ou résumé
Lien vers une page avec suite de l'information ou son détail
RSS se compose de la première lettre du sigle RDF (Resource Description Framework) suivi de Site Summary. Les appellations Rich Site Summary ou Real Simple Syndication sont des interprétations vulgarisées et adaptées du format RSS. Une traduction possible de RSS est « Sommaire de site encodé en RDF ».
Syndication : mise à disposition de tout ou partie du contenu d'un site Web
Simple : remplace d'autres formats de syndication plus complexes et lourds (NewsML)
Really : un webmaster connaissant le HTML comprend rapidement le RSS.
RDF (Resource Description Framework) vise à utiliser des métadonnées sur le web . Il s'agit d'un modèle et d'une description de syntaxe, spécifiés par le W3C, réalisés en vue d'enrichir les contenus du web au moment de leur codage.
Un fichier au format .rss contient la description du contenu partiel ou entier d'un site par des balises XML au format RDF.
mettre un exemple de syntaxe
Les agrégateurs de contenus
L'agrégation automatique de flux rss par des logiciels nommés agrégateurs favorise de multiples usages (individuels et collectifs) et a entraîné la création de nouveaux acteurs de l'édition : les éditeurs - agrégateurs de collections. Dans l'édition, une société comme immateriel.fr propose de gérer pour les libraires et collectivités des collections d'e-books. (Voir crevilles.org).
Un logiciel agrégateur de nouvelles (ou fils ou flux) est un lecteur de fichier RSS. Il se présente comme un utilitaire de messagerie avec des fonctionnalités qui lui sont réservées : moteur de recherche, filtres, indicateurs de veille, etc.
Il existe des logiciels agrégateurs en ligne et hors ligne.
Un agrégateur extrait les contenus balisés et actualise automatiquement un fichier réservé. Une actualisation paramétrable permet donc des mises à jour en fonction du genre (brève d'agence de presse, article de quotidien, billet de blog, etc.) et des thématiques (opinion, environnement, etc.).
Débouchés : méta-édition, agrégateurs personnels de nouvelles, communautés et collaboration en ligne.
Les métadonnées transportées avec RSS
Les flux RSS contiennent des informations paramétrées sous forme de nouvelles ou articles (titre, corps de l'article, liens, url) et des données concernant ces informations (les métadonnées) comme le nom de l'auteur, la date de publication, les droits d'usage (Licences creative commons, DRM), la géolocalisation (longitude et latitude attachés au contenu), etc.
De la recherche d'informations à une veille automatisée
36
L'encodage des données en XML autorise la lecture individuelle mais aussi le traitement par d'autres programmes d'informations qui ne seront pas forcément affichées :
OPML
OPML (Outline processor markup languagel) est principalement utilisé pour importer/exporter des flux RSS entre agrégateurs ou d'un outil à un autre. Ce format d'enregistrement se matérialise par une arborescence : chaque nœud contient un ensemble d'attributs nommés avec des chaines de caractères pour valeur.
OMPL Manager
Bitty.com
Share Your OPML
OPMLgenerator
Il est possible de visualiser des pages web en OPML.
Exercice :
Génération de flux RSS
Il est techniquement possible de produire soi-même des flux RSS à partir d'une page web qui n'en contient pas. Des services en ligne génèrent les métadonnées et les flux : Dapper, Feedily, FeedYes, etc.
Devenir des usages du RSS ?
L'usage d'agrégateurs de contenus est resté confiné à une population manipulant de grandes quantités de documents et cherchant à optimiser les recherches en hiérarchisant l'information pour des objectifs liés aux professions concernées : documentalistes, bibliothécaires, journalistes, étudiants.
Cet usage se rétrécit aujourd'hui face aux systèmes de recommandations mis en place sur les réseaux sociaux comme LinkedIn, Facebook ou par les services web de conversations comme Twitter.
Typologie des lecteurs de flux RSS
Agrégateurs hors ligne
Agrégateurs clients : Feedreader, RSS Bandit, Feeddemon, etx ;
Agrégateurs intégrés à d'autres logiciels : Thunderbird, Firefox, Outlook, etc.
Agrégateurs en ligne
Intégrés : Google Reader, myYahoo, etc.
Services autonomes : NetVibes, Blogline Reader, etc.
Tri dans l'agrégation
Bscopes62, Yahoo Pipes
3. Techniques de filtrage et d'agrégation
L'agrégation de conversations et de flux RSS représente un moyen relativement simple d'automatiser la surveillance de termes dans une liste de sites ou services web choisis,
Il existe des services qui possèdent leurs propres moteurs de recherche et proposent des systèmes d'alerte à partir des mots-clés introduits par l'usager.
62 - http://www.bscopes.com/
De la recherche d'informations à une veille automatisée
37
Les techniques de clusterisation associées à l'extraction d'entités nommées donnent des résultats très performants chez les agrégateurs de nouvelles de presse.
Ex : NewsExplorer63
clustering de tous les articles du jour, séparément pour chaque langue, en groupes d'articles liés ;
pour chaque cluster, identifie les identité nommées : personnes, lieux, organisations ;
applique des techniques de matching pour trouver tous les noms dans le même cluster, dans l'objectif d'identifier les variations d'appellation désignant la même personne ;
lie les clusters d'une langue avec les autres clusters d'autres langues qui sont en rapport avec le même sujet ;
identifie l'article le plus typique de chaque cluster et l'utilise comme titre du cluster ;
stocke l'information extraite chaque jour, concernant les personnes, etc. dans une base de données de connaissances.
Autre exemple du même consortium de la Communauté européenne Europe Media Monitor, le moteur d'agrégation NewsBrief64 montre les thèmes les plus discutés de dernière minute ou dans les dernières heures à partir de multiples sources de presse et en 60 langues.
Toutes les 10 minutes, à partir de 3750 portails générant plus de 10000 flux RSS le site regroupe les informations, génère des timelines et classe en premier les articles suscitant le plus d'intérêt.
A partir de filtrages, il est possible de générer des flux RSS, produire des rapports au format pdf, envoyer des mails.
4. Quelques lectures supplémentaires autour des techniques de filtrage et d'agrégation
Utiliser les fils Atom et RSS [Courrier]
La curation : entre usages individuels et pratiques professionnelles [DocSI 49]
63 - http://emm.newsexplorer.eu64 - http://emm.newsbrief.eu
De la recherche d'informations à une veille automatisée
38
II - Les outils de veille II
Méthodologie de mise en place d'un système de veille 41
Panorama des outils de veille 51
Les réseaux sociaux et folksonomies 55
A. Méthodologie de mise en place d'un système de veille
1. Qu'est-ce que la veille ?
Définition simplifiée
Un veilleur recherche des sources d'informations et des ressources pour documenter une question, un marché, un public, dans l'objectif de donner des conseils à un bénéficiaire.
Définition : Définition savante
« Activité continue et en grande partie itérative visant à une surveillance active de l'environnement technologique, commercial ... pour en anticiper les évolutions » [Afnor, 1998 [Veille Afnor]]
Activité de surveillance permanente de l'environnement interne ou externe d'une organisation qui permet le repérage de signes ou d'indices révélateurs de changements importants
Cette activité consiste à repérer les plus récents acquis technologiques (commerciaux, scientifiques, etc.), à évaluer les facteurs de risques et à collecter et traiter toutes les informations pertinentes susceptibles de faire réussir un projet, contribuer à la prospérité d'une entreprise, une organisation, et ce, à court et à long terme.
39
2. Typologie de la veille en fonction des objectifs à atteindre
Les raisons pour lesquelles une entité commerciale, un institut d'études politiques, un département de recherche et développement ou un institut de recherche scientifique souhaitent mettre en place une veille sont variées. Néanmoins dans un environnement de plus en plus incertain, l'analyse prospective est une nécessité et ses composantes sont repérables à travers les différents types de veille :
Veille marketing : connaître le marché, les produits liés à une activité et identifier de nouveaux marchés afin de proposer de nouveaux produits
Veille financière : détection des mouvements sur les marchés financiers, monétaires et des matières premières
Veille concurrentielle : observation du positionnement des concurrents pour ajuster le « sien »
Veille technologique : repérage des innovations et évolutions technologiques
Veille juridique et réglementaire : surveillance des modifications législatives et réglementaires ainsi que les décisions de justice et administratives
Veille sur la propriété intellectuelle, les normes, les brevets
Veille sociale : surveille l'évolution des réglementations en matière sociale et leur retentissement sur le public
Veille d'opinions : évalue l'appréciation des marques, relève les avis des consommateurs, des citoyens
Veille politique : surveille l'évolution des opinions politiques en fonction des réseaux situés dans les institutions et hors institution
Veille sur les médias : regarde la façon dont les différents médias traitent d'un sujet particulier
Veille sur les usages : mieux connaitre les besoins des usagers pour inventer des produits et des services
Notons que la "veille stratégique" occupe une place à part car elle engage le pilotage de l'organisation ou du département en entier et suppose utiliser plusieurs sortes de veille pour parvenir à ses fins.
Sur ce nuage de mots-clés représentant les différentes pratiques de veille observées par l'un de ses acteurs, Digimind, relevons la place centrale de la veille stratégique.
3. Cycle de veille
Un cycle itératif en cinq étapes
Réaliser un cycle de veille suppose passer par des séquences ordonnées en étapes. 1. Ciblage
Expression et clarification des sujets de surveillance (thèmes plus généraux, contraintes, enjeux, décisions liées, objectifs)Mise au clair des besoins (périmètre géographique, linguistique, indicateurs à
Les outils de veille
40
Les différents types de veille repérés par Digimind
surveiller, type d'informations souhaitées, terminologie, etc.) 2. Sourcing
Recherche, identification, sélection et qualification des sources (voir matrice).L'étape du sourcing va distinguer entre ce qui peut être automatisé et ce qui ne l'est pas (recherche sur bases documentaires scientifiques et techniques à accès contrôlé, accès aux archives sur abonnements, etc.)
3. Collecte et surveillanceCollecte des sources identifiées + recherches par équations + surveillance
4. Traitement et analyseTri, dédoublonnage, regroupement, analyse des informations collectées
5. Exploitation et diffusionOrganisation des informations analysées et préparation de la diffusion des résultats
L'étape du ciblage
Comme pour tout projet, la veille résulte d'une demande interne ou externe à l'organisation et il s'agit de bien identifier les acteurs de la demande pour pouvoir évaluer correctement les besoins que la veille est censée remplir.
Les acteurs de la veille : la recherche et collecte d'informations répondant à un objectif de veille prennent place dans un processus de validation de l'information réalisée par des experts avant de parvenir aux décideurs.
La matrice de ciblage vise à répertorier de façon précise les sources à observer en fonction des types de veille à exercer.
L'étape de la collecte et de la surveillance
Cette étape à deux dimensions est le cœur du cycle de veille.
Les outils de veille
41
Acteurs de la veille
Matrice de ciblage de Help Management
Paramétrage de la profondeur des sites web à surveiller pendant la collecte d'informations (outil KB Crawl).
Paramétrage de la fréquence de la surveillance (outil KB Crawl).
L'étape du traitement et de l'analyse
La double étape du traitement et de l'analyse se caractérise par des degrés de complexité qui s'échelonnent du micro au macro pour rendre possible une vue d'ensemble globale du problème de départ..
L'analyse des pages modifiées est facilitée par la prévisualisation graphique des éléments clés de la surveillance (outil KB Crawl).
L'étape de l'exploitation et de la diffusion
L'étape finale de la communication des résultats repose sur une organisation optimisée des contenus collectés et analysés.
Automatisation de la création et envoi d'une newsletter (outil Lexis Nexis).
Les outils de veille
42
Paramétrage de la surveillance des sites
Paramétrage de la fréquence des surveillances
Détection des pages modifiées
Préparation d'une newsletter automatisée
4. Méthodologie de mise en place d'une surveillance
Stratégie, surveillance et exploitation
Ce schéma distingue trois phases dans la mise en place d'une veille.
Mise au point de la stratégie de veille qui va traduire en termes d'axes et vigilances ce qui doit être surveillé de manière automatique. Cette surveillance à automatiser est destinée à compléter l'état de l'art du sujet : toute la documentation accessible qui sera réunie au préalable par la
recherche documentaire.
Traduction de cette stratégie sous la forme d'un cahier des charges qui liera le tableau des sources avec les requêtes adéquates à paramétrer et qui constituera la surveillance.
L'exploitation doit être validée et fournir des résultats sous forme de rapports, bulletins de veille qui seront évalués selon des grilles de type Swot, Pestel, etc.
Les différents niveaux de profondeur d'une veille
Différencier et hiérarchiser les sources suivant les objectifs spécifiques d'une veille permet de structurer les orientations de recherche documentaire et d'informations.
Ce schéma issu d'une présentation65 de Loïc Hay met en évidence les différences de profondeur de la veille qui permettent d'écouter les signaux forts émanant des institutions et atteindre les signaux faibles du web émergent.
5. Les prestations de veille
Caractéristiques d'une prestation de veille
Connaître précisément les attendus d'une prestation de veille réalisée par un acteur externe à l'entreprise ou l'organisation peut être utile pour mesurer le périmètre exact du travail à réaliser.
D'après la norme [Afnor, 1998 [Veille Afnor]], §4.1, les caractéristiques différenciant les offres en prestation de veille sont les suivantes :
la finalité (opérationnelle ou stratégique),
65 - http://fr.slideshare.net/loichay/la-veille-sur-internet-en-5-tapes-cls
Les outils de veille
43
Méthodologie de mise en place d'une surveillance
Régler le niveau de profondeur de la veille
le nombre de destinataires et leur degré d'implication dans le processus de veille,
l'étendue du champ ou des thèmes à surveiller (nombre de sujets, de pays, d'entreprises, etc.),
la nature et la diversité des sources ou support mobilisés,
les opérations de traduction en langue étrangère,
le niveau de valeur ajoutée concernant :- l'accès à certaines sources,- la profondeur de la recherche,- la sélection,- la qualification de l'information,- l'analyse,- l'organisation de l'information,- les commentaires,
le rythme de mise à disposition des données,
le critère de seuil ou le degré de réactivité,
la présentation des résultats de la surveillance,
les modalités de la fourniture des résultats,
les modalités de réajustement ou d'interactivité.
Schéma A de Processus de veille dans le cadre d'une prestation.
A1 – Définition ou redéfinition des axes de surveillance et des finalités
Il s'agit d'une part, de décrire ou de préciser les sujets qui intéressent et l'organisme et pour lesquels il convient de collecter des données ou informations pouvant concerner les aspects technologiques, juridiques, normatifs et réglementaires, économiques, concurrentiels, sociétaux, etc., et d'autre part, d'identifier les finalités visées par le client.
A2 – Détermination des types d'informations utiles
Il s'agit de préciser si la collecte doit porter principalement sur des éléments statistiques, des avis d'experts, des supports documentaires, ...
A3 – Identification et sélection des sources d'information
Parmi les diverses sources existantes (telles que bases de données, centre de documentation, experts ou spécialistes, publication périodiques, ouvrages, manifestations professionnelles, acteurs du domaine...), il convient de choisir la ou les sources pertinentes ou accessibles en fonction de leurs caractéristiques propres, des axes de surveillance et des types d'informations requises, des contraintes imposées par l'organisme en matière de délais, de confidentialité et de coûts.
A4 – Collecte et sélection des informations
Les outils de veille
44
Processus de la veille (d'après Afnor)
La collecte des informations est menée de façon régulière ou selon une périodicité variable. Le prestataire prendra soin de donner le bon niveau de pertinence aux informations correspondant directement ou indirectement aux axes de surveillance.
A5 – Traitement/analyse des données collectées
Il s'agit d'analyser les informations collectées et de les organiser de façon à les rendre exploitables (à travers, par exemple, des résumés, un système de classification, une synthèse, une analyse bibliométriques,...).
A6 – Synthèse et mise en perspective
Il s'git de dégager le « sens » ou les aspects stratégiques des informations collectées et de proposer une formulation adaptée au processus de décision de l'organisme.
A7 – Communication des résultats de la veille
Cette communication périodique peut s'effectuer sous des formes diverses : note, dossier, support électronique, présentation orale, etc.
A8- Validation et réajustement
La communication des résultats peut être l'occasion d'un ajustement par approfondissement et/ou réorientation des objectifs et moyens de la veille.
Au cours de ce processus, les prestataires de veille interne ou externe à l'organisme peuvent assurer la totalité des phases A1 à A8 ou seulement certaines d'entre elles, le client réalisant alors lui-même les phases manquantes.
Réalisation d'un système de veille
La réalisation d'une prestation de veille inclut d'après le §4.2 de la norme [Afnor, 1998] :
1. le cahier des charges détaillant l'offre (expression des besoins et caractéristiques du service à fournir) et la garantie de moyens, notamment en termes de compétences du ou des intervenants,
2. les résultats de la veille sous les formes convenues en termes de présentation (rapports, etc.) et de périodicité.
Les outils de veille
45
Schéma B de Mise en place d'un système de veille dans le cadre d'une prestation.
B1 – Sensibilisation
Le bon fonctionnement du système de veille repose sur l'adhésion des collaborateurs directement concernés par le processus. Aussi, il est nécessaire que le prestataire, à travers une réunion par exemple, les informe sur les finalités de la veille et les exigences qu'elle impose.
B2 – Prise de connaissance de la situation
Il s'agit pour le prestataire d'acquérir une connaissance approfondie de l'entité – bénéficiaire de la prestation afin de parfaitement positionner sa démarche. Les éléments incontournables à connaître relèvent du métier, de la qualification et de l'organisation humaine, de la culture, des produits, des moyens de conception, de production et de vente, des marchés, de la concurrence et de la situation financière de l'entité.
B3 – Définition des enjeux
Le futur système de veille de l'organisme alimentera la réflexion, stratégique ou opérationnelle de l'entité. Aussi, le prestataire se soit de connaître et de comprendre les enjeux majeurs de l'entité à court, moyen et long terme, eu égard à l'évolution pressentie de son environnement : objectifs poursuivis et stratégie retenue, menaces et opportunités détectées, etc.
B4 – Traduction en axes de veille
L'objet de cette phase pour le prestataire est de traduire les enjeux, définis précédemment, en axes de surveillance (types d'information à collecter, sources d'information à solliciter).
B5 – Diagnostic de l'organisation et des pratiques
Le prestataire établit un bilan de l'organisation et des pratiques humaines actuelles au sein de l'entité, ceci en terme de collecte, de circulation, de traitement et d'utilisation de l'information dans le processus de décision.
B6 – Recensement des sources
De même, le prestataire recense les sources sollicitées régulièrement ou ponctuellement par l'organisme et caractérise les types d'information collectés et/ou
Les outils de veille
46
Mise en place d'un système de veille (d'après Afnor )
exploités.
B7 – Evaluation des écarts
Les phases B4 à B6 étant réalisées, le prestataire dispose des éléments lui permettant d'évaluer et d'analyser les écarts entre la situation actuelle de l'organisme en termes de processus d'information et la situation souhaitable, eu égard aux axes de veille définis précédemment.
B8 – Recommandations
Les recommandations du prestataire recouvrent trois thèmes : - Le recensement des catégories d'information à collecter par l'entité pour alimenter ses axes de surveillance ; - La hiérarchisation des sources d'information pertinentes à mobiliser (sources maîtrisées ou non au moment du diagnostic) et l'évaluation des coûts d'accès. - La proposition d'outils, de méthodes et d'une organisation adaptée à la culture d'entreprise et lui permettant d'optimiser la collecte (désignation de capteurs, définition des missions et des périodicités de collecte,...) la circulation de l'information utile (manuelle, informatisée,...), le traitement (interprétation, évaluation, intégration au processus de décision,...) et éventuellement son stockage.
B9 – Mise en place
Sous réserve de l'acceptation de ses recommandations par l'entité, le prestataire apporte son soutien avec méthode à la mise en œuvre concrète du système de veille proposé.
B10 – Accompagnement
Cette phase, optionnelle, permet au prestataire de conseiller et d'aider l'entité dans l'application et l'évolution de son système de veille. Cet accompagnement s'effectue sur une période plus ou moins longue en fonction des besoins du client.
Complément : Les compétences requises
Un prestataire de services de veille doit réunir et maîtriser des savoir-faire et des moyens techniques associés lui permettant de mener avec succès vis-à-vis du client, au minimum, les tâches suivantes :
- Comprendre son métier, son organisation, sa culture et sa stratégie ;
- Décrypter son réel besoin en termes de veille et les finalités d'une telle opération pour l'entreprise ;
- S'immerger aisément dans la thématique correspondant au thème de la veille ;
- Accéder à une large diversité de sources (formelles et informelles) et savoir sélectionner les sources adéquates par rapport au thème de la veille ;
- Maîtriser les techniques d'investigation auprès des sources formelles (langage d'interrogation des sources électroniques, accès aux réseaux documentaires en France et à l'étranger) et/ou des sources informelles (repérage des organisations et des interlocuteurs idoines, conception d'argumentaires, entretien téléphonique ou en face-à-face) ;
- Interpréter l'information collectée (donner du sens) en s'appuyant sur les techniques d'analyse les mieux adaptées au thème de la veille, à sa finalité et au coût de la prestation (sans exhaustif, citons les techniques suivantes : analyse d'avis d'experts, analyse financière, analyse marketing, analyse fonctionnelle, analyse des jeux d'acteurs, prospective, etc.) ;
- Restituer l'information traitée de manière intelligible et sous un angle opérationnel pour le client et adapté à la culture de son organisme ;
- Alerter le client, en cas de besoin en dehors des périodicités de restitution convenues dans le contrat, de toute information captée et jugée potentiellement critique.
Les outils de veille
47
Extraits du §4.3 de la norme [Afnor, 1998 [Veille Afnor]].
B. Panorama des outils de veille
1. Classement des outils
Ce classement réalisé par l'ADBS a pour objectif de mettre en rapport des outils avec les différentes étapes de la veille énoncées plus haut.
Ciblage : outils de mind mapping
En amont : organiser son plan de veille.
En aval : présenter les résultats d'une analyse.
Ex : FreeMind, XMind, Mind Manager, etc.
Sourcing : moteurs de recherche
Effectuer des recherches ponctuelles sur le web.
Identifier des sources à surveiller.
Ex : Google, Bing, Exalead, etc.
Sourcing : plate-formes de bookmarking
Repérer des sources ou document sélectionnés par les internautes.
Réaliser une veille collaborative.
Ex : Diigo, Delicious, Pearltrees, Scoopit.
Sourcing + Collecte : agrégateurs de flux RSS
S'abonner à des flux RSS, les organiser.
Mener une veille coopérative.
Diffuser une veille.
Ex : Google Reader, Netvibes, etc.
Sourcing + surveillance : services d'alertes
Surveiller l'utilisation de mots-clés sur le web ou sur seulement sur certains sites.
Ex : Alerti, Google Alerts
Sourcing + surveillance + collecte : outils de surveillance automatisée
Surveiller les modifications sur tout ou partie d'un site.
Ex : Website Watcher, KBCrawl, etc.
Traitement : outils d'analyse automatisée
Analyser automatiquement des volumes importants de données non structurées (résumés automatiques, catégorisation, cartographie text mining...)
Ex : RapidMiner, etc.
Les outils de veille
48
Sourcing + collecte + surveillance + traitement + analyse + diffusion : plate-formes de veille
Une plate-forme de veille a pour objectif d'effectuer tout le cycle de la veille.
Ex : Digimind, AMI Software, KBCrawl Platform, Qwam, etc.
Ex de nouvelle génération (cloud) : Sindup, Asknread, etc.
Diffusion : réseaux sociaux d'entreprises (RSE), outils de gestion de contenu (CMS)
Publier des contenus, créer des produits livrables, diffuser l'information.
Ex : Jamespot, Joomla, Wordpress, etc.
2. Plate-formes de veille
Plates-formes, applications dédiées, services
Nous reprenons ici la distinction opérée par Aref Jdey (Help Management) entre plate-formes de veille généralistes et applications dédiées.
1. Les plate-formes de veille sont constituées par un ensemble de briques ou modules logiciels couvrant la totalité de la chaîne (du sourcing à la diffusion).Elle peuvent être utilisées pour différents types de veille.L'offre est assez souple en terme d'intégration et présente des options larges d'interopérabilité (capacité à traiter des requêtes différenciées en termes d'index).Ex : Ami66, 67 Digimind68, 69 70Squido71, Synthesio72, etc.
2. Les applications dédiées conservent les mêmes caractéristiques que les logiciels de veille mais se spécialisent en termes de métiers ou de fonctions spécifiques en matière de veille (ex : brevets, marchés, prix, veille opinion).Ex : Vecteur Plus73 (marchés privés et publics), Radian674 (veille commerciale et e-reputation), Rapid75 (brevets, information scientifique)
Ces solutions logicielles sont "propriétaires" et supposent donc des licences d'utilisation payantes selon une durée déterminée qui doit être renouvelée en fonction des mises-à-jour. Elles sont constituées par une partie portail et une partie client et/ou utilisent le cloud computing en mutualisant les ressources.
De nouveaux services uniquement en cloud sont aujourd'hui accessibles sous forme d'abonnement sans téléchargement de partie client. Ex : Sindup76 (test possible sur période d'utilisation gratuite), Askenread77,
Couverture fonctionnelle de l'offre
Sourcing
Accès aux bases de données déjà mémorisées par le prestataire
66 - http://www.amisw.com/fr/67 - http://www.squido.fr/68 - http://www.digimind.com/69 - http://synthesio.com/corporate/fr70 - http://www.amisw.com/fr/71 - http://www.squido.fr/72 - http://synthesio.com/corporate/fr73 - http://www.vecteurplus.com/74 - http://www.radian6.com/75 - http://www.rapidmonitoring.com/76 - http://www.sindup.fr/77 - http://www.asknread.com/fr
Les outils de veille
49
Connecteurs aux bases de données tierces
Gestion du bookmarking (import, export)
Formats et protocoles gérés
Collecte
Recherche dans la base de données d'actualités
Adaptation au vocabulaire métier
Recherche dans le web invisible
Recherche dans les informations capitalisées (plan de classement)
Gestion des formulaires d'authentification
Exploitation des résultats de recherche
Surveillance
Sources d'actualités
Pages Web
Crawling de sites
Web invisible
Forums
Newsletters
Réseaux sociaux
Surveillance "ouverte"
Intégration de « packs » de sources pré-qualifiées
Extraction automatique des alertes
Structuration automatique des contenus non structurés
Mécanismes et paramétrage de surveillance
Analyse et exploitation
Analyse sémantique de la collecte (Text mining, Catégorisation et Clustering)
Filtrages (par période, par entité, par source et canal d'information)
Mise en forme graphique et cartographique des informations
Résumé automatique
Traductions
Collaboration et capitalisation
Recueil d'informations du terrain
Capitalisation et partage des informations
Capitalisation par fiches et profils dynamiques
Envoi automatique d'articles
Diffusion
Edition et mise en page intégrée de newsletters, rapports thématiques, bulletins
Gestion du plan de classement (structure arborescente de rubriques auxquelles sont rattachés les documents publiés ou en attente de publication)
Gestion des livrables avec dates d'échéance paramétrables
Alimentation automatique de systèmes externes
Tenue d'un portail
Déploiement des projets
Portail de veille personnalisé
Reporting et pilotage
Gestion de projets
Gestion des droits
Les outils de veille
50
Administration et sécurité
Migration de plate-formes
Fonctions d'administration de la plate-forme
Archivages et sauvegardes automatisés
3. Modèle architectural de collecte
La traduction architecturale d'un automate de collecte repose sur les éléments suivants :
la programmation du plan de veille et la fréquence des requêtes
l'attaque des sources identifiées et visibles (bases de données, l'attaque des sources du web non visible),
la sélection des informations candidates au travers de deux index :- index de datation des informations- index de référence des informations récentes
le tri avec dédoublonnage des informations nouvelles
le post-traitement des résultats
la livraison sous forme de flux RSS ou d'alertes via messagerie électronique.
Sur cette architecture d'un robot de collecte d'Ami Software, sont visibles les interfaces de définition des thématiques et d'administration des sources, les différences entre connecteurs qui traduisent les requêtes en fonction de chaque source, la sélection et le tri des informations
candidates jusqu'à leur livraison.
4. Quelques lectures supplémentaires autour de la veille professionnelle
L'information non structurée dans l'entreprise [gARNIER]
Organiser sa veille sur internet [Delengaigne]
Veille et innovation : s'informer pour conquérir de nouveaux territoires [DocSI 48]
La boite à outils de l'intelligence économique [Moinet]
C. Les réseaux sociaux et folksonomies
Scruter la matière formelle et informelle des relations entre groupes de personnes et de leurs intérêts sur le web est rendue possible par l'examen des réseaux sociaux et folksonomies.
Les outils de veille
51
Architecture d'un automate de collecte
Le sens que nous donnons ici au "réseau social" excède celui attribué communément par les médias à Facebook, Google+, LinkedIn et autres. Nous entendons par "réseau social" tout regroupement formel ou informel d'individus, repérable par les outils de recherche et d'analyse du web.
Les folksonomies sont une forme particulière de regroupement : celle de listes de mots-clés ayant servi à catégoriser des ressources trouvées sur le web.
1. Qu'est-ce qu'un réseau social ?
Comme le rappelle Pierre Mercklé [Mercklé], la notion de réseau social est ancienne. Elle fait sa première apparition en 1954 avec l'anthropologue John Barnes. Cette notion sociologique qualifiant les ensembles de relations entre les personnes et entre les groupes sociaux s'est largement répandue depuis. En 30 ans (1960-1990), le nombre d'occurrences du terme "réseau" a été multiplié par vingt dans la littérature liée au management.
Aujourd'hui, avec la vague logicielle "sociale" du web, le terme s'est démocratisé au point de vouloir signifier "site de rencontres". Sont apparus de multiples Facebook...
Définition : Service de réseau social
Catégorie de site web basé sur la gestion d'un « profil utilisateur » semi-public où l'objectif principal de l'utilisateur est de s'insérer dans - ou créer - un réseau de connaissances à partir des autres profils utilisateurs.
Le réseau navigable créé en relation avec chaque profil individuel est articulé sous forme de graphe :
Dans lequel chaque nœud du graphe mène à un profil visible par tous les « contacts » ou « amis »,
Il est possible de naviguer sur le réseau en circulant de « contact » en « contact ».
Le graphe généré est deux sortes :
« dirigé » dans lequel les associations n'ont pas besoin d'être confirmés par les utilisateurs (ex : Twitter),
« non dirigé » dans lequel les associations doivent être confirmées par les utilisateurs (ex : Facebook).
En dehors des sites automatisant la production de connaissances sous la forme d'«amis», les réseaux sociaux informels, c'est-à-dire reposant sur le partage de valeurs communes ou d'intérêts partagés existent. Ils sont latents car ils peuvent se manifester aux médias ou au public le temps d'une simple actualité. On retrouvera un exemple de ces réseaux informels avec les anonymes partageant des liens vers des sites web sur les sites de bookmarking par exemple.
La structure des réseaux en ligne
Les caractéristiques des réseaux en ligne réalisent finalement les théories sociologiques connues autour des structures entre les personnes que nous pouvons résumer en deux points :
La force des liens faibles de Granovetter (Mercklé, p. 60) repose sur l'idée que : a. les liens forts tendent à se renforcer : les groupes entretenant des
relations soutenues et intenses ont tendance à s'isoler du reste des individus
b. par conséquent, la communication entre ces groupes entretenant des liens forts ne peut se faire que par des liens plus "faibles", c'est-à-dire des
Les outils de veille
52
personnes qui entretiennent moins de contacts avec les centres de ces groupes
c. les "liens faibles" sont donc générateurs de cohésion sociale alors que les "liens forts" contribuent à la fragmentation.
La théorie des trous structuraux (Mercklé, p. 62) repose sur l'idée que l'acteur dans son réseau a la possibilité d'exploiter à son avantage les "liens faibles" : A connaît B et C mais B et C ne se connaissent pas.
Exemple de calcul de proximité entre les membres d'un réseau (phase 1)
Exemple de calcul de proximité entre les membres d'un réseau (phase 2)
La mise en évidence des réseaux sociaux informels par les graphes
Une des premières initiatives d'études des réseaux sociaux en France à avoir suscité l'intérêt est celle de Blogopole78 par Linkfluence79 qui visait à prendre un instantané de la vie politique française reflétée par les blogs pendant la campagne présidentielle de 2007. Le résultat publié est une carte arborescente cliquable reflétant les tendances créées par l'interconnexion des blogs entre eux (liens entrants, sortants et réciproques). Depuis, Linkfluence propose son propre outil de veille Radarly80.
La visualisation des conversations sous Twitter est rendue possible avec les outils générateurs de graphes comme Social Collider81 qui offre des recherches par usager, phrase ou tendances sur des périodes allant d'une semaine à 1 mois. A partir d'un mot-clé de Twitter (hashtag), il est possible de répertorier toutes les conversations qui y sont attachées et de retracer l'impact d'un événement.
78 - http://blogopole.observatoire-presidentielle.fr/79 - http://fr.linkfluence.net/80 - http://radarlyapp.com/81 - http://socialcollider.net/
Les outils de veille
53
Représentation de la proximité à partir de la matrice d'adjacence
Représentation d'un graphe par une matrice adjacente.
2. Le « bookmarking social » et les « folksonomies »
Apparition de nouveaux services
Le « bookmarking social » créant une forme d' « indexation collaborative » date de la fin 2003, au moment où Joshua Schachter créait Delicious, un service partageant « favoris » ou « signets » ou « bookmarks » en ligne.
Ce fût une petite révolution dans le monde du web car le service permettait pour la première fois d'accéder à ses propres signets depuis n'importe quel ordinateur connecté. De plus, il était possible de s'abonner aux signets d'autres personnes et de renvoyer tout ou partie de ces signets dans un système de filtrage comme Yahoo Pipes ou un agrégateur comme Netvibes. S'exerçait donc une sorte de veille collaborative à partir de l'intérêt partagé avec des inconnus et des connaissances pour des thématiques précises.
Définition
Adresse d'une ressource internet mémorisée pour un accès ultérieur [Urfist, 2009] comprenant :
le titre qui identifie le signet – par défaut, le titre de la page (balise title),
l'adresse de la page concernée (url de la page),
les mots-clés associés par l'utilisateur (tags).
Ont été nommées « folksonomies » par Thomas Vanderwal82 ces systèmes de catégorisation horizontale de l'information, par opposition aux taxonomies, systèmes de classification hiérarchique des connaissances intégrés dans les systèmes d'information documentaire.
La distinction par Thomas Vanderwal des foksonomies larges et folksonomies étroites vise à caractériser les différences d'intensité dans l'activité de taguage où dans le premier cas, l'objectif est bien de référencer la ressource dans le système de bookmarking afin de la retrouver et dans le second l'objectif est d'accéder à la ressource sans spécifiquement avoir besoin de la taguer (ex : dailymotion,
youtube, etc.).
Les fonctionnalités de base associées sont :
l'abonnement à des tags (crée une liste d'adresses enregistrées sous ces tags et classée par date),
l'abonnement à des utilisateurs permettant de visionner un ensemble de tags et de ressources associées,
la possibilité de constituer des groupes publics ou privés,
la recherche par tags et par nom d'utilisateur,
la possibilité d'importer automatiquement des liens provenant d'autres systèmes (ex : Twitter),
l'export automatisé sous forme de flux opml, RSS pour constituer des sauvegardes ou des fichiers sur lesquels travailler.
82 - http://www.vanderwal.net/random/entrysel.php?blog=1635
Les outils de veille
54
Typologie des folksonomies
Intérêts pour la veille
Grâce à son immédiateté, le bookmarking facilite la découverte de ressources non encore référencées par les moteurs de recherche.
Avec ses fonctionnalités de partage, le bookmarking propulse la veille collaborative. Celle-ci est identifiable par les groupes créés par des institutions ou/et des thématiques précises. Le bookmarking facilite le repérage d'experts par sujets.
Les professionnels de l'information se sont très vite intéressés à cette technologie. D'un côté, ceux dont le métier est d'inciter à la lecture (ex : bibliothécaires) ont rapidement tenté d'associer le vocabulaire des usagers aux vocabulaires contrôlés des thésaurus, listes d'autorités structurant les catalogues et le parcours des ressources, pour en varier les accès.
D'un autre côté, ceux dont les fonctions sont liées au renseignement (ex : marketing avec le repérage de changements d'opinion ou l'évolution de l'adoption de produits) se sont trouvés face à une manne d'informations gratuite et ouverte alimentée par les internautes se spécialisant eux-mêmes dans diverses tribus.
L'intégration du bookmarking dans les logiciels spécialisés de veille professionnelle peut recouvrir un triple objectif :
le traçage d'un réseau d'usagers (regroupements d'usagers),
le repérage de thématiques émergentes (contenus tagués),
l'accès à un vocabulaire précis (nuages de tags).
L'offre de services
L'offre logicielle se compose d'une offre de base (ex : Blogmarks83, Mister Wong84, Delicious85, Pinboard86) à laquelle il faut ajouter une offre par type d'activité :
Partage, mise en évidence et récupération de contenus avec Diigo87
Thématisés : communiqués de presse pour les métiers du web avec PowerPress88, DZone89 pour les développeurs web et le dernier orienté consommation culturelle Pinterest90
Recommandations avec Digg91.
L'arrivée de Digg ouvre la voie aux votes et appréciations des tagueurs : la liste publique des ressources taguées ne s'affiche plus en fonction de la date d'insertion mais du nombre d'évaluations positives. C'est le cas de StumbleUpon92, Reddit93, Gmiix94 et Social-bookmarking95.
Le bookmarking est rapidement intégré à de nouveaux services où il devient central comme Librarything96, services de partage de fiches de lecture par les lecteurs qui cataloguent eux-mêmes leurs livres en ligne.
Enfin, des services à vocation bibliographique et scientifique s'ouvrent et agrègent
83 - http://blogmarks.net/84 - http://www.mister-wong.fr/85 - http://delicious.com/86 - http://www.pinboard.com87 - http://diigo.com88 - http://www.powerpress.fr/89 - http://www.dzone.com/links/index.html90 - http://www.pinterest.com91 - http://diigo.com92 - http://www.stumbleupon.com/93 - http://www.reddit.com/94 - http://www.gmiix.com/fr/95 - http://www.social-bookmarking.net/96 - http://www.librarything.com/
Les outils de veille
55
des réseaux sociaux de chercheurs. Citons les quatre précurseurs : CiteUlike97, Bibsonomy98, Zotero99 et Mendeley100.
Twitter : la conversation en réseau couplée au "bookmarking"
A la fois réseau social et outil de bookmarking générant des folksonomies, Twitter illustre bien le culte de l'instant avec ses messages de 140 caractères au plus. Ouvert en 2006, le service connaît une progression fulgurante depuis la fin 2009 puisqu'aujourd'hui plus de 575 millions de comptes seraient ouverts sous Twitter, chiffre à relativiser cependant car comme pour tout service de web2.0, seuls 1% crée et 10% participent pendant que les 90% autres restent silencieux.
Entre signalements de ressources et d'événements, dévoilement d'humeurs et d'opinions sur le réseau, arène pour personnalités politiques, les usages de Twitter sont nombreux mais il est certain que le service dépasse largement les individus et intéresse toute entité sociale collective souhaitant figurer dans la communication en ligne. Ce sera donc un outil parfait pour mesurer l'émotion.
H8y.me101 génère un cluster cliquable de tags Twitter attachés au "#hashtag" entré de manière principale. Les "influençeurs" ou les personnes ayant tagués le plus avec ce mot-clé sont aussi répertoriés dans un graphique.
Twitter sert indiscutablement à la veille avec ses alertes sur mots-clés (TweetAlarm102, Tweetbeep103, etc.) et ses flux rss (liste de services104 permettant de générer des flux rss).
97 - www.citeulike.org98 - http://www.bibsonomy.org99 - http://www.zotero.org/100 - http://mendeley.com/101 - http://hashtagify.me/102 - http://www.tweetalarm.com/103 - tweetbeep.com/104 - http://sociable.co/tag/rss-feeds/
Les outils de veille
56
III - Exploitation etanalyse
III
Les méthodes d'analyse linguistique 61
Les méthodes d'analyse : statistiques, sémantiques 62
Les outils d'analyse 65
A. Les méthodes d'analyse linguistique
Nous avons vu dans la partie "Moteurs de recherche" que les technologies à la base de la recherche d'information étaient issues de l'ingénierie linguistique, c'est le traitement automatique du langage (naturel), le Tal(n).
Nous retrouvons ces mêmes méthodes à l'œuvre dans la fouille de texte (textmining) et de données (datamining). L'ingénierie logicielle a construit des briques de base correspondant aux méthodes d'analyse du langage dans l'objectif d'agencer des solutions logicielles pour l'exploitation des données recueillies pendant la recherche d'informations.
L'analyse morphosyntaxique se compose de : 1. L'analyse morphologique consiste en l'identification des mots, reconnaître
qu'un mot est un mot :- les frontières des mots simples et composés et des phrases (phase de
tokenisation),- l'identification et l'étiquetage de la catégorie - nom, verbe, adjectif - à
laquelle appartient chaque mot (phase de tagging),- la lemmatisation : recherche de la forme canonique en utilisant des
dictionnaires. 2. L'analyse syntaxique consiste à identifier les constituants d'une phrase et leur
fonction au sein de celle-ci : - les limites des constituants (syntagme, groupe nominal, verbal, etc.) et les
relations majeures entre les mots (phase de chunking),- l'affectation de fonctions grammaticales aux constituants (phase de
tagging),- la construction d'un arbre traduisant la structure d'une phrase (parsing).
L'analyse sémantique consiste à détecter le sens des mots et la structure logique d'une phrase :
phase de désambiguification et choix du sens de chaque mot,
structure logique : identification des arguments de chaque prédicat105 et de
105 - http://www.semantique-gdr.net/dico/index.php/Pr%C3%A9dicat
57
leur rôle sémantique (agent, but, lieu, etc.) dans la phrase.
Les analyses morphosyntaxique et sémantique se déroulent à l'échelle d'un texte.
Un texte est lui-même pris dans un ensemble de textes ou de documents rassemblés dans un corpus.
L'analyse doit donc traiter ces deux entités : texte et corpus.
L'analyse d'un texte consistera dans la détection des relations entre les phrases et en rapport avec la structure. Seront examinées :
la structure rhétorique (argumentation, commentaires, etc.).
la structure thématique (détection des sujets abordés).
Enfin, au niveau macro, l'analyse de corpus déterminera :
la nature des documents rassemblés (textes réglementaires, articles de presse, articles scientifiques, etc.),
la structure thématique du corpus (les sujets traités).
Les outils d'exploitation et d'analyse vont donc se servir de ces méthodes pour extraire automatiquement :
entités nommées
événements
thèmes
sentiments
et en croisant ces variables, en déduire des corrélations et des tendances sur des périodes de temps définies.
Analyses comparatives de diifférentes sources, par scénarios, par sujets, de volumétrie, sur la durée,
B. Les méthodes d'analyse : statistiques, sémantiques
1. Etude de cas : quelle image a le nucléaire en France un mois après l'incident survenu à Fukushima ?
Techniques de clustérisation
Il s'agit de techniques statistiques (méthode des mots associés avec matrices de cooccurences) qui permettent d'extraire automatiquement des termes dans les pages de résultats trouvées par un moteur ou méta-moteur, afin d'affiner ou de réorienter une recherche.
Les clusters ainsi formés servent à mettre en évidence des thématiques présentes dans les documents trouvés par les outils de recherche.
Exemple
Afin de mieux comprendre à quoi sert le croisement des techniques statistiques et sémantiques, nous partons d'une étude de cas récente réalisée par des chercheurs de l'Inalco et Ami Software qui explicite le rôle des clusters dans l'interprétation des données recueillies.
Exploitation et analyse
58
Présentation du corpus de test
Des chercheurs d'Inalco et Ami Software [Lauf] ont réalisé une veille reposant sur l'analyse d'un corpus avec l'objectif d'assister le veilleur dans deux tâches :
1. dégager des thématiques du corpus (aide à la lecture et à l'interprétation) ; 2. ranger chaque texte dans une ou plusieurs de ces thématiques afin de faciliter
le tri et le retour au texte. Ce qui ouvre la voie à l'analyse de l'évolution des thématiques dans le temps.
Le corpus de test a été collecté à l'aide d'un méta-moteur de veille en réponse à la requête nucléaire. N'ont été considéré que les articles de presse rédigés en français entre le 17/04/2011 et le 16/05/2011 inclus. Cette période a été choisie pour son intérêt dans un cadre de veille : quelle image a le nucléaire en France un mois après l'incident survenu à Fukushima le 11 mars 2011 ? Après filtrage manuel, le corpus comporte 471 articles uniques, 170 437 mots et 12 070 vocables. Le corpus a été étiqueté avec Cordial106.
Présentation de la méthode de classification
La méthode utilisée est l'approche linguistique de classification non supervisée de documents à partir de l'analyse du graphe des cooccurrents de deuxième ordre (cooccurrents des cooccurrents).
La classification est non exhaustive (un mot peut n'appartenir à aucune thématique) et multiclasse (un mot peut appartenir à plusieurs thématiques – polysémie, homographie, etc.). Les thématiques obtenues ne sont pas uniquement des ensembles de mots : le formalisme de la théorie des graphes permet d'exprimer concrètement des relations sémantiques fines entre les mots de chaque thématique. Ces mots permettent enfin d'assigner à chaque document une ou plusieurs thématiques.
Aucun recours à des ressources sémantiques extérieures afin de qualifier les relations entre les mots (dictionnaires, thésaurus, ontologies) n'a été utilisé.
Les cooccurrents des mots du corpus sont censés représenter la forme minimale du contexte et du sens. Les regroupements sont réalisés de façon dynamique et dépendent uniquement du corpus analysé et non de relations universelles définies en amont : l'approche est indépendante du domaine, ce qui est important lorsque l'on travaille avec des données issues du web.
Résultats : présentation des thématiques
Le but des clusters dans cette étude est de permettre une bonne vision d'ensemble du corpus et servir de premières pistes d'exploration et d'interprétation pour le veilleur.
Les thématiques renvoyées par le systèmes sont intitulées par un nom issu de l'interprétation des mots :
1. la hausse des prix de l'électricité en France ;
2. Tchernobyl ;
3. la centrale de Mghleberg et le nucléaire suisse en général ;
4. écologie, société et politique ;
5. reportage La Zone à propos des familles vivant aux alentours de Tchernobyl ;
6. incident dans un brise-glace russe ;
7. bourse et entreprises (rachats, fusions, etc.) ;
8. mouvements anti-EPR ;
106 - http://www.synapse-fr.com/Cordial_Analyseur/Presentation_Cordial_Analyseur.htm
Exploitation et analyse
59
9. candidature de Nicolas Hulot ;
10. nucléaire iranien.
Thématiques extraites du corpus : les mots en gras signifient leur appartenance à plusieurs thématiques.
Pour interpréter ces rapprochements, il est nécessaire d'avoir une bonne connaissance du domaine.
L'appartenance d'un mot à plusieurs thématiques révèle les tensions. Par exemple, EDF est ici lié précisément aux problématiques de la hausse des prix de l'électricité et aux mouvements anti-EPR. Le cas du mot système est intéressant car il est à la fois présent dans la thématique sur l'écologie et dans celle sur l'incident dans un brise-glace, mais avec un sens diffèrent.
Ces ensembles peuvent servir de points de départ à des recherches plus poussées sur le sujet.
Cluster Tchernobyl représenté sous forme de graphe. Tous les mots apparaissant moins de 15 fois ont été retirés pour améliorer la lisibilité. On constate que les liens privilégiés entre certains mots conduisent à des sous-regroupements.
Rappelons que les thématiques sont des sous-graphes et que les mots entretiennent donc des relations plus ou moins fortes entre eux ; certains mots entretiennent des relations privilégiées avec d'autres, ce qui provoque des sous-regroupements intéressants, illustrés par la figure ci-dessus.
Pour Tchernobyl, 3 sous-thématiques se démarquent clairement :
1. construction du sarcophage de confinement ;
2. radioactivité, santé et pollution ;
3. mort et commémorations.
On distingue des zones lexicalement pauvres et d'autres beaucoup plus denses. En périphérie du graphe, des ilots de forte cohérence lexicale donnent à penser qu'il s'agit de formes sémantiques stabilisées tant elles sont aisément restituables (par exemple, bougie et mémoire ; chape et sarcophage). L'épaisseur des liens attestent d'ailleurs de fréquences remarquables.
Exploitation et analyse
60
Extraits des thématiques générées
Thématique Tchernobyl représentée sous forme de graphe
Exemple d'un graphe dont les nœuds sont fortement interconnectés.
Les raisons pour lesquelles ce cluster apparaît difficilement interprétable deviennent plus évidentes lorsque l'on visualise sa configuration : les thématiques apparaissent toutes nettement en périphérie du graphe tandis que les mots fortement multiclasses se retrouvent au centre (au croisement des thématiques concernées).
Evaluation de la tâche de classification thématique.
Précision, rappel et F-Score pour la tâche d'assignation des documents aux thématiques, en fonction du nombre de mots des clusters présents dans le texte.
Voir la définition de Wikipédia107 pour ces 3 notions.
Remarque : Difficultés dues à la taille du corpus
Le corpus collecté est un « scénario réel » de collecte d'entreprise : il est courant d'avoir des corpus de veille de l'ordre de grandeur de moins d'un million de mots. Ceci fait pointer deux difficultés :
- il est difficile d'extraire des regroupements pertinents avec "peu" de données en entrée et il est communément admis que les modèles statistiques ont besoin de corpus de plusieurs millions de mots pour fournir de bons résultats,
- les corpus de plusieurs millions de mots engendrent des difficultés techniques qu'll faut savoir gérer.
Le fait que la méthode proposée engendre des résultats pertinents pour des corpus de taille moyenne laisse augurer des développements intéressants pour les logiciels de veille.
C. Les outils d'analyse
L'analyse des données regroupe l'ensemble des méthodes statistiques dont les principales caractéristiques sont d'être multidimensionnelles et descriptives.
Un bouquet de techniques correspond à l'analyse des données. La plupart sont géométriques et aident à faire ressortir les relations pouvant exister entre les différentes
107 - http://fr.wikipedia.org/wiki/Pr%C3%A9cision_et_rappel
Exploitation et analyse
61
Exemple d'un cluster fortement connecté
Evaluation de la classification automatique
données de manière à en tirer une information statistique qui permette de décrire de façon succincte les principales informations contenues dans ces données. D'autres techniques vont regrouper les données de façon à faire apparaître clairement ce qui les rend homogènes dans l'objectif de mieux les connaître et les définir. (Voir Wikipédia108 sur l'analyse des données).
C'est toute la structure des informations que va révéler l'analyse des données.
Les méthodes d'analyse des données fournissent leurs propres représentations graphiques.
1. Les solutions d'extraction automatique : datamining et text mining
Des techniques d'enrichissement de documents
La fouille de données (data mining) ou exploration de données a pour objectif l'extraction de connaissances à partir de données numériques.
Elle se distingue de l'analyse de données dans la mesure où on n'a pas besoin d'hypothèse de départ pour démarrer une exploration : ce sont des données elles-mêmes que se dégageront les corrélations intéressantes à repérer.
Le vocabulaire utilisé par le datamining est spécifique. Attardons nous sur la notion de variable définie par Bertrand Llaudet [Llaudet] :
variable catégorielle ou numérique
ex : si l'attribut ou la variable taille peut prendre deux valeurs possibles : "grand" et "petit", c'est une variable catégorielle, si la même variable peut prendre une valeur en cm, il s'agit d'une variable numérique
variable cible qui va servir à la prédiction
Deux techniques sont à la base de la fouille de données :classer et prédire.
Les techniques descriptives visent à résumer, synthétiser, réduire, classer en mettant en évidence les informations présentes mais cachées par le volume des données : cas des recherches d'associations -> il n'y a pas de variable « cible » à prédire.
Elles vont produire des modèles de classement : typologies, méta-typologies.
Exemple d'usage : dégager des groupes homogènes à partir d'un ensemble d'individus.
Les techniques prédictives visent à extrapoler de nouvelles informations à partir des informations présentes : cas du scoring -> il y a une variable « cible » à prédire.
Elles vont produire des modèles de prédiction.
Exemple d'usage : expliquer et/ou prévoir un ou plusieurs phénomènes observables et effectivement mesurés.
Le text-mining ou fouille de textes rassemble les techniques computationnelles d'analyse du texte tirées de la linguistique. C'est l'ajout au datamining de la lexicométrie. Le text-mining rassemble les procédés consistant à synthétiser (classer, structurer, résumer, ...) les textes en analysant les relations, les patterns et les règles entre unités textuelles (mots, groupes, phrases, documents).
Comme le rappelle Christian Fauré [Fauré], le text-mining a pour vocation d'automatiser la structuration des documents peu ou faiblement structurés. A partir d'un document texte, un outil de text-mining va générer de l'information qui n'était pas présente de manière explicite dans le contenu du document. Cette information va être rajoutée et donc enrichir le document initial.
108 - https://fr.wikipedia.org/wiki/Analyse_des_donn%C3%A9es
Exploitation et analyse
62
Le text-mining sert à :
la classification automatique de documents,
l'alimentation automatique des bases de connaissances,
enrichir l'index d'un moteur de recherche,
générer un aperçu du contenu d'un document,
faire de la veille sur des corpus documentaires de volumes importants.
Les secteurs d'activités concernés par la fouille de données vont de l'analyse de la consommation jusqu'au sciences du web en passant par la banque, la détection des fraudes, le médical, etc.
Wikipédia dans son article sur le data mining109 présente plusieurs méthodologies associées dont celle du CRoss Industry Standard Process for Data Mining (CRISP-DM).
Processus de datamining d'après la méthode CRISP
Acteurs Etapes Phases
Maître d'oeuvre Objectifs 1. Compréhension du métier
Données 2. Compréhension des données
3. Préparation des données
Traitements 4. Modélisation
5. Evaluation de la modélisation
Maître d'ouvrage Déploiement 6. Déploiement des résultats de l'étude
La méthode CRISP-DM30 découpe le processus de fouille de données en six phases permettant de structurer la technique et de l'ancrer dans un processus industriel. Il s'agit d'un processus d'extraction des connaissances métiers.
2. Les outils de cartographie et de visualisation des résultats
Les outils de cartographie servent à présenter visuellement les résultats d'une recherche, généralement sous forme de "carte", pour aider à la prise de connaissance d'un corpus, et faire émerger des thématiques qui pourront servir à affiner la recherche ou à l'analyse.
109 - https://fr.wikipedia.org/wiki/Exploration_de_donn%C3%A9es
Exploitation et analyse
63
Phases du processus CRISP_DM
a) Outils de cartographie
Nous reprenons l'analyse réalisée par Muriel Amar de l'Urfist de Paris sur la cartographie de l'information110 dont les avantages peuvent être résumés en 5 points :
manipulation de structures complexes,
perception de l'émergence de propriétés «inconnues»,
mise en évidence des problèmes dans les données, dans leur collecte,
perception simultanée des propriétés à grande et à petite échelle sur les données,
formulation d'hypothèses sur les données.
La cartographie de l'information consiste à synthétiser par la représentations visuelle des données quantitatives abstraites.
Un exemple simple d'utilisation cartographique de l'information est Leximappe développé en 1990 par le Centre de documentation scientifique et technique du CNRS et le Centre de sociologie et innovation de l'Ecole Nationale Supérieure des Mines de Paris. Elle consiste à identifier les mots les plus fortement associés entre eux pour identifier les thèmes des documents.
Méthodes des mots associés : si deux documents sont proches parce qu'ils sont indexés par des mots-clés similaires, alors deux mots-clés figurant ensemble dans un grand nombre de documents seront considérés comme proches.
Deux phases dans la génération d'une leximappe : 1. Construction d'agrégats ou classes indexant un sous-ensemble du corpus
initial représentant un pôle d'intérêt du domaine étudié 2. Positionnement des pôles dans un diagramme "stratégique "suivant deux
variables- la centralité qui souligne le pouvoir de structuration (un agrégat est
structurant dans un domaine quand il est relié à d'autres pôles) ; - la densité qui reflète la cohérence interne du pôle (plus l'association entre
descripteurs est forte, plus le pôle est dense).
L'illustration suivante vise à expliciter le principe d'une Leximappe.
Leximappe
L'illustration suivante est l'application de Leximappe dans l'analyse de la presse grand public dans la détection de controverses autour du changement climatique.
110 - http://urfist.enc.sorbonne.fr/ressources/supports-pedagogiques/cartographie-de-linformation
Exploitation et analyse
64
Interprétation d'une Leximappe
Carte des thèmes abordés par 166 dépêches émises par l'AFP en 1988-1989 positionnés sur une Leximappe.
b) Visualisation des résultats
Classement des infographies
Selon le nombre de variables en entrée 1. Variable unique
Graphiques avec abscisse et ordonnée : coordonnées de points, histogrammes, etc.
2. Deux variablesGraphiques établissant des liens entre les variables : nuages de points de multiples densités, etc.
3. Variable tempsGraphiques traduisant l'évolution de quantités pendant une période déterminée
4. Plus de deux variablesDiagrammes de dispersion
Selon l'objectif d'interprétation 1. Comparaison d'un jeu de valeurs : graphiques avec barres, histogrammes,
graphiques de bullesEx : bubble chart111, bar chart112, block histogram113
2. Evolution dans le temps : graphiques de lignes, d'empilements, chronologieEx : Dipity114, line graph115, stack graph116
3. Le tout et ses parties : camemberts, cartes inclusivesEx : pie chart117, treemap118
4. Relations entre les points de données : nuage de points, graphique matriciel, diagramme de réseauxEx : scatter plot119, matrix chart120, network diagram121
5. Analyse de texte : arborescence de mots, nuage de mots.Ex : Wordle122, Tagxedo123
111 - http://www-958.ibm.com/software/data/cognos/manyeyes/page/Bubble_Chart.html112 - http://www-958.ibm.com/software/data/cognos/manyeyes/page/Bar_Chart.html113 - http://www-958.ibm.com/software/data/cognos/manyeyes/page/Block_Histogram.html114 - http://www.dipity.com/115 - http://www-958.ibm.com/software/data/cognos/manyeyes/page/Line_Graph.html116 - http://www-958.ibm.com/software/data/cognos/manyeyes/page/Stack_Graph.html117 - http://www-958.ibm.com/software/data/cognos/manyeyes/page/Stack_Graph.html118 - https://www.msu.edu/~howardp/beersharezoom.html119 - http://www-958.ibm.com/software/data/cognos/manyeyes/page/Scatterplot.html120 - http://www-958.ibm.com/software/data/cognos/manyeyes/page/Matrix_Chart.html121 - http://www-958.ibm.com/software/data/cognos/manyeyes/page/Network_Diagram.html122 - http://www.wordle.net/123 - http://www.tagxedo.com/
Exploitation et analyse
65
Analyse leximappe sur la controverse du changement climatique dans la presse
grand public
Exemple de traduction visuelle de données quantitatives : Mappingtext124 qui analyse 232 500 pages de journaux historiques numérisés.
Exemple de visualisation graphique des résultats d'une veille
Capture d'écran d'outils Digimind
Exemples de traduction graphiques d'analyse de données
Visualisation de réseaux
Touchgraph125 dans sa partie test en ligne établit des graphes de relations entre les sites à partir des mots-clés entrés. Sa partie client permet entre autres de générer des graphes et des clusters à partir d'un fichier.
Le Taggraph de Flick génère des graphes d'utilisateurs ou de mots-clés. Chaque clic sur une image dévoile un sous-graphe associé. Test avec le mot-clé Tarifa126.
Dans cet exemple, EdgeMaps127 les relations implicites entre les éléments informationnels sont traduites sous forme de liens.
Des instituts universitaires et des entreprises se sont spécialisés dans la cartographie en réseaux de l'information. Ex : Sciences-Po128 et Social Computing129.
Le texte d'un discours
Nancy Duarte analyse le célèbre discours de Martin Luther King : "I Have a Dream" en utilisant l'analyse du discours présentée sous forme infographique. Vidéo accessible ici130.
L'offre logicielle de génération de graphiques s'étoffe avec l'arrivée du data journalisme et de l'open data.
Datavisualization131, Protovis132, etc.
124 - http://mappingtexts.org/125 - http://www.touchgraph.com/navigator126 - http://taggraph.com/everybody/tarifa127 - http://mariandoerk.de/edgemaps/128 - http://cartographie.sciences-po.fr/129 - http://www.social-computing.com/130 - http://www.youtube.com/watch?v=l39CL0t-jyM131 - http://selection.datavisualization.ch/132 - http://mbostock.github.com/protovis/
Exploitation et analyse
66
Visualisation graphique de la provenance et de la répartition thématique des articles
IV - Travaux pratiques IV
TP à venir 73
A. TP à venir
Les textes des TP prendront place ici.
67
Glossaire
Cloud Computing
Le cloud computing ou informatique dans les nuages consiste en la délocalisation des ressources informatiques locales d'une entreprise sur des serveurs distants dont la fonction est de stocker, traiter et proposer des ressources virtualisées et mutualisées.
L'accès au nuage est à la demande et en libre-service.
Clusterisation
Le clustering ou "clusterisation" repose sur l'extraction de groupes (clusters) de documents à partir d'un ensemble de documents non classifiés. Il s'agit d'une organisation automatique d'un ensemble de documents en sous-groupes qui repose généralement sur un critère de proximité [Normier, 2007]
Descripteur
Le terme descripteur est utilisé en documentation pour définir un terme retenu pour caractériser un document.
Il existe des descripteurs contrôlés qui sont choisis dans des listes d'autorités tels que les thésaurus ou bien des descripteurs libres qui sont choisis librement en dehors de toute liste d'autorités.
Entité nommée
Les entités nommées sont des descripteurs qui désignent les objets par leur nom. Ex : personne, organisation, adresse, date, etc.
ET
Par défaut, le moteur de recherche Google interprète l'absence d'agent de coordination entre les termes d'une requête par ET ou AND.
Indexation
Processus destiné à représenter, au moyen des termes ou indices d'un langage documentaire ou au moyen des éléments d'un langage libre, les notions caractéristiques du contenu d'un document (ressource, collection) ou d'une question, en vue d'en faciliter la recherche, après les avoir identifiées par l'analyse. [Boulogne, 2004]
Métamoteur
Un métamoteur présente les résultats de la recherche en consultant les index d'autres moteurs.
Ontologies
Les ontologies sont une forme particulière de thésaurus.
Alors que les thésaurus concernent les organisations des connaissances accessibles
69
par des systèmes d'informations documentaires, les ontologies peuvent concerner des personnes, des organisations, des événements, des process, des lieux, etc. et orchestrer des actions à partir de ces notions.
Issu de la philosophie, le terme est adopté par l'informatique et les techniques computationnelles et a été adopté par le web sémantique depuis plusieurs années.
OU
Dans le cas de la recherche booléenne, le OU est inclusif (Aimer chanter ou chantonner) mais dans le sens commun, le OU possède un caractère exlusif (Préférez-vous le chocolat noir ou le chocolat blanc ?). Ouh...
Repérabilité
Potentialité à être repéré et donc trouvé. Fait référence à la trouvabilité (findability).
Thésaurus
Liste organisée de termes normalisés (descripteurs et non-descripteurs) servant à l'indexation des documents et des questions dans un système documentaire. Les descripteurs sont reliés par des relations sémantiques (génériques, associatives et d'équivalence) exprimées par des signes conventionnels. Les synonymes (non-descripteurs) sont reliés aux descripteurs par la seule relation d'équivalence. On peut distinguer les thésaurus en fonction du mode regroupement des termes (thésaurus à facettes) ; de la variété linguistique des termes (mono ou multilingue) ; des domaines de connaissances couverts (thésaurus spécialisé ou sectoriel, thésaurus encyclopédique). [Boulogne, 2004]
Glossaire
70
Références
[Abondance] Abondance133. L'actualité et l'information sur le référencement (SEO) et les moteurs de recherche, site d'Olivier Andrieu.
[ADBS] ADBS134
[Benchmarking] Benchmarking Outils de veille135 (CNRS et INIST).
[Blog de Béatrice
Foenix-Riou]Recherche éveillée136, Le blog de Béatrice Foenix-Riou
[Blog de Christophe
Deschamps]Outils froids137, Le blog de Christophe Deschamps
[Blog de Frédéric
Martinet]Actulligence138, Le blog de Frédéric Martinet
[Bog de Aref Jdey] Demain la veille, Le blog de Aref Jdey139
[Forum IES 2012] Forum IES 2012140 (forum de l'Intelligence Economique et Stratégique)
[GFII] Groupement Français de l'industrie de l'information141
[Outils de veille] Les Outils de veille142.
[Urfist] Unité Régionale de Formation à l'Information Scientifique et Technique (URFIST)
Nice143, Paris144, 145Rennes146147
133 - http://www.abondance.com/134 - http://www.adbs.fr/135 - http://outils.veille.inist.fr/136 - http://blog.recherche-eveillee.com/137 - Outils froids, Christophe Deschamps138 - http://www.actulligence.com/139 - http://www.demainlaveille.fr/140 - http://ies2012.com/141 - http://www.gfii.fr/fr/142 - http://outilsveille.com/143 - http://urfist.unice.fr/144 - http://urfist.enc.sorbonne.fr/
71
[Veille] Veille, la communauté de l'IE148
[Video Curation
Christophe Deschamps]Vous avez dit "curation" ?149 (1) Définition, historique des pratiques, outils et usages. 5 à 7 de l'ADBS, 13 mars 2012. Christophe Deschamps.
[Vidéo Veille et temps
réel]Veille et temps réel150 : The time is now. 5 à 7 de l'ADBS, 12 octobre 2010. Véronique Mesguich.
[Vidéo Web2.0 Serge
Courrier]Web 2.0 : Quels usages pour les spécialistes de l'information ?151 par Inist-Cnrs. Serge Courrier.
Références
72
Bibliographie
[Afnor. Indexation.] Norme Afnor Z 47-102 (1978), p. 225.
[Amar] Amar Muriel. Les fondements théoriques de l'indexation. Une approche linguistique. ADBS Editions, 2000.
[Boulogne] Boulogne Arlette (Coord.) Vocabulaire de la documentation. ADBS, 2004.
[Chaumier] Chaumier Jacques. Travail et méthodes du documentaliste. ESF (1996), p. 18.
[Courrier] Courrier Serge. Utiliser les fils RSS et ATOM, ADBS Editions, L'essentiel sur... 2007.
[Delengaigne] Delengaigne Xavier. Organiser sa veille sur internet. Au-delà de Google, outils et astuces pour le professionnel. Eyrolles, décembre 2011.
[Foenix] Foenix-Riou Béatrice, Recherche éveillée sur internet Lavoisier, avril 2011.
[gARNIER] Garnier aLAIN ;L’information non structurée dans l’entreprise, usage et outils. Lavoisier, collection dirigée par Nicolas Manson, Octobre 2007 ;
[Lauf] Lauf Aurélien, Valette Mathieu, Khouas Leila. Analyse du graphe des cooccurrents de deuxième ordre pour la classification non-supervisée de documents. Communication JADT 2012 .
[Lettre_Abondance_juin] Recherche & Référencement. Lettre n° 138, juin 2012. Abondance.com.
[Mercklé] Mercklé Pierre. Sociologie des réseaux sociaux, Repères/La Découverte, 2004.
[Moinet] Moinet Nicolas et Deschamps Christophe. La boite à outils de l'intelligence économique. Dunod, 2012.
[Pommart] Pommart et Sutter. Dictionnaire encyclopédique de l'information et de la documentation. Nathan (1997).
[Questions_de_Com] Questions de communication n°14. Moteurs de recherche, usage et enjeux. 2008.
[Serres] Serres Alexandre. Dans le labyrinthe. Evaluer l'information sur internet. C&F, mai 2012.
[Veille Afnor] Norme XP X 50-053 (1998)
145 - http://urfist.enc.sorbonne.fr/146 - http://www.sites.univ-rennes2.fr/urfist/147 - http://www.sites.univ-rennes2.fr/urfist/148 - http://www.veille.com/149 - http://www.adbs.fr/vous-avez-dit-curation-1-definition-historique-des-pratiques-outils-et-usages-115668.htm?RH=1266334869518150 - http://www.adbs.fr/veille-et-temps-reel-1-the-time-is-now-92803.htm?RH=1266334869518151 - http://www.dailymotion.com/video/xgmm8e_serge-courrier-quels-usages_tech
73
Webographie
[DocSI 48] Revue DocSI - Volume 48 : n°1 - Mars 2011 . Dossier : Veille et innovation : s'informer pour conquérir de nouveaux territoires.
[DocSI 49] • Revue DocSI - Volume 49: n 1 - Mars 2012 . Dossier : La curation : entre usages individuels et pratiques professionnelles
[Fauré] Fauré Christian . Introduction au text-mining. Blog Hypomnemata : supports de mémoire.
[Llaudet] Llaudet Bertrand. Cours de data mining . Septembre 2008.
[Mesguich] Mesguich Véronique et Thomas Armelle. Net recherche 2010 : le guide pratique pour mieux trouver l'information utile et surveiller le web. ADBS, 2010 (réactualisation prévue fin 2012).
75
Crédit des ressources
Bases d'un système de traitement de requêtes p. 22
http://creativecommons.org/licenses/by/2.0/fr/, Raymond Mooney, Université du Texas, Austin
Système de traitement des requêtes à base documentaire p. 22
http://creativecommons.org/licenses/by/2.0/fr/, Raymond Mooney, Université du Texas, Austin
Schéma des composants d'un moteur de recherche sur le web p. 23
http://creativecommons.org/licenses/by/2.0/fr/, Raymond Mooney, Université du Texas, Austin
Anatomie d'un moteur de recherche à large échelle hypertextuelle p. 23
http://creativecommons.org/licenses/by/2.0/fr/, Serge Brin, Lawrence Page. The anatomy of a large-scale hypertextual web search engine
Split Second Search p. 24
http://creativecommons.org/licenses/by/2.0/fr/, Google
Kartoo : le métamoteur qui proposait une représentation graphique des liaisons hypertextuelles des résultats. p. 25
http://creativecommons.org/licenses/by/2.0/fr/, Martin Dodge, 2002. http://www.cybergeography-fr.org/atlas/info_maps.php
Réseau sémantique du chat p. 28
http://creativecommons.org/licenses/by/2.0/fr/, Alain Mille, Liris-CNRS.
Architecture d'un moteur de recherche p. 30
http://creativecommons.org/licenses/by/2.0/fr/, Ami Software
Les différents types de veille repérés par Digimind p. 40
http://creativecommons.org/licenses/by/2.0/fr/, Digimind
Acteurs de la veille p. 41
http://creativecommons.org/licenses/by/2.0/fr/, Institut français de l'éducation (INRP)
Matrice de ciblage de Help Management p. 41
http://creativecommons.org/licenses/by/2.0/fr/, Aref Jdey. Help Management/ADBS.
Paramétrage de la surveillance des sites p. 42
http://creativecommons.org/licenses/by/2.0/fr/, Jérôme Bondu
Paramétrage de la fréquence des surveillances p. 42
http://creativecommons.org/licenses/by/2.0/fr/, Jérôme Bondu
77
Détection des pages modifiées p. 42
http://creativecommons.org/licenses/by/2.0/fr/, Jérôme Bondu
Préparation d'une newsletter automatisée p. 42
http://creativecommons.org/licenses/by/2.0/fr/, Jérôme Bondu
Méthodologie de mise en place d'une surveillance p. 43
http://creativecommons.org/licenses/by/2.0/fr/, Aref Jdey - Help Management - ADBS
Régler le niveau de profondeur de la veille p. 43
http://creativecommons.org/licenses/by/2.0/fr/, LoIc Hay
Architecture d'un automate de collecte p. 51
http://creativecommons.org/licenses/by/2.0/fr/, Ami Software
Représentation d'un graphe par une matrice adjacente. p. 53
http://creativecommons.org/licenses/by/2.0/fr/, Entre outillage et théorie, les réseaux sociaux : Alain Degenne – Lasmas – CNRS – Mai 2004.
Représentation de la proximité à partir de la matrice d'adjacence p. 53
http://creativecommons.org/licenses/by/2.0/fr/, Entre outillage et théorie, les réseaux sociaux : Alain Degenne – Lasmas – CNRS – Mai 2004.
Typologie des folksonomies p. 54
http://creativecommons.org/licenses/by/2.0/fr/, Vanderval.net
Extraits des thématiques générées p. 60
http://creativecommons.org/licenses/by/2.0/fr/, Inalco
Thématique Tchernobyl représentée sous forme de graphe p. 60
http://creativecommons.org/licenses/by/2.0/fr/, Inalco
Exemple d'un cluster fortement connecté p. 60
http://creativecommons.org/licenses/by/2.0/fr/, Inalco
Evaluation de la classification automatique p. 61
http://creativecommons.org/licenses/by/2.0/fr/, Inalco
Phases du processus CRISP_DM p. 63
http://creativecommons.org/licenses/by/2.0/fr/, Jackverr - Wikimédia
Interprétation d'une Leximappe p. 64
http://creativecommons.org/licenses/publicdomain/2.0/fr/, INIST-CNRS, Centre de Sociologie et Innovation de l'Ecole Nationale Supérieure des Mines de Paris
Analyse leximappe sur la controverse du changement climatique dans la presse grand public p. 64
http://creativecommons.org/licenses/by/2.0/fr/, Vololona Rabeharisoa
Visualisation graphique de la provenance et de la répartition thématique des articles p. 66
http://creativecommons.org/licenses/by/2.0/fr/, Jérôme Bondu
Crédit des ressources
78