cartographie de l'information- composantes des - urfist de paris

67
Cartographie de l'information Objectifs de la journée o Comprendre ce que recouvre la cartographie de l'information o Savoir situer un outil dans une famille logicielle o Evaluer l'apport d'un module de représentation cartographique

Upload: others

Post on 11-Feb-2022

3 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Cartographie de l'information- Composantes des - Urfist de Paris

Cartographie de linformation

Objectifs de la journeacutee

o Comprendre ce que recouvre

la cartographie de linformation

o Savoir situer un outil

dans une famille logicielle

o Evaluer lapport dun module

de repreacutesentation cartographique

2

Cartographie de linformation

Introduction

Preacutesupposeacutes atouts supposeacutes de la repreacutesentation visuelle

Deacutefinitions carte et cartographie

Ancrage historique scientomeacutetrie et Leximappe

Probleacutematique de la cartographie de linformation

Ancrage disciplinaire seacutemiologie graphique sciences cognitives gestion des connaissances

Composantes des applications cartographiques

1- Composante calculatoire

Data Mining

Text Mining

Data Clustering

Web Mining

2- Composante visuelle

Eleacutements de seacutemiologie graphique (J Bertin)

Theacuteorie de la Gestalt

Famille doutils et contextesapplicatifs

1- Famille doutils

Typologies

Aperccedilu

Travaux pratiques

2- Contextes applicatifs

Eleacutements deacutevaluation

Les perspectives de la cartographieseacutemantique

3

Cartographie de linformation- Introduction

1- Preacutesupposeacutes la cognition externe et les capaciteacutes visuelles

versus la repreacutesentation interne -gt raisonnement distribueacute

support externe doteacute de plusieurs fonctions

bull aide-meacutemoire

bull outil de communication

-gt permet dacceacuteder agrave des connaissances et des compeacutetences inaccessibles par des

repreacutesentations internes [Zhang 1997]

meacutecanisme perceptif

toujours efficace Les repreacutesentations externes facilitent le travail cognitif seulement si la

repreacutesentation est bien choisie

4

Cartographie de linformation- Introduction

1- Preacutesupposeacutes la cognition externe et les capaciteacutes visuelles

Traitement graphique des informations nous sommes capables drsquoassimiler quasi instantaneacutement

et sans effort un grand nombre drsquoinformations repreacutesenteacutees graphiquement

Avantages de la visualisation [Ware 2000 Ware 2005]

bull manipuler des structures complexes

bull percevoir lrsquoeacutemergence de proprieacuteteacutes laquo inconnues raquo

bull mettre en eacutevidence des problegravemes dans les donneacutees dans leur collecte

bull percevoir simultaneacutement des proprieacuteteacutes agrave grande et agrave petite eacutechelle sur les donneacutees

bull faciliter la formation drsquohypothegraveses sur les donneacutees

5

Cartographie de linformation- Introduction

2- Deacutefinitions carte et cartographie

Deacutefinition du Comiteacute franccedilais de cartographie

La carte est une repreacutesentation geacuteomeacutetrique conventionnelle geacuteneacuteralement plane en positions

relatives de pheacutenomegravenes concrets ou abstraits localisables dans lrsquoespace

Principales proprieacuteteacutes

Une carte est un document graphique donc visuel qui obeacuteit agrave une ldquoseacutemiologie graphiquerdquo (Bertin)

Une carte repreacutesente toujours un espace drsquoinformations

bull ces informations peuvent ecirctre abstraites (comme les donneacutees drsquoune organisation) ou scientifiques (crsquoest-

agrave-dire issues de mesures physiques comme des donneacutees geacuteographiques)

bull elles sont toujours seacutelectionneacutees une carte ne fait apparaicirctre qursquoune cateacutegorie drsquoinformations - son

thegraveme

Lrsquoespace cartographieacute a pour objectif de transmettre lui-mecircme des informations sur la nature les relations

la localisation ou lrsquoimportance des donneacutees ou des pheacutenomegravenes qui le composent

6

Cartographie de linformation- Introduction

2- Deacutefinitions carte et cartographie

La cartographie de donneacutees non geacuteographiques ou laquo visualisation dinformation raquo

bull laquo La visualisation est lutilisation de repreacutesentations visuelles interactives et informatiseacutees de donneacutees

pour amplifier la cognition raquo

bull laquo visualisation scientifique raquo toutes les visualisations de pheacutenomegravenes physiques La cartographie

geacuteographique entre dans cette classe

bull laquo visualisation dinformations raquo toutes les visualisations de donneacutees abstraites (non lieacutes agrave des

pheacutenomegravenes physiques)

bull laquo La visualisation dinformations est lutilisation de repreacutesentations visuelles interactives et informatiseacutees

de donneacutees abstraites pour amplifier la cognition raquo

Source Tricot (2006)

7

Cartographie de linformation- Introduction

La cartographie

La cartographie de donneacutees abstraites est assimilable agrave un processus qui permet de passer de donneacutees agrave une

carte ougrave les donneacutees peuvent deacutecrire des connaissances

8

Cartographie de linformation- Introduction

3- Ancrage historique scientomeacutetrie et Leximappe

Ancrage

Deacutebut des anneacutees 1960 Solla Price revue Scientometrics creacuteeacutee en 1978

Objectif

Trouver des lois reacutegissant la production scientifique (cf creacuteation par Garfield de lISI (Institute for Scientific

information) banque de donneacutees Citation Index)

Meacutethode

Appliquer des meacutethodes statistiques aux donneacutees secondaires des publications (mesures bibliomeacutetriques)

unidimensionnelles mesures statistiques simples (nombre darticles ou brevets produits par un laboratoire

nombre de recherches meneacutees en collaboration etc) comptage des citations (indicateur de limpact dun

document sur lensemble de la communauteacute scientifique)

bi-dimensionnelles permettent deacutetablir les liens pouvant exister entre deux publications par exemple

lorsquelles citent toutes les deux les mecircmes auteurs les mecircmes brevets etc (meacutethode de co-citations ou de co-

occurence de citations) ou quelles recourent au mecircme lexique (meacutethode des mots associeacutes)

Reacutesultat

Des cartes (outils graphiques associeacutes)

9

Cartographie de linformation- Introduction

Leximappe (deacuteveloppeacute conjointement par le Centre de Documentation Scientifique et Technique du CNRS

aujourdrsquohui INIST-CNRS et le Centre de Sociologie et Innovation de lrsquoEcole Nationale Supeacuterieure des Mines de

Paris)

Systegraveme drsquoorganisation de corpus documentaire fondeacute sur la meacutethode des mots associeacutes

bull Identifier les mots les plus fortement associeacutes entre eux -gt thegravemes de recherche

bull Construction drsquoagreacutegats (classes) indexant un sous-ensemble du corpus initial repreacutesentant un pocircle

drsquointeacuterecirct du domaine eacutetudieacute

bull Position des pocircles dans un diagramme strateacutegique suivant deux variables la centraliteacute souligne le

pouvoir de structuration (un agreacutegat est structurant dans un domaine quand il est relieacute agrave drsquoautres pocircles) la

densiteacute reflegravete la coheacuterence interne du pocircle (plus lrsquoassociation entre descripteurs est forte plus le pocircle est

dense)

10

Cartographie de linformation- Introduction

Meacutethode des mots associeacutes

Principe

Si deux documents sont proches parce qursquoils sont indexeacutes par des mots-cleacutes similaires alors deux mots-cleacutes

figurant ensemble dans un grand nombre de documents seront consideacutereacutes comme proches

Indice drsquoeacutequivalence eacutegal agrave la cooccurrence au carreacute des mots-cleacutes i et j diviseacutee par le produit de leurs

freacutequences respectives Eij = C2

ij (Ci x Cj)

Lrsquoindice drsquoeacutequivalence eacutevalue la force du lien lorsqursquoil vaut 0 les mots ne sont jamais preacutesents ensemble srsquoil

vaut 1 ils apparaissent toujours ensemble on dit qursquoils sont eacutequivalents

Classification Ascendante Hieacuterarchique (CAH) dit du simple lien (laquo single link clustering raquo)

Une classe est constitueacutee de mots associeacutes les uns aux autres par des associations internes

Les classes peuvent eacutegalement avoir des relations entre elles par le biais drsquoassociations externes entre des pairs

de mots appartenant agrave deux classes distinctes

Lrsquoeacutetape de classification des mots-cleacutes acheveacutee les documents les contenant peuvent finalement ecirctre affecteacutes

aux classes

Les classes sont ensuite positionneacutees sur un plan carteacutesien selon les valeurs de leurs laquo densiteacute raquo et

laquo centraliteacute raquo constituant ainsi une ldquocarterdquo

la densiteacute drsquoune classe rapporteacutee sur lrsquoaxe des ordonneacutees est exprimeacutee par la valeur moyenne des

associations internes entre mots-cleacutes formant la classe

la centraliteacute drsquoune classe rapporteacutee sur lrsquoaxe des abscisses est exprimeacutee par la valeur moyenne des

associations externes entre les mots qui la constituent et les mots drsquoautres classes

11

Cartographie de linformation- Introduction

4- Probleacutematique de la cartographie de linformation

Les donneacutees abstraites ne possegravedent pas de repreacutesentation graphique intrinsegraveque

bull Pour Card Mackinlay et Shneiderman tant que les informations et les donneacutees que lon souhaite

repreacutesenter sont deacuteriveacutees de donneacutees physiques alors elles possegravedent une repreacutesentation

graphique intrinsegraveque

bull Cas dune carte geacuteographique qui repreacutesente des villes la localisation physique des villes sur le

globe terrestre fournit la position relative des points correspondants aux villes sur la carte Les

repreacutesentations graphiques sont alors laquo agrave limage raquo des pheacutenomegravenes observeacutes

Pour les donneacutees abstraites la difficulteacute est de leur trouver une repreacutesentation et plus particuliegraverement une

reacutepartition dans lespace de la carte

bull Cas dune cartographie de concepts la difficulteacute nest pas de trouver une repreacutesentation pour chaque

concept (par exemple un rectangle ou un cercle) mais bien de les reacutepartir dans lespace de la

carte sachant que la reacutepartition aura un impact important sur la signification perccedilue

Lenjeu de la cartographie de donneacutees abstraites est

de deacuteterminer le choix des repreacutesentations pour les visualiser

12

Cartographie de linformation- Introduction

4- Probleacutematique de la cartographie de linformation

13

Cartographie de linformation- Introduction

5- Ancrage disciplinaire seacutemiologie graphique sciences cognitives gestion des connaissances (statistiques et intelligence artificielle)

14

Cartographie de linformation- Composantes des applications cartographiques

1- Composante calculatoire Data Mining

Terminologie

Forage de donneacutees -gt fouille de donneacutees -gt exploration de donneacutees -gt extraction de connaissances agrave partir de donneacutees (ECD)

Deacutefinitions

Scientifique

Processus non-trivial drsquoidentification de structures inconnues valides et potentiellement

exploitables dans les bases de donneacutees (Fayyad1996)

Meacutethodologique

Algorithmes et meacutethodes destineacutes agrave lrsquoexploration et lrsquoanalyse de grandes bases de donneacutees

informatiques en vue de deacutetecter dans ces donneacutees des regravegles des associations des

tendances inconnues (non fixeacutees a priori) des structures particuliegraveres restituant de faccedilon

concise lrsquoessentiel de lrsquoinformation utile pour lrsquoaide agrave la deacutecision

15

Cartographie de linformation- Composantes des applications cartographiques

1- Composante calculatoire Data Mining

Speacutecificiteacutes

Se distingue de lanalyse de donneacutees et de la statistique par les points suivants

ne neacutecessite pas dhypothegravese de deacutepart cest des donneacutees elles-mecircmes que se deacutegageront les correacutelations inteacuteressantes (exemples historiques des tickets de caisse)

les connaissances extraites par le Data Mining ont vocation agrave ecirctre inteacutegreacutees dans un scheacutema

organisationnel

les donneacutees traiteacutees sont issues des systegravemes de stockage en place dans lorganisation

-gt Le data mining fait passer drsquoanalyses confirmatoires agrave des analyses exploratoires

Techniques

Les techniques descriptives visent agrave mettre en eacutevidence des informations preacutesentes mais cacheacutees

par le volume des donneacutees cas des recherches drsquoassociations -gt il nrsquoy a pas de variable laquo cible raquo agrave

preacutedire

Les techniques preacutedictives visent agrave extrapoler de nouvelles informations agrave partir des informations

preacutesentes (cas du scoring) -gt il y a une variable laquo cible raquo agrave preacutedire

16

Cartographie de linformation- Composantes des applications cartographiques

1- Composante calculatoire Data Mining

Meacutethodes Deacutefinition Usages Techniques (liste indicative)

Non superviseacutees Sans variable cible Pour deacutegager dun ensemble

dindividus des groupes homogegravenes

Ex typologie

Techniques agrave base de

reacuteseau de neurones

Classification ascendante

hieacuterarchique

Recherche dassociations

Superviseacutees Avec variable cible Pour expliquer etou preacutevoir un ou

plusieurs pheacutenomegravenes observables

et effectivement mesureacutes

Ex filtrage collaboratif

classifications

Techniques agrave base

darbres de deacutecision

Techniques agrave base de

reacuteseau de neurones

Reacuteduction de

donneacutees

Utiliseacutee en amont des

autres meacutethodes

Permettent de reacuteduire un ensemble

de donneacutees volumineux agrave un

ensemble de taille plus reacuteduite

eacutepureacute de ce que lon consideacuterera

comme de linformation non

pertinente ou non signifiante

comme du bruit

Techniques danalyse

factorielle type AFC

17

Cartographie de linformation- Composantes des applications cartographiques

1- Composante calculatoire Data Mining exemples

Classification Affecter un objet agrave une classe en fonction de ses caracteacuteristiques A1hellipAn

Exemples

Deacuteterminer si un message est un mail de SPAM ou non (2 classes)

Affecter une page web dans une des cateacutegories theacutematiques dun annuaire (multi-classes)

Meacutethode

Si pas de theacuteorie pour deacutefinir la classe en fonction de A1hellipAn alors on eacutetudie un ensemble

drsquoexemples pour lesquels on connaicirct A1hellipAn et la classe associeacutee et on construit un

modegravele

Classe = f(A1hellipAn)

Techniques

Analyse discriminante

Arbre de classification

Reacuteseaux de neurones

18

Cartographie de linformation- Composantes des applications cartographiques

1- Composante calculatoire Reacuteseau de neurones

Principe

Un neurone est une uniteacute de calcul eacuteleacutementaire combine des entreacutees x1x

nen une sortie o

Les entreacutees nont pas toutes la mecircme importance agrave chaque entreacutee xiest associeacute un poids (ou coefficient

synaptique) wi

Luniteacute calcule dabord lactiviteacute dentreacutee (somme pondeacutereacutee des entreacutees)

Coefficients synaptiques

Sont calculeacutes non a priori mais sur la base des valeurs disponibles principe fondamental de

lrsquoapprentissage

Apprendre crsquoest calculer les valeurs des coefficients synaptiques en fonction des exemples disponibles

Algorithme laquo drsquoentraicircnement raquo modifie les poids synaptiques en fonction drsquoun jeu de donneacutees

preacutesenteacutee en entreacutee du reacuteseau

Geacuteneacuteraliser

Lrsquointeacuterecirct des reacuteseaux de neurones reacuteside dans leur capaciteacute agrave geacuteneacuteraliser agrave partir du jeu de test

19

Illustration du reacuteseau de neurones

20

Cartographie de linformation- Composantes des applications cartographiques

1- Composante calculatoire Text Mining

DeacutefinitionProceacutedeacute consistant agrave syntheacutetiser (classer structurer reacutesumer hellip) les textes en analysant les relations les patterns

et les regravegles entre uniteacutes textuelles (mots groupes phrases documents)

Du Data Mining au Text Mining

Ajout de la lexicomeacutetrie

Comme en Data Mining on trouve en Text Mining

des algorithmes descriptifs recherche des thegravemes abordeacutes dans un ensemble (corpus) de documents sans

connaicirctre agrave lrsquoavance ces thegravemes

des algorithmes preacutedictifs recherche des regravegles permettant drsquoaffecter automatiquement un document agrave un

thegraveme parmi plusieurs thegravemes preacutedeacutefinis

Application des techniques de Data mining

Individus = documents

Caractegraveres des individus = thegravemestermes des documents

21

Text Mining Data Mining

Impleacutementation vaste

degraves 2000

Impleacutementation vaste

degraves 1994Maturiteacute

milliersmilliers Dimension

complexesimpleRepreacutesentation

non-structureacutestructureacuteStructure

textuelnumeacuterique amp

cateacutegorique Objet

Text MiningData Mining

22

Vue simplifieacutee du Text Mining

23

Analyse lexicomeacutetrique

Eliminer les mots vides Deacutecouper les textes en uniteacutes Lemmatiser Reacuteduire le nombre de termes agrave traiter

24

Anayse statistique

25

Term frequency (TF)

Un terme qui apparait plusieurs fois dans un document est plus

important qursquoun terme qui apparaicirct une seule fois

wij = Nombre drsquooccurrences du terme ti dans le document dj

TFij = Freacutequence du terme ti dans le document dj

j

ij

d

wTF

ij

26

Inverse document frequency (IDF)

Un terme qui apparaicirct dans peu de documents est un meilleur discriminant qursquoun terme qui apparaicirct dans tous les documents

bull dfi = nombre de documents contenant le terme ti

bull d = nombre de documents du corpus

Inverse document frequency

i

i

df

dIDF log

27

Pondeacuteration TF-IDF

TF-IDF signifie Term Frequency x Inverse Document

Frequency

bull Proposeacutee par [Salton 1989] mesure limportance drsquoun terme

dans un document relativement agrave lrsquoensemble des documents

bull tf ij = freacutequence du terme i dans le document j

df i = nombre de documents contenant le terme i

N = d = nombre de documents du corpus

28

Similariteacute entre documents

Permet de ranger les

documents par pertinence

Le cosinus de lrsquoangle est

souvent utiliseacute

2d1d

2dT

1d2d1d )cos(

bull gt cos( )ltcos( )

bull d2 est plus proche de d1que de d3

29

Cartographie de linformation- Composantes des applications cartographiques

1- Composante calculatoire Data Clustering ou partitionnement de donneacutees

Deacutefinition

Meacutethode statistique danalyse des donneacutees qui a pour but de regrouper un ensemble de donneacutees en

diffeacuterents paquets homogegravenes chaque sous-ensemble partage des caracteacuteristiques communes qui

correspondent le plus souvent agrave des critegraveres de proximiteacute que lon deacutefinit en introduisant des mesures

de distance

Principe

Pour obtenir un bon partitionnement il convient de

bull minimiser linertie intra-classe pour obtenir des grappes (cluster en anglais) les plus homogegravenes

possibles

bull maximiser linertie inter-classe afin dobtenir des sous-ensembles bien diffeacuterencieacutes

Composition

Un cluster est composeacute de

bull une liste de mots-cleacutes

bull une liste dassociations internes

bull une liste dassociations externes

bull une eacutetiquette

bull une liste de documents affecteacutes apregraves la classification

30

Cartographie de linformation- Composantes des applications cartographiques

1- Composante calculatoire DataClustering

bull Lassociation la plus forte permet de creacuteer le premier cluster ici laquoa-braquo)

bull Une nouvelle association peut donner lieu agrave un laquoenrichissementraquo de cluster laquoa-eraquo vient

enrichir le cluster laquoa-braquo qui contient deacutejagrave laquoaraquo) ou agrave une creacuteation de nouveau cluster (laquoc-draquo par

exemple)

Deacutefinitions

Web mining Data mining appliqueacute aux donneacutees de navigation sur le web

Objectifs du web mining

1 Optimiser la navigation dans un site web (confort des internautes)

2 Augmenter le nombre de pages consulteacutees et lrsquoimpact des liens et des banniegraveres publicitaires

3 Deacuteceler les centres drsquointeacuterecirct et donc les attentes des internautes visitant le site

Types dAnalyses

Statistique descriptive

bull laquo 70 des internautes ont consulteacute 3 pages ou moins raquo

bull laquo 40 des internautes accegravedent au site sans passer par la page drsquoaccueil raquo

Deacutetection des regravegles drsquoassociation

bull laquo 20 des internautes visitant la page A visitent la page B dans la mecircme session raquo

Segmentation des internautes

bull Selon les sites de provenance les pages drsquoentreacutee le nombre de pages consulteacutees les fichiers teacuteleacutechargeacutes les pages de sortie etc

1- Composante calculatoire Web Mining

Cartographie de linformation- Composantes des applications cartographiques

31

32

Cartographie de linformation- Composantes des applications cartographiques

1- Composante calculatoire Web Social Data Mining

Hypothegravese documentaire

Web structureacute par des laquo localiteacutes theacutematiques raquo deacutefinies par une forte correacutelation entre

contenu des documents et proximiteacute hypertexte dessinant comme un territoire

Probleacutematique de la laquo traccedilabiliteacute raquo du socialbull Le web se preacutesente comme une matrice technique distribueacutee faccedilonneacutee par des usages dont

le reacuteseau garde la meacutemoire bull Le seul fait dutiliser une technologie numeacuterique contribue agrave produire des traces et agrave

grande eacutechelle elles constituent un reacuteservoir immense de donneacutees disponibles

Principes hubs et autoriteacutes (Kleinberg et al)

bull Autoriteacutes ensemble des pages contenant les meilleures sources drsquoinformation pour un

thegraveme donneacute

bull Hubs pages pointant sur les autoriteacutes

bull Le calcul ressemble au calcul drsquoimportance drsquoun article par nombre de citations (les liens

du Web vus comme des recommendations)

Applications

Sujets controverseacutes ougrave le seul lexique nest pas discriminant

33

Cartographie de linformation- Composantes des applications cartographiques

2- Composante visuelle

Eleacutements de seacutemiologie graphique (J Bertin) Theacuteorie de la Gestalt

34

Cartographie de linformation- Composantes des applications cartographiques

2- Composante visuelle Eleacutements de seacutemiologie graphique (J Bertin)

35

Cartographie de linformation- Composantes des applications cartographiques

2- Composante visuelle Eleacutements de seacutemiologie graphique (J Bertin)

Type de dessin Signification

des signes Description Exemple

Graphis

me

Image non-

figurative Panseacutemique

Le systegraveme srsquoouvre agrave toute

signification Tableau drsquoart

Image

figurative Polyseacutemique

Le systegraveme a pour objectif de

deacutefinir un concept ou une ideacutee

mais les interpreacutetations peuvent

diverger

Photographie

aeacuterienne

Graphique Monoseacutemique

Transcriptions de relations entre

des concepts preacutealablement

deacutefinis

Un

organigramme

36

Cartographie de linformation- Composantes des applications cartographiques

2- Composante visuelle Eleacutements de seacutemiologie graphique (J Bertin)

laquo La graphique est un systegraveme de signes [structures visuelles] qui permet de transcrire les

relations de diffeacuterence drsquoordre ou de proportionnaliteacute existant entre des donneacutees qualitatives ou

quantitatives raquo [Bonin 1997]

laquo La carte est une image graphique qui transcrit les relations de proportionnaliteacute ordre et

diffeacuterence par des variations proportionnelles ordonneacutees et diffeacuterentielles raquo

37

Cartographie de linformation- Composantes des applications cartographiques

2- Composante visuelle Eleacutements de seacutemiologie graphique (J Bertin)

38

Cartographie de linformation- Composantes des applications cartographiques

2- Composante visuelle Eleacutements de seacutemiologie graphique (J Bertin)

39

Cartographie de linformation- Composantes des applications cartographiques

2- Composante visuelle Eleacutements de seacutemiologie graphique (J Bertin)

40

Cartographie de linformation- Composantes des applications cartographiques

2- Composante visuelle Eleacutements de seacutemiologie graphique (J Bertin)

41

Cartographie de linformation- Composantes des applications cartographiques

2- Composante visuelle Eleacutements de seacutemiologie graphique (J Bertin)

Variables visuelles (laquo variables reacutetiniennes raquo)

Variation des proprieacuteteacutes graphiques des structures visuelles

42

Cartographie de linformation- Composantes des applications cartographiques

2- Composante visuelle Eleacutements de seacutemiologie graphique (J Bertin)

Variables visuelles

Cartographie de linformation- Composantes des applications cartographiques

2- Composante visuelle Eleacutements de seacutemiologie graphique (J Bertin)

43

44

Cartographie de linformation- Composantes des applications cartographiques

2- Composante visuelle Theacuteorie de la Gestalt (1890)

Principe

Le contexte est tregraves important dans la perception visuelle [Guillaume]

Les structures visuelles ne sont pas indeacutependantes les unes des autres et le contexte est

important pour la signification qui leur est attribueacutee

En graphique

La perception visuelle srsquoattache agrave reconnaicirctre des modegraveles dans un ensemble de structures

visuelles

De cette theacuteorie reacutesultent des lois correspondant agrave des cateacutegories drsquointeractions possibles entre

les structures visuelles

45

Cartographie de linformation- Composantes des applications cartographiques

Lois Effets Illustrations

Preacutegnance Une image est facile agrave comprendre si sa structure est simple et inversement

Proximiteacute Deux composants qui sont proches ont tendance agrave ecirctre perccedilus comme un

seul composant

Similariteacute Les composants similaires sont perccedilus comme srsquoils eacutetaient regroupeacutes

Fermeture Les contours proches sont perccedilus comme unifieacutes

Continuiteacute Des eacuteleacutements voisins sont perccedilus groupeacutes lorsqursquoils possegravedent

potentiellement un trait qui les relie

Symeacutetrie Des eacuteleacutements sont perccedilus comme un eacuteleacutement global lorsqursquoils forment une

symeacutetrie

Trajectoire identique Des eacuteleacutements qui se deacuteplacent avec la mecircme trajectoire semblent groupeacutes

Familiariteacute Des eacuteleacutements sont plus facilement groupables si le groupe est familier ou

significatif

46

Cartographie de linformation- Composantes des applications cartographiques

2- Composante visuelle Theacuteorie de la Gestalt (1890)

47

Cartographie de linformation- Composantes des applications cartographiques

2- Composante visuelle Conception drsquoun langage graphique (JB Lamy)

1- Analyser les informations ou connaissances que lrsquoon souhaite repreacutesenter

Determiner les attributs qui

deacutefinissent les termes agrave repreacutesenter

bull Par exemple pour repreacutesenter

des maladies les attributs pourraient

ecirctre la localisation anatomique

(cardiaque reacutenale) la seacuteveacuteriteacute etc

2- Associer agrave chaque attribut une variable

reacutetinienne pour le repreacutesenter

bull Par exemple pour les maladies

Associer lrsquoattribut localisation

anatomique agrave la variable

formepictogramme

bull Repreacutesenter la seacuteveacuteriteacute par la variable

couleur

3- Les relations entre les diffeacuterents termes

repreacutesenteacutes doivent ecirctre expliciteacutees

48

Cartographie de linformation

Famille doutils et contextes applicatifs

1- Famille doutils

Typologies

Aperccedilu

Travaux pratiques

2- Contextes applicatifs

Eleacutements deacutevaluation

Les perspectives de la cartographie seacutemantique

49

Cartographie de linformation- Famille doutils et contextes applicatifs

1- Famille doutils

Typologies

Aperccedilu

TP agrave partir de la seacutelection httpdeliciouscommylk02Stage_Carto

Et encore httpwwwvisualcomplexitycomvc (plus de 500 projets dans le domaine)

50

Cartographie de linformation- Famille doutils et contextes applicatifs

1- Famille doutils typologies

11- Typologie scientifique eacutetablie selon des critegraveres internes au domaine

bull les trois principaux paradigmes technique de visualisation type de donneacutees et type dinteraction (Keim

DA 2002)

bull la nature des donneacutees unidimensionnelles bidimensionnelles tridimensionnelles temporelles

multidimensionnelles hieacuterarchiques reacuteseaux (Shneiderman B 1996)

12- Etat de lart eacutevaluation - benchmarking typologie orienteacutee usages (veille et intelligence eacuteconomique)

Quelques exemples

Inist httpoutilsveilleinistfr

Esiee httpwwwaa-esieecomevent2005AGClaudeAschenbrennerppt

Ecole des Mines httpwwwdemoscienceorgresources

Commercial httpwwwk-praxiscom

Commercial httpwwwinformation-mininginfostate_of_art

Universitaire httpwell-formed-datanetthesis

13- Typologie cartographique

Quelques exemples de bloggers

bull Claude Aschenbrenner httpwwwserialmappercomarchive20070110la-pierre-de-rosette-de-la-

cartographie-de-l-informationhtml avec son mode demploi

bull Kartoo httpwwwmapdreamcom

51

Cartographie de linformation- Famille doutils et contextes applicatifs

1- Famille doutils typologie scientifique

52

Cartographie de linformation- Famille doutils orienteacutes laquo bibliothegraveques raquo

2- Les outils de navigation et de recherche sur Internet (seacutelection de Pierre Nobis)

A- Les navigateurs Nestor Navicrawler

53

Cartographie de linformation- Famille doutils orienteacutes laquo bibliothegraveques raquo

2- Les outils de navigation et de recherche sur Internet (seacutelection de Pierre Nobis)

B- Les outils de visualisation des reacutesultats PageBull ManagedQ

Bbis Les outils de visualisation de reacutesultats dans les actualiteacutes

repreacutesentation carreacutee Marumushi - Google NewsNewsIsFree - The Hive Group Tenbyten -flux RSS des sources drsquoactualiteacutes internationales

repreacutesentation sous forme de graphe

Silobreaker

54

Cartographie de linformation- Famille doutils orienteacutes laquo bibliothegraveques raquo

2- Les outils de navigation et de recherche sur Internet

B-Les outils de visualisation des reacutesultats TouchGraph application Java permettant de cartographier les reacutesultats issus

notamment de Google Amazon PubMed Alexa FaceBook

55

Cartographie de linformation- Famille doutils orienteacutes laquo bibliothegraveques raquo

2- Les outils de navigation et de recherche sur Internet (seacutelection de Pierre Nobis)

C- Les outils de recherche avec ajout de termes associeacutes dans une colonne regroupement theacutematique nuage de laquo tags raquo

D- Meacutetamoteurs avec affichage de clusters sous forme de listes

Carrot2 Clusty-Vivissimo Iboogie Polymeta Turbo10 Webclust

56

Cartographie de linformation- Famille doutils orienteacutes laquo bibliothegraveques raquo

2- Les outils de navigation et de recherche sur Internet (seacutelection de Pierre Nobis)

E- Meacutetamoteurs avec affichage de clusters sous forme graphique

E1- repreacutesentation centreacutee Allplus WebBrain

Allplus est un meacutetamoteur agrave clusteacuterisation graphique qui interroge les bases de Ask Google Yahoo et Livepar le biais de lrsquooutil Polymeta Lrsquointerface cluster graph permet de visualiser les reacutesultats sous une forme graphique

Webbrain permet de visualiser et drsquoaffiner les reacutesultats drsquoune requecircte issus de lrsquoOpen Directory Project

57

Cartographie de linformation- Famille doutils orienteacutes laquo bibliothegraveques raquo

2- Les outils de navigation et de recherche sur Internet (seacutelection de Pierre Nobis)

E- Meacutetamoteurs avec affichage de clusters sous forme graphique

E2- Repreacutesentation circulaire Grokker

E3- Repreacutesentation topographique TooLeNet srsquoappuie sur les technologies de KartOO et sur lrsquoindex de

Yahoo pour effectuer des recherches selon 3 modes moteur annuaire et carte auxquels srsquoajoutent des

options de personnalisation et de classification assez avanceacutees

58

Cartographie de linformation- Famille doutils orienteacutes laquo bibliothegraveques raquo

3- Les Outils graphiques dexploration

Wikimindmap est un outil drsquointerrogation

et de repreacutesentation des informations issues

de Wikipedia sous forme de carte heuristique

Visuwords est un dictionnaire en ligne

qui preacutesente ses reacutesultats sous forme de laquo grappes raquo

Il utilise la base de donneacutees Wordnet

Code couleur pour les diffeacuterentes relations

seacutemantiques hieacuterarchiques entre les termes

ainsi que les synonymes et les antonymes

59

Cartographie de linformation- Famille doutils orienteacutes laquo bibliothegraveques raquo

4- Les outils de creacuteation (carto)graphiqueA- Pour meacutemoire les logiciels de creacuteation de cartes heuristiques et conceptuelles

Cmaptools est un logiciel gratuit (usage eacuteducatif) de creacuteation de cartes conceptuelles

Freemind est un logiciel libre et gratuit qui permet de reacutealiser des cartes heuristiques

Thinkgraph est un logiciel gratuit de dessin 2D orienteacute vers la reacutealisation de cartes conceptuelles

60

Cartographie de linformation- Famille doutils orienteacutes laquo bibliothegraveques raquo

4- Les outils de creacuteation (carto)graphique

B- Les outils drsquoeacutedition de graphes

Guess est un logiciel libre et gratuit deacuteveloppeacute par Eytan Adar qui permet de visualiser des

graphes statiques Options de modification de certains attributs (taille couleur forme

algorithmes de positionnementhellip)

Pajek est un logiciel libre et gratuit (usage non commercial) deacuteveloppeacute par V Batagelj et A

Mrvar qui permet de traiter des donneacutees de reacuteseaux de grande taille Pajek signifie araigneacutee

en slovegravene

C- Les outils en ligne

ManyEye service collaboratif deacuteveloppeacute par IBM gracircce auquel on peut geacuteneacuterer selon un

des modegraveles proposeacutes sa propre visualisation de lrsquoinformation (apregraves avoir teacuteleacuteverseacute ses

propres donneacutees)

IssueCrawler outil de web social mining utilisable agrave distance (chargement des URL)

reacutecupeacuteration graphique

61

Cartographie de linformation- Famille doutils et contextes applicatifs

2- Contextes applicatifs

Eleacutements deacutevaluation

Les perspectives de la cartographie seacutemantique

62

Cartographie de linformation- Famille doutils et contextes applicatifs

2- Contextes applicatifs Eleacutements deacutevaluation

21- Evaluation scientifique

Question de meacutethode Eacutevaluation des Interfaces Utilisateur drsquoInformation Bonnel et Chevalier 2006

Objectif proposer une meacutethodologie deacutevaluation permettant de comparer du point de vue de la

visualisation des reacutesultats agrave une requecircte les outils de recherche Google Vivisimo Ujiko Grokker Kartoo

Vios SmartWeb (prototype)

Evaluation des repreacutesentations graphiques geacuteneacuteraliteacutes (Tricot et Roche 2006)

bull Arborescences simples

habitude des utilisateurs (explorateur de fichiers informatiques) pas de problegravemes avec volume limiteacute

au-delagrave drsquoune certaine quantiteacute drsquoinformation les arborescences deviennent inefficaces

bull Arbres de cocircnes en 3D

posent des problegravemes agrave lrsquoutilisateur qui nrsquoa pas lrsquohabitude des espaces en 3D

effort cognitif plus eacuteleveacute et prise en main plus longue

bull Arbres hyperboliques

problegravemes des eacutetiquettes des eacuteleacutements (occlusion)

effet de zoom impreacutevisible

Lrsquoune des conclusions une seule visualisation ne permet pas de reacutepondre agrave toutes les questions

multiplier les possibiliteacutes de visualisation

63

Cartographie de linformation- Famille doutils et contextes applicatifs

2- Contextes applicatifs Eleacutements deacutevaluation

21- Evaluation scientifique doctorat en cours agrave lrsquoEBSI (Aline Creacutedeville)

bull Contexte visualisation de lrsquoinformation dans le contexte de recherche drsquoinformation

bull Point de vue de la seacutemiologie graphique

o principes les plus couramment utiliseacutes sont la proximiteacute (Grokker) lrsquoenglobage (Kartoo)

et la connectiviteacute (Auquabrowser)

omeacutetaphores visuelles pas toujours adeacutequates au web

bull Reacutesultats

o lrsquoinformation doit ecirctre structureacutee

o apports possible pour lrsquoexploration mais pas pour la recherche

64

Cartographie de linformation- Famille doutils et contextes applicatifs

2- Contextes applicatifs Eleacutements deacutevaluation

22- Evaluation en contexte dusage de recherche dinformations (Ciaccia Ihadjadene Martins 2006)

Objectif analyse de lrsquoinfluence du mode de preacutesentation des informations sur les processus cognitifs mis

en jeu par lrsquoutilisateur dans lrsquoactiviteacute de recherche drsquoinformations sur Internet

Outils eacutevalueacutes Kartoo (pour 18 usagers) et Mapstan (pour 16 usagers)

Principaux reacutesultats

Coucirct cognitif sans pour autant conduire agrave de meilleures performances (comparaison avec une

preacutesentation en liste)

Hypothegravese nouveauteacute de la preacutesentation versus habitude des preacutesentations verbales

Strateacutegie optimiseacutee preacuteciser la requecircte drsquoune recherche agrave but flou et se concentrer sur les informations

relieacutees agrave lrsquoobjectif de la question versus informations non relieacutees

Le sens de la visualisation doit ecirctre clarifieacute les systegravemes doivent faciliter la compreacutehension des

eacuteleacutements visualiseacutes

65

Cartographie de linformation- Famille doutils et contextes applicatifs

2- Contextes applicatifs Les perspectives de la cartographie seacutemantique (C Tricot de la seacutemantique agrave la carte)

Pour reacutesoudre la probleacutematique de la repreacutesentation de lrsquoinformation la visualisation de

lrsquoinformation seule ne suffit pas

La visualisation de lrsquoinformation permet uniquement de preacutesenter des donneacutees en leur

associant une repreacutesentation graphique

La cartographie seacutemantique se veut

Une meacutethode de cartographie reposant sur la seacutemantique dun domaine

Un processus de production de connaissances

donneacutees brutes -gt donneacutees structureacutees -gt donneacutees repreacutesenteacutees -gt donneacutees visualiseacutees

Un formalisme de description type Reacuteseaux seacutemantiques

Un langage de description cartographique

Une architecture multi-agents

66

Cartographie de linformation- Famille doutils et contextes applicatifs

2- Contextes applicatifs Les perspectives de la cartographie seacutemantique (C Tricot de la seacutemantique agrave la carte)

67

Cartographie de linformation- Famille doutils et contextes applicatifs

2- Contextes applicatifs Les perspectives de la cartographie seacutemantique

ldquoUne bonne structure repreacutesentative graphique pour un arbre de donneacutees est celle qui deacuteforme le moins les similitudes originales entre les uniteacutes de donneacutees (similitudes qui sont donneacutes par loutil de classification) ou en dautres termes deux individus (ou classes) qui sont proches lune de lautre le restent aussi possible que peut apregraves projection dans l`espace de visualisation et ceci doit ecirctre eacutevident(et veacuterifiable par une mesure de calcul de divergence) dans lenvironnement de visualisation ldquo Tricot 2006

Page 2: Cartographie de l'information- Composantes des - Urfist de Paris

2

Cartographie de linformation

Introduction

Preacutesupposeacutes atouts supposeacutes de la repreacutesentation visuelle

Deacutefinitions carte et cartographie

Ancrage historique scientomeacutetrie et Leximappe

Probleacutematique de la cartographie de linformation

Ancrage disciplinaire seacutemiologie graphique sciences cognitives gestion des connaissances

Composantes des applications cartographiques

1- Composante calculatoire

Data Mining

Text Mining

Data Clustering

Web Mining

2- Composante visuelle

Eleacutements de seacutemiologie graphique (J Bertin)

Theacuteorie de la Gestalt

Famille doutils et contextesapplicatifs

1- Famille doutils

Typologies

Aperccedilu

Travaux pratiques

2- Contextes applicatifs

Eleacutements deacutevaluation

Les perspectives de la cartographieseacutemantique

3

Cartographie de linformation- Introduction

1- Preacutesupposeacutes la cognition externe et les capaciteacutes visuelles

versus la repreacutesentation interne -gt raisonnement distribueacute

support externe doteacute de plusieurs fonctions

bull aide-meacutemoire

bull outil de communication

-gt permet dacceacuteder agrave des connaissances et des compeacutetences inaccessibles par des

repreacutesentations internes [Zhang 1997]

meacutecanisme perceptif

toujours efficace Les repreacutesentations externes facilitent le travail cognitif seulement si la

repreacutesentation est bien choisie

4

Cartographie de linformation- Introduction

1- Preacutesupposeacutes la cognition externe et les capaciteacutes visuelles

Traitement graphique des informations nous sommes capables drsquoassimiler quasi instantaneacutement

et sans effort un grand nombre drsquoinformations repreacutesenteacutees graphiquement

Avantages de la visualisation [Ware 2000 Ware 2005]

bull manipuler des structures complexes

bull percevoir lrsquoeacutemergence de proprieacuteteacutes laquo inconnues raquo

bull mettre en eacutevidence des problegravemes dans les donneacutees dans leur collecte

bull percevoir simultaneacutement des proprieacuteteacutes agrave grande et agrave petite eacutechelle sur les donneacutees

bull faciliter la formation drsquohypothegraveses sur les donneacutees

5

Cartographie de linformation- Introduction

2- Deacutefinitions carte et cartographie

Deacutefinition du Comiteacute franccedilais de cartographie

La carte est une repreacutesentation geacuteomeacutetrique conventionnelle geacuteneacuteralement plane en positions

relatives de pheacutenomegravenes concrets ou abstraits localisables dans lrsquoespace

Principales proprieacuteteacutes

Une carte est un document graphique donc visuel qui obeacuteit agrave une ldquoseacutemiologie graphiquerdquo (Bertin)

Une carte repreacutesente toujours un espace drsquoinformations

bull ces informations peuvent ecirctre abstraites (comme les donneacutees drsquoune organisation) ou scientifiques (crsquoest-

agrave-dire issues de mesures physiques comme des donneacutees geacuteographiques)

bull elles sont toujours seacutelectionneacutees une carte ne fait apparaicirctre qursquoune cateacutegorie drsquoinformations - son

thegraveme

Lrsquoespace cartographieacute a pour objectif de transmettre lui-mecircme des informations sur la nature les relations

la localisation ou lrsquoimportance des donneacutees ou des pheacutenomegravenes qui le composent

6

Cartographie de linformation- Introduction

2- Deacutefinitions carte et cartographie

La cartographie de donneacutees non geacuteographiques ou laquo visualisation dinformation raquo

bull laquo La visualisation est lutilisation de repreacutesentations visuelles interactives et informatiseacutees de donneacutees

pour amplifier la cognition raquo

bull laquo visualisation scientifique raquo toutes les visualisations de pheacutenomegravenes physiques La cartographie

geacuteographique entre dans cette classe

bull laquo visualisation dinformations raquo toutes les visualisations de donneacutees abstraites (non lieacutes agrave des

pheacutenomegravenes physiques)

bull laquo La visualisation dinformations est lutilisation de repreacutesentations visuelles interactives et informatiseacutees

de donneacutees abstraites pour amplifier la cognition raquo

Source Tricot (2006)

7

Cartographie de linformation- Introduction

La cartographie

La cartographie de donneacutees abstraites est assimilable agrave un processus qui permet de passer de donneacutees agrave une

carte ougrave les donneacutees peuvent deacutecrire des connaissances

8

Cartographie de linformation- Introduction

3- Ancrage historique scientomeacutetrie et Leximappe

Ancrage

Deacutebut des anneacutees 1960 Solla Price revue Scientometrics creacuteeacutee en 1978

Objectif

Trouver des lois reacutegissant la production scientifique (cf creacuteation par Garfield de lISI (Institute for Scientific

information) banque de donneacutees Citation Index)

Meacutethode

Appliquer des meacutethodes statistiques aux donneacutees secondaires des publications (mesures bibliomeacutetriques)

unidimensionnelles mesures statistiques simples (nombre darticles ou brevets produits par un laboratoire

nombre de recherches meneacutees en collaboration etc) comptage des citations (indicateur de limpact dun

document sur lensemble de la communauteacute scientifique)

bi-dimensionnelles permettent deacutetablir les liens pouvant exister entre deux publications par exemple

lorsquelles citent toutes les deux les mecircmes auteurs les mecircmes brevets etc (meacutethode de co-citations ou de co-

occurence de citations) ou quelles recourent au mecircme lexique (meacutethode des mots associeacutes)

Reacutesultat

Des cartes (outils graphiques associeacutes)

9

Cartographie de linformation- Introduction

Leximappe (deacuteveloppeacute conjointement par le Centre de Documentation Scientifique et Technique du CNRS

aujourdrsquohui INIST-CNRS et le Centre de Sociologie et Innovation de lrsquoEcole Nationale Supeacuterieure des Mines de

Paris)

Systegraveme drsquoorganisation de corpus documentaire fondeacute sur la meacutethode des mots associeacutes

bull Identifier les mots les plus fortement associeacutes entre eux -gt thegravemes de recherche

bull Construction drsquoagreacutegats (classes) indexant un sous-ensemble du corpus initial repreacutesentant un pocircle

drsquointeacuterecirct du domaine eacutetudieacute

bull Position des pocircles dans un diagramme strateacutegique suivant deux variables la centraliteacute souligne le

pouvoir de structuration (un agreacutegat est structurant dans un domaine quand il est relieacute agrave drsquoautres pocircles) la

densiteacute reflegravete la coheacuterence interne du pocircle (plus lrsquoassociation entre descripteurs est forte plus le pocircle est

dense)

10

Cartographie de linformation- Introduction

Meacutethode des mots associeacutes

Principe

Si deux documents sont proches parce qursquoils sont indexeacutes par des mots-cleacutes similaires alors deux mots-cleacutes

figurant ensemble dans un grand nombre de documents seront consideacutereacutes comme proches

Indice drsquoeacutequivalence eacutegal agrave la cooccurrence au carreacute des mots-cleacutes i et j diviseacutee par le produit de leurs

freacutequences respectives Eij = C2

ij (Ci x Cj)

Lrsquoindice drsquoeacutequivalence eacutevalue la force du lien lorsqursquoil vaut 0 les mots ne sont jamais preacutesents ensemble srsquoil

vaut 1 ils apparaissent toujours ensemble on dit qursquoils sont eacutequivalents

Classification Ascendante Hieacuterarchique (CAH) dit du simple lien (laquo single link clustering raquo)

Une classe est constitueacutee de mots associeacutes les uns aux autres par des associations internes

Les classes peuvent eacutegalement avoir des relations entre elles par le biais drsquoassociations externes entre des pairs

de mots appartenant agrave deux classes distinctes

Lrsquoeacutetape de classification des mots-cleacutes acheveacutee les documents les contenant peuvent finalement ecirctre affecteacutes

aux classes

Les classes sont ensuite positionneacutees sur un plan carteacutesien selon les valeurs de leurs laquo densiteacute raquo et

laquo centraliteacute raquo constituant ainsi une ldquocarterdquo

la densiteacute drsquoune classe rapporteacutee sur lrsquoaxe des ordonneacutees est exprimeacutee par la valeur moyenne des

associations internes entre mots-cleacutes formant la classe

la centraliteacute drsquoune classe rapporteacutee sur lrsquoaxe des abscisses est exprimeacutee par la valeur moyenne des

associations externes entre les mots qui la constituent et les mots drsquoautres classes

11

Cartographie de linformation- Introduction

4- Probleacutematique de la cartographie de linformation

Les donneacutees abstraites ne possegravedent pas de repreacutesentation graphique intrinsegraveque

bull Pour Card Mackinlay et Shneiderman tant que les informations et les donneacutees que lon souhaite

repreacutesenter sont deacuteriveacutees de donneacutees physiques alors elles possegravedent une repreacutesentation

graphique intrinsegraveque

bull Cas dune carte geacuteographique qui repreacutesente des villes la localisation physique des villes sur le

globe terrestre fournit la position relative des points correspondants aux villes sur la carte Les

repreacutesentations graphiques sont alors laquo agrave limage raquo des pheacutenomegravenes observeacutes

Pour les donneacutees abstraites la difficulteacute est de leur trouver une repreacutesentation et plus particuliegraverement une

reacutepartition dans lespace de la carte

bull Cas dune cartographie de concepts la difficulteacute nest pas de trouver une repreacutesentation pour chaque

concept (par exemple un rectangle ou un cercle) mais bien de les reacutepartir dans lespace de la

carte sachant que la reacutepartition aura un impact important sur la signification perccedilue

Lenjeu de la cartographie de donneacutees abstraites est

de deacuteterminer le choix des repreacutesentations pour les visualiser

12

Cartographie de linformation- Introduction

4- Probleacutematique de la cartographie de linformation

13

Cartographie de linformation- Introduction

5- Ancrage disciplinaire seacutemiologie graphique sciences cognitives gestion des connaissances (statistiques et intelligence artificielle)

14

Cartographie de linformation- Composantes des applications cartographiques

1- Composante calculatoire Data Mining

Terminologie

Forage de donneacutees -gt fouille de donneacutees -gt exploration de donneacutees -gt extraction de connaissances agrave partir de donneacutees (ECD)

Deacutefinitions

Scientifique

Processus non-trivial drsquoidentification de structures inconnues valides et potentiellement

exploitables dans les bases de donneacutees (Fayyad1996)

Meacutethodologique

Algorithmes et meacutethodes destineacutes agrave lrsquoexploration et lrsquoanalyse de grandes bases de donneacutees

informatiques en vue de deacutetecter dans ces donneacutees des regravegles des associations des

tendances inconnues (non fixeacutees a priori) des structures particuliegraveres restituant de faccedilon

concise lrsquoessentiel de lrsquoinformation utile pour lrsquoaide agrave la deacutecision

15

Cartographie de linformation- Composantes des applications cartographiques

1- Composante calculatoire Data Mining

Speacutecificiteacutes

Se distingue de lanalyse de donneacutees et de la statistique par les points suivants

ne neacutecessite pas dhypothegravese de deacutepart cest des donneacutees elles-mecircmes que se deacutegageront les correacutelations inteacuteressantes (exemples historiques des tickets de caisse)

les connaissances extraites par le Data Mining ont vocation agrave ecirctre inteacutegreacutees dans un scheacutema

organisationnel

les donneacutees traiteacutees sont issues des systegravemes de stockage en place dans lorganisation

-gt Le data mining fait passer drsquoanalyses confirmatoires agrave des analyses exploratoires

Techniques

Les techniques descriptives visent agrave mettre en eacutevidence des informations preacutesentes mais cacheacutees

par le volume des donneacutees cas des recherches drsquoassociations -gt il nrsquoy a pas de variable laquo cible raquo agrave

preacutedire

Les techniques preacutedictives visent agrave extrapoler de nouvelles informations agrave partir des informations

preacutesentes (cas du scoring) -gt il y a une variable laquo cible raquo agrave preacutedire

16

Cartographie de linformation- Composantes des applications cartographiques

1- Composante calculatoire Data Mining

Meacutethodes Deacutefinition Usages Techniques (liste indicative)

Non superviseacutees Sans variable cible Pour deacutegager dun ensemble

dindividus des groupes homogegravenes

Ex typologie

Techniques agrave base de

reacuteseau de neurones

Classification ascendante

hieacuterarchique

Recherche dassociations

Superviseacutees Avec variable cible Pour expliquer etou preacutevoir un ou

plusieurs pheacutenomegravenes observables

et effectivement mesureacutes

Ex filtrage collaboratif

classifications

Techniques agrave base

darbres de deacutecision

Techniques agrave base de

reacuteseau de neurones

Reacuteduction de

donneacutees

Utiliseacutee en amont des

autres meacutethodes

Permettent de reacuteduire un ensemble

de donneacutees volumineux agrave un

ensemble de taille plus reacuteduite

eacutepureacute de ce que lon consideacuterera

comme de linformation non

pertinente ou non signifiante

comme du bruit

Techniques danalyse

factorielle type AFC

17

Cartographie de linformation- Composantes des applications cartographiques

1- Composante calculatoire Data Mining exemples

Classification Affecter un objet agrave une classe en fonction de ses caracteacuteristiques A1hellipAn

Exemples

Deacuteterminer si un message est un mail de SPAM ou non (2 classes)

Affecter une page web dans une des cateacutegories theacutematiques dun annuaire (multi-classes)

Meacutethode

Si pas de theacuteorie pour deacutefinir la classe en fonction de A1hellipAn alors on eacutetudie un ensemble

drsquoexemples pour lesquels on connaicirct A1hellipAn et la classe associeacutee et on construit un

modegravele

Classe = f(A1hellipAn)

Techniques

Analyse discriminante

Arbre de classification

Reacuteseaux de neurones

18

Cartographie de linformation- Composantes des applications cartographiques

1- Composante calculatoire Reacuteseau de neurones

Principe

Un neurone est une uniteacute de calcul eacuteleacutementaire combine des entreacutees x1x

nen une sortie o

Les entreacutees nont pas toutes la mecircme importance agrave chaque entreacutee xiest associeacute un poids (ou coefficient

synaptique) wi

Luniteacute calcule dabord lactiviteacute dentreacutee (somme pondeacutereacutee des entreacutees)

Coefficients synaptiques

Sont calculeacutes non a priori mais sur la base des valeurs disponibles principe fondamental de

lrsquoapprentissage

Apprendre crsquoest calculer les valeurs des coefficients synaptiques en fonction des exemples disponibles

Algorithme laquo drsquoentraicircnement raquo modifie les poids synaptiques en fonction drsquoun jeu de donneacutees

preacutesenteacutee en entreacutee du reacuteseau

Geacuteneacuteraliser

Lrsquointeacuterecirct des reacuteseaux de neurones reacuteside dans leur capaciteacute agrave geacuteneacuteraliser agrave partir du jeu de test

19

Illustration du reacuteseau de neurones

20

Cartographie de linformation- Composantes des applications cartographiques

1- Composante calculatoire Text Mining

DeacutefinitionProceacutedeacute consistant agrave syntheacutetiser (classer structurer reacutesumer hellip) les textes en analysant les relations les patterns

et les regravegles entre uniteacutes textuelles (mots groupes phrases documents)

Du Data Mining au Text Mining

Ajout de la lexicomeacutetrie

Comme en Data Mining on trouve en Text Mining

des algorithmes descriptifs recherche des thegravemes abordeacutes dans un ensemble (corpus) de documents sans

connaicirctre agrave lrsquoavance ces thegravemes

des algorithmes preacutedictifs recherche des regravegles permettant drsquoaffecter automatiquement un document agrave un

thegraveme parmi plusieurs thegravemes preacutedeacutefinis

Application des techniques de Data mining

Individus = documents

Caractegraveres des individus = thegravemestermes des documents

21

Text Mining Data Mining

Impleacutementation vaste

degraves 2000

Impleacutementation vaste

degraves 1994Maturiteacute

milliersmilliers Dimension

complexesimpleRepreacutesentation

non-structureacutestructureacuteStructure

textuelnumeacuterique amp

cateacutegorique Objet

Text MiningData Mining

22

Vue simplifieacutee du Text Mining

23

Analyse lexicomeacutetrique

Eliminer les mots vides Deacutecouper les textes en uniteacutes Lemmatiser Reacuteduire le nombre de termes agrave traiter

24

Anayse statistique

25

Term frequency (TF)

Un terme qui apparait plusieurs fois dans un document est plus

important qursquoun terme qui apparaicirct une seule fois

wij = Nombre drsquooccurrences du terme ti dans le document dj

TFij = Freacutequence du terme ti dans le document dj

j

ij

d

wTF

ij

26

Inverse document frequency (IDF)

Un terme qui apparaicirct dans peu de documents est un meilleur discriminant qursquoun terme qui apparaicirct dans tous les documents

bull dfi = nombre de documents contenant le terme ti

bull d = nombre de documents du corpus

Inverse document frequency

i

i

df

dIDF log

27

Pondeacuteration TF-IDF

TF-IDF signifie Term Frequency x Inverse Document

Frequency

bull Proposeacutee par [Salton 1989] mesure limportance drsquoun terme

dans un document relativement agrave lrsquoensemble des documents

bull tf ij = freacutequence du terme i dans le document j

df i = nombre de documents contenant le terme i

N = d = nombre de documents du corpus

28

Similariteacute entre documents

Permet de ranger les

documents par pertinence

Le cosinus de lrsquoangle est

souvent utiliseacute

2d1d

2dT

1d2d1d )cos(

bull gt cos( )ltcos( )

bull d2 est plus proche de d1que de d3

29

Cartographie de linformation- Composantes des applications cartographiques

1- Composante calculatoire Data Clustering ou partitionnement de donneacutees

Deacutefinition

Meacutethode statistique danalyse des donneacutees qui a pour but de regrouper un ensemble de donneacutees en

diffeacuterents paquets homogegravenes chaque sous-ensemble partage des caracteacuteristiques communes qui

correspondent le plus souvent agrave des critegraveres de proximiteacute que lon deacutefinit en introduisant des mesures

de distance

Principe

Pour obtenir un bon partitionnement il convient de

bull minimiser linertie intra-classe pour obtenir des grappes (cluster en anglais) les plus homogegravenes

possibles

bull maximiser linertie inter-classe afin dobtenir des sous-ensembles bien diffeacuterencieacutes

Composition

Un cluster est composeacute de

bull une liste de mots-cleacutes

bull une liste dassociations internes

bull une liste dassociations externes

bull une eacutetiquette

bull une liste de documents affecteacutes apregraves la classification

30

Cartographie de linformation- Composantes des applications cartographiques

1- Composante calculatoire DataClustering

bull Lassociation la plus forte permet de creacuteer le premier cluster ici laquoa-braquo)

bull Une nouvelle association peut donner lieu agrave un laquoenrichissementraquo de cluster laquoa-eraquo vient

enrichir le cluster laquoa-braquo qui contient deacutejagrave laquoaraquo) ou agrave une creacuteation de nouveau cluster (laquoc-draquo par

exemple)

Deacutefinitions

Web mining Data mining appliqueacute aux donneacutees de navigation sur le web

Objectifs du web mining

1 Optimiser la navigation dans un site web (confort des internautes)

2 Augmenter le nombre de pages consulteacutees et lrsquoimpact des liens et des banniegraveres publicitaires

3 Deacuteceler les centres drsquointeacuterecirct et donc les attentes des internautes visitant le site

Types dAnalyses

Statistique descriptive

bull laquo 70 des internautes ont consulteacute 3 pages ou moins raquo

bull laquo 40 des internautes accegravedent au site sans passer par la page drsquoaccueil raquo

Deacutetection des regravegles drsquoassociation

bull laquo 20 des internautes visitant la page A visitent la page B dans la mecircme session raquo

Segmentation des internautes

bull Selon les sites de provenance les pages drsquoentreacutee le nombre de pages consulteacutees les fichiers teacuteleacutechargeacutes les pages de sortie etc

1- Composante calculatoire Web Mining

Cartographie de linformation- Composantes des applications cartographiques

31

32

Cartographie de linformation- Composantes des applications cartographiques

1- Composante calculatoire Web Social Data Mining

Hypothegravese documentaire

Web structureacute par des laquo localiteacutes theacutematiques raquo deacutefinies par une forte correacutelation entre

contenu des documents et proximiteacute hypertexte dessinant comme un territoire

Probleacutematique de la laquo traccedilabiliteacute raquo du socialbull Le web se preacutesente comme une matrice technique distribueacutee faccedilonneacutee par des usages dont

le reacuteseau garde la meacutemoire bull Le seul fait dutiliser une technologie numeacuterique contribue agrave produire des traces et agrave

grande eacutechelle elles constituent un reacuteservoir immense de donneacutees disponibles

Principes hubs et autoriteacutes (Kleinberg et al)

bull Autoriteacutes ensemble des pages contenant les meilleures sources drsquoinformation pour un

thegraveme donneacute

bull Hubs pages pointant sur les autoriteacutes

bull Le calcul ressemble au calcul drsquoimportance drsquoun article par nombre de citations (les liens

du Web vus comme des recommendations)

Applications

Sujets controverseacutes ougrave le seul lexique nest pas discriminant

33

Cartographie de linformation- Composantes des applications cartographiques

2- Composante visuelle

Eleacutements de seacutemiologie graphique (J Bertin) Theacuteorie de la Gestalt

34

Cartographie de linformation- Composantes des applications cartographiques

2- Composante visuelle Eleacutements de seacutemiologie graphique (J Bertin)

35

Cartographie de linformation- Composantes des applications cartographiques

2- Composante visuelle Eleacutements de seacutemiologie graphique (J Bertin)

Type de dessin Signification

des signes Description Exemple

Graphis

me

Image non-

figurative Panseacutemique

Le systegraveme srsquoouvre agrave toute

signification Tableau drsquoart

Image

figurative Polyseacutemique

Le systegraveme a pour objectif de

deacutefinir un concept ou une ideacutee

mais les interpreacutetations peuvent

diverger

Photographie

aeacuterienne

Graphique Monoseacutemique

Transcriptions de relations entre

des concepts preacutealablement

deacutefinis

Un

organigramme

36

Cartographie de linformation- Composantes des applications cartographiques

2- Composante visuelle Eleacutements de seacutemiologie graphique (J Bertin)

laquo La graphique est un systegraveme de signes [structures visuelles] qui permet de transcrire les

relations de diffeacuterence drsquoordre ou de proportionnaliteacute existant entre des donneacutees qualitatives ou

quantitatives raquo [Bonin 1997]

laquo La carte est une image graphique qui transcrit les relations de proportionnaliteacute ordre et

diffeacuterence par des variations proportionnelles ordonneacutees et diffeacuterentielles raquo

37

Cartographie de linformation- Composantes des applications cartographiques

2- Composante visuelle Eleacutements de seacutemiologie graphique (J Bertin)

38

Cartographie de linformation- Composantes des applications cartographiques

2- Composante visuelle Eleacutements de seacutemiologie graphique (J Bertin)

39

Cartographie de linformation- Composantes des applications cartographiques

2- Composante visuelle Eleacutements de seacutemiologie graphique (J Bertin)

40

Cartographie de linformation- Composantes des applications cartographiques

2- Composante visuelle Eleacutements de seacutemiologie graphique (J Bertin)

41

Cartographie de linformation- Composantes des applications cartographiques

2- Composante visuelle Eleacutements de seacutemiologie graphique (J Bertin)

Variables visuelles (laquo variables reacutetiniennes raquo)

Variation des proprieacuteteacutes graphiques des structures visuelles

42

Cartographie de linformation- Composantes des applications cartographiques

2- Composante visuelle Eleacutements de seacutemiologie graphique (J Bertin)

Variables visuelles

Cartographie de linformation- Composantes des applications cartographiques

2- Composante visuelle Eleacutements de seacutemiologie graphique (J Bertin)

43

44

Cartographie de linformation- Composantes des applications cartographiques

2- Composante visuelle Theacuteorie de la Gestalt (1890)

Principe

Le contexte est tregraves important dans la perception visuelle [Guillaume]

Les structures visuelles ne sont pas indeacutependantes les unes des autres et le contexte est

important pour la signification qui leur est attribueacutee

En graphique

La perception visuelle srsquoattache agrave reconnaicirctre des modegraveles dans un ensemble de structures

visuelles

De cette theacuteorie reacutesultent des lois correspondant agrave des cateacutegories drsquointeractions possibles entre

les structures visuelles

45

Cartographie de linformation- Composantes des applications cartographiques

Lois Effets Illustrations

Preacutegnance Une image est facile agrave comprendre si sa structure est simple et inversement

Proximiteacute Deux composants qui sont proches ont tendance agrave ecirctre perccedilus comme un

seul composant

Similariteacute Les composants similaires sont perccedilus comme srsquoils eacutetaient regroupeacutes

Fermeture Les contours proches sont perccedilus comme unifieacutes

Continuiteacute Des eacuteleacutements voisins sont perccedilus groupeacutes lorsqursquoils possegravedent

potentiellement un trait qui les relie

Symeacutetrie Des eacuteleacutements sont perccedilus comme un eacuteleacutement global lorsqursquoils forment une

symeacutetrie

Trajectoire identique Des eacuteleacutements qui se deacuteplacent avec la mecircme trajectoire semblent groupeacutes

Familiariteacute Des eacuteleacutements sont plus facilement groupables si le groupe est familier ou

significatif

46

Cartographie de linformation- Composantes des applications cartographiques

2- Composante visuelle Theacuteorie de la Gestalt (1890)

47

Cartographie de linformation- Composantes des applications cartographiques

2- Composante visuelle Conception drsquoun langage graphique (JB Lamy)

1- Analyser les informations ou connaissances que lrsquoon souhaite repreacutesenter

Determiner les attributs qui

deacutefinissent les termes agrave repreacutesenter

bull Par exemple pour repreacutesenter

des maladies les attributs pourraient

ecirctre la localisation anatomique

(cardiaque reacutenale) la seacuteveacuteriteacute etc

2- Associer agrave chaque attribut une variable

reacutetinienne pour le repreacutesenter

bull Par exemple pour les maladies

Associer lrsquoattribut localisation

anatomique agrave la variable

formepictogramme

bull Repreacutesenter la seacuteveacuteriteacute par la variable

couleur

3- Les relations entre les diffeacuterents termes

repreacutesenteacutes doivent ecirctre expliciteacutees

48

Cartographie de linformation

Famille doutils et contextes applicatifs

1- Famille doutils

Typologies

Aperccedilu

Travaux pratiques

2- Contextes applicatifs

Eleacutements deacutevaluation

Les perspectives de la cartographie seacutemantique

49

Cartographie de linformation- Famille doutils et contextes applicatifs

1- Famille doutils

Typologies

Aperccedilu

TP agrave partir de la seacutelection httpdeliciouscommylk02Stage_Carto

Et encore httpwwwvisualcomplexitycomvc (plus de 500 projets dans le domaine)

50

Cartographie de linformation- Famille doutils et contextes applicatifs

1- Famille doutils typologies

11- Typologie scientifique eacutetablie selon des critegraveres internes au domaine

bull les trois principaux paradigmes technique de visualisation type de donneacutees et type dinteraction (Keim

DA 2002)

bull la nature des donneacutees unidimensionnelles bidimensionnelles tridimensionnelles temporelles

multidimensionnelles hieacuterarchiques reacuteseaux (Shneiderman B 1996)

12- Etat de lart eacutevaluation - benchmarking typologie orienteacutee usages (veille et intelligence eacuteconomique)

Quelques exemples

Inist httpoutilsveilleinistfr

Esiee httpwwwaa-esieecomevent2005AGClaudeAschenbrennerppt

Ecole des Mines httpwwwdemoscienceorgresources

Commercial httpwwwk-praxiscom

Commercial httpwwwinformation-mininginfostate_of_art

Universitaire httpwell-formed-datanetthesis

13- Typologie cartographique

Quelques exemples de bloggers

bull Claude Aschenbrenner httpwwwserialmappercomarchive20070110la-pierre-de-rosette-de-la-

cartographie-de-l-informationhtml avec son mode demploi

bull Kartoo httpwwwmapdreamcom

51

Cartographie de linformation- Famille doutils et contextes applicatifs

1- Famille doutils typologie scientifique

52

Cartographie de linformation- Famille doutils orienteacutes laquo bibliothegraveques raquo

2- Les outils de navigation et de recherche sur Internet (seacutelection de Pierre Nobis)

A- Les navigateurs Nestor Navicrawler

53

Cartographie de linformation- Famille doutils orienteacutes laquo bibliothegraveques raquo

2- Les outils de navigation et de recherche sur Internet (seacutelection de Pierre Nobis)

B- Les outils de visualisation des reacutesultats PageBull ManagedQ

Bbis Les outils de visualisation de reacutesultats dans les actualiteacutes

repreacutesentation carreacutee Marumushi - Google NewsNewsIsFree - The Hive Group Tenbyten -flux RSS des sources drsquoactualiteacutes internationales

repreacutesentation sous forme de graphe

Silobreaker

54

Cartographie de linformation- Famille doutils orienteacutes laquo bibliothegraveques raquo

2- Les outils de navigation et de recherche sur Internet

B-Les outils de visualisation des reacutesultats TouchGraph application Java permettant de cartographier les reacutesultats issus

notamment de Google Amazon PubMed Alexa FaceBook

55

Cartographie de linformation- Famille doutils orienteacutes laquo bibliothegraveques raquo

2- Les outils de navigation et de recherche sur Internet (seacutelection de Pierre Nobis)

C- Les outils de recherche avec ajout de termes associeacutes dans une colonne regroupement theacutematique nuage de laquo tags raquo

D- Meacutetamoteurs avec affichage de clusters sous forme de listes

Carrot2 Clusty-Vivissimo Iboogie Polymeta Turbo10 Webclust

56

Cartographie de linformation- Famille doutils orienteacutes laquo bibliothegraveques raquo

2- Les outils de navigation et de recherche sur Internet (seacutelection de Pierre Nobis)

E- Meacutetamoteurs avec affichage de clusters sous forme graphique

E1- repreacutesentation centreacutee Allplus WebBrain

Allplus est un meacutetamoteur agrave clusteacuterisation graphique qui interroge les bases de Ask Google Yahoo et Livepar le biais de lrsquooutil Polymeta Lrsquointerface cluster graph permet de visualiser les reacutesultats sous une forme graphique

Webbrain permet de visualiser et drsquoaffiner les reacutesultats drsquoune requecircte issus de lrsquoOpen Directory Project

57

Cartographie de linformation- Famille doutils orienteacutes laquo bibliothegraveques raquo

2- Les outils de navigation et de recherche sur Internet (seacutelection de Pierre Nobis)

E- Meacutetamoteurs avec affichage de clusters sous forme graphique

E2- Repreacutesentation circulaire Grokker

E3- Repreacutesentation topographique TooLeNet srsquoappuie sur les technologies de KartOO et sur lrsquoindex de

Yahoo pour effectuer des recherches selon 3 modes moteur annuaire et carte auxquels srsquoajoutent des

options de personnalisation et de classification assez avanceacutees

58

Cartographie de linformation- Famille doutils orienteacutes laquo bibliothegraveques raquo

3- Les Outils graphiques dexploration

Wikimindmap est un outil drsquointerrogation

et de repreacutesentation des informations issues

de Wikipedia sous forme de carte heuristique

Visuwords est un dictionnaire en ligne

qui preacutesente ses reacutesultats sous forme de laquo grappes raquo

Il utilise la base de donneacutees Wordnet

Code couleur pour les diffeacuterentes relations

seacutemantiques hieacuterarchiques entre les termes

ainsi que les synonymes et les antonymes

59

Cartographie de linformation- Famille doutils orienteacutes laquo bibliothegraveques raquo

4- Les outils de creacuteation (carto)graphiqueA- Pour meacutemoire les logiciels de creacuteation de cartes heuristiques et conceptuelles

Cmaptools est un logiciel gratuit (usage eacuteducatif) de creacuteation de cartes conceptuelles

Freemind est un logiciel libre et gratuit qui permet de reacutealiser des cartes heuristiques

Thinkgraph est un logiciel gratuit de dessin 2D orienteacute vers la reacutealisation de cartes conceptuelles

60

Cartographie de linformation- Famille doutils orienteacutes laquo bibliothegraveques raquo

4- Les outils de creacuteation (carto)graphique

B- Les outils drsquoeacutedition de graphes

Guess est un logiciel libre et gratuit deacuteveloppeacute par Eytan Adar qui permet de visualiser des

graphes statiques Options de modification de certains attributs (taille couleur forme

algorithmes de positionnementhellip)

Pajek est un logiciel libre et gratuit (usage non commercial) deacuteveloppeacute par V Batagelj et A

Mrvar qui permet de traiter des donneacutees de reacuteseaux de grande taille Pajek signifie araigneacutee

en slovegravene

C- Les outils en ligne

ManyEye service collaboratif deacuteveloppeacute par IBM gracircce auquel on peut geacuteneacuterer selon un

des modegraveles proposeacutes sa propre visualisation de lrsquoinformation (apregraves avoir teacuteleacuteverseacute ses

propres donneacutees)

IssueCrawler outil de web social mining utilisable agrave distance (chargement des URL)

reacutecupeacuteration graphique

61

Cartographie de linformation- Famille doutils et contextes applicatifs

2- Contextes applicatifs

Eleacutements deacutevaluation

Les perspectives de la cartographie seacutemantique

62

Cartographie de linformation- Famille doutils et contextes applicatifs

2- Contextes applicatifs Eleacutements deacutevaluation

21- Evaluation scientifique

Question de meacutethode Eacutevaluation des Interfaces Utilisateur drsquoInformation Bonnel et Chevalier 2006

Objectif proposer une meacutethodologie deacutevaluation permettant de comparer du point de vue de la

visualisation des reacutesultats agrave une requecircte les outils de recherche Google Vivisimo Ujiko Grokker Kartoo

Vios SmartWeb (prototype)

Evaluation des repreacutesentations graphiques geacuteneacuteraliteacutes (Tricot et Roche 2006)

bull Arborescences simples

habitude des utilisateurs (explorateur de fichiers informatiques) pas de problegravemes avec volume limiteacute

au-delagrave drsquoune certaine quantiteacute drsquoinformation les arborescences deviennent inefficaces

bull Arbres de cocircnes en 3D

posent des problegravemes agrave lrsquoutilisateur qui nrsquoa pas lrsquohabitude des espaces en 3D

effort cognitif plus eacuteleveacute et prise en main plus longue

bull Arbres hyperboliques

problegravemes des eacutetiquettes des eacuteleacutements (occlusion)

effet de zoom impreacutevisible

Lrsquoune des conclusions une seule visualisation ne permet pas de reacutepondre agrave toutes les questions

multiplier les possibiliteacutes de visualisation

63

Cartographie de linformation- Famille doutils et contextes applicatifs

2- Contextes applicatifs Eleacutements deacutevaluation

21- Evaluation scientifique doctorat en cours agrave lrsquoEBSI (Aline Creacutedeville)

bull Contexte visualisation de lrsquoinformation dans le contexte de recherche drsquoinformation

bull Point de vue de la seacutemiologie graphique

o principes les plus couramment utiliseacutes sont la proximiteacute (Grokker) lrsquoenglobage (Kartoo)

et la connectiviteacute (Auquabrowser)

omeacutetaphores visuelles pas toujours adeacutequates au web

bull Reacutesultats

o lrsquoinformation doit ecirctre structureacutee

o apports possible pour lrsquoexploration mais pas pour la recherche

64

Cartographie de linformation- Famille doutils et contextes applicatifs

2- Contextes applicatifs Eleacutements deacutevaluation

22- Evaluation en contexte dusage de recherche dinformations (Ciaccia Ihadjadene Martins 2006)

Objectif analyse de lrsquoinfluence du mode de preacutesentation des informations sur les processus cognitifs mis

en jeu par lrsquoutilisateur dans lrsquoactiviteacute de recherche drsquoinformations sur Internet

Outils eacutevalueacutes Kartoo (pour 18 usagers) et Mapstan (pour 16 usagers)

Principaux reacutesultats

Coucirct cognitif sans pour autant conduire agrave de meilleures performances (comparaison avec une

preacutesentation en liste)

Hypothegravese nouveauteacute de la preacutesentation versus habitude des preacutesentations verbales

Strateacutegie optimiseacutee preacuteciser la requecircte drsquoune recherche agrave but flou et se concentrer sur les informations

relieacutees agrave lrsquoobjectif de la question versus informations non relieacutees

Le sens de la visualisation doit ecirctre clarifieacute les systegravemes doivent faciliter la compreacutehension des

eacuteleacutements visualiseacutes

65

Cartographie de linformation- Famille doutils et contextes applicatifs

2- Contextes applicatifs Les perspectives de la cartographie seacutemantique (C Tricot de la seacutemantique agrave la carte)

Pour reacutesoudre la probleacutematique de la repreacutesentation de lrsquoinformation la visualisation de

lrsquoinformation seule ne suffit pas

La visualisation de lrsquoinformation permet uniquement de preacutesenter des donneacutees en leur

associant une repreacutesentation graphique

La cartographie seacutemantique se veut

Une meacutethode de cartographie reposant sur la seacutemantique dun domaine

Un processus de production de connaissances

donneacutees brutes -gt donneacutees structureacutees -gt donneacutees repreacutesenteacutees -gt donneacutees visualiseacutees

Un formalisme de description type Reacuteseaux seacutemantiques

Un langage de description cartographique

Une architecture multi-agents

66

Cartographie de linformation- Famille doutils et contextes applicatifs

2- Contextes applicatifs Les perspectives de la cartographie seacutemantique (C Tricot de la seacutemantique agrave la carte)

67

Cartographie de linformation- Famille doutils et contextes applicatifs

2- Contextes applicatifs Les perspectives de la cartographie seacutemantique

ldquoUne bonne structure repreacutesentative graphique pour un arbre de donneacutees est celle qui deacuteforme le moins les similitudes originales entre les uniteacutes de donneacutees (similitudes qui sont donneacutes par loutil de classification) ou en dautres termes deux individus (ou classes) qui sont proches lune de lautre le restent aussi possible que peut apregraves projection dans l`espace de visualisation et ceci doit ecirctre eacutevident(et veacuterifiable par une mesure de calcul de divergence) dans lenvironnement de visualisation ldquo Tricot 2006

Page 3: Cartographie de l'information- Composantes des - Urfist de Paris

3

Cartographie de linformation- Introduction

1- Preacutesupposeacutes la cognition externe et les capaciteacutes visuelles

versus la repreacutesentation interne -gt raisonnement distribueacute

support externe doteacute de plusieurs fonctions

bull aide-meacutemoire

bull outil de communication

-gt permet dacceacuteder agrave des connaissances et des compeacutetences inaccessibles par des

repreacutesentations internes [Zhang 1997]

meacutecanisme perceptif

toujours efficace Les repreacutesentations externes facilitent le travail cognitif seulement si la

repreacutesentation est bien choisie

4

Cartographie de linformation- Introduction

1- Preacutesupposeacutes la cognition externe et les capaciteacutes visuelles

Traitement graphique des informations nous sommes capables drsquoassimiler quasi instantaneacutement

et sans effort un grand nombre drsquoinformations repreacutesenteacutees graphiquement

Avantages de la visualisation [Ware 2000 Ware 2005]

bull manipuler des structures complexes

bull percevoir lrsquoeacutemergence de proprieacuteteacutes laquo inconnues raquo

bull mettre en eacutevidence des problegravemes dans les donneacutees dans leur collecte

bull percevoir simultaneacutement des proprieacuteteacutes agrave grande et agrave petite eacutechelle sur les donneacutees

bull faciliter la formation drsquohypothegraveses sur les donneacutees

5

Cartographie de linformation- Introduction

2- Deacutefinitions carte et cartographie

Deacutefinition du Comiteacute franccedilais de cartographie

La carte est une repreacutesentation geacuteomeacutetrique conventionnelle geacuteneacuteralement plane en positions

relatives de pheacutenomegravenes concrets ou abstraits localisables dans lrsquoespace

Principales proprieacuteteacutes

Une carte est un document graphique donc visuel qui obeacuteit agrave une ldquoseacutemiologie graphiquerdquo (Bertin)

Une carte repreacutesente toujours un espace drsquoinformations

bull ces informations peuvent ecirctre abstraites (comme les donneacutees drsquoune organisation) ou scientifiques (crsquoest-

agrave-dire issues de mesures physiques comme des donneacutees geacuteographiques)

bull elles sont toujours seacutelectionneacutees une carte ne fait apparaicirctre qursquoune cateacutegorie drsquoinformations - son

thegraveme

Lrsquoespace cartographieacute a pour objectif de transmettre lui-mecircme des informations sur la nature les relations

la localisation ou lrsquoimportance des donneacutees ou des pheacutenomegravenes qui le composent

6

Cartographie de linformation- Introduction

2- Deacutefinitions carte et cartographie

La cartographie de donneacutees non geacuteographiques ou laquo visualisation dinformation raquo

bull laquo La visualisation est lutilisation de repreacutesentations visuelles interactives et informatiseacutees de donneacutees

pour amplifier la cognition raquo

bull laquo visualisation scientifique raquo toutes les visualisations de pheacutenomegravenes physiques La cartographie

geacuteographique entre dans cette classe

bull laquo visualisation dinformations raquo toutes les visualisations de donneacutees abstraites (non lieacutes agrave des

pheacutenomegravenes physiques)

bull laquo La visualisation dinformations est lutilisation de repreacutesentations visuelles interactives et informatiseacutees

de donneacutees abstraites pour amplifier la cognition raquo

Source Tricot (2006)

7

Cartographie de linformation- Introduction

La cartographie

La cartographie de donneacutees abstraites est assimilable agrave un processus qui permet de passer de donneacutees agrave une

carte ougrave les donneacutees peuvent deacutecrire des connaissances

8

Cartographie de linformation- Introduction

3- Ancrage historique scientomeacutetrie et Leximappe

Ancrage

Deacutebut des anneacutees 1960 Solla Price revue Scientometrics creacuteeacutee en 1978

Objectif

Trouver des lois reacutegissant la production scientifique (cf creacuteation par Garfield de lISI (Institute for Scientific

information) banque de donneacutees Citation Index)

Meacutethode

Appliquer des meacutethodes statistiques aux donneacutees secondaires des publications (mesures bibliomeacutetriques)

unidimensionnelles mesures statistiques simples (nombre darticles ou brevets produits par un laboratoire

nombre de recherches meneacutees en collaboration etc) comptage des citations (indicateur de limpact dun

document sur lensemble de la communauteacute scientifique)

bi-dimensionnelles permettent deacutetablir les liens pouvant exister entre deux publications par exemple

lorsquelles citent toutes les deux les mecircmes auteurs les mecircmes brevets etc (meacutethode de co-citations ou de co-

occurence de citations) ou quelles recourent au mecircme lexique (meacutethode des mots associeacutes)

Reacutesultat

Des cartes (outils graphiques associeacutes)

9

Cartographie de linformation- Introduction

Leximappe (deacuteveloppeacute conjointement par le Centre de Documentation Scientifique et Technique du CNRS

aujourdrsquohui INIST-CNRS et le Centre de Sociologie et Innovation de lrsquoEcole Nationale Supeacuterieure des Mines de

Paris)

Systegraveme drsquoorganisation de corpus documentaire fondeacute sur la meacutethode des mots associeacutes

bull Identifier les mots les plus fortement associeacutes entre eux -gt thegravemes de recherche

bull Construction drsquoagreacutegats (classes) indexant un sous-ensemble du corpus initial repreacutesentant un pocircle

drsquointeacuterecirct du domaine eacutetudieacute

bull Position des pocircles dans un diagramme strateacutegique suivant deux variables la centraliteacute souligne le

pouvoir de structuration (un agreacutegat est structurant dans un domaine quand il est relieacute agrave drsquoautres pocircles) la

densiteacute reflegravete la coheacuterence interne du pocircle (plus lrsquoassociation entre descripteurs est forte plus le pocircle est

dense)

10

Cartographie de linformation- Introduction

Meacutethode des mots associeacutes

Principe

Si deux documents sont proches parce qursquoils sont indexeacutes par des mots-cleacutes similaires alors deux mots-cleacutes

figurant ensemble dans un grand nombre de documents seront consideacutereacutes comme proches

Indice drsquoeacutequivalence eacutegal agrave la cooccurrence au carreacute des mots-cleacutes i et j diviseacutee par le produit de leurs

freacutequences respectives Eij = C2

ij (Ci x Cj)

Lrsquoindice drsquoeacutequivalence eacutevalue la force du lien lorsqursquoil vaut 0 les mots ne sont jamais preacutesents ensemble srsquoil

vaut 1 ils apparaissent toujours ensemble on dit qursquoils sont eacutequivalents

Classification Ascendante Hieacuterarchique (CAH) dit du simple lien (laquo single link clustering raquo)

Une classe est constitueacutee de mots associeacutes les uns aux autres par des associations internes

Les classes peuvent eacutegalement avoir des relations entre elles par le biais drsquoassociations externes entre des pairs

de mots appartenant agrave deux classes distinctes

Lrsquoeacutetape de classification des mots-cleacutes acheveacutee les documents les contenant peuvent finalement ecirctre affecteacutes

aux classes

Les classes sont ensuite positionneacutees sur un plan carteacutesien selon les valeurs de leurs laquo densiteacute raquo et

laquo centraliteacute raquo constituant ainsi une ldquocarterdquo

la densiteacute drsquoune classe rapporteacutee sur lrsquoaxe des ordonneacutees est exprimeacutee par la valeur moyenne des

associations internes entre mots-cleacutes formant la classe

la centraliteacute drsquoune classe rapporteacutee sur lrsquoaxe des abscisses est exprimeacutee par la valeur moyenne des

associations externes entre les mots qui la constituent et les mots drsquoautres classes

11

Cartographie de linformation- Introduction

4- Probleacutematique de la cartographie de linformation

Les donneacutees abstraites ne possegravedent pas de repreacutesentation graphique intrinsegraveque

bull Pour Card Mackinlay et Shneiderman tant que les informations et les donneacutees que lon souhaite

repreacutesenter sont deacuteriveacutees de donneacutees physiques alors elles possegravedent une repreacutesentation

graphique intrinsegraveque

bull Cas dune carte geacuteographique qui repreacutesente des villes la localisation physique des villes sur le

globe terrestre fournit la position relative des points correspondants aux villes sur la carte Les

repreacutesentations graphiques sont alors laquo agrave limage raquo des pheacutenomegravenes observeacutes

Pour les donneacutees abstraites la difficulteacute est de leur trouver une repreacutesentation et plus particuliegraverement une

reacutepartition dans lespace de la carte

bull Cas dune cartographie de concepts la difficulteacute nest pas de trouver une repreacutesentation pour chaque

concept (par exemple un rectangle ou un cercle) mais bien de les reacutepartir dans lespace de la

carte sachant que la reacutepartition aura un impact important sur la signification perccedilue

Lenjeu de la cartographie de donneacutees abstraites est

de deacuteterminer le choix des repreacutesentations pour les visualiser

12

Cartographie de linformation- Introduction

4- Probleacutematique de la cartographie de linformation

13

Cartographie de linformation- Introduction

5- Ancrage disciplinaire seacutemiologie graphique sciences cognitives gestion des connaissances (statistiques et intelligence artificielle)

14

Cartographie de linformation- Composantes des applications cartographiques

1- Composante calculatoire Data Mining

Terminologie

Forage de donneacutees -gt fouille de donneacutees -gt exploration de donneacutees -gt extraction de connaissances agrave partir de donneacutees (ECD)

Deacutefinitions

Scientifique

Processus non-trivial drsquoidentification de structures inconnues valides et potentiellement

exploitables dans les bases de donneacutees (Fayyad1996)

Meacutethodologique

Algorithmes et meacutethodes destineacutes agrave lrsquoexploration et lrsquoanalyse de grandes bases de donneacutees

informatiques en vue de deacutetecter dans ces donneacutees des regravegles des associations des

tendances inconnues (non fixeacutees a priori) des structures particuliegraveres restituant de faccedilon

concise lrsquoessentiel de lrsquoinformation utile pour lrsquoaide agrave la deacutecision

15

Cartographie de linformation- Composantes des applications cartographiques

1- Composante calculatoire Data Mining

Speacutecificiteacutes

Se distingue de lanalyse de donneacutees et de la statistique par les points suivants

ne neacutecessite pas dhypothegravese de deacutepart cest des donneacutees elles-mecircmes que se deacutegageront les correacutelations inteacuteressantes (exemples historiques des tickets de caisse)

les connaissances extraites par le Data Mining ont vocation agrave ecirctre inteacutegreacutees dans un scheacutema

organisationnel

les donneacutees traiteacutees sont issues des systegravemes de stockage en place dans lorganisation

-gt Le data mining fait passer drsquoanalyses confirmatoires agrave des analyses exploratoires

Techniques

Les techniques descriptives visent agrave mettre en eacutevidence des informations preacutesentes mais cacheacutees

par le volume des donneacutees cas des recherches drsquoassociations -gt il nrsquoy a pas de variable laquo cible raquo agrave

preacutedire

Les techniques preacutedictives visent agrave extrapoler de nouvelles informations agrave partir des informations

preacutesentes (cas du scoring) -gt il y a une variable laquo cible raquo agrave preacutedire

16

Cartographie de linformation- Composantes des applications cartographiques

1- Composante calculatoire Data Mining

Meacutethodes Deacutefinition Usages Techniques (liste indicative)

Non superviseacutees Sans variable cible Pour deacutegager dun ensemble

dindividus des groupes homogegravenes

Ex typologie

Techniques agrave base de

reacuteseau de neurones

Classification ascendante

hieacuterarchique

Recherche dassociations

Superviseacutees Avec variable cible Pour expliquer etou preacutevoir un ou

plusieurs pheacutenomegravenes observables

et effectivement mesureacutes

Ex filtrage collaboratif

classifications

Techniques agrave base

darbres de deacutecision

Techniques agrave base de

reacuteseau de neurones

Reacuteduction de

donneacutees

Utiliseacutee en amont des

autres meacutethodes

Permettent de reacuteduire un ensemble

de donneacutees volumineux agrave un

ensemble de taille plus reacuteduite

eacutepureacute de ce que lon consideacuterera

comme de linformation non

pertinente ou non signifiante

comme du bruit

Techniques danalyse

factorielle type AFC

17

Cartographie de linformation- Composantes des applications cartographiques

1- Composante calculatoire Data Mining exemples

Classification Affecter un objet agrave une classe en fonction de ses caracteacuteristiques A1hellipAn

Exemples

Deacuteterminer si un message est un mail de SPAM ou non (2 classes)

Affecter une page web dans une des cateacutegories theacutematiques dun annuaire (multi-classes)

Meacutethode

Si pas de theacuteorie pour deacutefinir la classe en fonction de A1hellipAn alors on eacutetudie un ensemble

drsquoexemples pour lesquels on connaicirct A1hellipAn et la classe associeacutee et on construit un

modegravele

Classe = f(A1hellipAn)

Techniques

Analyse discriminante

Arbre de classification

Reacuteseaux de neurones

18

Cartographie de linformation- Composantes des applications cartographiques

1- Composante calculatoire Reacuteseau de neurones

Principe

Un neurone est une uniteacute de calcul eacuteleacutementaire combine des entreacutees x1x

nen une sortie o

Les entreacutees nont pas toutes la mecircme importance agrave chaque entreacutee xiest associeacute un poids (ou coefficient

synaptique) wi

Luniteacute calcule dabord lactiviteacute dentreacutee (somme pondeacutereacutee des entreacutees)

Coefficients synaptiques

Sont calculeacutes non a priori mais sur la base des valeurs disponibles principe fondamental de

lrsquoapprentissage

Apprendre crsquoest calculer les valeurs des coefficients synaptiques en fonction des exemples disponibles

Algorithme laquo drsquoentraicircnement raquo modifie les poids synaptiques en fonction drsquoun jeu de donneacutees

preacutesenteacutee en entreacutee du reacuteseau

Geacuteneacuteraliser

Lrsquointeacuterecirct des reacuteseaux de neurones reacuteside dans leur capaciteacute agrave geacuteneacuteraliser agrave partir du jeu de test

19

Illustration du reacuteseau de neurones

20

Cartographie de linformation- Composantes des applications cartographiques

1- Composante calculatoire Text Mining

DeacutefinitionProceacutedeacute consistant agrave syntheacutetiser (classer structurer reacutesumer hellip) les textes en analysant les relations les patterns

et les regravegles entre uniteacutes textuelles (mots groupes phrases documents)

Du Data Mining au Text Mining

Ajout de la lexicomeacutetrie

Comme en Data Mining on trouve en Text Mining

des algorithmes descriptifs recherche des thegravemes abordeacutes dans un ensemble (corpus) de documents sans

connaicirctre agrave lrsquoavance ces thegravemes

des algorithmes preacutedictifs recherche des regravegles permettant drsquoaffecter automatiquement un document agrave un

thegraveme parmi plusieurs thegravemes preacutedeacutefinis

Application des techniques de Data mining

Individus = documents

Caractegraveres des individus = thegravemestermes des documents

21

Text Mining Data Mining

Impleacutementation vaste

degraves 2000

Impleacutementation vaste

degraves 1994Maturiteacute

milliersmilliers Dimension

complexesimpleRepreacutesentation

non-structureacutestructureacuteStructure

textuelnumeacuterique amp

cateacutegorique Objet

Text MiningData Mining

22

Vue simplifieacutee du Text Mining

23

Analyse lexicomeacutetrique

Eliminer les mots vides Deacutecouper les textes en uniteacutes Lemmatiser Reacuteduire le nombre de termes agrave traiter

24

Anayse statistique

25

Term frequency (TF)

Un terme qui apparait plusieurs fois dans un document est plus

important qursquoun terme qui apparaicirct une seule fois

wij = Nombre drsquooccurrences du terme ti dans le document dj

TFij = Freacutequence du terme ti dans le document dj

j

ij

d

wTF

ij

26

Inverse document frequency (IDF)

Un terme qui apparaicirct dans peu de documents est un meilleur discriminant qursquoun terme qui apparaicirct dans tous les documents

bull dfi = nombre de documents contenant le terme ti

bull d = nombre de documents du corpus

Inverse document frequency

i

i

df

dIDF log

27

Pondeacuteration TF-IDF

TF-IDF signifie Term Frequency x Inverse Document

Frequency

bull Proposeacutee par [Salton 1989] mesure limportance drsquoun terme

dans un document relativement agrave lrsquoensemble des documents

bull tf ij = freacutequence du terme i dans le document j

df i = nombre de documents contenant le terme i

N = d = nombre de documents du corpus

28

Similariteacute entre documents

Permet de ranger les

documents par pertinence

Le cosinus de lrsquoangle est

souvent utiliseacute

2d1d

2dT

1d2d1d )cos(

bull gt cos( )ltcos( )

bull d2 est plus proche de d1que de d3

29

Cartographie de linformation- Composantes des applications cartographiques

1- Composante calculatoire Data Clustering ou partitionnement de donneacutees

Deacutefinition

Meacutethode statistique danalyse des donneacutees qui a pour but de regrouper un ensemble de donneacutees en

diffeacuterents paquets homogegravenes chaque sous-ensemble partage des caracteacuteristiques communes qui

correspondent le plus souvent agrave des critegraveres de proximiteacute que lon deacutefinit en introduisant des mesures

de distance

Principe

Pour obtenir un bon partitionnement il convient de

bull minimiser linertie intra-classe pour obtenir des grappes (cluster en anglais) les plus homogegravenes

possibles

bull maximiser linertie inter-classe afin dobtenir des sous-ensembles bien diffeacuterencieacutes

Composition

Un cluster est composeacute de

bull une liste de mots-cleacutes

bull une liste dassociations internes

bull une liste dassociations externes

bull une eacutetiquette

bull une liste de documents affecteacutes apregraves la classification

30

Cartographie de linformation- Composantes des applications cartographiques

1- Composante calculatoire DataClustering

bull Lassociation la plus forte permet de creacuteer le premier cluster ici laquoa-braquo)

bull Une nouvelle association peut donner lieu agrave un laquoenrichissementraquo de cluster laquoa-eraquo vient

enrichir le cluster laquoa-braquo qui contient deacutejagrave laquoaraquo) ou agrave une creacuteation de nouveau cluster (laquoc-draquo par

exemple)

Deacutefinitions

Web mining Data mining appliqueacute aux donneacutees de navigation sur le web

Objectifs du web mining

1 Optimiser la navigation dans un site web (confort des internautes)

2 Augmenter le nombre de pages consulteacutees et lrsquoimpact des liens et des banniegraveres publicitaires

3 Deacuteceler les centres drsquointeacuterecirct et donc les attentes des internautes visitant le site

Types dAnalyses

Statistique descriptive

bull laquo 70 des internautes ont consulteacute 3 pages ou moins raquo

bull laquo 40 des internautes accegravedent au site sans passer par la page drsquoaccueil raquo

Deacutetection des regravegles drsquoassociation

bull laquo 20 des internautes visitant la page A visitent la page B dans la mecircme session raquo

Segmentation des internautes

bull Selon les sites de provenance les pages drsquoentreacutee le nombre de pages consulteacutees les fichiers teacuteleacutechargeacutes les pages de sortie etc

1- Composante calculatoire Web Mining

Cartographie de linformation- Composantes des applications cartographiques

31

32

Cartographie de linformation- Composantes des applications cartographiques

1- Composante calculatoire Web Social Data Mining

Hypothegravese documentaire

Web structureacute par des laquo localiteacutes theacutematiques raquo deacutefinies par une forte correacutelation entre

contenu des documents et proximiteacute hypertexte dessinant comme un territoire

Probleacutematique de la laquo traccedilabiliteacute raquo du socialbull Le web se preacutesente comme une matrice technique distribueacutee faccedilonneacutee par des usages dont

le reacuteseau garde la meacutemoire bull Le seul fait dutiliser une technologie numeacuterique contribue agrave produire des traces et agrave

grande eacutechelle elles constituent un reacuteservoir immense de donneacutees disponibles

Principes hubs et autoriteacutes (Kleinberg et al)

bull Autoriteacutes ensemble des pages contenant les meilleures sources drsquoinformation pour un

thegraveme donneacute

bull Hubs pages pointant sur les autoriteacutes

bull Le calcul ressemble au calcul drsquoimportance drsquoun article par nombre de citations (les liens

du Web vus comme des recommendations)

Applications

Sujets controverseacutes ougrave le seul lexique nest pas discriminant

33

Cartographie de linformation- Composantes des applications cartographiques

2- Composante visuelle

Eleacutements de seacutemiologie graphique (J Bertin) Theacuteorie de la Gestalt

34

Cartographie de linformation- Composantes des applications cartographiques

2- Composante visuelle Eleacutements de seacutemiologie graphique (J Bertin)

35

Cartographie de linformation- Composantes des applications cartographiques

2- Composante visuelle Eleacutements de seacutemiologie graphique (J Bertin)

Type de dessin Signification

des signes Description Exemple

Graphis

me

Image non-

figurative Panseacutemique

Le systegraveme srsquoouvre agrave toute

signification Tableau drsquoart

Image

figurative Polyseacutemique

Le systegraveme a pour objectif de

deacutefinir un concept ou une ideacutee

mais les interpreacutetations peuvent

diverger

Photographie

aeacuterienne

Graphique Monoseacutemique

Transcriptions de relations entre

des concepts preacutealablement

deacutefinis

Un

organigramme

36

Cartographie de linformation- Composantes des applications cartographiques

2- Composante visuelle Eleacutements de seacutemiologie graphique (J Bertin)

laquo La graphique est un systegraveme de signes [structures visuelles] qui permet de transcrire les

relations de diffeacuterence drsquoordre ou de proportionnaliteacute existant entre des donneacutees qualitatives ou

quantitatives raquo [Bonin 1997]

laquo La carte est une image graphique qui transcrit les relations de proportionnaliteacute ordre et

diffeacuterence par des variations proportionnelles ordonneacutees et diffeacuterentielles raquo

37

Cartographie de linformation- Composantes des applications cartographiques

2- Composante visuelle Eleacutements de seacutemiologie graphique (J Bertin)

38

Cartographie de linformation- Composantes des applications cartographiques

2- Composante visuelle Eleacutements de seacutemiologie graphique (J Bertin)

39

Cartographie de linformation- Composantes des applications cartographiques

2- Composante visuelle Eleacutements de seacutemiologie graphique (J Bertin)

40

Cartographie de linformation- Composantes des applications cartographiques

2- Composante visuelle Eleacutements de seacutemiologie graphique (J Bertin)

41

Cartographie de linformation- Composantes des applications cartographiques

2- Composante visuelle Eleacutements de seacutemiologie graphique (J Bertin)

Variables visuelles (laquo variables reacutetiniennes raquo)

Variation des proprieacuteteacutes graphiques des structures visuelles

42

Cartographie de linformation- Composantes des applications cartographiques

2- Composante visuelle Eleacutements de seacutemiologie graphique (J Bertin)

Variables visuelles

Cartographie de linformation- Composantes des applications cartographiques

2- Composante visuelle Eleacutements de seacutemiologie graphique (J Bertin)

43

44

Cartographie de linformation- Composantes des applications cartographiques

2- Composante visuelle Theacuteorie de la Gestalt (1890)

Principe

Le contexte est tregraves important dans la perception visuelle [Guillaume]

Les structures visuelles ne sont pas indeacutependantes les unes des autres et le contexte est

important pour la signification qui leur est attribueacutee

En graphique

La perception visuelle srsquoattache agrave reconnaicirctre des modegraveles dans un ensemble de structures

visuelles

De cette theacuteorie reacutesultent des lois correspondant agrave des cateacutegories drsquointeractions possibles entre

les structures visuelles

45

Cartographie de linformation- Composantes des applications cartographiques

Lois Effets Illustrations

Preacutegnance Une image est facile agrave comprendre si sa structure est simple et inversement

Proximiteacute Deux composants qui sont proches ont tendance agrave ecirctre perccedilus comme un

seul composant

Similariteacute Les composants similaires sont perccedilus comme srsquoils eacutetaient regroupeacutes

Fermeture Les contours proches sont perccedilus comme unifieacutes

Continuiteacute Des eacuteleacutements voisins sont perccedilus groupeacutes lorsqursquoils possegravedent

potentiellement un trait qui les relie

Symeacutetrie Des eacuteleacutements sont perccedilus comme un eacuteleacutement global lorsqursquoils forment une

symeacutetrie

Trajectoire identique Des eacuteleacutements qui se deacuteplacent avec la mecircme trajectoire semblent groupeacutes

Familiariteacute Des eacuteleacutements sont plus facilement groupables si le groupe est familier ou

significatif

46

Cartographie de linformation- Composantes des applications cartographiques

2- Composante visuelle Theacuteorie de la Gestalt (1890)

47

Cartographie de linformation- Composantes des applications cartographiques

2- Composante visuelle Conception drsquoun langage graphique (JB Lamy)

1- Analyser les informations ou connaissances que lrsquoon souhaite repreacutesenter

Determiner les attributs qui

deacutefinissent les termes agrave repreacutesenter

bull Par exemple pour repreacutesenter

des maladies les attributs pourraient

ecirctre la localisation anatomique

(cardiaque reacutenale) la seacuteveacuteriteacute etc

2- Associer agrave chaque attribut une variable

reacutetinienne pour le repreacutesenter

bull Par exemple pour les maladies

Associer lrsquoattribut localisation

anatomique agrave la variable

formepictogramme

bull Repreacutesenter la seacuteveacuteriteacute par la variable

couleur

3- Les relations entre les diffeacuterents termes

repreacutesenteacutes doivent ecirctre expliciteacutees

48

Cartographie de linformation

Famille doutils et contextes applicatifs

1- Famille doutils

Typologies

Aperccedilu

Travaux pratiques

2- Contextes applicatifs

Eleacutements deacutevaluation

Les perspectives de la cartographie seacutemantique

49

Cartographie de linformation- Famille doutils et contextes applicatifs

1- Famille doutils

Typologies

Aperccedilu

TP agrave partir de la seacutelection httpdeliciouscommylk02Stage_Carto

Et encore httpwwwvisualcomplexitycomvc (plus de 500 projets dans le domaine)

50

Cartographie de linformation- Famille doutils et contextes applicatifs

1- Famille doutils typologies

11- Typologie scientifique eacutetablie selon des critegraveres internes au domaine

bull les trois principaux paradigmes technique de visualisation type de donneacutees et type dinteraction (Keim

DA 2002)

bull la nature des donneacutees unidimensionnelles bidimensionnelles tridimensionnelles temporelles

multidimensionnelles hieacuterarchiques reacuteseaux (Shneiderman B 1996)

12- Etat de lart eacutevaluation - benchmarking typologie orienteacutee usages (veille et intelligence eacuteconomique)

Quelques exemples

Inist httpoutilsveilleinistfr

Esiee httpwwwaa-esieecomevent2005AGClaudeAschenbrennerppt

Ecole des Mines httpwwwdemoscienceorgresources

Commercial httpwwwk-praxiscom

Commercial httpwwwinformation-mininginfostate_of_art

Universitaire httpwell-formed-datanetthesis

13- Typologie cartographique

Quelques exemples de bloggers

bull Claude Aschenbrenner httpwwwserialmappercomarchive20070110la-pierre-de-rosette-de-la-

cartographie-de-l-informationhtml avec son mode demploi

bull Kartoo httpwwwmapdreamcom

51

Cartographie de linformation- Famille doutils et contextes applicatifs

1- Famille doutils typologie scientifique

52

Cartographie de linformation- Famille doutils orienteacutes laquo bibliothegraveques raquo

2- Les outils de navigation et de recherche sur Internet (seacutelection de Pierre Nobis)

A- Les navigateurs Nestor Navicrawler

53

Cartographie de linformation- Famille doutils orienteacutes laquo bibliothegraveques raquo

2- Les outils de navigation et de recherche sur Internet (seacutelection de Pierre Nobis)

B- Les outils de visualisation des reacutesultats PageBull ManagedQ

Bbis Les outils de visualisation de reacutesultats dans les actualiteacutes

repreacutesentation carreacutee Marumushi - Google NewsNewsIsFree - The Hive Group Tenbyten -flux RSS des sources drsquoactualiteacutes internationales

repreacutesentation sous forme de graphe

Silobreaker

54

Cartographie de linformation- Famille doutils orienteacutes laquo bibliothegraveques raquo

2- Les outils de navigation et de recherche sur Internet

B-Les outils de visualisation des reacutesultats TouchGraph application Java permettant de cartographier les reacutesultats issus

notamment de Google Amazon PubMed Alexa FaceBook

55

Cartographie de linformation- Famille doutils orienteacutes laquo bibliothegraveques raquo

2- Les outils de navigation et de recherche sur Internet (seacutelection de Pierre Nobis)

C- Les outils de recherche avec ajout de termes associeacutes dans une colonne regroupement theacutematique nuage de laquo tags raquo

D- Meacutetamoteurs avec affichage de clusters sous forme de listes

Carrot2 Clusty-Vivissimo Iboogie Polymeta Turbo10 Webclust

56

Cartographie de linformation- Famille doutils orienteacutes laquo bibliothegraveques raquo

2- Les outils de navigation et de recherche sur Internet (seacutelection de Pierre Nobis)

E- Meacutetamoteurs avec affichage de clusters sous forme graphique

E1- repreacutesentation centreacutee Allplus WebBrain

Allplus est un meacutetamoteur agrave clusteacuterisation graphique qui interroge les bases de Ask Google Yahoo et Livepar le biais de lrsquooutil Polymeta Lrsquointerface cluster graph permet de visualiser les reacutesultats sous une forme graphique

Webbrain permet de visualiser et drsquoaffiner les reacutesultats drsquoune requecircte issus de lrsquoOpen Directory Project

57

Cartographie de linformation- Famille doutils orienteacutes laquo bibliothegraveques raquo

2- Les outils de navigation et de recherche sur Internet (seacutelection de Pierre Nobis)

E- Meacutetamoteurs avec affichage de clusters sous forme graphique

E2- Repreacutesentation circulaire Grokker

E3- Repreacutesentation topographique TooLeNet srsquoappuie sur les technologies de KartOO et sur lrsquoindex de

Yahoo pour effectuer des recherches selon 3 modes moteur annuaire et carte auxquels srsquoajoutent des

options de personnalisation et de classification assez avanceacutees

58

Cartographie de linformation- Famille doutils orienteacutes laquo bibliothegraveques raquo

3- Les Outils graphiques dexploration

Wikimindmap est un outil drsquointerrogation

et de repreacutesentation des informations issues

de Wikipedia sous forme de carte heuristique

Visuwords est un dictionnaire en ligne

qui preacutesente ses reacutesultats sous forme de laquo grappes raquo

Il utilise la base de donneacutees Wordnet

Code couleur pour les diffeacuterentes relations

seacutemantiques hieacuterarchiques entre les termes

ainsi que les synonymes et les antonymes

59

Cartographie de linformation- Famille doutils orienteacutes laquo bibliothegraveques raquo

4- Les outils de creacuteation (carto)graphiqueA- Pour meacutemoire les logiciels de creacuteation de cartes heuristiques et conceptuelles

Cmaptools est un logiciel gratuit (usage eacuteducatif) de creacuteation de cartes conceptuelles

Freemind est un logiciel libre et gratuit qui permet de reacutealiser des cartes heuristiques

Thinkgraph est un logiciel gratuit de dessin 2D orienteacute vers la reacutealisation de cartes conceptuelles

60

Cartographie de linformation- Famille doutils orienteacutes laquo bibliothegraveques raquo

4- Les outils de creacuteation (carto)graphique

B- Les outils drsquoeacutedition de graphes

Guess est un logiciel libre et gratuit deacuteveloppeacute par Eytan Adar qui permet de visualiser des

graphes statiques Options de modification de certains attributs (taille couleur forme

algorithmes de positionnementhellip)

Pajek est un logiciel libre et gratuit (usage non commercial) deacuteveloppeacute par V Batagelj et A

Mrvar qui permet de traiter des donneacutees de reacuteseaux de grande taille Pajek signifie araigneacutee

en slovegravene

C- Les outils en ligne

ManyEye service collaboratif deacuteveloppeacute par IBM gracircce auquel on peut geacuteneacuterer selon un

des modegraveles proposeacutes sa propre visualisation de lrsquoinformation (apregraves avoir teacuteleacuteverseacute ses

propres donneacutees)

IssueCrawler outil de web social mining utilisable agrave distance (chargement des URL)

reacutecupeacuteration graphique

61

Cartographie de linformation- Famille doutils et contextes applicatifs

2- Contextes applicatifs

Eleacutements deacutevaluation

Les perspectives de la cartographie seacutemantique

62

Cartographie de linformation- Famille doutils et contextes applicatifs

2- Contextes applicatifs Eleacutements deacutevaluation

21- Evaluation scientifique

Question de meacutethode Eacutevaluation des Interfaces Utilisateur drsquoInformation Bonnel et Chevalier 2006

Objectif proposer une meacutethodologie deacutevaluation permettant de comparer du point de vue de la

visualisation des reacutesultats agrave une requecircte les outils de recherche Google Vivisimo Ujiko Grokker Kartoo

Vios SmartWeb (prototype)

Evaluation des repreacutesentations graphiques geacuteneacuteraliteacutes (Tricot et Roche 2006)

bull Arborescences simples

habitude des utilisateurs (explorateur de fichiers informatiques) pas de problegravemes avec volume limiteacute

au-delagrave drsquoune certaine quantiteacute drsquoinformation les arborescences deviennent inefficaces

bull Arbres de cocircnes en 3D

posent des problegravemes agrave lrsquoutilisateur qui nrsquoa pas lrsquohabitude des espaces en 3D

effort cognitif plus eacuteleveacute et prise en main plus longue

bull Arbres hyperboliques

problegravemes des eacutetiquettes des eacuteleacutements (occlusion)

effet de zoom impreacutevisible

Lrsquoune des conclusions une seule visualisation ne permet pas de reacutepondre agrave toutes les questions

multiplier les possibiliteacutes de visualisation

63

Cartographie de linformation- Famille doutils et contextes applicatifs

2- Contextes applicatifs Eleacutements deacutevaluation

21- Evaluation scientifique doctorat en cours agrave lrsquoEBSI (Aline Creacutedeville)

bull Contexte visualisation de lrsquoinformation dans le contexte de recherche drsquoinformation

bull Point de vue de la seacutemiologie graphique

o principes les plus couramment utiliseacutes sont la proximiteacute (Grokker) lrsquoenglobage (Kartoo)

et la connectiviteacute (Auquabrowser)

omeacutetaphores visuelles pas toujours adeacutequates au web

bull Reacutesultats

o lrsquoinformation doit ecirctre structureacutee

o apports possible pour lrsquoexploration mais pas pour la recherche

64

Cartographie de linformation- Famille doutils et contextes applicatifs

2- Contextes applicatifs Eleacutements deacutevaluation

22- Evaluation en contexte dusage de recherche dinformations (Ciaccia Ihadjadene Martins 2006)

Objectif analyse de lrsquoinfluence du mode de preacutesentation des informations sur les processus cognitifs mis

en jeu par lrsquoutilisateur dans lrsquoactiviteacute de recherche drsquoinformations sur Internet

Outils eacutevalueacutes Kartoo (pour 18 usagers) et Mapstan (pour 16 usagers)

Principaux reacutesultats

Coucirct cognitif sans pour autant conduire agrave de meilleures performances (comparaison avec une

preacutesentation en liste)

Hypothegravese nouveauteacute de la preacutesentation versus habitude des preacutesentations verbales

Strateacutegie optimiseacutee preacuteciser la requecircte drsquoune recherche agrave but flou et se concentrer sur les informations

relieacutees agrave lrsquoobjectif de la question versus informations non relieacutees

Le sens de la visualisation doit ecirctre clarifieacute les systegravemes doivent faciliter la compreacutehension des

eacuteleacutements visualiseacutes

65

Cartographie de linformation- Famille doutils et contextes applicatifs

2- Contextes applicatifs Les perspectives de la cartographie seacutemantique (C Tricot de la seacutemantique agrave la carte)

Pour reacutesoudre la probleacutematique de la repreacutesentation de lrsquoinformation la visualisation de

lrsquoinformation seule ne suffit pas

La visualisation de lrsquoinformation permet uniquement de preacutesenter des donneacutees en leur

associant une repreacutesentation graphique

La cartographie seacutemantique se veut

Une meacutethode de cartographie reposant sur la seacutemantique dun domaine

Un processus de production de connaissances

donneacutees brutes -gt donneacutees structureacutees -gt donneacutees repreacutesenteacutees -gt donneacutees visualiseacutees

Un formalisme de description type Reacuteseaux seacutemantiques

Un langage de description cartographique

Une architecture multi-agents

66

Cartographie de linformation- Famille doutils et contextes applicatifs

2- Contextes applicatifs Les perspectives de la cartographie seacutemantique (C Tricot de la seacutemantique agrave la carte)

67

Cartographie de linformation- Famille doutils et contextes applicatifs

2- Contextes applicatifs Les perspectives de la cartographie seacutemantique

ldquoUne bonne structure repreacutesentative graphique pour un arbre de donneacutees est celle qui deacuteforme le moins les similitudes originales entre les uniteacutes de donneacutees (similitudes qui sont donneacutes par loutil de classification) ou en dautres termes deux individus (ou classes) qui sont proches lune de lautre le restent aussi possible que peut apregraves projection dans l`espace de visualisation et ceci doit ecirctre eacutevident(et veacuterifiable par une mesure de calcul de divergence) dans lenvironnement de visualisation ldquo Tricot 2006

Page 4: Cartographie de l'information- Composantes des - Urfist de Paris

4

Cartographie de linformation- Introduction

1- Preacutesupposeacutes la cognition externe et les capaciteacutes visuelles

Traitement graphique des informations nous sommes capables drsquoassimiler quasi instantaneacutement

et sans effort un grand nombre drsquoinformations repreacutesenteacutees graphiquement

Avantages de la visualisation [Ware 2000 Ware 2005]

bull manipuler des structures complexes

bull percevoir lrsquoeacutemergence de proprieacuteteacutes laquo inconnues raquo

bull mettre en eacutevidence des problegravemes dans les donneacutees dans leur collecte

bull percevoir simultaneacutement des proprieacuteteacutes agrave grande et agrave petite eacutechelle sur les donneacutees

bull faciliter la formation drsquohypothegraveses sur les donneacutees

5

Cartographie de linformation- Introduction

2- Deacutefinitions carte et cartographie

Deacutefinition du Comiteacute franccedilais de cartographie

La carte est une repreacutesentation geacuteomeacutetrique conventionnelle geacuteneacuteralement plane en positions

relatives de pheacutenomegravenes concrets ou abstraits localisables dans lrsquoespace

Principales proprieacuteteacutes

Une carte est un document graphique donc visuel qui obeacuteit agrave une ldquoseacutemiologie graphiquerdquo (Bertin)

Une carte repreacutesente toujours un espace drsquoinformations

bull ces informations peuvent ecirctre abstraites (comme les donneacutees drsquoune organisation) ou scientifiques (crsquoest-

agrave-dire issues de mesures physiques comme des donneacutees geacuteographiques)

bull elles sont toujours seacutelectionneacutees une carte ne fait apparaicirctre qursquoune cateacutegorie drsquoinformations - son

thegraveme

Lrsquoespace cartographieacute a pour objectif de transmettre lui-mecircme des informations sur la nature les relations

la localisation ou lrsquoimportance des donneacutees ou des pheacutenomegravenes qui le composent

6

Cartographie de linformation- Introduction

2- Deacutefinitions carte et cartographie

La cartographie de donneacutees non geacuteographiques ou laquo visualisation dinformation raquo

bull laquo La visualisation est lutilisation de repreacutesentations visuelles interactives et informatiseacutees de donneacutees

pour amplifier la cognition raquo

bull laquo visualisation scientifique raquo toutes les visualisations de pheacutenomegravenes physiques La cartographie

geacuteographique entre dans cette classe

bull laquo visualisation dinformations raquo toutes les visualisations de donneacutees abstraites (non lieacutes agrave des

pheacutenomegravenes physiques)

bull laquo La visualisation dinformations est lutilisation de repreacutesentations visuelles interactives et informatiseacutees

de donneacutees abstraites pour amplifier la cognition raquo

Source Tricot (2006)

7

Cartographie de linformation- Introduction

La cartographie

La cartographie de donneacutees abstraites est assimilable agrave un processus qui permet de passer de donneacutees agrave une

carte ougrave les donneacutees peuvent deacutecrire des connaissances

8

Cartographie de linformation- Introduction

3- Ancrage historique scientomeacutetrie et Leximappe

Ancrage

Deacutebut des anneacutees 1960 Solla Price revue Scientometrics creacuteeacutee en 1978

Objectif

Trouver des lois reacutegissant la production scientifique (cf creacuteation par Garfield de lISI (Institute for Scientific

information) banque de donneacutees Citation Index)

Meacutethode

Appliquer des meacutethodes statistiques aux donneacutees secondaires des publications (mesures bibliomeacutetriques)

unidimensionnelles mesures statistiques simples (nombre darticles ou brevets produits par un laboratoire

nombre de recherches meneacutees en collaboration etc) comptage des citations (indicateur de limpact dun

document sur lensemble de la communauteacute scientifique)

bi-dimensionnelles permettent deacutetablir les liens pouvant exister entre deux publications par exemple

lorsquelles citent toutes les deux les mecircmes auteurs les mecircmes brevets etc (meacutethode de co-citations ou de co-

occurence de citations) ou quelles recourent au mecircme lexique (meacutethode des mots associeacutes)

Reacutesultat

Des cartes (outils graphiques associeacutes)

9

Cartographie de linformation- Introduction

Leximappe (deacuteveloppeacute conjointement par le Centre de Documentation Scientifique et Technique du CNRS

aujourdrsquohui INIST-CNRS et le Centre de Sociologie et Innovation de lrsquoEcole Nationale Supeacuterieure des Mines de

Paris)

Systegraveme drsquoorganisation de corpus documentaire fondeacute sur la meacutethode des mots associeacutes

bull Identifier les mots les plus fortement associeacutes entre eux -gt thegravemes de recherche

bull Construction drsquoagreacutegats (classes) indexant un sous-ensemble du corpus initial repreacutesentant un pocircle

drsquointeacuterecirct du domaine eacutetudieacute

bull Position des pocircles dans un diagramme strateacutegique suivant deux variables la centraliteacute souligne le

pouvoir de structuration (un agreacutegat est structurant dans un domaine quand il est relieacute agrave drsquoautres pocircles) la

densiteacute reflegravete la coheacuterence interne du pocircle (plus lrsquoassociation entre descripteurs est forte plus le pocircle est

dense)

10

Cartographie de linformation- Introduction

Meacutethode des mots associeacutes

Principe

Si deux documents sont proches parce qursquoils sont indexeacutes par des mots-cleacutes similaires alors deux mots-cleacutes

figurant ensemble dans un grand nombre de documents seront consideacutereacutes comme proches

Indice drsquoeacutequivalence eacutegal agrave la cooccurrence au carreacute des mots-cleacutes i et j diviseacutee par le produit de leurs

freacutequences respectives Eij = C2

ij (Ci x Cj)

Lrsquoindice drsquoeacutequivalence eacutevalue la force du lien lorsqursquoil vaut 0 les mots ne sont jamais preacutesents ensemble srsquoil

vaut 1 ils apparaissent toujours ensemble on dit qursquoils sont eacutequivalents

Classification Ascendante Hieacuterarchique (CAH) dit du simple lien (laquo single link clustering raquo)

Une classe est constitueacutee de mots associeacutes les uns aux autres par des associations internes

Les classes peuvent eacutegalement avoir des relations entre elles par le biais drsquoassociations externes entre des pairs

de mots appartenant agrave deux classes distinctes

Lrsquoeacutetape de classification des mots-cleacutes acheveacutee les documents les contenant peuvent finalement ecirctre affecteacutes

aux classes

Les classes sont ensuite positionneacutees sur un plan carteacutesien selon les valeurs de leurs laquo densiteacute raquo et

laquo centraliteacute raquo constituant ainsi une ldquocarterdquo

la densiteacute drsquoune classe rapporteacutee sur lrsquoaxe des ordonneacutees est exprimeacutee par la valeur moyenne des

associations internes entre mots-cleacutes formant la classe

la centraliteacute drsquoune classe rapporteacutee sur lrsquoaxe des abscisses est exprimeacutee par la valeur moyenne des

associations externes entre les mots qui la constituent et les mots drsquoautres classes

11

Cartographie de linformation- Introduction

4- Probleacutematique de la cartographie de linformation

Les donneacutees abstraites ne possegravedent pas de repreacutesentation graphique intrinsegraveque

bull Pour Card Mackinlay et Shneiderman tant que les informations et les donneacutees que lon souhaite

repreacutesenter sont deacuteriveacutees de donneacutees physiques alors elles possegravedent une repreacutesentation

graphique intrinsegraveque

bull Cas dune carte geacuteographique qui repreacutesente des villes la localisation physique des villes sur le

globe terrestre fournit la position relative des points correspondants aux villes sur la carte Les

repreacutesentations graphiques sont alors laquo agrave limage raquo des pheacutenomegravenes observeacutes

Pour les donneacutees abstraites la difficulteacute est de leur trouver une repreacutesentation et plus particuliegraverement une

reacutepartition dans lespace de la carte

bull Cas dune cartographie de concepts la difficulteacute nest pas de trouver une repreacutesentation pour chaque

concept (par exemple un rectangle ou un cercle) mais bien de les reacutepartir dans lespace de la

carte sachant que la reacutepartition aura un impact important sur la signification perccedilue

Lenjeu de la cartographie de donneacutees abstraites est

de deacuteterminer le choix des repreacutesentations pour les visualiser

12

Cartographie de linformation- Introduction

4- Probleacutematique de la cartographie de linformation

13

Cartographie de linformation- Introduction

5- Ancrage disciplinaire seacutemiologie graphique sciences cognitives gestion des connaissances (statistiques et intelligence artificielle)

14

Cartographie de linformation- Composantes des applications cartographiques

1- Composante calculatoire Data Mining

Terminologie

Forage de donneacutees -gt fouille de donneacutees -gt exploration de donneacutees -gt extraction de connaissances agrave partir de donneacutees (ECD)

Deacutefinitions

Scientifique

Processus non-trivial drsquoidentification de structures inconnues valides et potentiellement

exploitables dans les bases de donneacutees (Fayyad1996)

Meacutethodologique

Algorithmes et meacutethodes destineacutes agrave lrsquoexploration et lrsquoanalyse de grandes bases de donneacutees

informatiques en vue de deacutetecter dans ces donneacutees des regravegles des associations des

tendances inconnues (non fixeacutees a priori) des structures particuliegraveres restituant de faccedilon

concise lrsquoessentiel de lrsquoinformation utile pour lrsquoaide agrave la deacutecision

15

Cartographie de linformation- Composantes des applications cartographiques

1- Composante calculatoire Data Mining

Speacutecificiteacutes

Se distingue de lanalyse de donneacutees et de la statistique par les points suivants

ne neacutecessite pas dhypothegravese de deacutepart cest des donneacutees elles-mecircmes que se deacutegageront les correacutelations inteacuteressantes (exemples historiques des tickets de caisse)

les connaissances extraites par le Data Mining ont vocation agrave ecirctre inteacutegreacutees dans un scheacutema

organisationnel

les donneacutees traiteacutees sont issues des systegravemes de stockage en place dans lorganisation

-gt Le data mining fait passer drsquoanalyses confirmatoires agrave des analyses exploratoires

Techniques

Les techniques descriptives visent agrave mettre en eacutevidence des informations preacutesentes mais cacheacutees

par le volume des donneacutees cas des recherches drsquoassociations -gt il nrsquoy a pas de variable laquo cible raquo agrave

preacutedire

Les techniques preacutedictives visent agrave extrapoler de nouvelles informations agrave partir des informations

preacutesentes (cas du scoring) -gt il y a une variable laquo cible raquo agrave preacutedire

16

Cartographie de linformation- Composantes des applications cartographiques

1- Composante calculatoire Data Mining

Meacutethodes Deacutefinition Usages Techniques (liste indicative)

Non superviseacutees Sans variable cible Pour deacutegager dun ensemble

dindividus des groupes homogegravenes

Ex typologie

Techniques agrave base de

reacuteseau de neurones

Classification ascendante

hieacuterarchique

Recherche dassociations

Superviseacutees Avec variable cible Pour expliquer etou preacutevoir un ou

plusieurs pheacutenomegravenes observables

et effectivement mesureacutes

Ex filtrage collaboratif

classifications

Techniques agrave base

darbres de deacutecision

Techniques agrave base de

reacuteseau de neurones

Reacuteduction de

donneacutees

Utiliseacutee en amont des

autres meacutethodes

Permettent de reacuteduire un ensemble

de donneacutees volumineux agrave un

ensemble de taille plus reacuteduite

eacutepureacute de ce que lon consideacuterera

comme de linformation non

pertinente ou non signifiante

comme du bruit

Techniques danalyse

factorielle type AFC

17

Cartographie de linformation- Composantes des applications cartographiques

1- Composante calculatoire Data Mining exemples

Classification Affecter un objet agrave une classe en fonction de ses caracteacuteristiques A1hellipAn

Exemples

Deacuteterminer si un message est un mail de SPAM ou non (2 classes)

Affecter une page web dans une des cateacutegories theacutematiques dun annuaire (multi-classes)

Meacutethode

Si pas de theacuteorie pour deacutefinir la classe en fonction de A1hellipAn alors on eacutetudie un ensemble

drsquoexemples pour lesquels on connaicirct A1hellipAn et la classe associeacutee et on construit un

modegravele

Classe = f(A1hellipAn)

Techniques

Analyse discriminante

Arbre de classification

Reacuteseaux de neurones

18

Cartographie de linformation- Composantes des applications cartographiques

1- Composante calculatoire Reacuteseau de neurones

Principe

Un neurone est une uniteacute de calcul eacuteleacutementaire combine des entreacutees x1x

nen une sortie o

Les entreacutees nont pas toutes la mecircme importance agrave chaque entreacutee xiest associeacute un poids (ou coefficient

synaptique) wi

Luniteacute calcule dabord lactiviteacute dentreacutee (somme pondeacutereacutee des entreacutees)

Coefficients synaptiques

Sont calculeacutes non a priori mais sur la base des valeurs disponibles principe fondamental de

lrsquoapprentissage

Apprendre crsquoest calculer les valeurs des coefficients synaptiques en fonction des exemples disponibles

Algorithme laquo drsquoentraicircnement raquo modifie les poids synaptiques en fonction drsquoun jeu de donneacutees

preacutesenteacutee en entreacutee du reacuteseau

Geacuteneacuteraliser

Lrsquointeacuterecirct des reacuteseaux de neurones reacuteside dans leur capaciteacute agrave geacuteneacuteraliser agrave partir du jeu de test

19

Illustration du reacuteseau de neurones

20

Cartographie de linformation- Composantes des applications cartographiques

1- Composante calculatoire Text Mining

DeacutefinitionProceacutedeacute consistant agrave syntheacutetiser (classer structurer reacutesumer hellip) les textes en analysant les relations les patterns

et les regravegles entre uniteacutes textuelles (mots groupes phrases documents)

Du Data Mining au Text Mining

Ajout de la lexicomeacutetrie

Comme en Data Mining on trouve en Text Mining

des algorithmes descriptifs recherche des thegravemes abordeacutes dans un ensemble (corpus) de documents sans

connaicirctre agrave lrsquoavance ces thegravemes

des algorithmes preacutedictifs recherche des regravegles permettant drsquoaffecter automatiquement un document agrave un

thegraveme parmi plusieurs thegravemes preacutedeacutefinis

Application des techniques de Data mining

Individus = documents

Caractegraveres des individus = thegravemestermes des documents

21

Text Mining Data Mining

Impleacutementation vaste

degraves 2000

Impleacutementation vaste

degraves 1994Maturiteacute

milliersmilliers Dimension

complexesimpleRepreacutesentation

non-structureacutestructureacuteStructure

textuelnumeacuterique amp

cateacutegorique Objet

Text MiningData Mining

22

Vue simplifieacutee du Text Mining

23

Analyse lexicomeacutetrique

Eliminer les mots vides Deacutecouper les textes en uniteacutes Lemmatiser Reacuteduire le nombre de termes agrave traiter

24

Anayse statistique

25

Term frequency (TF)

Un terme qui apparait plusieurs fois dans un document est plus

important qursquoun terme qui apparaicirct une seule fois

wij = Nombre drsquooccurrences du terme ti dans le document dj

TFij = Freacutequence du terme ti dans le document dj

j

ij

d

wTF

ij

26

Inverse document frequency (IDF)

Un terme qui apparaicirct dans peu de documents est un meilleur discriminant qursquoun terme qui apparaicirct dans tous les documents

bull dfi = nombre de documents contenant le terme ti

bull d = nombre de documents du corpus

Inverse document frequency

i

i

df

dIDF log

27

Pondeacuteration TF-IDF

TF-IDF signifie Term Frequency x Inverse Document

Frequency

bull Proposeacutee par [Salton 1989] mesure limportance drsquoun terme

dans un document relativement agrave lrsquoensemble des documents

bull tf ij = freacutequence du terme i dans le document j

df i = nombre de documents contenant le terme i

N = d = nombre de documents du corpus

28

Similariteacute entre documents

Permet de ranger les

documents par pertinence

Le cosinus de lrsquoangle est

souvent utiliseacute

2d1d

2dT

1d2d1d )cos(

bull gt cos( )ltcos( )

bull d2 est plus proche de d1que de d3

29

Cartographie de linformation- Composantes des applications cartographiques

1- Composante calculatoire Data Clustering ou partitionnement de donneacutees

Deacutefinition

Meacutethode statistique danalyse des donneacutees qui a pour but de regrouper un ensemble de donneacutees en

diffeacuterents paquets homogegravenes chaque sous-ensemble partage des caracteacuteristiques communes qui

correspondent le plus souvent agrave des critegraveres de proximiteacute que lon deacutefinit en introduisant des mesures

de distance

Principe

Pour obtenir un bon partitionnement il convient de

bull minimiser linertie intra-classe pour obtenir des grappes (cluster en anglais) les plus homogegravenes

possibles

bull maximiser linertie inter-classe afin dobtenir des sous-ensembles bien diffeacuterencieacutes

Composition

Un cluster est composeacute de

bull une liste de mots-cleacutes

bull une liste dassociations internes

bull une liste dassociations externes

bull une eacutetiquette

bull une liste de documents affecteacutes apregraves la classification

30

Cartographie de linformation- Composantes des applications cartographiques

1- Composante calculatoire DataClustering

bull Lassociation la plus forte permet de creacuteer le premier cluster ici laquoa-braquo)

bull Une nouvelle association peut donner lieu agrave un laquoenrichissementraquo de cluster laquoa-eraquo vient

enrichir le cluster laquoa-braquo qui contient deacutejagrave laquoaraquo) ou agrave une creacuteation de nouveau cluster (laquoc-draquo par

exemple)

Deacutefinitions

Web mining Data mining appliqueacute aux donneacutees de navigation sur le web

Objectifs du web mining

1 Optimiser la navigation dans un site web (confort des internautes)

2 Augmenter le nombre de pages consulteacutees et lrsquoimpact des liens et des banniegraveres publicitaires

3 Deacuteceler les centres drsquointeacuterecirct et donc les attentes des internautes visitant le site

Types dAnalyses

Statistique descriptive

bull laquo 70 des internautes ont consulteacute 3 pages ou moins raquo

bull laquo 40 des internautes accegravedent au site sans passer par la page drsquoaccueil raquo

Deacutetection des regravegles drsquoassociation

bull laquo 20 des internautes visitant la page A visitent la page B dans la mecircme session raquo

Segmentation des internautes

bull Selon les sites de provenance les pages drsquoentreacutee le nombre de pages consulteacutees les fichiers teacuteleacutechargeacutes les pages de sortie etc

1- Composante calculatoire Web Mining

Cartographie de linformation- Composantes des applications cartographiques

31

32

Cartographie de linformation- Composantes des applications cartographiques

1- Composante calculatoire Web Social Data Mining

Hypothegravese documentaire

Web structureacute par des laquo localiteacutes theacutematiques raquo deacutefinies par une forte correacutelation entre

contenu des documents et proximiteacute hypertexte dessinant comme un territoire

Probleacutematique de la laquo traccedilabiliteacute raquo du socialbull Le web se preacutesente comme une matrice technique distribueacutee faccedilonneacutee par des usages dont

le reacuteseau garde la meacutemoire bull Le seul fait dutiliser une technologie numeacuterique contribue agrave produire des traces et agrave

grande eacutechelle elles constituent un reacuteservoir immense de donneacutees disponibles

Principes hubs et autoriteacutes (Kleinberg et al)

bull Autoriteacutes ensemble des pages contenant les meilleures sources drsquoinformation pour un

thegraveme donneacute

bull Hubs pages pointant sur les autoriteacutes

bull Le calcul ressemble au calcul drsquoimportance drsquoun article par nombre de citations (les liens

du Web vus comme des recommendations)

Applications

Sujets controverseacutes ougrave le seul lexique nest pas discriminant

33

Cartographie de linformation- Composantes des applications cartographiques

2- Composante visuelle

Eleacutements de seacutemiologie graphique (J Bertin) Theacuteorie de la Gestalt

34

Cartographie de linformation- Composantes des applications cartographiques

2- Composante visuelle Eleacutements de seacutemiologie graphique (J Bertin)

35

Cartographie de linformation- Composantes des applications cartographiques

2- Composante visuelle Eleacutements de seacutemiologie graphique (J Bertin)

Type de dessin Signification

des signes Description Exemple

Graphis

me

Image non-

figurative Panseacutemique

Le systegraveme srsquoouvre agrave toute

signification Tableau drsquoart

Image

figurative Polyseacutemique

Le systegraveme a pour objectif de

deacutefinir un concept ou une ideacutee

mais les interpreacutetations peuvent

diverger

Photographie

aeacuterienne

Graphique Monoseacutemique

Transcriptions de relations entre

des concepts preacutealablement

deacutefinis

Un

organigramme

36

Cartographie de linformation- Composantes des applications cartographiques

2- Composante visuelle Eleacutements de seacutemiologie graphique (J Bertin)

laquo La graphique est un systegraveme de signes [structures visuelles] qui permet de transcrire les

relations de diffeacuterence drsquoordre ou de proportionnaliteacute existant entre des donneacutees qualitatives ou

quantitatives raquo [Bonin 1997]

laquo La carte est une image graphique qui transcrit les relations de proportionnaliteacute ordre et

diffeacuterence par des variations proportionnelles ordonneacutees et diffeacuterentielles raquo

37

Cartographie de linformation- Composantes des applications cartographiques

2- Composante visuelle Eleacutements de seacutemiologie graphique (J Bertin)

38

Cartographie de linformation- Composantes des applications cartographiques

2- Composante visuelle Eleacutements de seacutemiologie graphique (J Bertin)

39

Cartographie de linformation- Composantes des applications cartographiques

2- Composante visuelle Eleacutements de seacutemiologie graphique (J Bertin)

40

Cartographie de linformation- Composantes des applications cartographiques

2- Composante visuelle Eleacutements de seacutemiologie graphique (J Bertin)

41

Cartographie de linformation- Composantes des applications cartographiques

2- Composante visuelle Eleacutements de seacutemiologie graphique (J Bertin)

Variables visuelles (laquo variables reacutetiniennes raquo)

Variation des proprieacuteteacutes graphiques des structures visuelles

42

Cartographie de linformation- Composantes des applications cartographiques

2- Composante visuelle Eleacutements de seacutemiologie graphique (J Bertin)

Variables visuelles

Cartographie de linformation- Composantes des applications cartographiques

2- Composante visuelle Eleacutements de seacutemiologie graphique (J Bertin)

43

44

Cartographie de linformation- Composantes des applications cartographiques

2- Composante visuelle Theacuteorie de la Gestalt (1890)

Principe

Le contexte est tregraves important dans la perception visuelle [Guillaume]

Les structures visuelles ne sont pas indeacutependantes les unes des autres et le contexte est

important pour la signification qui leur est attribueacutee

En graphique

La perception visuelle srsquoattache agrave reconnaicirctre des modegraveles dans un ensemble de structures

visuelles

De cette theacuteorie reacutesultent des lois correspondant agrave des cateacutegories drsquointeractions possibles entre

les structures visuelles

45

Cartographie de linformation- Composantes des applications cartographiques

Lois Effets Illustrations

Preacutegnance Une image est facile agrave comprendre si sa structure est simple et inversement

Proximiteacute Deux composants qui sont proches ont tendance agrave ecirctre perccedilus comme un

seul composant

Similariteacute Les composants similaires sont perccedilus comme srsquoils eacutetaient regroupeacutes

Fermeture Les contours proches sont perccedilus comme unifieacutes

Continuiteacute Des eacuteleacutements voisins sont perccedilus groupeacutes lorsqursquoils possegravedent

potentiellement un trait qui les relie

Symeacutetrie Des eacuteleacutements sont perccedilus comme un eacuteleacutement global lorsqursquoils forment une

symeacutetrie

Trajectoire identique Des eacuteleacutements qui se deacuteplacent avec la mecircme trajectoire semblent groupeacutes

Familiariteacute Des eacuteleacutements sont plus facilement groupables si le groupe est familier ou

significatif

46

Cartographie de linformation- Composantes des applications cartographiques

2- Composante visuelle Theacuteorie de la Gestalt (1890)

47

Cartographie de linformation- Composantes des applications cartographiques

2- Composante visuelle Conception drsquoun langage graphique (JB Lamy)

1- Analyser les informations ou connaissances que lrsquoon souhaite repreacutesenter

Determiner les attributs qui

deacutefinissent les termes agrave repreacutesenter

bull Par exemple pour repreacutesenter

des maladies les attributs pourraient

ecirctre la localisation anatomique

(cardiaque reacutenale) la seacuteveacuteriteacute etc

2- Associer agrave chaque attribut une variable

reacutetinienne pour le repreacutesenter

bull Par exemple pour les maladies

Associer lrsquoattribut localisation

anatomique agrave la variable

formepictogramme

bull Repreacutesenter la seacuteveacuteriteacute par la variable

couleur

3- Les relations entre les diffeacuterents termes

repreacutesenteacutes doivent ecirctre expliciteacutees

48

Cartographie de linformation

Famille doutils et contextes applicatifs

1- Famille doutils

Typologies

Aperccedilu

Travaux pratiques

2- Contextes applicatifs

Eleacutements deacutevaluation

Les perspectives de la cartographie seacutemantique

49

Cartographie de linformation- Famille doutils et contextes applicatifs

1- Famille doutils

Typologies

Aperccedilu

TP agrave partir de la seacutelection httpdeliciouscommylk02Stage_Carto

Et encore httpwwwvisualcomplexitycomvc (plus de 500 projets dans le domaine)

50

Cartographie de linformation- Famille doutils et contextes applicatifs

1- Famille doutils typologies

11- Typologie scientifique eacutetablie selon des critegraveres internes au domaine

bull les trois principaux paradigmes technique de visualisation type de donneacutees et type dinteraction (Keim

DA 2002)

bull la nature des donneacutees unidimensionnelles bidimensionnelles tridimensionnelles temporelles

multidimensionnelles hieacuterarchiques reacuteseaux (Shneiderman B 1996)

12- Etat de lart eacutevaluation - benchmarking typologie orienteacutee usages (veille et intelligence eacuteconomique)

Quelques exemples

Inist httpoutilsveilleinistfr

Esiee httpwwwaa-esieecomevent2005AGClaudeAschenbrennerppt

Ecole des Mines httpwwwdemoscienceorgresources

Commercial httpwwwk-praxiscom

Commercial httpwwwinformation-mininginfostate_of_art

Universitaire httpwell-formed-datanetthesis

13- Typologie cartographique

Quelques exemples de bloggers

bull Claude Aschenbrenner httpwwwserialmappercomarchive20070110la-pierre-de-rosette-de-la-

cartographie-de-l-informationhtml avec son mode demploi

bull Kartoo httpwwwmapdreamcom

51

Cartographie de linformation- Famille doutils et contextes applicatifs

1- Famille doutils typologie scientifique

52

Cartographie de linformation- Famille doutils orienteacutes laquo bibliothegraveques raquo

2- Les outils de navigation et de recherche sur Internet (seacutelection de Pierre Nobis)

A- Les navigateurs Nestor Navicrawler

53

Cartographie de linformation- Famille doutils orienteacutes laquo bibliothegraveques raquo

2- Les outils de navigation et de recherche sur Internet (seacutelection de Pierre Nobis)

B- Les outils de visualisation des reacutesultats PageBull ManagedQ

Bbis Les outils de visualisation de reacutesultats dans les actualiteacutes

repreacutesentation carreacutee Marumushi - Google NewsNewsIsFree - The Hive Group Tenbyten -flux RSS des sources drsquoactualiteacutes internationales

repreacutesentation sous forme de graphe

Silobreaker

54

Cartographie de linformation- Famille doutils orienteacutes laquo bibliothegraveques raquo

2- Les outils de navigation et de recherche sur Internet

B-Les outils de visualisation des reacutesultats TouchGraph application Java permettant de cartographier les reacutesultats issus

notamment de Google Amazon PubMed Alexa FaceBook

55

Cartographie de linformation- Famille doutils orienteacutes laquo bibliothegraveques raquo

2- Les outils de navigation et de recherche sur Internet (seacutelection de Pierre Nobis)

C- Les outils de recherche avec ajout de termes associeacutes dans une colonne regroupement theacutematique nuage de laquo tags raquo

D- Meacutetamoteurs avec affichage de clusters sous forme de listes

Carrot2 Clusty-Vivissimo Iboogie Polymeta Turbo10 Webclust

56

Cartographie de linformation- Famille doutils orienteacutes laquo bibliothegraveques raquo

2- Les outils de navigation et de recherche sur Internet (seacutelection de Pierre Nobis)

E- Meacutetamoteurs avec affichage de clusters sous forme graphique

E1- repreacutesentation centreacutee Allplus WebBrain

Allplus est un meacutetamoteur agrave clusteacuterisation graphique qui interroge les bases de Ask Google Yahoo et Livepar le biais de lrsquooutil Polymeta Lrsquointerface cluster graph permet de visualiser les reacutesultats sous une forme graphique

Webbrain permet de visualiser et drsquoaffiner les reacutesultats drsquoune requecircte issus de lrsquoOpen Directory Project

57

Cartographie de linformation- Famille doutils orienteacutes laquo bibliothegraveques raquo

2- Les outils de navigation et de recherche sur Internet (seacutelection de Pierre Nobis)

E- Meacutetamoteurs avec affichage de clusters sous forme graphique

E2- Repreacutesentation circulaire Grokker

E3- Repreacutesentation topographique TooLeNet srsquoappuie sur les technologies de KartOO et sur lrsquoindex de

Yahoo pour effectuer des recherches selon 3 modes moteur annuaire et carte auxquels srsquoajoutent des

options de personnalisation et de classification assez avanceacutees

58

Cartographie de linformation- Famille doutils orienteacutes laquo bibliothegraveques raquo

3- Les Outils graphiques dexploration

Wikimindmap est un outil drsquointerrogation

et de repreacutesentation des informations issues

de Wikipedia sous forme de carte heuristique

Visuwords est un dictionnaire en ligne

qui preacutesente ses reacutesultats sous forme de laquo grappes raquo

Il utilise la base de donneacutees Wordnet

Code couleur pour les diffeacuterentes relations

seacutemantiques hieacuterarchiques entre les termes

ainsi que les synonymes et les antonymes

59

Cartographie de linformation- Famille doutils orienteacutes laquo bibliothegraveques raquo

4- Les outils de creacuteation (carto)graphiqueA- Pour meacutemoire les logiciels de creacuteation de cartes heuristiques et conceptuelles

Cmaptools est un logiciel gratuit (usage eacuteducatif) de creacuteation de cartes conceptuelles

Freemind est un logiciel libre et gratuit qui permet de reacutealiser des cartes heuristiques

Thinkgraph est un logiciel gratuit de dessin 2D orienteacute vers la reacutealisation de cartes conceptuelles

60

Cartographie de linformation- Famille doutils orienteacutes laquo bibliothegraveques raquo

4- Les outils de creacuteation (carto)graphique

B- Les outils drsquoeacutedition de graphes

Guess est un logiciel libre et gratuit deacuteveloppeacute par Eytan Adar qui permet de visualiser des

graphes statiques Options de modification de certains attributs (taille couleur forme

algorithmes de positionnementhellip)

Pajek est un logiciel libre et gratuit (usage non commercial) deacuteveloppeacute par V Batagelj et A

Mrvar qui permet de traiter des donneacutees de reacuteseaux de grande taille Pajek signifie araigneacutee

en slovegravene

C- Les outils en ligne

ManyEye service collaboratif deacuteveloppeacute par IBM gracircce auquel on peut geacuteneacuterer selon un

des modegraveles proposeacutes sa propre visualisation de lrsquoinformation (apregraves avoir teacuteleacuteverseacute ses

propres donneacutees)

IssueCrawler outil de web social mining utilisable agrave distance (chargement des URL)

reacutecupeacuteration graphique

61

Cartographie de linformation- Famille doutils et contextes applicatifs

2- Contextes applicatifs

Eleacutements deacutevaluation

Les perspectives de la cartographie seacutemantique

62

Cartographie de linformation- Famille doutils et contextes applicatifs

2- Contextes applicatifs Eleacutements deacutevaluation

21- Evaluation scientifique

Question de meacutethode Eacutevaluation des Interfaces Utilisateur drsquoInformation Bonnel et Chevalier 2006

Objectif proposer une meacutethodologie deacutevaluation permettant de comparer du point de vue de la

visualisation des reacutesultats agrave une requecircte les outils de recherche Google Vivisimo Ujiko Grokker Kartoo

Vios SmartWeb (prototype)

Evaluation des repreacutesentations graphiques geacuteneacuteraliteacutes (Tricot et Roche 2006)

bull Arborescences simples

habitude des utilisateurs (explorateur de fichiers informatiques) pas de problegravemes avec volume limiteacute

au-delagrave drsquoune certaine quantiteacute drsquoinformation les arborescences deviennent inefficaces

bull Arbres de cocircnes en 3D

posent des problegravemes agrave lrsquoutilisateur qui nrsquoa pas lrsquohabitude des espaces en 3D

effort cognitif plus eacuteleveacute et prise en main plus longue

bull Arbres hyperboliques

problegravemes des eacutetiquettes des eacuteleacutements (occlusion)

effet de zoom impreacutevisible

Lrsquoune des conclusions une seule visualisation ne permet pas de reacutepondre agrave toutes les questions

multiplier les possibiliteacutes de visualisation

63

Cartographie de linformation- Famille doutils et contextes applicatifs

2- Contextes applicatifs Eleacutements deacutevaluation

21- Evaluation scientifique doctorat en cours agrave lrsquoEBSI (Aline Creacutedeville)

bull Contexte visualisation de lrsquoinformation dans le contexte de recherche drsquoinformation

bull Point de vue de la seacutemiologie graphique

o principes les plus couramment utiliseacutes sont la proximiteacute (Grokker) lrsquoenglobage (Kartoo)

et la connectiviteacute (Auquabrowser)

omeacutetaphores visuelles pas toujours adeacutequates au web

bull Reacutesultats

o lrsquoinformation doit ecirctre structureacutee

o apports possible pour lrsquoexploration mais pas pour la recherche

64

Cartographie de linformation- Famille doutils et contextes applicatifs

2- Contextes applicatifs Eleacutements deacutevaluation

22- Evaluation en contexte dusage de recherche dinformations (Ciaccia Ihadjadene Martins 2006)

Objectif analyse de lrsquoinfluence du mode de preacutesentation des informations sur les processus cognitifs mis

en jeu par lrsquoutilisateur dans lrsquoactiviteacute de recherche drsquoinformations sur Internet

Outils eacutevalueacutes Kartoo (pour 18 usagers) et Mapstan (pour 16 usagers)

Principaux reacutesultats

Coucirct cognitif sans pour autant conduire agrave de meilleures performances (comparaison avec une

preacutesentation en liste)

Hypothegravese nouveauteacute de la preacutesentation versus habitude des preacutesentations verbales

Strateacutegie optimiseacutee preacuteciser la requecircte drsquoune recherche agrave but flou et se concentrer sur les informations

relieacutees agrave lrsquoobjectif de la question versus informations non relieacutees

Le sens de la visualisation doit ecirctre clarifieacute les systegravemes doivent faciliter la compreacutehension des

eacuteleacutements visualiseacutes

65

Cartographie de linformation- Famille doutils et contextes applicatifs

2- Contextes applicatifs Les perspectives de la cartographie seacutemantique (C Tricot de la seacutemantique agrave la carte)

Pour reacutesoudre la probleacutematique de la repreacutesentation de lrsquoinformation la visualisation de

lrsquoinformation seule ne suffit pas

La visualisation de lrsquoinformation permet uniquement de preacutesenter des donneacutees en leur

associant une repreacutesentation graphique

La cartographie seacutemantique se veut

Une meacutethode de cartographie reposant sur la seacutemantique dun domaine

Un processus de production de connaissances

donneacutees brutes -gt donneacutees structureacutees -gt donneacutees repreacutesenteacutees -gt donneacutees visualiseacutees

Un formalisme de description type Reacuteseaux seacutemantiques

Un langage de description cartographique

Une architecture multi-agents

66

Cartographie de linformation- Famille doutils et contextes applicatifs

2- Contextes applicatifs Les perspectives de la cartographie seacutemantique (C Tricot de la seacutemantique agrave la carte)

67

Cartographie de linformation- Famille doutils et contextes applicatifs

2- Contextes applicatifs Les perspectives de la cartographie seacutemantique

ldquoUne bonne structure repreacutesentative graphique pour un arbre de donneacutees est celle qui deacuteforme le moins les similitudes originales entre les uniteacutes de donneacutees (similitudes qui sont donneacutes par loutil de classification) ou en dautres termes deux individus (ou classes) qui sont proches lune de lautre le restent aussi possible que peut apregraves projection dans l`espace de visualisation et ceci doit ecirctre eacutevident(et veacuterifiable par une mesure de calcul de divergence) dans lenvironnement de visualisation ldquo Tricot 2006

Page 5: Cartographie de l'information- Composantes des - Urfist de Paris

5

Cartographie de linformation- Introduction

2- Deacutefinitions carte et cartographie

Deacutefinition du Comiteacute franccedilais de cartographie

La carte est une repreacutesentation geacuteomeacutetrique conventionnelle geacuteneacuteralement plane en positions

relatives de pheacutenomegravenes concrets ou abstraits localisables dans lrsquoespace

Principales proprieacuteteacutes

Une carte est un document graphique donc visuel qui obeacuteit agrave une ldquoseacutemiologie graphiquerdquo (Bertin)

Une carte repreacutesente toujours un espace drsquoinformations

bull ces informations peuvent ecirctre abstraites (comme les donneacutees drsquoune organisation) ou scientifiques (crsquoest-

agrave-dire issues de mesures physiques comme des donneacutees geacuteographiques)

bull elles sont toujours seacutelectionneacutees une carte ne fait apparaicirctre qursquoune cateacutegorie drsquoinformations - son

thegraveme

Lrsquoespace cartographieacute a pour objectif de transmettre lui-mecircme des informations sur la nature les relations

la localisation ou lrsquoimportance des donneacutees ou des pheacutenomegravenes qui le composent

6

Cartographie de linformation- Introduction

2- Deacutefinitions carte et cartographie

La cartographie de donneacutees non geacuteographiques ou laquo visualisation dinformation raquo

bull laquo La visualisation est lutilisation de repreacutesentations visuelles interactives et informatiseacutees de donneacutees

pour amplifier la cognition raquo

bull laquo visualisation scientifique raquo toutes les visualisations de pheacutenomegravenes physiques La cartographie

geacuteographique entre dans cette classe

bull laquo visualisation dinformations raquo toutes les visualisations de donneacutees abstraites (non lieacutes agrave des

pheacutenomegravenes physiques)

bull laquo La visualisation dinformations est lutilisation de repreacutesentations visuelles interactives et informatiseacutees

de donneacutees abstraites pour amplifier la cognition raquo

Source Tricot (2006)

7

Cartographie de linformation- Introduction

La cartographie

La cartographie de donneacutees abstraites est assimilable agrave un processus qui permet de passer de donneacutees agrave une

carte ougrave les donneacutees peuvent deacutecrire des connaissances

8

Cartographie de linformation- Introduction

3- Ancrage historique scientomeacutetrie et Leximappe

Ancrage

Deacutebut des anneacutees 1960 Solla Price revue Scientometrics creacuteeacutee en 1978

Objectif

Trouver des lois reacutegissant la production scientifique (cf creacuteation par Garfield de lISI (Institute for Scientific

information) banque de donneacutees Citation Index)

Meacutethode

Appliquer des meacutethodes statistiques aux donneacutees secondaires des publications (mesures bibliomeacutetriques)

unidimensionnelles mesures statistiques simples (nombre darticles ou brevets produits par un laboratoire

nombre de recherches meneacutees en collaboration etc) comptage des citations (indicateur de limpact dun

document sur lensemble de la communauteacute scientifique)

bi-dimensionnelles permettent deacutetablir les liens pouvant exister entre deux publications par exemple

lorsquelles citent toutes les deux les mecircmes auteurs les mecircmes brevets etc (meacutethode de co-citations ou de co-

occurence de citations) ou quelles recourent au mecircme lexique (meacutethode des mots associeacutes)

Reacutesultat

Des cartes (outils graphiques associeacutes)

9

Cartographie de linformation- Introduction

Leximappe (deacuteveloppeacute conjointement par le Centre de Documentation Scientifique et Technique du CNRS

aujourdrsquohui INIST-CNRS et le Centre de Sociologie et Innovation de lrsquoEcole Nationale Supeacuterieure des Mines de

Paris)

Systegraveme drsquoorganisation de corpus documentaire fondeacute sur la meacutethode des mots associeacutes

bull Identifier les mots les plus fortement associeacutes entre eux -gt thegravemes de recherche

bull Construction drsquoagreacutegats (classes) indexant un sous-ensemble du corpus initial repreacutesentant un pocircle

drsquointeacuterecirct du domaine eacutetudieacute

bull Position des pocircles dans un diagramme strateacutegique suivant deux variables la centraliteacute souligne le

pouvoir de structuration (un agreacutegat est structurant dans un domaine quand il est relieacute agrave drsquoautres pocircles) la

densiteacute reflegravete la coheacuterence interne du pocircle (plus lrsquoassociation entre descripteurs est forte plus le pocircle est

dense)

10

Cartographie de linformation- Introduction

Meacutethode des mots associeacutes

Principe

Si deux documents sont proches parce qursquoils sont indexeacutes par des mots-cleacutes similaires alors deux mots-cleacutes

figurant ensemble dans un grand nombre de documents seront consideacutereacutes comme proches

Indice drsquoeacutequivalence eacutegal agrave la cooccurrence au carreacute des mots-cleacutes i et j diviseacutee par le produit de leurs

freacutequences respectives Eij = C2

ij (Ci x Cj)

Lrsquoindice drsquoeacutequivalence eacutevalue la force du lien lorsqursquoil vaut 0 les mots ne sont jamais preacutesents ensemble srsquoil

vaut 1 ils apparaissent toujours ensemble on dit qursquoils sont eacutequivalents

Classification Ascendante Hieacuterarchique (CAH) dit du simple lien (laquo single link clustering raquo)

Une classe est constitueacutee de mots associeacutes les uns aux autres par des associations internes

Les classes peuvent eacutegalement avoir des relations entre elles par le biais drsquoassociations externes entre des pairs

de mots appartenant agrave deux classes distinctes

Lrsquoeacutetape de classification des mots-cleacutes acheveacutee les documents les contenant peuvent finalement ecirctre affecteacutes

aux classes

Les classes sont ensuite positionneacutees sur un plan carteacutesien selon les valeurs de leurs laquo densiteacute raquo et

laquo centraliteacute raquo constituant ainsi une ldquocarterdquo

la densiteacute drsquoune classe rapporteacutee sur lrsquoaxe des ordonneacutees est exprimeacutee par la valeur moyenne des

associations internes entre mots-cleacutes formant la classe

la centraliteacute drsquoune classe rapporteacutee sur lrsquoaxe des abscisses est exprimeacutee par la valeur moyenne des

associations externes entre les mots qui la constituent et les mots drsquoautres classes

11

Cartographie de linformation- Introduction

4- Probleacutematique de la cartographie de linformation

Les donneacutees abstraites ne possegravedent pas de repreacutesentation graphique intrinsegraveque

bull Pour Card Mackinlay et Shneiderman tant que les informations et les donneacutees que lon souhaite

repreacutesenter sont deacuteriveacutees de donneacutees physiques alors elles possegravedent une repreacutesentation

graphique intrinsegraveque

bull Cas dune carte geacuteographique qui repreacutesente des villes la localisation physique des villes sur le

globe terrestre fournit la position relative des points correspondants aux villes sur la carte Les

repreacutesentations graphiques sont alors laquo agrave limage raquo des pheacutenomegravenes observeacutes

Pour les donneacutees abstraites la difficulteacute est de leur trouver une repreacutesentation et plus particuliegraverement une

reacutepartition dans lespace de la carte

bull Cas dune cartographie de concepts la difficulteacute nest pas de trouver une repreacutesentation pour chaque

concept (par exemple un rectangle ou un cercle) mais bien de les reacutepartir dans lespace de la

carte sachant que la reacutepartition aura un impact important sur la signification perccedilue

Lenjeu de la cartographie de donneacutees abstraites est

de deacuteterminer le choix des repreacutesentations pour les visualiser

12

Cartographie de linformation- Introduction

4- Probleacutematique de la cartographie de linformation

13

Cartographie de linformation- Introduction

5- Ancrage disciplinaire seacutemiologie graphique sciences cognitives gestion des connaissances (statistiques et intelligence artificielle)

14

Cartographie de linformation- Composantes des applications cartographiques

1- Composante calculatoire Data Mining

Terminologie

Forage de donneacutees -gt fouille de donneacutees -gt exploration de donneacutees -gt extraction de connaissances agrave partir de donneacutees (ECD)

Deacutefinitions

Scientifique

Processus non-trivial drsquoidentification de structures inconnues valides et potentiellement

exploitables dans les bases de donneacutees (Fayyad1996)

Meacutethodologique

Algorithmes et meacutethodes destineacutes agrave lrsquoexploration et lrsquoanalyse de grandes bases de donneacutees

informatiques en vue de deacutetecter dans ces donneacutees des regravegles des associations des

tendances inconnues (non fixeacutees a priori) des structures particuliegraveres restituant de faccedilon

concise lrsquoessentiel de lrsquoinformation utile pour lrsquoaide agrave la deacutecision

15

Cartographie de linformation- Composantes des applications cartographiques

1- Composante calculatoire Data Mining

Speacutecificiteacutes

Se distingue de lanalyse de donneacutees et de la statistique par les points suivants

ne neacutecessite pas dhypothegravese de deacutepart cest des donneacutees elles-mecircmes que se deacutegageront les correacutelations inteacuteressantes (exemples historiques des tickets de caisse)

les connaissances extraites par le Data Mining ont vocation agrave ecirctre inteacutegreacutees dans un scheacutema

organisationnel

les donneacutees traiteacutees sont issues des systegravemes de stockage en place dans lorganisation

-gt Le data mining fait passer drsquoanalyses confirmatoires agrave des analyses exploratoires

Techniques

Les techniques descriptives visent agrave mettre en eacutevidence des informations preacutesentes mais cacheacutees

par le volume des donneacutees cas des recherches drsquoassociations -gt il nrsquoy a pas de variable laquo cible raquo agrave

preacutedire

Les techniques preacutedictives visent agrave extrapoler de nouvelles informations agrave partir des informations

preacutesentes (cas du scoring) -gt il y a une variable laquo cible raquo agrave preacutedire

16

Cartographie de linformation- Composantes des applications cartographiques

1- Composante calculatoire Data Mining

Meacutethodes Deacutefinition Usages Techniques (liste indicative)

Non superviseacutees Sans variable cible Pour deacutegager dun ensemble

dindividus des groupes homogegravenes

Ex typologie

Techniques agrave base de

reacuteseau de neurones

Classification ascendante

hieacuterarchique

Recherche dassociations

Superviseacutees Avec variable cible Pour expliquer etou preacutevoir un ou

plusieurs pheacutenomegravenes observables

et effectivement mesureacutes

Ex filtrage collaboratif

classifications

Techniques agrave base

darbres de deacutecision

Techniques agrave base de

reacuteseau de neurones

Reacuteduction de

donneacutees

Utiliseacutee en amont des

autres meacutethodes

Permettent de reacuteduire un ensemble

de donneacutees volumineux agrave un

ensemble de taille plus reacuteduite

eacutepureacute de ce que lon consideacuterera

comme de linformation non

pertinente ou non signifiante

comme du bruit

Techniques danalyse

factorielle type AFC

17

Cartographie de linformation- Composantes des applications cartographiques

1- Composante calculatoire Data Mining exemples

Classification Affecter un objet agrave une classe en fonction de ses caracteacuteristiques A1hellipAn

Exemples

Deacuteterminer si un message est un mail de SPAM ou non (2 classes)

Affecter une page web dans une des cateacutegories theacutematiques dun annuaire (multi-classes)

Meacutethode

Si pas de theacuteorie pour deacutefinir la classe en fonction de A1hellipAn alors on eacutetudie un ensemble

drsquoexemples pour lesquels on connaicirct A1hellipAn et la classe associeacutee et on construit un

modegravele

Classe = f(A1hellipAn)

Techniques

Analyse discriminante

Arbre de classification

Reacuteseaux de neurones

18

Cartographie de linformation- Composantes des applications cartographiques

1- Composante calculatoire Reacuteseau de neurones

Principe

Un neurone est une uniteacute de calcul eacuteleacutementaire combine des entreacutees x1x

nen une sortie o

Les entreacutees nont pas toutes la mecircme importance agrave chaque entreacutee xiest associeacute un poids (ou coefficient

synaptique) wi

Luniteacute calcule dabord lactiviteacute dentreacutee (somme pondeacutereacutee des entreacutees)

Coefficients synaptiques

Sont calculeacutes non a priori mais sur la base des valeurs disponibles principe fondamental de

lrsquoapprentissage

Apprendre crsquoest calculer les valeurs des coefficients synaptiques en fonction des exemples disponibles

Algorithme laquo drsquoentraicircnement raquo modifie les poids synaptiques en fonction drsquoun jeu de donneacutees

preacutesenteacutee en entreacutee du reacuteseau

Geacuteneacuteraliser

Lrsquointeacuterecirct des reacuteseaux de neurones reacuteside dans leur capaciteacute agrave geacuteneacuteraliser agrave partir du jeu de test

19

Illustration du reacuteseau de neurones

20

Cartographie de linformation- Composantes des applications cartographiques

1- Composante calculatoire Text Mining

DeacutefinitionProceacutedeacute consistant agrave syntheacutetiser (classer structurer reacutesumer hellip) les textes en analysant les relations les patterns

et les regravegles entre uniteacutes textuelles (mots groupes phrases documents)

Du Data Mining au Text Mining

Ajout de la lexicomeacutetrie

Comme en Data Mining on trouve en Text Mining

des algorithmes descriptifs recherche des thegravemes abordeacutes dans un ensemble (corpus) de documents sans

connaicirctre agrave lrsquoavance ces thegravemes

des algorithmes preacutedictifs recherche des regravegles permettant drsquoaffecter automatiquement un document agrave un

thegraveme parmi plusieurs thegravemes preacutedeacutefinis

Application des techniques de Data mining

Individus = documents

Caractegraveres des individus = thegravemestermes des documents

21

Text Mining Data Mining

Impleacutementation vaste

degraves 2000

Impleacutementation vaste

degraves 1994Maturiteacute

milliersmilliers Dimension

complexesimpleRepreacutesentation

non-structureacutestructureacuteStructure

textuelnumeacuterique amp

cateacutegorique Objet

Text MiningData Mining

22

Vue simplifieacutee du Text Mining

23

Analyse lexicomeacutetrique

Eliminer les mots vides Deacutecouper les textes en uniteacutes Lemmatiser Reacuteduire le nombre de termes agrave traiter

24

Anayse statistique

25

Term frequency (TF)

Un terme qui apparait plusieurs fois dans un document est plus

important qursquoun terme qui apparaicirct une seule fois

wij = Nombre drsquooccurrences du terme ti dans le document dj

TFij = Freacutequence du terme ti dans le document dj

j

ij

d

wTF

ij

26

Inverse document frequency (IDF)

Un terme qui apparaicirct dans peu de documents est un meilleur discriminant qursquoun terme qui apparaicirct dans tous les documents

bull dfi = nombre de documents contenant le terme ti

bull d = nombre de documents du corpus

Inverse document frequency

i

i

df

dIDF log

27

Pondeacuteration TF-IDF

TF-IDF signifie Term Frequency x Inverse Document

Frequency

bull Proposeacutee par [Salton 1989] mesure limportance drsquoun terme

dans un document relativement agrave lrsquoensemble des documents

bull tf ij = freacutequence du terme i dans le document j

df i = nombre de documents contenant le terme i

N = d = nombre de documents du corpus

28

Similariteacute entre documents

Permet de ranger les

documents par pertinence

Le cosinus de lrsquoangle est

souvent utiliseacute

2d1d

2dT

1d2d1d )cos(

bull gt cos( )ltcos( )

bull d2 est plus proche de d1que de d3

29

Cartographie de linformation- Composantes des applications cartographiques

1- Composante calculatoire Data Clustering ou partitionnement de donneacutees

Deacutefinition

Meacutethode statistique danalyse des donneacutees qui a pour but de regrouper un ensemble de donneacutees en

diffeacuterents paquets homogegravenes chaque sous-ensemble partage des caracteacuteristiques communes qui

correspondent le plus souvent agrave des critegraveres de proximiteacute que lon deacutefinit en introduisant des mesures

de distance

Principe

Pour obtenir un bon partitionnement il convient de

bull minimiser linertie intra-classe pour obtenir des grappes (cluster en anglais) les plus homogegravenes

possibles

bull maximiser linertie inter-classe afin dobtenir des sous-ensembles bien diffeacuterencieacutes

Composition

Un cluster est composeacute de

bull une liste de mots-cleacutes

bull une liste dassociations internes

bull une liste dassociations externes

bull une eacutetiquette

bull une liste de documents affecteacutes apregraves la classification

30

Cartographie de linformation- Composantes des applications cartographiques

1- Composante calculatoire DataClustering

bull Lassociation la plus forte permet de creacuteer le premier cluster ici laquoa-braquo)

bull Une nouvelle association peut donner lieu agrave un laquoenrichissementraquo de cluster laquoa-eraquo vient

enrichir le cluster laquoa-braquo qui contient deacutejagrave laquoaraquo) ou agrave une creacuteation de nouveau cluster (laquoc-draquo par

exemple)

Deacutefinitions

Web mining Data mining appliqueacute aux donneacutees de navigation sur le web

Objectifs du web mining

1 Optimiser la navigation dans un site web (confort des internautes)

2 Augmenter le nombre de pages consulteacutees et lrsquoimpact des liens et des banniegraveres publicitaires

3 Deacuteceler les centres drsquointeacuterecirct et donc les attentes des internautes visitant le site

Types dAnalyses

Statistique descriptive

bull laquo 70 des internautes ont consulteacute 3 pages ou moins raquo

bull laquo 40 des internautes accegravedent au site sans passer par la page drsquoaccueil raquo

Deacutetection des regravegles drsquoassociation

bull laquo 20 des internautes visitant la page A visitent la page B dans la mecircme session raquo

Segmentation des internautes

bull Selon les sites de provenance les pages drsquoentreacutee le nombre de pages consulteacutees les fichiers teacuteleacutechargeacutes les pages de sortie etc

1- Composante calculatoire Web Mining

Cartographie de linformation- Composantes des applications cartographiques

31

32

Cartographie de linformation- Composantes des applications cartographiques

1- Composante calculatoire Web Social Data Mining

Hypothegravese documentaire

Web structureacute par des laquo localiteacutes theacutematiques raquo deacutefinies par une forte correacutelation entre

contenu des documents et proximiteacute hypertexte dessinant comme un territoire

Probleacutematique de la laquo traccedilabiliteacute raquo du socialbull Le web se preacutesente comme une matrice technique distribueacutee faccedilonneacutee par des usages dont

le reacuteseau garde la meacutemoire bull Le seul fait dutiliser une technologie numeacuterique contribue agrave produire des traces et agrave

grande eacutechelle elles constituent un reacuteservoir immense de donneacutees disponibles

Principes hubs et autoriteacutes (Kleinberg et al)

bull Autoriteacutes ensemble des pages contenant les meilleures sources drsquoinformation pour un

thegraveme donneacute

bull Hubs pages pointant sur les autoriteacutes

bull Le calcul ressemble au calcul drsquoimportance drsquoun article par nombre de citations (les liens

du Web vus comme des recommendations)

Applications

Sujets controverseacutes ougrave le seul lexique nest pas discriminant

33

Cartographie de linformation- Composantes des applications cartographiques

2- Composante visuelle

Eleacutements de seacutemiologie graphique (J Bertin) Theacuteorie de la Gestalt

34

Cartographie de linformation- Composantes des applications cartographiques

2- Composante visuelle Eleacutements de seacutemiologie graphique (J Bertin)

35

Cartographie de linformation- Composantes des applications cartographiques

2- Composante visuelle Eleacutements de seacutemiologie graphique (J Bertin)

Type de dessin Signification

des signes Description Exemple

Graphis

me

Image non-

figurative Panseacutemique

Le systegraveme srsquoouvre agrave toute

signification Tableau drsquoart

Image

figurative Polyseacutemique

Le systegraveme a pour objectif de

deacutefinir un concept ou une ideacutee

mais les interpreacutetations peuvent

diverger

Photographie

aeacuterienne

Graphique Monoseacutemique

Transcriptions de relations entre

des concepts preacutealablement

deacutefinis

Un

organigramme

36

Cartographie de linformation- Composantes des applications cartographiques

2- Composante visuelle Eleacutements de seacutemiologie graphique (J Bertin)

laquo La graphique est un systegraveme de signes [structures visuelles] qui permet de transcrire les

relations de diffeacuterence drsquoordre ou de proportionnaliteacute existant entre des donneacutees qualitatives ou

quantitatives raquo [Bonin 1997]

laquo La carte est une image graphique qui transcrit les relations de proportionnaliteacute ordre et

diffeacuterence par des variations proportionnelles ordonneacutees et diffeacuterentielles raquo

37

Cartographie de linformation- Composantes des applications cartographiques

2- Composante visuelle Eleacutements de seacutemiologie graphique (J Bertin)

38

Cartographie de linformation- Composantes des applications cartographiques

2- Composante visuelle Eleacutements de seacutemiologie graphique (J Bertin)

39

Cartographie de linformation- Composantes des applications cartographiques

2- Composante visuelle Eleacutements de seacutemiologie graphique (J Bertin)

40

Cartographie de linformation- Composantes des applications cartographiques

2- Composante visuelle Eleacutements de seacutemiologie graphique (J Bertin)

41

Cartographie de linformation- Composantes des applications cartographiques

2- Composante visuelle Eleacutements de seacutemiologie graphique (J Bertin)

Variables visuelles (laquo variables reacutetiniennes raquo)

Variation des proprieacuteteacutes graphiques des structures visuelles

42

Cartographie de linformation- Composantes des applications cartographiques

2- Composante visuelle Eleacutements de seacutemiologie graphique (J Bertin)

Variables visuelles

Cartographie de linformation- Composantes des applications cartographiques

2- Composante visuelle Eleacutements de seacutemiologie graphique (J Bertin)

43

44

Cartographie de linformation- Composantes des applications cartographiques

2- Composante visuelle Theacuteorie de la Gestalt (1890)

Principe

Le contexte est tregraves important dans la perception visuelle [Guillaume]

Les structures visuelles ne sont pas indeacutependantes les unes des autres et le contexte est

important pour la signification qui leur est attribueacutee

En graphique

La perception visuelle srsquoattache agrave reconnaicirctre des modegraveles dans un ensemble de structures

visuelles

De cette theacuteorie reacutesultent des lois correspondant agrave des cateacutegories drsquointeractions possibles entre

les structures visuelles

45

Cartographie de linformation- Composantes des applications cartographiques

Lois Effets Illustrations

Preacutegnance Une image est facile agrave comprendre si sa structure est simple et inversement

Proximiteacute Deux composants qui sont proches ont tendance agrave ecirctre perccedilus comme un

seul composant

Similariteacute Les composants similaires sont perccedilus comme srsquoils eacutetaient regroupeacutes

Fermeture Les contours proches sont perccedilus comme unifieacutes

Continuiteacute Des eacuteleacutements voisins sont perccedilus groupeacutes lorsqursquoils possegravedent

potentiellement un trait qui les relie

Symeacutetrie Des eacuteleacutements sont perccedilus comme un eacuteleacutement global lorsqursquoils forment une

symeacutetrie

Trajectoire identique Des eacuteleacutements qui se deacuteplacent avec la mecircme trajectoire semblent groupeacutes

Familiariteacute Des eacuteleacutements sont plus facilement groupables si le groupe est familier ou

significatif

46

Cartographie de linformation- Composantes des applications cartographiques

2- Composante visuelle Theacuteorie de la Gestalt (1890)

47

Cartographie de linformation- Composantes des applications cartographiques

2- Composante visuelle Conception drsquoun langage graphique (JB Lamy)

1- Analyser les informations ou connaissances que lrsquoon souhaite repreacutesenter

Determiner les attributs qui

deacutefinissent les termes agrave repreacutesenter

bull Par exemple pour repreacutesenter

des maladies les attributs pourraient

ecirctre la localisation anatomique

(cardiaque reacutenale) la seacuteveacuteriteacute etc

2- Associer agrave chaque attribut une variable

reacutetinienne pour le repreacutesenter

bull Par exemple pour les maladies

Associer lrsquoattribut localisation

anatomique agrave la variable

formepictogramme

bull Repreacutesenter la seacuteveacuteriteacute par la variable

couleur

3- Les relations entre les diffeacuterents termes

repreacutesenteacutes doivent ecirctre expliciteacutees

48

Cartographie de linformation

Famille doutils et contextes applicatifs

1- Famille doutils

Typologies

Aperccedilu

Travaux pratiques

2- Contextes applicatifs

Eleacutements deacutevaluation

Les perspectives de la cartographie seacutemantique

49

Cartographie de linformation- Famille doutils et contextes applicatifs

1- Famille doutils

Typologies

Aperccedilu

TP agrave partir de la seacutelection httpdeliciouscommylk02Stage_Carto

Et encore httpwwwvisualcomplexitycomvc (plus de 500 projets dans le domaine)

50

Cartographie de linformation- Famille doutils et contextes applicatifs

1- Famille doutils typologies

11- Typologie scientifique eacutetablie selon des critegraveres internes au domaine

bull les trois principaux paradigmes technique de visualisation type de donneacutees et type dinteraction (Keim

DA 2002)

bull la nature des donneacutees unidimensionnelles bidimensionnelles tridimensionnelles temporelles

multidimensionnelles hieacuterarchiques reacuteseaux (Shneiderman B 1996)

12- Etat de lart eacutevaluation - benchmarking typologie orienteacutee usages (veille et intelligence eacuteconomique)

Quelques exemples

Inist httpoutilsveilleinistfr

Esiee httpwwwaa-esieecomevent2005AGClaudeAschenbrennerppt

Ecole des Mines httpwwwdemoscienceorgresources

Commercial httpwwwk-praxiscom

Commercial httpwwwinformation-mininginfostate_of_art

Universitaire httpwell-formed-datanetthesis

13- Typologie cartographique

Quelques exemples de bloggers

bull Claude Aschenbrenner httpwwwserialmappercomarchive20070110la-pierre-de-rosette-de-la-

cartographie-de-l-informationhtml avec son mode demploi

bull Kartoo httpwwwmapdreamcom

51

Cartographie de linformation- Famille doutils et contextes applicatifs

1- Famille doutils typologie scientifique

52

Cartographie de linformation- Famille doutils orienteacutes laquo bibliothegraveques raquo

2- Les outils de navigation et de recherche sur Internet (seacutelection de Pierre Nobis)

A- Les navigateurs Nestor Navicrawler

53

Cartographie de linformation- Famille doutils orienteacutes laquo bibliothegraveques raquo

2- Les outils de navigation et de recherche sur Internet (seacutelection de Pierre Nobis)

B- Les outils de visualisation des reacutesultats PageBull ManagedQ

Bbis Les outils de visualisation de reacutesultats dans les actualiteacutes

repreacutesentation carreacutee Marumushi - Google NewsNewsIsFree - The Hive Group Tenbyten -flux RSS des sources drsquoactualiteacutes internationales

repreacutesentation sous forme de graphe

Silobreaker

54

Cartographie de linformation- Famille doutils orienteacutes laquo bibliothegraveques raquo

2- Les outils de navigation et de recherche sur Internet

B-Les outils de visualisation des reacutesultats TouchGraph application Java permettant de cartographier les reacutesultats issus

notamment de Google Amazon PubMed Alexa FaceBook

55

Cartographie de linformation- Famille doutils orienteacutes laquo bibliothegraveques raquo

2- Les outils de navigation et de recherche sur Internet (seacutelection de Pierre Nobis)

C- Les outils de recherche avec ajout de termes associeacutes dans une colonne regroupement theacutematique nuage de laquo tags raquo

D- Meacutetamoteurs avec affichage de clusters sous forme de listes

Carrot2 Clusty-Vivissimo Iboogie Polymeta Turbo10 Webclust

56

Cartographie de linformation- Famille doutils orienteacutes laquo bibliothegraveques raquo

2- Les outils de navigation et de recherche sur Internet (seacutelection de Pierre Nobis)

E- Meacutetamoteurs avec affichage de clusters sous forme graphique

E1- repreacutesentation centreacutee Allplus WebBrain

Allplus est un meacutetamoteur agrave clusteacuterisation graphique qui interroge les bases de Ask Google Yahoo et Livepar le biais de lrsquooutil Polymeta Lrsquointerface cluster graph permet de visualiser les reacutesultats sous une forme graphique

Webbrain permet de visualiser et drsquoaffiner les reacutesultats drsquoune requecircte issus de lrsquoOpen Directory Project

57

Cartographie de linformation- Famille doutils orienteacutes laquo bibliothegraveques raquo

2- Les outils de navigation et de recherche sur Internet (seacutelection de Pierre Nobis)

E- Meacutetamoteurs avec affichage de clusters sous forme graphique

E2- Repreacutesentation circulaire Grokker

E3- Repreacutesentation topographique TooLeNet srsquoappuie sur les technologies de KartOO et sur lrsquoindex de

Yahoo pour effectuer des recherches selon 3 modes moteur annuaire et carte auxquels srsquoajoutent des

options de personnalisation et de classification assez avanceacutees

58

Cartographie de linformation- Famille doutils orienteacutes laquo bibliothegraveques raquo

3- Les Outils graphiques dexploration

Wikimindmap est un outil drsquointerrogation

et de repreacutesentation des informations issues

de Wikipedia sous forme de carte heuristique

Visuwords est un dictionnaire en ligne

qui preacutesente ses reacutesultats sous forme de laquo grappes raquo

Il utilise la base de donneacutees Wordnet

Code couleur pour les diffeacuterentes relations

seacutemantiques hieacuterarchiques entre les termes

ainsi que les synonymes et les antonymes

59

Cartographie de linformation- Famille doutils orienteacutes laquo bibliothegraveques raquo

4- Les outils de creacuteation (carto)graphiqueA- Pour meacutemoire les logiciels de creacuteation de cartes heuristiques et conceptuelles

Cmaptools est un logiciel gratuit (usage eacuteducatif) de creacuteation de cartes conceptuelles

Freemind est un logiciel libre et gratuit qui permet de reacutealiser des cartes heuristiques

Thinkgraph est un logiciel gratuit de dessin 2D orienteacute vers la reacutealisation de cartes conceptuelles

60

Cartographie de linformation- Famille doutils orienteacutes laquo bibliothegraveques raquo

4- Les outils de creacuteation (carto)graphique

B- Les outils drsquoeacutedition de graphes

Guess est un logiciel libre et gratuit deacuteveloppeacute par Eytan Adar qui permet de visualiser des

graphes statiques Options de modification de certains attributs (taille couleur forme

algorithmes de positionnementhellip)

Pajek est un logiciel libre et gratuit (usage non commercial) deacuteveloppeacute par V Batagelj et A

Mrvar qui permet de traiter des donneacutees de reacuteseaux de grande taille Pajek signifie araigneacutee

en slovegravene

C- Les outils en ligne

ManyEye service collaboratif deacuteveloppeacute par IBM gracircce auquel on peut geacuteneacuterer selon un

des modegraveles proposeacutes sa propre visualisation de lrsquoinformation (apregraves avoir teacuteleacuteverseacute ses

propres donneacutees)

IssueCrawler outil de web social mining utilisable agrave distance (chargement des URL)

reacutecupeacuteration graphique

61

Cartographie de linformation- Famille doutils et contextes applicatifs

2- Contextes applicatifs

Eleacutements deacutevaluation

Les perspectives de la cartographie seacutemantique

62

Cartographie de linformation- Famille doutils et contextes applicatifs

2- Contextes applicatifs Eleacutements deacutevaluation

21- Evaluation scientifique

Question de meacutethode Eacutevaluation des Interfaces Utilisateur drsquoInformation Bonnel et Chevalier 2006

Objectif proposer une meacutethodologie deacutevaluation permettant de comparer du point de vue de la

visualisation des reacutesultats agrave une requecircte les outils de recherche Google Vivisimo Ujiko Grokker Kartoo

Vios SmartWeb (prototype)

Evaluation des repreacutesentations graphiques geacuteneacuteraliteacutes (Tricot et Roche 2006)

bull Arborescences simples

habitude des utilisateurs (explorateur de fichiers informatiques) pas de problegravemes avec volume limiteacute

au-delagrave drsquoune certaine quantiteacute drsquoinformation les arborescences deviennent inefficaces

bull Arbres de cocircnes en 3D

posent des problegravemes agrave lrsquoutilisateur qui nrsquoa pas lrsquohabitude des espaces en 3D

effort cognitif plus eacuteleveacute et prise en main plus longue

bull Arbres hyperboliques

problegravemes des eacutetiquettes des eacuteleacutements (occlusion)

effet de zoom impreacutevisible

Lrsquoune des conclusions une seule visualisation ne permet pas de reacutepondre agrave toutes les questions

multiplier les possibiliteacutes de visualisation

63

Cartographie de linformation- Famille doutils et contextes applicatifs

2- Contextes applicatifs Eleacutements deacutevaluation

21- Evaluation scientifique doctorat en cours agrave lrsquoEBSI (Aline Creacutedeville)

bull Contexte visualisation de lrsquoinformation dans le contexte de recherche drsquoinformation

bull Point de vue de la seacutemiologie graphique

o principes les plus couramment utiliseacutes sont la proximiteacute (Grokker) lrsquoenglobage (Kartoo)

et la connectiviteacute (Auquabrowser)

omeacutetaphores visuelles pas toujours adeacutequates au web

bull Reacutesultats

o lrsquoinformation doit ecirctre structureacutee

o apports possible pour lrsquoexploration mais pas pour la recherche

64

Cartographie de linformation- Famille doutils et contextes applicatifs

2- Contextes applicatifs Eleacutements deacutevaluation

22- Evaluation en contexte dusage de recherche dinformations (Ciaccia Ihadjadene Martins 2006)

Objectif analyse de lrsquoinfluence du mode de preacutesentation des informations sur les processus cognitifs mis

en jeu par lrsquoutilisateur dans lrsquoactiviteacute de recherche drsquoinformations sur Internet

Outils eacutevalueacutes Kartoo (pour 18 usagers) et Mapstan (pour 16 usagers)

Principaux reacutesultats

Coucirct cognitif sans pour autant conduire agrave de meilleures performances (comparaison avec une

preacutesentation en liste)

Hypothegravese nouveauteacute de la preacutesentation versus habitude des preacutesentations verbales

Strateacutegie optimiseacutee preacuteciser la requecircte drsquoune recherche agrave but flou et se concentrer sur les informations

relieacutees agrave lrsquoobjectif de la question versus informations non relieacutees

Le sens de la visualisation doit ecirctre clarifieacute les systegravemes doivent faciliter la compreacutehension des

eacuteleacutements visualiseacutes

65

Cartographie de linformation- Famille doutils et contextes applicatifs

2- Contextes applicatifs Les perspectives de la cartographie seacutemantique (C Tricot de la seacutemantique agrave la carte)

Pour reacutesoudre la probleacutematique de la repreacutesentation de lrsquoinformation la visualisation de

lrsquoinformation seule ne suffit pas

La visualisation de lrsquoinformation permet uniquement de preacutesenter des donneacutees en leur

associant une repreacutesentation graphique

La cartographie seacutemantique se veut

Une meacutethode de cartographie reposant sur la seacutemantique dun domaine

Un processus de production de connaissances

donneacutees brutes -gt donneacutees structureacutees -gt donneacutees repreacutesenteacutees -gt donneacutees visualiseacutees

Un formalisme de description type Reacuteseaux seacutemantiques

Un langage de description cartographique

Une architecture multi-agents

66

Cartographie de linformation- Famille doutils et contextes applicatifs

2- Contextes applicatifs Les perspectives de la cartographie seacutemantique (C Tricot de la seacutemantique agrave la carte)

67

Cartographie de linformation- Famille doutils et contextes applicatifs

2- Contextes applicatifs Les perspectives de la cartographie seacutemantique

ldquoUne bonne structure repreacutesentative graphique pour un arbre de donneacutees est celle qui deacuteforme le moins les similitudes originales entre les uniteacutes de donneacutees (similitudes qui sont donneacutes par loutil de classification) ou en dautres termes deux individus (ou classes) qui sont proches lune de lautre le restent aussi possible que peut apregraves projection dans l`espace de visualisation et ceci doit ecirctre eacutevident(et veacuterifiable par une mesure de calcul de divergence) dans lenvironnement de visualisation ldquo Tricot 2006

Page 6: Cartographie de l'information- Composantes des - Urfist de Paris

6

Cartographie de linformation- Introduction

2- Deacutefinitions carte et cartographie

La cartographie de donneacutees non geacuteographiques ou laquo visualisation dinformation raquo

bull laquo La visualisation est lutilisation de repreacutesentations visuelles interactives et informatiseacutees de donneacutees

pour amplifier la cognition raquo

bull laquo visualisation scientifique raquo toutes les visualisations de pheacutenomegravenes physiques La cartographie

geacuteographique entre dans cette classe

bull laquo visualisation dinformations raquo toutes les visualisations de donneacutees abstraites (non lieacutes agrave des

pheacutenomegravenes physiques)

bull laquo La visualisation dinformations est lutilisation de repreacutesentations visuelles interactives et informatiseacutees

de donneacutees abstraites pour amplifier la cognition raquo

Source Tricot (2006)

7

Cartographie de linformation- Introduction

La cartographie

La cartographie de donneacutees abstraites est assimilable agrave un processus qui permet de passer de donneacutees agrave une

carte ougrave les donneacutees peuvent deacutecrire des connaissances

8

Cartographie de linformation- Introduction

3- Ancrage historique scientomeacutetrie et Leximappe

Ancrage

Deacutebut des anneacutees 1960 Solla Price revue Scientometrics creacuteeacutee en 1978

Objectif

Trouver des lois reacutegissant la production scientifique (cf creacuteation par Garfield de lISI (Institute for Scientific

information) banque de donneacutees Citation Index)

Meacutethode

Appliquer des meacutethodes statistiques aux donneacutees secondaires des publications (mesures bibliomeacutetriques)

unidimensionnelles mesures statistiques simples (nombre darticles ou brevets produits par un laboratoire

nombre de recherches meneacutees en collaboration etc) comptage des citations (indicateur de limpact dun

document sur lensemble de la communauteacute scientifique)

bi-dimensionnelles permettent deacutetablir les liens pouvant exister entre deux publications par exemple

lorsquelles citent toutes les deux les mecircmes auteurs les mecircmes brevets etc (meacutethode de co-citations ou de co-

occurence de citations) ou quelles recourent au mecircme lexique (meacutethode des mots associeacutes)

Reacutesultat

Des cartes (outils graphiques associeacutes)

9

Cartographie de linformation- Introduction

Leximappe (deacuteveloppeacute conjointement par le Centre de Documentation Scientifique et Technique du CNRS

aujourdrsquohui INIST-CNRS et le Centre de Sociologie et Innovation de lrsquoEcole Nationale Supeacuterieure des Mines de

Paris)

Systegraveme drsquoorganisation de corpus documentaire fondeacute sur la meacutethode des mots associeacutes

bull Identifier les mots les plus fortement associeacutes entre eux -gt thegravemes de recherche

bull Construction drsquoagreacutegats (classes) indexant un sous-ensemble du corpus initial repreacutesentant un pocircle

drsquointeacuterecirct du domaine eacutetudieacute

bull Position des pocircles dans un diagramme strateacutegique suivant deux variables la centraliteacute souligne le

pouvoir de structuration (un agreacutegat est structurant dans un domaine quand il est relieacute agrave drsquoautres pocircles) la

densiteacute reflegravete la coheacuterence interne du pocircle (plus lrsquoassociation entre descripteurs est forte plus le pocircle est

dense)

10

Cartographie de linformation- Introduction

Meacutethode des mots associeacutes

Principe

Si deux documents sont proches parce qursquoils sont indexeacutes par des mots-cleacutes similaires alors deux mots-cleacutes

figurant ensemble dans un grand nombre de documents seront consideacutereacutes comme proches

Indice drsquoeacutequivalence eacutegal agrave la cooccurrence au carreacute des mots-cleacutes i et j diviseacutee par le produit de leurs

freacutequences respectives Eij = C2

ij (Ci x Cj)

Lrsquoindice drsquoeacutequivalence eacutevalue la force du lien lorsqursquoil vaut 0 les mots ne sont jamais preacutesents ensemble srsquoil

vaut 1 ils apparaissent toujours ensemble on dit qursquoils sont eacutequivalents

Classification Ascendante Hieacuterarchique (CAH) dit du simple lien (laquo single link clustering raquo)

Une classe est constitueacutee de mots associeacutes les uns aux autres par des associations internes

Les classes peuvent eacutegalement avoir des relations entre elles par le biais drsquoassociations externes entre des pairs

de mots appartenant agrave deux classes distinctes

Lrsquoeacutetape de classification des mots-cleacutes acheveacutee les documents les contenant peuvent finalement ecirctre affecteacutes

aux classes

Les classes sont ensuite positionneacutees sur un plan carteacutesien selon les valeurs de leurs laquo densiteacute raquo et

laquo centraliteacute raquo constituant ainsi une ldquocarterdquo

la densiteacute drsquoune classe rapporteacutee sur lrsquoaxe des ordonneacutees est exprimeacutee par la valeur moyenne des

associations internes entre mots-cleacutes formant la classe

la centraliteacute drsquoune classe rapporteacutee sur lrsquoaxe des abscisses est exprimeacutee par la valeur moyenne des

associations externes entre les mots qui la constituent et les mots drsquoautres classes

11

Cartographie de linformation- Introduction

4- Probleacutematique de la cartographie de linformation

Les donneacutees abstraites ne possegravedent pas de repreacutesentation graphique intrinsegraveque

bull Pour Card Mackinlay et Shneiderman tant que les informations et les donneacutees que lon souhaite

repreacutesenter sont deacuteriveacutees de donneacutees physiques alors elles possegravedent une repreacutesentation

graphique intrinsegraveque

bull Cas dune carte geacuteographique qui repreacutesente des villes la localisation physique des villes sur le

globe terrestre fournit la position relative des points correspondants aux villes sur la carte Les

repreacutesentations graphiques sont alors laquo agrave limage raquo des pheacutenomegravenes observeacutes

Pour les donneacutees abstraites la difficulteacute est de leur trouver une repreacutesentation et plus particuliegraverement une

reacutepartition dans lespace de la carte

bull Cas dune cartographie de concepts la difficulteacute nest pas de trouver une repreacutesentation pour chaque

concept (par exemple un rectangle ou un cercle) mais bien de les reacutepartir dans lespace de la

carte sachant que la reacutepartition aura un impact important sur la signification perccedilue

Lenjeu de la cartographie de donneacutees abstraites est

de deacuteterminer le choix des repreacutesentations pour les visualiser

12

Cartographie de linformation- Introduction

4- Probleacutematique de la cartographie de linformation

13

Cartographie de linformation- Introduction

5- Ancrage disciplinaire seacutemiologie graphique sciences cognitives gestion des connaissances (statistiques et intelligence artificielle)

14

Cartographie de linformation- Composantes des applications cartographiques

1- Composante calculatoire Data Mining

Terminologie

Forage de donneacutees -gt fouille de donneacutees -gt exploration de donneacutees -gt extraction de connaissances agrave partir de donneacutees (ECD)

Deacutefinitions

Scientifique

Processus non-trivial drsquoidentification de structures inconnues valides et potentiellement

exploitables dans les bases de donneacutees (Fayyad1996)

Meacutethodologique

Algorithmes et meacutethodes destineacutes agrave lrsquoexploration et lrsquoanalyse de grandes bases de donneacutees

informatiques en vue de deacutetecter dans ces donneacutees des regravegles des associations des

tendances inconnues (non fixeacutees a priori) des structures particuliegraveres restituant de faccedilon

concise lrsquoessentiel de lrsquoinformation utile pour lrsquoaide agrave la deacutecision

15

Cartographie de linformation- Composantes des applications cartographiques

1- Composante calculatoire Data Mining

Speacutecificiteacutes

Se distingue de lanalyse de donneacutees et de la statistique par les points suivants

ne neacutecessite pas dhypothegravese de deacutepart cest des donneacutees elles-mecircmes que se deacutegageront les correacutelations inteacuteressantes (exemples historiques des tickets de caisse)

les connaissances extraites par le Data Mining ont vocation agrave ecirctre inteacutegreacutees dans un scheacutema

organisationnel

les donneacutees traiteacutees sont issues des systegravemes de stockage en place dans lorganisation

-gt Le data mining fait passer drsquoanalyses confirmatoires agrave des analyses exploratoires

Techniques

Les techniques descriptives visent agrave mettre en eacutevidence des informations preacutesentes mais cacheacutees

par le volume des donneacutees cas des recherches drsquoassociations -gt il nrsquoy a pas de variable laquo cible raquo agrave

preacutedire

Les techniques preacutedictives visent agrave extrapoler de nouvelles informations agrave partir des informations

preacutesentes (cas du scoring) -gt il y a une variable laquo cible raquo agrave preacutedire

16

Cartographie de linformation- Composantes des applications cartographiques

1- Composante calculatoire Data Mining

Meacutethodes Deacutefinition Usages Techniques (liste indicative)

Non superviseacutees Sans variable cible Pour deacutegager dun ensemble

dindividus des groupes homogegravenes

Ex typologie

Techniques agrave base de

reacuteseau de neurones

Classification ascendante

hieacuterarchique

Recherche dassociations

Superviseacutees Avec variable cible Pour expliquer etou preacutevoir un ou

plusieurs pheacutenomegravenes observables

et effectivement mesureacutes

Ex filtrage collaboratif

classifications

Techniques agrave base

darbres de deacutecision

Techniques agrave base de

reacuteseau de neurones

Reacuteduction de

donneacutees

Utiliseacutee en amont des

autres meacutethodes

Permettent de reacuteduire un ensemble

de donneacutees volumineux agrave un

ensemble de taille plus reacuteduite

eacutepureacute de ce que lon consideacuterera

comme de linformation non

pertinente ou non signifiante

comme du bruit

Techniques danalyse

factorielle type AFC

17

Cartographie de linformation- Composantes des applications cartographiques

1- Composante calculatoire Data Mining exemples

Classification Affecter un objet agrave une classe en fonction de ses caracteacuteristiques A1hellipAn

Exemples

Deacuteterminer si un message est un mail de SPAM ou non (2 classes)

Affecter une page web dans une des cateacutegories theacutematiques dun annuaire (multi-classes)

Meacutethode

Si pas de theacuteorie pour deacutefinir la classe en fonction de A1hellipAn alors on eacutetudie un ensemble

drsquoexemples pour lesquels on connaicirct A1hellipAn et la classe associeacutee et on construit un

modegravele

Classe = f(A1hellipAn)

Techniques

Analyse discriminante

Arbre de classification

Reacuteseaux de neurones

18

Cartographie de linformation- Composantes des applications cartographiques

1- Composante calculatoire Reacuteseau de neurones

Principe

Un neurone est une uniteacute de calcul eacuteleacutementaire combine des entreacutees x1x

nen une sortie o

Les entreacutees nont pas toutes la mecircme importance agrave chaque entreacutee xiest associeacute un poids (ou coefficient

synaptique) wi

Luniteacute calcule dabord lactiviteacute dentreacutee (somme pondeacutereacutee des entreacutees)

Coefficients synaptiques

Sont calculeacutes non a priori mais sur la base des valeurs disponibles principe fondamental de

lrsquoapprentissage

Apprendre crsquoest calculer les valeurs des coefficients synaptiques en fonction des exemples disponibles

Algorithme laquo drsquoentraicircnement raquo modifie les poids synaptiques en fonction drsquoun jeu de donneacutees

preacutesenteacutee en entreacutee du reacuteseau

Geacuteneacuteraliser

Lrsquointeacuterecirct des reacuteseaux de neurones reacuteside dans leur capaciteacute agrave geacuteneacuteraliser agrave partir du jeu de test

19

Illustration du reacuteseau de neurones

20

Cartographie de linformation- Composantes des applications cartographiques

1- Composante calculatoire Text Mining

DeacutefinitionProceacutedeacute consistant agrave syntheacutetiser (classer structurer reacutesumer hellip) les textes en analysant les relations les patterns

et les regravegles entre uniteacutes textuelles (mots groupes phrases documents)

Du Data Mining au Text Mining

Ajout de la lexicomeacutetrie

Comme en Data Mining on trouve en Text Mining

des algorithmes descriptifs recherche des thegravemes abordeacutes dans un ensemble (corpus) de documents sans

connaicirctre agrave lrsquoavance ces thegravemes

des algorithmes preacutedictifs recherche des regravegles permettant drsquoaffecter automatiquement un document agrave un

thegraveme parmi plusieurs thegravemes preacutedeacutefinis

Application des techniques de Data mining

Individus = documents

Caractegraveres des individus = thegravemestermes des documents

21

Text Mining Data Mining

Impleacutementation vaste

degraves 2000

Impleacutementation vaste

degraves 1994Maturiteacute

milliersmilliers Dimension

complexesimpleRepreacutesentation

non-structureacutestructureacuteStructure

textuelnumeacuterique amp

cateacutegorique Objet

Text MiningData Mining

22

Vue simplifieacutee du Text Mining

23

Analyse lexicomeacutetrique

Eliminer les mots vides Deacutecouper les textes en uniteacutes Lemmatiser Reacuteduire le nombre de termes agrave traiter

24

Anayse statistique

25

Term frequency (TF)

Un terme qui apparait plusieurs fois dans un document est plus

important qursquoun terme qui apparaicirct une seule fois

wij = Nombre drsquooccurrences du terme ti dans le document dj

TFij = Freacutequence du terme ti dans le document dj

j

ij

d

wTF

ij

26

Inverse document frequency (IDF)

Un terme qui apparaicirct dans peu de documents est un meilleur discriminant qursquoun terme qui apparaicirct dans tous les documents

bull dfi = nombre de documents contenant le terme ti

bull d = nombre de documents du corpus

Inverse document frequency

i

i

df

dIDF log

27

Pondeacuteration TF-IDF

TF-IDF signifie Term Frequency x Inverse Document

Frequency

bull Proposeacutee par [Salton 1989] mesure limportance drsquoun terme

dans un document relativement agrave lrsquoensemble des documents

bull tf ij = freacutequence du terme i dans le document j

df i = nombre de documents contenant le terme i

N = d = nombre de documents du corpus

28

Similariteacute entre documents

Permet de ranger les

documents par pertinence

Le cosinus de lrsquoangle est

souvent utiliseacute

2d1d

2dT

1d2d1d )cos(

bull gt cos( )ltcos( )

bull d2 est plus proche de d1que de d3

29

Cartographie de linformation- Composantes des applications cartographiques

1- Composante calculatoire Data Clustering ou partitionnement de donneacutees

Deacutefinition

Meacutethode statistique danalyse des donneacutees qui a pour but de regrouper un ensemble de donneacutees en

diffeacuterents paquets homogegravenes chaque sous-ensemble partage des caracteacuteristiques communes qui

correspondent le plus souvent agrave des critegraveres de proximiteacute que lon deacutefinit en introduisant des mesures

de distance

Principe

Pour obtenir un bon partitionnement il convient de

bull minimiser linertie intra-classe pour obtenir des grappes (cluster en anglais) les plus homogegravenes

possibles

bull maximiser linertie inter-classe afin dobtenir des sous-ensembles bien diffeacuterencieacutes

Composition

Un cluster est composeacute de

bull une liste de mots-cleacutes

bull une liste dassociations internes

bull une liste dassociations externes

bull une eacutetiquette

bull une liste de documents affecteacutes apregraves la classification

30

Cartographie de linformation- Composantes des applications cartographiques

1- Composante calculatoire DataClustering

bull Lassociation la plus forte permet de creacuteer le premier cluster ici laquoa-braquo)

bull Une nouvelle association peut donner lieu agrave un laquoenrichissementraquo de cluster laquoa-eraquo vient

enrichir le cluster laquoa-braquo qui contient deacutejagrave laquoaraquo) ou agrave une creacuteation de nouveau cluster (laquoc-draquo par

exemple)

Deacutefinitions

Web mining Data mining appliqueacute aux donneacutees de navigation sur le web

Objectifs du web mining

1 Optimiser la navigation dans un site web (confort des internautes)

2 Augmenter le nombre de pages consulteacutees et lrsquoimpact des liens et des banniegraveres publicitaires

3 Deacuteceler les centres drsquointeacuterecirct et donc les attentes des internautes visitant le site

Types dAnalyses

Statistique descriptive

bull laquo 70 des internautes ont consulteacute 3 pages ou moins raquo

bull laquo 40 des internautes accegravedent au site sans passer par la page drsquoaccueil raquo

Deacutetection des regravegles drsquoassociation

bull laquo 20 des internautes visitant la page A visitent la page B dans la mecircme session raquo

Segmentation des internautes

bull Selon les sites de provenance les pages drsquoentreacutee le nombre de pages consulteacutees les fichiers teacuteleacutechargeacutes les pages de sortie etc

1- Composante calculatoire Web Mining

Cartographie de linformation- Composantes des applications cartographiques

31

32

Cartographie de linformation- Composantes des applications cartographiques

1- Composante calculatoire Web Social Data Mining

Hypothegravese documentaire

Web structureacute par des laquo localiteacutes theacutematiques raquo deacutefinies par une forte correacutelation entre

contenu des documents et proximiteacute hypertexte dessinant comme un territoire

Probleacutematique de la laquo traccedilabiliteacute raquo du socialbull Le web se preacutesente comme une matrice technique distribueacutee faccedilonneacutee par des usages dont

le reacuteseau garde la meacutemoire bull Le seul fait dutiliser une technologie numeacuterique contribue agrave produire des traces et agrave

grande eacutechelle elles constituent un reacuteservoir immense de donneacutees disponibles

Principes hubs et autoriteacutes (Kleinberg et al)

bull Autoriteacutes ensemble des pages contenant les meilleures sources drsquoinformation pour un

thegraveme donneacute

bull Hubs pages pointant sur les autoriteacutes

bull Le calcul ressemble au calcul drsquoimportance drsquoun article par nombre de citations (les liens

du Web vus comme des recommendations)

Applications

Sujets controverseacutes ougrave le seul lexique nest pas discriminant

33

Cartographie de linformation- Composantes des applications cartographiques

2- Composante visuelle

Eleacutements de seacutemiologie graphique (J Bertin) Theacuteorie de la Gestalt

34

Cartographie de linformation- Composantes des applications cartographiques

2- Composante visuelle Eleacutements de seacutemiologie graphique (J Bertin)

35

Cartographie de linformation- Composantes des applications cartographiques

2- Composante visuelle Eleacutements de seacutemiologie graphique (J Bertin)

Type de dessin Signification

des signes Description Exemple

Graphis

me

Image non-

figurative Panseacutemique

Le systegraveme srsquoouvre agrave toute

signification Tableau drsquoart

Image

figurative Polyseacutemique

Le systegraveme a pour objectif de

deacutefinir un concept ou une ideacutee

mais les interpreacutetations peuvent

diverger

Photographie

aeacuterienne

Graphique Monoseacutemique

Transcriptions de relations entre

des concepts preacutealablement

deacutefinis

Un

organigramme

36

Cartographie de linformation- Composantes des applications cartographiques

2- Composante visuelle Eleacutements de seacutemiologie graphique (J Bertin)

laquo La graphique est un systegraveme de signes [structures visuelles] qui permet de transcrire les

relations de diffeacuterence drsquoordre ou de proportionnaliteacute existant entre des donneacutees qualitatives ou

quantitatives raquo [Bonin 1997]

laquo La carte est une image graphique qui transcrit les relations de proportionnaliteacute ordre et

diffeacuterence par des variations proportionnelles ordonneacutees et diffeacuterentielles raquo

37

Cartographie de linformation- Composantes des applications cartographiques

2- Composante visuelle Eleacutements de seacutemiologie graphique (J Bertin)

38

Cartographie de linformation- Composantes des applications cartographiques

2- Composante visuelle Eleacutements de seacutemiologie graphique (J Bertin)

39

Cartographie de linformation- Composantes des applications cartographiques

2- Composante visuelle Eleacutements de seacutemiologie graphique (J Bertin)

40

Cartographie de linformation- Composantes des applications cartographiques

2- Composante visuelle Eleacutements de seacutemiologie graphique (J Bertin)

41

Cartographie de linformation- Composantes des applications cartographiques

2- Composante visuelle Eleacutements de seacutemiologie graphique (J Bertin)

Variables visuelles (laquo variables reacutetiniennes raquo)

Variation des proprieacuteteacutes graphiques des structures visuelles

42

Cartographie de linformation- Composantes des applications cartographiques

2- Composante visuelle Eleacutements de seacutemiologie graphique (J Bertin)

Variables visuelles

Cartographie de linformation- Composantes des applications cartographiques

2- Composante visuelle Eleacutements de seacutemiologie graphique (J Bertin)

43

44

Cartographie de linformation- Composantes des applications cartographiques

2- Composante visuelle Theacuteorie de la Gestalt (1890)

Principe

Le contexte est tregraves important dans la perception visuelle [Guillaume]

Les structures visuelles ne sont pas indeacutependantes les unes des autres et le contexte est

important pour la signification qui leur est attribueacutee

En graphique

La perception visuelle srsquoattache agrave reconnaicirctre des modegraveles dans un ensemble de structures

visuelles

De cette theacuteorie reacutesultent des lois correspondant agrave des cateacutegories drsquointeractions possibles entre

les structures visuelles

45

Cartographie de linformation- Composantes des applications cartographiques

Lois Effets Illustrations

Preacutegnance Une image est facile agrave comprendre si sa structure est simple et inversement

Proximiteacute Deux composants qui sont proches ont tendance agrave ecirctre perccedilus comme un

seul composant

Similariteacute Les composants similaires sont perccedilus comme srsquoils eacutetaient regroupeacutes

Fermeture Les contours proches sont perccedilus comme unifieacutes

Continuiteacute Des eacuteleacutements voisins sont perccedilus groupeacutes lorsqursquoils possegravedent

potentiellement un trait qui les relie

Symeacutetrie Des eacuteleacutements sont perccedilus comme un eacuteleacutement global lorsqursquoils forment une

symeacutetrie

Trajectoire identique Des eacuteleacutements qui se deacuteplacent avec la mecircme trajectoire semblent groupeacutes

Familiariteacute Des eacuteleacutements sont plus facilement groupables si le groupe est familier ou

significatif

46

Cartographie de linformation- Composantes des applications cartographiques

2- Composante visuelle Theacuteorie de la Gestalt (1890)

47

Cartographie de linformation- Composantes des applications cartographiques

2- Composante visuelle Conception drsquoun langage graphique (JB Lamy)

1- Analyser les informations ou connaissances que lrsquoon souhaite repreacutesenter

Determiner les attributs qui

deacutefinissent les termes agrave repreacutesenter

bull Par exemple pour repreacutesenter

des maladies les attributs pourraient

ecirctre la localisation anatomique

(cardiaque reacutenale) la seacuteveacuteriteacute etc

2- Associer agrave chaque attribut une variable

reacutetinienne pour le repreacutesenter

bull Par exemple pour les maladies

Associer lrsquoattribut localisation

anatomique agrave la variable

formepictogramme

bull Repreacutesenter la seacuteveacuteriteacute par la variable

couleur

3- Les relations entre les diffeacuterents termes

repreacutesenteacutes doivent ecirctre expliciteacutees

48

Cartographie de linformation

Famille doutils et contextes applicatifs

1- Famille doutils

Typologies

Aperccedilu

Travaux pratiques

2- Contextes applicatifs

Eleacutements deacutevaluation

Les perspectives de la cartographie seacutemantique

49

Cartographie de linformation- Famille doutils et contextes applicatifs

1- Famille doutils

Typologies

Aperccedilu

TP agrave partir de la seacutelection httpdeliciouscommylk02Stage_Carto

Et encore httpwwwvisualcomplexitycomvc (plus de 500 projets dans le domaine)

50

Cartographie de linformation- Famille doutils et contextes applicatifs

1- Famille doutils typologies

11- Typologie scientifique eacutetablie selon des critegraveres internes au domaine

bull les trois principaux paradigmes technique de visualisation type de donneacutees et type dinteraction (Keim

DA 2002)

bull la nature des donneacutees unidimensionnelles bidimensionnelles tridimensionnelles temporelles

multidimensionnelles hieacuterarchiques reacuteseaux (Shneiderman B 1996)

12- Etat de lart eacutevaluation - benchmarking typologie orienteacutee usages (veille et intelligence eacuteconomique)

Quelques exemples

Inist httpoutilsveilleinistfr

Esiee httpwwwaa-esieecomevent2005AGClaudeAschenbrennerppt

Ecole des Mines httpwwwdemoscienceorgresources

Commercial httpwwwk-praxiscom

Commercial httpwwwinformation-mininginfostate_of_art

Universitaire httpwell-formed-datanetthesis

13- Typologie cartographique

Quelques exemples de bloggers

bull Claude Aschenbrenner httpwwwserialmappercomarchive20070110la-pierre-de-rosette-de-la-

cartographie-de-l-informationhtml avec son mode demploi

bull Kartoo httpwwwmapdreamcom

51

Cartographie de linformation- Famille doutils et contextes applicatifs

1- Famille doutils typologie scientifique

52

Cartographie de linformation- Famille doutils orienteacutes laquo bibliothegraveques raquo

2- Les outils de navigation et de recherche sur Internet (seacutelection de Pierre Nobis)

A- Les navigateurs Nestor Navicrawler

53

Cartographie de linformation- Famille doutils orienteacutes laquo bibliothegraveques raquo

2- Les outils de navigation et de recherche sur Internet (seacutelection de Pierre Nobis)

B- Les outils de visualisation des reacutesultats PageBull ManagedQ

Bbis Les outils de visualisation de reacutesultats dans les actualiteacutes

repreacutesentation carreacutee Marumushi - Google NewsNewsIsFree - The Hive Group Tenbyten -flux RSS des sources drsquoactualiteacutes internationales

repreacutesentation sous forme de graphe

Silobreaker

54

Cartographie de linformation- Famille doutils orienteacutes laquo bibliothegraveques raquo

2- Les outils de navigation et de recherche sur Internet

B-Les outils de visualisation des reacutesultats TouchGraph application Java permettant de cartographier les reacutesultats issus

notamment de Google Amazon PubMed Alexa FaceBook

55

Cartographie de linformation- Famille doutils orienteacutes laquo bibliothegraveques raquo

2- Les outils de navigation et de recherche sur Internet (seacutelection de Pierre Nobis)

C- Les outils de recherche avec ajout de termes associeacutes dans une colonne regroupement theacutematique nuage de laquo tags raquo

D- Meacutetamoteurs avec affichage de clusters sous forme de listes

Carrot2 Clusty-Vivissimo Iboogie Polymeta Turbo10 Webclust

56

Cartographie de linformation- Famille doutils orienteacutes laquo bibliothegraveques raquo

2- Les outils de navigation et de recherche sur Internet (seacutelection de Pierre Nobis)

E- Meacutetamoteurs avec affichage de clusters sous forme graphique

E1- repreacutesentation centreacutee Allplus WebBrain

Allplus est un meacutetamoteur agrave clusteacuterisation graphique qui interroge les bases de Ask Google Yahoo et Livepar le biais de lrsquooutil Polymeta Lrsquointerface cluster graph permet de visualiser les reacutesultats sous une forme graphique

Webbrain permet de visualiser et drsquoaffiner les reacutesultats drsquoune requecircte issus de lrsquoOpen Directory Project

57

Cartographie de linformation- Famille doutils orienteacutes laquo bibliothegraveques raquo

2- Les outils de navigation et de recherche sur Internet (seacutelection de Pierre Nobis)

E- Meacutetamoteurs avec affichage de clusters sous forme graphique

E2- Repreacutesentation circulaire Grokker

E3- Repreacutesentation topographique TooLeNet srsquoappuie sur les technologies de KartOO et sur lrsquoindex de

Yahoo pour effectuer des recherches selon 3 modes moteur annuaire et carte auxquels srsquoajoutent des

options de personnalisation et de classification assez avanceacutees

58

Cartographie de linformation- Famille doutils orienteacutes laquo bibliothegraveques raquo

3- Les Outils graphiques dexploration

Wikimindmap est un outil drsquointerrogation

et de repreacutesentation des informations issues

de Wikipedia sous forme de carte heuristique

Visuwords est un dictionnaire en ligne

qui preacutesente ses reacutesultats sous forme de laquo grappes raquo

Il utilise la base de donneacutees Wordnet

Code couleur pour les diffeacuterentes relations

seacutemantiques hieacuterarchiques entre les termes

ainsi que les synonymes et les antonymes

59

Cartographie de linformation- Famille doutils orienteacutes laquo bibliothegraveques raquo

4- Les outils de creacuteation (carto)graphiqueA- Pour meacutemoire les logiciels de creacuteation de cartes heuristiques et conceptuelles

Cmaptools est un logiciel gratuit (usage eacuteducatif) de creacuteation de cartes conceptuelles

Freemind est un logiciel libre et gratuit qui permet de reacutealiser des cartes heuristiques

Thinkgraph est un logiciel gratuit de dessin 2D orienteacute vers la reacutealisation de cartes conceptuelles

60

Cartographie de linformation- Famille doutils orienteacutes laquo bibliothegraveques raquo

4- Les outils de creacuteation (carto)graphique

B- Les outils drsquoeacutedition de graphes

Guess est un logiciel libre et gratuit deacuteveloppeacute par Eytan Adar qui permet de visualiser des

graphes statiques Options de modification de certains attributs (taille couleur forme

algorithmes de positionnementhellip)

Pajek est un logiciel libre et gratuit (usage non commercial) deacuteveloppeacute par V Batagelj et A

Mrvar qui permet de traiter des donneacutees de reacuteseaux de grande taille Pajek signifie araigneacutee

en slovegravene

C- Les outils en ligne

ManyEye service collaboratif deacuteveloppeacute par IBM gracircce auquel on peut geacuteneacuterer selon un

des modegraveles proposeacutes sa propre visualisation de lrsquoinformation (apregraves avoir teacuteleacuteverseacute ses

propres donneacutees)

IssueCrawler outil de web social mining utilisable agrave distance (chargement des URL)

reacutecupeacuteration graphique

61

Cartographie de linformation- Famille doutils et contextes applicatifs

2- Contextes applicatifs

Eleacutements deacutevaluation

Les perspectives de la cartographie seacutemantique

62

Cartographie de linformation- Famille doutils et contextes applicatifs

2- Contextes applicatifs Eleacutements deacutevaluation

21- Evaluation scientifique

Question de meacutethode Eacutevaluation des Interfaces Utilisateur drsquoInformation Bonnel et Chevalier 2006

Objectif proposer une meacutethodologie deacutevaluation permettant de comparer du point de vue de la

visualisation des reacutesultats agrave une requecircte les outils de recherche Google Vivisimo Ujiko Grokker Kartoo

Vios SmartWeb (prototype)

Evaluation des repreacutesentations graphiques geacuteneacuteraliteacutes (Tricot et Roche 2006)

bull Arborescences simples

habitude des utilisateurs (explorateur de fichiers informatiques) pas de problegravemes avec volume limiteacute

au-delagrave drsquoune certaine quantiteacute drsquoinformation les arborescences deviennent inefficaces

bull Arbres de cocircnes en 3D

posent des problegravemes agrave lrsquoutilisateur qui nrsquoa pas lrsquohabitude des espaces en 3D

effort cognitif plus eacuteleveacute et prise en main plus longue

bull Arbres hyperboliques

problegravemes des eacutetiquettes des eacuteleacutements (occlusion)

effet de zoom impreacutevisible

Lrsquoune des conclusions une seule visualisation ne permet pas de reacutepondre agrave toutes les questions

multiplier les possibiliteacutes de visualisation

63

Cartographie de linformation- Famille doutils et contextes applicatifs

2- Contextes applicatifs Eleacutements deacutevaluation

21- Evaluation scientifique doctorat en cours agrave lrsquoEBSI (Aline Creacutedeville)

bull Contexte visualisation de lrsquoinformation dans le contexte de recherche drsquoinformation

bull Point de vue de la seacutemiologie graphique

o principes les plus couramment utiliseacutes sont la proximiteacute (Grokker) lrsquoenglobage (Kartoo)

et la connectiviteacute (Auquabrowser)

omeacutetaphores visuelles pas toujours adeacutequates au web

bull Reacutesultats

o lrsquoinformation doit ecirctre structureacutee

o apports possible pour lrsquoexploration mais pas pour la recherche

64

Cartographie de linformation- Famille doutils et contextes applicatifs

2- Contextes applicatifs Eleacutements deacutevaluation

22- Evaluation en contexte dusage de recherche dinformations (Ciaccia Ihadjadene Martins 2006)

Objectif analyse de lrsquoinfluence du mode de preacutesentation des informations sur les processus cognitifs mis

en jeu par lrsquoutilisateur dans lrsquoactiviteacute de recherche drsquoinformations sur Internet

Outils eacutevalueacutes Kartoo (pour 18 usagers) et Mapstan (pour 16 usagers)

Principaux reacutesultats

Coucirct cognitif sans pour autant conduire agrave de meilleures performances (comparaison avec une

preacutesentation en liste)

Hypothegravese nouveauteacute de la preacutesentation versus habitude des preacutesentations verbales

Strateacutegie optimiseacutee preacuteciser la requecircte drsquoune recherche agrave but flou et se concentrer sur les informations

relieacutees agrave lrsquoobjectif de la question versus informations non relieacutees

Le sens de la visualisation doit ecirctre clarifieacute les systegravemes doivent faciliter la compreacutehension des

eacuteleacutements visualiseacutes

65

Cartographie de linformation- Famille doutils et contextes applicatifs

2- Contextes applicatifs Les perspectives de la cartographie seacutemantique (C Tricot de la seacutemantique agrave la carte)

Pour reacutesoudre la probleacutematique de la repreacutesentation de lrsquoinformation la visualisation de

lrsquoinformation seule ne suffit pas

La visualisation de lrsquoinformation permet uniquement de preacutesenter des donneacutees en leur

associant une repreacutesentation graphique

La cartographie seacutemantique se veut

Une meacutethode de cartographie reposant sur la seacutemantique dun domaine

Un processus de production de connaissances

donneacutees brutes -gt donneacutees structureacutees -gt donneacutees repreacutesenteacutees -gt donneacutees visualiseacutees

Un formalisme de description type Reacuteseaux seacutemantiques

Un langage de description cartographique

Une architecture multi-agents

66

Cartographie de linformation- Famille doutils et contextes applicatifs

2- Contextes applicatifs Les perspectives de la cartographie seacutemantique (C Tricot de la seacutemantique agrave la carte)

67

Cartographie de linformation- Famille doutils et contextes applicatifs

2- Contextes applicatifs Les perspectives de la cartographie seacutemantique

ldquoUne bonne structure repreacutesentative graphique pour un arbre de donneacutees est celle qui deacuteforme le moins les similitudes originales entre les uniteacutes de donneacutees (similitudes qui sont donneacutes par loutil de classification) ou en dautres termes deux individus (ou classes) qui sont proches lune de lautre le restent aussi possible que peut apregraves projection dans l`espace de visualisation et ceci doit ecirctre eacutevident(et veacuterifiable par une mesure de calcul de divergence) dans lenvironnement de visualisation ldquo Tricot 2006

Page 7: Cartographie de l'information- Composantes des - Urfist de Paris

7

Cartographie de linformation- Introduction

La cartographie

La cartographie de donneacutees abstraites est assimilable agrave un processus qui permet de passer de donneacutees agrave une

carte ougrave les donneacutees peuvent deacutecrire des connaissances

8

Cartographie de linformation- Introduction

3- Ancrage historique scientomeacutetrie et Leximappe

Ancrage

Deacutebut des anneacutees 1960 Solla Price revue Scientometrics creacuteeacutee en 1978

Objectif

Trouver des lois reacutegissant la production scientifique (cf creacuteation par Garfield de lISI (Institute for Scientific

information) banque de donneacutees Citation Index)

Meacutethode

Appliquer des meacutethodes statistiques aux donneacutees secondaires des publications (mesures bibliomeacutetriques)

unidimensionnelles mesures statistiques simples (nombre darticles ou brevets produits par un laboratoire

nombre de recherches meneacutees en collaboration etc) comptage des citations (indicateur de limpact dun

document sur lensemble de la communauteacute scientifique)

bi-dimensionnelles permettent deacutetablir les liens pouvant exister entre deux publications par exemple

lorsquelles citent toutes les deux les mecircmes auteurs les mecircmes brevets etc (meacutethode de co-citations ou de co-

occurence de citations) ou quelles recourent au mecircme lexique (meacutethode des mots associeacutes)

Reacutesultat

Des cartes (outils graphiques associeacutes)

9

Cartographie de linformation- Introduction

Leximappe (deacuteveloppeacute conjointement par le Centre de Documentation Scientifique et Technique du CNRS

aujourdrsquohui INIST-CNRS et le Centre de Sociologie et Innovation de lrsquoEcole Nationale Supeacuterieure des Mines de

Paris)

Systegraveme drsquoorganisation de corpus documentaire fondeacute sur la meacutethode des mots associeacutes

bull Identifier les mots les plus fortement associeacutes entre eux -gt thegravemes de recherche

bull Construction drsquoagreacutegats (classes) indexant un sous-ensemble du corpus initial repreacutesentant un pocircle

drsquointeacuterecirct du domaine eacutetudieacute

bull Position des pocircles dans un diagramme strateacutegique suivant deux variables la centraliteacute souligne le

pouvoir de structuration (un agreacutegat est structurant dans un domaine quand il est relieacute agrave drsquoautres pocircles) la

densiteacute reflegravete la coheacuterence interne du pocircle (plus lrsquoassociation entre descripteurs est forte plus le pocircle est

dense)

10

Cartographie de linformation- Introduction

Meacutethode des mots associeacutes

Principe

Si deux documents sont proches parce qursquoils sont indexeacutes par des mots-cleacutes similaires alors deux mots-cleacutes

figurant ensemble dans un grand nombre de documents seront consideacutereacutes comme proches

Indice drsquoeacutequivalence eacutegal agrave la cooccurrence au carreacute des mots-cleacutes i et j diviseacutee par le produit de leurs

freacutequences respectives Eij = C2

ij (Ci x Cj)

Lrsquoindice drsquoeacutequivalence eacutevalue la force du lien lorsqursquoil vaut 0 les mots ne sont jamais preacutesents ensemble srsquoil

vaut 1 ils apparaissent toujours ensemble on dit qursquoils sont eacutequivalents

Classification Ascendante Hieacuterarchique (CAH) dit du simple lien (laquo single link clustering raquo)

Une classe est constitueacutee de mots associeacutes les uns aux autres par des associations internes

Les classes peuvent eacutegalement avoir des relations entre elles par le biais drsquoassociations externes entre des pairs

de mots appartenant agrave deux classes distinctes

Lrsquoeacutetape de classification des mots-cleacutes acheveacutee les documents les contenant peuvent finalement ecirctre affecteacutes

aux classes

Les classes sont ensuite positionneacutees sur un plan carteacutesien selon les valeurs de leurs laquo densiteacute raquo et

laquo centraliteacute raquo constituant ainsi une ldquocarterdquo

la densiteacute drsquoune classe rapporteacutee sur lrsquoaxe des ordonneacutees est exprimeacutee par la valeur moyenne des

associations internes entre mots-cleacutes formant la classe

la centraliteacute drsquoune classe rapporteacutee sur lrsquoaxe des abscisses est exprimeacutee par la valeur moyenne des

associations externes entre les mots qui la constituent et les mots drsquoautres classes

11

Cartographie de linformation- Introduction

4- Probleacutematique de la cartographie de linformation

Les donneacutees abstraites ne possegravedent pas de repreacutesentation graphique intrinsegraveque

bull Pour Card Mackinlay et Shneiderman tant que les informations et les donneacutees que lon souhaite

repreacutesenter sont deacuteriveacutees de donneacutees physiques alors elles possegravedent une repreacutesentation

graphique intrinsegraveque

bull Cas dune carte geacuteographique qui repreacutesente des villes la localisation physique des villes sur le

globe terrestre fournit la position relative des points correspondants aux villes sur la carte Les

repreacutesentations graphiques sont alors laquo agrave limage raquo des pheacutenomegravenes observeacutes

Pour les donneacutees abstraites la difficulteacute est de leur trouver une repreacutesentation et plus particuliegraverement une

reacutepartition dans lespace de la carte

bull Cas dune cartographie de concepts la difficulteacute nest pas de trouver une repreacutesentation pour chaque

concept (par exemple un rectangle ou un cercle) mais bien de les reacutepartir dans lespace de la

carte sachant que la reacutepartition aura un impact important sur la signification perccedilue

Lenjeu de la cartographie de donneacutees abstraites est

de deacuteterminer le choix des repreacutesentations pour les visualiser

12

Cartographie de linformation- Introduction

4- Probleacutematique de la cartographie de linformation

13

Cartographie de linformation- Introduction

5- Ancrage disciplinaire seacutemiologie graphique sciences cognitives gestion des connaissances (statistiques et intelligence artificielle)

14

Cartographie de linformation- Composantes des applications cartographiques

1- Composante calculatoire Data Mining

Terminologie

Forage de donneacutees -gt fouille de donneacutees -gt exploration de donneacutees -gt extraction de connaissances agrave partir de donneacutees (ECD)

Deacutefinitions

Scientifique

Processus non-trivial drsquoidentification de structures inconnues valides et potentiellement

exploitables dans les bases de donneacutees (Fayyad1996)

Meacutethodologique

Algorithmes et meacutethodes destineacutes agrave lrsquoexploration et lrsquoanalyse de grandes bases de donneacutees

informatiques en vue de deacutetecter dans ces donneacutees des regravegles des associations des

tendances inconnues (non fixeacutees a priori) des structures particuliegraveres restituant de faccedilon

concise lrsquoessentiel de lrsquoinformation utile pour lrsquoaide agrave la deacutecision

15

Cartographie de linformation- Composantes des applications cartographiques

1- Composante calculatoire Data Mining

Speacutecificiteacutes

Se distingue de lanalyse de donneacutees et de la statistique par les points suivants

ne neacutecessite pas dhypothegravese de deacutepart cest des donneacutees elles-mecircmes que se deacutegageront les correacutelations inteacuteressantes (exemples historiques des tickets de caisse)

les connaissances extraites par le Data Mining ont vocation agrave ecirctre inteacutegreacutees dans un scheacutema

organisationnel

les donneacutees traiteacutees sont issues des systegravemes de stockage en place dans lorganisation

-gt Le data mining fait passer drsquoanalyses confirmatoires agrave des analyses exploratoires

Techniques

Les techniques descriptives visent agrave mettre en eacutevidence des informations preacutesentes mais cacheacutees

par le volume des donneacutees cas des recherches drsquoassociations -gt il nrsquoy a pas de variable laquo cible raquo agrave

preacutedire

Les techniques preacutedictives visent agrave extrapoler de nouvelles informations agrave partir des informations

preacutesentes (cas du scoring) -gt il y a une variable laquo cible raquo agrave preacutedire

16

Cartographie de linformation- Composantes des applications cartographiques

1- Composante calculatoire Data Mining

Meacutethodes Deacutefinition Usages Techniques (liste indicative)

Non superviseacutees Sans variable cible Pour deacutegager dun ensemble

dindividus des groupes homogegravenes

Ex typologie

Techniques agrave base de

reacuteseau de neurones

Classification ascendante

hieacuterarchique

Recherche dassociations

Superviseacutees Avec variable cible Pour expliquer etou preacutevoir un ou

plusieurs pheacutenomegravenes observables

et effectivement mesureacutes

Ex filtrage collaboratif

classifications

Techniques agrave base

darbres de deacutecision

Techniques agrave base de

reacuteseau de neurones

Reacuteduction de

donneacutees

Utiliseacutee en amont des

autres meacutethodes

Permettent de reacuteduire un ensemble

de donneacutees volumineux agrave un

ensemble de taille plus reacuteduite

eacutepureacute de ce que lon consideacuterera

comme de linformation non

pertinente ou non signifiante

comme du bruit

Techniques danalyse

factorielle type AFC

17

Cartographie de linformation- Composantes des applications cartographiques

1- Composante calculatoire Data Mining exemples

Classification Affecter un objet agrave une classe en fonction de ses caracteacuteristiques A1hellipAn

Exemples

Deacuteterminer si un message est un mail de SPAM ou non (2 classes)

Affecter une page web dans une des cateacutegories theacutematiques dun annuaire (multi-classes)

Meacutethode

Si pas de theacuteorie pour deacutefinir la classe en fonction de A1hellipAn alors on eacutetudie un ensemble

drsquoexemples pour lesquels on connaicirct A1hellipAn et la classe associeacutee et on construit un

modegravele

Classe = f(A1hellipAn)

Techniques

Analyse discriminante

Arbre de classification

Reacuteseaux de neurones

18

Cartographie de linformation- Composantes des applications cartographiques

1- Composante calculatoire Reacuteseau de neurones

Principe

Un neurone est une uniteacute de calcul eacuteleacutementaire combine des entreacutees x1x

nen une sortie o

Les entreacutees nont pas toutes la mecircme importance agrave chaque entreacutee xiest associeacute un poids (ou coefficient

synaptique) wi

Luniteacute calcule dabord lactiviteacute dentreacutee (somme pondeacutereacutee des entreacutees)

Coefficients synaptiques

Sont calculeacutes non a priori mais sur la base des valeurs disponibles principe fondamental de

lrsquoapprentissage

Apprendre crsquoest calculer les valeurs des coefficients synaptiques en fonction des exemples disponibles

Algorithme laquo drsquoentraicircnement raquo modifie les poids synaptiques en fonction drsquoun jeu de donneacutees

preacutesenteacutee en entreacutee du reacuteseau

Geacuteneacuteraliser

Lrsquointeacuterecirct des reacuteseaux de neurones reacuteside dans leur capaciteacute agrave geacuteneacuteraliser agrave partir du jeu de test

19

Illustration du reacuteseau de neurones

20

Cartographie de linformation- Composantes des applications cartographiques

1- Composante calculatoire Text Mining

DeacutefinitionProceacutedeacute consistant agrave syntheacutetiser (classer structurer reacutesumer hellip) les textes en analysant les relations les patterns

et les regravegles entre uniteacutes textuelles (mots groupes phrases documents)

Du Data Mining au Text Mining

Ajout de la lexicomeacutetrie

Comme en Data Mining on trouve en Text Mining

des algorithmes descriptifs recherche des thegravemes abordeacutes dans un ensemble (corpus) de documents sans

connaicirctre agrave lrsquoavance ces thegravemes

des algorithmes preacutedictifs recherche des regravegles permettant drsquoaffecter automatiquement un document agrave un

thegraveme parmi plusieurs thegravemes preacutedeacutefinis

Application des techniques de Data mining

Individus = documents

Caractegraveres des individus = thegravemestermes des documents

21

Text Mining Data Mining

Impleacutementation vaste

degraves 2000

Impleacutementation vaste

degraves 1994Maturiteacute

milliersmilliers Dimension

complexesimpleRepreacutesentation

non-structureacutestructureacuteStructure

textuelnumeacuterique amp

cateacutegorique Objet

Text MiningData Mining

22

Vue simplifieacutee du Text Mining

23

Analyse lexicomeacutetrique

Eliminer les mots vides Deacutecouper les textes en uniteacutes Lemmatiser Reacuteduire le nombre de termes agrave traiter

24

Anayse statistique

25

Term frequency (TF)

Un terme qui apparait plusieurs fois dans un document est plus

important qursquoun terme qui apparaicirct une seule fois

wij = Nombre drsquooccurrences du terme ti dans le document dj

TFij = Freacutequence du terme ti dans le document dj

j

ij

d

wTF

ij

26

Inverse document frequency (IDF)

Un terme qui apparaicirct dans peu de documents est un meilleur discriminant qursquoun terme qui apparaicirct dans tous les documents

bull dfi = nombre de documents contenant le terme ti

bull d = nombre de documents du corpus

Inverse document frequency

i

i

df

dIDF log

27

Pondeacuteration TF-IDF

TF-IDF signifie Term Frequency x Inverse Document

Frequency

bull Proposeacutee par [Salton 1989] mesure limportance drsquoun terme

dans un document relativement agrave lrsquoensemble des documents

bull tf ij = freacutequence du terme i dans le document j

df i = nombre de documents contenant le terme i

N = d = nombre de documents du corpus

28

Similariteacute entre documents

Permet de ranger les

documents par pertinence

Le cosinus de lrsquoangle est

souvent utiliseacute

2d1d

2dT

1d2d1d )cos(

bull gt cos( )ltcos( )

bull d2 est plus proche de d1que de d3

29

Cartographie de linformation- Composantes des applications cartographiques

1- Composante calculatoire Data Clustering ou partitionnement de donneacutees

Deacutefinition

Meacutethode statistique danalyse des donneacutees qui a pour but de regrouper un ensemble de donneacutees en

diffeacuterents paquets homogegravenes chaque sous-ensemble partage des caracteacuteristiques communes qui

correspondent le plus souvent agrave des critegraveres de proximiteacute que lon deacutefinit en introduisant des mesures

de distance

Principe

Pour obtenir un bon partitionnement il convient de

bull minimiser linertie intra-classe pour obtenir des grappes (cluster en anglais) les plus homogegravenes

possibles

bull maximiser linertie inter-classe afin dobtenir des sous-ensembles bien diffeacuterencieacutes

Composition

Un cluster est composeacute de

bull une liste de mots-cleacutes

bull une liste dassociations internes

bull une liste dassociations externes

bull une eacutetiquette

bull une liste de documents affecteacutes apregraves la classification

30

Cartographie de linformation- Composantes des applications cartographiques

1- Composante calculatoire DataClustering

bull Lassociation la plus forte permet de creacuteer le premier cluster ici laquoa-braquo)

bull Une nouvelle association peut donner lieu agrave un laquoenrichissementraquo de cluster laquoa-eraquo vient

enrichir le cluster laquoa-braquo qui contient deacutejagrave laquoaraquo) ou agrave une creacuteation de nouveau cluster (laquoc-draquo par

exemple)

Deacutefinitions

Web mining Data mining appliqueacute aux donneacutees de navigation sur le web

Objectifs du web mining

1 Optimiser la navigation dans un site web (confort des internautes)

2 Augmenter le nombre de pages consulteacutees et lrsquoimpact des liens et des banniegraveres publicitaires

3 Deacuteceler les centres drsquointeacuterecirct et donc les attentes des internautes visitant le site

Types dAnalyses

Statistique descriptive

bull laquo 70 des internautes ont consulteacute 3 pages ou moins raquo

bull laquo 40 des internautes accegravedent au site sans passer par la page drsquoaccueil raquo

Deacutetection des regravegles drsquoassociation

bull laquo 20 des internautes visitant la page A visitent la page B dans la mecircme session raquo

Segmentation des internautes

bull Selon les sites de provenance les pages drsquoentreacutee le nombre de pages consulteacutees les fichiers teacuteleacutechargeacutes les pages de sortie etc

1- Composante calculatoire Web Mining

Cartographie de linformation- Composantes des applications cartographiques

31

32

Cartographie de linformation- Composantes des applications cartographiques

1- Composante calculatoire Web Social Data Mining

Hypothegravese documentaire

Web structureacute par des laquo localiteacutes theacutematiques raquo deacutefinies par une forte correacutelation entre

contenu des documents et proximiteacute hypertexte dessinant comme un territoire

Probleacutematique de la laquo traccedilabiliteacute raquo du socialbull Le web se preacutesente comme une matrice technique distribueacutee faccedilonneacutee par des usages dont

le reacuteseau garde la meacutemoire bull Le seul fait dutiliser une technologie numeacuterique contribue agrave produire des traces et agrave

grande eacutechelle elles constituent un reacuteservoir immense de donneacutees disponibles

Principes hubs et autoriteacutes (Kleinberg et al)

bull Autoriteacutes ensemble des pages contenant les meilleures sources drsquoinformation pour un

thegraveme donneacute

bull Hubs pages pointant sur les autoriteacutes

bull Le calcul ressemble au calcul drsquoimportance drsquoun article par nombre de citations (les liens

du Web vus comme des recommendations)

Applications

Sujets controverseacutes ougrave le seul lexique nest pas discriminant

33

Cartographie de linformation- Composantes des applications cartographiques

2- Composante visuelle

Eleacutements de seacutemiologie graphique (J Bertin) Theacuteorie de la Gestalt

34

Cartographie de linformation- Composantes des applications cartographiques

2- Composante visuelle Eleacutements de seacutemiologie graphique (J Bertin)

35

Cartographie de linformation- Composantes des applications cartographiques

2- Composante visuelle Eleacutements de seacutemiologie graphique (J Bertin)

Type de dessin Signification

des signes Description Exemple

Graphis

me

Image non-

figurative Panseacutemique

Le systegraveme srsquoouvre agrave toute

signification Tableau drsquoart

Image

figurative Polyseacutemique

Le systegraveme a pour objectif de

deacutefinir un concept ou une ideacutee

mais les interpreacutetations peuvent

diverger

Photographie

aeacuterienne

Graphique Monoseacutemique

Transcriptions de relations entre

des concepts preacutealablement

deacutefinis

Un

organigramme

36

Cartographie de linformation- Composantes des applications cartographiques

2- Composante visuelle Eleacutements de seacutemiologie graphique (J Bertin)

laquo La graphique est un systegraveme de signes [structures visuelles] qui permet de transcrire les

relations de diffeacuterence drsquoordre ou de proportionnaliteacute existant entre des donneacutees qualitatives ou

quantitatives raquo [Bonin 1997]

laquo La carte est une image graphique qui transcrit les relations de proportionnaliteacute ordre et

diffeacuterence par des variations proportionnelles ordonneacutees et diffeacuterentielles raquo

37

Cartographie de linformation- Composantes des applications cartographiques

2- Composante visuelle Eleacutements de seacutemiologie graphique (J Bertin)

38

Cartographie de linformation- Composantes des applications cartographiques

2- Composante visuelle Eleacutements de seacutemiologie graphique (J Bertin)

39

Cartographie de linformation- Composantes des applications cartographiques

2- Composante visuelle Eleacutements de seacutemiologie graphique (J Bertin)

40

Cartographie de linformation- Composantes des applications cartographiques

2- Composante visuelle Eleacutements de seacutemiologie graphique (J Bertin)

41

Cartographie de linformation- Composantes des applications cartographiques

2- Composante visuelle Eleacutements de seacutemiologie graphique (J Bertin)

Variables visuelles (laquo variables reacutetiniennes raquo)

Variation des proprieacuteteacutes graphiques des structures visuelles

42

Cartographie de linformation- Composantes des applications cartographiques

2- Composante visuelle Eleacutements de seacutemiologie graphique (J Bertin)

Variables visuelles

Cartographie de linformation- Composantes des applications cartographiques

2- Composante visuelle Eleacutements de seacutemiologie graphique (J Bertin)

43

44

Cartographie de linformation- Composantes des applications cartographiques

2- Composante visuelle Theacuteorie de la Gestalt (1890)

Principe

Le contexte est tregraves important dans la perception visuelle [Guillaume]

Les structures visuelles ne sont pas indeacutependantes les unes des autres et le contexte est

important pour la signification qui leur est attribueacutee

En graphique

La perception visuelle srsquoattache agrave reconnaicirctre des modegraveles dans un ensemble de structures

visuelles

De cette theacuteorie reacutesultent des lois correspondant agrave des cateacutegories drsquointeractions possibles entre

les structures visuelles

45

Cartographie de linformation- Composantes des applications cartographiques

Lois Effets Illustrations

Preacutegnance Une image est facile agrave comprendre si sa structure est simple et inversement

Proximiteacute Deux composants qui sont proches ont tendance agrave ecirctre perccedilus comme un

seul composant

Similariteacute Les composants similaires sont perccedilus comme srsquoils eacutetaient regroupeacutes

Fermeture Les contours proches sont perccedilus comme unifieacutes

Continuiteacute Des eacuteleacutements voisins sont perccedilus groupeacutes lorsqursquoils possegravedent

potentiellement un trait qui les relie

Symeacutetrie Des eacuteleacutements sont perccedilus comme un eacuteleacutement global lorsqursquoils forment une

symeacutetrie

Trajectoire identique Des eacuteleacutements qui se deacuteplacent avec la mecircme trajectoire semblent groupeacutes

Familiariteacute Des eacuteleacutements sont plus facilement groupables si le groupe est familier ou

significatif

46

Cartographie de linformation- Composantes des applications cartographiques

2- Composante visuelle Theacuteorie de la Gestalt (1890)

47

Cartographie de linformation- Composantes des applications cartographiques

2- Composante visuelle Conception drsquoun langage graphique (JB Lamy)

1- Analyser les informations ou connaissances que lrsquoon souhaite repreacutesenter

Determiner les attributs qui

deacutefinissent les termes agrave repreacutesenter

bull Par exemple pour repreacutesenter

des maladies les attributs pourraient

ecirctre la localisation anatomique

(cardiaque reacutenale) la seacuteveacuteriteacute etc

2- Associer agrave chaque attribut une variable

reacutetinienne pour le repreacutesenter

bull Par exemple pour les maladies

Associer lrsquoattribut localisation

anatomique agrave la variable

formepictogramme

bull Repreacutesenter la seacuteveacuteriteacute par la variable

couleur

3- Les relations entre les diffeacuterents termes

repreacutesenteacutes doivent ecirctre expliciteacutees

48

Cartographie de linformation

Famille doutils et contextes applicatifs

1- Famille doutils

Typologies

Aperccedilu

Travaux pratiques

2- Contextes applicatifs

Eleacutements deacutevaluation

Les perspectives de la cartographie seacutemantique

49

Cartographie de linformation- Famille doutils et contextes applicatifs

1- Famille doutils

Typologies

Aperccedilu

TP agrave partir de la seacutelection httpdeliciouscommylk02Stage_Carto

Et encore httpwwwvisualcomplexitycomvc (plus de 500 projets dans le domaine)

50

Cartographie de linformation- Famille doutils et contextes applicatifs

1- Famille doutils typologies

11- Typologie scientifique eacutetablie selon des critegraveres internes au domaine

bull les trois principaux paradigmes technique de visualisation type de donneacutees et type dinteraction (Keim

DA 2002)

bull la nature des donneacutees unidimensionnelles bidimensionnelles tridimensionnelles temporelles

multidimensionnelles hieacuterarchiques reacuteseaux (Shneiderman B 1996)

12- Etat de lart eacutevaluation - benchmarking typologie orienteacutee usages (veille et intelligence eacuteconomique)

Quelques exemples

Inist httpoutilsveilleinistfr

Esiee httpwwwaa-esieecomevent2005AGClaudeAschenbrennerppt

Ecole des Mines httpwwwdemoscienceorgresources

Commercial httpwwwk-praxiscom

Commercial httpwwwinformation-mininginfostate_of_art

Universitaire httpwell-formed-datanetthesis

13- Typologie cartographique

Quelques exemples de bloggers

bull Claude Aschenbrenner httpwwwserialmappercomarchive20070110la-pierre-de-rosette-de-la-

cartographie-de-l-informationhtml avec son mode demploi

bull Kartoo httpwwwmapdreamcom

51

Cartographie de linformation- Famille doutils et contextes applicatifs

1- Famille doutils typologie scientifique

52

Cartographie de linformation- Famille doutils orienteacutes laquo bibliothegraveques raquo

2- Les outils de navigation et de recherche sur Internet (seacutelection de Pierre Nobis)

A- Les navigateurs Nestor Navicrawler

53

Cartographie de linformation- Famille doutils orienteacutes laquo bibliothegraveques raquo

2- Les outils de navigation et de recherche sur Internet (seacutelection de Pierre Nobis)

B- Les outils de visualisation des reacutesultats PageBull ManagedQ

Bbis Les outils de visualisation de reacutesultats dans les actualiteacutes

repreacutesentation carreacutee Marumushi - Google NewsNewsIsFree - The Hive Group Tenbyten -flux RSS des sources drsquoactualiteacutes internationales

repreacutesentation sous forme de graphe

Silobreaker

54

Cartographie de linformation- Famille doutils orienteacutes laquo bibliothegraveques raquo

2- Les outils de navigation et de recherche sur Internet

B-Les outils de visualisation des reacutesultats TouchGraph application Java permettant de cartographier les reacutesultats issus

notamment de Google Amazon PubMed Alexa FaceBook

55

Cartographie de linformation- Famille doutils orienteacutes laquo bibliothegraveques raquo

2- Les outils de navigation et de recherche sur Internet (seacutelection de Pierre Nobis)

C- Les outils de recherche avec ajout de termes associeacutes dans une colonne regroupement theacutematique nuage de laquo tags raquo

D- Meacutetamoteurs avec affichage de clusters sous forme de listes

Carrot2 Clusty-Vivissimo Iboogie Polymeta Turbo10 Webclust

56

Cartographie de linformation- Famille doutils orienteacutes laquo bibliothegraveques raquo

2- Les outils de navigation et de recherche sur Internet (seacutelection de Pierre Nobis)

E- Meacutetamoteurs avec affichage de clusters sous forme graphique

E1- repreacutesentation centreacutee Allplus WebBrain

Allplus est un meacutetamoteur agrave clusteacuterisation graphique qui interroge les bases de Ask Google Yahoo et Livepar le biais de lrsquooutil Polymeta Lrsquointerface cluster graph permet de visualiser les reacutesultats sous une forme graphique

Webbrain permet de visualiser et drsquoaffiner les reacutesultats drsquoune requecircte issus de lrsquoOpen Directory Project

57

Cartographie de linformation- Famille doutils orienteacutes laquo bibliothegraveques raquo

2- Les outils de navigation et de recherche sur Internet (seacutelection de Pierre Nobis)

E- Meacutetamoteurs avec affichage de clusters sous forme graphique

E2- Repreacutesentation circulaire Grokker

E3- Repreacutesentation topographique TooLeNet srsquoappuie sur les technologies de KartOO et sur lrsquoindex de

Yahoo pour effectuer des recherches selon 3 modes moteur annuaire et carte auxquels srsquoajoutent des

options de personnalisation et de classification assez avanceacutees

58

Cartographie de linformation- Famille doutils orienteacutes laquo bibliothegraveques raquo

3- Les Outils graphiques dexploration

Wikimindmap est un outil drsquointerrogation

et de repreacutesentation des informations issues

de Wikipedia sous forme de carte heuristique

Visuwords est un dictionnaire en ligne

qui preacutesente ses reacutesultats sous forme de laquo grappes raquo

Il utilise la base de donneacutees Wordnet

Code couleur pour les diffeacuterentes relations

seacutemantiques hieacuterarchiques entre les termes

ainsi que les synonymes et les antonymes

59

Cartographie de linformation- Famille doutils orienteacutes laquo bibliothegraveques raquo

4- Les outils de creacuteation (carto)graphiqueA- Pour meacutemoire les logiciels de creacuteation de cartes heuristiques et conceptuelles

Cmaptools est un logiciel gratuit (usage eacuteducatif) de creacuteation de cartes conceptuelles

Freemind est un logiciel libre et gratuit qui permet de reacutealiser des cartes heuristiques

Thinkgraph est un logiciel gratuit de dessin 2D orienteacute vers la reacutealisation de cartes conceptuelles

60

Cartographie de linformation- Famille doutils orienteacutes laquo bibliothegraveques raquo

4- Les outils de creacuteation (carto)graphique

B- Les outils drsquoeacutedition de graphes

Guess est un logiciel libre et gratuit deacuteveloppeacute par Eytan Adar qui permet de visualiser des

graphes statiques Options de modification de certains attributs (taille couleur forme

algorithmes de positionnementhellip)

Pajek est un logiciel libre et gratuit (usage non commercial) deacuteveloppeacute par V Batagelj et A

Mrvar qui permet de traiter des donneacutees de reacuteseaux de grande taille Pajek signifie araigneacutee

en slovegravene

C- Les outils en ligne

ManyEye service collaboratif deacuteveloppeacute par IBM gracircce auquel on peut geacuteneacuterer selon un

des modegraveles proposeacutes sa propre visualisation de lrsquoinformation (apregraves avoir teacuteleacuteverseacute ses

propres donneacutees)

IssueCrawler outil de web social mining utilisable agrave distance (chargement des URL)

reacutecupeacuteration graphique

61

Cartographie de linformation- Famille doutils et contextes applicatifs

2- Contextes applicatifs

Eleacutements deacutevaluation

Les perspectives de la cartographie seacutemantique

62

Cartographie de linformation- Famille doutils et contextes applicatifs

2- Contextes applicatifs Eleacutements deacutevaluation

21- Evaluation scientifique

Question de meacutethode Eacutevaluation des Interfaces Utilisateur drsquoInformation Bonnel et Chevalier 2006

Objectif proposer une meacutethodologie deacutevaluation permettant de comparer du point de vue de la

visualisation des reacutesultats agrave une requecircte les outils de recherche Google Vivisimo Ujiko Grokker Kartoo

Vios SmartWeb (prototype)

Evaluation des repreacutesentations graphiques geacuteneacuteraliteacutes (Tricot et Roche 2006)

bull Arborescences simples

habitude des utilisateurs (explorateur de fichiers informatiques) pas de problegravemes avec volume limiteacute

au-delagrave drsquoune certaine quantiteacute drsquoinformation les arborescences deviennent inefficaces

bull Arbres de cocircnes en 3D

posent des problegravemes agrave lrsquoutilisateur qui nrsquoa pas lrsquohabitude des espaces en 3D

effort cognitif plus eacuteleveacute et prise en main plus longue

bull Arbres hyperboliques

problegravemes des eacutetiquettes des eacuteleacutements (occlusion)

effet de zoom impreacutevisible

Lrsquoune des conclusions une seule visualisation ne permet pas de reacutepondre agrave toutes les questions

multiplier les possibiliteacutes de visualisation

63

Cartographie de linformation- Famille doutils et contextes applicatifs

2- Contextes applicatifs Eleacutements deacutevaluation

21- Evaluation scientifique doctorat en cours agrave lrsquoEBSI (Aline Creacutedeville)

bull Contexte visualisation de lrsquoinformation dans le contexte de recherche drsquoinformation

bull Point de vue de la seacutemiologie graphique

o principes les plus couramment utiliseacutes sont la proximiteacute (Grokker) lrsquoenglobage (Kartoo)

et la connectiviteacute (Auquabrowser)

omeacutetaphores visuelles pas toujours adeacutequates au web

bull Reacutesultats

o lrsquoinformation doit ecirctre structureacutee

o apports possible pour lrsquoexploration mais pas pour la recherche

64

Cartographie de linformation- Famille doutils et contextes applicatifs

2- Contextes applicatifs Eleacutements deacutevaluation

22- Evaluation en contexte dusage de recherche dinformations (Ciaccia Ihadjadene Martins 2006)

Objectif analyse de lrsquoinfluence du mode de preacutesentation des informations sur les processus cognitifs mis

en jeu par lrsquoutilisateur dans lrsquoactiviteacute de recherche drsquoinformations sur Internet

Outils eacutevalueacutes Kartoo (pour 18 usagers) et Mapstan (pour 16 usagers)

Principaux reacutesultats

Coucirct cognitif sans pour autant conduire agrave de meilleures performances (comparaison avec une

preacutesentation en liste)

Hypothegravese nouveauteacute de la preacutesentation versus habitude des preacutesentations verbales

Strateacutegie optimiseacutee preacuteciser la requecircte drsquoune recherche agrave but flou et se concentrer sur les informations

relieacutees agrave lrsquoobjectif de la question versus informations non relieacutees

Le sens de la visualisation doit ecirctre clarifieacute les systegravemes doivent faciliter la compreacutehension des

eacuteleacutements visualiseacutes

65

Cartographie de linformation- Famille doutils et contextes applicatifs

2- Contextes applicatifs Les perspectives de la cartographie seacutemantique (C Tricot de la seacutemantique agrave la carte)

Pour reacutesoudre la probleacutematique de la repreacutesentation de lrsquoinformation la visualisation de

lrsquoinformation seule ne suffit pas

La visualisation de lrsquoinformation permet uniquement de preacutesenter des donneacutees en leur

associant une repreacutesentation graphique

La cartographie seacutemantique se veut

Une meacutethode de cartographie reposant sur la seacutemantique dun domaine

Un processus de production de connaissances

donneacutees brutes -gt donneacutees structureacutees -gt donneacutees repreacutesenteacutees -gt donneacutees visualiseacutees

Un formalisme de description type Reacuteseaux seacutemantiques

Un langage de description cartographique

Une architecture multi-agents

66

Cartographie de linformation- Famille doutils et contextes applicatifs

2- Contextes applicatifs Les perspectives de la cartographie seacutemantique (C Tricot de la seacutemantique agrave la carte)

67

Cartographie de linformation- Famille doutils et contextes applicatifs

2- Contextes applicatifs Les perspectives de la cartographie seacutemantique

ldquoUne bonne structure repreacutesentative graphique pour un arbre de donneacutees est celle qui deacuteforme le moins les similitudes originales entre les uniteacutes de donneacutees (similitudes qui sont donneacutes par loutil de classification) ou en dautres termes deux individus (ou classes) qui sont proches lune de lautre le restent aussi possible que peut apregraves projection dans l`espace de visualisation et ceci doit ecirctre eacutevident(et veacuterifiable par une mesure de calcul de divergence) dans lenvironnement de visualisation ldquo Tricot 2006

Page 8: Cartographie de l'information- Composantes des - Urfist de Paris

8

Cartographie de linformation- Introduction

3- Ancrage historique scientomeacutetrie et Leximappe

Ancrage

Deacutebut des anneacutees 1960 Solla Price revue Scientometrics creacuteeacutee en 1978

Objectif

Trouver des lois reacutegissant la production scientifique (cf creacuteation par Garfield de lISI (Institute for Scientific

information) banque de donneacutees Citation Index)

Meacutethode

Appliquer des meacutethodes statistiques aux donneacutees secondaires des publications (mesures bibliomeacutetriques)

unidimensionnelles mesures statistiques simples (nombre darticles ou brevets produits par un laboratoire

nombre de recherches meneacutees en collaboration etc) comptage des citations (indicateur de limpact dun

document sur lensemble de la communauteacute scientifique)

bi-dimensionnelles permettent deacutetablir les liens pouvant exister entre deux publications par exemple

lorsquelles citent toutes les deux les mecircmes auteurs les mecircmes brevets etc (meacutethode de co-citations ou de co-

occurence de citations) ou quelles recourent au mecircme lexique (meacutethode des mots associeacutes)

Reacutesultat

Des cartes (outils graphiques associeacutes)

9

Cartographie de linformation- Introduction

Leximappe (deacuteveloppeacute conjointement par le Centre de Documentation Scientifique et Technique du CNRS

aujourdrsquohui INIST-CNRS et le Centre de Sociologie et Innovation de lrsquoEcole Nationale Supeacuterieure des Mines de

Paris)

Systegraveme drsquoorganisation de corpus documentaire fondeacute sur la meacutethode des mots associeacutes

bull Identifier les mots les plus fortement associeacutes entre eux -gt thegravemes de recherche

bull Construction drsquoagreacutegats (classes) indexant un sous-ensemble du corpus initial repreacutesentant un pocircle

drsquointeacuterecirct du domaine eacutetudieacute

bull Position des pocircles dans un diagramme strateacutegique suivant deux variables la centraliteacute souligne le

pouvoir de structuration (un agreacutegat est structurant dans un domaine quand il est relieacute agrave drsquoautres pocircles) la

densiteacute reflegravete la coheacuterence interne du pocircle (plus lrsquoassociation entre descripteurs est forte plus le pocircle est

dense)

10

Cartographie de linformation- Introduction

Meacutethode des mots associeacutes

Principe

Si deux documents sont proches parce qursquoils sont indexeacutes par des mots-cleacutes similaires alors deux mots-cleacutes

figurant ensemble dans un grand nombre de documents seront consideacutereacutes comme proches

Indice drsquoeacutequivalence eacutegal agrave la cooccurrence au carreacute des mots-cleacutes i et j diviseacutee par le produit de leurs

freacutequences respectives Eij = C2

ij (Ci x Cj)

Lrsquoindice drsquoeacutequivalence eacutevalue la force du lien lorsqursquoil vaut 0 les mots ne sont jamais preacutesents ensemble srsquoil

vaut 1 ils apparaissent toujours ensemble on dit qursquoils sont eacutequivalents

Classification Ascendante Hieacuterarchique (CAH) dit du simple lien (laquo single link clustering raquo)

Une classe est constitueacutee de mots associeacutes les uns aux autres par des associations internes

Les classes peuvent eacutegalement avoir des relations entre elles par le biais drsquoassociations externes entre des pairs

de mots appartenant agrave deux classes distinctes

Lrsquoeacutetape de classification des mots-cleacutes acheveacutee les documents les contenant peuvent finalement ecirctre affecteacutes

aux classes

Les classes sont ensuite positionneacutees sur un plan carteacutesien selon les valeurs de leurs laquo densiteacute raquo et

laquo centraliteacute raquo constituant ainsi une ldquocarterdquo

la densiteacute drsquoune classe rapporteacutee sur lrsquoaxe des ordonneacutees est exprimeacutee par la valeur moyenne des

associations internes entre mots-cleacutes formant la classe

la centraliteacute drsquoune classe rapporteacutee sur lrsquoaxe des abscisses est exprimeacutee par la valeur moyenne des

associations externes entre les mots qui la constituent et les mots drsquoautres classes

11

Cartographie de linformation- Introduction

4- Probleacutematique de la cartographie de linformation

Les donneacutees abstraites ne possegravedent pas de repreacutesentation graphique intrinsegraveque

bull Pour Card Mackinlay et Shneiderman tant que les informations et les donneacutees que lon souhaite

repreacutesenter sont deacuteriveacutees de donneacutees physiques alors elles possegravedent une repreacutesentation

graphique intrinsegraveque

bull Cas dune carte geacuteographique qui repreacutesente des villes la localisation physique des villes sur le

globe terrestre fournit la position relative des points correspondants aux villes sur la carte Les

repreacutesentations graphiques sont alors laquo agrave limage raquo des pheacutenomegravenes observeacutes

Pour les donneacutees abstraites la difficulteacute est de leur trouver une repreacutesentation et plus particuliegraverement une

reacutepartition dans lespace de la carte

bull Cas dune cartographie de concepts la difficulteacute nest pas de trouver une repreacutesentation pour chaque

concept (par exemple un rectangle ou un cercle) mais bien de les reacutepartir dans lespace de la

carte sachant que la reacutepartition aura un impact important sur la signification perccedilue

Lenjeu de la cartographie de donneacutees abstraites est

de deacuteterminer le choix des repreacutesentations pour les visualiser

12

Cartographie de linformation- Introduction

4- Probleacutematique de la cartographie de linformation

13

Cartographie de linformation- Introduction

5- Ancrage disciplinaire seacutemiologie graphique sciences cognitives gestion des connaissances (statistiques et intelligence artificielle)

14

Cartographie de linformation- Composantes des applications cartographiques

1- Composante calculatoire Data Mining

Terminologie

Forage de donneacutees -gt fouille de donneacutees -gt exploration de donneacutees -gt extraction de connaissances agrave partir de donneacutees (ECD)

Deacutefinitions

Scientifique

Processus non-trivial drsquoidentification de structures inconnues valides et potentiellement

exploitables dans les bases de donneacutees (Fayyad1996)

Meacutethodologique

Algorithmes et meacutethodes destineacutes agrave lrsquoexploration et lrsquoanalyse de grandes bases de donneacutees

informatiques en vue de deacutetecter dans ces donneacutees des regravegles des associations des

tendances inconnues (non fixeacutees a priori) des structures particuliegraveres restituant de faccedilon

concise lrsquoessentiel de lrsquoinformation utile pour lrsquoaide agrave la deacutecision

15

Cartographie de linformation- Composantes des applications cartographiques

1- Composante calculatoire Data Mining

Speacutecificiteacutes

Se distingue de lanalyse de donneacutees et de la statistique par les points suivants

ne neacutecessite pas dhypothegravese de deacutepart cest des donneacutees elles-mecircmes que se deacutegageront les correacutelations inteacuteressantes (exemples historiques des tickets de caisse)

les connaissances extraites par le Data Mining ont vocation agrave ecirctre inteacutegreacutees dans un scheacutema

organisationnel

les donneacutees traiteacutees sont issues des systegravemes de stockage en place dans lorganisation

-gt Le data mining fait passer drsquoanalyses confirmatoires agrave des analyses exploratoires

Techniques

Les techniques descriptives visent agrave mettre en eacutevidence des informations preacutesentes mais cacheacutees

par le volume des donneacutees cas des recherches drsquoassociations -gt il nrsquoy a pas de variable laquo cible raquo agrave

preacutedire

Les techniques preacutedictives visent agrave extrapoler de nouvelles informations agrave partir des informations

preacutesentes (cas du scoring) -gt il y a une variable laquo cible raquo agrave preacutedire

16

Cartographie de linformation- Composantes des applications cartographiques

1- Composante calculatoire Data Mining

Meacutethodes Deacutefinition Usages Techniques (liste indicative)

Non superviseacutees Sans variable cible Pour deacutegager dun ensemble

dindividus des groupes homogegravenes

Ex typologie

Techniques agrave base de

reacuteseau de neurones

Classification ascendante

hieacuterarchique

Recherche dassociations

Superviseacutees Avec variable cible Pour expliquer etou preacutevoir un ou

plusieurs pheacutenomegravenes observables

et effectivement mesureacutes

Ex filtrage collaboratif

classifications

Techniques agrave base

darbres de deacutecision

Techniques agrave base de

reacuteseau de neurones

Reacuteduction de

donneacutees

Utiliseacutee en amont des

autres meacutethodes

Permettent de reacuteduire un ensemble

de donneacutees volumineux agrave un

ensemble de taille plus reacuteduite

eacutepureacute de ce que lon consideacuterera

comme de linformation non

pertinente ou non signifiante

comme du bruit

Techniques danalyse

factorielle type AFC

17

Cartographie de linformation- Composantes des applications cartographiques

1- Composante calculatoire Data Mining exemples

Classification Affecter un objet agrave une classe en fonction de ses caracteacuteristiques A1hellipAn

Exemples

Deacuteterminer si un message est un mail de SPAM ou non (2 classes)

Affecter une page web dans une des cateacutegories theacutematiques dun annuaire (multi-classes)

Meacutethode

Si pas de theacuteorie pour deacutefinir la classe en fonction de A1hellipAn alors on eacutetudie un ensemble

drsquoexemples pour lesquels on connaicirct A1hellipAn et la classe associeacutee et on construit un

modegravele

Classe = f(A1hellipAn)

Techniques

Analyse discriminante

Arbre de classification

Reacuteseaux de neurones

18

Cartographie de linformation- Composantes des applications cartographiques

1- Composante calculatoire Reacuteseau de neurones

Principe

Un neurone est une uniteacute de calcul eacuteleacutementaire combine des entreacutees x1x

nen une sortie o

Les entreacutees nont pas toutes la mecircme importance agrave chaque entreacutee xiest associeacute un poids (ou coefficient

synaptique) wi

Luniteacute calcule dabord lactiviteacute dentreacutee (somme pondeacutereacutee des entreacutees)

Coefficients synaptiques

Sont calculeacutes non a priori mais sur la base des valeurs disponibles principe fondamental de

lrsquoapprentissage

Apprendre crsquoest calculer les valeurs des coefficients synaptiques en fonction des exemples disponibles

Algorithme laquo drsquoentraicircnement raquo modifie les poids synaptiques en fonction drsquoun jeu de donneacutees

preacutesenteacutee en entreacutee du reacuteseau

Geacuteneacuteraliser

Lrsquointeacuterecirct des reacuteseaux de neurones reacuteside dans leur capaciteacute agrave geacuteneacuteraliser agrave partir du jeu de test

19

Illustration du reacuteseau de neurones

20

Cartographie de linformation- Composantes des applications cartographiques

1- Composante calculatoire Text Mining

DeacutefinitionProceacutedeacute consistant agrave syntheacutetiser (classer structurer reacutesumer hellip) les textes en analysant les relations les patterns

et les regravegles entre uniteacutes textuelles (mots groupes phrases documents)

Du Data Mining au Text Mining

Ajout de la lexicomeacutetrie

Comme en Data Mining on trouve en Text Mining

des algorithmes descriptifs recherche des thegravemes abordeacutes dans un ensemble (corpus) de documents sans

connaicirctre agrave lrsquoavance ces thegravemes

des algorithmes preacutedictifs recherche des regravegles permettant drsquoaffecter automatiquement un document agrave un

thegraveme parmi plusieurs thegravemes preacutedeacutefinis

Application des techniques de Data mining

Individus = documents

Caractegraveres des individus = thegravemestermes des documents

21

Text Mining Data Mining

Impleacutementation vaste

degraves 2000

Impleacutementation vaste

degraves 1994Maturiteacute

milliersmilliers Dimension

complexesimpleRepreacutesentation

non-structureacutestructureacuteStructure

textuelnumeacuterique amp

cateacutegorique Objet

Text MiningData Mining

22

Vue simplifieacutee du Text Mining

23

Analyse lexicomeacutetrique

Eliminer les mots vides Deacutecouper les textes en uniteacutes Lemmatiser Reacuteduire le nombre de termes agrave traiter

24

Anayse statistique

25

Term frequency (TF)

Un terme qui apparait plusieurs fois dans un document est plus

important qursquoun terme qui apparaicirct une seule fois

wij = Nombre drsquooccurrences du terme ti dans le document dj

TFij = Freacutequence du terme ti dans le document dj

j

ij

d

wTF

ij

26

Inverse document frequency (IDF)

Un terme qui apparaicirct dans peu de documents est un meilleur discriminant qursquoun terme qui apparaicirct dans tous les documents

bull dfi = nombre de documents contenant le terme ti

bull d = nombre de documents du corpus

Inverse document frequency

i

i

df

dIDF log

27

Pondeacuteration TF-IDF

TF-IDF signifie Term Frequency x Inverse Document

Frequency

bull Proposeacutee par [Salton 1989] mesure limportance drsquoun terme

dans un document relativement agrave lrsquoensemble des documents

bull tf ij = freacutequence du terme i dans le document j

df i = nombre de documents contenant le terme i

N = d = nombre de documents du corpus

28

Similariteacute entre documents

Permet de ranger les

documents par pertinence

Le cosinus de lrsquoangle est

souvent utiliseacute

2d1d

2dT

1d2d1d )cos(

bull gt cos( )ltcos( )

bull d2 est plus proche de d1que de d3

29

Cartographie de linformation- Composantes des applications cartographiques

1- Composante calculatoire Data Clustering ou partitionnement de donneacutees

Deacutefinition

Meacutethode statistique danalyse des donneacutees qui a pour but de regrouper un ensemble de donneacutees en

diffeacuterents paquets homogegravenes chaque sous-ensemble partage des caracteacuteristiques communes qui

correspondent le plus souvent agrave des critegraveres de proximiteacute que lon deacutefinit en introduisant des mesures

de distance

Principe

Pour obtenir un bon partitionnement il convient de

bull minimiser linertie intra-classe pour obtenir des grappes (cluster en anglais) les plus homogegravenes

possibles

bull maximiser linertie inter-classe afin dobtenir des sous-ensembles bien diffeacuterencieacutes

Composition

Un cluster est composeacute de

bull une liste de mots-cleacutes

bull une liste dassociations internes

bull une liste dassociations externes

bull une eacutetiquette

bull une liste de documents affecteacutes apregraves la classification

30

Cartographie de linformation- Composantes des applications cartographiques

1- Composante calculatoire DataClustering

bull Lassociation la plus forte permet de creacuteer le premier cluster ici laquoa-braquo)

bull Une nouvelle association peut donner lieu agrave un laquoenrichissementraquo de cluster laquoa-eraquo vient

enrichir le cluster laquoa-braquo qui contient deacutejagrave laquoaraquo) ou agrave une creacuteation de nouveau cluster (laquoc-draquo par

exemple)

Deacutefinitions

Web mining Data mining appliqueacute aux donneacutees de navigation sur le web

Objectifs du web mining

1 Optimiser la navigation dans un site web (confort des internautes)

2 Augmenter le nombre de pages consulteacutees et lrsquoimpact des liens et des banniegraveres publicitaires

3 Deacuteceler les centres drsquointeacuterecirct et donc les attentes des internautes visitant le site

Types dAnalyses

Statistique descriptive

bull laquo 70 des internautes ont consulteacute 3 pages ou moins raquo

bull laquo 40 des internautes accegravedent au site sans passer par la page drsquoaccueil raquo

Deacutetection des regravegles drsquoassociation

bull laquo 20 des internautes visitant la page A visitent la page B dans la mecircme session raquo

Segmentation des internautes

bull Selon les sites de provenance les pages drsquoentreacutee le nombre de pages consulteacutees les fichiers teacuteleacutechargeacutes les pages de sortie etc

1- Composante calculatoire Web Mining

Cartographie de linformation- Composantes des applications cartographiques

31

32

Cartographie de linformation- Composantes des applications cartographiques

1- Composante calculatoire Web Social Data Mining

Hypothegravese documentaire

Web structureacute par des laquo localiteacutes theacutematiques raquo deacutefinies par une forte correacutelation entre

contenu des documents et proximiteacute hypertexte dessinant comme un territoire

Probleacutematique de la laquo traccedilabiliteacute raquo du socialbull Le web se preacutesente comme une matrice technique distribueacutee faccedilonneacutee par des usages dont

le reacuteseau garde la meacutemoire bull Le seul fait dutiliser une technologie numeacuterique contribue agrave produire des traces et agrave

grande eacutechelle elles constituent un reacuteservoir immense de donneacutees disponibles

Principes hubs et autoriteacutes (Kleinberg et al)

bull Autoriteacutes ensemble des pages contenant les meilleures sources drsquoinformation pour un

thegraveme donneacute

bull Hubs pages pointant sur les autoriteacutes

bull Le calcul ressemble au calcul drsquoimportance drsquoun article par nombre de citations (les liens

du Web vus comme des recommendations)

Applications

Sujets controverseacutes ougrave le seul lexique nest pas discriminant

33

Cartographie de linformation- Composantes des applications cartographiques

2- Composante visuelle

Eleacutements de seacutemiologie graphique (J Bertin) Theacuteorie de la Gestalt

34

Cartographie de linformation- Composantes des applications cartographiques

2- Composante visuelle Eleacutements de seacutemiologie graphique (J Bertin)

35

Cartographie de linformation- Composantes des applications cartographiques

2- Composante visuelle Eleacutements de seacutemiologie graphique (J Bertin)

Type de dessin Signification

des signes Description Exemple

Graphis

me

Image non-

figurative Panseacutemique

Le systegraveme srsquoouvre agrave toute

signification Tableau drsquoart

Image

figurative Polyseacutemique

Le systegraveme a pour objectif de

deacutefinir un concept ou une ideacutee

mais les interpreacutetations peuvent

diverger

Photographie

aeacuterienne

Graphique Monoseacutemique

Transcriptions de relations entre

des concepts preacutealablement

deacutefinis

Un

organigramme

36

Cartographie de linformation- Composantes des applications cartographiques

2- Composante visuelle Eleacutements de seacutemiologie graphique (J Bertin)

laquo La graphique est un systegraveme de signes [structures visuelles] qui permet de transcrire les

relations de diffeacuterence drsquoordre ou de proportionnaliteacute existant entre des donneacutees qualitatives ou

quantitatives raquo [Bonin 1997]

laquo La carte est une image graphique qui transcrit les relations de proportionnaliteacute ordre et

diffeacuterence par des variations proportionnelles ordonneacutees et diffeacuterentielles raquo

37

Cartographie de linformation- Composantes des applications cartographiques

2- Composante visuelle Eleacutements de seacutemiologie graphique (J Bertin)

38

Cartographie de linformation- Composantes des applications cartographiques

2- Composante visuelle Eleacutements de seacutemiologie graphique (J Bertin)

39

Cartographie de linformation- Composantes des applications cartographiques

2- Composante visuelle Eleacutements de seacutemiologie graphique (J Bertin)

40

Cartographie de linformation- Composantes des applications cartographiques

2- Composante visuelle Eleacutements de seacutemiologie graphique (J Bertin)

41

Cartographie de linformation- Composantes des applications cartographiques

2- Composante visuelle Eleacutements de seacutemiologie graphique (J Bertin)

Variables visuelles (laquo variables reacutetiniennes raquo)

Variation des proprieacuteteacutes graphiques des structures visuelles

42

Cartographie de linformation- Composantes des applications cartographiques

2- Composante visuelle Eleacutements de seacutemiologie graphique (J Bertin)

Variables visuelles

Cartographie de linformation- Composantes des applications cartographiques

2- Composante visuelle Eleacutements de seacutemiologie graphique (J Bertin)

43

44

Cartographie de linformation- Composantes des applications cartographiques

2- Composante visuelle Theacuteorie de la Gestalt (1890)

Principe

Le contexte est tregraves important dans la perception visuelle [Guillaume]

Les structures visuelles ne sont pas indeacutependantes les unes des autres et le contexte est

important pour la signification qui leur est attribueacutee

En graphique

La perception visuelle srsquoattache agrave reconnaicirctre des modegraveles dans un ensemble de structures

visuelles

De cette theacuteorie reacutesultent des lois correspondant agrave des cateacutegories drsquointeractions possibles entre

les structures visuelles

45

Cartographie de linformation- Composantes des applications cartographiques

Lois Effets Illustrations

Preacutegnance Une image est facile agrave comprendre si sa structure est simple et inversement

Proximiteacute Deux composants qui sont proches ont tendance agrave ecirctre perccedilus comme un

seul composant

Similariteacute Les composants similaires sont perccedilus comme srsquoils eacutetaient regroupeacutes

Fermeture Les contours proches sont perccedilus comme unifieacutes

Continuiteacute Des eacuteleacutements voisins sont perccedilus groupeacutes lorsqursquoils possegravedent

potentiellement un trait qui les relie

Symeacutetrie Des eacuteleacutements sont perccedilus comme un eacuteleacutement global lorsqursquoils forment une

symeacutetrie

Trajectoire identique Des eacuteleacutements qui se deacuteplacent avec la mecircme trajectoire semblent groupeacutes

Familiariteacute Des eacuteleacutements sont plus facilement groupables si le groupe est familier ou

significatif

46

Cartographie de linformation- Composantes des applications cartographiques

2- Composante visuelle Theacuteorie de la Gestalt (1890)

47

Cartographie de linformation- Composantes des applications cartographiques

2- Composante visuelle Conception drsquoun langage graphique (JB Lamy)

1- Analyser les informations ou connaissances que lrsquoon souhaite repreacutesenter

Determiner les attributs qui

deacutefinissent les termes agrave repreacutesenter

bull Par exemple pour repreacutesenter

des maladies les attributs pourraient

ecirctre la localisation anatomique

(cardiaque reacutenale) la seacuteveacuteriteacute etc

2- Associer agrave chaque attribut une variable

reacutetinienne pour le repreacutesenter

bull Par exemple pour les maladies

Associer lrsquoattribut localisation

anatomique agrave la variable

formepictogramme

bull Repreacutesenter la seacuteveacuteriteacute par la variable

couleur

3- Les relations entre les diffeacuterents termes

repreacutesenteacutes doivent ecirctre expliciteacutees

48

Cartographie de linformation

Famille doutils et contextes applicatifs

1- Famille doutils

Typologies

Aperccedilu

Travaux pratiques

2- Contextes applicatifs

Eleacutements deacutevaluation

Les perspectives de la cartographie seacutemantique

49

Cartographie de linformation- Famille doutils et contextes applicatifs

1- Famille doutils

Typologies

Aperccedilu

TP agrave partir de la seacutelection httpdeliciouscommylk02Stage_Carto

Et encore httpwwwvisualcomplexitycomvc (plus de 500 projets dans le domaine)

50

Cartographie de linformation- Famille doutils et contextes applicatifs

1- Famille doutils typologies

11- Typologie scientifique eacutetablie selon des critegraveres internes au domaine

bull les trois principaux paradigmes technique de visualisation type de donneacutees et type dinteraction (Keim

DA 2002)

bull la nature des donneacutees unidimensionnelles bidimensionnelles tridimensionnelles temporelles

multidimensionnelles hieacuterarchiques reacuteseaux (Shneiderman B 1996)

12- Etat de lart eacutevaluation - benchmarking typologie orienteacutee usages (veille et intelligence eacuteconomique)

Quelques exemples

Inist httpoutilsveilleinistfr

Esiee httpwwwaa-esieecomevent2005AGClaudeAschenbrennerppt

Ecole des Mines httpwwwdemoscienceorgresources

Commercial httpwwwk-praxiscom

Commercial httpwwwinformation-mininginfostate_of_art

Universitaire httpwell-formed-datanetthesis

13- Typologie cartographique

Quelques exemples de bloggers

bull Claude Aschenbrenner httpwwwserialmappercomarchive20070110la-pierre-de-rosette-de-la-

cartographie-de-l-informationhtml avec son mode demploi

bull Kartoo httpwwwmapdreamcom

51

Cartographie de linformation- Famille doutils et contextes applicatifs

1- Famille doutils typologie scientifique

52

Cartographie de linformation- Famille doutils orienteacutes laquo bibliothegraveques raquo

2- Les outils de navigation et de recherche sur Internet (seacutelection de Pierre Nobis)

A- Les navigateurs Nestor Navicrawler

53

Cartographie de linformation- Famille doutils orienteacutes laquo bibliothegraveques raquo

2- Les outils de navigation et de recherche sur Internet (seacutelection de Pierre Nobis)

B- Les outils de visualisation des reacutesultats PageBull ManagedQ

Bbis Les outils de visualisation de reacutesultats dans les actualiteacutes

repreacutesentation carreacutee Marumushi - Google NewsNewsIsFree - The Hive Group Tenbyten -flux RSS des sources drsquoactualiteacutes internationales

repreacutesentation sous forme de graphe

Silobreaker

54

Cartographie de linformation- Famille doutils orienteacutes laquo bibliothegraveques raquo

2- Les outils de navigation et de recherche sur Internet

B-Les outils de visualisation des reacutesultats TouchGraph application Java permettant de cartographier les reacutesultats issus

notamment de Google Amazon PubMed Alexa FaceBook

55

Cartographie de linformation- Famille doutils orienteacutes laquo bibliothegraveques raquo

2- Les outils de navigation et de recherche sur Internet (seacutelection de Pierre Nobis)

C- Les outils de recherche avec ajout de termes associeacutes dans une colonne regroupement theacutematique nuage de laquo tags raquo

D- Meacutetamoteurs avec affichage de clusters sous forme de listes

Carrot2 Clusty-Vivissimo Iboogie Polymeta Turbo10 Webclust

56

Cartographie de linformation- Famille doutils orienteacutes laquo bibliothegraveques raquo

2- Les outils de navigation et de recherche sur Internet (seacutelection de Pierre Nobis)

E- Meacutetamoteurs avec affichage de clusters sous forme graphique

E1- repreacutesentation centreacutee Allplus WebBrain

Allplus est un meacutetamoteur agrave clusteacuterisation graphique qui interroge les bases de Ask Google Yahoo et Livepar le biais de lrsquooutil Polymeta Lrsquointerface cluster graph permet de visualiser les reacutesultats sous une forme graphique

Webbrain permet de visualiser et drsquoaffiner les reacutesultats drsquoune requecircte issus de lrsquoOpen Directory Project

57

Cartographie de linformation- Famille doutils orienteacutes laquo bibliothegraveques raquo

2- Les outils de navigation et de recherche sur Internet (seacutelection de Pierre Nobis)

E- Meacutetamoteurs avec affichage de clusters sous forme graphique

E2- Repreacutesentation circulaire Grokker

E3- Repreacutesentation topographique TooLeNet srsquoappuie sur les technologies de KartOO et sur lrsquoindex de

Yahoo pour effectuer des recherches selon 3 modes moteur annuaire et carte auxquels srsquoajoutent des

options de personnalisation et de classification assez avanceacutees

58

Cartographie de linformation- Famille doutils orienteacutes laquo bibliothegraveques raquo

3- Les Outils graphiques dexploration

Wikimindmap est un outil drsquointerrogation

et de repreacutesentation des informations issues

de Wikipedia sous forme de carte heuristique

Visuwords est un dictionnaire en ligne

qui preacutesente ses reacutesultats sous forme de laquo grappes raquo

Il utilise la base de donneacutees Wordnet

Code couleur pour les diffeacuterentes relations

seacutemantiques hieacuterarchiques entre les termes

ainsi que les synonymes et les antonymes

59

Cartographie de linformation- Famille doutils orienteacutes laquo bibliothegraveques raquo

4- Les outils de creacuteation (carto)graphiqueA- Pour meacutemoire les logiciels de creacuteation de cartes heuristiques et conceptuelles

Cmaptools est un logiciel gratuit (usage eacuteducatif) de creacuteation de cartes conceptuelles

Freemind est un logiciel libre et gratuit qui permet de reacutealiser des cartes heuristiques

Thinkgraph est un logiciel gratuit de dessin 2D orienteacute vers la reacutealisation de cartes conceptuelles

60

Cartographie de linformation- Famille doutils orienteacutes laquo bibliothegraveques raquo

4- Les outils de creacuteation (carto)graphique

B- Les outils drsquoeacutedition de graphes

Guess est un logiciel libre et gratuit deacuteveloppeacute par Eytan Adar qui permet de visualiser des

graphes statiques Options de modification de certains attributs (taille couleur forme

algorithmes de positionnementhellip)

Pajek est un logiciel libre et gratuit (usage non commercial) deacuteveloppeacute par V Batagelj et A

Mrvar qui permet de traiter des donneacutees de reacuteseaux de grande taille Pajek signifie araigneacutee

en slovegravene

C- Les outils en ligne

ManyEye service collaboratif deacuteveloppeacute par IBM gracircce auquel on peut geacuteneacuterer selon un

des modegraveles proposeacutes sa propre visualisation de lrsquoinformation (apregraves avoir teacuteleacuteverseacute ses

propres donneacutees)

IssueCrawler outil de web social mining utilisable agrave distance (chargement des URL)

reacutecupeacuteration graphique

61

Cartographie de linformation- Famille doutils et contextes applicatifs

2- Contextes applicatifs

Eleacutements deacutevaluation

Les perspectives de la cartographie seacutemantique

62

Cartographie de linformation- Famille doutils et contextes applicatifs

2- Contextes applicatifs Eleacutements deacutevaluation

21- Evaluation scientifique

Question de meacutethode Eacutevaluation des Interfaces Utilisateur drsquoInformation Bonnel et Chevalier 2006

Objectif proposer une meacutethodologie deacutevaluation permettant de comparer du point de vue de la

visualisation des reacutesultats agrave une requecircte les outils de recherche Google Vivisimo Ujiko Grokker Kartoo

Vios SmartWeb (prototype)

Evaluation des repreacutesentations graphiques geacuteneacuteraliteacutes (Tricot et Roche 2006)

bull Arborescences simples

habitude des utilisateurs (explorateur de fichiers informatiques) pas de problegravemes avec volume limiteacute

au-delagrave drsquoune certaine quantiteacute drsquoinformation les arborescences deviennent inefficaces

bull Arbres de cocircnes en 3D

posent des problegravemes agrave lrsquoutilisateur qui nrsquoa pas lrsquohabitude des espaces en 3D

effort cognitif plus eacuteleveacute et prise en main plus longue

bull Arbres hyperboliques

problegravemes des eacutetiquettes des eacuteleacutements (occlusion)

effet de zoom impreacutevisible

Lrsquoune des conclusions une seule visualisation ne permet pas de reacutepondre agrave toutes les questions

multiplier les possibiliteacutes de visualisation

63

Cartographie de linformation- Famille doutils et contextes applicatifs

2- Contextes applicatifs Eleacutements deacutevaluation

21- Evaluation scientifique doctorat en cours agrave lrsquoEBSI (Aline Creacutedeville)

bull Contexte visualisation de lrsquoinformation dans le contexte de recherche drsquoinformation

bull Point de vue de la seacutemiologie graphique

o principes les plus couramment utiliseacutes sont la proximiteacute (Grokker) lrsquoenglobage (Kartoo)

et la connectiviteacute (Auquabrowser)

omeacutetaphores visuelles pas toujours adeacutequates au web

bull Reacutesultats

o lrsquoinformation doit ecirctre structureacutee

o apports possible pour lrsquoexploration mais pas pour la recherche

64

Cartographie de linformation- Famille doutils et contextes applicatifs

2- Contextes applicatifs Eleacutements deacutevaluation

22- Evaluation en contexte dusage de recherche dinformations (Ciaccia Ihadjadene Martins 2006)

Objectif analyse de lrsquoinfluence du mode de preacutesentation des informations sur les processus cognitifs mis

en jeu par lrsquoutilisateur dans lrsquoactiviteacute de recherche drsquoinformations sur Internet

Outils eacutevalueacutes Kartoo (pour 18 usagers) et Mapstan (pour 16 usagers)

Principaux reacutesultats

Coucirct cognitif sans pour autant conduire agrave de meilleures performances (comparaison avec une

preacutesentation en liste)

Hypothegravese nouveauteacute de la preacutesentation versus habitude des preacutesentations verbales

Strateacutegie optimiseacutee preacuteciser la requecircte drsquoune recherche agrave but flou et se concentrer sur les informations

relieacutees agrave lrsquoobjectif de la question versus informations non relieacutees

Le sens de la visualisation doit ecirctre clarifieacute les systegravemes doivent faciliter la compreacutehension des

eacuteleacutements visualiseacutes

65

Cartographie de linformation- Famille doutils et contextes applicatifs

2- Contextes applicatifs Les perspectives de la cartographie seacutemantique (C Tricot de la seacutemantique agrave la carte)

Pour reacutesoudre la probleacutematique de la repreacutesentation de lrsquoinformation la visualisation de

lrsquoinformation seule ne suffit pas

La visualisation de lrsquoinformation permet uniquement de preacutesenter des donneacutees en leur

associant une repreacutesentation graphique

La cartographie seacutemantique se veut

Une meacutethode de cartographie reposant sur la seacutemantique dun domaine

Un processus de production de connaissances

donneacutees brutes -gt donneacutees structureacutees -gt donneacutees repreacutesenteacutees -gt donneacutees visualiseacutees

Un formalisme de description type Reacuteseaux seacutemantiques

Un langage de description cartographique

Une architecture multi-agents

66

Cartographie de linformation- Famille doutils et contextes applicatifs

2- Contextes applicatifs Les perspectives de la cartographie seacutemantique (C Tricot de la seacutemantique agrave la carte)

67

Cartographie de linformation- Famille doutils et contextes applicatifs

2- Contextes applicatifs Les perspectives de la cartographie seacutemantique

ldquoUne bonne structure repreacutesentative graphique pour un arbre de donneacutees est celle qui deacuteforme le moins les similitudes originales entre les uniteacutes de donneacutees (similitudes qui sont donneacutes par loutil de classification) ou en dautres termes deux individus (ou classes) qui sont proches lune de lautre le restent aussi possible que peut apregraves projection dans l`espace de visualisation et ceci doit ecirctre eacutevident(et veacuterifiable par une mesure de calcul de divergence) dans lenvironnement de visualisation ldquo Tricot 2006

Page 9: Cartographie de l'information- Composantes des - Urfist de Paris

9

Cartographie de linformation- Introduction

Leximappe (deacuteveloppeacute conjointement par le Centre de Documentation Scientifique et Technique du CNRS

aujourdrsquohui INIST-CNRS et le Centre de Sociologie et Innovation de lrsquoEcole Nationale Supeacuterieure des Mines de

Paris)

Systegraveme drsquoorganisation de corpus documentaire fondeacute sur la meacutethode des mots associeacutes

bull Identifier les mots les plus fortement associeacutes entre eux -gt thegravemes de recherche

bull Construction drsquoagreacutegats (classes) indexant un sous-ensemble du corpus initial repreacutesentant un pocircle

drsquointeacuterecirct du domaine eacutetudieacute

bull Position des pocircles dans un diagramme strateacutegique suivant deux variables la centraliteacute souligne le

pouvoir de structuration (un agreacutegat est structurant dans un domaine quand il est relieacute agrave drsquoautres pocircles) la

densiteacute reflegravete la coheacuterence interne du pocircle (plus lrsquoassociation entre descripteurs est forte plus le pocircle est

dense)

10

Cartographie de linformation- Introduction

Meacutethode des mots associeacutes

Principe

Si deux documents sont proches parce qursquoils sont indexeacutes par des mots-cleacutes similaires alors deux mots-cleacutes

figurant ensemble dans un grand nombre de documents seront consideacutereacutes comme proches

Indice drsquoeacutequivalence eacutegal agrave la cooccurrence au carreacute des mots-cleacutes i et j diviseacutee par le produit de leurs

freacutequences respectives Eij = C2

ij (Ci x Cj)

Lrsquoindice drsquoeacutequivalence eacutevalue la force du lien lorsqursquoil vaut 0 les mots ne sont jamais preacutesents ensemble srsquoil

vaut 1 ils apparaissent toujours ensemble on dit qursquoils sont eacutequivalents

Classification Ascendante Hieacuterarchique (CAH) dit du simple lien (laquo single link clustering raquo)

Une classe est constitueacutee de mots associeacutes les uns aux autres par des associations internes

Les classes peuvent eacutegalement avoir des relations entre elles par le biais drsquoassociations externes entre des pairs

de mots appartenant agrave deux classes distinctes

Lrsquoeacutetape de classification des mots-cleacutes acheveacutee les documents les contenant peuvent finalement ecirctre affecteacutes

aux classes

Les classes sont ensuite positionneacutees sur un plan carteacutesien selon les valeurs de leurs laquo densiteacute raquo et

laquo centraliteacute raquo constituant ainsi une ldquocarterdquo

la densiteacute drsquoune classe rapporteacutee sur lrsquoaxe des ordonneacutees est exprimeacutee par la valeur moyenne des

associations internes entre mots-cleacutes formant la classe

la centraliteacute drsquoune classe rapporteacutee sur lrsquoaxe des abscisses est exprimeacutee par la valeur moyenne des

associations externes entre les mots qui la constituent et les mots drsquoautres classes

11

Cartographie de linformation- Introduction

4- Probleacutematique de la cartographie de linformation

Les donneacutees abstraites ne possegravedent pas de repreacutesentation graphique intrinsegraveque

bull Pour Card Mackinlay et Shneiderman tant que les informations et les donneacutees que lon souhaite

repreacutesenter sont deacuteriveacutees de donneacutees physiques alors elles possegravedent une repreacutesentation

graphique intrinsegraveque

bull Cas dune carte geacuteographique qui repreacutesente des villes la localisation physique des villes sur le

globe terrestre fournit la position relative des points correspondants aux villes sur la carte Les

repreacutesentations graphiques sont alors laquo agrave limage raquo des pheacutenomegravenes observeacutes

Pour les donneacutees abstraites la difficulteacute est de leur trouver une repreacutesentation et plus particuliegraverement une

reacutepartition dans lespace de la carte

bull Cas dune cartographie de concepts la difficulteacute nest pas de trouver une repreacutesentation pour chaque

concept (par exemple un rectangle ou un cercle) mais bien de les reacutepartir dans lespace de la

carte sachant que la reacutepartition aura un impact important sur la signification perccedilue

Lenjeu de la cartographie de donneacutees abstraites est

de deacuteterminer le choix des repreacutesentations pour les visualiser

12

Cartographie de linformation- Introduction

4- Probleacutematique de la cartographie de linformation

13

Cartographie de linformation- Introduction

5- Ancrage disciplinaire seacutemiologie graphique sciences cognitives gestion des connaissances (statistiques et intelligence artificielle)

14

Cartographie de linformation- Composantes des applications cartographiques

1- Composante calculatoire Data Mining

Terminologie

Forage de donneacutees -gt fouille de donneacutees -gt exploration de donneacutees -gt extraction de connaissances agrave partir de donneacutees (ECD)

Deacutefinitions

Scientifique

Processus non-trivial drsquoidentification de structures inconnues valides et potentiellement

exploitables dans les bases de donneacutees (Fayyad1996)

Meacutethodologique

Algorithmes et meacutethodes destineacutes agrave lrsquoexploration et lrsquoanalyse de grandes bases de donneacutees

informatiques en vue de deacutetecter dans ces donneacutees des regravegles des associations des

tendances inconnues (non fixeacutees a priori) des structures particuliegraveres restituant de faccedilon

concise lrsquoessentiel de lrsquoinformation utile pour lrsquoaide agrave la deacutecision

15

Cartographie de linformation- Composantes des applications cartographiques

1- Composante calculatoire Data Mining

Speacutecificiteacutes

Se distingue de lanalyse de donneacutees et de la statistique par les points suivants

ne neacutecessite pas dhypothegravese de deacutepart cest des donneacutees elles-mecircmes que se deacutegageront les correacutelations inteacuteressantes (exemples historiques des tickets de caisse)

les connaissances extraites par le Data Mining ont vocation agrave ecirctre inteacutegreacutees dans un scheacutema

organisationnel

les donneacutees traiteacutees sont issues des systegravemes de stockage en place dans lorganisation

-gt Le data mining fait passer drsquoanalyses confirmatoires agrave des analyses exploratoires

Techniques

Les techniques descriptives visent agrave mettre en eacutevidence des informations preacutesentes mais cacheacutees

par le volume des donneacutees cas des recherches drsquoassociations -gt il nrsquoy a pas de variable laquo cible raquo agrave

preacutedire

Les techniques preacutedictives visent agrave extrapoler de nouvelles informations agrave partir des informations

preacutesentes (cas du scoring) -gt il y a une variable laquo cible raquo agrave preacutedire

16

Cartographie de linformation- Composantes des applications cartographiques

1- Composante calculatoire Data Mining

Meacutethodes Deacutefinition Usages Techniques (liste indicative)

Non superviseacutees Sans variable cible Pour deacutegager dun ensemble

dindividus des groupes homogegravenes

Ex typologie

Techniques agrave base de

reacuteseau de neurones

Classification ascendante

hieacuterarchique

Recherche dassociations

Superviseacutees Avec variable cible Pour expliquer etou preacutevoir un ou

plusieurs pheacutenomegravenes observables

et effectivement mesureacutes

Ex filtrage collaboratif

classifications

Techniques agrave base

darbres de deacutecision

Techniques agrave base de

reacuteseau de neurones

Reacuteduction de

donneacutees

Utiliseacutee en amont des

autres meacutethodes

Permettent de reacuteduire un ensemble

de donneacutees volumineux agrave un

ensemble de taille plus reacuteduite

eacutepureacute de ce que lon consideacuterera

comme de linformation non

pertinente ou non signifiante

comme du bruit

Techniques danalyse

factorielle type AFC

17

Cartographie de linformation- Composantes des applications cartographiques

1- Composante calculatoire Data Mining exemples

Classification Affecter un objet agrave une classe en fonction de ses caracteacuteristiques A1hellipAn

Exemples

Deacuteterminer si un message est un mail de SPAM ou non (2 classes)

Affecter une page web dans une des cateacutegories theacutematiques dun annuaire (multi-classes)

Meacutethode

Si pas de theacuteorie pour deacutefinir la classe en fonction de A1hellipAn alors on eacutetudie un ensemble

drsquoexemples pour lesquels on connaicirct A1hellipAn et la classe associeacutee et on construit un

modegravele

Classe = f(A1hellipAn)

Techniques

Analyse discriminante

Arbre de classification

Reacuteseaux de neurones

18

Cartographie de linformation- Composantes des applications cartographiques

1- Composante calculatoire Reacuteseau de neurones

Principe

Un neurone est une uniteacute de calcul eacuteleacutementaire combine des entreacutees x1x

nen une sortie o

Les entreacutees nont pas toutes la mecircme importance agrave chaque entreacutee xiest associeacute un poids (ou coefficient

synaptique) wi

Luniteacute calcule dabord lactiviteacute dentreacutee (somme pondeacutereacutee des entreacutees)

Coefficients synaptiques

Sont calculeacutes non a priori mais sur la base des valeurs disponibles principe fondamental de

lrsquoapprentissage

Apprendre crsquoest calculer les valeurs des coefficients synaptiques en fonction des exemples disponibles

Algorithme laquo drsquoentraicircnement raquo modifie les poids synaptiques en fonction drsquoun jeu de donneacutees

preacutesenteacutee en entreacutee du reacuteseau

Geacuteneacuteraliser

Lrsquointeacuterecirct des reacuteseaux de neurones reacuteside dans leur capaciteacute agrave geacuteneacuteraliser agrave partir du jeu de test

19

Illustration du reacuteseau de neurones

20

Cartographie de linformation- Composantes des applications cartographiques

1- Composante calculatoire Text Mining

DeacutefinitionProceacutedeacute consistant agrave syntheacutetiser (classer structurer reacutesumer hellip) les textes en analysant les relations les patterns

et les regravegles entre uniteacutes textuelles (mots groupes phrases documents)

Du Data Mining au Text Mining

Ajout de la lexicomeacutetrie

Comme en Data Mining on trouve en Text Mining

des algorithmes descriptifs recherche des thegravemes abordeacutes dans un ensemble (corpus) de documents sans

connaicirctre agrave lrsquoavance ces thegravemes

des algorithmes preacutedictifs recherche des regravegles permettant drsquoaffecter automatiquement un document agrave un

thegraveme parmi plusieurs thegravemes preacutedeacutefinis

Application des techniques de Data mining

Individus = documents

Caractegraveres des individus = thegravemestermes des documents

21

Text Mining Data Mining

Impleacutementation vaste

degraves 2000

Impleacutementation vaste

degraves 1994Maturiteacute

milliersmilliers Dimension

complexesimpleRepreacutesentation

non-structureacutestructureacuteStructure

textuelnumeacuterique amp

cateacutegorique Objet

Text MiningData Mining

22

Vue simplifieacutee du Text Mining

23

Analyse lexicomeacutetrique

Eliminer les mots vides Deacutecouper les textes en uniteacutes Lemmatiser Reacuteduire le nombre de termes agrave traiter

24

Anayse statistique

25

Term frequency (TF)

Un terme qui apparait plusieurs fois dans un document est plus

important qursquoun terme qui apparaicirct une seule fois

wij = Nombre drsquooccurrences du terme ti dans le document dj

TFij = Freacutequence du terme ti dans le document dj

j

ij

d

wTF

ij

26

Inverse document frequency (IDF)

Un terme qui apparaicirct dans peu de documents est un meilleur discriminant qursquoun terme qui apparaicirct dans tous les documents

bull dfi = nombre de documents contenant le terme ti

bull d = nombre de documents du corpus

Inverse document frequency

i

i

df

dIDF log

27

Pondeacuteration TF-IDF

TF-IDF signifie Term Frequency x Inverse Document

Frequency

bull Proposeacutee par [Salton 1989] mesure limportance drsquoun terme

dans un document relativement agrave lrsquoensemble des documents

bull tf ij = freacutequence du terme i dans le document j

df i = nombre de documents contenant le terme i

N = d = nombre de documents du corpus

28

Similariteacute entre documents

Permet de ranger les

documents par pertinence

Le cosinus de lrsquoangle est

souvent utiliseacute

2d1d

2dT

1d2d1d )cos(

bull gt cos( )ltcos( )

bull d2 est plus proche de d1que de d3

29

Cartographie de linformation- Composantes des applications cartographiques

1- Composante calculatoire Data Clustering ou partitionnement de donneacutees

Deacutefinition

Meacutethode statistique danalyse des donneacutees qui a pour but de regrouper un ensemble de donneacutees en

diffeacuterents paquets homogegravenes chaque sous-ensemble partage des caracteacuteristiques communes qui

correspondent le plus souvent agrave des critegraveres de proximiteacute que lon deacutefinit en introduisant des mesures

de distance

Principe

Pour obtenir un bon partitionnement il convient de

bull minimiser linertie intra-classe pour obtenir des grappes (cluster en anglais) les plus homogegravenes

possibles

bull maximiser linertie inter-classe afin dobtenir des sous-ensembles bien diffeacuterencieacutes

Composition

Un cluster est composeacute de

bull une liste de mots-cleacutes

bull une liste dassociations internes

bull une liste dassociations externes

bull une eacutetiquette

bull une liste de documents affecteacutes apregraves la classification

30

Cartographie de linformation- Composantes des applications cartographiques

1- Composante calculatoire DataClustering

bull Lassociation la plus forte permet de creacuteer le premier cluster ici laquoa-braquo)

bull Une nouvelle association peut donner lieu agrave un laquoenrichissementraquo de cluster laquoa-eraquo vient

enrichir le cluster laquoa-braquo qui contient deacutejagrave laquoaraquo) ou agrave une creacuteation de nouveau cluster (laquoc-draquo par

exemple)

Deacutefinitions

Web mining Data mining appliqueacute aux donneacutees de navigation sur le web

Objectifs du web mining

1 Optimiser la navigation dans un site web (confort des internautes)

2 Augmenter le nombre de pages consulteacutees et lrsquoimpact des liens et des banniegraveres publicitaires

3 Deacuteceler les centres drsquointeacuterecirct et donc les attentes des internautes visitant le site

Types dAnalyses

Statistique descriptive

bull laquo 70 des internautes ont consulteacute 3 pages ou moins raquo

bull laquo 40 des internautes accegravedent au site sans passer par la page drsquoaccueil raquo

Deacutetection des regravegles drsquoassociation

bull laquo 20 des internautes visitant la page A visitent la page B dans la mecircme session raquo

Segmentation des internautes

bull Selon les sites de provenance les pages drsquoentreacutee le nombre de pages consulteacutees les fichiers teacuteleacutechargeacutes les pages de sortie etc

1- Composante calculatoire Web Mining

Cartographie de linformation- Composantes des applications cartographiques

31

32

Cartographie de linformation- Composantes des applications cartographiques

1- Composante calculatoire Web Social Data Mining

Hypothegravese documentaire

Web structureacute par des laquo localiteacutes theacutematiques raquo deacutefinies par une forte correacutelation entre

contenu des documents et proximiteacute hypertexte dessinant comme un territoire

Probleacutematique de la laquo traccedilabiliteacute raquo du socialbull Le web se preacutesente comme une matrice technique distribueacutee faccedilonneacutee par des usages dont

le reacuteseau garde la meacutemoire bull Le seul fait dutiliser une technologie numeacuterique contribue agrave produire des traces et agrave

grande eacutechelle elles constituent un reacuteservoir immense de donneacutees disponibles

Principes hubs et autoriteacutes (Kleinberg et al)

bull Autoriteacutes ensemble des pages contenant les meilleures sources drsquoinformation pour un

thegraveme donneacute

bull Hubs pages pointant sur les autoriteacutes

bull Le calcul ressemble au calcul drsquoimportance drsquoun article par nombre de citations (les liens

du Web vus comme des recommendations)

Applications

Sujets controverseacutes ougrave le seul lexique nest pas discriminant

33

Cartographie de linformation- Composantes des applications cartographiques

2- Composante visuelle

Eleacutements de seacutemiologie graphique (J Bertin) Theacuteorie de la Gestalt

34

Cartographie de linformation- Composantes des applications cartographiques

2- Composante visuelle Eleacutements de seacutemiologie graphique (J Bertin)

35

Cartographie de linformation- Composantes des applications cartographiques

2- Composante visuelle Eleacutements de seacutemiologie graphique (J Bertin)

Type de dessin Signification

des signes Description Exemple

Graphis

me

Image non-

figurative Panseacutemique

Le systegraveme srsquoouvre agrave toute

signification Tableau drsquoart

Image

figurative Polyseacutemique

Le systegraveme a pour objectif de

deacutefinir un concept ou une ideacutee

mais les interpreacutetations peuvent

diverger

Photographie

aeacuterienne

Graphique Monoseacutemique

Transcriptions de relations entre

des concepts preacutealablement

deacutefinis

Un

organigramme

36

Cartographie de linformation- Composantes des applications cartographiques

2- Composante visuelle Eleacutements de seacutemiologie graphique (J Bertin)

laquo La graphique est un systegraveme de signes [structures visuelles] qui permet de transcrire les

relations de diffeacuterence drsquoordre ou de proportionnaliteacute existant entre des donneacutees qualitatives ou

quantitatives raquo [Bonin 1997]

laquo La carte est une image graphique qui transcrit les relations de proportionnaliteacute ordre et

diffeacuterence par des variations proportionnelles ordonneacutees et diffeacuterentielles raquo

37

Cartographie de linformation- Composantes des applications cartographiques

2- Composante visuelle Eleacutements de seacutemiologie graphique (J Bertin)

38

Cartographie de linformation- Composantes des applications cartographiques

2- Composante visuelle Eleacutements de seacutemiologie graphique (J Bertin)

39

Cartographie de linformation- Composantes des applications cartographiques

2- Composante visuelle Eleacutements de seacutemiologie graphique (J Bertin)

40

Cartographie de linformation- Composantes des applications cartographiques

2- Composante visuelle Eleacutements de seacutemiologie graphique (J Bertin)

41

Cartographie de linformation- Composantes des applications cartographiques

2- Composante visuelle Eleacutements de seacutemiologie graphique (J Bertin)

Variables visuelles (laquo variables reacutetiniennes raquo)

Variation des proprieacuteteacutes graphiques des structures visuelles

42

Cartographie de linformation- Composantes des applications cartographiques

2- Composante visuelle Eleacutements de seacutemiologie graphique (J Bertin)

Variables visuelles

Cartographie de linformation- Composantes des applications cartographiques

2- Composante visuelle Eleacutements de seacutemiologie graphique (J Bertin)

43

44

Cartographie de linformation- Composantes des applications cartographiques

2- Composante visuelle Theacuteorie de la Gestalt (1890)

Principe

Le contexte est tregraves important dans la perception visuelle [Guillaume]

Les structures visuelles ne sont pas indeacutependantes les unes des autres et le contexte est

important pour la signification qui leur est attribueacutee

En graphique

La perception visuelle srsquoattache agrave reconnaicirctre des modegraveles dans un ensemble de structures

visuelles

De cette theacuteorie reacutesultent des lois correspondant agrave des cateacutegories drsquointeractions possibles entre

les structures visuelles

45

Cartographie de linformation- Composantes des applications cartographiques

Lois Effets Illustrations

Preacutegnance Une image est facile agrave comprendre si sa structure est simple et inversement

Proximiteacute Deux composants qui sont proches ont tendance agrave ecirctre perccedilus comme un

seul composant

Similariteacute Les composants similaires sont perccedilus comme srsquoils eacutetaient regroupeacutes

Fermeture Les contours proches sont perccedilus comme unifieacutes

Continuiteacute Des eacuteleacutements voisins sont perccedilus groupeacutes lorsqursquoils possegravedent

potentiellement un trait qui les relie

Symeacutetrie Des eacuteleacutements sont perccedilus comme un eacuteleacutement global lorsqursquoils forment une

symeacutetrie

Trajectoire identique Des eacuteleacutements qui se deacuteplacent avec la mecircme trajectoire semblent groupeacutes

Familiariteacute Des eacuteleacutements sont plus facilement groupables si le groupe est familier ou

significatif

46

Cartographie de linformation- Composantes des applications cartographiques

2- Composante visuelle Theacuteorie de la Gestalt (1890)

47

Cartographie de linformation- Composantes des applications cartographiques

2- Composante visuelle Conception drsquoun langage graphique (JB Lamy)

1- Analyser les informations ou connaissances que lrsquoon souhaite repreacutesenter

Determiner les attributs qui

deacutefinissent les termes agrave repreacutesenter

bull Par exemple pour repreacutesenter

des maladies les attributs pourraient

ecirctre la localisation anatomique

(cardiaque reacutenale) la seacuteveacuteriteacute etc

2- Associer agrave chaque attribut une variable

reacutetinienne pour le repreacutesenter

bull Par exemple pour les maladies

Associer lrsquoattribut localisation

anatomique agrave la variable

formepictogramme

bull Repreacutesenter la seacuteveacuteriteacute par la variable

couleur

3- Les relations entre les diffeacuterents termes

repreacutesenteacutes doivent ecirctre expliciteacutees

48

Cartographie de linformation

Famille doutils et contextes applicatifs

1- Famille doutils

Typologies

Aperccedilu

Travaux pratiques

2- Contextes applicatifs

Eleacutements deacutevaluation

Les perspectives de la cartographie seacutemantique

49

Cartographie de linformation- Famille doutils et contextes applicatifs

1- Famille doutils

Typologies

Aperccedilu

TP agrave partir de la seacutelection httpdeliciouscommylk02Stage_Carto

Et encore httpwwwvisualcomplexitycomvc (plus de 500 projets dans le domaine)

50

Cartographie de linformation- Famille doutils et contextes applicatifs

1- Famille doutils typologies

11- Typologie scientifique eacutetablie selon des critegraveres internes au domaine

bull les trois principaux paradigmes technique de visualisation type de donneacutees et type dinteraction (Keim

DA 2002)

bull la nature des donneacutees unidimensionnelles bidimensionnelles tridimensionnelles temporelles

multidimensionnelles hieacuterarchiques reacuteseaux (Shneiderman B 1996)

12- Etat de lart eacutevaluation - benchmarking typologie orienteacutee usages (veille et intelligence eacuteconomique)

Quelques exemples

Inist httpoutilsveilleinistfr

Esiee httpwwwaa-esieecomevent2005AGClaudeAschenbrennerppt

Ecole des Mines httpwwwdemoscienceorgresources

Commercial httpwwwk-praxiscom

Commercial httpwwwinformation-mininginfostate_of_art

Universitaire httpwell-formed-datanetthesis

13- Typologie cartographique

Quelques exemples de bloggers

bull Claude Aschenbrenner httpwwwserialmappercomarchive20070110la-pierre-de-rosette-de-la-

cartographie-de-l-informationhtml avec son mode demploi

bull Kartoo httpwwwmapdreamcom

51

Cartographie de linformation- Famille doutils et contextes applicatifs

1- Famille doutils typologie scientifique

52

Cartographie de linformation- Famille doutils orienteacutes laquo bibliothegraveques raquo

2- Les outils de navigation et de recherche sur Internet (seacutelection de Pierre Nobis)

A- Les navigateurs Nestor Navicrawler

53

Cartographie de linformation- Famille doutils orienteacutes laquo bibliothegraveques raquo

2- Les outils de navigation et de recherche sur Internet (seacutelection de Pierre Nobis)

B- Les outils de visualisation des reacutesultats PageBull ManagedQ

Bbis Les outils de visualisation de reacutesultats dans les actualiteacutes

repreacutesentation carreacutee Marumushi - Google NewsNewsIsFree - The Hive Group Tenbyten -flux RSS des sources drsquoactualiteacutes internationales

repreacutesentation sous forme de graphe

Silobreaker

54

Cartographie de linformation- Famille doutils orienteacutes laquo bibliothegraveques raquo

2- Les outils de navigation et de recherche sur Internet

B-Les outils de visualisation des reacutesultats TouchGraph application Java permettant de cartographier les reacutesultats issus

notamment de Google Amazon PubMed Alexa FaceBook

55

Cartographie de linformation- Famille doutils orienteacutes laquo bibliothegraveques raquo

2- Les outils de navigation et de recherche sur Internet (seacutelection de Pierre Nobis)

C- Les outils de recherche avec ajout de termes associeacutes dans une colonne regroupement theacutematique nuage de laquo tags raquo

D- Meacutetamoteurs avec affichage de clusters sous forme de listes

Carrot2 Clusty-Vivissimo Iboogie Polymeta Turbo10 Webclust

56

Cartographie de linformation- Famille doutils orienteacutes laquo bibliothegraveques raquo

2- Les outils de navigation et de recherche sur Internet (seacutelection de Pierre Nobis)

E- Meacutetamoteurs avec affichage de clusters sous forme graphique

E1- repreacutesentation centreacutee Allplus WebBrain

Allplus est un meacutetamoteur agrave clusteacuterisation graphique qui interroge les bases de Ask Google Yahoo et Livepar le biais de lrsquooutil Polymeta Lrsquointerface cluster graph permet de visualiser les reacutesultats sous une forme graphique

Webbrain permet de visualiser et drsquoaffiner les reacutesultats drsquoune requecircte issus de lrsquoOpen Directory Project

57

Cartographie de linformation- Famille doutils orienteacutes laquo bibliothegraveques raquo

2- Les outils de navigation et de recherche sur Internet (seacutelection de Pierre Nobis)

E- Meacutetamoteurs avec affichage de clusters sous forme graphique

E2- Repreacutesentation circulaire Grokker

E3- Repreacutesentation topographique TooLeNet srsquoappuie sur les technologies de KartOO et sur lrsquoindex de

Yahoo pour effectuer des recherches selon 3 modes moteur annuaire et carte auxquels srsquoajoutent des

options de personnalisation et de classification assez avanceacutees

58

Cartographie de linformation- Famille doutils orienteacutes laquo bibliothegraveques raquo

3- Les Outils graphiques dexploration

Wikimindmap est un outil drsquointerrogation

et de repreacutesentation des informations issues

de Wikipedia sous forme de carte heuristique

Visuwords est un dictionnaire en ligne

qui preacutesente ses reacutesultats sous forme de laquo grappes raquo

Il utilise la base de donneacutees Wordnet

Code couleur pour les diffeacuterentes relations

seacutemantiques hieacuterarchiques entre les termes

ainsi que les synonymes et les antonymes

59

Cartographie de linformation- Famille doutils orienteacutes laquo bibliothegraveques raquo

4- Les outils de creacuteation (carto)graphiqueA- Pour meacutemoire les logiciels de creacuteation de cartes heuristiques et conceptuelles

Cmaptools est un logiciel gratuit (usage eacuteducatif) de creacuteation de cartes conceptuelles

Freemind est un logiciel libre et gratuit qui permet de reacutealiser des cartes heuristiques

Thinkgraph est un logiciel gratuit de dessin 2D orienteacute vers la reacutealisation de cartes conceptuelles

60

Cartographie de linformation- Famille doutils orienteacutes laquo bibliothegraveques raquo

4- Les outils de creacuteation (carto)graphique

B- Les outils drsquoeacutedition de graphes

Guess est un logiciel libre et gratuit deacuteveloppeacute par Eytan Adar qui permet de visualiser des

graphes statiques Options de modification de certains attributs (taille couleur forme

algorithmes de positionnementhellip)

Pajek est un logiciel libre et gratuit (usage non commercial) deacuteveloppeacute par V Batagelj et A

Mrvar qui permet de traiter des donneacutees de reacuteseaux de grande taille Pajek signifie araigneacutee

en slovegravene

C- Les outils en ligne

ManyEye service collaboratif deacuteveloppeacute par IBM gracircce auquel on peut geacuteneacuterer selon un

des modegraveles proposeacutes sa propre visualisation de lrsquoinformation (apregraves avoir teacuteleacuteverseacute ses

propres donneacutees)

IssueCrawler outil de web social mining utilisable agrave distance (chargement des URL)

reacutecupeacuteration graphique

61

Cartographie de linformation- Famille doutils et contextes applicatifs

2- Contextes applicatifs

Eleacutements deacutevaluation

Les perspectives de la cartographie seacutemantique

62

Cartographie de linformation- Famille doutils et contextes applicatifs

2- Contextes applicatifs Eleacutements deacutevaluation

21- Evaluation scientifique

Question de meacutethode Eacutevaluation des Interfaces Utilisateur drsquoInformation Bonnel et Chevalier 2006

Objectif proposer une meacutethodologie deacutevaluation permettant de comparer du point de vue de la

visualisation des reacutesultats agrave une requecircte les outils de recherche Google Vivisimo Ujiko Grokker Kartoo

Vios SmartWeb (prototype)

Evaluation des repreacutesentations graphiques geacuteneacuteraliteacutes (Tricot et Roche 2006)

bull Arborescences simples

habitude des utilisateurs (explorateur de fichiers informatiques) pas de problegravemes avec volume limiteacute

au-delagrave drsquoune certaine quantiteacute drsquoinformation les arborescences deviennent inefficaces

bull Arbres de cocircnes en 3D

posent des problegravemes agrave lrsquoutilisateur qui nrsquoa pas lrsquohabitude des espaces en 3D

effort cognitif plus eacuteleveacute et prise en main plus longue

bull Arbres hyperboliques

problegravemes des eacutetiquettes des eacuteleacutements (occlusion)

effet de zoom impreacutevisible

Lrsquoune des conclusions une seule visualisation ne permet pas de reacutepondre agrave toutes les questions

multiplier les possibiliteacutes de visualisation

63

Cartographie de linformation- Famille doutils et contextes applicatifs

2- Contextes applicatifs Eleacutements deacutevaluation

21- Evaluation scientifique doctorat en cours agrave lrsquoEBSI (Aline Creacutedeville)

bull Contexte visualisation de lrsquoinformation dans le contexte de recherche drsquoinformation

bull Point de vue de la seacutemiologie graphique

o principes les plus couramment utiliseacutes sont la proximiteacute (Grokker) lrsquoenglobage (Kartoo)

et la connectiviteacute (Auquabrowser)

omeacutetaphores visuelles pas toujours adeacutequates au web

bull Reacutesultats

o lrsquoinformation doit ecirctre structureacutee

o apports possible pour lrsquoexploration mais pas pour la recherche

64

Cartographie de linformation- Famille doutils et contextes applicatifs

2- Contextes applicatifs Eleacutements deacutevaluation

22- Evaluation en contexte dusage de recherche dinformations (Ciaccia Ihadjadene Martins 2006)

Objectif analyse de lrsquoinfluence du mode de preacutesentation des informations sur les processus cognitifs mis

en jeu par lrsquoutilisateur dans lrsquoactiviteacute de recherche drsquoinformations sur Internet

Outils eacutevalueacutes Kartoo (pour 18 usagers) et Mapstan (pour 16 usagers)

Principaux reacutesultats

Coucirct cognitif sans pour autant conduire agrave de meilleures performances (comparaison avec une

preacutesentation en liste)

Hypothegravese nouveauteacute de la preacutesentation versus habitude des preacutesentations verbales

Strateacutegie optimiseacutee preacuteciser la requecircte drsquoune recherche agrave but flou et se concentrer sur les informations

relieacutees agrave lrsquoobjectif de la question versus informations non relieacutees

Le sens de la visualisation doit ecirctre clarifieacute les systegravemes doivent faciliter la compreacutehension des

eacuteleacutements visualiseacutes

65

Cartographie de linformation- Famille doutils et contextes applicatifs

2- Contextes applicatifs Les perspectives de la cartographie seacutemantique (C Tricot de la seacutemantique agrave la carte)

Pour reacutesoudre la probleacutematique de la repreacutesentation de lrsquoinformation la visualisation de

lrsquoinformation seule ne suffit pas

La visualisation de lrsquoinformation permet uniquement de preacutesenter des donneacutees en leur

associant une repreacutesentation graphique

La cartographie seacutemantique se veut

Une meacutethode de cartographie reposant sur la seacutemantique dun domaine

Un processus de production de connaissances

donneacutees brutes -gt donneacutees structureacutees -gt donneacutees repreacutesenteacutees -gt donneacutees visualiseacutees

Un formalisme de description type Reacuteseaux seacutemantiques

Un langage de description cartographique

Une architecture multi-agents

66

Cartographie de linformation- Famille doutils et contextes applicatifs

2- Contextes applicatifs Les perspectives de la cartographie seacutemantique (C Tricot de la seacutemantique agrave la carte)

67

Cartographie de linformation- Famille doutils et contextes applicatifs

2- Contextes applicatifs Les perspectives de la cartographie seacutemantique

ldquoUne bonne structure repreacutesentative graphique pour un arbre de donneacutees est celle qui deacuteforme le moins les similitudes originales entre les uniteacutes de donneacutees (similitudes qui sont donneacutes par loutil de classification) ou en dautres termes deux individus (ou classes) qui sont proches lune de lautre le restent aussi possible que peut apregraves projection dans l`espace de visualisation et ceci doit ecirctre eacutevident(et veacuterifiable par une mesure de calcul de divergence) dans lenvironnement de visualisation ldquo Tricot 2006

Page 10: Cartographie de l'information- Composantes des - Urfist de Paris

10

Cartographie de linformation- Introduction

Meacutethode des mots associeacutes

Principe

Si deux documents sont proches parce qursquoils sont indexeacutes par des mots-cleacutes similaires alors deux mots-cleacutes

figurant ensemble dans un grand nombre de documents seront consideacutereacutes comme proches

Indice drsquoeacutequivalence eacutegal agrave la cooccurrence au carreacute des mots-cleacutes i et j diviseacutee par le produit de leurs

freacutequences respectives Eij = C2

ij (Ci x Cj)

Lrsquoindice drsquoeacutequivalence eacutevalue la force du lien lorsqursquoil vaut 0 les mots ne sont jamais preacutesents ensemble srsquoil

vaut 1 ils apparaissent toujours ensemble on dit qursquoils sont eacutequivalents

Classification Ascendante Hieacuterarchique (CAH) dit du simple lien (laquo single link clustering raquo)

Une classe est constitueacutee de mots associeacutes les uns aux autres par des associations internes

Les classes peuvent eacutegalement avoir des relations entre elles par le biais drsquoassociations externes entre des pairs

de mots appartenant agrave deux classes distinctes

Lrsquoeacutetape de classification des mots-cleacutes acheveacutee les documents les contenant peuvent finalement ecirctre affecteacutes

aux classes

Les classes sont ensuite positionneacutees sur un plan carteacutesien selon les valeurs de leurs laquo densiteacute raquo et

laquo centraliteacute raquo constituant ainsi une ldquocarterdquo

la densiteacute drsquoune classe rapporteacutee sur lrsquoaxe des ordonneacutees est exprimeacutee par la valeur moyenne des

associations internes entre mots-cleacutes formant la classe

la centraliteacute drsquoune classe rapporteacutee sur lrsquoaxe des abscisses est exprimeacutee par la valeur moyenne des

associations externes entre les mots qui la constituent et les mots drsquoautres classes

11

Cartographie de linformation- Introduction

4- Probleacutematique de la cartographie de linformation

Les donneacutees abstraites ne possegravedent pas de repreacutesentation graphique intrinsegraveque

bull Pour Card Mackinlay et Shneiderman tant que les informations et les donneacutees que lon souhaite

repreacutesenter sont deacuteriveacutees de donneacutees physiques alors elles possegravedent une repreacutesentation

graphique intrinsegraveque

bull Cas dune carte geacuteographique qui repreacutesente des villes la localisation physique des villes sur le

globe terrestre fournit la position relative des points correspondants aux villes sur la carte Les

repreacutesentations graphiques sont alors laquo agrave limage raquo des pheacutenomegravenes observeacutes

Pour les donneacutees abstraites la difficulteacute est de leur trouver une repreacutesentation et plus particuliegraverement une

reacutepartition dans lespace de la carte

bull Cas dune cartographie de concepts la difficulteacute nest pas de trouver une repreacutesentation pour chaque

concept (par exemple un rectangle ou un cercle) mais bien de les reacutepartir dans lespace de la

carte sachant que la reacutepartition aura un impact important sur la signification perccedilue

Lenjeu de la cartographie de donneacutees abstraites est

de deacuteterminer le choix des repreacutesentations pour les visualiser

12

Cartographie de linformation- Introduction

4- Probleacutematique de la cartographie de linformation

13

Cartographie de linformation- Introduction

5- Ancrage disciplinaire seacutemiologie graphique sciences cognitives gestion des connaissances (statistiques et intelligence artificielle)

14

Cartographie de linformation- Composantes des applications cartographiques

1- Composante calculatoire Data Mining

Terminologie

Forage de donneacutees -gt fouille de donneacutees -gt exploration de donneacutees -gt extraction de connaissances agrave partir de donneacutees (ECD)

Deacutefinitions

Scientifique

Processus non-trivial drsquoidentification de structures inconnues valides et potentiellement

exploitables dans les bases de donneacutees (Fayyad1996)

Meacutethodologique

Algorithmes et meacutethodes destineacutes agrave lrsquoexploration et lrsquoanalyse de grandes bases de donneacutees

informatiques en vue de deacutetecter dans ces donneacutees des regravegles des associations des

tendances inconnues (non fixeacutees a priori) des structures particuliegraveres restituant de faccedilon

concise lrsquoessentiel de lrsquoinformation utile pour lrsquoaide agrave la deacutecision

15

Cartographie de linformation- Composantes des applications cartographiques

1- Composante calculatoire Data Mining

Speacutecificiteacutes

Se distingue de lanalyse de donneacutees et de la statistique par les points suivants

ne neacutecessite pas dhypothegravese de deacutepart cest des donneacutees elles-mecircmes que se deacutegageront les correacutelations inteacuteressantes (exemples historiques des tickets de caisse)

les connaissances extraites par le Data Mining ont vocation agrave ecirctre inteacutegreacutees dans un scheacutema

organisationnel

les donneacutees traiteacutees sont issues des systegravemes de stockage en place dans lorganisation

-gt Le data mining fait passer drsquoanalyses confirmatoires agrave des analyses exploratoires

Techniques

Les techniques descriptives visent agrave mettre en eacutevidence des informations preacutesentes mais cacheacutees

par le volume des donneacutees cas des recherches drsquoassociations -gt il nrsquoy a pas de variable laquo cible raquo agrave

preacutedire

Les techniques preacutedictives visent agrave extrapoler de nouvelles informations agrave partir des informations

preacutesentes (cas du scoring) -gt il y a une variable laquo cible raquo agrave preacutedire

16

Cartographie de linformation- Composantes des applications cartographiques

1- Composante calculatoire Data Mining

Meacutethodes Deacutefinition Usages Techniques (liste indicative)

Non superviseacutees Sans variable cible Pour deacutegager dun ensemble

dindividus des groupes homogegravenes

Ex typologie

Techniques agrave base de

reacuteseau de neurones

Classification ascendante

hieacuterarchique

Recherche dassociations

Superviseacutees Avec variable cible Pour expliquer etou preacutevoir un ou

plusieurs pheacutenomegravenes observables

et effectivement mesureacutes

Ex filtrage collaboratif

classifications

Techniques agrave base

darbres de deacutecision

Techniques agrave base de

reacuteseau de neurones

Reacuteduction de

donneacutees

Utiliseacutee en amont des

autres meacutethodes

Permettent de reacuteduire un ensemble

de donneacutees volumineux agrave un

ensemble de taille plus reacuteduite

eacutepureacute de ce que lon consideacuterera

comme de linformation non

pertinente ou non signifiante

comme du bruit

Techniques danalyse

factorielle type AFC

17

Cartographie de linformation- Composantes des applications cartographiques

1- Composante calculatoire Data Mining exemples

Classification Affecter un objet agrave une classe en fonction de ses caracteacuteristiques A1hellipAn

Exemples

Deacuteterminer si un message est un mail de SPAM ou non (2 classes)

Affecter une page web dans une des cateacutegories theacutematiques dun annuaire (multi-classes)

Meacutethode

Si pas de theacuteorie pour deacutefinir la classe en fonction de A1hellipAn alors on eacutetudie un ensemble

drsquoexemples pour lesquels on connaicirct A1hellipAn et la classe associeacutee et on construit un

modegravele

Classe = f(A1hellipAn)

Techniques

Analyse discriminante

Arbre de classification

Reacuteseaux de neurones

18

Cartographie de linformation- Composantes des applications cartographiques

1- Composante calculatoire Reacuteseau de neurones

Principe

Un neurone est une uniteacute de calcul eacuteleacutementaire combine des entreacutees x1x

nen une sortie o

Les entreacutees nont pas toutes la mecircme importance agrave chaque entreacutee xiest associeacute un poids (ou coefficient

synaptique) wi

Luniteacute calcule dabord lactiviteacute dentreacutee (somme pondeacutereacutee des entreacutees)

Coefficients synaptiques

Sont calculeacutes non a priori mais sur la base des valeurs disponibles principe fondamental de

lrsquoapprentissage

Apprendre crsquoest calculer les valeurs des coefficients synaptiques en fonction des exemples disponibles

Algorithme laquo drsquoentraicircnement raquo modifie les poids synaptiques en fonction drsquoun jeu de donneacutees

preacutesenteacutee en entreacutee du reacuteseau

Geacuteneacuteraliser

Lrsquointeacuterecirct des reacuteseaux de neurones reacuteside dans leur capaciteacute agrave geacuteneacuteraliser agrave partir du jeu de test

19

Illustration du reacuteseau de neurones

20

Cartographie de linformation- Composantes des applications cartographiques

1- Composante calculatoire Text Mining

DeacutefinitionProceacutedeacute consistant agrave syntheacutetiser (classer structurer reacutesumer hellip) les textes en analysant les relations les patterns

et les regravegles entre uniteacutes textuelles (mots groupes phrases documents)

Du Data Mining au Text Mining

Ajout de la lexicomeacutetrie

Comme en Data Mining on trouve en Text Mining

des algorithmes descriptifs recherche des thegravemes abordeacutes dans un ensemble (corpus) de documents sans

connaicirctre agrave lrsquoavance ces thegravemes

des algorithmes preacutedictifs recherche des regravegles permettant drsquoaffecter automatiquement un document agrave un

thegraveme parmi plusieurs thegravemes preacutedeacutefinis

Application des techniques de Data mining

Individus = documents

Caractegraveres des individus = thegravemestermes des documents

21

Text Mining Data Mining

Impleacutementation vaste

degraves 2000

Impleacutementation vaste

degraves 1994Maturiteacute

milliersmilliers Dimension

complexesimpleRepreacutesentation

non-structureacutestructureacuteStructure

textuelnumeacuterique amp

cateacutegorique Objet

Text MiningData Mining

22

Vue simplifieacutee du Text Mining

23

Analyse lexicomeacutetrique

Eliminer les mots vides Deacutecouper les textes en uniteacutes Lemmatiser Reacuteduire le nombre de termes agrave traiter

24

Anayse statistique

25

Term frequency (TF)

Un terme qui apparait plusieurs fois dans un document est plus

important qursquoun terme qui apparaicirct une seule fois

wij = Nombre drsquooccurrences du terme ti dans le document dj

TFij = Freacutequence du terme ti dans le document dj

j

ij

d

wTF

ij

26

Inverse document frequency (IDF)

Un terme qui apparaicirct dans peu de documents est un meilleur discriminant qursquoun terme qui apparaicirct dans tous les documents

bull dfi = nombre de documents contenant le terme ti

bull d = nombre de documents du corpus

Inverse document frequency

i

i

df

dIDF log

27

Pondeacuteration TF-IDF

TF-IDF signifie Term Frequency x Inverse Document

Frequency

bull Proposeacutee par [Salton 1989] mesure limportance drsquoun terme

dans un document relativement agrave lrsquoensemble des documents

bull tf ij = freacutequence du terme i dans le document j

df i = nombre de documents contenant le terme i

N = d = nombre de documents du corpus

28

Similariteacute entre documents

Permet de ranger les

documents par pertinence

Le cosinus de lrsquoangle est

souvent utiliseacute

2d1d

2dT

1d2d1d )cos(

bull gt cos( )ltcos( )

bull d2 est plus proche de d1que de d3

29

Cartographie de linformation- Composantes des applications cartographiques

1- Composante calculatoire Data Clustering ou partitionnement de donneacutees

Deacutefinition

Meacutethode statistique danalyse des donneacutees qui a pour but de regrouper un ensemble de donneacutees en

diffeacuterents paquets homogegravenes chaque sous-ensemble partage des caracteacuteristiques communes qui

correspondent le plus souvent agrave des critegraveres de proximiteacute que lon deacutefinit en introduisant des mesures

de distance

Principe

Pour obtenir un bon partitionnement il convient de

bull minimiser linertie intra-classe pour obtenir des grappes (cluster en anglais) les plus homogegravenes

possibles

bull maximiser linertie inter-classe afin dobtenir des sous-ensembles bien diffeacuterencieacutes

Composition

Un cluster est composeacute de

bull une liste de mots-cleacutes

bull une liste dassociations internes

bull une liste dassociations externes

bull une eacutetiquette

bull une liste de documents affecteacutes apregraves la classification

30

Cartographie de linformation- Composantes des applications cartographiques

1- Composante calculatoire DataClustering

bull Lassociation la plus forte permet de creacuteer le premier cluster ici laquoa-braquo)

bull Une nouvelle association peut donner lieu agrave un laquoenrichissementraquo de cluster laquoa-eraquo vient

enrichir le cluster laquoa-braquo qui contient deacutejagrave laquoaraquo) ou agrave une creacuteation de nouveau cluster (laquoc-draquo par

exemple)

Deacutefinitions

Web mining Data mining appliqueacute aux donneacutees de navigation sur le web

Objectifs du web mining

1 Optimiser la navigation dans un site web (confort des internautes)

2 Augmenter le nombre de pages consulteacutees et lrsquoimpact des liens et des banniegraveres publicitaires

3 Deacuteceler les centres drsquointeacuterecirct et donc les attentes des internautes visitant le site

Types dAnalyses

Statistique descriptive

bull laquo 70 des internautes ont consulteacute 3 pages ou moins raquo

bull laquo 40 des internautes accegravedent au site sans passer par la page drsquoaccueil raquo

Deacutetection des regravegles drsquoassociation

bull laquo 20 des internautes visitant la page A visitent la page B dans la mecircme session raquo

Segmentation des internautes

bull Selon les sites de provenance les pages drsquoentreacutee le nombre de pages consulteacutees les fichiers teacuteleacutechargeacutes les pages de sortie etc

1- Composante calculatoire Web Mining

Cartographie de linformation- Composantes des applications cartographiques

31

32

Cartographie de linformation- Composantes des applications cartographiques

1- Composante calculatoire Web Social Data Mining

Hypothegravese documentaire

Web structureacute par des laquo localiteacutes theacutematiques raquo deacutefinies par une forte correacutelation entre

contenu des documents et proximiteacute hypertexte dessinant comme un territoire

Probleacutematique de la laquo traccedilabiliteacute raquo du socialbull Le web se preacutesente comme une matrice technique distribueacutee faccedilonneacutee par des usages dont

le reacuteseau garde la meacutemoire bull Le seul fait dutiliser une technologie numeacuterique contribue agrave produire des traces et agrave

grande eacutechelle elles constituent un reacuteservoir immense de donneacutees disponibles

Principes hubs et autoriteacutes (Kleinberg et al)

bull Autoriteacutes ensemble des pages contenant les meilleures sources drsquoinformation pour un

thegraveme donneacute

bull Hubs pages pointant sur les autoriteacutes

bull Le calcul ressemble au calcul drsquoimportance drsquoun article par nombre de citations (les liens

du Web vus comme des recommendations)

Applications

Sujets controverseacutes ougrave le seul lexique nest pas discriminant

33

Cartographie de linformation- Composantes des applications cartographiques

2- Composante visuelle

Eleacutements de seacutemiologie graphique (J Bertin) Theacuteorie de la Gestalt

34

Cartographie de linformation- Composantes des applications cartographiques

2- Composante visuelle Eleacutements de seacutemiologie graphique (J Bertin)

35

Cartographie de linformation- Composantes des applications cartographiques

2- Composante visuelle Eleacutements de seacutemiologie graphique (J Bertin)

Type de dessin Signification

des signes Description Exemple

Graphis

me

Image non-

figurative Panseacutemique

Le systegraveme srsquoouvre agrave toute

signification Tableau drsquoart

Image

figurative Polyseacutemique

Le systegraveme a pour objectif de

deacutefinir un concept ou une ideacutee

mais les interpreacutetations peuvent

diverger

Photographie

aeacuterienne

Graphique Monoseacutemique

Transcriptions de relations entre

des concepts preacutealablement

deacutefinis

Un

organigramme

36

Cartographie de linformation- Composantes des applications cartographiques

2- Composante visuelle Eleacutements de seacutemiologie graphique (J Bertin)

laquo La graphique est un systegraveme de signes [structures visuelles] qui permet de transcrire les

relations de diffeacuterence drsquoordre ou de proportionnaliteacute existant entre des donneacutees qualitatives ou

quantitatives raquo [Bonin 1997]

laquo La carte est une image graphique qui transcrit les relations de proportionnaliteacute ordre et

diffeacuterence par des variations proportionnelles ordonneacutees et diffeacuterentielles raquo

37

Cartographie de linformation- Composantes des applications cartographiques

2- Composante visuelle Eleacutements de seacutemiologie graphique (J Bertin)

38

Cartographie de linformation- Composantes des applications cartographiques

2- Composante visuelle Eleacutements de seacutemiologie graphique (J Bertin)

39

Cartographie de linformation- Composantes des applications cartographiques

2- Composante visuelle Eleacutements de seacutemiologie graphique (J Bertin)

40

Cartographie de linformation- Composantes des applications cartographiques

2- Composante visuelle Eleacutements de seacutemiologie graphique (J Bertin)

41

Cartographie de linformation- Composantes des applications cartographiques

2- Composante visuelle Eleacutements de seacutemiologie graphique (J Bertin)

Variables visuelles (laquo variables reacutetiniennes raquo)

Variation des proprieacuteteacutes graphiques des structures visuelles

42

Cartographie de linformation- Composantes des applications cartographiques

2- Composante visuelle Eleacutements de seacutemiologie graphique (J Bertin)

Variables visuelles

Cartographie de linformation- Composantes des applications cartographiques

2- Composante visuelle Eleacutements de seacutemiologie graphique (J Bertin)

43

44

Cartographie de linformation- Composantes des applications cartographiques

2- Composante visuelle Theacuteorie de la Gestalt (1890)

Principe

Le contexte est tregraves important dans la perception visuelle [Guillaume]

Les structures visuelles ne sont pas indeacutependantes les unes des autres et le contexte est

important pour la signification qui leur est attribueacutee

En graphique

La perception visuelle srsquoattache agrave reconnaicirctre des modegraveles dans un ensemble de structures

visuelles

De cette theacuteorie reacutesultent des lois correspondant agrave des cateacutegories drsquointeractions possibles entre

les structures visuelles

45

Cartographie de linformation- Composantes des applications cartographiques

Lois Effets Illustrations

Preacutegnance Une image est facile agrave comprendre si sa structure est simple et inversement

Proximiteacute Deux composants qui sont proches ont tendance agrave ecirctre perccedilus comme un

seul composant

Similariteacute Les composants similaires sont perccedilus comme srsquoils eacutetaient regroupeacutes

Fermeture Les contours proches sont perccedilus comme unifieacutes

Continuiteacute Des eacuteleacutements voisins sont perccedilus groupeacutes lorsqursquoils possegravedent

potentiellement un trait qui les relie

Symeacutetrie Des eacuteleacutements sont perccedilus comme un eacuteleacutement global lorsqursquoils forment une

symeacutetrie

Trajectoire identique Des eacuteleacutements qui se deacuteplacent avec la mecircme trajectoire semblent groupeacutes

Familiariteacute Des eacuteleacutements sont plus facilement groupables si le groupe est familier ou

significatif

46

Cartographie de linformation- Composantes des applications cartographiques

2- Composante visuelle Theacuteorie de la Gestalt (1890)

47

Cartographie de linformation- Composantes des applications cartographiques

2- Composante visuelle Conception drsquoun langage graphique (JB Lamy)

1- Analyser les informations ou connaissances que lrsquoon souhaite repreacutesenter

Determiner les attributs qui

deacutefinissent les termes agrave repreacutesenter

bull Par exemple pour repreacutesenter

des maladies les attributs pourraient

ecirctre la localisation anatomique

(cardiaque reacutenale) la seacuteveacuteriteacute etc

2- Associer agrave chaque attribut une variable

reacutetinienne pour le repreacutesenter

bull Par exemple pour les maladies

Associer lrsquoattribut localisation

anatomique agrave la variable

formepictogramme

bull Repreacutesenter la seacuteveacuteriteacute par la variable

couleur

3- Les relations entre les diffeacuterents termes

repreacutesenteacutes doivent ecirctre expliciteacutees

48

Cartographie de linformation

Famille doutils et contextes applicatifs

1- Famille doutils

Typologies

Aperccedilu

Travaux pratiques

2- Contextes applicatifs

Eleacutements deacutevaluation

Les perspectives de la cartographie seacutemantique

49

Cartographie de linformation- Famille doutils et contextes applicatifs

1- Famille doutils

Typologies

Aperccedilu

TP agrave partir de la seacutelection httpdeliciouscommylk02Stage_Carto

Et encore httpwwwvisualcomplexitycomvc (plus de 500 projets dans le domaine)

50

Cartographie de linformation- Famille doutils et contextes applicatifs

1- Famille doutils typologies

11- Typologie scientifique eacutetablie selon des critegraveres internes au domaine

bull les trois principaux paradigmes technique de visualisation type de donneacutees et type dinteraction (Keim

DA 2002)

bull la nature des donneacutees unidimensionnelles bidimensionnelles tridimensionnelles temporelles

multidimensionnelles hieacuterarchiques reacuteseaux (Shneiderman B 1996)

12- Etat de lart eacutevaluation - benchmarking typologie orienteacutee usages (veille et intelligence eacuteconomique)

Quelques exemples

Inist httpoutilsveilleinistfr

Esiee httpwwwaa-esieecomevent2005AGClaudeAschenbrennerppt

Ecole des Mines httpwwwdemoscienceorgresources

Commercial httpwwwk-praxiscom

Commercial httpwwwinformation-mininginfostate_of_art

Universitaire httpwell-formed-datanetthesis

13- Typologie cartographique

Quelques exemples de bloggers

bull Claude Aschenbrenner httpwwwserialmappercomarchive20070110la-pierre-de-rosette-de-la-

cartographie-de-l-informationhtml avec son mode demploi

bull Kartoo httpwwwmapdreamcom

51

Cartographie de linformation- Famille doutils et contextes applicatifs

1- Famille doutils typologie scientifique

52

Cartographie de linformation- Famille doutils orienteacutes laquo bibliothegraveques raquo

2- Les outils de navigation et de recherche sur Internet (seacutelection de Pierre Nobis)

A- Les navigateurs Nestor Navicrawler

53

Cartographie de linformation- Famille doutils orienteacutes laquo bibliothegraveques raquo

2- Les outils de navigation et de recherche sur Internet (seacutelection de Pierre Nobis)

B- Les outils de visualisation des reacutesultats PageBull ManagedQ

Bbis Les outils de visualisation de reacutesultats dans les actualiteacutes

repreacutesentation carreacutee Marumushi - Google NewsNewsIsFree - The Hive Group Tenbyten -flux RSS des sources drsquoactualiteacutes internationales

repreacutesentation sous forme de graphe

Silobreaker

54

Cartographie de linformation- Famille doutils orienteacutes laquo bibliothegraveques raquo

2- Les outils de navigation et de recherche sur Internet

B-Les outils de visualisation des reacutesultats TouchGraph application Java permettant de cartographier les reacutesultats issus

notamment de Google Amazon PubMed Alexa FaceBook

55

Cartographie de linformation- Famille doutils orienteacutes laquo bibliothegraveques raquo

2- Les outils de navigation et de recherche sur Internet (seacutelection de Pierre Nobis)

C- Les outils de recherche avec ajout de termes associeacutes dans une colonne regroupement theacutematique nuage de laquo tags raquo

D- Meacutetamoteurs avec affichage de clusters sous forme de listes

Carrot2 Clusty-Vivissimo Iboogie Polymeta Turbo10 Webclust

56

Cartographie de linformation- Famille doutils orienteacutes laquo bibliothegraveques raquo

2- Les outils de navigation et de recherche sur Internet (seacutelection de Pierre Nobis)

E- Meacutetamoteurs avec affichage de clusters sous forme graphique

E1- repreacutesentation centreacutee Allplus WebBrain

Allplus est un meacutetamoteur agrave clusteacuterisation graphique qui interroge les bases de Ask Google Yahoo et Livepar le biais de lrsquooutil Polymeta Lrsquointerface cluster graph permet de visualiser les reacutesultats sous une forme graphique

Webbrain permet de visualiser et drsquoaffiner les reacutesultats drsquoune requecircte issus de lrsquoOpen Directory Project

57

Cartographie de linformation- Famille doutils orienteacutes laquo bibliothegraveques raquo

2- Les outils de navigation et de recherche sur Internet (seacutelection de Pierre Nobis)

E- Meacutetamoteurs avec affichage de clusters sous forme graphique

E2- Repreacutesentation circulaire Grokker

E3- Repreacutesentation topographique TooLeNet srsquoappuie sur les technologies de KartOO et sur lrsquoindex de

Yahoo pour effectuer des recherches selon 3 modes moteur annuaire et carte auxquels srsquoajoutent des

options de personnalisation et de classification assez avanceacutees

58

Cartographie de linformation- Famille doutils orienteacutes laquo bibliothegraveques raquo

3- Les Outils graphiques dexploration

Wikimindmap est un outil drsquointerrogation

et de repreacutesentation des informations issues

de Wikipedia sous forme de carte heuristique

Visuwords est un dictionnaire en ligne

qui preacutesente ses reacutesultats sous forme de laquo grappes raquo

Il utilise la base de donneacutees Wordnet

Code couleur pour les diffeacuterentes relations

seacutemantiques hieacuterarchiques entre les termes

ainsi que les synonymes et les antonymes

59

Cartographie de linformation- Famille doutils orienteacutes laquo bibliothegraveques raquo

4- Les outils de creacuteation (carto)graphiqueA- Pour meacutemoire les logiciels de creacuteation de cartes heuristiques et conceptuelles

Cmaptools est un logiciel gratuit (usage eacuteducatif) de creacuteation de cartes conceptuelles

Freemind est un logiciel libre et gratuit qui permet de reacutealiser des cartes heuristiques

Thinkgraph est un logiciel gratuit de dessin 2D orienteacute vers la reacutealisation de cartes conceptuelles

60

Cartographie de linformation- Famille doutils orienteacutes laquo bibliothegraveques raquo

4- Les outils de creacuteation (carto)graphique

B- Les outils drsquoeacutedition de graphes

Guess est un logiciel libre et gratuit deacuteveloppeacute par Eytan Adar qui permet de visualiser des

graphes statiques Options de modification de certains attributs (taille couleur forme

algorithmes de positionnementhellip)

Pajek est un logiciel libre et gratuit (usage non commercial) deacuteveloppeacute par V Batagelj et A

Mrvar qui permet de traiter des donneacutees de reacuteseaux de grande taille Pajek signifie araigneacutee

en slovegravene

C- Les outils en ligne

ManyEye service collaboratif deacuteveloppeacute par IBM gracircce auquel on peut geacuteneacuterer selon un

des modegraveles proposeacutes sa propre visualisation de lrsquoinformation (apregraves avoir teacuteleacuteverseacute ses

propres donneacutees)

IssueCrawler outil de web social mining utilisable agrave distance (chargement des URL)

reacutecupeacuteration graphique

61

Cartographie de linformation- Famille doutils et contextes applicatifs

2- Contextes applicatifs

Eleacutements deacutevaluation

Les perspectives de la cartographie seacutemantique

62

Cartographie de linformation- Famille doutils et contextes applicatifs

2- Contextes applicatifs Eleacutements deacutevaluation

21- Evaluation scientifique

Question de meacutethode Eacutevaluation des Interfaces Utilisateur drsquoInformation Bonnel et Chevalier 2006

Objectif proposer une meacutethodologie deacutevaluation permettant de comparer du point de vue de la

visualisation des reacutesultats agrave une requecircte les outils de recherche Google Vivisimo Ujiko Grokker Kartoo

Vios SmartWeb (prototype)

Evaluation des repreacutesentations graphiques geacuteneacuteraliteacutes (Tricot et Roche 2006)

bull Arborescences simples

habitude des utilisateurs (explorateur de fichiers informatiques) pas de problegravemes avec volume limiteacute

au-delagrave drsquoune certaine quantiteacute drsquoinformation les arborescences deviennent inefficaces

bull Arbres de cocircnes en 3D

posent des problegravemes agrave lrsquoutilisateur qui nrsquoa pas lrsquohabitude des espaces en 3D

effort cognitif plus eacuteleveacute et prise en main plus longue

bull Arbres hyperboliques

problegravemes des eacutetiquettes des eacuteleacutements (occlusion)

effet de zoom impreacutevisible

Lrsquoune des conclusions une seule visualisation ne permet pas de reacutepondre agrave toutes les questions

multiplier les possibiliteacutes de visualisation

63

Cartographie de linformation- Famille doutils et contextes applicatifs

2- Contextes applicatifs Eleacutements deacutevaluation

21- Evaluation scientifique doctorat en cours agrave lrsquoEBSI (Aline Creacutedeville)

bull Contexte visualisation de lrsquoinformation dans le contexte de recherche drsquoinformation

bull Point de vue de la seacutemiologie graphique

o principes les plus couramment utiliseacutes sont la proximiteacute (Grokker) lrsquoenglobage (Kartoo)

et la connectiviteacute (Auquabrowser)

omeacutetaphores visuelles pas toujours adeacutequates au web

bull Reacutesultats

o lrsquoinformation doit ecirctre structureacutee

o apports possible pour lrsquoexploration mais pas pour la recherche

64

Cartographie de linformation- Famille doutils et contextes applicatifs

2- Contextes applicatifs Eleacutements deacutevaluation

22- Evaluation en contexte dusage de recherche dinformations (Ciaccia Ihadjadene Martins 2006)

Objectif analyse de lrsquoinfluence du mode de preacutesentation des informations sur les processus cognitifs mis

en jeu par lrsquoutilisateur dans lrsquoactiviteacute de recherche drsquoinformations sur Internet

Outils eacutevalueacutes Kartoo (pour 18 usagers) et Mapstan (pour 16 usagers)

Principaux reacutesultats

Coucirct cognitif sans pour autant conduire agrave de meilleures performances (comparaison avec une

preacutesentation en liste)

Hypothegravese nouveauteacute de la preacutesentation versus habitude des preacutesentations verbales

Strateacutegie optimiseacutee preacuteciser la requecircte drsquoune recherche agrave but flou et se concentrer sur les informations

relieacutees agrave lrsquoobjectif de la question versus informations non relieacutees

Le sens de la visualisation doit ecirctre clarifieacute les systegravemes doivent faciliter la compreacutehension des

eacuteleacutements visualiseacutes

65

Cartographie de linformation- Famille doutils et contextes applicatifs

2- Contextes applicatifs Les perspectives de la cartographie seacutemantique (C Tricot de la seacutemantique agrave la carte)

Pour reacutesoudre la probleacutematique de la repreacutesentation de lrsquoinformation la visualisation de

lrsquoinformation seule ne suffit pas

La visualisation de lrsquoinformation permet uniquement de preacutesenter des donneacutees en leur

associant une repreacutesentation graphique

La cartographie seacutemantique se veut

Une meacutethode de cartographie reposant sur la seacutemantique dun domaine

Un processus de production de connaissances

donneacutees brutes -gt donneacutees structureacutees -gt donneacutees repreacutesenteacutees -gt donneacutees visualiseacutees

Un formalisme de description type Reacuteseaux seacutemantiques

Un langage de description cartographique

Une architecture multi-agents

66

Cartographie de linformation- Famille doutils et contextes applicatifs

2- Contextes applicatifs Les perspectives de la cartographie seacutemantique (C Tricot de la seacutemantique agrave la carte)

67

Cartographie de linformation- Famille doutils et contextes applicatifs

2- Contextes applicatifs Les perspectives de la cartographie seacutemantique

ldquoUne bonne structure repreacutesentative graphique pour un arbre de donneacutees est celle qui deacuteforme le moins les similitudes originales entre les uniteacutes de donneacutees (similitudes qui sont donneacutes par loutil de classification) ou en dautres termes deux individus (ou classes) qui sont proches lune de lautre le restent aussi possible que peut apregraves projection dans l`espace de visualisation et ceci doit ecirctre eacutevident(et veacuterifiable par une mesure de calcul de divergence) dans lenvironnement de visualisation ldquo Tricot 2006

Page 11: Cartographie de l'information- Composantes des - Urfist de Paris

11

Cartographie de linformation- Introduction

4- Probleacutematique de la cartographie de linformation

Les donneacutees abstraites ne possegravedent pas de repreacutesentation graphique intrinsegraveque

bull Pour Card Mackinlay et Shneiderman tant que les informations et les donneacutees que lon souhaite

repreacutesenter sont deacuteriveacutees de donneacutees physiques alors elles possegravedent une repreacutesentation

graphique intrinsegraveque

bull Cas dune carte geacuteographique qui repreacutesente des villes la localisation physique des villes sur le

globe terrestre fournit la position relative des points correspondants aux villes sur la carte Les

repreacutesentations graphiques sont alors laquo agrave limage raquo des pheacutenomegravenes observeacutes

Pour les donneacutees abstraites la difficulteacute est de leur trouver une repreacutesentation et plus particuliegraverement une

reacutepartition dans lespace de la carte

bull Cas dune cartographie de concepts la difficulteacute nest pas de trouver une repreacutesentation pour chaque

concept (par exemple un rectangle ou un cercle) mais bien de les reacutepartir dans lespace de la

carte sachant que la reacutepartition aura un impact important sur la signification perccedilue

Lenjeu de la cartographie de donneacutees abstraites est

de deacuteterminer le choix des repreacutesentations pour les visualiser

12

Cartographie de linformation- Introduction

4- Probleacutematique de la cartographie de linformation

13

Cartographie de linformation- Introduction

5- Ancrage disciplinaire seacutemiologie graphique sciences cognitives gestion des connaissances (statistiques et intelligence artificielle)

14

Cartographie de linformation- Composantes des applications cartographiques

1- Composante calculatoire Data Mining

Terminologie

Forage de donneacutees -gt fouille de donneacutees -gt exploration de donneacutees -gt extraction de connaissances agrave partir de donneacutees (ECD)

Deacutefinitions

Scientifique

Processus non-trivial drsquoidentification de structures inconnues valides et potentiellement

exploitables dans les bases de donneacutees (Fayyad1996)

Meacutethodologique

Algorithmes et meacutethodes destineacutes agrave lrsquoexploration et lrsquoanalyse de grandes bases de donneacutees

informatiques en vue de deacutetecter dans ces donneacutees des regravegles des associations des

tendances inconnues (non fixeacutees a priori) des structures particuliegraveres restituant de faccedilon

concise lrsquoessentiel de lrsquoinformation utile pour lrsquoaide agrave la deacutecision

15

Cartographie de linformation- Composantes des applications cartographiques

1- Composante calculatoire Data Mining

Speacutecificiteacutes

Se distingue de lanalyse de donneacutees et de la statistique par les points suivants

ne neacutecessite pas dhypothegravese de deacutepart cest des donneacutees elles-mecircmes que se deacutegageront les correacutelations inteacuteressantes (exemples historiques des tickets de caisse)

les connaissances extraites par le Data Mining ont vocation agrave ecirctre inteacutegreacutees dans un scheacutema

organisationnel

les donneacutees traiteacutees sont issues des systegravemes de stockage en place dans lorganisation

-gt Le data mining fait passer drsquoanalyses confirmatoires agrave des analyses exploratoires

Techniques

Les techniques descriptives visent agrave mettre en eacutevidence des informations preacutesentes mais cacheacutees

par le volume des donneacutees cas des recherches drsquoassociations -gt il nrsquoy a pas de variable laquo cible raquo agrave

preacutedire

Les techniques preacutedictives visent agrave extrapoler de nouvelles informations agrave partir des informations

preacutesentes (cas du scoring) -gt il y a une variable laquo cible raquo agrave preacutedire

16

Cartographie de linformation- Composantes des applications cartographiques

1- Composante calculatoire Data Mining

Meacutethodes Deacutefinition Usages Techniques (liste indicative)

Non superviseacutees Sans variable cible Pour deacutegager dun ensemble

dindividus des groupes homogegravenes

Ex typologie

Techniques agrave base de

reacuteseau de neurones

Classification ascendante

hieacuterarchique

Recherche dassociations

Superviseacutees Avec variable cible Pour expliquer etou preacutevoir un ou

plusieurs pheacutenomegravenes observables

et effectivement mesureacutes

Ex filtrage collaboratif

classifications

Techniques agrave base

darbres de deacutecision

Techniques agrave base de

reacuteseau de neurones

Reacuteduction de

donneacutees

Utiliseacutee en amont des

autres meacutethodes

Permettent de reacuteduire un ensemble

de donneacutees volumineux agrave un

ensemble de taille plus reacuteduite

eacutepureacute de ce que lon consideacuterera

comme de linformation non

pertinente ou non signifiante

comme du bruit

Techniques danalyse

factorielle type AFC

17

Cartographie de linformation- Composantes des applications cartographiques

1- Composante calculatoire Data Mining exemples

Classification Affecter un objet agrave une classe en fonction de ses caracteacuteristiques A1hellipAn

Exemples

Deacuteterminer si un message est un mail de SPAM ou non (2 classes)

Affecter une page web dans une des cateacutegories theacutematiques dun annuaire (multi-classes)

Meacutethode

Si pas de theacuteorie pour deacutefinir la classe en fonction de A1hellipAn alors on eacutetudie un ensemble

drsquoexemples pour lesquels on connaicirct A1hellipAn et la classe associeacutee et on construit un

modegravele

Classe = f(A1hellipAn)

Techniques

Analyse discriminante

Arbre de classification

Reacuteseaux de neurones

18

Cartographie de linformation- Composantes des applications cartographiques

1- Composante calculatoire Reacuteseau de neurones

Principe

Un neurone est une uniteacute de calcul eacuteleacutementaire combine des entreacutees x1x

nen une sortie o

Les entreacutees nont pas toutes la mecircme importance agrave chaque entreacutee xiest associeacute un poids (ou coefficient

synaptique) wi

Luniteacute calcule dabord lactiviteacute dentreacutee (somme pondeacutereacutee des entreacutees)

Coefficients synaptiques

Sont calculeacutes non a priori mais sur la base des valeurs disponibles principe fondamental de

lrsquoapprentissage

Apprendre crsquoest calculer les valeurs des coefficients synaptiques en fonction des exemples disponibles

Algorithme laquo drsquoentraicircnement raquo modifie les poids synaptiques en fonction drsquoun jeu de donneacutees

preacutesenteacutee en entreacutee du reacuteseau

Geacuteneacuteraliser

Lrsquointeacuterecirct des reacuteseaux de neurones reacuteside dans leur capaciteacute agrave geacuteneacuteraliser agrave partir du jeu de test

19

Illustration du reacuteseau de neurones

20

Cartographie de linformation- Composantes des applications cartographiques

1- Composante calculatoire Text Mining

DeacutefinitionProceacutedeacute consistant agrave syntheacutetiser (classer structurer reacutesumer hellip) les textes en analysant les relations les patterns

et les regravegles entre uniteacutes textuelles (mots groupes phrases documents)

Du Data Mining au Text Mining

Ajout de la lexicomeacutetrie

Comme en Data Mining on trouve en Text Mining

des algorithmes descriptifs recherche des thegravemes abordeacutes dans un ensemble (corpus) de documents sans

connaicirctre agrave lrsquoavance ces thegravemes

des algorithmes preacutedictifs recherche des regravegles permettant drsquoaffecter automatiquement un document agrave un

thegraveme parmi plusieurs thegravemes preacutedeacutefinis

Application des techniques de Data mining

Individus = documents

Caractegraveres des individus = thegravemestermes des documents

21

Text Mining Data Mining

Impleacutementation vaste

degraves 2000

Impleacutementation vaste

degraves 1994Maturiteacute

milliersmilliers Dimension

complexesimpleRepreacutesentation

non-structureacutestructureacuteStructure

textuelnumeacuterique amp

cateacutegorique Objet

Text MiningData Mining

22

Vue simplifieacutee du Text Mining

23

Analyse lexicomeacutetrique

Eliminer les mots vides Deacutecouper les textes en uniteacutes Lemmatiser Reacuteduire le nombre de termes agrave traiter

24

Anayse statistique

25

Term frequency (TF)

Un terme qui apparait plusieurs fois dans un document est plus

important qursquoun terme qui apparaicirct une seule fois

wij = Nombre drsquooccurrences du terme ti dans le document dj

TFij = Freacutequence du terme ti dans le document dj

j

ij

d

wTF

ij

26

Inverse document frequency (IDF)

Un terme qui apparaicirct dans peu de documents est un meilleur discriminant qursquoun terme qui apparaicirct dans tous les documents

bull dfi = nombre de documents contenant le terme ti

bull d = nombre de documents du corpus

Inverse document frequency

i

i

df

dIDF log

27

Pondeacuteration TF-IDF

TF-IDF signifie Term Frequency x Inverse Document

Frequency

bull Proposeacutee par [Salton 1989] mesure limportance drsquoun terme

dans un document relativement agrave lrsquoensemble des documents

bull tf ij = freacutequence du terme i dans le document j

df i = nombre de documents contenant le terme i

N = d = nombre de documents du corpus

28

Similariteacute entre documents

Permet de ranger les

documents par pertinence

Le cosinus de lrsquoangle est

souvent utiliseacute

2d1d

2dT

1d2d1d )cos(

bull gt cos( )ltcos( )

bull d2 est plus proche de d1que de d3

29

Cartographie de linformation- Composantes des applications cartographiques

1- Composante calculatoire Data Clustering ou partitionnement de donneacutees

Deacutefinition

Meacutethode statistique danalyse des donneacutees qui a pour but de regrouper un ensemble de donneacutees en

diffeacuterents paquets homogegravenes chaque sous-ensemble partage des caracteacuteristiques communes qui

correspondent le plus souvent agrave des critegraveres de proximiteacute que lon deacutefinit en introduisant des mesures

de distance

Principe

Pour obtenir un bon partitionnement il convient de

bull minimiser linertie intra-classe pour obtenir des grappes (cluster en anglais) les plus homogegravenes

possibles

bull maximiser linertie inter-classe afin dobtenir des sous-ensembles bien diffeacuterencieacutes

Composition

Un cluster est composeacute de

bull une liste de mots-cleacutes

bull une liste dassociations internes

bull une liste dassociations externes

bull une eacutetiquette

bull une liste de documents affecteacutes apregraves la classification

30

Cartographie de linformation- Composantes des applications cartographiques

1- Composante calculatoire DataClustering

bull Lassociation la plus forte permet de creacuteer le premier cluster ici laquoa-braquo)

bull Une nouvelle association peut donner lieu agrave un laquoenrichissementraquo de cluster laquoa-eraquo vient

enrichir le cluster laquoa-braquo qui contient deacutejagrave laquoaraquo) ou agrave une creacuteation de nouveau cluster (laquoc-draquo par

exemple)

Deacutefinitions

Web mining Data mining appliqueacute aux donneacutees de navigation sur le web

Objectifs du web mining

1 Optimiser la navigation dans un site web (confort des internautes)

2 Augmenter le nombre de pages consulteacutees et lrsquoimpact des liens et des banniegraveres publicitaires

3 Deacuteceler les centres drsquointeacuterecirct et donc les attentes des internautes visitant le site

Types dAnalyses

Statistique descriptive

bull laquo 70 des internautes ont consulteacute 3 pages ou moins raquo

bull laquo 40 des internautes accegravedent au site sans passer par la page drsquoaccueil raquo

Deacutetection des regravegles drsquoassociation

bull laquo 20 des internautes visitant la page A visitent la page B dans la mecircme session raquo

Segmentation des internautes

bull Selon les sites de provenance les pages drsquoentreacutee le nombre de pages consulteacutees les fichiers teacuteleacutechargeacutes les pages de sortie etc

1- Composante calculatoire Web Mining

Cartographie de linformation- Composantes des applications cartographiques

31

32

Cartographie de linformation- Composantes des applications cartographiques

1- Composante calculatoire Web Social Data Mining

Hypothegravese documentaire

Web structureacute par des laquo localiteacutes theacutematiques raquo deacutefinies par une forte correacutelation entre

contenu des documents et proximiteacute hypertexte dessinant comme un territoire

Probleacutematique de la laquo traccedilabiliteacute raquo du socialbull Le web se preacutesente comme une matrice technique distribueacutee faccedilonneacutee par des usages dont

le reacuteseau garde la meacutemoire bull Le seul fait dutiliser une technologie numeacuterique contribue agrave produire des traces et agrave

grande eacutechelle elles constituent un reacuteservoir immense de donneacutees disponibles

Principes hubs et autoriteacutes (Kleinberg et al)

bull Autoriteacutes ensemble des pages contenant les meilleures sources drsquoinformation pour un

thegraveme donneacute

bull Hubs pages pointant sur les autoriteacutes

bull Le calcul ressemble au calcul drsquoimportance drsquoun article par nombre de citations (les liens

du Web vus comme des recommendations)

Applications

Sujets controverseacutes ougrave le seul lexique nest pas discriminant

33

Cartographie de linformation- Composantes des applications cartographiques

2- Composante visuelle

Eleacutements de seacutemiologie graphique (J Bertin) Theacuteorie de la Gestalt

34

Cartographie de linformation- Composantes des applications cartographiques

2- Composante visuelle Eleacutements de seacutemiologie graphique (J Bertin)

35

Cartographie de linformation- Composantes des applications cartographiques

2- Composante visuelle Eleacutements de seacutemiologie graphique (J Bertin)

Type de dessin Signification

des signes Description Exemple

Graphis

me

Image non-

figurative Panseacutemique

Le systegraveme srsquoouvre agrave toute

signification Tableau drsquoart

Image

figurative Polyseacutemique

Le systegraveme a pour objectif de

deacutefinir un concept ou une ideacutee

mais les interpreacutetations peuvent

diverger

Photographie

aeacuterienne

Graphique Monoseacutemique

Transcriptions de relations entre

des concepts preacutealablement

deacutefinis

Un

organigramme

36

Cartographie de linformation- Composantes des applications cartographiques

2- Composante visuelle Eleacutements de seacutemiologie graphique (J Bertin)

laquo La graphique est un systegraveme de signes [structures visuelles] qui permet de transcrire les

relations de diffeacuterence drsquoordre ou de proportionnaliteacute existant entre des donneacutees qualitatives ou

quantitatives raquo [Bonin 1997]

laquo La carte est une image graphique qui transcrit les relations de proportionnaliteacute ordre et

diffeacuterence par des variations proportionnelles ordonneacutees et diffeacuterentielles raquo

37

Cartographie de linformation- Composantes des applications cartographiques

2- Composante visuelle Eleacutements de seacutemiologie graphique (J Bertin)

38

Cartographie de linformation- Composantes des applications cartographiques

2- Composante visuelle Eleacutements de seacutemiologie graphique (J Bertin)

39

Cartographie de linformation- Composantes des applications cartographiques

2- Composante visuelle Eleacutements de seacutemiologie graphique (J Bertin)

40

Cartographie de linformation- Composantes des applications cartographiques

2- Composante visuelle Eleacutements de seacutemiologie graphique (J Bertin)

41

Cartographie de linformation- Composantes des applications cartographiques

2- Composante visuelle Eleacutements de seacutemiologie graphique (J Bertin)

Variables visuelles (laquo variables reacutetiniennes raquo)

Variation des proprieacuteteacutes graphiques des structures visuelles

42

Cartographie de linformation- Composantes des applications cartographiques

2- Composante visuelle Eleacutements de seacutemiologie graphique (J Bertin)

Variables visuelles

Cartographie de linformation- Composantes des applications cartographiques

2- Composante visuelle Eleacutements de seacutemiologie graphique (J Bertin)

43

44

Cartographie de linformation- Composantes des applications cartographiques

2- Composante visuelle Theacuteorie de la Gestalt (1890)

Principe

Le contexte est tregraves important dans la perception visuelle [Guillaume]

Les structures visuelles ne sont pas indeacutependantes les unes des autres et le contexte est

important pour la signification qui leur est attribueacutee

En graphique

La perception visuelle srsquoattache agrave reconnaicirctre des modegraveles dans un ensemble de structures

visuelles

De cette theacuteorie reacutesultent des lois correspondant agrave des cateacutegories drsquointeractions possibles entre

les structures visuelles

45

Cartographie de linformation- Composantes des applications cartographiques

Lois Effets Illustrations

Preacutegnance Une image est facile agrave comprendre si sa structure est simple et inversement

Proximiteacute Deux composants qui sont proches ont tendance agrave ecirctre perccedilus comme un

seul composant

Similariteacute Les composants similaires sont perccedilus comme srsquoils eacutetaient regroupeacutes

Fermeture Les contours proches sont perccedilus comme unifieacutes

Continuiteacute Des eacuteleacutements voisins sont perccedilus groupeacutes lorsqursquoils possegravedent

potentiellement un trait qui les relie

Symeacutetrie Des eacuteleacutements sont perccedilus comme un eacuteleacutement global lorsqursquoils forment une

symeacutetrie

Trajectoire identique Des eacuteleacutements qui se deacuteplacent avec la mecircme trajectoire semblent groupeacutes

Familiariteacute Des eacuteleacutements sont plus facilement groupables si le groupe est familier ou

significatif

46

Cartographie de linformation- Composantes des applications cartographiques

2- Composante visuelle Theacuteorie de la Gestalt (1890)

47

Cartographie de linformation- Composantes des applications cartographiques

2- Composante visuelle Conception drsquoun langage graphique (JB Lamy)

1- Analyser les informations ou connaissances que lrsquoon souhaite repreacutesenter

Determiner les attributs qui

deacutefinissent les termes agrave repreacutesenter

bull Par exemple pour repreacutesenter

des maladies les attributs pourraient

ecirctre la localisation anatomique

(cardiaque reacutenale) la seacuteveacuteriteacute etc

2- Associer agrave chaque attribut une variable

reacutetinienne pour le repreacutesenter

bull Par exemple pour les maladies

Associer lrsquoattribut localisation

anatomique agrave la variable

formepictogramme

bull Repreacutesenter la seacuteveacuteriteacute par la variable

couleur

3- Les relations entre les diffeacuterents termes

repreacutesenteacutes doivent ecirctre expliciteacutees

48

Cartographie de linformation

Famille doutils et contextes applicatifs

1- Famille doutils

Typologies

Aperccedilu

Travaux pratiques

2- Contextes applicatifs

Eleacutements deacutevaluation

Les perspectives de la cartographie seacutemantique

49

Cartographie de linformation- Famille doutils et contextes applicatifs

1- Famille doutils

Typologies

Aperccedilu

TP agrave partir de la seacutelection httpdeliciouscommylk02Stage_Carto

Et encore httpwwwvisualcomplexitycomvc (plus de 500 projets dans le domaine)

50

Cartographie de linformation- Famille doutils et contextes applicatifs

1- Famille doutils typologies

11- Typologie scientifique eacutetablie selon des critegraveres internes au domaine

bull les trois principaux paradigmes technique de visualisation type de donneacutees et type dinteraction (Keim

DA 2002)

bull la nature des donneacutees unidimensionnelles bidimensionnelles tridimensionnelles temporelles

multidimensionnelles hieacuterarchiques reacuteseaux (Shneiderman B 1996)

12- Etat de lart eacutevaluation - benchmarking typologie orienteacutee usages (veille et intelligence eacuteconomique)

Quelques exemples

Inist httpoutilsveilleinistfr

Esiee httpwwwaa-esieecomevent2005AGClaudeAschenbrennerppt

Ecole des Mines httpwwwdemoscienceorgresources

Commercial httpwwwk-praxiscom

Commercial httpwwwinformation-mininginfostate_of_art

Universitaire httpwell-formed-datanetthesis

13- Typologie cartographique

Quelques exemples de bloggers

bull Claude Aschenbrenner httpwwwserialmappercomarchive20070110la-pierre-de-rosette-de-la-

cartographie-de-l-informationhtml avec son mode demploi

bull Kartoo httpwwwmapdreamcom

51

Cartographie de linformation- Famille doutils et contextes applicatifs

1- Famille doutils typologie scientifique

52

Cartographie de linformation- Famille doutils orienteacutes laquo bibliothegraveques raquo

2- Les outils de navigation et de recherche sur Internet (seacutelection de Pierre Nobis)

A- Les navigateurs Nestor Navicrawler

53

Cartographie de linformation- Famille doutils orienteacutes laquo bibliothegraveques raquo

2- Les outils de navigation et de recherche sur Internet (seacutelection de Pierre Nobis)

B- Les outils de visualisation des reacutesultats PageBull ManagedQ

Bbis Les outils de visualisation de reacutesultats dans les actualiteacutes

repreacutesentation carreacutee Marumushi - Google NewsNewsIsFree - The Hive Group Tenbyten -flux RSS des sources drsquoactualiteacutes internationales

repreacutesentation sous forme de graphe

Silobreaker

54

Cartographie de linformation- Famille doutils orienteacutes laquo bibliothegraveques raquo

2- Les outils de navigation et de recherche sur Internet

B-Les outils de visualisation des reacutesultats TouchGraph application Java permettant de cartographier les reacutesultats issus

notamment de Google Amazon PubMed Alexa FaceBook

55

Cartographie de linformation- Famille doutils orienteacutes laquo bibliothegraveques raquo

2- Les outils de navigation et de recherche sur Internet (seacutelection de Pierre Nobis)

C- Les outils de recherche avec ajout de termes associeacutes dans une colonne regroupement theacutematique nuage de laquo tags raquo

D- Meacutetamoteurs avec affichage de clusters sous forme de listes

Carrot2 Clusty-Vivissimo Iboogie Polymeta Turbo10 Webclust

56

Cartographie de linformation- Famille doutils orienteacutes laquo bibliothegraveques raquo

2- Les outils de navigation et de recherche sur Internet (seacutelection de Pierre Nobis)

E- Meacutetamoteurs avec affichage de clusters sous forme graphique

E1- repreacutesentation centreacutee Allplus WebBrain

Allplus est un meacutetamoteur agrave clusteacuterisation graphique qui interroge les bases de Ask Google Yahoo et Livepar le biais de lrsquooutil Polymeta Lrsquointerface cluster graph permet de visualiser les reacutesultats sous une forme graphique

Webbrain permet de visualiser et drsquoaffiner les reacutesultats drsquoune requecircte issus de lrsquoOpen Directory Project

57

Cartographie de linformation- Famille doutils orienteacutes laquo bibliothegraveques raquo

2- Les outils de navigation et de recherche sur Internet (seacutelection de Pierre Nobis)

E- Meacutetamoteurs avec affichage de clusters sous forme graphique

E2- Repreacutesentation circulaire Grokker

E3- Repreacutesentation topographique TooLeNet srsquoappuie sur les technologies de KartOO et sur lrsquoindex de

Yahoo pour effectuer des recherches selon 3 modes moteur annuaire et carte auxquels srsquoajoutent des

options de personnalisation et de classification assez avanceacutees

58

Cartographie de linformation- Famille doutils orienteacutes laquo bibliothegraveques raquo

3- Les Outils graphiques dexploration

Wikimindmap est un outil drsquointerrogation

et de repreacutesentation des informations issues

de Wikipedia sous forme de carte heuristique

Visuwords est un dictionnaire en ligne

qui preacutesente ses reacutesultats sous forme de laquo grappes raquo

Il utilise la base de donneacutees Wordnet

Code couleur pour les diffeacuterentes relations

seacutemantiques hieacuterarchiques entre les termes

ainsi que les synonymes et les antonymes

59

Cartographie de linformation- Famille doutils orienteacutes laquo bibliothegraveques raquo

4- Les outils de creacuteation (carto)graphiqueA- Pour meacutemoire les logiciels de creacuteation de cartes heuristiques et conceptuelles

Cmaptools est un logiciel gratuit (usage eacuteducatif) de creacuteation de cartes conceptuelles

Freemind est un logiciel libre et gratuit qui permet de reacutealiser des cartes heuristiques

Thinkgraph est un logiciel gratuit de dessin 2D orienteacute vers la reacutealisation de cartes conceptuelles

60

Cartographie de linformation- Famille doutils orienteacutes laquo bibliothegraveques raquo

4- Les outils de creacuteation (carto)graphique

B- Les outils drsquoeacutedition de graphes

Guess est un logiciel libre et gratuit deacuteveloppeacute par Eytan Adar qui permet de visualiser des

graphes statiques Options de modification de certains attributs (taille couleur forme

algorithmes de positionnementhellip)

Pajek est un logiciel libre et gratuit (usage non commercial) deacuteveloppeacute par V Batagelj et A

Mrvar qui permet de traiter des donneacutees de reacuteseaux de grande taille Pajek signifie araigneacutee

en slovegravene

C- Les outils en ligne

ManyEye service collaboratif deacuteveloppeacute par IBM gracircce auquel on peut geacuteneacuterer selon un

des modegraveles proposeacutes sa propre visualisation de lrsquoinformation (apregraves avoir teacuteleacuteverseacute ses

propres donneacutees)

IssueCrawler outil de web social mining utilisable agrave distance (chargement des URL)

reacutecupeacuteration graphique

61

Cartographie de linformation- Famille doutils et contextes applicatifs

2- Contextes applicatifs

Eleacutements deacutevaluation

Les perspectives de la cartographie seacutemantique

62

Cartographie de linformation- Famille doutils et contextes applicatifs

2- Contextes applicatifs Eleacutements deacutevaluation

21- Evaluation scientifique

Question de meacutethode Eacutevaluation des Interfaces Utilisateur drsquoInformation Bonnel et Chevalier 2006

Objectif proposer une meacutethodologie deacutevaluation permettant de comparer du point de vue de la

visualisation des reacutesultats agrave une requecircte les outils de recherche Google Vivisimo Ujiko Grokker Kartoo

Vios SmartWeb (prototype)

Evaluation des repreacutesentations graphiques geacuteneacuteraliteacutes (Tricot et Roche 2006)

bull Arborescences simples

habitude des utilisateurs (explorateur de fichiers informatiques) pas de problegravemes avec volume limiteacute

au-delagrave drsquoune certaine quantiteacute drsquoinformation les arborescences deviennent inefficaces

bull Arbres de cocircnes en 3D

posent des problegravemes agrave lrsquoutilisateur qui nrsquoa pas lrsquohabitude des espaces en 3D

effort cognitif plus eacuteleveacute et prise en main plus longue

bull Arbres hyperboliques

problegravemes des eacutetiquettes des eacuteleacutements (occlusion)

effet de zoom impreacutevisible

Lrsquoune des conclusions une seule visualisation ne permet pas de reacutepondre agrave toutes les questions

multiplier les possibiliteacutes de visualisation

63

Cartographie de linformation- Famille doutils et contextes applicatifs

2- Contextes applicatifs Eleacutements deacutevaluation

21- Evaluation scientifique doctorat en cours agrave lrsquoEBSI (Aline Creacutedeville)

bull Contexte visualisation de lrsquoinformation dans le contexte de recherche drsquoinformation

bull Point de vue de la seacutemiologie graphique

o principes les plus couramment utiliseacutes sont la proximiteacute (Grokker) lrsquoenglobage (Kartoo)

et la connectiviteacute (Auquabrowser)

omeacutetaphores visuelles pas toujours adeacutequates au web

bull Reacutesultats

o lrsquoinformation doit ecirctre structureacutee

o apports possible pour lrsquoexploration mais pas pour la recherche

64

Cartographie de linformation- Famille doutils et contextes applicatifs

2- Contextes applicatifs Eleacutements deacutevaluation

22- Evaluation en contexte dusage de recherche dinformations (Ciaccia Ihadjadene Martins 2006)

Objectif analyse de lrsquoinfluence du mode de preacutesentation des informations sur les processus cognitifs mis

en jeu par lrsquoutilisateur dans lrsquoactiviteacute de recherche drsquoinformations sur Internet

Outils eacutevalueacutes Kartoo (pour 18 usagers) et Mapstan (pour 16 usagers)

Principaux reacutesultats

Coucirct cognitif sans pour autant conduire agrave de meilleures performances (comparaison avec une

preacutesentation en liste)

Hypothegravese nouveauteacute de la preacutesentation versus habitude des preacutesentations verbales

Strateacutegie optimiseacutee preacuteciser la requecircte drsquoune recherche agrave but flou et se concentrer sur les informations

relieacutees agrave lrsquoobjectif de la question versus informations non relieacutees

Le sens de la visualisation doit ecirctre clarifieacute les systegravemes doivent faciliter la compreacutehension des

eacuteleacutements visualiseacutes

65

Cartographie de linformation- Famille doutils et contextes applicatifs

2- Contextes applicatifs Les perspectives de la cartographie seacutemantique (C Tricot de la seacutemantique agrave la carte)

Pour reacutesoudre la probleacutematique de la repreacutesentation de lrsquoinformation la visualisation de

lrsquoinformation seule ne suffit pas

La visualisation de lrsquoinformation permet uniquement de preacutesenter des donneacutees en leur

associant une repreacutesentation graphique

La cartographie seacutemantique se veut

Une meacutethode de cartographie reposant sur la seacutemantique dun domaine

Un processus de production de connaissances

donneacutees brutes -gt donneacutees structureacutees -gt donneacutees repreacutesenteacutees -gt donneacutees visualiseacutees

Un formalisme de description type Reacuteseaux seacutemantiques

Un langage de description cartographique

Une architecture multi-agents

66

Cartographie de linformation- Famille doutils et contextes applicatifs

2- Contextes applicatifs Les perspectives de la cartographie seacutemantique (C Tricot de la seacutemantique agrave la carte)

67

Cartographie de linformation- Famille doutils et contextes applicatifs

2- Contextes applicatifs Les perspectives de la cartographie seacutemantique

ldquoUne bonne structure repreacutesentative graphique pour un arbre de donneacutees est celle qui deacuteforme le moins les similitudes originales entre les uniteacutes de donneacutees (similitudes qui sont donneacutes par loutil de classification) ou en dautres termes deux individus (ou classes) qui sont proches lune de lautre le restent aussi possible que peut apregraves projection dans l`espace de visualisation et ceci doit ecirctre eacutevident(et veacuterifiable par une mesure de calcul de divergence) dans lenvironnement de visualisation ldquo Tricot 2006

Page 12: Cartographie de l'information- Composantes des - Urfist de Paris

12

Cartographie de linformation- Introduction

4- Probleacutematique de la cartographie de linformation

13

Cartographie de linformation- Introduction

5- Ancrage disciplinaire seacutemiologie graphique sciences cognitives gestion des connaissances (statistiques et intelligence artificielle)

14

Cartographie de linformation- Composantes des applications cartographiques

1- Composante calculatoire Data Mining

Terminologie

Forage de donneacutees -gt fouille de donneacutees -gt exploration de donneacutees -gt extraction de connaissances agrave partir de donneacutees (ECD)

Deacutefinitions

Scientifique

Processus non-trivial drsquoidentification de structures inconnues valides et potentiellement

exploitables dans les bases de donneacutees (Fayyad1996)

Meacutethodologique

Algorithmes et meacutethodes destineacutes agrave lrsquoexploration et lrsquoanalyse de grandes bases de donneacutees

informatiques en vue de deacutetecter dans ces donneacutees des regravegles des associations des

tendances inconnues (non fixeacutees a priori) des structures particuliegraveres restituant de faccedilon

concise lrsquoessentiel de lrsquoinformation utile pour lrsquoaide agrave la deacutecision

15

Cartographie de linformation- Composantes des applications cartographiques

1- Composante calculatoire Data Mining

Speacutecificiteacutes

Se distingue de lanalyse de donneacutees et de la statistique par les points suivants

ne neacutecessite pas dhypothegravese de deacutepart cest des donneacutees elles-mecircmes que se deacutegageront les correacutelations inteacuteressantes (exemples historiques des tickets de caisse)

les connaissances extraites par le Data Mining ont vocation agrave ecirctre inteacutegreacutees dans un scheacutema

organisationnel

les donneacutees traiteacutees sont issues des systegravemes de stockage en place dans lorganisation

-gt Le data mining fait passer drsquoanalyses confirmatoires agrave des analyses exploratoires

Techniques

Les techniques descriptives visent agrave mettre en eacutevidence des informations preacutesentes mais cacheacutees

par le volume des donneacutees cas des recherches drsquoassociations -gt il nrsquoy a pas de variable laquo cible raquo agrave

preacutedire

Les techniques preacutedictives visent agrave extrapoler de nouvelles informations agrave partir des informations

preacutesentes (cas du scoring) -gt il y a une variable laquo cible raquo agrave preacutedire

16

Cartographie de linformation- Composantes des applications cartographiques

1- Composante calculatoire Data Mining

Meacutethodes Deacutefinition Usages Techniques (liste indicative)

Non superviseacutees Sans variable cible Pour deacutegager dun ensemble

dindividus des groupes homogegravenes

Ex typologie

Techniques agrave base de

reacuteseau de neurones

Classification ascendante

hieacuterarchique

Recherche dassociations

Superviseacutees Avec variable cible Pour expliquer etou preacutevoir un ou

plusieurs pheacutenomegravenes observables

et effectivement mesureacutes

Ex filtrage collaboratif

classifications

Techniques agrave base

darbres de deacutecision

Techniques agrave base de

reacuteseau de neurones

Reacuteduction de

donneacutees

Utiliseacutee en amont des

autres meacutethodes

Permettent de reacuteduire un ensemble

de donneacutees volumineux agrave un

ensemble de taille plus reacuteduite

eacutepureacute de ce que lon consideacuterera

comme de linformation non

pertinente ou non signifiante

comme du bruit

Techniques danalyse

factorielle type AFC

17

Cartographie de linformation- Composantes des applications cartographiques

1- Composante calculatoire Data Mining exemples

Classification Affecter un objet agrave une classe en fonction de ses caracteacuteristiques A1hellipAn

Exemples

Deacuteterminer si un message est un mail de SPAM ou non (2 classes)

Affecter une page web dans une des cateacutegories theacutematiques dun annuaire (multi-classes)

Meacutethode

Si pas de theacuteorie pour deacutefinir la classe en fonction de A1hellipAn alors on eacutetudie un ensemble

drsquoexemples pour lesquels on connaicirct A1hellipAn et la classe associeacutee et on construit un

modegravele

Classe = f(A1hellipAn)

Techniques

Analyse discriminante

Arbre de classification

Reacuteseaux de neurones

18

Cartographie de linformation- Composantes des applications cartographiques

1- Composante calculatoire Reacuteseau de neurones

Principe

Un neurone est une uniteacute de calcul eacuteleacutementaire combine des entreacutees x1x

nen une sortie o

Les entreacutees nont pas toutes la mecircme importance agrave chaque entreacutee xiest associeacute un poids (ou coefficient

synaptique) wi

Luniteacute calcule dabord lactiviteacute dentreacutee (somme pondeacutereacutee des entreacutees)

Coefficients synaptiques

Sont calculeacutes non a priori mais sur la base des valeurs disponibles principe fondamental de

lrsquoapprentissage

Apprendre crsquoest calculer les valeurs des coefficients synaptiques en fonction des exemples disponibles

Algorithme laquo drsquoentraicircnement raquo modifie les poids synaptiques en fonction drsquoun jeu de donneacutees

preacutesenteacutee en entreacutee du reacuteseau

Geacuteneacuteraliser

Lrsquointeacuterecirct des reacuteseaux de neurones reacuteside dans leur capaciteacute agrave geacuteneacuteraliser agrave partir du jeu de test

19

Illustration du reacuteseau de neurones

20

Cartographie de linformation- Composantes des applications cartographiques

1- Composante calculatoire Text Mining

DeacutefinitionProceacutedeacute consistant agrave syntheacutetiser (classer structurer reacutesumer hellip) les textes en analysant les relations les patterns

et les regravegles entre uniteacutes textuelles (mots groupes phrases documents)

Du Data Mining au Text Mining

Ajout de la lexicomeacutetrie

Comme en Data Mining on trouve en Text Mining

des algorithmes descriptifs recherche des thegravemes abordeacutes dans un ensemble (corpus) de documents sans

connaicirctre agrave lrsquoavance ces thegravemes

des algorithmes preacutedictifs recherche des regravegles permettant drsquoaffecter automatiquement un document agrave un

thegraveme parmi plusieurs thegravemes preacutedeacutefinis

Application des techniques de Data mining

Individus = documents

Caractegraveres des individus = thegravemestermes des documents

21

Text Mining Data Mining

Impleacutementation vaste

degraves 2000

Impleacutementation vaste

degraves 1994Maturiteacute

milliersmilliers Dimension

complexesimpleRepreacutesentation

non-structureacutestructureacuteStructure

textuelnumeacuterique amp

cateacutegorique Objet

Text MiningData Mining

22

Vue simplifieacutee du Text Mining

23

Analyse lexicomeacutetrique

Eliminer les mots vides Deacutecouper les textes en uniteacutes Lemmatiser Reacuteduire le nombre de termes agrave traiter

24

Anayse statistique

25

Term frequency (TF)

Un terme qui apparait plusieurs fois dans un document est plus

important qursquoun terme qui apparaicirct une seule fois

wij = Nombre drsquooccurrences du terme ti dans le document dj

TFij = Freacutequence du terme ti dans le document dj

j

ij

d

wTF

ij

26

Inverse document frequency (IDF)

Un terme qui apparaicirct dans peu de documents est un meilleur discriminant qursquoun terme qui apparaicirct dans tous les documents

bull dfi = nombre de documents contenant le terme ti

bull d = nombre de documents du corpus

Inverse document frequency

i

i

df

dIDF log

27

Pondeacuteration TF-IDF

TF-IDF signifie Term Frequency x Inverse Document

Frequency

bull Proposeacutee par [Salton 1989] mesure limportance drsquoun terme

dans un document relativement agrave lrsquoensemble des documents

bull tf ij = freacutequence du terme i dans le document j

df i = nombre de documents contenant le terme i

N = d = nombre de documents du corpus

28

Similariteacute entre documents

Permet de ranger les

documents par pertinence

Le cosinus de lrsquoangle est

souvent utiliseacute

2d1d

2dT

1d2d1d )cos(

bull gt cos( )ltcos( )

bull d2 est plus proche de d1que de d3

29

Cartographie de linformation- Composantes des applications cartographiques

1- Composante calculatoire Data Clustering ou partitionnement de donneacutees

Deacutefinition

Meacutethode statistique danalyse des donneacutees qui a pour but de regrouper un ensemble de donneacutees en

diffeacuterents paquets homogegravenes chaque sous-ensemble partage des caracteacuteristiques communes qui

correspondent le plus souvent agrave des critegraveres de proximiteacute que lon deacutefinit en introduisant des mesures

de distance

Principe

Pour obtenir un bon partitionnement il convient de

bull minimiser linertie intra-classe pour obtenir des grappes (cluster en anglais) les plus homogegravenes

possibles

bull maximiser linertie inter-classe afin dobtenir des sous-ensembles bien diffeacuterencieacutes

Composition

Un cluster est composeacute de

bull une liste de mots-cleacutes

bull une liste dassociations internes

bull une liste dassociations externes

bull une eacutetiquette

bull une liste de documents affecteacutes apregraves la classification

30

Cartographie de linformation- Composantes des applications cartographiques

1- Composante calculatoire DataClustering

bull Lassociation la plus forte permet de creacuteer le premier cluster ici laquoa-braquo)

bull Une nouvelle association peut donner lieu agrave un laquoenrichissementraquo de cluster laquoa-eraquo vient

enrichir le cluster laquoa-braquo qui contient deacutejagrave laquoaraquo) ou agrave une creacuteation de nouveau cluster (laquoc-draquo par

exemple)

Deacutefinitions

Web mining Data mining appliqueacute aux donneacutees de navigation sur le web

Objectifs du web mining

1 Optimiser la navigation dans un site web (confort des internautes)

2 Augmenter le nombre de pages consulteacutees et lrsquoimpact des liens et des banniegraveres publicitaires

3 Deacuteceler les centres drsquointeacuterecirct et donc les attentes des internautes visitant le site

Types dAnalyses

Statistique descriptive

bull laquo 70 des internautes ont consulteacute 3 pages ou moins raquo

bull laquo 40 des internautes accegravedent au site sans passer par la page drsquoaccueil raquo

Deacutetection des regravegles drsquoassociation

bull laquo 20 des internautes visitant la page A visitent la page B dans la mecircme session raquo

Segmentation des internautes

bull Selon les sites de provenance les pages drsquoentreacutee le nombre de pages consulteacutees les fichiers teacuteleacutechargeacutes les pages de sortie etc

1- Composante calculatoire Web Mining

Cartographie de linformation- Composantes des applications cartographiques

31

32

Cartographie de linformation- Composantes des applications cartographiques

1- Composante calculatoire Web Social Data Mining

Hypothegravese documentaire

Web structureacute par des laquo localiteacutes theacutematiques raquo deacutefinies par une forte correacutelation entre

contenu des documents et proximiteacute hypertexte dessinant comme un territoire

Probleacutematique de la laquo traccedilabiliteacute raquo du socialbull Le web se preacutesente comme une matrice technique distribueacutee faccedilonneacutee par des usages dont

le reacuteseau garde la meacutemoire bull Le seul fait dutiliser une technologie numeacuterique contribue agrave produire des traces et agrave

grande eacutechelle elles constituent un reacuteservoir immense de donneacutees disponibles

Principes hubs et autoriteacutes (Kleinberg et al)

bull Autoriteacutes ensemble des pages contenant les meilleures sources drsquoinformation pour un

thegraveme donneacute

bull Hubs pages pointant sur les autoriteacutes

bull Le calcul ressemble au calcul drsquoimportance drsquoun article par nombre de citations (les liens

du Web vus comme des recommendations)

Applications

Sujets controverseacutes ougrave le seul lexique nest pas discriminant

33

Cartographie de linformation- Composantes des applications cartographiques

2- Composante visuelle

Eleacutements de seacutemiologie graphique (J Bertin) Theacuteorie de la Gestalt

34

Cartographie de linformation- Composantes des applications cartographiques

2- Composante visuelle Eleacutements de seacutemiologie graphique (J Bertin)

35

Cartographie de linformation- Composantes des applications cartographiques

2- Composante visuelle Eleacutements de seacutemiologie graphique (J Bertin)

Type de dessin Signification

des signes Description Exemple

Graphis

me

Image non-

figurative Panseacutemique

Le systegraveme srsquoouvre agrave toute

signification Tableau drsquoart

Image

figurative Polyseacutemique

Le systegraveme a pour objectif de

deacutefinir un concept ou une ideacutee

mais les interpreacutetations peuvent

diverger

Photographie

aeacuterienne

Graphique Monoseacutemique

Transcriptions de relations entre

des concepts preacutealablement

deacutefinis

Un

organigramme

36

Cartographie de linformation- Composantes des applications cartographiques

2- Composante visuelle Eleacutements de seacutemiologie graphique (J Bertin)

laquo La graphique est un systegraveme de signes [structures visuelles] qui permet de transcrire les

relations de diffeacuterence drsquoordre ou de proportionnaliteacute existant entre des donneacutees qualitatives ou

quantitatives raquo [Bonin 1997]

laquo La carte est une image graphique qui transcrit les relations de proportionnaliteacute ordre et

diffeacuterence par des variations proportionnelles ordonneacutees et diffeacuterentielles raquo

37

Cartographie de linformation- Composantes des applications cartographiques

2- Composante visuelle Eleacutements de seacutemiologie graphique (J Bertin)

38

Cartographie de linformation- Composantes des applications cartographiques

2- Composante visuelle Eleacutements de seacutemiologie graphique (J Bertin)

39

Cartographie de linformation- Composantes des applications cartographiques

2- Composante visuelle Eleacutements de seacutemiologie graphique (J Bertin)

40

Cartographie de linformation- Composantes des applications cartographiques

2- Composante visuelle Eleacutements de seacutemiologie graphique (J Bertin)

41

Cartographie de linformation- Composantes des applications cartographiques

2- Composante visuelle Eleacutements de seacutemiologie graphique (J Bertin)

Variables visuelles (laquo variables reacutetiniennes raquo)

Variation des proprieacuteteacutes graphiques des structures visuelles

42

Cartographie de linformation- Composantes des applications cartographiques

2- Composante visuelle Eleacutements de seacutemiologie graphique (J Bertin)

Variables visuelles

Cartographie de linformation- Composantes des applications cartographiques

2- Composante visuelle Eleacutements de seacutemiologie graphique (J Bertin)

43

44

Cartographie de linformation- Composantes des applications cartographiques

2- Composante visuelle Theacuteorie de la Gestalt (1890)

Principe

Le contexte est tregraves important dans la perception visuelle [Guillaume]

Les structures visuelles ne sont pas indeacutependantes les unes des autres et le contexte est

important pour la signification qui leur est attribueacutee

En graphique

La perception visuelle srsquoattache agrave reconnaicirctre des modegraveles dans un ensemble de structures

visuelles

De cette theacuteorie reacutesultent des lois correspondant agrave des cateacutegories drsquointeractions possibles entre

les structures visuelles

45

Cartographie de linformation- Composantes des applications cartographiques

Lois Effets Illustrations

Preacutegnance Une image est facile agrave comprendre si sa structure est simple et inversement

Proximiteacute Deux composants qui sont proches ont tendance agrave ecirctre perccedilus comme un

seul composant

Similariteacute Les composants similaires sont perccedilus comme srsquoils eacutetaient regroupeacutes

Fermeture Les contours proches sont perccedilus comme unifieacutes

Continuiteacute Des eacuteleacutements voisins sont perccedilus groupeacutes lorsqursquoils possegravedent

potentiellement un trait qui les relie

Symeacutetrie Des eacuteleacutements sont perccedilus comme un eacuteleacutement global lorsqursquoils forment une

symeacutetrie

Trajectoire identique Des eacuteleacutements qui se deacuteplacent avec la mecircme trajectoire semblent groupeacutes

Familiariteacute Des eacuteleacutements sont plus facilement groupables si le groupe est familier ou

significatif

46

Cartographie de linformation- Composantes des applications cartographiques

2- Composante visuelle Theacuteorie de la Gestalt (1890)

47

Cartographie de linformation- Composantes des applications cartographiques

2- Composante visuelle Conception drsquoun langage graphique (JB Lamy)

1- Analyser les informations ou connaissances que lrsquoon souhaite repreacutesenter

Determiner les attributs qui

deacutefinissent les termes agrave repreacutesenter

bull Par exemple pour repreacutesenter

des maladies les attributs pourraient

ecirctre la localisation anatomique

(cardiaque reacutenale) la seacuteveacuteriteacute etc

2- Associer agrave chaque attribut une variable

reacutetinienne pour le repreacutesenter

bull Par exemple pour les maladies

Associer lrsquoattribut localisation

anatomique agrave la variable

formepictogramme

bull Repreacutesenter la seacuteveacuteriteacute par la variable

couleur

3- Les relations entre les diffeacuterents termes

repreacutesenteacutes doivent ecirctre expliciteacutees

48

Cartographie de linformation

Famille doutils et contextes applicatifs

1- Famille doutils

Typologies

Aperccedilu

Travaux pratiques

2- Contextes applicatifs

Eleacutements deacutevaluation

Les perspectives de la cartographie seacutemantique

49

Cartographie de linformation- Famille doutils et contextes applicatifs

1- Famille doutils

Typologies

Aperccedilu

TP agrave partir de la seacutelection httpdeliciouscommylk02Stage_Carto

Et encore httpwwwvisualcomplexitycomvc (plus de 500 projets dans le domaine)

50

Cartographie de linformation- Famille doutils et contextes applicatifs

1- Famille doutils typologies

11- Typologie scientifique eacutetablie selon des critegraveres internes au domaine

bull les trois principaux paradigmes technique de visualisation type de donneacutees et type dinteraction (Keim

DA 2002)

bull la nature des donneacutees unidimensionnelles bidimensionnelles tridimensionnelles temporelles

multidimensionnelles hieacuterarchiques reacuteseaux (Shneiderman B 1996)

12- Etat de lart eacutevaluation - benchmarking typologie orienteacutee usages (veille et intelligence eacuteconomique)

Quelques exemples

Inist httpoutilsveilleinistfr

Esiee httpwwwaa-esieecomevent2005AGClaudeAschenbrennerppt

Ecole des Mines httpwwwdemoscienceorgresources

Commercial httpwwwk-praxiscom

Commercial httpwwwinformation-mininginfostate_of_art

Universitaire httpwell-formed-datanetthesis

13- Typologie cartographique

Quelques exemples de bloggers

bull Claude Aschenbrenner httpwwwserialmappercomarchive20070110la-pierre-de-rosette-de-la-

cartographie-de-l-informationhtml avec son mode demploi

bull Kartoo httpwwwmapdreamcom

51

Cartographie de linformation- Famille doutils et contextes applicatifs

1- Famille doutils typologie scientifique

52

Cartographie de linformation- Famille doutils orienteacutes laquo bibliothegraveques raquo

2- Les outils de navigation et de recherche sur Internet (seacutelection de Pierre Nobis)

A- Les navigateurs Nestor Navicrawler

53

Cartographie de linformation- Famille doutils orienteacutes laquo bibliothegraveques raquo

2- Les outils de navigation et de recherche sur Internet (seacutelection de Pierre Nobis)

B- Les outils de visualisation des reacutesultats PageBull ManagedQ

Bbis Les outils de visualisation de reacutesultats dans les actualiteacutes

repreacutesentation carreacutee Marumushi - Google NewsNewsIsFree - The Hive Group Tenbyten -flux RSS des sources drsquoactualiteacutes internationales

repreacutesentation sous forme de graphe

Silobreaker

54

Cartographie de linformation- Famille doutils orienteacutes laquo bibliothegraveques raquo

2- Les outils de navigation et de recherche sur Internet

B-Les outils de visualisation des reacutesultats TouchGraph application Java permettant de cartographier les reacutesultats issus

notamment de Google Amazon PubMed Alexa FaceBook

55

Cartographie de linformation- Famille doutils orienteacutes laquo bibliothegraveques raquo

2- Les outils de navigation et de recherche sur Internet (seacutelection de Pierre Nobis)

C- Les outils de recherche avec ajout de termes associeacutes dans une colonne regroupement theacutematique nuage de laquo tags raquo

D- Meacutetamoteurs avec affichage de clusters sous forme de listes

Carrot2 Clusty-Vivissimo Iboogie Polymeta Turbo10 Webclust

56

Cartographie de linformation- Famille doutils orienteacutes laquo bibliothegraveques raquo

2- Les outils de navigation et de recherche sur Internet (seacutelection de Pierre Nobis)

E- Meacutetamoteurs avec affichage de clusters sous forme graphique

E1- repreacutesentation centreacutee Allplus WebBrain

Allplus est un meacutetamoteur agrave clusteacuterisation graphique qui interroge les bases de Ask Google Yahoo et Livepar le biais de lrsquooutil Polymeta Lrsquointerface cluster graph permet de visualiser les reacutesultats sous une forme graphique

Webbrain permet de visualiser et drsquoaffiner les reacutesultats drsquoune requecircte issus de lrsquoOpen Directory Project

57

Cartographie de linformation- Famille doutils orienteacutes laquo bibliothegraveques raquo

2- Les outils de navigation et de recherche sur Internet (seacutelection de Pierre Nobis)

E- Meacutetamoteurs avec affichage de clusters sous forme graphique

E2- Repreacutesentation circulaire Grokker

E3- Repreacutesentation topographique TooLeNet srsquoappuie sur les technologies de KartOO et sur lrsquoindex de

Yahoo pour effectuer des recherches selon 3 modes moteur annuaire et carte auxquels srsquoajoutent des

options de personnalisation et de classification assez avanceacutees

58

Cartographie de linformation- Famille doutils orienteacutes laquo bibliothegraveques raquo

3- Les Outils graphiques dexploration

Wikimindmap est un outil drsquointerrogation

et de repreacutesentation des informations issues

de Wikipedia sous forme de carte heuristique

Visuwords est un dictionnaire en ligne

qui preacutesente ses reacutesultats sous forme de laquo grappes raquo

Il utilise la base de donneacutees Wordnet

Code couleur pour les diffeacuterentes relations

seacutemantiques hieacuterarchiques entre les termes

ainsi que les synonymes et les antonymes

59

Cartographie de linformation- Famille doutils orienteacutes laquo bibliothegraveques raquo

4- Les outils de creacuteation (carto)graphiqueA- Pour meacutemoire les logiciels de creacuteation de cartes heuristiques et conceptuelles

Cmaptools est un logiciel gratuit (usage eacuteducatif) de creacuteation de cartes conceptuelles

Freemind est un logiciel libre et gratuit qui permet de reacutealiser des cartes heuristiques

Thinkgraph est un logiciel gratuit de dessin 2D orienteacute vers la reacutealisation de cartes conceptuelles

60

Cartographie de linformation- Famille doutils orienteacutes laquo bibliothegraveques raquo

4- Les outils de creacuteation (carto)graphique

B- Les outils drsquoeacutedition de graphes

Guess est un logiciel libre et gratuit deacuteveloppeacute par Eytan Adar qui permet de visualiser des

graphes statiques Options de modification de certains attributs (taille couleur forme

algorithmes de positionnementhellip)

Pajek est un logiciel libre et gratuit (usage non commercial) deacuteveloppeacute par V Batagelj et A

Mrvar qui permet de traiter des donneacutees de reacuteseaux de grande taille Pajek signifie araigneacutee

en slovegravene

C- Les outils en ligne

ManyEye service collaboratif deacuteveloppeacute par IBM gracircce auquel on peut geacuteneacuterer selon un

des modegraveles proposeacutes sa propre visualisation de lrsquoinformation (apregraves avoir teacuteleacuteverseacute ses

propres donneacutees)

IssueCrawler outil de web social mining utilisable agrave distance (chargement des URL)

reacutecupeacuteration graphique

61

Cartographie de linformation- Famille doutils et contextes applicatifs

2- Contextes applicatifs

Eleacutements deacutevaluation

Les perspectives de la cartographie seacutemantique

62

Cartographie de linformation- Famille doutils et contextes applicatifs

2- Contextes applicatifs Eleacutements deacutevaluation

21- Evaluation scientifique

Question de meacutethode Eacutevaluation des Interfaces Utilisateur drsquoInformation Bonnel et Chevalier 2006

Objectif proposer une meacutethodologie deacutevaluation permettant de comparer du point de vue de la

visualisation des reacutesultats agrave une requecircte les outils de recherche Google Vivisimo Ujiko Grokker Kartoo

Vios SmartWeb (prototype)

Evaluation des repreacutesentations graphiques geacuteneacuteraliteacutes (Tricot et Roche 2006)

bull Arborescences simples

habitude des utilisateurs (explorateur de fichiers informatiques) pas de problegravemes avec volume limiteacute

au-delagrave drsquoune certaine quantiteacute drsquoinformation les arborescences deviennent inefficaces

bull Arbres de cocircnes en 3D

posent des problegravemes agrave lrsquoutilisateur qui nrsquoa pas lrsquohabitude des espaces en 3D

effort cognitif plus eacuteleveacute et prise en main plus longue

bull Arbres hyperboliques

problegravemes des eacutetiquettes des eacuteleacutements (occlusion)

effet de zoom impreacutevisible

Lrsquoune des conclusions une seule visualisation ne permet pas de reacutepondre agrave toutes les questions

multiplier les possibiliteacutes de visualisation

63

Cartographie de linformation- Famille doutils et contextes applicatifs

2- Contextes applicatifs Eleacutements deacutevaluation

21- Evaluation scientifique doctorat en cours agrave lrsquoEBSI (Aline Creacutedeville)

bull Contexte visualisation de lrsquoinformation dans le contexte de recherche drsquoinformation

bull Point de vue de la seacutemiologie graphique

o principes les plus couramment utiliseacutes sont la proximiteacute (Grokker) lrsquoenglobage (Kartoo)

et la connectiviteacute (Auquabrowser)

omeacutetaphores visuelles pas toujours adeacutequates au web

bull Reacutesultats

o lrsquoinformation doit ecirctre structureacutee

o apports possible pour lrsquoexploration mais pas pour la recherche

64

Cartographie de linformation- Famille doutils et contextes applicatifs

2- Contextes applicatifs Eleacutements deacutevaluation

22- Evaluation en contexte dusage de recherche dinformations (Ciaccia Ihadjadene Martins 2006)

Objectif analyse de lrsquoinfluence du mode de preacutesentation des informations sur les processus cognitifs mis

en jeu par lrsquoutilisateur dans lrsquoactiviteacute de recherche drsquoinformations sur Internet

Outils eacutevalueacutes Kartoo (pour 18 usagers) et Mapstan (pour 16 usagers)

Principaux reacutesultats

Coucirct cognitif sans pour autant conduire agrave de meilleures performances (comparaison avec une

preacutesentation en liste)

Hypothegravese nouveauteacute de la preacutesentation versus habitude des preacutesentations verbales

Strateacutegie optimiseacutee preacuteciser la requecircte drsquoune recherche agrave but flou et se concentrer sur les informations

relieacutees agrave lrsquoobjectif de la question versus informations non relieacutees

Le sens de la visualisation doit ecirctre clarifieacute les systegravemes doivent faciliter la compreacutehension des

eacuteleacutements visualiseacutes

65

Cartographie de linformation- Famille doutils et contextes applicatifs

2- Contextes applicatifs Les perspectives de la cartographie seacutemantique (C Tricot de la seacutemantique agrave la carte)

Pour reacutesoudre la probleacutematique de la repreacutesentation de lrsquoinformation la visualisation de

lrsquoinformation seule ne suffit pas

La visualisation de lrsquoinformation permet uniquement de preacutesenter des donneacutees en leur

associant une repreacutesentation graphique

La cartographie seacutemantique se veut

Une meacutethode de cartographie reposant sur la seacutemantique dun domaine

Un processus de production de connaissances

donneacutees brutes -gt donneacutees structureacutees -gt donneacutees repreacutesenteacutees -gt donneacutees visualiseacutees

Un formalisme de description type Reacuteseaux seacutemantiques

Un langage de description cartographique

Une architecture multi-agents

66

Cartographie de linformation- Famille doutils et contextes applicatifs

2- Contextes applicatifs Les perspectives de la cartographie seacutemantique (C Tricot de la seacutemantique agrave la carte)

67

Cartographie de linformation- Famille doutils et contextes applicatifs

2- Contextes applicatifs Les perspectives de la cartographie seacutemantique

ldquoUne bonne structure repreacutesentative graphique pour un arbre de donneacutees est celle qui deacuteforme le moins les similitudes originales entre les uniteacutes de donneacutees (similitudes qui sont donneacutes par loutil de classification) ou en dautres termes deux individus (ou classes) qui sont proches lune de lautre le restent aussi possible que peut apregraves projection dans l`espace de visualisation et ceci doit ecirctre eacutevident(et veacuterifiable par une mesure de calcul de divergence) dans lenvironnement de visualisation ldquo Tricot 2006

Page 13: Cartographie de l'information- Composantes des - Urfist de Paris

13

Cartographie de linformation- Introduction

5- Ancrage disciplinaire seacutemiologie graphique sciences cognitives gestion des connaissances (statistiques et intelligence artificielle)

14

Cartographie de linformation- Composantes des applications cartographiques

1- Composante calculatoire Data Mining

Terminologie

Forage de donneacutees -gt fouille de donneacutees -gt exploration de donneacutees -gt extraction de connaissances agrave partir de donneacutees (ECD)

Deacutefinitions

Scientifique

Processus non-trivial drsquoidentification de structures inconnues valides et potentiellement

exploitables dans les bases de donneacutees (Fayyad1996)

Meacutethodologique

Algorithmes et meacutethodes destineacutes agrave lrsquoexploration et lrsquoanalyse de grandes bases de donneacutees

informatiques en vue de deacutetecter dans ces donneacutees des regravegles des associations des

tendances inconnues (non fixeacutees a priori) des structures particuliegraveres restituant de faccedilon

concise lrsquoessentiel de lrsquoinformation utile pour lrsquoaide agrave la deacutecision

15

Cartographie de linformation- Composantes des applications cartographiques

1- Composante calculatoire Data Mining

Speacutecificiteacutes

Se distingue de lanalyse de donneacutees et de la statistique par les points suivants

ne neacutecessite pas dhypothegravese de deacutepart cest des donneacutees elles-mecircmes que se deacutegageront les correacutelations inteacuteressantes (exemples historiques des tickets de caisse)

les connaissances extraites par le Data Mining ont vocation agrave ecirctre inteacutegreacutees dans un scheacutema

organisationnel

les donneacutees traiteacutees sont issues des systegravemes de stockage en place dans lorganisation

-gt Le data mining fait passer drsquoanalyses confirmatoires agrave des analyses exploratoires

Techniques

Les techniques descriptives visent agrave mettre en eacutevidence des informations preacutesentes mais cacheacutees

par le volume des donneacutees cas des recherches drsquoassociations -gt il nrsquoy a pas de variable laquo cible raquo agrave

preacutedire

Les techniques preacutedictives visent agrave extrapoler de nouvelles informations agrave partir des informations

preacutesentes (cas du scoring) -gt il y a une variable laquo cible raquo agrave preacutedire

16

Cartographie de linformation- Composantes des applications cartographiques

1- Composante calculatoire Data Mining

Meacutethodes Deacutefinition Usages Techniques (liste indicative)

Non superviseacutees Sans variable cible Pour deacutegager dun ensemble

dindividus des groupes homogegravenes

Ex typologie

Techniques agrave base de

reacuteseau de neurones

Classification ascendante

hieacuterarchique

Recherche dassociations

Superviseacutees Avec variable cible Pour expliquer etou preacutevoir un ou

plusieurs pheacutenomegravenes observables

et effectivement mesureacutes

Ex filtrage collaboratif

classifications

Techniques agrave base

darbres de deacutecision

Techniques agrave base de

reacuteseau de neurones

Reacuteduction de

donneacutees

Utiliseacutee en amont des

autres meacutethodes

Permettent de reacuteduire un ensemble

de donneacutees volumineux agrave un

ensemble de taille plus reacuteduite

eacutepureacute de ce que lon consideacuterera

comme de linformation non

pertinente ou non signifiante

comme du bruit

Techniques danalyse

factorielle type AFC

17

Cartographie de linformation- Composantes des applications cartographiques

1- Composante calculatoire Data Mining exemples

Classification Affecter un objet agrave une classe en fonction de ses caracteacuteristiques A1hellipAn

Exemples

Deacuteterminer si un message est un mail de SPAM ou non (2 classes)

Affecter une page web dans une des cateacutegories theacutematiques dun annuaire (multi-classes)

Meacutethode

Si pas de theacuteorie pour deacutefinir la classe en fonction de A1hellipAn alors on eacutetudie un ensemble

drsquoexemples pour lesquels on connaicirct A1hellipAn et la classe associeacutee et on construit un

modegravele

Classe = f(A1hellipAn)

Techniques

Analyse discriminante

Arbre de classification

Reacuteseaux de neurones

18

Cartographie de linformation- Composantes des applications cartographiques

1- Composante calculatoire Reacuteseau de neurones

Principe

Un neurone est une uniteacute de calcul eacuteleacutementaire combine des entreacutees x1x

nen une sortie o

Les entreacutees nont pas toutes la mecircme importance agrave chaque entreacutee xiest associeacute un poids (ou coefficient

synaptique) wi

Luniteacute calcule dabord lactiviteacute dentreacutee (somme pondeacutereacutee des entreacutees)

Coefficients synaptiques

Sont calculeacutes non a priori mais sur la base des valeurs disponibles principe fondamental de

lrsquoapprentissage

Apprendre crsquoest calculer les valeurs des coefficients synaptiques en fonction des exemples disponibles

Algorithme laquo drsquoentraicircnement raquo modifie les poids synaptiques en fonction drsquoun jeu de donneacutees

preacutesenteacutee en entreacutee du reacuteseau

Geacuteneacuteraliser

Lrsquointeacuterecirct des reacuteseaux de neurones reacuteside dans leur capaciteacute agrave geacuteneacuteraliser agrave partir du jeu de test

19

Illustration du reacuteseau de neurones

20

Cartographie de linformation- Composantes des applications cartographiques

1- Composante calculatoire Text Mining

DeacutefinitionProceacutedeacute consistant agrave syntheacutetiser (classer structurer reacutesumer hellip) les textes en analysant les relations les patterns

et les regravegles entre uniteacutes textuelles (mots groupes phrases documents)

Du Data Mining au Text Mining

Ajout de la lexicomeacutetrie

Comme en Data Mining on trouve en Text Mining

des algorithmes descriptifs recherche des thegravemes abordeacutes dans un ensemble (corpus) de documents sans

connaicirctre agrave lrsquoavance ces thegravemes

des algorithmes preacutedictifs recherche des regravegles permettant drsquoaffecter automatiquement un document agrave un

thegraveme parmi plusieurs thegravemes preacutedeacutefinis

Application des techniques de Data mining

Individus = documents

Caractegraveres des individus = thegravemestermes des documents

21

Text Mining Data Mining

Impleacutementation vaste

degraves 2000

Impleacutementation vaste

degraves 1994Maturiteacute

milliersmilliers Dimension

complexesimpleRepreacutesentation

non-structureacutestructureacuteStructure

textuelnumeacuterique amp

cateacutegorique Objet

Text MiningData Mining

22

Vue simplifieacutee du Text Mining

23

Analyse lexicomeacutetrique

Eliminer les mots vides Deacutecouper les textes en uniteacutes Lemmatiser Reacuteduire le nombre de termes agrave traiter

24

Anayse statistique

25

Term frequency (TF)

Un terme qui apparait plusieurs fois dans un document est plus

important qursquoun terme qui apparaicirct une seule fois

wij = Nombre drsquooccurrences du terme ti dans le document dj

TFij = Freacutequence du terme ti dans le document dj

j

ij

d

wTF

ij

26

Inverse document frequency (IDF)

Un terme qui apparaicirct dans peu de documents est un meilleur discriminant qursquoun terme qui apparaicirct dans tous les documents

bull dfi = nombre de documents contenant le terme ti

bull d = nombre de documents du corpus

Inverse document frequency

i

i

df

dIDF log

27

Pondeacuteration TF-IDF

TF-IDF signifie Term Frequency x Inverse Document

Frequency

bull Proposeacutee par [Salton 1989] mesure limportance drsquoun terme

dans un document relativement agrave lrsquoensemble des documents

bull tf ij = freacutequence du terme i dans le document j

df i = nombre de documents contenant le terme i

N = d = nombre de documents du corpus

28

Similariteacute entre documents

Permet de ranger les

documents par pertinence

Le cosinus de lrsquoangle est

souvent utiliseacute

2d1d

2dT

1d2d1d )cos(

bull gt cos( )ltcos( )

bull d2 est plus proche de d1que de d3

29

Cartographie de linformation- Composantes des applications cartographiques

1- Composante calculatoire Data Clustering ou partitionnement de donneacutees

Deacutefinition

Meacutethode statistique danalyse des donneacutees qui a pour but de regrouper un ensemble de donneacutees en

diffeacuterents paquets homogegravenes chaque sous-ensemble partage des caracteacuteristiques communes qui

correspondent le plus souvent agrave des critegraveres de proximiteacute que lon deacutefinit en introduisant des mesures

de distance

Principe

Pour obtenir un bon partitionnement il convient de

bull minimiser linertie intra-classe pour obtenir des grappes (cluster en anglais) les plus homogegravenes

possibles

bull maximiser linertie inter-classe afin dobtenir des sous-ensembles bien diffeacuterencieacutes

Composition

Un cluster est composeacute de

bull une liste de mots-cleacutes

bull une liste dassociations internes

bull une liste dassociations externes

bull une eacutetiquette

bull une liste de documents affecteacutes apregraves la classification

30

Cartographie de linformation- Composantes des applications cartographiques

1- Composante calculatoire DataClustering

bull Lassociation la plus forte permet de creacuteer le premier cluster ici laquoa-braquo)

bull Une nouvelle association peut donner lieu agrave un laquoenrichissementraquo de cluster laquoa-eraquo vient

enrichir le cluster laquoa-braquo qui contient deacutejagrave laquoaraquo) ou agrave une creacuteation de nouveau cluster (laquoc-draquo par

exemple)

Deacutefinitions

Web mining Data mining appliqueacute aux donneacutees de navigation sur le web

Objectifs du web mining

1 Optimiser la navigation dans un site web (confort des internautes)

2 Augmenter le nombre de pages consulteacutees et lrsquoimpact des liens et des banniegraveres publicitaires

3 Deacuteceler les centres drsquointeacuterecirct et donc les attentes des internautes visitant le site

Types dAnalyses

Statistique descriptive

bull laquo 70 des internautes ont consulteacute 3 pages ou moins raquo

bull laquo 40 des internautes accegravedent au site sans passer par la page drsquoaccueil raquo

Deacutetection des regravegles drsquoassociation

bull laquo 20 des internautes visitant la page A visitent la page B dans la mecircme session raquo

Segmentation des internautes

bull Selon les sites de provenance les pages drsquoentreacutee le nombre de pages consulteacutees les fichiers teacuteleacutechargeacutes les pages de sortie etc

1- Composante calculatoire Web Mining

Cartographie de linformation- Composantes des applications cartographiques

31

32

Cartographie de linformation- Composantes des applications cartographiques

1- Composante calculatoire Web Social Data Mining

Hypothegravese documentaire

Web structureacute par des laquo localiteacutes theacutematiques raquo deacutefinies par une forte correacutelation entre

contenu des documents et proximiteacute hypertexte dessinant comme un territoire

Probleacutematique de la laquo traccedilabiliteacute raquo du socialbull Le web se preacutesente comme une matrice technique distribueacutee faccedilonneacutee par des usages dont

le reacuteseau garde la meacutemoire bull Le seul fait dutiliser une technologie numeacuterique contribue agrave produire des traces et agrave

grande eacutechelle elles constituent un reacuteservoir immense de donneacutees disponibles

Principes hubs et autoriteacutes (Kleinberg et al)

bull Autoriteacutes ensemble des pages contenant les meilleures sources drsquoinformation pour un

thegraveme donneacute

bull Hubs pages pointant sur les autoriteacutes

bull Le calcul ressemble au calcul drsquoimportance drsquoun article par nombre de citations (les liens

du Web vus comme des recommendations)

Applications

Sujets controverseacutes ougrave le seul lexique nest pas discriminant

33

Cartographie de linformation- Composantes des applications cartographiques

2- Composante visuelle

Eleacutements de seacutemiologie graphique (J Bertin) Theacuteorie de la Gestalt

34

Cartographie de linformation- Composantes des applications cartographiques

2- Composante visuelle Eleacutements de seacutemiologie graphique (J Bertin)

35

Cartographie de linformation- Composantes des applications cartographiques

2- Composante visuelle Eleacutements de seacutemiologie graphique (J Bertin)

Type de dessin Signification

des signes Description Exemple

Graphis

me

Image non-

figurative Panseacutemique

Le systegraveme srsquoouvre agrave toute

signification Tableau drsquoart

Image

figurative Polyseacutemique

Le systegraveme a pour objectif de

deacutefinir un concept ou une ideacutee

mais les interpreacutetations peuvent

diverger

Photographie

aeacuterienne

Graphique Monoseacutemique

Transcriptions de relations entre

des concepts preacutealablement

deacutefinis

Un

organigramme

36

Cartographie de linformation- Composantes des applications cartographiques

2- Composante visuelle Eleacutements de seacutemiologie graphique (J Bertin)

laquo La graphique est un systegraveme de signes [structures visuelles] qui permet de transcrire les

relations de diffeacuterence drsquoordre ou de proportionnaliteacute existant entre des donneacutees qualitatives ou

quantitatives raquo [Bonin 1997]

laquo La carte est une image graphique qui transcrit les relations de proportionnaliteacute ordre et

diffeacuterence par des variations proportionnelles ordonneacutees et diffeacuterentielles raquo

37

Cartographie de linformation- Composantes des applications cartographiques

2- Composante visuelle Eleacutements de seacutemiologie graphique (J Bertin)

38

Cartographie de linformation- Composantes des applications cartographiques

2- Composante visuelle Eleacutements de seacutemiologie graphique (J Bertin)

39

Cartographie de linformation- Composantes des applications cartographiques

2- Composante visuelle Eleacutements de seacutemiologie graphique (J Bertin)

40

Cartographie de linformation- Composantes des applications cartographiques

2- Composante visuelle Eleacutements de seacutemiologie graphique (J Bertin)

41

Cartographie de linformation- Composantes des applications cartographiques

2- Composante visuelle Eleacutements de seacutemiologie graphique (J Bertin)

Variables visuelles (laquo variables reacutetiniennes raquo)

Variation des proprieacuteteacutes graphiques des structures visuelles

42

Cartographie de linformation- Composantes des applications cartographiques

2- Composante visuelle Eleacutements de seacutemiologie graphique (J Bertin)

Variables visuelles

Cartographie de linformation- Composantes des applications cartographiques

2- Composante visuelle Eleacutements de seacutemiologie graphique (J Bertin)

43

44

Cartographie de linformation- Composantes des applications cartographiques

2- Composante visuelle Theacuteorie de la Gestalt (1890)

Principe

Le contexte est tregraves important dans la perception visuelle [Guillaume]

Les structures visuelles ne sont pas indeacutependantes les unes des autres et le contexte est

important pour la signification qui leur est attribueacutee

En graphique

La perception visuelle srsquoattache agrave reconnaicirctre des modegraveles dans un ensemble de structures

visuelles

De cette theacuteorie reacutesultent des lois correspondant agrave des cateacutegories drsquointeractions possibles entre

les structures visuelles

45

Cartographie de linformation- Composantes des applications cartographiques

Lois Effets Illustrations

Preacutegnance Une image est facile agrave comprendre si sa structure est simple et inversement

Proximiteacute Deux composants qui sont proches ont tendance agrave ecirctre perccedilus comme un

seul composant

Similariteacute Les composants similaires sont perccedilus comme srsquoils eacutetaient regroupeacutes

Fermeture Les contours proches sont perccedilus comme unifieacutes

Continuiteacute Des eacuteleacutements voisins sont perccedilus groupeacutes lorsqursquoils possegravedent

potentiellement un trait qui les relie

Symeacutetrie Des eacuteleacutements sont perccedilus comme un eacuteleacutement global lorsqursquoils forment une

symeacutetrie

Trajectoire identique Des eacuteleacutements qui se deacuteplacent avec la mecircme trajectoire semblent groupeacutes

Familiariteacute Des eacuteleacutements sont plus facilement groupables si le groupe est familier ou

significatif

46

Cartographie de linformation- Composantes des applications cartographiques

2- Composante visuelle Theacuteorie de la Gestalt (1890)

47

Cartographie de linformation- Composantes des applications cartographiques

2- Composante visuelle Conception drsquoun langage graphique (JB Lamy)

1- Analyser les informations ou connaissances que lrsquoon souhaite repreacutesenter

Determiner les attributs qui

deacutefinissent les termes agrave repreacutesenter

bull Par exemple pour repreacutesenter

des maladies les attributs pourraient

ecirctre la localisation anatomique

(cardiaque reacutenale) la seacuteveacuteriteacute etc

2- Associer agrave chaque attribut une variable

reacutetinienne pour le repreacutesenter

bull Par exemple pour les maladies

Associer lrsquoattribut localisation

anatomique agrave la variable

formepictogramme

bull Repreacutesenter la seacuteveacuteriteacute par la variable

couleur

3- Les relations entre les diffeacuterents termes

repreacutesenteacutes doivent ecirctre expliciteacutees

48

Cartographie de linformation

Famille doutils et contextes applicatifs

1- Famille doutils

Typologies

Aperccedilu

Travaux pratiques

2- Contextes applicatifs

Eleacutements deacutevaluation

Les perspectives de la cartographie seacutemantique

49

Cartographie de linformation- Famille doutils et contextes applicatifs

1- Famille doutils

Typologies

Aperccedilu

TP agrave partir de la seacutelection httpdeliciouscommylk02Stage_Carto

Et encore httpwwwvisualcomplexitycomvc (plus de 500 projets dans le domaine)

50

Cartographie de linformation- Famille doutils et contextes applicatifs

1- Famille doutils typologies

11- Typologie scientifique eacutetablie selon des critegraveres internes au domaine

bull les trois principaux paradigmes technique de visualisation type de donneacutees et type dinteraction (Keim

DA 2002)

bull la nature des donneacutees unidimensionnelles bidimensionnelles tridimensionnelles temporelles

multidimensionnelles hieacuterarchiques reacuteseaux (Shneiderman B 1996)

12- Etat de lart eacutevaluation - benchmarking typologie orienteacutee usages (veille et intelligence eacuteconomique)

Quelques exemples

Inist httpoutilsveilleinistfr

Esiee httpwwwaa-esieecomevent2005AGClaudeAschenbrennerppt

Ecole des Mines httpwwwdemoscienceorgresources

Commercial httpwwwk-praxiscom

Commercial httpwwwinformation-mininginfostate_of_art

Universitaire httpwell-formed-datanetthesis

13- Typologie cartographique

Quelques exemples de bloggers

bull Claude Aschenbrenner httpwwwserialmappercomarchive20070110la-pierre-de-rosette-de-la-

cartographie-de-l-informationhtml avec son mode demploi

bull Kartoo httpwwwmapdreamcom

51

Cartographie de linformation- Famille doutils et contextes applicatifs

1- Famille doutils typologie scientifique

52

Cartographie de linformation- Famille doutils orienteacutes laquo bibliothegraveques raquo

2- Les outils de navigation et de recherche sur Internet (seacutelection de Pierre Nobis)

A- Les navigateurs Nestor Navicrawler

53

Cartographie de linformation- Famille doutils orienteacutes laquo bibliothegraveques raquo

2- Les outils de navigation et de recherche sur Internet (seacutelection de Pierre Nobis)

B- Les outils de visualisation des reacutesultats PageBull ManagedQ

Bbis Les outils de visualisation de reacutesultats dans les actualiteacutes

repreacutesentation carreacutee Marumushi - Google NewsNewsIsFree - The Hive Group Tenbyten -flux RSS des sources drsquoactualiteacutes internationales

repreacutesentation sous forme de graphe

Silobreaker

54

Cartographie de linformation- Famille doutils orienteacutes laquo bibliothegraveques raquo

2- Les outils de navigation et de recherche sur Internet

B-Les outils de visualisation des reacutesultats TouchGraph application Java permettant de cartographier les reacutesultats issus

notamment de Google Amazon PubMed Alexa FaceBook

55

Cartographie de linformation- Famille doutils orienteacutes laquo bibliothegraveques raquo

2- Les outils de navigation et de recherche sur Internet (seacutelection de Pierre Nobis)

C- Les outils de recherche avec ajout de termes associeacutes dans une colonne regroupement theacutematique nuage de laquo tags raquo

D- Meacutetamoteurs avec affichage de clusters sous forme de listes

Carrot2 Clusty-Vivissimo Iboogie Polymeta Turbo10 Webclust

56

Cartographie de linformation- Famille doutils orienteacutes laquo bibliothegraveques raquo

2- Les outils de navigation et de recherche sur Internet (seacutelection de Pierre Nobis)

E- Meacutetamoteurs avec affichage de clusters sous forme graphique

E1- repreacutesentation centreacutee Allplus WebBrain

Allplus est un meacutetamoteur agrave clusteacuterisation graphique qui interroge les bases de Ask Google Yahoo et Livepar le biais de lrsquooutil Polymeta Lrsquointerface cluster graph permet de visualiser les reacutesultats sous une forme graphique

Webbrain permet de visualiser et drsquoaffiner les reacutesultats drsquoune requecircte issus de lrsquoOpen Directory Project

57

Cartographie de linformation- Famille doutils orienteacutes laquo bibliothegraveques raquo

2- Les outils de navigation et de recherche sur Internet (seacutelection de Pierre Nobis)

E- Meacutetamoteurs avec affichage de clusters sous forme graphique

E2- Repreacutesentation circulaire Grokker

E3- Repreacutesentation topographique TooLeNet srsquoappuie sur les technologies de KartOO et sur lrsquoindex de

Yahoo pour effectuer des recherches selon 3 modes moteur annuaire et carte auxquels srsquoajoutent des

options de personnalisation et de classification assez avanceacutees

58

Cartographie de linformation- Famille doutils orienteacutes laquo bibliothegraveques raquo

3- Les Outils graphiques dexploration

Wikimindmap est un outil drsquointerrogation

et de repreacutesentation des informations issues

de Wikipedia sous forme de carte heuristique

Visuwords est un dictionnaire en ligne

qui preacutesente ses reacutesultats sous forme de laquo grappes raquo

Il utilise la base de donneacutees Wordnet

Code couleur pour les diffeacuterentes relations

seacutemantiques hieacuterarchiques entre les termes

ainsi que les synonymes et les antonymes

59

Cartographie de linformation- Famille doutils orienteacutes laquo bibliothegraveques raquo

4- Les outils de creacuteation (carto)graphiqueA- Pour meacutemoire les logiciels de creacuteation de cartes heuristiques et conceptuelles

Cmaptools est un logiciel gratuit (usage eacuteducatif) de creacuteation de cartes conceptuelles

Freemind est un logiciel libre et gratuit qui permet de reacutealiser des cartes heuristiques

Thinkgraph est un logiciel gratuit de dessin 2D orienteacute vers la reacutealisation de cartes conceptuelles

60

Cartographie de linformation- Famille doutils orienteacutes laquo bibliothegraveques raquo

4- Les outils de creacuteation (carto)graphique

B- Les outils drsquoeacutedition de graphes

Guess est un logiciel libre et gratuit deacuteveloppeacute par Eytan Adar qui permet de visualiser des

graphes statiques Options de modification de certains attributs (taille couleur forme

algorithmes de positionnementhellip)

Pajek est un logiciel libre et gratuit (usage non commercial) deacuteveloppeacute par V Batagelj et A

Mrvar qui permet de traiter des donneacutees de reacuteseaux de grande taille Pajek signifie araigneacutee

en slovegravene

C- Les outils en ligne

ManyEye service collaboratif deacuteveloppeacute par IBM gracircce auquel on peut geacuteneacuterer selon un

des modegraveles proposeacutes sa propre visualisation de lrsquoinformation (apregraves avoir teacuteleacuteverseacute ses

propres donneacutees)

IssueCrawler outil de web social mining utilisable agrave distance (chargement des URL)

reacutecupeacuteration graphique

61

Cartographie de linformation- Famille doutils et contextes applicatifs

2- Contextes applicatifs

Eleacutements deacutevaluation

Les perspectives de la cartographie seacutemantique

62

Cartographie de linformation- Famille doutils et contextes applicatifs

2- Contextes applicatifs Eleacutements deacutevaluation

21- Evaluation scientifique

Question de meacutethode Eacutevaluation des Interfaces Utilisateur drsquoInformation Bonnel et Chevalier 2006

Objectif proposer une meacutethodologie deacutevaluation permettant de comparer du point de vue de la

visualisation des reacutesultats agrave une requecircte les outils de recherche Google Vivisimo Ujiko Grokker Kartoo

Vios SmartWeb (prototype)

Evaluation des repreacutesentations graphiques geacuteneacuteraliteacutes (Tricot et Roche 2006)

bull Arborescences simples

habitude des utilisateurs (explorateur de fichiers informatiques) pas de problegravemes avec volume limiteacute

au-delagrave drsquoune certaine quantiteacute drsquoinformation les arborescences deviennent inefficaces

bull Arbres de cocircnes en 3D

posent des problegravemes agrave lrsquoutilisateur qui nrsquoa pas lrsquohabitude des espaces en 3D

effort cognitif plus eacuteleveacute et prise en main plus longue

bull Arbres hyperboliques

problegravemes des eacutetiquettes des eacuteleacutements (occlusion)

effet de zoom impreacutevisible

Lrsquoune des conclusions une seule visualisation ne permet pas de reacutepondre agrave toutes les questions

multiplier les possibiliteacutes de visualisation

63

Cartographie de linformation- Famille doutils et contextes applicatifs

2- Contextes applicatifs Eleacutements deacutevaluation

21- Evaluation scientifique doctorat en cours agrave lrsquoEBSI (Aline Creacutedeville)

bull Contexte visualisation de lrsquoinformation dans le contexte de recherche drsquoinformation

bull Point de vue de la seacutemiologie graphique

o principes les plus couramment utiliseacutes sont la proximiteacute (Grokker) lrsquoenglobage (Kartoo)

et la connectiviteacute (Auquabrowser)

omeacutetaphores visuelles pas toujours adeacutequates au web

bull Reacutesultats

o lrsquoinformation doit ecirctre structureacutee

o apports possible pour lrsquoexploration mais pas pour la recherche

64

Cartographie de linformation- Famille doutils et contextes applicatifs

2- Contextes applicatifs Eleacutements deacutevaluation

22- Evaluation en contexte dusage de recherche dinformations (Ciaccia Ihadjadene Martins 2006)

Objectif analyse de lrsquoinfluence du mode de preacutesentation des informations sur les processus cognitifs mis

en jeu par lrsquoutilisateur dans lrsquoactiviteacute de recherche drsquoinformations sur Internet

Outils eacutevalueacutes Kartoo (pour 18 usagers) et Mapstan (pour 16 usagers)

Principaux reacutesultats

Coucirct cognitif sans pour autant conduire agrave de meilleures performances (comparaison avec une

preacutesentation en liste)

Hypothegravese nouveauteacute de la preacutesentation versus habitude des preacutesentations verbales

Strateacutegie optimiseacutee preacuteciser la requecircte drsquoune recherche agrave but flou et se concentrer sur les informations

relieacutees agrave lrsquoobjectif de la question versus informations non relieacutees

Le sens de la visualisation doit ecirctre clarifieacute les systegravemes doivent faciliter la compreacutehension des

eacuteleacutements visualiseacutes

65

Cartographie de linformation- Famille doutils et contextes applicatifs

2- Contextes applicatifs Les perspectives de la cartographie seacutemantique (C Tricot de la seacutemantique agrave la carte)

Pour reacutesoudre la probleacutematique de la repreacutesentation de lrsquoinformation la visualisation de

lrsquoinformation seule ne suffit pas

La visualisation de lrsquoinformation permet uniquement de preacutesenter des donneacutees en leur

associant une repreacutesentation graphique

La cartographie seacutemantique se veut

Une meacutethode de cartographie reposant sur la seacutemantique dun domaine

Un processus de production de connaissances

donneacutees brutes -gt donneacutees structureacutees -gt donneacutees repreacutesenteacutees -gt donneacutees visualiseacutees

Un formalisme de description type Reacuteseaux seacutemantiques

Un langage de description cartographique

Une architecture multi-agents

66

Cartographie de linformation- Famille doutils et contextes applicatifs

2- Contextes applicatifs Les perspectives de la cartographie seacutemantique (C Tricot de la seacutemantique agrave la carte)

67

Cartographie de linformation- Famille doutils et contextes applicatifs

2- Contextes applicatifs Les perspectives de la cartographie seacutemantique

ldquoUne bonne structure repreacutesentative graphique pour un arbre de donneacutees est celle qui deacuteforme le moins les similitudes originales entre les uniteacutes de donneacutees (similitudes qui sont donneacutes par loutil de classification) ou en dautres termes deux individus (ou classes) qui sont proches lune de lautre le restent aussi possible que peut apregraves projection dans l`espace de visualisation et ceci doit ecirctre eacutevident(et veacuterifiable par une mesure de calcul de divergence) dans lenvironnement de visualisation ldquo Tricot 2006

Page 14: Cartographie de l'information- Composantes des - Urfist de Paris

14

Cartographie de linformation- Composantes des applications cartographiques

1- Composante calculatoire Data Mining

Terminologie

Forage de donneacutees -gt fouille de donneacutees -gt exploration de donneacutees -gt extraction de connaissances agrave partir de donneacutees (ECD)

Deacutefinitions

Scientifique

Processus non-trivial drsquoidentification de structures inconnues valides et potentiellement

exploitables dans les bases de donneacutees (Fayyad1996)

Meacutethodologique

Algorithmes et meacutethodes destineacutes agrave lrsquoexploration et lrsquoanalyse de grandes bases de donneacutees

informatiques en vue de deacutetecter dans ces donneacutees des regravegles des associations des

tendances inconnues (non fixeacutees a priori) des structures particuliegraveres restituant de faccedilon

concise lrsquoessentiel de lrsquoinformation utile pour lrsquoaide agrave la deacutecision

15

Cartographie de linformation- Composantes des applications cartographiques

1- Composante calculatoire Data Mining

Speacutecificiteacutes

Se distingue de lanalyse de donneacutees et de la statistique par les points suivants

ne neacutecessite pas dhypothegravese de deacutepart cest des donneacutees elles-mecircmes que se deacutegageront les correacutelations inteacuteressantes (exemples historiques des tickets de caisse)

les connaissances extraites par le Data Mining ont vocation agrave ecirctre inteacutegreacutees dans un scheacutema

organisationnel

les donneacutees traiteacutees sont issues des systegravemes de stockage en place dans lorganisation

-gt Le data mining fait passer drsquoanalyses confirmatoires agrave des analyses exploratoires

Techniques

Les techniques descriptives visent agrave mettre en eacutevidence des informations preacutesentes mais cacheacutees

par le volume des donneacutees cas des recherches drsquoassociations -gt il nrsquoy a pas de variable laquo cible raquo agrave

preacutedire

Les techniques preacutedictives visent agrave extrapoler de nouvelles informations agrave partir des informations

preacutesentes (cas du scoring) -gt il y a une variable laquo cible raquo agrave preacutedire

16

Cartographie de linformation- Composantes des applications cartographiques

1- Composante calculatoire Data Mining

Meacutethodes Deacutefinition Usages Techniques (liste indicative)

Non superviseacutees Sans variable cible Pour deacutegager dun ensemble

dindividus des groupes homogegravenes

Ex typologie

Techniques agrave base de

reacuteseau de neurones

Classification ascendante

hieacuterarchique

Recherche dassociations

Superviseacutees Avec variable cible Pour expliquer etou preacutevoir un ou

plusieurs pheacutenomegravenes observables

et effectivement mesureacutes

Ex filtrage collaboratif

classifications

Techniques agrave base

darbres de deacutecision

Techniques agrave base de

reacuteseau de neurones

Reacuteduction de

donneacutees

Utiliseacutee en amont des

autres meacutethodes

Permettent de reacuteduire un ensemble

de donneacutees volumineux agrave un

ensemble de taille plus reacuteduite

eacutepureacute de ce que lon consideacuterera

comme de linformation non

pertinente ou non signifiante

comme du bruit

Techniques danalyse

factorielle type AFC

17

Cartographie de linformation- Composantes des applications cartographiques

1- Composante calculatoire Data Mining exemples

Classification Affecter un objet agrave une classe en fonction de ses caracteacuteristiques A1hellipAn

Exemples

Deacuteterminer si un message est un mail de SPAM ou non (2 classes)

Affecter une page web dans une des cateacutegories theacutematiques dun annuaire (multi-classes)

Meacutethode

Si pas de theacuteorie pour deacutefinir la classe en fonction de A1hellipAn alors on eacutetudie un ensemble

drsquoexemples pour lesquels on connaicirct A1hellipAn et la classe associeacutee et on construit un

modegravele

Classe = f(A1hellipAn)

Techniques

Analyse discriminante

Arbre de classification

Reacuteseaux de neurones

18

Cartographie de linformation- Composantes des applications cartographiques

1- Composante calculatoire Reacuteseau de neurones

Principe

Un neurone est une uniteacute de calcul eacuteleacutementaire combine des entreacutees x1x

nen une sortie o

Les entreacutees nont pas toutes la mecircme importance agrave chaque entreacutee xiest associeacute un poids (ou coefficient

synaptique) wi

Luniteacute calcule dabord lactiviteacute dentreacutee (somme pondeacutereacutee des entreacutees)

Coefficients synaptiques

Sont calculeacutes non a priori mais sur la base des valeurs disponibles principe fondamental de

lrsquoapprentissage

Apprendre crsquoest calculer les valeurs des coefficients synaptiques en fonction des exemples disponibles

Algorithme laquo drsquoentraicircnement raquo modifie les poids synaptiques en fonction drsquoun jeu de donneacutees

preacutesenteacutee en entreacutee du reacuteseau

Geacuteneacuteraliser

Lrsquointeacuterecirct des reacuteseaux de neurones reacuteside dans leur capaciteacute agrave geacuteneacuteraliser agrave partir du jeu de test

19

Illustration du reacuteseau de neurones

20

Cartographie de linformation- Composantes des applications cartographiques

1- Composante calculatoire Text Mining

DeacutefinitionProceacutedeacute consistant agrave syntheacutetiser (classer structurer reacutesumer hellip) les textes en analysant les relations les patterns

et les regravegles entre uniteacutes textuelles (mots groupes phrases documents)

Du Data Mining au Text Mining

Ajout de la lexicomeacutetrie

Comme en Data Mining on trouve en Text Mining

des algorithmes descriptifs recherche des thegravemes abordeacutes dans un ensemble (corpus) de documents sans

connaicirctre agrave lrsquoavance ces thegravemes

des algorithmes preacutedictifs recherche des regravegles permettant drsquoaffecter automatiquement un document agrave un

thegraveme parmi plusieurs thegravemes preacutedeacutefinis

Application des techniques de Data mining

Individus = documents

Caractegraveres des individus = thegravemestermes des documents

21

Text Mining Data Mining

Impleacutementation vaste

degraves 2000

Impleacutementation vaste

degraves 1994Maturiteacute

milliersmilliers Dimension

complexesimpleRepreacutesentation

non-structureacutestructureacuteStructure

textuelnumeacuterique amp

cateacutegorique Objet

Text MiningData Mining

22

Vue simplifieacutee du Text Mining

23

Analyse lexicomeacutetrique

Eliminer les mots vides Deacutecouper les textes en uniteacutes Lemmatiser Reacuteduire le nombre de termes agrave traiter

24

Anayse statistique

25

Term frequency (TF)

Un terme qui apparait plusieurs fois dans un document est plus

important qursquoun terme qui apparaicirct une seule fois

wij = Nombre drsquooccurrences du terme ti dans le document dj

TFij = Freacutequence du terme ti dans le document dj

j

ij

d

wTF

ij

26

Inverse document frequency (IDF)

Un terme qui apparaicirct dans peu de documents est un meilleur discriminant qursquoun terme qui apparaicirct dans tous les documents

bull dfi = nombre de documents contenant le terme ti

bull d = nombre de documents du corpus

Inverse document frequency

i

i

df

dIDF log

27

Pondeacuteration TF-IDF

TF-IDF signifie Term Frequency x Inverse Document

Frequency

bull Proposeacutee par [Salton 1989] mesure limportance drsquoun terme

dans un document relativement agrave lrsquoensemble des documents

bull tf ij = freacutequence du terme i dans le document j

df i = nombre de documents contenant le terme i

N = d = nombre de documents du corpus

28

Similariteacute entre documents

Permet de ranger les

documents par pertinence

Le cosinus de lrsquoangle est

souvent utiliseacute

2d1d

2dT

1d2d1d )cos(

bull gt cos( )ltcos( )

bull d2 est plus proche de d1que de d3

29

Cartographie de linformation- Composantes des applications cartographiques

1- Composante calculatoire Data Clustering ou partitionnement de donneacutees

Deacutefinition

Meacutethode statistique danalyse des donneacutees qui a pour but de regrouper un ensemble de donneacutees en

diffeacuterents paquets homogegravenes chaque sous-ensemble partage des caracteacuteristiques communes qui

correspondent le plus souvent agrave des critegraveres de proximiteacute que lon deacutefinit en introduisant des mesures

de distance

Principe

Pour obtenir un bon partitionnement il convient de

bull minimiser linertie intra-classe pour obtenir des grappes (cluster en anglais) les plus homogegravenes

possibles

bull maximiser linertie inter-classe afin dobtenir des sous-ensembles bien diffeacuterencieacutes

Composition

Un cluster est composeacute de

bull une liste de mots-cleacutes

bull une liste dassociations internes

bull une liste dassociations externes

bull une eacutetiquette

bull une liste de documents affecteacutes apregraves la classification

30

Cartographie de linformation- Composantes des applications cartographiques

1- Composante calculatoire DataClustering

bull Lassociation la plus forte permet de creacuteer le premier cluster ici laquoa-braquo)

bull Une nouvelle association peut donner lieu agrave un laquoenrichissementraquo de cluster laquoa-eraquo vient

enrichir le cluster laquoa-braquo qui contient deacutejagrave laquoaraquo) ou agrave une creacuteation de nouveau cluster (laquoc-draquo par

exemple)

Deacutefinitions

Web mining Data mining appliqueacute aux donneacutees de navigation sur le web

Objectifs du web mining

1 Optimiser la navigation dans un site web (confort des internautes)

2 Augmenter le nombre de pages consulteacutees et lrsquoimpact des liens et des banniegraveres publicitaires

3 Deacuteceler les centres drsquointeacuterecirct et donc les attentes des internautes visitant le site

Types dAnalyses

Statistique descriptive

bull laquo 70 des internautes ont consulteacute 3 pages ou moins raquo

bull laquo 40 des internautes accegravedent au site sans passer par la page drsquoaccueil raquo

Deacutetection des regravegles drsquoassociation

bull laquo 20 des internautes visitant la page A visitent la page B dans la mecircme session raquo

Segmentation des internautes

bull Selon les sites de provenance les pages drsquoentreacutee le nombre de pages consulteacutees les fichiers teacuteleacutechargeacutes les pages de sortie etc

1- Composante calculatoire Web Mining

Cartographie de linformation- Composantes des applications cartographiques

31

32

Cartographie de linformation- Composantes des applications cartographiques

1- Composante calculatoire Web Social Data Mining

Hypothegravese documentaire

Web structureacute par des laquo localiteacutes theacutematiques raquo deacutefinies par une forte correacutelation entre

contenu des documents et proximiteacute hypertexte dessinant comme un territoire

Probleacutematique de la laquo traccedilabiliteacute raquo du socialbull Le web se preacutesente comme une matrice technique distribueacutee faccedilonneacutee par des usages dont

le reacuteseau garde la meacutemoire bull Le seul fait dutiliser une technologie numeacuterique contribue agrave produire des traces et agrave

grande eacutechelle elles constituent un reacuteservoir immense de donneacutees disponibles

Principes hubs et autoriteacutes (Kleinberg et al)

bull Autoriteacutes ensemble des pages contenant les meilleures sources drsquoinformation pour un

thegraveme donneacute

bull Hubs pages pointant sur les autoriteacutes

bull Le calcul ressemble au calcul drsquoimportance drsquoun article par nombre de citations (les liens

du Web vus comme des recommendations)

Applications

Sujets controverseacutes ougrave le seul lexique nest pas discriminant

33

Cartographie de linformation- Composantes des applications cartographiques

2- Composante visuelle

Eleacutements de seacutemiologie graphique (J Bertin) Theacuteorie de la Gestalt

34

Cartographie de linformation- Composantes des applications cartographiques

2- Composante visuelle Eleacutements de seacutemiologie graphique (J Bertin)

35

Cartographie de linformation- Composantes des applications cartographiques

2- Composante visuelle Eleacutements de seacutemiologie graphique (J Bertin)

Type de dessin Signification

des signes Description Exemple

Graphis

me

Image non-

figurative Panseacutemique

Le systegraveme srsquoouvre agrave toute

signification Tableau drsquoart

Image

figurative Polyseacutemique

Le systegraveme a pour objectif de

deacutefinir un concept ou une ideacutee

mais les interpreacutetations peuvent

diverger

Photographie

aeacuterienne

Graphique Monoseacutemique

Transcriptions de relations entre

des concepts preacutealablement

deacutefinis

Un

organigramme

36

Cartographie de linformation- Composantes des applications cartographiques

2- Composante visuelle Eleacutements de seacutemiologie graphique (J Bertin)

laquo La graphique est un systegraveme de signes [structures visuelles] qui permet de transcrire les

relations de diffeacuterence drsquoordre ou de proportionnaliteacute existant entre des donneacutees qualitatives ou

quantitatives raquo [Bonin 1997]

laquo La carte est une image graphique qui transcrit les relations de proportionnaliteacute ordre et

diffeacuterence par des variations proportionnelles ordonneacutees et diffeacuterentielles raquo

37

Cartographie de linformation- Composantes des applications cartographiques

2- Composante visuelle Eleacutements de seacutemiologie graphique (J Bertin)

38

Cartographie de linformation- Composantes des applications cartographiques

2- Composante visuelle Eleacutements de seacutemiologie graphique (J Bertin)

39

Cartographie de linformation- Composantes des applications cartographiques

2- Composante visuelle Eleacutements de seacutemiologie graphique (J Bertin)

40

Cartographie de linformation- Composantes des applications cartographiques

2- Composante visuelle Eleacutements de seacutemiologie graphique (J Bertin)

41

Cartographie de linformation- Composantes des applications cartographiques

2- Composante visuelle Eleacutements de seacutemiologie graphique (J Bertin)

Variables visuelles (laquo variables reacutetiniennes raquo)

Variation des proprieacuteteacutes graphiques des structures visuelles

42

Cartographie de linformation- Composantes des applications cartographiques

2- Composante visuelle Eleacutements de seacutemiologie graphique (J Bertin)

Variables visuelles

Cartographie de linformation- Composantes des applications cartographiques

2- Composante visuelle Eleacutements de seacutemiologie graphique (J Bertin)

43

44

Cartographie de linformation- Composantes des applications cartographiques

2- Composante visuelle Theacuteorie de la Gestalt (1890)

Principe

Le contexte est tregraves important dans la perception visuelle [Guillaume]

Les structures visuelles ne sont pas indeacutependantes les unes des autres et le contexte est

important pour la signification qui leur est attribueacutee

En graphique

La perception visuelle srsquoattache agrave reconnaicirctre des modegraveles dans un ensemble de structures

visuelles

De cette theacuteorie reacutesultent des lois correspondant agrave des cateacutegories drsquointeractions possibles entre

les structures visuelles

45

Cartographie de linformation- Composantes des applications cartographiques

Lois Effets Illustrations

Preacutegnance Une image est facile agrave comprendre si sa structure est simple et inversement

Proximiteacute Deux composants qui sont proches ont tendance agrave ecirctre perccedilus comme un

seul composant

Similariteacute Les composants similaires sont perccedilus comme srsquoils eacutetaient regroupeacutes

Fermeture Les contours proches sont perccedilus comme unifieacutes

Continuiteacute Des eacuteleacutements voisins sont perccedilus groupeacutes lorsqursquoils possegravedent

potentiellement un trait qui les relie

Symeacutetrie Des eacuteleacutements sont perccedilus comme un eacuteleacutement global lorsqursquoils forment une

symeacutetrie

Trajectoire identique Des eacuteleacutements qui se deacuteplacent avec la mecircme trajectoire semblent groupeacutes

Familiariteacute Des eacuteleacutements sont plus facilement groupables si le groupe est familier ou

significatif

46

Cartographie de linformation- Composantes des applications cartographiques

2- Composante visuelle Theacuteorie de la Gestalt (1890)

47

Cartographie de linformation- Composantes des applications cartographiques

2- Composante visuelle Conception drsquoun langage graphique (JB Lamy)

1- Analyser les informations ou connaissances que lrsquoon souhaite repreacutesenter

Determiner les attributs qui

deacutefinissent les termes agrave repreacutesenter

bull Par exemple pour repreacutesenter

des maladies les attributs pourraient

ecirctre la localisation anatomique

(cardiaque reacutenale) la seacuteveacuteriteacute etc

2- Associer agrave chaque attribut une variable

reacutetinienne pour le repreacutesenter

bull Par exemple pour les maladies

Associer lrsquoattribut localisation

anatomique agrave la variable

formepictogramme

bull Repreacutesenter la seacuteveacuteriteacute par la variable

couleur

3- Les relations entre les diffeacuterents termes

repreacutesenteacutes doivent ecirctre expliciteacutees

48

Cartographie de linformation

Famille doutils et contextes applicatifs

1- Famille doutils

Typologies

Aperccedilu

Travaux pratiques

2- Contextes applicatifs

Eleacutements deacutevaluation

Les perspectives de la cartographie seacutemantique

49

Cartographie de linformation- Famille doutils et contextes applicatifs

1- Famille doutils

Typologies

Aperccedilu

TP agrave partir de la seacutelection httpdeliciouscommylk02Stage_Carto

Et encore httpwwwvisualcomplexitycomvc (plus de 500 projets dans le domaine)

50

Cartographie de linformation- Famille doutils et contextes applicatifs

1- Famille doutils typologies

11- Typologie scientifique eacutetablie selon des critegraveres internes au domaine

bull les trois principaux paradigmes technique de visualisation type de donneacutees et type dinteraction (Keim

DA 2002)

bull la nature des donneacutees unidimensionnelles bidimensionnelles tridimensionnelles temporelles

multidimensionnelles hieacuterarchiques reacuteseaux (Shneiderman B 1996)

12- Etat de lart eacutevaluation - benchmarking typologie orienteacutee usages (veille et intelligence eacuteconomique)

Quelques exemples

Inist httpoutilsveilleinistfr

Esiee httpwwwaa-esieecomevent2005AGClaudeAschenbrennerppt

Ecole des Mines httpwwwdemoscienceorgresources

Commercial httpwwwk-praxiscom

Commercial httpwwwinformation-mininginfostate_of_art

Universitaire httpwell-formed-datanetthesis

13- Typologie cartographique

Quelques exemples de bloggers

bull Claude Aschenbrenner httpwwwserialmappercomarchive20070110la-pierre-de-rosette-de-la-

cartographie-de-l-informationhtml avec son mode demploi

bull Kartoo httpwwwmapdreamcom

51

Cartographie de linformation- Famille doutils et contextes applicatifs

1- Famille doutils typologie scientifique

52

Cartographie de linformation- Famille doutils orienteacutes laquo bibliothegraveques raquo

2- Les outils de navigation et de recherche sur Internet (seacutelection de Pierre Nobis)

A- Les navigateurs Nestor Navicrawler

53

Cartographie de linformation- Famille doutils orienteacutes laquo bibliothegraveques raquo

2- Les outils de navigation et de recherche sur Internet (seacutelection de Pierre Nobis)

B- Les outils de visualisation des reacutesultats PageBull ManagedQ

Bbis Les outils de visualisation de reacutesultats dans les actualiteacutes

repreacutesentation carreacutee Marumushi - Google NewsNewsIsFree - The Hive Group Tenbyten -flux RSS des sources drsquoactualiteacutes internationales

repreacutesentation sous forme de graphe

Silobreaker

54

Cartographie de linformation- Famille doutils orienteacutes laquo bibliothegraveques raquo

2- Les outils de navigation et de recherche sur Internet

B-Les outils de visualisation des reacutesultats TouchGraph application Java permettant de cartographier les reacutesultats issus

notamment de Google Amazon PubMed Alexa FaceBook

55

Cartographie de linformation- Famille doutils orienteacutes laquo bibliothegraveques raquo

2- Les outils de navigation et de recherche sur Internet (seacutelection de Pierre Nobis)

C- Les outils de recherche avec ajout de termes associeacutes dans une colonne regroupement theacutematique nuage de laquo tags raquo

D- Meacutetamoteurs avec affichage de clusters sous forme de listes

Carrot2 Clusty-Vivissimo Iboogie Polymeta Turbo10 Webclust

56

Cartographie de linformation- Famille doutils orienteacutes laquo bibliothegraveques raquo

2- Les outils de navigation et de recherche sur Internet (seacutelection de Pierre Nobis)

E- Meacutetamoteurs avec affichage de clusters sous forme graphique

E1- repreacutesentation centreacutee Allplus WebBrain

Allplus est un meacutetamoteur agrave clusteacuterisation graphique qui interroge les bases de Ask Google Yahoo et Livepar le biais de lrsquooutil Polymeta Lrsquointerface cluster graph permet de visualiser les reacutesultats sous une forme graphique

Webbrain permet de visualiser et drsquoaffiner les reacutesultats drsquoune requecircte issus de lrsquoOpen Directory Project

57

Cartographie de linformation- Famille doutils orienteacutes laquo bibliothegraveques raquo

2- Les outils de navigation et de recherche sur Internet (seacutelection de Pierre Nobis)

E- Meacutetamoteurs avec affichage de clusters sous forme graphique

E2- Repreacutesentation circulaire Grokker

E3- Repreacutesentation topographique TooLeNet srsquoappuie sur les technologies de KartOO et sur lrsquoindex de

Yahoo pour effectuer des recherches selon 3 modes moteur annuaire et carte auxquels srsquoajoutent des

options de personnalisation et de classification assez avanceacutees

58

Cartographie de linformation- Famille doutils orienteacutes laquo bibliothegraveques raquo

3- Les Outils graphiques dexploration

Wikimindmap est un outil drsquointerrogation

et de repreacutesentation des informations issues

de Wikipedia sous forme de carte heuristique

Visuwords est un dictionnaire en ligne

qui preacutesente ses reacutesultats sous forme de laquo grappes raquo

Il utilise la base de donneacutees Wordnet

Code couleur pour les diffeacuterentes relations

seacutemantiques hieacuterarchiques entre les termes

ainsi que les synonymes et les antonymes

59

Cartographie de linformation- Famille doutils orienteacutes laquo bibliothegraveques raquo

4- Les outils de creacuteation (carto)graphiqueA- Pour meacutemoire les logiciels de creacuteation de cartes heuristiques et conceptuelles

Cmaptools est un logiciel gratuit (usage eacuteducatif) de creacuteation de cartes conceptuelles

Freemind est un logiciel libre et gratuit qui permet de reacutealiser des cartes heuristiques

Thinkgraph est un logiciel gratuit de dessin 2D orienteacute vers la reacutealisation de cartes conceptuelles

60

Cartographie de linformation- Famille doutils orienteacutes laquo bibliothegraveques raquo

4- Les outils de creacuteation (carto)graphique

B- Les outils drsquoeacutedition de graphes

Guess est un logiciel libre et gratuit deacuteveloppeacute par Eytan Adar qui permet de visualiser des

graphes statiques Options de modification de certains attributs (taille couleur forme

algorithmes de positionnementhellip)

Pajek est un logiciel libre et gratuit (usage non commercial) deacuteveloppeacute par V Batagelj et A

Mrvar qui permet de traiter des donneacutees de reacuteseaux de grande taille Pajek signifie araigneacutee

en slovegravene

C- Les outils en ligne

ManyEye service collaboratif deacuteveloppeacute par IBM gracircce auquel on peut geacuteneacuterer selon un

des modegraveles proposeacutes sa propre visualisation de lrsquoinformation (apregraves avoir teacuteleacuteverseacute ses

propres donneacutees)

IssueCrawler outil de web social mining utilisable agrave distance (chargement des URL)

reacutecupeacuteration graphique

61

Cartographie de linformation- Famille doutils et contextes applicatifs

2- Contextes applicatifs

Eleacutements deacutevaluation

Les perspectives de la cartographie seacutemantique

62

Cartographie de linformation- Famille doutils et contextes applicatifs

2- Contextes applicatifs Eleacutements deacutevaluation

21- Evaluation scientifique

Question de meacutethode Eacutevaluation des Interfaces Utilisateur drsquoInformation Bonnel et Chevalier 2006

Objectif proposer une meacutethodologie deacutevaluation permettant de comparer du point de vue de la

visualisation des reacutesultats agrave une requecircte les outils de recherche Google Vivisimo Ujiko Grokker Kartoo

Vios SmartWeb (prototype)

Evaluation des repreacutesentations graphiques geacuteneacuteraliteacutes (Tricot et Roche 2006)

bull Arborescences simples

habitude des utilisateurs (explorateur de fichiers informatiques) pas de problegravemes avec volume limiteacute

au-delagrave drsquoune certaine quantiteacute drsquoinformation les arborescences deviennent inefficaces

bull Arbres de cocircnes en 3D

posent des problegravemes agrave lrsquoutilisateur qui nrsquoa pas lrsquohabitude des espaces en 3D

effort cognitif plus eacuteleveacute et prise en main plus longue

bull Arbres hyperboliques

problegravemes des eacutetiquettes des eacuteleacutements (occlusion)

effet de zoom impreacutevisible

Lrsquoune des conclusions une seule visualisation ne permet pas de reacutepondre agrave toutes les questions

multiplier les possibiliteacutes de visualisation

63

Cartographie de linformation- Famille doutils et contextes applicatifs

2- Contextes applicatifs Eleacutements deacutevaluation

21- Evaluation scientifique doctorat en cours agrave lrsquoEBSI (Aline Creacutedeville)

bull Contexte visualisation de lrsquoinformation dans le contexte de recherche drsquoinformation

bull Point de vue de la seacutemiologie graphique

o principes les plus couramment utiliseacutes sont la proximiteacute (Grokker) lrsquoenglobage (Kartoo)

et la connectiviteacute (Auquabrowser)

omeacutetaphores visuelles pas toujours adeacutequates au web

bull Reacutesultats

o lrsquoinformation doit ecirctre structureacutee

o apports possible pour lrsquoexploration mais pas pour la recherche

64

Cartographie de linformation- Famille doutils et contextes applicatifs

2- Contextes applicatifs Eleacutements deacutevaluation

22- Evaluation en contexte dusage de recherche dinformations (Ciaccia Ihadjadene Martins 2006)

Objectif analyse de lrsquoinfluence du mode de preacutesentation des informations sur les processus cognitifs mis

en jeu par lrsquoutilisateur dans lrsquoactiviteacute de recherche drsquoinformations sur Internet

Outils eacutevalueacutes Kartoo (pour 18 usagers) et Mapstan (pour 16 usagers)

Principaux reacutesultats

Coucirct cognitif sans pour autant conduire agrave de meilleures performances (comparaison avec une

preacutesentation en liste)

Hypothegravese nouveauteacute de la preacutesentation versus habitude des preacutesentations verbales

Strateacutegie optimiseacutee preacuteciser la requecircte drsquoune recherche agrave but flou et se concentrer sur les informations

relieacutees agrave lrsquoobjectif de la question versus informations non relieacutees

Le sens de la visualisation doit ecirctre clarifieacute les systegravemes doivent faciliter la compreacutehension des

eacuteleacutements visualiseacutes

65

Cartographie de linformation- Famille doutils et contextes applicatifs

2- Contextes applicatifs Les perspectives de la cartographie seacutemantique (C Tricot de la seacutemantique agrave la carte)

Pour reacutesoudre la probleacutematique de la repreacutesentation de lrsquoinformation la visualisation de

lrsquoinformation seule ne suffit pas

La visualisation de lrsquoinformation permet uniquement de preacutesenter des donneacutees en leur

associant une repreacutesentation graphique

La cartographie seacutemantique se veut

Une meacutethode de cartographie reposant sur la seacutemantique dun domaine

Un processus de production de connaissances

donneacutees brutes -gt donneacutees structureacutees -gt donneacutees repreacutesenteacutees -gt donneacutees visualiseacutees

Un formalisme de description type Reacuteseaux seacutemantiques

Un langage de description cartographique

Une architecture multi-agents

66

Cartographie de linformation- Famille doutils et contextes applicatifs

2- Contextes applicatifs Les perspectives de la cartographie seacutemantique (C Tricot de la seacutemantique agrave la carte)

67

Cartographie de linformation- Famille doutils et contextes applicatifs

2- Contextes applicatifs Les perspectives de la cartographie seacutemantique

ldquoUne bonne structure repreacutesentative graphique pour un arbre de donneacutees est celle qui deacuteforme le moins les similitudes originales entre les uniteacutes de donneacutees (similitudes qui sont donneacutes par loutil de classification) ou en dautres termes deux individus (ou classes) qui sont proches lune de lautre le restent aussi possible que peut apregraves projection dans l`espace de visualisation et ceci doit ecirctre eacutevident(et veacuterifiable par une mesure de calcul de divergence) dans lenvironnement de visualisation ldquo Tricot 2006

Page 15: Cartographie de l'information- Composantes des - Urfist de Paris

15

Cartographie de linformation- Composantes des applications cartographiques

1- Composante calculatoire Data Mining

Speacutecificiteacutes

Se distingue de lanalyse de donneacutees et de la statistique par les points suivants

ne neacutecessite pas dhypothegravese de deacutepart cest des donneacutees elles-mecircmes que se deacutegageront les correacutelations inteacuteressantes (exemples historiques des tickets de caisse)

les connaissances extraites par le Data Mining ont vocation agrave ecirctre inteacutegreacutees dans un scheacutema

organisationnel

les donneacutees traiteacutees sont issues des systegravemes de stockage en place dans lorganisation

-gt Le data mining fait passer drsquoanalyses confirmatoires agrave des analyses exploratoires

Techniques

Les techniques descriptives visent agrave mettre en eacutevidence des informations preacutesentes mais cacheacutees

par le volume des donneacutees cas des recherches drsquoassociations -gt il nrsquoy a pas de variable laquo cible raquo agrave

preacutedire

Les techniques preacutedictives visent agrave extrapoler de nouvelles informations agrave partir des informations

preacutesentes (cas du scoring) -gt il y a une variable laquo cible raquo agrave preacutedire

16

Cartographie de linformation- Composantes des applications cartographiques

1- Composante calculatoire Data Mining

Meacutethodes Deacutefinition Usages Techniques (liste indicative)

Non superviseacutees Sans variable cible Pour deacutegager dun ensemble

dindividus des groupes homogegravenes

Ex typologie

Techniques agrave base de

reacuteseau de neurones

Classification ascendante

hieacuterarchique

Recherche dassociations

Superviseacutees Avec variable cible Pour expliquer etou preacutevoir un ou

plusieurs pheacutenomegravenes observables

et effectivement mesureacutes

Ex filtrage collaboratif

classifications

Techniques agrave base

darbres de deacutecision

Techniques agrave base de

reacuteseau de neurones

Reacuteduction de

donneacutees

Utiliseacutee en amont des

autres meacutethodes

Permettent de reacuteduire un ensemble

de donneacutees volumineux agrave un

ensemble de taille plus reacuteduite

eacutepureacute de ce que lon consideacuterera

comme de linformation non

pertinente ou non signifiante

comme du bruit

Techniques danalyse

factorielle type AFC

17

Cartographie de linformation- Composantes des applications cartographiques

1- Composante calculatoire Data Mining exemples

Classification Affecter un objet agrave une classe en fonction de ses caracteacuteristiques A1hellipAn

Exemples

Deacuteterminer si un message est un mail de SPAM ou non (2 classes)

Affecter une page web dans une des cateacutegories theacutematiques dun annuaire (multi-classes)

Meacutethode

Si pas de theacuteorie pour deacutefinir la classe en fonction de A1hellipAn alors on eacutetudie un ensemble

drsquoexemples pour lesquels on connaicirct A1hellipAn et la classe associeacutee et on construit un

modegravele

Classe = f(A1hellipAn)

Techniques

Analyse discriminante

Arbre de classification

Reacuteseaux de neurones

18

Cartographie de linformation- Composantes des applications cartographiques

1- Composante calculatoire Reacuteseau de neurones

Principe

Un neurone est une uniteacute de calcul eacuteleacutementaire combine des entreacutees x1x

nen une sortie o

Les entreacutees nont pas toutes la mecircme importance agrave chaque entreacutee xiest associeacute un poids (ou coefficient

synaptique) wi

Luniteacute calcule dabord lactiviteacute dentreacutee (somme pondeacutereacutee des entreacutees)

Coefficients synaptiques

Sont calculeacutes non a priori mais sur la base des valeurs disponibles principe fondamental de

lrsquoapprentissage

Apprendre crsquoest calculer les valeurs des coefficients synaptiques en fonction des exemples disponibles

Algorithme laquo drsquoentraicircnement raquo modifie les poids synaptiques en fonction drsquoun jeu de donneacutees

preacutesenteacutee en entreacutee du reacuteseau

Geacuteneacuteraliser

Lrsquointeacuterecirct des reacuteseaux de neurones reacuteside dans leur capaciteacute agrave geacuteneacuteraliser agrave partir du jeu de test

19

Illustration du reacuteseau de neurones

20

Cartographie de linformation- Composantes des applications cartographiques

1- Composante calculatoire Text Mining

DeacutefinitionProceacutedeacute consistant agrave syntheacutetiser (classer structurer reacutesumer hellip) les textes en analysant les relations les patterns

et les regravegles entre uniteacutes textuelles (mots groupes phrases documents)

Du Data Mining au Text Mining

Ajout de la lexicomeacutetrie

Comme en Data Mining on trouve en Text Mining

des algorithmes descriptifs recherche des thegravemes abordeacutes dans un ensemble (corpus) de documents sans

connaicirctre agrave lrsquoavance ces thegravemes

des algorithmes preacutedictifs recherche des regravegles permettant drsquoaffecter automatiquement un document agrave un

thegraveme parmi plusieurs thegravemes preacutedeacutefinis

Application des techniques de Data mining

Individus = documents

Caractegraveres des individus = thegravemestermes des documents

21

Text Mining Data Mining

Impleacutementation vaste

degraves 2000

Impleacutementation vaste

degraves 1994Maturiteacute

milliersmilliers Dimension

complexesimpleRepreacutesentation

non-structureacutestructureacuteStructure

textuelnumeacuterique amp

cateacutegorique Objet

Text MiningData Mining

22

Vue simplifieacutee du Text Mining

23

Analyse lexicomeacutetrique

Eliminer les mots vides Deacutecouper les textes en uniteacutes Lemmatiser Reacuteduire le nombre de termes agrave traiter

24

Anayse statistique

25

Term frequency (TF)

Un terme qui apparait plusieurs fois dans un document est plus

important qursquoun terme qui apparaicirct une seule fois

wij = Nombre drsquooccurrences du terme ti dans le document dj

TFij = Freacutequence du terme ti dans le document dj

j

ij

d

wTF

ij

26

Inverse document frequency (IDF)

Un terme qui apparaicirct dans peu de documents est un meilleur discriminant qursquoun terme qui apparaicirct dans tous les documents

bull dfi = nombre de documents contenant le terme ti

bull d = nombre de documents du corpus

Inverse document frequency

i

i

df

dIDF log

27

Pondeacuteration TF-IDF

TF-IDF signifie Term Frequency x Inverse Document

Frequency

bull Proposeacutee par [Salton 1989] mesure limportance drsquoun terme

dans un document relativement agrave lrsquoensemble des documents

bull tf ij = freacutequence du terme i dans le document j

df i = nombre de documents contenant le terme i

N = d = nombre de documents du corpus

28

Similariteacute entre documents

Permet de ranger les

documents par pertinence

Le cosinus de lrsquoangle est

souvent utiliseacute

2d1d

2dT

1d2d1d )cos(

bull gt cos( )ltcos( )

bull d2 est plus proche de d1que de d3

29

Cartographie de linformation- Composantes des applications cartographiques

1- Composante calculatoire Data Clustering ou partitionnement de donneacutees

Deacutefinition

Meacutethode statistique danalyse des donneacutees qui a pour but de regrouper un ensemble de donneacutees en

diffeacuterents paquets homogegravenes chaque sous-ensemble partage des caracteacuteristiques communes qui

correspondent le plus souvent agrave des critegraveres de proximiteacute que lon deacutefinit en introduisant des mesures

de distance

Principe

Pour obtenir un bon partitionnement il convient de

bull minimiser linertie intra-classe pour obtenir des grappes (cluster en anglais) les plus homogegravenes

possibles

bull maximiser linertie inter-classe afin dobtenir des sous-ensembles bien diffeacuterencieacutes

Composition

Un cluster est composeacute de

bull une liste de mots-cleacutes

bull une liste dassociations internes

bull une liste dassociations externes

bull une eacutetiquette

bull une liste de documents affecteacutes apregraves la classification

30

Cartographie de linformation- Composantes des applications cartographiques

1- Composante calculatoire DataClustering

bull Lassociation la plus forte permet de creacuteer le premier cluster ici laquoa-braquo)

bull Une nouvelle association peut donner lieu agrave un laquoenrichissementraquo de cluster laquoa-eraquo vient

enrichir le cluster laquoa-braquo qui contient deacutejagrave laquoaraquo) ou agrave une creacuteation de nouveau cluster (laquoc-draquo par

exemple)

Deacutefinitions

Web mining Data mining appliqueacute aux donneacutees de navigation sur le web

Objectifs du web mining

1 Optimiser la navigation dans un site web (confort des internautes)

2 Augmenter le nombre de pages consulteacutees et lrsquoimpact des liens et des banniegraveres publicitaires

3 Deacuteceler les centres drsquointeacuterecirct et donc les attentes des internautes visitant le site

Types dAnalyses

Statistique descriptive

bull laquo 70 des internautes ont consulteacute 3 pages ou moins raquo

bull laquo 40 des internautes accegravedent au site sans passer par la page drsquoaccueil raquo

Deacutetection des regravegles drsquoassociation

bull laquo 20 des internautes visitant la page A visitent la page B dans la mecircme session raquo

Segmentation des internautes

bull Selon les sites de provenance les pages drsquoentreacutee le nombre de pages consulteacutees les fichiers teacuteleacutechargeacutes les pages de sortie etc

1- Composante calculatoire Web Mining

Cartographie de linformation- Composantes des applications cartographiques

31

32

Cartographie de linformation- Composantes des applications cartographiques

1- Composante calculatoire Web Social Data Mining

Hypothegravese documentaire

Web structureacute par des laquo localiteacutes theacutematiques raquo deacutefinies par une forte correacutelation entre

contenu des documents et proximiteacute hypertexte dessinant comme un territoire

Probleacutematique de la laquo traccedilabiliteacute raquo du socialbull Le web se preacutesente comme une matrice technique distribueacutee faccedilonneacutee par des usages dont

le reacuteseau garde la meacutemoire bull Le seul fait dutiliser une technologie numeacuterique contribue agrave produire des traces et agrave

grande eacutechelle elles constituent un reacuteservoir immense de donneacutees disponibles

Principes hubs et autoriteacutes (Kleinberg et al)

bull Autoriteacutes ensemble des pages contenant les meilleures sources drsquoinformation pour un

thegraveme donneacute

bull Hubs pages pointant sur les autoriteacutes

bull Le calcul ressemble au calcul drsquoimportance drsquoun article par nombre de citations (les liens

du Web vus comme des recommendations)

Applications

Sujets controverseacutes ougrave le seul lexique nest pas discriminant

33

Cartographie de linformation- Composantes des applications cartographiques

2- Composante visuelle

Eleacutements de seacutemiologie graphique (J Bertin) Theacuteorie de la Gestalt

34

Cartographie de linformation- Composantes des applications cartographiques

2- Composante visuelle Eleacutements de seacutemiologie graphique (J Bertin)

35

Cartographie de linformation- Composantes des applications cartographiques

2- Composante visuelle Eleacutements de seacutemiologie graphique (J Bertin)

Type de dessin Signification

des signes Description Exemple

Graphis

me

Image non-

figurative Panseacutemique

Le systegraveme srsquoouvre agrave toute

signification Tableau drsquoart

Image

figurative Polyseacutemique

Le systegraveme a pour objectif de

deacutefinir un concept ou une ideacutee

mais les interpreacutetations peuvent

diverger

Photographie

aeacuterienne

Graphique Monoseacutemique

Transcriptions de relations entre

des concepts preacutealablement

deacutefinis

Un

organigramme

36

Cartographie de linformation- Composantes des applications cartographiques

2- Composante visuelle Eleacutements de seacutemiologie graphique (J Bertin)

laquo La graphique est un systegraveme de signes [structures visuelles] qui permet de transcrire les

relations de diffeacuterence drsquoordre ou de proportionnaliteacute existant entre des donneacutees qualitatives ou

quantitatives raquo [Bonin 1997]

laquo La carte est une image graphique qui transcrit les relations de proportionnaliteacute ordre et

diffeacuterence par des variations proportionnelles ordonneacutees et diffeacuterentielles raquo

37

Cartographie de linformation- Composantes des applications cartographiques

2- Composante visuelle Eleacutements de seacutemiologie graphique (J Bertin)

38

Cartographie de linformation- Composantes des applications cartographiques

2- Composante visuelle Eleacutements de seacutemiologie graphique (J Bertin)

39

Cartographie de linformation- Composantes des applications cartographiques

2- Composante visuelle Eleacutements de seacutemiologie graphique (J Bertin)

40

Cartographie de linformation- Composantes des applications cartographiques

2- Composante visuelle Eleacutements de seacutemiologie graphique (J Bertin)

41

Cartographie de linformation- Composantes des applications cartographiques

2- Composante visuelle Eleacutements de seacutemiologie graphique (J Bertin)

Variables visuelles (laquo variables reacutetiniennes raquo)

Variation des proprieacuteteacutes graphiques des structures visuelles

42

Cartographie de linformation- Composantes des applications cartographiques

2- Composante visuelle Eleacutements de seacutemiologie graphique (J Bertin)

Variables visuelles

Cartographie de linformation- Composantes des applications cartographiques

2- Composante visuelle Eleacutements de seacutemiologie graphique (J Bertin)

43

44

Cartographie de linformation- Composantes des applications cartographiques

2- Composante visuelle Theacuteorie de la Gestalt (1890)

Principe

Le contexte est tregraves important dans la perception visuelle [Guillaume]

Les structures visuelles ne sont pas indeacutependantes les unes des autres et le contexte est

important pour la signification qui leur est attribueacutee

En graphique

La perception visuelle srsquoattache agrave reconnaicirctre des modegraveles dans un ensemble de structures

visuelles

De cette theacuteorie reacutesultent des lois correspondant agrave des cateacutegories drsquointeractions possibles entre

les structures visuelles

45

Cartographie de linformation- Composantes des applications cartographiques

Lois Effets Illustrations

Preacutegnance Une image est facile agrave comprendre si sa structure est simple et inversement

Proximiteacute Deux composants qui sont proches ont tendance agrave ecirctre perccedilus comme un

seul composant

Similariteacute Les composants similaires sont perccedilus comme srsquoils eacutetaient regroupeacutes

Fermeture Les contours proches sont perccedilus comme unifieacutes

Continuiteacute Des eacuteleacutements voisins sont perccedilus groupeacutes lorsqursquoils possegravedent

potentiellement un trait qui les relie

Symeacutetrie Des eacuteleacutements sont perccedilus comme un eacuteleacutement global lorsqursquoils forment une

symeacutetrie

Trajectoire identique Des eacuteleacutements qui se deacuteplacent avec la mecircme trajectoire semblent groupeacutes

Familiariteacute Des eacuteleacutements sont plus facilement groupables si le groupe est familier ou

significatif

46

Cartographie de linformation- Composantes des applications cartographiques

2- Composante visuelle Theacuteorie de la Gestalt (1890)

47

Cartographie de linformation- Composantes des applications cartographiques

2- Composante visuelle Conception drsquoun langage graphique (JB Lamy)

1- Analyser les informations ou connaissances que lrsquoon souhaite repreacutesenter

Determiner les attributs qui

deacutefinissent les termes agrave repreacutesenter

bull Par exemple pour repreacutesenter

des maladies les attributs pourraient

ecirctre la localisation anatomique

(cardiaque reacutenale) la seacuteveacuteriteacute etc

2- Associer agrave chaque attribut une variable

reacutetinienne pour le repreacutesenter

bull Par exemple pour les maladies

Associer lrsquoattribut localisation

anatomique agrave la variable

formepictogramme

bull Repreacutesenter la seacuteveacuteriteacute par la variable

couleur

3- Les relations entre les diffeacuterents termes

repreacutesenteacutes doivent ecirctre expliciteacutees

48

Cartographie de linformation

Famille doutils et contextes applicatifs

1- Famille doutils

Typologies

Aperccedilu

Travaux pratiques

2- Contextes applicatifs

Eleacutements deacutevaluation

Les perspectives de la cartographie seacutemantique

49

Cartographie de linformation- Famille doutils et contextes applicatifs

1- Famille doutils

Typologies

Aperccedilu

TP agrave partir de la seacutelection httpdeliciouscommylk02Stage_Carto

Et encore httpwwwvisualcomplexitycomvc (plus de 500 projets dans le domaine)

50

Cartographie de linformation- Famille doutils et contextes applicatifs

1- Famille doutils typologies

11- Typologie scientifique eacutetablie selon des critegraveres internes au domaine

bull les trois principaux paradigmes technique de visualisation type de donneacutees et type dinteraction (Keim

DA 2002)

bull la nature des donneacutees unidimensionnelles bidimensionnelles tridimensionnelles temporelles

multidimensionnelles hieacuterarchiques reacuteseaux (Shneiderman B 1996)

12- Etat de lart eacutevaluation - benchmarking typologie orienteacutee usages (veille et intelligence eacuteconomique)

Quelques exemples

Inist httpoutilsveilleinistfr

Esiee httpwwwaa-esieecomevent2005AGClaudeAschenbrennerppt

Ecole des Mines httpwwwdemoscienceorgresources

Commercial httpwwwk-praxiscom

Commercial httpwwwinformation-mininginfostate_of_art

Universitaire httpwell-formed-datanetthesis

13- Typologie cartographique

Quelques exemples de bloggers

bull Claude Aschenbrenner httpwwwserialmappercomarchive20070110la-pierre-de-rosette-de-la-

cartographie-de-l-informationhtml avec son mode demploi

bull Kartoo httpwwwmapdreamcom

51

Cartographie de linformation- Famille doutils et contextes applicatifs

1- Famille doutils typologie scientifique

52

Cartographie de linformation- Famille doutils orienteacutes laquo bibliothegraveques raquo

2- Les outils de navigation et de recherche sur Internet (seacutelection de Pierre Nobis)

A- Les navigateurs Nestor Navicrawler

53

Cartographie de linformation- Famille doutils orienteacutes laquo bibliothegraveques raquo

2- Les outils de navigation et de recherche sur Internet (seacutelection de Pierre Nobis)

B- Les outils de visualisation des reacutesultats PageBull ManagedQ

Bbis Les outils de visualisation de reacutesultats dans les actualiteacutes

repreacutesentation carreacutee Marumushi - Google NewsNewsIsFree - The Hive Group Tenbyten -flux RSS des sources drsquoactualiteacutes internationales

repreacutesentation sous forme de graphe

Silobreaker

54

Cartographie de linformation- Famille doutils orienteacutes laquo bibliothegraveques raquo

2- Les outils de navigation et de recherche sur Internet

B-Les outils de visualisation des reacutesultats TouchGraph application Java permettant de cartographier les reacutesultats issus

notamment de Google Amazon PubMed Alexa FaceBook

55

Cartographie de linformation- Famille doutils orienteacutes laquo bibliothegraveques raquo

2- Les outils de navigation et de recherche sur Internet (seacutelection de Pierre Nobis)

C- Les outils de recherche avec ajout de termes associeacutes dans une colonne regroupement theacutematique nuage de laquo tags raquo

D- Meacutetamoteurs avec affichage de clusters sous forme de listes

Carrot2 Clusty-Vivissimo Iboogie Polymeta Turbo10 Webclust

56

Cartographie de linformation- Famille doutils orienteacutes laquo bibliothegraveques raquo

2- Les outils de navigation et de recherche sur Internet (seacutelection de Pierre Nobis)

E- Meacutetamoteurs avec affichage de clusters sous forme graphique

E1- repreacutesentation centreacutee Allplus WebBrain

Allplus est un meacutetamoteur agrave clusteacuterisation graphique qui interroge les bases de Ask Google Yahoo et Livepar le biais de lrsquooutil Polymeta Lrsquointerface cluster graph permet de visualiser les reacutesultats sous une forme graphique

Webbrain permet de visualiser et drsquoaffiner les reacutesultats drsquoune requecircte issus de lrsquoOpen Directory Project

57

Cartographie de linformation- Famille doutils orienteacutes laquo bibliothegraveques raquo

2- Les outils de navigation et de recherche sur Internet (seacutelection de Pierre Nobis)

E- Meacutetamoteurs avec affichage de clusters sous forme graphique

E2- Repreacutesentation circulaire Grokker

E3- Repreacutesentation topographique TooLeNet srsquoappuie sur les technologies de KartOO et sur lrsquoindex de

Yahoo pour effectuer des recherches selon 3 modes moteur annuaire et carte auxquels srsquoajoutent des

options de personnalisation et de classification assez avanceacutees

58

Cartographie de linformation- Famille doutils orienteacutes laquo bibliothegraveques raquo

3- Les Outils graphiques dexploration

Wikimindmap est un outil drsquointerrogation

et de repreacutesentation des informations issues

de Wikipedia sous forme de carte heuristique

Visuwords est un dictionnaire en ligne

qui preacutesente ses reacutesultats sous forme de laquo grappes raquo

Il utilise la base de donneacutees Wordnet

Code couleur pour les diffeacuterentes relations

seacutemantiques hieacuterarchiques entre les termes

ainsi que les synonymes et les antonymes

59

Cartographie de linformation- Famille doutils orienteacutes laquo bibliothegraveques raquo

4- Les outils de creacuteation (carto)graphiqueA- Pour meacutemoire les logiciels de creacuteation de cartes heuristiques et conceptuelles

Cmaptools est un logiciel gratuit (usage eacuteducatif) de creacuteation de cartes conceptuelles

Freemind est un logiciel libre et gratuit qui permet de reacutealiser des cartes heuristiques

Thinkgraph est un logiciel gratuit de dessin 2D orienteacute vers la reacutealisation de cartes conceptuelles

60

Cartographie de linformation- Famille doutils orienteacutes laquo bibliothegraveques raquo

4- Les outils de creacuteation (carto)graphique

B- Les outils drsquoeacutedition de graphes

Guess est un logiciel libre et gratuit deacuteveloppeacute par Eytan Adar qui permet de visualiser des

graphes statiques Options de modification de certains attributs (taille couleur forme

algorithmes de positionnementhellip)

Pajek est un logiciel libre et gratuit (usage non commercial) deacuteveloppeacute par V Batagelj et A

Mrvar qui permet de traiter des donneacutees de reacuteseaux de grande taille Pajek signifie araigneacutee

en slovegravene

C- Les outils en ligne

ManyEye service collaboratif deacuteveloppeacute par IBM gracircce auquel on peut geacuteneacuterer selon un

des modegraveles proposeacutes sa propre visualisation de lrsquoinformation (apregraves avoir teacuteleacuteverseacute ses

propres donneacutees)

IssueCrawler outil de web social mining utilisable agrave distance (chargement des URL)

reacutecupeacuteration graphique

61

Cartographie de linformation- Famille doutils et contextes applicatifs

2- Contextes applicatifs

Eleacutements deacutevaluation

Les perspectives de la cartographie seacutemantique

62

Cartographie de linformation- Famille doutils et contextes applicatifs

2- Contextes applicatifs Eleacutements deacutevaluation

21- Evaluation scientifique

Question de meacutethode Eacutevaluation des Interfaces Utilisateur drsquoInformation Bonnel et Chevalier 2006

Objectif proposer une meacutethodologie deacutevaluation permettant de comparer du point de vue de la

visualisation des reacutesultats agrave une requecircte les outils de recherche Google Vivisimo Ujiko Grokker Kartoo

Vios SmartWeb (prototype)

Evaluation des repreacutesentations graphiques geacuteneacuteraliteacutes (Tricot et Roche 2006)

bull Arborescences simples

habitude des utilisateurs (explorateur de fichiers informatiques) pas de problegravemes avec volume limiteacute

au-delagrave drsquoune certaine quantiteacute drsquoinformation les arborescences deviennent inefficaces

bull Arbres de cocircnes en 3D

posent des problegravemes agrave lrsquoutilisateur qui nrsquoa pas lrsquohabitude des espaces en 3D

effort cognitif plus eacuteleveacute et prise en main plus longue

bull Arbres hyperboliques

problegravemes des eacutetiquettes des eacuteleacutements (occlusion)

effet de zoom impreacutevisible

Lrsquoune des conclusions une seule visualisation ne permet pas de reacutepondre agrave toutes les questions

multiplier les possibiliteacutes de visualisation

63

Cartographie de linformation- Famille doutils et contextes applicatifs

2- Contextes applicatifs Eleacutements deacutevaluation

21- Evaluation scientifique doctorat en cours agrave lrsquoEBSI (Aline Creacutedeville)

bull Contexte visualisation de lrsquoinformation dans le contexte de recherche drsquoinformation

bull Point de vue de la seacutemiologie graphique

o principes les plus couramment utiliseacutes sont la proximiteacute (Grokker) lrsquoenglobage (Kartoo)

et la connectiviteacute (Auquabrowser)

omeacutetaphores visuelles pas toujours adeacutequates au web

bull Reacutesultats

o lrsquoinformation doit ecirctre structureacutee

o apports possible pour lrsquoexploration mais pas pour la recherche

64

Cartographie de linformation- Famille doutils et contextes applicatifs

2- Contextes applicatifs Eleacutements deacutevaluation

22- Evaluation en contexte dusage de recherche dinformations (Ciaccia Ihadjadene Martins 2006)

Objectif analyse de lrsquoinfluence du mode de preacutesentation des informations sur les processus cognitifs mis

en jeu par lrsquoutilisateur dans lrsquoactiviteacute de recherche drsquoinformations sur Internet

Outils eacutevalueacutes Kartoo (pour 18 usagers) et Mapstan (pour 16 usagers)

Principaux reacutesultats

Coucirct cognitif sans pour autant conduire agrave de meilleures performances (comparaison avec une

preacutesentation en liste)

Hypothegravese nouveauteacute de la preacutesentation versus habitude des preacutesentations verbales

Strateacutegie optimiseacutee preacuteciser la requecircte drsquoune recherche agrave but flou et se concentrer sur les informations

relieacutees agrave lrsquoobjectif de la question versus informations non relieacutees

Le sens de la visualisation doit ecirctre clarifieacute les systegravemes doivent faciliter la compreacutehension des

eacuteleacutements visualiseacutes

65

Cartographie de linformation- Famille doutils et contextes applicatifs

2- Contextes applicatifs Les perspectives de la cartographie seacutemantique (C Tricot de la seacutemantique agrave la carte)

Pour reacutesoudre la probleacutematique de la repreacutesentation de lrsquoinformation la visualisation de

lrsquoinformation seule ne suffit pas

La visualisation de lrsquoinformation permet uniquement de preacutesenter des donneacutees en leur

associant une repreacutesentation graphique

La cartographie seacutemantique se veut

Une meacutethode de cartographie reposant sur la seacutemantique dun domaine

Un processus de production de connaissances

donneacutees brutes -gt donneacutees structureacutees -gt donneacutees repreacutesenteacutees -gt donneacutees visualiseacutees

Un formalisme de description type Reacuteseaux seacutemantiques

Un langage de description cartographique

Une architecture multi-agents

66

Cartographie de linformation- Famille doutils et contextes applicatifs

2- Contextes applicatifs Les perspectives de la cartographie seacutemantique (C Tricot de la seacutemantique agrave la carte)

67

Cartographie de linformation- Famille doutils et contextes applicatifs

2- Contextes applicatifs Les perspectives de la cartographie seacutemantique

ldquoUne bonne structure repreacutesentative graphique pour un arbre de donneacutees est celle qui deacuteforme le moins les similitudes originales entre les uniteacutes de donneacutees (similitudes qui sont donneacutes par loutil de classification) ou en dautres termes deux individus (ou classes) qui sont proches lune de lautre le restent aussi possible que peut apregraves projection dans l`espace de visualisation et ceci doit ecirctre eacutevident(et veacuterifiable par une mesure de calcul de divergence) dans lenvironnement de visualisation ldquo Tricot 2006

Page 16: Cartographie de l'information- Composantes des - Urfist de Paris

16

Cartographie de linformation- Composantes des applications cartographiques

1- Composante calculatoire Data Mining

Meacutethodes Deacutefinition Usages Techniques (liste indicative)

Non superviseacutees Sans variable cible Pour deacutegager dun ensemble

dindividus des groupes homogegravenes

Ex typologie

Techniques agrave base de

reacuteseau de neurones

Classification ascendante

hieacuterarchique

Recherche dassociations

Superviseacutees Avec variable cible Pour expliquer etou preacutevoir un ou

plusieurs pheacutenomegravenes observables

et effectivement mesureacutes

Ex filtrage collaboratif

classifications

Techniques agrave base

darbres de deacutecision

Techniques agrave base de

reacuteseau de neurones

Reacuteduction de

donneacutees

Utiliseacutee en amont des

autres meacutethodes

Permettent de reacuteduire un ensemble

de donneacutees volumineux agrave un

ensemble de taille plus reacuteduite

eacutepureacute de ce que lon consideacuterera

comme de linformation non

pertinente ou non signifiante

comme du bruit

Techniques danalyse

factorielle type AFC

17

Cartographie de linformation- Composantes des applications cartographiques

1- Composante calculatoire Data Mining exemples

Classification Affecter un objet agrave une classe en fonction de ses caracteacuteristiques A1hellipAn

Exemples

Deacuteterminer si un message est un mail de SPAM ou non (2 classes)

Affecter une page web dans une des cateacutegories theacutematiques dun annuaire (multi-classes)

Meacutethode

Si pas de theacuteorie pour deacutefinir la classe en fonction de A1hellipAn alors on eacutetudie un ensemble

drsquoexemples pour lesquels on connaicirct A1hellipAn et la classe associeacutee et on construit un

modegravele

Classe = f(A1hellipAn)

Techniques

Analyse discriminante

Arbre de classification

Reacuteseaux de neurones

18

Cartographie de linformation- Composantes des applications cartographiques

1- Composante calculatoire Reacuteseau de neurones

Principe

Un neurone est une uniteacute de calcul eacuteleacutementaire combine des entreacutees x1x

nen une sortie o

Les entreacutees nont pas toutes la mecircme importance agrave chaque entreacutee xiest associeacute un poids (ou coefficient

synaptique) wi

Luniteacute calcule dabord lactiviteacute dentreacutee (somme pondeacutereacutee des entreacutees)

Coefficients synaptiques

Sont calculeacutes non a priori mais sur la base des valeurs disponibles principe fondamental de

lrsquoapprentissage

Apprendre crsquoest calculer les valeurs des coefficients synaptiques en fonction des exemples disponibles

Algorithme laquo drsquoentraicircnement raquo modifie les poids synaptiques en fonction drsquoun jeu de donneacutees

preacutesenteacutee en entreacutee du reacuteseau

Geacuteneacuteraliser

Lrsquointeacuterecirct des reacuteseaux de neurones reacuteside dans leur capaciteacute agrave geacuteneacuteraliser agrave partir du jeu de test

19

Illustration du reacuteseau de neurones

20

Cartographie de linformation- Composantes des applications cartographiques

1- Composante calculatoire Text Mining

DeacutefinitionProceacutedeacute consistant agrave syntheacutetiser (classer structurer reacutesumer hellip) les textes en analysant les relations les patterns

et les regravegles entre uniteacutes textuelles (mots groupes phrases documents)

Du Data Mining au Text Mining

Ajout de la lexicomeacutetrie

Comme en Data Mining on trouve en Text Mining

des algorithmes descriptifs recherche des thegravemes abordeacutes dans un ensemble (corpus) de documents sans

connaicirctre agrave lrsquoavance ces thegravemes

des algorithmes preacutedictifs recherche des regravegles permettant drsquoaffecter automatiquement un document agrave un

thegraveme parmi plusieurs thegravemes preacutedeacutefinis

Application des techniques de Data mining

Individus = documents

Caractegraveres des individus = thegravemestermes des documents

21

Text Mining Data Mining

Impleacutementation vaste

degraves 2000

Impleacutementation vaste

degraves 1994Maturiteacute

milliersmilliers Dimension

complexesimpleRepreacutesentation

non-structureacutestructureacuteStructure

textuelnumeacuterique amp

cateacutegorique Objet

Text MiningData Mining

22

Vue simplifieacutee du Text Mining

23

Analyse lexicomeacutetrique

Eliminer les mots vides Deacutecouper les textes en uniteacutes Lemmatiser Reacuteduire le nombre de termes agrave traiter

24

Anayse statistique

25

Term frequency (TF)

Un terme qui apparait plusieurs fois dans un document est plus

important qursquoun terme qui apparaicirct une seule fois

wij = Nombre drsquooccurrences du terme ti dans le document dj

TFij = Freacutequence du terme ti dans le document dj

j

ij

d

wTF

ij

26

Inverse document frequency (IDF)

Un terme qui apparaicirct dans peu de documents est un meilleur discriminant qursquoun terme qui apparaicirct dans tous les documents

bull dfi = nombre de documents contenant le terme ti

bull d = nombre de documents du corpus

Inverse document frequency

i

i

df

dIDF log

27

Pondeacuteration TF-IDF

TF-IDF signifie Term Frequency x Inverse Document

Frequency

bull Proposeacutee par [Salton 1989] mesure limportance drsquoun terme

dans un document relativement agrave lrsquoensemble des documents

bull tf ij = freacutequence du terme i dans le document j

df i = nombre de documents contenant le terme i

N = d = nombre de documents du corpus

28

Similariteacute entre documents

Permet de ranger les

documents par pertinence

Le cosinus de lrsquoangle est

souvent utiliseacute

2d1d

2dT

1d2d1d )cos(

bull gt cos( )ltcos( )

bull d2 est plus proche de d1que de d3

29

Cartographie de linformation- Composantes des applications cartographiques

1- Composante calculatoire Data Clustering ou partitionnement de donneacutees

Deacutefinition

Meacutethode statistique danalyse des donneacutees qui a pour but de regrouper un ensemble de donneacutees en

diffeacuterents paquets homogegravenes chaque sous-ensemble partage des caracteacuteristiques communes qui

correspondent le plus souvent agrave des critegraveres de proximiteacute que lon deacutefinit en introduisant des mesures

de distance

Principe

Pour obtenir un bon partitionnement il convient de

bull minimiser linertie intra-classe pour obtenir des grappes (cluster en anglais) les plus homogegravenes

possibles

bull maximiser linertie inter-classe afin dobtenir des sous-ensembles bien diffeacuterencieacutes

Composition

Un cluster est composeacute de

bull une liste de mots-cleacutes

bull une liste dassociations internes

bull une liste dassociations externes

bull une eacutetiquette

bull une liste de documents affecteacutes apregraves la classification

30

Cartographie de linformation- Composantes des applications cartographiques

1- Composante calculatoire DataClustering

bull Lassociation la plus forte permet de creacuteer le premier cluster ici laquoa-braquo)

bull Une nouvelle association peut donner lieu agrave un laquoenrichissementraquo de cluster laquoa-eraquo vient

enrichir le cluster laquoa-braquo qui contient deacutejagrave laquoaraquo) ou agrave une creacuteation de nouveau cluster (laquoc-draquo par

exemple)

Deacutefinitions

Web mining Data mining appliqueacute aux donneacutees de navigation sur le web

Objectifs du web mining

1 Optimiser la navigation dans un site web (confort des internautes)

2 Augmenter le nombre de pages consulteacutees et lrsquoimpact des liens et des banniegraveres publicitaires

3 Deacuteceler les centres drsquointeacuterecirct et donc les attentes des internautes visitant le site

Types dAnalyses

Statistique descriptive

bull laquo 70 des internautes ont consulteacute 3 pages ou moins raquo

bull laquo 40 des internautes accegravedent au site sans passer par la page drsquoaccueil raquo

Deacutetection des regravegles drsquoassociation

bull laquo 20 des internautes visitant la page A visitent la page B dans la mecircme session raquo

Segmentation des internautes

bull Selon les sites de provenance les pages drsquoentreacutee le nombre de pages consulteacutees les fichiers teacuteleacutechargeacutes les pages de sortie etc

1- Composante calculatoire Web Mining

Cartographie de linformation- Composantes des applications cartographiques

31

32

Cartographie de linformation- Composantes des applications cartographiques

1- Composante calculatoire Web Social Data Mining

Hypothegravese documentaire

Web structureacute par des laquo localiteacutes theacutematiques raquo deacutefinies par une forte correacutelation entre

contenu des documents et proximiteacute hypertexte dessinant comme un territoire

Probleacutematique de la laquo traccedilabiliteacute raquo du socialbull Le web se preacutesente comme une matrice technique distribueacutee faccedilonneacutee par des usages dont

le reacuteseau garde la meacutemoire bull Le seul fait dutiliser une technologie numeacuterique contribue agrave produire des traces et agrave

grande eacutechelle elles constituent un reacuteservoir immense de donneacutees disponibles

Principes hubs et autoriteacutes (Kleinberg et al)

bull Autoriteacutes ensemble des pages contenant les meilleures sources drsquoinformation pour un

thegraveme donneacute

bull Hubs pages pointant sur les autoriteacutes

bull Le calcul ressemble au calcul drsquoimportance drsquoun article par nombre de citations (les liens

du Web vus comme des recommendations)

Applications

Sujets controverseacutes ougrave le seul lexique nest pas discriminant

33

Cartographie de linformation- Composantes des applications cartographiques

2- Composante visuelle

Eleacutements de seacutemiologie graphique (J Bertin) Theacuteorie de la Gestalt

34

Cartographie de linformation- Composantes des applications cartographiques

2- Composante visuelle Eleacutements de seacutemiologie graphique (J Bertin)

35

Cartographie de linformation- Composantes des applications cartographiques

2- Composante visuelle Eleacutements de seacutemiologie graphique (J Bertin)

Type de dessin Signification

des signes Description Exemple

Graphis

me

Image non-

figurative Panseacutemique

Le systegraveme srsquoouvre agrave toute

signification Tableau drsquoart

Image

figurative Polyseacutemique

Le systegraveme a pour objectif de

deacutefinir un concept ou une ideacutee

mais les interpreacutetations peuvent

diverger

Photographie

aeacuterienne

Graphique Monoseacutemique

Transcriptions de relations entre

des concepts preacutealablement

deacutefinis

Un

organigramme

36

Cartographie de linformation- Composantes des applications cartographiques

2- Composante visuelle Eleacutements de seacutemiologie graphique (J Bertin)

laquo La graphique est un systegraveme de signes [structures visuelles] qui permet de transcrire les

relations de diffeacuterence drsquoordre ou de proportionnaliteacute existant entre des donneacutees qualitatives ou

quantitatives raquo [Bonin 1997]

laquo La carte est une image graphique qui transcrit les relations de proportionnaliteacute ordre et

diffeacuterence par des variations proportionnelles ordonneacutees et diffeacuterentielles raquo

37

Cartographie de linformation- Composantes des applications cartographiques

2- Composante visuelle Eleacutements de seacutemiologie graphique (J Bertin)

38

Cartographie de linformation- Composantes des applications cartographiques

2- Composante visuelle Eleacutements de seacutemiologie graphique (J Bertin)

39

Cartographie de linformation- Composantes des applications cartographiques

2- Composante visuelle Eleacutements de seacutemiologie graphique (J Bertin)

40

Cartographie de linformation- Composantes des applications cartographiques

2- Composante visuelle Eleacutements de seacutemiologie graphique (J Bertin)

41

Cartographie de linformation- Composantes des applications cartographiques

2- Composante visuelle Eleacutements de seacutemiologie graphique (J Bertin)

Variables visuelles (laquo variables reacutetiniennes raquo)

Variation des proprieacuteteacutes graphiques des structures visuelles

42

Cartographie de linformation- Composantes des applications cartographiques

2- Composante visuelle Eleacutements de seacutemiologie graphique (J Bertin)

Variables visuelles

Cartographie de linformation- Composantes des applications cartographiques

2- Composante visuelle Eleacutements de seacutemiologie graphique (J Bertin)

43

44

Cartographie de linformation- Composantes des applications cartographiques

2- Composante visuelle Theacuteorie de la Gestalt (1890)

Principe

Le contexte est tregraves important dans la perception visuelle [Guillaume]

Les structures visuelles ne sont pas indeacutependantes les unes des autres et le contexte est

important pour la signification qui leur est attribueacutee

En graphique

La perception visuelle srsquoattache agrave reconnaicirctre des modegraveles dans un ensemble de structures

visuelles

De cette theacuteorie reacutesultent des lois correspondant agrave des cateacutegories drsquointeractions possibles entre

les structures visuelles

45

Cartographie de linformation- Composantes des applications cartographiques

Lois Effets Illustrations

Preacutegnance Une image est facile agrave comprendre si sa structure est simple et inversement

Proximiteacute Deux composants qui sont proches ont tendance agrave ecirctre perccedilus comme un

seul composant

Similariteacute Les composants similaires sont perccedilus comme srsquoils eacutetaient regroupeacutes

Fermeture Les contours proches sont perccedilus comme unifieacutes

Continuiteacute Des eacuteleacutements voisins sont perccedilus groupeacutes lorsqursquoils possegravedent

potentiellement un trait qui les relie

Symeacutetrie Des eacuteleacutements sont perccedilus comme un eacuteleacutement global lorsqursquoils forment une

symeacutetrie

Trajectoire identique Des eacuteleacutements qui se deacuteplacent avec la mecircme trajectoire semblent groupeacutes

Familiariteacute Des eacuteleacutements sont plus facilement groupables si le groupe est familier ou

significatif

46

Cartographie de linformation- Composantes des applications cartographiques

2- Composante visuelle Theacuteorie de la Gestalt (1890)

47

Cartographie de linformation- Composantes des applications cartographiques

2- Composante visuelle Conception drsquoun langage graphique (JB Lamy)

1- Analyser les informations ou connaissances que lrsquoon souhaite repreacutesenter

Determiner les attributs qui

deacutefinissent les termes agrave repreacutesenter

bull Par exemple pour repreacutesenter

des maladies les attributs pourraient

ecirctre la localisation anatomique

(cardiaque reacutenale) la seacuteveacuteriteacute etc

2- Associer agrave chaque attribut une variable

reacutetinienne pour le repreacutesenter

bull Par exemple pour les maladies

Associer lrsquoattribut localisation

anatomique agrave la variable

formepictogramme

bull Repreacutesenter la seacuteveacuteriteacute par la variable

couleur

3- Les relations entre les diffeacuterents termes

repreacutesenteacutes doivent ecirctre expliciteacutees

48

Cartographie de linformation

Famille doutils et contextes applicatifs

1- Famille doutils

Typologies

Aperccedilu

Travaux pratiques

2- Contextes applicatifs

Eleacutements deacutevaluation

Les perspectives de la cartographie seacutemantique

49

Cartographie de linformation- Famille doutils et contextes applicatifs

1- Famille doutils

Typologies

Aperccedilu

TP agrave partir de la seacutelection httpdeliciouscommylk02Stage_Carto

Et encore httpwwwvisualcomplexitycomvc (plus de 500 projets dans le domaine)

50

Cartographie de linformation- Famille doutils et contextes applicatifs

1- Famille doutils typologies

11- Typologie scientifique eacutetablie selon des critegraveres internes au domaine

bull les trois principaux paradigmes technique de visualisation type de donneacutees et type dinteraction (Keim

DA 2002)

bull la nature des donneacutees unidimensionnelles bidimensionnelles tridimensionnelles temporelles

multidimensionnelles hieacuterarchiques reacuteseaux (Shneiderman B 1996)

12- Etat de lart eacutevaluation - benchmarking typologie orienteacutee usages (veille et intelligence eacuteconomique)

Quelques exemples

Inist httpoutilsveilleinistfr

Esiee httpwwwaa-esieecomevent2005AGClaudeAschenbrennerppt

Ecole des Mines httpwwwdemoscienceorgresources

Commercial httpwwwk-praxiscom

Commercial httpwwwinformation-mininginfostate_of_art

Universitaire httpwell-formed-datanetthesis

13- Typologie cartographique

Quelques exemples de bloggers

bull Claude Aschenbrenner httpwwwserialmappercomarchive20070110la-pierre-de-rosette-de-la-

cartographie-de-l-informationhtml avec son mode demploi

bull Kartoo httpwwwmapdreamcom

51

Cartographie de linformation- Famille doutils et contextes applicatifs

1- Famille doutils typologie scientifique

52

Cartographie de linformation- Famille doutils orienteacutes laquo bibliothegraveques raquo

2- Les outils de navigation et de recherche sur Internet (seacutelection de Pierre Nobis)

A- Les navigateurs Nestor Navicrawler

53

Cartographie de linformation- Famille doutils orienteacutes laquo bibliothegraveques raquo

2- Les outils de navigation et de recherche sur Internet (seacutelection de Pierre Nobis)

B- Les outils de visualisation des reacutesultats PageBull ManagedQ

Bbis Les outils de visualisation de reacutesultats dans les actualiteacutes

repreacutesentation carreacutee Marumushi - Google NewsNewsIsFree - The Hive Group Tenbyten -flux RSS des sources drsquoactualiteacutes internationales

repreacutesentation sous forme de graphe

Silobreaker

54

Cartographie de linformation- Famille doutils orienteacutes laquo bibliothegraveques raquo

2- Les outils de navigation et de recherche sur Internet

B-Les outils de visualisation des reacutesultats TouchGraph application Java permettant de cartographier les reacutesultats issus

notamment de Google Amazon PubMed Alexa FaceBook

55

Cartographie de linformation- Famille doutils orienteacutes laquo bibliothegraveques raquo

2- Les outils de navigation et de recherche sur Internet (seacutelection de Pierre Nobis)

C- Les outils de recherche avec ajout de termes associeacutes dans une colonne regroupement theacutematique nuage de laquo tags raquo

D- Meacutetamoteurs avec affichage de clusters sous forme de listes

Carrot2 Clusty-Vivissimo Iboogie Polymeta Turbo10 Webclust

56

Cartographie de linformation- Famille doutils orienteacutes laquo bibliothegraveques raquo

2- Les outils de navigation et de recherche sur Internet (seacutelection de Pierre Nobis)

E- Meacutetamoteurs avec affichage de clusters sous forme graphique

E1- repreacutesentation centreacutee Allplus WebBrain

Allplus est un meacutetamoteur agrave clusteacuterisation graphique qui interroge les bases de Ask Google Yahoo et Livepar le biais de lrsquooutil Polymeta Lrsquointerface cluster graph permet de visualiser les reacutesultats sous une forme graphique

Webbrain permet de visualiser et drsquoaffiner les reacutesultats drsquoune requecircte issus de lrsquoOpen Directory Project

57

Cartographie de linformation- Famille doutils orienteacutes laquo bibliothegraveques raquo

2- Les outils de navigation et de recherche sur Internet (seacutelection de Pierre Nobis)

E- Meacutetamoteurs avec affichage de clusters sous forme graphique

E2- Repreacutesentation circulaire Grokker

E3- Repreacutesentation topographique TooLeNet srsquoappuie sur les technologies de KartOO et sur lrsquoindex de

Yahoo pour effectuer des recherches selon 3 modes moteur annuaire et carte auxquels srsquoajoutent des

options de personnalisation et de classification assez avanceacutees

58

Cartographie de linformation- Famille doutils orienteacutes laquo bibliothegraveques raquo

3- Les Outils graphiques dexploration

Wikimindmap est un outil drsquointerrogation

et de repreacutesentation des informations issues

de Wikipedia sous forme de carte heuristique

Visuwords est un dictionnaire en ligne

qui preacutesente ses reacutesultats sous forme de laquo grappes raquo

Il utilise la base de donneacutees Wordnet

Code couleur pour les diffeacuterentes relations

seacutemantiques hieacuterarchiques entre les termes

ainsi que les synonymes et les antonymes

59

Cartographie de linformation- Famille doutils orienteacutes laquo bibliothegraveques raquo

4- Les outils de creacuteation (carto)graphiqueA- Pour meacutemoire les logiciels de creacuteation de cartes heuristiques et conceptuelles

Cmaptools est un logiciel gratuit (usage eacuteducatif) de creacuteation de cartes conceptuelles

Freemind est un logiciel libre et gratuit qui permet de reacutealiser des cartes heuristiques

Thinkgraph est un logiciel gratuit de dessin 2D orienteacute vers la reacutealisation de cartes conceptuelles

60

Cartographie de linformation- Famille doutils orienteacutes laquo bibliothegraveques raquo

4- Les outils de creacuteation (carto)graphique

B- Les outils drsquoeacutedition de graphes

Guess est un logiciel libre et gratuit deacuteveloppeacute par Eytan Adar qui permet de visualiser des

graphes statiques Options de modification de certains attributs (taille couleur forme

algorithmes de positionnementhellip)

Pajek est un logiciel libre et gratuit (usage non commercial) deacuteveloppeacute par V Batagelj et A

Mrvar qui permet de traiter des donneacutees de reacuteseaux de grande taille Pajek signifie araigneacutee

en slovegravene

C- Les outils en ligne

ManyEye service collaboratif deacuteveloppeacute par IBM gracircce auquel on peut geacuteneacuterer selon un

des modegraveles proposeacutes sa propre visualisation de lrsquoinformation (apregraves avoir teacuteleacuteverseacute ses

propres donneacutees)

IssueCrawler outil de web social mining utilisable agrave distance (chargement des URL)

reacutecupeacuteration graphique

61

Cartographie de linformation- Famille doutils et contextes applicatifs

2- Contextes applicatifs

Eleacutements deacutevaluation

Les perspectives de la cartographie seacutemantique

62

Cartographie de linformation- Famille doutils et contextes applicatifs

2- Contextes applicatifs Eleacutements deacutevaluation

21- Evaluation scientifique

Question de meacutethode Eacutevaluation des Interfaces Utilisateur drsquoInformation Bonnel et Chevalier 2006

Objectif proposer une meacutethodologie deacutevaluation permettant de comparer du point de vue de la

visualisation des reacutesultats agrave une requecircte les outils de recherche Google Vivisimo Ujiko Grokker Kartoo

Vios SmartWeb (prototype)

Evaluation des repreacutesentations graphiques geacuteneacuteraliteacutes (Tricot et Roche 2006)

bull Arborescences simples

habitude des utilisateurs (explorateur de fichiers informatiques) pas de problegravemes avec volume limiteacute

au-delagrave drsquoune certaine quantiteacute drsquoinformation les arborescences deviennent inefficaces

bull Arbres de cocircnes en 3D

posent des problegravemes agrave lrsquoutilisateur qui nrsquoa pas lrsquohabitude des espaces en 3D

effort cognitif plus eacuteleveacute et prise en main plus longue

bull Arbres hyperboliques

problegravemes des eacutetiquettes des eacuteleacutements (occlusion)

effet de zoom impreacutevisible

Lrsquoune des conclusions une seule visualisation ne permet pas de reacutepondre agrave toutes les questions

multiplier les possibiliteacutes de visualisation

63

Cartographie de linformation- Famille doutils et contextes applicatifs

2- Contextes applicatifs Eleacutements deacutevaluation

21- Evaluation scientifique doctorat en cours agrave lrsquoEBSI (Aline Creacutedeville)

bull Contexte visualisation de lrsquoinformation dans le contexte de recherche drsquoinformation

bull Point de vue de la seacutemiologie graphique

o principes les plus couramment utiliseacutes sont la proximiteacute (Grokker) lrsquoenglobage (Kartoo)

et la connectiviteacute (Auquabrowser)

omeacutetaphores visuelles pas toujours adeacutequates au web

bull Reacutesultats

o lrsquoinformation doit ecirctre structureacutee

o apports possible pour lrsquoexploration mais pas pour la recherche

64

Cartographie de linformation- Famille doutils et contextes applicatifs

2- Contextes applicatifs Eleacutements deacutevaluation

22- Evaluation en contexte dusage de recherche dinformations (Ciaccia Ihadjadene Martins 2006)

Objectif analyse de lrsquoinfluence du mode de preacutesentation des informations sur les processus cognitifs mis

en jeu par lrsquoutilisateur dans lrsquoactiviteacute de recherche drsquoinformations sur Internet

Outils eacutevalueacutes Kartoo (pour 18 usagers) et Mapstan (pour 16 usagers)

Principaux reacutesultats

Coucirct cognitif sans pour autant conduire agrave de meilleures performances (comparaison avec une

preacutesentation en liste)

Hypothegravese nouveauteacute de la preacutesentation versus habitude des preacutesentations verbales

Strateacutegie optimiseacutee preacuteciser la requecircte drsquoune recherche agrave but flou et se concentrer sur les informations

relieacutees agrave lrsquoobjectif de la question versus informations non relieacutees

Le sens de la visualisation doit ecirctre clarifieacute les systegravemes doivent faciliter la compreacutehension des

eacuteleacutements visualiseacutes

65

Cartographie de linformation- Famille doutils et contextes applicatifs

2- Contextes applicatifs Les perspectives de la cartographie seacutemantique (C Tricot de la seacutemantique agrave la carte)

Pour reacutesoudre la probleacutematique de la repreacutesentation de lrsquoinformation la visualisation de

lrsquoinformation seule ne suffit pas

La visualisation de lrsquoinformation permet uniquement de preacutesenter des donneacutees en leur

associant une repreacutesentation graphique

La cartographie seacutemantique se veut

Une meacutethode de cartographie reposant sur la seacutemantique dun domaine

Un processus de production de connaissances

donneacutees brutes -gt donneacutees structureacutees -gt donneacutees repreacutesenteacutees -gt donneacutees visualiseacutees

Un formalisme de description type Reacuteseaux seacutemantiques

Un langage de description cartographique

Une architecture multi-agents

66

Cartographie de linformation- Famille doutils et contextes applicatifs

2- Contextes applicatifs Les perspectives de la cartographie seacutemantique (C Tricot de la seacutemantique agrave la carte)

67

Cartographie de linformation- Famille doutils et contextes applicatifs

2- Contextes applicatifs Les perspectives de la cartographie seacutemantique

ldquoUne bonne structure repreacutesentative graphique pour un arbre de donneacutees est celle qui deacuteforme le moins les similitudes originales entre les uniteacutes de donneacutees (similitudes qui sont donneacutes par loutil de classification) ou en dautres termes deux individus (ou classes) qui sont proches lune de lautre le restent aussi possible que peut apregraves projection dans l`espace de visualisation et ceci doit ecirctre eacutevident(et veacuterifiable par une mesure de calcul de divergence) dans lenvironnement de visualisation ldquo Tricot 2006

Page 17: Cartographie de l'information- Composantes des - Urfist de Paris

17

Cartographie de linformation- Composantes des applications cartographiques

1- Composante calculatoire Data Mining exemples

Classification Affecter un objet agrave une classe en fonction de ses caracteacuteristiques A1hellipAn

Exemples

Deacuteterminer si un message est un mail de SPAM ou non (2 classes)

Affecter une page web dans une des cateacutegories theacutematiques dun annuaire (multi-classes)

Meacutethode

Si pas de theacuteorie pour deacutefinir la classe en fonction de A1hellipAn alors on eacutetudie un ensemble

drsquoexemples pour lesquels on connaicirct A1hellipAn et la classe associeacutee et on construit un

modegravele

Classe = f(A1hellipAn)

Techniques

Analyse discriminante

Arbre de classification

Reacuteseaux de neurones

18

Cartographie de linformation- Composantes des applications cartographiques

1- Composante calculatoire Reacuteseau de neurones

Principe

Un neurone est une uniteacute de calcul eacuteleacutementaire combine des entreacutees x1x

nen une sortie o

Les entreacutees nont pas toutes la mecircme importance agrave chaque entreacutee xiest associeacute un poids (ou coefficient

synaptique) wi

Luniteacute calcule dabord lactiviteacute dentreacutee (somme pondeacutereacutee des entreacutees)

Coefficients synaptiques

Sont calculeacutes non a priori mais sur la base des valeurs disponibles principe fondamental de

lrsquoapprentissage

Apprendre crsquoest calculer les valeurs des coefficients synaptiques en fonction des exemples disponibles

Algorithme laquo drsquoentraicircnement raquo modifie les poids synaptiques en fonction drsquoun jeu de donneacutees

preacutesenteacutee en entreacutee du reacuteseau

Geacuteneacuteraliser

Lrsquointeacuterecirct des reacuteseaux de neurones reacuteside dans leur capaciteacute agrave geacuteneacuteraliser agrave partir du jeu de test

19

Illustration du reacuteseau de neurones

20

Cartographie de linformation- Composantes des applications cartographiques

1- Composante calculatoire Text Mining

DeacutefinitionProceacutedeacute consistant agrave syntheacutetiser (classer structurer reacutesumer hellip) les textes en analysant les relations les patterns

et les regravegles entre uniteacutes textuelles (mots groupes phrases documents)

Du Data Mining au Text Mining

Ajout de la lexicomeacutetrie

Comme en Data Mining on trouve en Text Mining

des algorithmes descriptifs recherche des thegravemes abordeacutes dans un ensemble (corpus) de documents sans

connaicirctre agrave lrsquoavance ces thegravemes

des algorithmes preacutedictifs recherche des regravegles permettant drsquoaffecter automatiquement un document agrave un

thegraveme parmi plusieurs thegravemes preacutedeacutefinis

Application des techniques de Data mining

Individus = documents

Caractegraveres des individus = thegravemestermes des documents

21

Text Mining Data Mining

Impleacutementation vaste

degraves 2000

Impleacutementation vaste

degraves 1994Maturiteacute

milliersmilliers Dimension

complexesimpleRepreacutesentation

non-structureacutestructureacuteStructure

textuelnumeacuterique amp

cateacutegorique Objet

Text MiningData Mining

22

Vue simplifieacutee du Text Mining

23

Analyse lexicomeacutetrique

Eliminer les mots vides Deacutecouper les textes en uniteacutes Lemmatiser Reacuteduire le nombre de termes agrave traiter

24

Anayse statistique

25

Term frequency (TF)

Un terme qui apparait plusieurs fois dans un document est plus

important qursquoun terme qui apparaicirct une seule fois

wij = Nombre drsquooccurrences du terme ti dans le document dj

TFij = Freacutequence du terme ti dans le document dj

j

ij

d

wTF

ij

26

Inverse document frequency (IDF)

Un terme qui apparaicirct dans peu de documents est un meilleur discriminant qursquoun terme qui apparaicirct dans tous les documents

bull dfi = nombre de documents contenant le terme ti

bull d = nombre de documents du corpus

Inverse document frequency

i

i

df

dIDF log

27

Pondeacuteration TF-IDF

TF-IDF signifie Term Frequency x Inverse Document

Frequency

bull Proposeacutee par [Salton 1989] mesure limportance drsquoun terme

dans un document relativement agrave lrsquoensemble des documents

bull tf ij = freacutequence du terme i dans le document j

df i = nombre de documents contenant le terme i

N = d = nombre de documents du corpus

28

Similariteacute entre documents

Permet de ranger les

documents par pertinence

Le cosinus de lrsquoangle est

souvent utiliseacute

2d1d

2dT

1d2d1d )cos(

bull gt cos( )ltcos( )

bull d2 est plus proche de d1que de d3

29

Cartographie de linformation- Composantes des applications cartographiques

1- Composante calculatoire Data Clustering ou partitionnement de donneacutees

Deacutefinition

Meacutethode statistique danalyse des donneacutees qui a pour but de regrouper un ensemble de donneacutees en

diffeacuterents paquets homogegravenes chaque sous-ensemble partage des caracteacuteristiques communes qui

correspondent le plus souvent agrave des critegraveres de proximiteacute que lon deacutefinit en introduisant des mesures

de distance

Principe

Pour obtenir un bon partitionnement il convient de

bull minimiser linertie intra-classe pour obtenir des grappes (cluster en anglais) les plus homogegravenes

possibles

bull maximiser linertie inter-classe afin dobtenir des sous-ensembles bien diffeacuterencieacutes

Composition

Un cluster est composeacute de

bull une liste de mots-cleacutes

bull une liste dassociations internes

bull une liste dassociations externes

bull une eacutetiquette

bull une liste de documents affecteacutes apregraves la classification

30

Cartographie de linformation- Composantes des applications cartographiques

1- Composante calculatoire DataClustering

bull Lassociation la plus forte permet de creacuteer le premier cluster ici laquoa-braquo)

bull Une nouvelle association peut donner lieu agrave un laquoenrichissementraquo de cluster laquoa-eraquo vient

enrichir le cluster laquoa-braquo qui contient deacutejagrave laquoaraquo) ou agrave une creacuteation de nouveau cluster (laquoc-draquo par

exemple)

Deacutefinitions

Web mining Data mining appliqueacute aux donneacutees de navigation sur le web

Objectifs du web mining

1 Optimiser la navigation dans un site web (confort des internautes)

2 Augmenter le nombre de pages consulteacutees et lrsquoimpact des liens et des banniegraveres publicitaires

3 Deacuteceler les centres drsquointeacuterecirct et donc les attentes des internautes visitant le site

Types dAnalyses

Statistique descriptive

bull laquo 70 des internautes ont consulteacute 3 pages ou moins raquo

bull laquo 40 des internautes accegravedent au site sans passer par la page drsquoaccueil raquo

Deacutetection des regravegles drsquoassociation

bull laquo 20 des internautes visitant la page A visitent la page B dans la mecircme session raquo

Segmentation des internautes

bull Selon les sites de provenance les pages drsquoentreacutee le nombre de pages consulteacutees les fichiers teacuteleacutechargeacutes les pages de sortie etc

1- Composante calculatoire Web Mining

Cartographie de linformation- Composantes des applications cartographiques

31

32

Cartographie de linformation- Composantes des applications cartographiques

1- Composante calculatoire Web Social Data Mining

Hypothegravese documentaire

Web structureacute par des laquo localiteacutes theacutematiques raquo deacutefinies par une forte correacutelation entre

contenu des documents et proximiteacute hypertexte dessinant comme un territoire

Probleacutematique de la laquo traccedilabiliteacute raquo du socialbull Le web se preacutesente comme une matrice technique distribueacutee faccedilonneacutee par des usages dont

le reacuteseau garde la meacutemoire bull Le seul fait dutiliser une technologie numeacuterique contribue agrave produire des traces et agrave

grande eacutechelle elles constituent un reacuteservoir immense de donneacutees disponibles

Principes hubs et autoriteacutes (Kleinberg et al)

bull Autoriteacutes ensemble des pages contenant les meilleures sources drsquoinformation pour un

thegraveme donneacute

bull Hubs pages pointant sur les autoriteacutes

bull Le calcul ressemble au calcul drsquoimportance drsquoun article par nombre de citations (les liens

du Web vus comme des recommendations)

Applications

Sujets controverseacutes ougrave le seul lexique nest pas discriminant

33

Cartographie de linformation- Composantes des applications cartographiques

2- Composante visuelle

Eleacutements de seacutemiologie graphique (J Bertin) Theacuteorie de la Gestalt

34

Cartographie de linformation- Composantes des applications cartographiques

2- Composante visuelle Eleacutements de seacutemiologie graphique (J Bertin)

35

Cartographie de linformation- Composantes des applications cartographiques

2- Composante visuelle Eleacutements de seacutemiologie graphique (J Bertin)

Type de dessin Signification

des signes Description Exemple

Graphis

me

Image non-

figurative Panseacutemique

Le systegraveme srsquoouvre agrave toute

signification Tableau drsquoart

Image

figurative Polyseacutemique

Le systegraveme a pour objectif de

deacutefinir un concept ou une ideacutee

mais les interpreacutetations peuvent

diverger

Photographie

aeacuterienne

Graphique Monoseacutemique

Transcriptions de relations entre

des concepts preacutealablement

deacutefinis

Un

organigramme

36

Cartographie de linformation- Composantes des applications cartographiques

2- Composante visuelle Eleacutements de seacutemiologie graphique (J Bertin)

laquo La graphique est un systegraveme de signes [structures visuelles] qui permet de transcrire les

relations de diffeacuterence drsquoordre ou de proportionnaliteacute existant entre des donneacutees qualitatives ou

quantitatives raquo [Bonin 1997]

laquo La carte est une image graphique qui transcrit les relations de proportionnaliteacute ordre et

diffeacuterence par des variations proportionnelles ordonneacutees et diffeacuterentielles raquo

37

Cartographie de linformation- Composantes des applications cartographiques

2- Composante visuelle Eleacutements de seacutemiologie graphique (J Bertin)

38

Cartographie de linformation- Composantes des applications cartographiques

2- Composante visuelle Eleacutements de seacutemiologie graphique (J Bertin)

39

Cartographie de linformation- Composantes des applications cartographiques

2- Composante visuelle Eleacutements de seacutemiologie graphique (J Bertin)

40

Cartographie de linformation- Composantes des applications cartographiques

2- Composante visuelle Eleacutements de seacutemiologie graphique (J Bertin)

41

Cartographie de linformation- Composantes des applications cartographiques

2- Composante visuelle Eleacutements de seacutemiologie graphique (J Bertin)

Variables visuelles (laquo variables reacutetiniennes raquo)

Variation des proprieacuteteacutes graphiques des structures visuelles

42

Cartographie de linformation- Composantes des applications cartographiques

2- Composante visuelle Eleacutements de seacutemiologie graphique (J Bertin)

Variables visuelles

Cartographie de linformation- Composantes des applications cartographiques

2- Composante visuelle Eleacutements de seacutemiologie graphique (J Bertin)

43

44

Cartographie de linformation- Composantes des applications cartographiques

2- Composante visuelle Theacuteorie de la Gestalt (1890)

Principe

Le contexte est tregraves important dans la perception visuelle [Guillaume]

Les structures visuelles ne sont pas indeacutependantes les unes des autres et le contexte est

important pour la signification qui leur est attribueacutee

En graphique

La perception visuelle srsquoattache agrave reconnaicirctre des modegraveles dans un ensemble de structures

visuelles

De cette theacuteorie reacutesultent des lois correspondant agrave des cateacutegories drsquointeractions possibles entre

les structures visuelles

45

Cartographie de linformation- Composantes des applications cartographiques

Lois Effets Illustrations

Preacutegnance Une image est facile agrave comprendre si sa structure est simple et inversement

Proximiteacute Deux composants qui sont proches ont tendance agrave ecirctre perccedilus comme un

seul composant

Similariteacute Les composants similaires sont perccedilus comme srsquoils eacutetaient regroupeacutes

Fermeture Les contours proches sont perccedilus comme unifieacutes

Continuiteacute Des eacuteleacutements voisins sont perccedilus groupeacutes lorsqursquoils possegravedent

potentiellement un trait qui les relie

Symeacutetrie Des eacuteleacutements sont perccedilus comme un eacuteleacutement global lorsqursquoils forment une

symeacutetrie

Trajectoire identique Des eacuteleacutements qui se deacuteplacent avec la mecircme trajectoire semblent groupeacutes

Familiariteacute Des eacuteleacutements sont plus facilement groupables si le groupe est familier ou

significatif

46

Cartographie de linformation- Composantes des applications cartographiques

2- Composante visuelle Theacuteorie de la Gestalt (1890)

47

Cartographie de linformation- Composantes des applications cartographiques

2- Composante visuelle Conception drsquoun langage graphique (JB Lamy)

1- Analyser les informations ou connaissances que lrsquoon souhaite repreacutesenter

Determiner les attributs qui

deacutefinissent les termes agrave repreacutesenter

bull Par exemple pour repreacutesenter

des maladies les attributs pourraient

ecirctre la localisation anatomique

(cardiaque reacutenale) la seacuteveacuteriteacute etc

2- Associer agrave chaque attribut une variable

reacutetinienne pour le repreacutesenter

bull Par exemple pour les maladies

Associer lrsquoattribut localisation

anatomique agrave la variable

formepictogramme

bull Repreacutesenter la seacuteveacuteriteacute par la variable

couleur

3- Les relations entre les diffeacuterents termes

repreacutesenteacutes doivent ecirctre expliciteacutees

48

Cartographie de linformation

Famille doutils et contextes applicatifs

1- Famille doutils

Typologies

Aperccedilu

Travaux pratiques

2- Contextes applicatifs

Eleacutements deacutevaluation

Les perspectives de la cartographie seacutemantique

49

Cartographie de linformation- Famille doutils et contextes applicatifs

1- Famille doutils

Typologies

Aperccedilu

TP agrave partir de la seacutelection httpdeliciouscommylk02Stage_Carto

Et encore httpwwwvisualcomplexitycomvc (plus de 500 projets dans le domaine)

50

Cartographie de linformation- Famille doutils et contextes applicatifs

1- Famille doutils typologies

11- Typologie scientifique eacutetablie selon des critegraveres internes au domaine

bull les trois principaux paradigmes technique de visualisation type de donneacutees et type dinteraction (Keim

DA 2002)

bull la nature des donneacutees unidimensionnelles bidimensionnelles tridimensionnelles temporelles

multidimensionnelles hieacuterarchiques reacuteseaux (Shneiderman B 1996)

12- Etat de lart eacutevaluation - benchmarking typologie orienteacutee usages (veille et intelligence eacuteconomique)

Quelques exemples

Inist httpoutilsveilleinistfr

Esiee httpwwwaa-esieecomevent2005AGClaudeAschenbrennerppt

Ecole des Mines httpwwwdemoscienceorgresources

Commercial httpwwwk-praxiscom

Commercial httpwwwinformation-mininginfostate_of_art

Universitaire httpwell-formed-datanetthesis

13- Typologie cartographique

Quelques exemples de bloggers

bull Claude Aschenbrenner httpwwwserialmappercomarchive20070110la-pierre-de-rosette-de-la-

cartographie-de-l-informationhtml avec son mode demploi

bull Kartoo httpwwwmapdreamcom

51

Cartographie de linformation- Famille doutils et contextes applicatifs

1- Famille doutils typologie scientifique

52

Cartographie de linformation- Famille doutils orienteacutes laquo bibliothegraveques raquo

2- Les outils de navigation et de recherche sur Internet (seacutelection de Pierre Nobis)

A- Les navigateurs Nestor Navicrawler

53

Cartographie de linformation- Famille doutils orienteacutes laquo bibliothegraveques raquo

2- Les outils de navigation et de recherche sur Internet (seacutelection de Pierre Nobis)

B- Les outils de visualisation des reacutesultats PageBull ManagedQ

Bbis Les outils de visualisation de reacutesultats dans les actualiteacutes

repreacutesentation carreacutee Marumushi - Google NewsNewsIsFree - The Hive Group Tenbyten -flux RSS des sources drsquoactualiteacutes internationales

repreacutesentation sous forme de graphe

Silobreaker

54

Cartographie de linformation- Famille doutils orienteacutes laquo bibliothegraveques raquo

2- Les outils de navigation et de recherche sur Internet

B-Les outils de visualisation des reacutesultats TouchGraph application Java permettant de cartographier les reacutesultats issus

notamment de Google Amazon PubMed Alexa FaceBook

55

Cartographie de linformation- Famille doutils orienteacutes laquo bibliothegraveques raquo

2- Les outils de navigation et de recherche sur Internet (seacutelection de Pierre Nobis)

C- Les outils de recherche avec ajout de termes associeacutes dans une colonne regroupement theacutematique nuage de laquo tags raquo

D- Meacutetamoteurs avec affichage de clusters sous forme de listes

Carrot2 Clusty-Vivissimo Iboogie Polymeta Turbo10 Webclust

56

Cartographie de linformation- Famille doutils orienteacutes laquo bibliothegraveques raquo

2- Les outils de navigation et de recherche sur Internet (seacutelection de Pierre Nobis)

E- Meacutetamoteurs avec affichage de clusters sous forme graphique

E1- repreacutesentation centreacutee Allplus WebBrain

Allplus est un meacutetamoteur agrave clusteacuterisation graphique qui interroge les bases de Ask Google Yahoo et Livepar le biais de lrsquooutil Polymeta Lrsquointerface cluster graph permet de visualiser les reacutesultats sous une forme graphique

Webbrain permet de visualiser et drsquoaffiner les reacutesultats drsquoune requecircte issus de lrsquoOpen Directory Project

57

Cartographie de linformation- Famille doutils orienteacutes laquo bibliothegraveques raquo

2- Les outils de navigation et de recherche sur Internet (seacutelection de Pierre Nobis)

E- Meacutetamoteurs avec affichage de clusters sous forme graphique

E2- Repreacutesentation circulaire Grokker

E3- Repreacutesentation topographique TooLeNet srsquoappuie sur les technologies de KartOO et sur lrsquoindex de

Yahoo pour effectuer des recherches selon 3 modes moteur annuaire et carte auxquels srsquoajoutent des

options de personnalisation et de classification assez avanceacutees

58

Cartographie de linformation- Famille doutils orienteacutes laquo bibliothegraveques raquo

3- Les Outils graphiques dexploration

Wikimindmap est un outil drsquointerrogation

et de repreacutesentation des informations issues

de Wikipedia sous forme de carte heuristique

Visuwords est un dictionnaire en ligne

qui preacutesente ses reacutesultats sous forme de laquo grappes raquo

Il utilise la base de donneacutees Wordnet

Code couleur pour les diffeacuterentes relations

seacutemantiques hieacuterarchiques entre les termes

ainsi que les synonymes et les antonymes

59

Cartographie de linformation- Famille doutils orienteacutes laquo bibliothegraveques raquo

4- Les outils de creacuteation (carto)graphiqueA- Pour meacutemoire les logiciels de creacuteation de cartes heuristiques et conceptuelles

Cmaptools est un logiciel gratuit (usage eacuteducatif) de creacuteation de cartes conceptuelles

Freemind est un logiciel libre et gratuit qui permet de reacutealiser des cartes heuristiques

Thinkgraph est un logiciel gratuit de dessin 2D orienteacute vers la reacutealisation de cartes conceptuelles

60

Cartographie de linformation- Famille doutils orienteacutes laquo bibliothegraveques raquo

4- Les outils de creacuteation (carto)graphique

B- Les outils drsquoeacutedition de graphes

Guess est un logiciel libre et gratuit deacuteveloppeacute par Eytan Adar qui permet de visualiser des

graphes statiques Options de modification de certains attributs (taille couleur forme

algorithmes de positionnementhellip)

Pajek est un logiciel libre et gratuit (usage non commercial) deacuteveloppeacute par V Batagelj et A

Mrvar qui permet de traiter des donneacutees de reacuteseaux de grande taille Pajek signifie araigneacutee

en slovegravene

C- Les outils en ligne

ManyEye service collaboratif deacuteveloppeacute par IBM gracircce auquel on peut geacuteneacuterer selon un

des modegraveles proposeacutes sa propre visualisation de lrsquoinformation (apregraves avoir teacuteleacuteverseacute ses

propres donneacutees)

IssueCrawler outil de web social mining utilisable agrave distance (chargement des URL)

reacutecupeacuteration graphique

61

Cartographie de linformation- Famille doutils et contextes applicatifs

2- Contextes applicatifs

Eleacutements deacutevaluation

Les perspectives de la cartographie seacutemantique

62

Cartographie de linformation- Famille doutils et contextes applicatifs

2- Contextes applicatifs Eleacutements deacutevaluation

21- Evaluation scientifique

Question de meacutethode Eacutevaluation des Interfaces Utilisateur drsquoInformation Bonnel et Chevalier 2006

Objectif proposer une meacutethodologie deacutevaluation permettant de comparer du point de vue de la

visualisation des reacutesultats agrave une requecircte les outils de recherche Google Vivisimo Ujiko Grokker Kartoo

Vios SmartWeb (prototype)

Evaluation des repreacutesentations graphiques geacuteneacuteraliteacutes (Tricot et Roche 2006)

bull Arborescences simples

habitude des utilisateurs (explorateur de fichiers informatiques) pas de problegravemes avec volume limiteacute

au-delagrave drsquoune certaine quantiteacute drsquoinformation les arborescences deviennent inefficaces

bull Arbres de cocircnes en 3D

posent des problegravemes agrave lrsquoutilisateur qui nrsquoa pas lrsquohabitude des espaces en 3D

effort cognitif plus eacuteleveacute et prise en main plus longue

bull Arbres hyperboliques

problegravemes des eacutetiquettes des eacuteleacutements (occlusion)

effet de zoom impreacutevisible

Lrsquoune des conclusions une seule visualisation ne permet pas de reacutepondre agrave toutes les questions

multiplier les possibiliteacutes de visualisation

63

Cartographie de linformation- Famille doutils et contextes applicatifs

2- Contextes applicatifs Eleacutements deacutevaluation

21- Evaluation scientifique doctorat en cours agrave lrsquoEBSI (Aline Creacutedeville)

bull Contexte visualisation de lrsquoinformation dans le contexte de recherche drsquoinformation

bull Point de vue de la seacutemiologie graphique

o principes les plus couramment utiliseacutes sont la proximiteacute (Grokker) lrsquoenglobage (Kartoo)

et la connectiviteacute (Auquabrowser)

omeacutetaphores visuelles pas toujours adeacutequates au web

bull Reacutesultats

o lrsquoinformation doit ecirctre structureacutee

o apports possible pour lrsquoexploration mais pas pour la recherche

64

Cartographie de linformation- Famille doutils et contextes applicatifs

2- Contextes applicatifs Eleacutements deacutevaluation

22- Evaluation en contexte dusage de recherche dinformations (Ciaccia Ihadjadene Martins 2006)

Objectif analyse de lrsquoinfluence du mode de preacutesentation des informations sur les processus cognitifs mis

en jeu par lrsquoutilisateur dans lrsquoactiviteacute de recherche drsquoinformations sur Internet

Outils eacutevalueacutes Kartoo (pour 18 usagers) et Mapstan (pour 16 usagers)

Principaux reacutesultats

Coucirct cognitif sans pour autant conduire agrave de meilleures performances (comparaison avec une

preacutesentation en liste)

Hypothegravese nouveauteacute de la preacutesentation versus habitude des preacutesentations verbales

Strateacutegie optimiseacutee preacuteciser la requecircte drsquoune recherche agrave but flou et se concentrer sur les informations

relieacutees agrave lrsquoobjectif de la question versus informations non relieacutees

Le sens de la visualisation doit ecirctre clarifieacute les systegravemes doivent faciliter la compreacutehension des

eacuteleacutements visualiseacutes

65

Cartographie de linformation- Famille doutils et contextes applicatifs

2- Contextes applicatifs Les perspectives de la cartographie seacutemantique (C Tricot de la seacutemantique agrave la carte)

Pour reacutesoudre la probleacutematique de la repreacutesentation de lrsquoinformation la visualisation de

lrsquoinformation seule ne suffit pas

La visualisation de lrsquoinformation permet uniquement de preacutesenter des donneacutees en leur

associant une repreacutesentation graphique

La cartographie seacutemantique se veut

Une meacutethode de cartographie reposant sur la seacutemantique dun domaine

Un processus de production de connaissances

donneacutees brutes -gt donneacutees structureacutees -gt donneacutees repreacutesenteacutees -gt donneacutees visualiseacutees

Un formalisme de description type Reacuteseaux seacutemantiques

Un langage de description cartographique

Une architecture multi-agents

66

Cartographie de linformation- Famille doutils et contextes applicatifs

2- Contextes applicatifs Les perspectives de la cartographie seacutemantique (C Tricot de la seacutemantique agrave la carte)

67

Cartographie de linformation- Famille doutils et contextes applicatifs

2- Contextes applicatifs Les perspectives de la cartographie seacutemantique

ldquoUne bonne structure repreacutesentative graphique pour un arbre de donneacutees est celle qui deacuteforme le moins les similitudes originales entre les uniteacutes de donneacutees (similitudes qui sont donneacutes par loutil de classification) ou en dautres termes deux individus (ou classes) qui sont proches lune de lautre le restent aussi possible que peut apregraves projection dans l`espace de visualisation et ceci doit ecirctre eacutevident(et veacuterifiable par une mesure de calcul de divergence) dans lenvironnement de visualisation ldquo Tricot 2006

Page 18: Cartographie de l'information- Composantes des - Urfist de Paris

18

Cartographie de linformation- Composantes des applications cartographiques

1- Composante calculatoire Reacuteseau de neurones

Principe

Un neurone est une uniteacute de calcul eacuteleacutementaire combine des entreacutees x1x

nen une sortie o

Les entreacutees nont pas toutes la mecircme importance agrave chaque entreacutee xiest associeacute un poids (ou coefficient

synaptique) wi

Luniteacute calcule dabord lactiviteacute dentreacutee (somme pondeacutereacutee des entreacutees)

Coefficients synaptiques

Sont calculeacutes non a priori mais sur la base des valeurs disponibles principe fondamental de

lrsquoapprentissage

Apprendre crsquoest calculer les valeurs des coefficients synaptiques en fonction des exemples disponibles

Algorithme laquo drsquoentraicircnement raquo modifie les poids synaptiques en fonction drsquoun jeu de donneacutees

preacutesenteacutee en entreacutee du reacuteseau

Geacuteneacuteraliser

Lrsquointeacuterecirct des reacuteseaux de neurones reacuteside dans leur capaciteacute agrave geacuteneacuteraliser agrave partir du jeu de test

19

Illustration du reacuteseau de neurones

20

Cartographie de linformation- Composantes des applications cartographiques

1- Composante calculatoire Text Mining

DeacutefinitionProceacutedeacute consistant agrave syntheacutetiser (classer structurer reacutesumer hellip) les textes en analysant les relations les patterns

et les regravegles entre uniteacutes textuelles (mots groupes phrases documents)

Du Data Mining au Text Mining

Ajout de la lexicomeacutetrie

Comme en Data Mining on trouve en Text Mining

des algorithmes descriptifs recherche des thegravemes abordeacutes dans un ensemble (corpus) de documents sans

connaicirctre agrave lrsquoavance ces thegravemes

des algorithmes preacutedictifs recherche des regravegles permettant drsquoaffecter automatiquement un document agrave un

thegraveme parmi plusieurs thegravemes preacutedeacutefinis

Application des techniques de Data mining

Individus = documents

Caractegraveres des individus = thegravemestermes des documents

21

Text Mining Data Mining

Impleacutementation vaste

degraves 2000

Impleacutementation vaste

degraves 1994Maturiteacute

milliersmilliers Dimension

complexesimpleRepreacutesentation

non-structureacutestructureacuteStructure

textuelnumeacuterique amp

cateacutegorique Objet

Text MiningData Mining

22

Vue simplifieacutee du Text Mining

23

Analyse lexicomeacutetrique

Eliminer les mots vides Deacutecouper les textes en uniteacutes Lemmatiser Reacuteduire le nombre de termes agrave traiter

24

Anayse statistique

25

Term frequency (TF)

Un terme qui apparait plusieurs fois dans un document est plus

important qursquoun terme qui apparaicirct une seule fois

wij = Nombre drsquooccurrences du terme ti dans le document dj

TFij = Freacutequence du terme ti dans le document dj

j

ij

d

wTF

ij

26

Inverse document frequency (IDF)

Un terme qui apparaicirct dans peu de documents est un meilleur discriminant qursquoun terme qui apparaicirct dans tous les documents

bull dfi = nombre de documents contenant le terme ti

bull d = nombre de documents du corpus

Inverse document frequency

i

i

df

dIDF log

27

Pondeacuteration TF-IDF

TF-IDF signifie Term Frequency x Inverse Document

Frequency

bull Proposeacutee par [Salton 1989] mesure limportance drsquoun terme

dans un document relativement agrave lrsquoensemble des documents

bull tf ij = freacutequence du terme i dans le document j

df i = nombre de documents contenant le terme i

N = d = nombre de documents du corpus

28

Similariteacute entre documents

Permet de ranger les

documents par pertinence

Le cosinus de lrsquoangle est

souvent utiliseacute

2d1d

2dT

1d2d1d )cos(

bull gt cos( )ltcos( )

bull d2 est plus proche de d1que de d3

29

Cartographie de linformation- Composantes des applications cartographiques

1- Composante calculatoire Data Clustering ou partitionnement de donneacutees

Deacutefinition

Meacutethode statistique danalyse des donneacutees qui a pour but de regrouper un ensemble de donneacutees en

diffeacuterents paquets homogegravenes chaque sous-ensemble partage des caracteacuteristiques communes qui

correspondent le plus souvent agrave des critegraveres de proximiteacute que lon deacutefinit en introduisant des mesures

de distance

Principe

Pour obtenir un bon partitionnement il convient de

bull minimiser linertie intra-classe pour obtenir des grappes (cluster en anglais) les plus homogegravenes

possibles

bull maximiser linertie inter-classe afin dobtenir des sous-ensembles bien diffeacuterencieacutes

Composition

Un cluster est composeacute de

bull une liste de mots-cleacutes

bull une liste dassociations internes

bull une liste dassociations externes

bull une eacutetiquette

bull une liste de documents affecteacutes apregraves la classification

30

Cartographie de linformation- Composantes des applications cartographiques

1- Composante calculatoire DataClustering

bull Lassociation la plus forte permet de creacuteer le premier cluster ici laquoa-braquo)

bull Une nouvelle association peut donner lieu agrave un laquoenrichissementraquo de cluster laquoa-eraquo vient

enrichir le cluster laquoa-braquo qui contient deacutejagrave laquoaraquo) ou agrave une creacuteation de nouveau cluster (laquoc-draquo par

exemple)

Deacutefinitions

Web mining Data mining appliqueacute aux donneacutees de navigation sur le web

Objectifs du web mining

1 Optimiser la navigation dans un site web (confort des internautes)

2 Augmenter le nombre de pages consulteacutees et lrsquoimpact des liens et des banniegraveres publicitaires

3 Deacuteceler les centres drsquointeacuterecirct et donc les attentes des internautes visitant le site

Types dAnalyses

Statistique descriptive

bull laquo 70 des internautes ont consulteacute 3 pages ou moins raquo

bull laquo 40 des internautes accegravedent au site sans passer par la page drsquoaccueil raquo

Deacutetection des regravegles drsquoassociation

bull laquo 20 des internautes visitant la page A visitent la page B dans la mecircme session raquo

Segmentation des internautes

bull Selon les sites de provenance les pages drsquoentreacutee le nombre de pages consulteacutees les fichiers teacuteleacutechargeacutes les pages de sortie etc

1- Composante calculatoire Web Mining

Cartographie de linformation- Composantes des applications cartographiques

31

32

Cartographie de linformation- Composantes des applications cartographiques

1- Composante calculatoire Web Social Data Mining

Hypothegravese documentaire

Web structureacute par des laquo localiteacutes theacutematiques raquo deacutefinies par une forte correacutelation entre

contenu des documents et proximiteacute hypertexte dessinant comme un territoire

Probleacutematique de la laquo traccedilabiliteacute raquo du socialbull Le web se preacutesente comme une matrice technique distribueacutee faccedilonneacutee par des usages dont

le reacuteseau garde la meacutemoire bull Le seul fait dutiliser une technologie numeacuterique contribue agrave produire des traces et agrave

grande eacutechelle elles constituent un reacuteservoir immense de donneacutees disponibles

Principes hubs et autoriteacutes (Kleinberg et al)

bull Autoriteacutes ensemble des pages contenant les meilleures sources drsquoinformation pour un

thegraveme donneacute

bull Hubs pages pointant sur les autoriteacutes

bull Le calcul ressemble au calcul drsquoimportance drsquoun article par nombre de citations (les liens

du Web vus comme des recommendations)

Applications

Sujets controverseacutes ougrave le seul lexique nest pas discriminant

33

Cartographie de linformation- Composantes des applications cartographiques

2- Composante visuelle

Eleacutements de seacutemiologie graphique (J Bertin) Theacuteorie de la Gestalt

34

Cartographie de linformation- Composantes des applications cartographiques

2- Composante visuelle Eleacutements de seacutemiologie graphique (J Bertin)

35

Cartographie de linformation- Composantes des applications cartographiques

2- Composante visuelle Eleacutements de seacutemiologie graphique (J Bertin)

Type de dessin Signification

des signes Description Exemple

Graphis

me

Image non-

figurative Panseacutemique

Le systegraveme srsquoouvre agrave toute

signification Tableau drsquoart

Image

figurative Polyseacutemique

Le systegraveme a pour objectif de

deacutefinir un concept ou une ideacutee

mais les interpreacutetations peuvent

diverger

Photographie

aeacuterienne

Graphique Monoseacutemique

Transcriptions de relations entre

des concepts preacutealablement

deacutefinis

Un

organigramme

36

Cartographie de linformation- Composantes des applications cartographiques

2- Composante visuelle Eleacutements de seacutemiologie graphique (J Bertin)

laquo La graphique est un systegraveme de signes [structures visuelles] qui permet de transcrire les

relations de diffeacuterence drsquoordre ou de proportionnaliteacute existant entre des donneacutees qualitatives ou

quantitatives raquo [Bonin 1997]

laquo La carte est une image graphique qui transcrit les relations de proportionnaliteacute ordre et

diffeacuterence par des variations proportionnelles ordonneacutees et diffeacuterentielles raquo

37

Cartographie de linformation- Composantes des applications cartographiques

2- Composante visuelle Eleacutements de seacutemiologie graphique (J Bertin)

38

Cartographie de linformation- Composantes des applications cartographiques

2- Composante visuelle Eleacutements de seacutemiologie graphique (J Bertin)

39

Cartographie de linformation- Composantes des applications cartographiques

2- Composante visuelle Eleacutements de seacutemiologie graphique (J Bertin)

40

Cartographie de linformation- Composantes des applications cartographiques

2- Composante visuelle Eleacutements de seacutemiologie graphique (J Bertin)

41

Cartographie de linformation- Composantes des applications cartographiques

2- Composante visuelle Eleacutements de seacutemiologie graphique (J Bertin)

Variables visuelles (laquo variables reacutetiniennes raquo)

Variation des proprieacuteteacutes graphiques des structures visuelles

42

Cartographie de linformation- Composantes des applications cartographiques

2- Composante visuelle Eleacutements de seacutemiologie graphique (J Bertin)

Variables visuelles

Cartographie de linformation- Composantes des applications cartographiques

2- Composante visuelle Eleacutements de seacutemiologie graphique (J Bertin)

43

44

Cartographie de linformation- Composantes des applications cartographiques

2- Composante visuelle Theacuteorie de la Gestalt (1890)

Principe

Le contexte est tregraves important dans la perception visuelle [Guillaume]

Les structures visuelles ne sont pas indeacutependantes les unes des autres et le contexte est

important pour la signification qui leur est attribueacutee

En graphique

La perception visuelle srsquoattache agrave reconnaicirctre des modegraveles dans un ensemble de structures

visuelles

De cette theacuteorie reacutesultent des lois correspondant agrave des cateacutegories drsquointeractions possibles entre

les structures visuelles

45

Cartographie de linformation- Composantes des applications cartographiques

Lois Effets Illustrations

Preacutegnance Une image est facile agrave comprendre si sa structure est simple et inversement

Proximiteacute Deux composants qui sont proches ont tendance agrave ecirctre perccedilus comme un

seul composant

Similariteacute Les composants similaires sont perccedilus comme srsquoils eacutetaient regroupeacutes

Fermeture Les contours proches sont perccedilus comme unifieacutes

Continuiteacute Des eacuteleacutements voisins sont perccedilus groupeacutes lorsqursquoils possegravedent

potentiellement un trait qui les relie

Symeacutetrie Des eacuteleacutements sont perccedilus comme un eacuteleacutement global lorsqursquoils forment une

symeacutetrie

Trajectoire identique Des eacuteleacutements qui se deacuteplacent avec la mecircme trajectoire semblent groupeacutes

Familiariteacute Des eacuteleacutements sont plus facilement groupables si le groupe est familier ou

significatif

46

Cartographie de linformation- Composantes des applications cartographiques

2- Composante visuelle Theacuteorie de la Gestalt (1890)

47

Cartographie de linformation- Composantes des applications cartographiques

2- Composante visuelle Conception drsquoun langage graphique (JB Lamy)

1- Analyser les informations ou connaissances que lrsquoon souhaite repreacutesenter

Determiner les attributs qui

deacutefinissent les termes agrave repreacutesenter

bull Par exemple pour repreacutesenter

des maladies les attributs pourraient

ecirctre la localisation anatomique

(cardiaque reacutenale) la seacuteveacuteriteacute etc

2- Associer agrave chaque attribut une variable

reacutetinienne pour le repreacutesenter

bull Par exemple pour les maladies

Associer lrsquoattribut localisation

anatomique agrave la variable

formepictogramme

bull Repreacutesenter la seacuteveacuteriteacute par la variable

couleur

3- Les relations entre les diffeacuterents termes

repreacutesenteacutes doivent ecirctre expliciteacutees

48

Cartographie de linformation

Famille doutils et contextes applicatifs

1- Famille doutils

Typologies

Aperccedilu

Travaux pratiques

2- Contextes applicatifs

Eleacutements deacutevaluation

Les perspectives de la cartographie seacutemantique

49

Cartographie de linformation- Famille doutils et contextes applicatifs

1- Famille doutils

Typologies

Aperccedilu

TP agrave partir de la seacutelection httpdeliciouscommylk02Stage_Carto

Et encore httpwwwvisualcomplexitycomvc (plus de 500 projets dans le domaine)

50

Cartographie de linformation- Famille doutils et contextes applicatifs

1- Famille doutils typologies

11- Typologie scientifique eacutetablie selon des critegraveres internes au domaine

bull les trois principaux paradigmes technique de visualisation type de donneacutees et type dinteraction (Keim

DA 2002)

bull la nature des donneacutees unidimensionnelles bidimensionnelles tridimensionnelles temporelles

multidimensionnelles hieacuterarchiques reacuteseaux (Shneiderman B 1996)

12- Etat de lart eacutevaluation - benchmarking typologie orienteacutee usages (veille et intelligence eacuteconomique)

Quelques exemples

Inist httpoutilsveilleinistfr

Esiee httpwwwaa-esieecomevent2005AGClaudeAschenbrennerppt

Ecole des Mines httpwwwdemoscienceorgresources

Commercial httpwwwk-praxiscom

Commercial httpwwwinformation-mininginfostate_of_art

Universitaire httpwell-formed-datanetthesis

13- Typologie cartographique

Quelques exemples de bloggers

bull Claude Aschenbrenner httpwwwserialmappercomarchive20070110la-pierre-de-rosette-de-la-

cartographie-de-l-informationhtml avec son mode demploi

bull Kartoo httpwwwmapdreamcom

51

Cartographie de linformation- Famille doutils et contextes applicatifs

1- Famille doutils typologie scientifique

52

Cartographie de linformation- Famille doutils orienteacutes laquo bibliothegraveques raquo

2- Les outils de navigation et de recherche sur Internet (seacutelection de Pierre Nobis)

A- Les navigateurs Nestor Navicrawler

53

Cartographie de linformation- Famille doutils orienteacutes laquo bibliothegraveques raquo

2- Les outils de navigation et de recherche sur Internet (seacutelection de Pierre Nobis)

B- Les outils de visualisation des reacutesultats PageBull ManagedQ

Bbis Les outils de visualisation de reacutesultats dans les actualiteacutes

repreacutesentation carreacutee Marumushi - Google NewsNewsIsFree - The Hive Group Tenbyten -flux RSS des sources drsquoactualiteacutes internationales

repreacutesentation sous forme de graphe

Silobreaker

54

Cartographie de linformation- Famille doutils orienteacutes laquo bibliothegraveques raquo

2- Les outils de navigation et de recherche sur Internet

B-Les outils de visualisation des reacutesultats TouchGraph application Java permettant de cartographier les reacutesultats issus

notamment de Google Amazon PubMed Alexa FaceBook

55

Cartographie de linformation- Famille doutils orienteacutes laquo bibliothegraveques raquo

2- Les outils de navigation et de recherche sur Internet (seacutelection de Pierre Nobis)

C- Les outils de recherche avec ajout de termes associeacutes dans une colonne regroupement theacutematique nuage de laquo tags raquo

D- Meacutetamoteurs avec affichage de clusters sous forme de listes

Carrot2 Clusty-Vivissimo Iboogie Polymeta Turbo10 Webclust

56

Cartographie de linformation- Famille doutils orienteacutes laquo bibliothegraveques raquo

2- Les outils de navigation et de recherche sur Internet (seacutelection de Pierre Nobis)

E- Meacutetamoteurs avec affichage de clusters sous forme graphique

E1- repreacutesentation centreacutee Allplus WebBrain

Allplus est un meacutetamoteur agrave clusteacuterisation graphique qui interroge les bases de Ask Google Yahoo et Livepar le biais de lrsquooutil Polymeta Lrsquointerface cluster graph permet de visualiser les reacutesultats sous une forme graphique

Webbrain permet de visualiser et drsquoaffiner les reacutesultats drsquoune requecircte issus de lrsquoOpen Directory Project

57

Cartographie de linformation- Famille doutils orienteacutes laquo bibliothegraveques raquo

2- Les outils de navigation et de recherche sur Internet (seacutelection de Pierre Nobis)

E- Meacutetamoteurs avec affichage de clusters sous forme graphique

E2- Repreacutesentation circulaire Grokker

E3- Repreacutesentation topographique TooLeNet srsquoappuie sur les technologies de KartOO et sur lrsquoindex de

Yahoo pour effectuer des recherches selon 3 modes moteur annuaire et carte auxquels srsquoajoutent des

options de personnalisation et de classification assez avanceacutees

58

Cartographie de linformation- Famille doutils orienteacutes laquo bibliothegraveques raquo

3- Les Outils graphiques dexploration

Wikimindmap est un outil drsquointerrogation

et de repreacutesentation des informations issues

de Wikipedia sous forme de carte heuristique

Visuwords est un dictionnaire en ligne

qui preacutesente ses reacutesultats sous forme de laquo grappes raquo

Il utilise la base de donneacutees Wordnet

Code couleur pour les diffeacuterentes relations

seacutemantiques hieacuterarchiques entre les termes

ainsi que les synonymes et les antonymes

59

Cartographie de linformation- Famille doutils orienteacutes laquo bibliothegraveques raquo

4- Les outils de creacuteation (carto)graphiqueA- Pour meacutemoire les logiciels de creacuteation de cartes heuristiques et conceptuelles

Cmaptools est un logiciel gratuit (usage eacuteducatif) de creacuteation de cartes conceptuelles

Freemind est un logiciel libre et gratuit qui permet de reacutealiser des cartes heuristiques

Thinkgraph est un logiciel gratuit de dessin 2D orienteacute vers la reacutealisation de cartes conceptuelles

60

Cartographie de linformation- Famille doutils orienteacutes laquo bibliothegraveques raquo

4- Les outils de creacuteation (carto)graphique

B- Les outils drsquoeacutedition de graphes

Guess est un logiciel libre et gratuit deacuteveloppeacute par Eytan Adar qui permet de visualiser des

graphes statiques Options de modification de certains attributs (taille couleur forme

algorithmes de positionnementhellip)

Pajek est un logiciel libre et gratuit (usage non commercial) deacuteveloppeacute par V Batagelj et A

Mrvar qui permet de traiter des donneacutees de reacuteseaux de grande taille Pajek signifie araigneacutee

en slovegravene

C- Les outils en ligne

ManyEye service collaboratif deacuteveloppeacute par IBM gracircce auquel on peut geacuteneacuterer selon un

des modegraveles proposeacutes sa propre visualisation de lrsquoinformation (apregraves avoir teacuteleacuteverseacute ses

propres donneacutees)

IssueCrawler outil de web social mining utilisable agrave distance (chargement des URL)

reacutecupeacuteration graphique

61

Cartographie de linformation- Famille doutils et contextes applicatifs

2- Contextes applicatifs

Eleacutements deacutevaluation

Les perspectives de la cartographie seacutemantique

62

Cartographie de linformation- Famille doutils et contextes applicatifs

2- Contextes applicatifs Eleacutements deacutevaluation

21- Evaluation scientifique

Question de meacutethode Eacutevaluation des Interfaces Utilisateur drsquoInformation Bonnel et Chevalier 2006

Objectif proposer une meacutethodologie deacutevaluation permettant de comparer du point de vue de la

visualisation des reacutesultats agrave une requecircte les outils de recherche Google Vivisimo Ujiko Grokker Kartoo

Vios SmartWeb (prototype)

Evaluation des repreacutesentations graphiques geacuteneacuteraliteacutes (Tricot et Roche 2006)

bull Arborescences simples

habitude des utilisateurs (explorateur de fichiers informatiques) pas de problegravemes avec volume limiteacute

au-delagrave drsquoune certaine quantiteacute drsquoinformation les arborescences deviennent inefficaces

bull Arbres de cocircnes en 3D

posent des problegravemes agrave lrsquoutilisateur qui nrsquoa pas lrsquohabitude des espaces en 3D

effort cognitif plus eacuteleveacute et prise en main plus longue

bull Arbres hyperboliques

problegravemes des eacutetiquettes des eacuteleacutements (occlusion)

effet de zoom impreacutevisible

Lrsquoune des conclusions une seule visualisation ne permet pas de reacutepondre agrave toutes les questions

multiplier les possibiliteacutes de visualisation

63

Cartographie de linformation- Famille doutils et contextes applicatifs

2- Contextes applicatifs Eleacutements deacutevaluation

21- Evaluation scientifique doctorat en cours agrave lrsquoEBSI (Aline Creacutedeville)

bull Contexte visualisation de lrsquoinformation dans le contexte de recherche drsquoinformation

bull Point de vue de la seacutemiologie graphique

o principes les plus couramment utiliseacutes sont la proximiteacute (Grokker) lrsquoenglobage (Kartoo)

et la connectiviteacute (Auquabrowser)

omeacutetaphores visuelles pas toujours adeacutequates au web

bull Reacutesultats

o lrsquoinformation doit ecirctre structureacutee

o apports possible pour lrsquoexploration mais pas pour la recherche

64

Cartographie de linformation- Famille doutils et contextes applicatifs

2- Contextes applicatifs Eleacutements deacutevaluation

22- Evaluation en contexte dusage de recherche dinformations (Ciaccia Ihadjadene Martins 2006)

Objectif analyse de lrsquoinfluence du mode de preacutesentation des informations sur les processus cognitifs mis

en jeu par lrsquoutilisateur dans lrsquoactiviteacute de recherche drsquoinformations sur Internet

Outils eacutevalueacutes Kartoo (pour 18 usagers) et Mapstan (pour 16 usagers)

Principaux reacutesultats

Coucirct cognitif sans pour autant conduire agrave de meilleures performances (comparaison avec une

preacutesentation en liste)

Hypothegravese nouveauteacute de la preacutesentation versus habitude des preacutesentations verbales

Strateacutegie optimiseacutee preacuteciser la requecircte drsquoune recherche agrave but flou et se concentrer sur les informations

relieacutees agrave lrsquoobjectif de la question versus informations non relieacutees

Le sens de la visualisation doit ecirctre clarifieacute les systegravemes doivent faciliter la compreacutehension des

eacuteleacutements visualiseacutes

65

Cartographie de linformation- Famille doutils et contextes applicatifs

2- Contextes applicatifs Les perspectives de la cartographie seacutemantique (C Tricot de la seacutemantique agrave la carte)

Pour reacutesoudre la probleacutematique de la repreacutesentation de lrsquoinformation la visualisation de

lrsquoinformation seule ne suffit pas

La visualisation de lrsquoinformation permet uniquement de preacutesenter des donneacutees en leur

associant une repreacutesentation graphique

La cartographie seacutemantique se veut

Une meacutethode de cartographie reposant sur la seacutemantique dun domaine

Un processus de production de connaissances

donneacutees brutes -gt donneacutees structureacutees -gt donneacutees repreacutesenteacutees -gt donneacutees visualiseacutees

Un formalisme de description type Reacuteseaux seacutemantiques

Un langage de description cartographique

Une architecture multi-agents

66

Cartographie de linformation- Famille doutils et contextes applicatifs

2- Contextes applicatifs Les perspectives de la cartographie seacutemantique (C Tricot de la seacutemantique agrave la carte)

67

Cartographie de linformation- Famille doutils et contextes applicatifs

2- Contextes applicatifs Les perspectives de la cartographie seacutemantique

ldquoUne bonne structure repreacutesentative graphique pour un arbre de donneacutees est celle qui deacuteforme le moins les similitudes originales entre les uniteacutes de donneacutees (similitudes qui sont donneacutes par loutil de classification) ou en dautres termes deux individus (ou classes) qui sont proches lune de lautre le restent aussi possible que peut apregraves projection dans l`espace de visualisation et ceci doit ecirctre eacutevident(et veacuterifiable par une mesure de calcul de divergence) dans lenvironnement de visualisation ldquo Tricot 2006

Page 19: Cartographie de l'information- Composantes des - Urfist de Paris

19

Illustration du reacuteseau de neurones

20

Cartographie de linformation- Composantes des applications cartographiques

1- Composante calculatoire Text Mining

DeacutefinitionProceacutedeacute consistant agrave syntheacutetiser (classer structurer reacutesumer hellip) les textes en analysant les relations les patterns

et les regravegles entre uniteacutes textuelles (mots groupes phrases documents)

Du Data Mining au Text Mining

Ajout de la lexicomeacutetrie

Comme en Data Mining on trouve en Text Mining

des algorithmes descriptifs recherche des thegravemes abordeacutes dans un ensemble (corpus) de documents sans

connaicirctre agrave lrsquoavance ces thegravemes

des algorithmes preacutedictifs recherche des regravegles permettant drsquoaffecter automatiquement un document agrave un

thegraveme parmi plusieurs thegravemes preacutedeacutefinis

Application des techniques de Data mining

Individus = documents

Caractegraveres des individus = thegravemestermes des documents

21

Text Mining Data Mining

Impleacutementation vaste

degraves 2000

Impleacutementation vaste

degraves 1994Maturiteacute

milliersmilliers Dimension

complexesimpleRepreacutesentation

non-structureacutestructureacuteStructure

textuelnumeacuterique amp

cateacutegorique Objet

Text MiningData Mining

22

Vue simplifieacutee du Text Mining

23

Analyse lexicomeacutetrique

Eliminer les mots vides Deacutecouper les textes en uniteacutes Lemmatiser Reacuteduire le nombre de termes agrave traiter

24

Anayse statistique

25

Term frequency (TF)

Un terme qui apparait plusieurs fois dans un document est plus

important qursquoun terme qui apparaicirct une seule fois

wij = Nombre drsquooccurrences du terme ti dans le document dj

TFij = Freacutequence du terme ti dans le document dj

j

ij

d

wTF

ij

26

Inverse document frequency (IDF)

Un terme qui apparaicirct dans peu de documents est un meilleur discriminant qursquoun terme qui apparaicirct dans tous les documents

bull dfi = nombre de documents contenant le terme ti

bull d = nombre de documents du corpus

Inverse document frequency

i

i

df

dIDF log

27

Pondeacuteration TF-IDF

TF-IDF signifie Term Frequency x Inverse Document

Frequency

bull Proposeacutee par [Salton 1989] mesure limportance drsquoun terme

dans un document relativement agrave lrsquoensemble des documents

bull tf ij = freacutequence du terme i dans le document j

df i = nombre de documents contenant le terme i

N = d = nombre de documents du corpus

28

Similariteacute entre documents

Permet de ranger les

documents par pertinence

Le cosinus de lrsquoangle est

souvent utiliseacute

2d1d

2dT

1d2d1d )cos(

bull gt cos( )ltcos( )

bull d2 est plus proche de d1que de d3

29

Cartographie de linformation- Composantes des applications cartographiques

1- Composante calculatoire Data Clustering ou partitionnement de donneacutees

Deacutefinition

Meacutethode statistique danalyse des donneacutees qui a pour but de regrouper un ensemble de donneacutees en

diffeacuterents paquets homogegravenes chaque sous-ensemble partage des caracteacuteristiques communes qui

correspondent le plus souvent agrave des critegraveres de proximiteacute que lon deacutefinit en introduisant des mesures

de distance

Principe

Pour obtenir un bon partitionnement il convient de

bull minimiser linertie intra-classe pour obtenir des grappes (cluster en anglais) les plus homogegravenes

possibles

bull maximiser linertie inter-classe afin dobtenir des sous-ensembles bien diffeacuterencieacutes

Composition

Un cluster est composeacute de

bull une liste de mots-cleacutes

bull une liste dassociations internes

bull une liste dassociations externes

bull une eacutetiquette

bull une liste de documents affecteacutes apregraves la classification

30

Cartographie de linformation- Composantes des applications cartographiques

1- Composante calculatoire DataClustering

bull Lassociation la plus forte permet de creacuteer le premier cluster ici laquoa-braquo)

bull Une nouvelle association peut donner lieu agrave un laquoenrichissementraquo de cluster laquoa-eraquo vient

enrichir le cluster laquoa-braquo qui contient deacutejagrave laquoaraquo) ou agrave une creacuteation de nouveau cluster (laquoc-draquo par

exemple)

Deacutefinitions

Web mining Data mining appliqueacute aux donneacutees de navigation sur le web

Objectifs du web mining

1 Optimiser la navigation dans un site web (confort des internautes)

2 Augmenter le nombre de pages consulteacutees et lrsquoimpact des liens et des banniegraveres publicitaires

3 Deacuteceler les centres drsquointeacuterecirct et donc les attentes des internautes visitant le site

Types dAnalyses

Statistique descriptive

bull laquo 70 des internautes ont consulteacute 3 pages ou moins raquo

bull laquo 40 des internautes accegravedent au site sans passer par la page drsquoaccueil raquo

Deacutetection des regravegles drsquoassociation

bull laquo 20 des internautes visitant la page A visitent la page B dans la mecircme session raquo

Segmentation des internautes

bull Selon les sites de provenance les pages drsquoentreacutee le nombre de pages consulteacutees les fichiers teacuteleacutechargeacutes les pages de sortie etc

1- Composante calculatoire Web Mining

Cartographie de linformation- Composantes des applications cartographiques

31

32

Cartographie de linformation- Composantes des applications cartographiques

1- Composante calculatoire Web Social Data Mining

Hypothegravese documentaire

Web structureacute par des laquo localiteacutes theacutematiques raquo deacutefinies par une forte correacutelation entre

contenu des documents et proximiteacute hypertexte dessinant comme un territoire

Probleacutematique de la laquo traccedilabiliteacute raquo du socialbull Le web se preacutesente comme une matrice technique distribueacutee faccedilonneacutee par des usages dont

le reacuteseau garde la meacutemoire bull Le seul fait dutiliser une technologie numeacuterique contribue agrave produire des traces et agrave

grande eacutechelle elles constituent un reacuteservoir immense de donneacutees disponibles

Principes hubs et autoriteacutes (Kleinberg et al)

bull Autoriteacutes ensemble des pages contenant les meilleures sources drsquoinformation pour un

thegraveme donneacute

bull Hubs pages pointant sur les autoriteacutes

bull Le calcul ressemble au calcul drsquoimportance drsquoun article par nombre de citations (les liens

du Web vus comme des recommendations)

Applications

Sujets controverseacutes ougrave le seul lexique nest pas discriminant

33

Cartographie de linformation- Composantes des applications cartographiques

2- Composante visuelle

Eleacutements de seacutemiologie graphique (J Bertin) Theacuteorie de la Gestalt

34

Cartographie de linformation- Composantes des applications cartographiques

2- Composante visuelle Eleacutements de seacutemiologie graphique (J Bertin)

35

Cartographie de linformation- Composantes des applications cartographiques

2- Composante visuelle Eleacutements de seacutemiologie graphique (J Bertin)

Type de dessin Signification

des signes Description Exemple

Graphis

me

Image non-

figurative Panseacutemique

Le systegraveme srsquoouvre agrave toute

signification Tableau drsquoart

Image

figurative Polyseacutemique

Le systegraveme a pour objectif de

deacutefinir un concept ou une ideacutee

mais les interpreacutetations peuvent

diverger

Photographie

aeacuterienne

Graphique Monoseacutemique

Transcriptions de relations entre

des concepts preacutealablement

deacutefinis

Un

organigramme

36

Cartographie de linformation- Composantes des applications cartographiques

2- Composante visuelle Eleacutements de seacutemiologie graphique (J Bertin)

laquo La graphique est un systegraveme de signes [structures visuelles] qui permet de transcrire les

relations de diffeacuterence drsquoordre ou de proportionnaliteacute existant entre des donneacutees qualitatives ou

quantitatives raquo [Bonin 1997]

laquo La carte est une image graphique qui transcrit les relations de proportionnaliteacute ordre et

diffeacuterence par des variations proportionnelles ordonneacutees et diffeacuterentielles raquo

37

Cartographie de linformation- Composantes des applications cartographiques

2- Composante visuelle Eleacutements de seacutemiologie graphique (J Bertin)

38

Cartographie de linformation- Composantes des applications cartographiques

2- Composante visuelle Eleacutements de seacutemiologie graphique (J Bertin)

39

Cartographie de linformation- Composantes des applications cartographiques

2- Composante visuelle Eleacutements de seacutemiologie graphique (J Bertin)

40

Cartographie de linformation- Composantes des applications cartographiques

2- Composante visuelle Eleacutements de seacutemiologie graphique (J Bertin)

41

Cartographie de linformation- Composantes des applications cartographiques

2- Composante visuelle Eleacutements de seacutemiologie graphique (J Bertin)

Variables visuelles (laquo variables reacutetiniennes raquo)

Variation des proprieacuteteacutes graphiques des structures visuelles

42

Cartographie de linformation- Composantes des applications cartographiques

2- Composante visuelle Eleacutements de seacutemiologie graphique (J Bertin)

Variables visuelles

Cartographie de linformation- Composantes des applications cartographiques

2- Composante visuelle Eleacutements de seacutemiologie graphique (J Bertin)

43

44

Cartographie de linformation- Composantes des applications cartographiques

2- Composante visuelle Theacuteorie de la Gestalt (1890)

Principe

Le contexte est tregraves important dans la perception visuelle [Guillaume]

Les structures visuelles ne sont pas indeacutependantes les unes des autres et le contexte est

important pour la signification qui leur est attribueacutee

En graphique

La perception visuelle srsquoattache agrave reconnaicirctre des modegraveles dans un ensemble de structures

visuelles

De cette theacuteorie reacutesultent des lois correspondant agrave des cateacutegories drsquointeractions possibles entre

les structures visuelles

45

Cartographie de linformation- Composantes des applications cartographiques

Lois Effets Illustrations

Preacutegnance Une image est facile agrave comprendre si sa structure est simple et inversement

Proximiteacute Deux composants qui sont proches ont tendance agrave ecirctre perccedilus comme un

seul composant

Similariteacute Les composants similaires sont perccedilus comme srsquoils eacutetaient regroupeacutes

Fermeture Les contours proches sont perccedilus comme unifieacutes

Continuiteacute Des eacuteleacutements voisins sont perccedilus groupeacutes lorsqursquoils possegravedent

potentiellement un trait qui les relie

Symeacutetrie Des eacuteleacutements sont perccedilus comme un eacuteleacutement global lorsqursquoils forment une

symeacutetrie

Trajectoire identique Des eacuteleacutements qui se deacuteplacent avec la mecircme trajectoire semblent groupeacutes

Familiariteacute Des eacuteleacutements sont plus facilement groupables si le groupe est familier ou

significatif

46

Cartographie de linformation- Composantes des applications cartographiques

2- Composante visuelle Theacuteorie de la Gestalt (1890)

47

Cartographie de linformation- Composantes des applications cartographiques

2- Composante visuelle Conception drsquoun langage graphique (JB Lamy)

1- Analyser les informations ou connaissances que lrsquoon souhaite repreacutesenter

Determiner les attributs qui

deacutefinissent les termes agrave repreacutesenter

bull Par exemple pour repreacutesenter

des maladies les attributs pourraient

ecirctre la localisation anatomique

(cardiaque reacutenale) la seacuteveacuteriteacute etc

2- Associer agrave chaque attribut une variable

reacutetinienne pour le repreacutesenter

bull Par exemple pour les maladies

Associer lrsquoattribut localisation

anatomique agrave la variable

formepictogramme

bull Repreacutesenter la seacuteveacuteriteacute par la variable

couleur

3- Les relations entre les diffeacuterents termes

repreacutesenteacutes doivent ecirctre expliciteacutees

48

Cartographie de linformation

Famille doutils et contextes applicatifs

1- Famille doutils

Typologies

Aperccedilu

Travaux pratiques

2- Contextes applicatifs

Eleacutements deacutevaluation

Les perspectives de la cartographie seacutemantique

49

Cartographie de linformation- Famille doutils et contextes applicatifs

1- Famille doutils

Typologies

Aperccedilu

TP agrave partir de la seacutelection httpdeliciouscommylk02Stage_Carto

Et encore httpwwwvisualcomplexitycomvc (plus de 500 projets dans le domaine)

50

Cartographie de linformation- Famille doutils et contextes applicatifs

1- Famille doutils typologies

11- Typologie scientifique eacutetablie selon des critegraveres internes au domaine

bull les trois principaux paradigmes technique de visualisation type de donneacutees et type dinteraction (Keim

DA 2002)

bull la nature des donneacutees unidimensionnelles bidimensionnelles tridimensionnelles temporelles

multidimensionnelles hieacuterarchiques reacuteseaux (Shneiderman B 1996)

12- Etat de lart eacutevaluation - benchmarking typologie orienteacutee usages (veille et intelligence eacuteconomique)

Quelques exemples

Inist httpoutilsveilleinistfr

Esiee httpwwwaa-esieecomevent2005AGClaudeAschenbrennerppt

Ecole des Mines httpwwwdemoscienceorgresources

Commercial httpwwwk-praxiscom

Commercial httpwwwinformation-mininginfostate_of_art

Universitaire httpwell-formed-datanetthesis

13- Typologie cartographique

Quelques exemples de bloggers

bull Claude Aschenbrenner httpwwwserialmappercomarchive20070110la-pierre-de-rosette-de-la-

cartographie-de-l-informationhtml avec son mode demploi

bull Kartoo httpwwwmapdreamcom

51

Cartographie de linformation- Famille doutils et contextes applicatifs

1- Famille doutils typologie scientifique

52

Cartographie de linformation- Famille doutils orienteacutes laquo bibliothegraveques raquo

2- Les outils de navigation et de recherche sur Internet (seacutelection de Pierre Nobis)

A- Les navigateurs Nestor Navicrawler

53

Cartographie de linformation- Famille doutils orienteacutes laquo bibliothegraveques raquo

2- Les outils de navigation et de recherche sur Internet (seacutelection de Pierre Nobis)

B- Les outils de visualisation des reacutesultats PageBull ManagedQ

Bbis Les outils de visualisation de reacutesultats dans les actualiteacutes

repreacutesentation carreacutee Marumushi - Google NewsNewsIsFree - The Hive Group Tenbyten -flux RSS des sources drsquoactualiteacutes internationales

repreacutesentation sous forme de graphe

Silobreaker

54

Cartographie de linformation- Famille doutils orienteacutes laquo bibliothegraveques raquo

2- Les outils de navigation et de recherche sur Internet

B-Les outils de visualisation des reacutesultats TouchGraph application Java permettant de cartographier les reacutesultats issus

notamment de Google Amazon PubMed Alexa FaceBook

55

Cartographie de linformation- Famille doutils orienteacutes laquo bibliothegraveques raquo

2- Les outils de navigation et de recherche sur Internet (seacutelection de Pierre Nobis)

C- Les outils de recherche avec ajout de termes associeacutes dans une colonne regroupement theacutematique nuage de laquo tags raquo

D- Meacutetamoteurs avec affichage de clusters sous forme de listes

Carrot2 Clusty-Vivissimo Iboogie Polymeta Turbo10 Webclust

56

Cartographie de linformation- Famille doutils orienteacutes laquo bibliothegraveques raquo

2- Les outils de navigation et de recherche sur Internet (seacutelection de Pierre Nobis)

E- Meacutetamoteurs avec affichage de clusters sous forme graphique

E1- repreacutesentation centreacutee Allplus WebBrain

Allplus est un meacutetamoteur agrave clusteacuterisation graphique qui interroge les bases de Ask Google Yahoo et Livepar le biais de lrsquooutil Polymeta Lrsquointerface cluster graph permet de visualiser les reacutesultats sous une forme graphique

Webbrain permet de visualiser et drsquoaffiner les reacutesultats drsquoune requecircte issus de lrsquoOpen Directory Project

57

Cartographie de linformation- Famille doutils orienteacutes laquo bibliothegraveques raquo

2- Les outils de navigation et de recherche sur Internet (seacutelection de Pierre Nobis)

E- Meacutetamoteurs avec affichage de clusters sous forme graphique

E2- Repreacutesentation circulaire Grokker

E3- Repreacutesentation topographique TooLeNet srsquoappuie sur les technologies de KartOO et sur lrsquoindex de

Yahoo pour effectuer des recherches selon 3 modes moteur annuaire et carte auxquels srsquoajoutent des

options de personnalisation et de classification assez avanceacutees

58

Cartographie de linformation- Famille doutils orienteacutes laquo bibliothegraveques raquo

3- Les Outils graphiques dexploration

Wikimindmap est un outil drsquointerrogation

et de repreacutesentation des informations issues

de Wikipedia sous forme de carte heuristique

Visuwords est un dictionnaire en ligne

qui preacutesente ses reacutesultats sous forme de laquo grappes raquo

Il utilise la base de donneacutees Wordnet

Code couleur pour les diffeacuterentes relations

seacutemantiques hieacuterarchiques entre les termes

ainsi que les synonymes et les antonymes

59

Cartographie de linformation- Famille doutils orienteacutes laquo bibliothegraveques raquo

4- Les outils de creacuteation (carto)graphiqueA- Pour meacutemoire les logiciels de creacuteation de cartes heuristiques et conceptuelles

Cmaptools est un logiciel gratuit (usage eacuteducatif) de creacuteation de cartes conceptuelles

Freemind est un logiciel libre et gratuit qui permet de reacutealiser des cartes heuristiques

Thinkgraph est un logiciel gratuit de dessin 2D orienteacute vers la reacutealisation de cartes conceptuelles

60

Cartographie de linformation- Famille doutils orienteacutes laquo bibliothegraveques raquo

4- Les outils de creacuteation (carto)graphique

B- Les outils drsquoeacutedition de graphes

Guess est un logiciel libre et gratuit deacuteveloppeacute par Eytan Adar qui permet de visualiser des

graphes statiques Options de modification de certains attributs (taille couleur forme

algorithmes de positionnementhellip)

Pajek est un logiciel libre et gratuit (usage non commercial) deacuteveloppeacute par V Batagelj et A

Mrvar qui permet de traiter des donneacutees de reacuteseaux de grande taille Pajek signifie araigneacutee

en slovegravene

C- Les outils en ligne

ManyEye service collaboratif deacuteveloppeacute par IBM gracircce auquel on peut geacuteneacuterer selon un

des modegraveles proposeacutes sa propre visualisation de lrsquoinformation (apregraves avoir teacuteleacuteverseacute ses

propres donneacutees)

IssueCrawler outil de web social mining utilisable agrave distance (chargement des URL)

reacutecupeacuteration graphique

61

Cartographie de linformation- Famille doutils et contextes applicatifs

2- Contextes applicatifs

Eleacutements deacutevaluation

Les perspectives de la cartographie seacutemantique

62

Cartographie de linformation- Famille doutils et contextes applicatifs

2- Contextes applicatifs Eleacutements deacutevaluation

21- Evaluation scientifique

Question de meacutethode Eacutevaluation des Interfaces Utilisateur drsquoInformation Bonnel et Chevalier 2006

Objectif proposer une meacutethodologie deacutevaluation permettant de comparer du point de vue de la

visualisation des reacutesultats agrave une requecircte les outils de recherche Google Vivisimo Ujiko Grokker Kartoo

Vios SmartWeb (prototype)

Evaluation des repreacutesentations graphiques geacuteneacuteraliteacutes (Tricot et Roche 2006)

bull Arborescences simples

habitude des utilisateurs (explorateur de fichiers informatiques) pas de problegravemes avec volume limiteacute

au-delagrave drsquoune certaine quantiteacute drsquoinformation les arborescences deviennent inefficaces

bull Arbres de cocircnes en 3D

posent des problegravemes agrave lrsquoutilisateur qui nrsquoa pas lrsquohabitude des espaces en 3D

effort cognitif plus eacuteleveacute et prise en main plus longue

bull Arbres hyperboliques

problegravemes des eacutetiquettes des eacuteleacutements (occlusion)

effet de zoom impreacutevisible

Lrsquoune des conclusions une seule visualisation ne permet pas de reacutepondre agrave toutes les questions

multiplier les possibiliteacutes de visualisation

63

Cartographie de linformation- Famille doutils et contextes applicatifs

2- Contextes applicatifs Eleacutements deacutevaluation

21- Evaluation scientifique doctorat en cours agrave lrsquoEBSI (Aline Creacutedeville)

bull Contexte visualisation de lrsquoinformation dans le contexte de recherche drsquoinformation

bull Point de vue de la seacutemiologie graphique

o principes les plus couramment utiliseacutes sont la proximiteacute (Grokker) lrsquoenglobage (Kartoo)

et la connectiviteacute (Auquabrowser)

omeacutetaphores visuelles pas toujours adeacutequates au web

bull Reacutesultats

o lrsquoinformation doit ecirctre structureacutee

o apports possible pour lrsquoexploration mais pas pour la recherche

64

Cartographie de linformation- Famille doutils et contextes applicatifs

2- Contextes applicatifs Eleacutements deacutevaluation

22- Evaluation en contexte dusage de recherche dinformations (Ciaccia Ihadjadene Martins 2006)

Objectif analyse de lrsquoinfluence du mode de preacutesentation des informations sur les processus cognitifs mis

en jeu par lrsquoutilisateur dans lrsquoactiviteacute de recherche drsquoinformations sur Internet

Outils eacutevalueacutes Kartoo (pour 18 usagers) et Mapstan (pour 16 usagers)

Principaux reacutesultats

Coucirct cognitif sans pour autant conduire agrave de meilleures performances (comparaison avec une

preacutesentation en liste)

Hypothegravese nouveauteacute de la preacutesentation versus habitude des preacutesentations verbales

Strateacutegie optimiseacutee preacuteciser la requecircte drsquoune recherche agrave but flou et se concentrer sur les informations

relieacutees agrave lrsquoobjectif de la question versus informations non relieacutees

Le sens de la visualisation doit ecirctre clarifieacute les systegravemes doivent faciliter la compreacutehension des

eacuteleacutements visualiseacutes

65

Cartographie de linformation- Famille doutils et contextes applicatifs

2- Contextes applicatifs Les perspectives de la cartographie seacutemantique (C Tricot de la seacutemantique agrave la carte)

Pour reacutesoudre la probleacutematique de la repreacutesentation de lrsquoinformation la visualisation de

lrsquoinformation seule ne suffit pas

La visualisation de lrsquoinformation permet uniquement de preacutesenter des donneacutees en leur

associant une repreacutesentation graphique

La cartographie seacutemantique se veut

Une meacutethode de cartographie reposant sur la seacutemantique dun domaine

Un processus de production de connaissances

donneacutees brutes -gt donneacutees structureacutees -gt donneacutees repreacutesenteacutees -gt donneacutees visualiseacutees

Un formalisme de description type Reacuteseaux seacutemantiques

Un langage de description cartographique

Une architecture multi-agents

66

Cartographie de linformation- Famille doutils et contextes applicatifs

2- Contextes applicatifs Les perspectives de la cartographie seacutemantique (C Tricot de la seacutemantique agrave la carte)

67

Cartographie de linformation- Famille doutils et contextes applicatifs

2- Contextes applicatifs Les perspectives de la cartographie seacutemantique

ldquoUne bonne structure repreacutesentative graphique pour un arbre de donneacutees est celle qui deacuteforme le moins les similitudes originales entre les uniteacutes de donneacutees (similitudes qui sont donneacutes par loutil de classification) ou en dautres termes deux individus (ou classes) qui sont proches lune de lautre le restent aussi possible que peut apregraves projection dans l`espace de visualisation et ceci doit ecirctre eacutevident(et veacuterifiable par une mesure de calcul de divergence) dans lenvironnement de visualisation ldquo Tricot 2006

Page 20: Cartographie de l'information- Composantes des - Urfist de Paris

20

Cartographie de linformation- Composantes des applications cartographiques

1- Composante calculatoire Text Mining

DeacutefinitionProceacutedeacute consistant agrave syntheacutetiser (classer structurer reacutesumer hellip) les textes en analysant les relations les patterns

et les regravegles entre uniteacutes textuelles (mots groupes phrases documents)

Du Data Mining au Text Mining

Ajout de la lexicomeacutetrie

Comme en Data Mining on trouve en Text Mining

des algorithmes descriptifs recherche des thegravemes abordeacutes dans un ensemble (corpus) de documents sans

connaicirctre agrave lrsquoavance ces thegravemes

des algorithmes preacutedictifs recherche des regravegles permettant drsquoaffecter automatiquement un document agrave un

thegraveme parmi plusieurs thegravemes preacutedeacutefinis

Application des techniques de Data mining

Individus = documents

Caractegraveres des individus = thegravemestermes des documents

21

Text Mining Data Mining

Impleacutementation vaste

degraves 2000

Impleacutementation vaste

degraves 1994Maturiteacute

milliersmilliers Dimension

complexesimpleRepreacutesentation

non-structureacutestructureacuteStructure

textuelnumeacuterique amp

cateacutegorique Objet

Text MiningData Mining

22

Vue simplifieacutee du Text Mining

23

Analyse lexicomeacutetrique

Eliminer les mots vides Deacutecouper les textes en uniteacutes Lemmatiser Reacuteduire le nombre de termes agrave traiter

24

Anayse statistique

25

Term frequency (TF)

Un terme qui apparait plusieurs fois dans un document est plus

important qursquoun terme qui apparaicirct une seule fois

wij = Nombre drsquooccurrences du terme ti dans le document dj

TFij = Freacutequence du terme ti dans le document dj

j

ij

d

wTF

ij

26

Inverse document frequency (IDF)

Un terme qui apparaicirct dans peu de documents est un meilleur discriminant qursquoun terme qui apparaicirct dans tous les documents

bull dfi = nombre de documents contenant le terme ti

bull d = nombre de documents du corpus

Inverse document frequency

i

i

df

dIDF log

27

Pondeacuteration TF-IDF

TF-IDF signifie Term Frequency x Inverse Document

Frequency

bull Proposeacutee par [Salton 1989] mesure limportance drsquoun terme

dans un document relativement agrave lrsquoensemble des documents

bull tf ij = freacutequence du terme i dans le document j

df i = nombre de documents contenant le terme i

N = d = nombre de documents du corpus

28

Similariteacute entre documents

Permet de ranger les

documents par pertinence

Le cosinus de lrsquoangle est

souvent utiliseacute

2d1d

2dT

1d2d1d )cos(

bull gt cos( )ltcos( )

bull d2 est plus proche de d1que de d3

29

Cartographie de linformation- Composantes des applications cartographiques

1- Composante calculatoire Data Clustering ou partitionnement de donneacutees

Deacutefinition

Meacutethode statistique danalyse des donneacutees qui a pour but de regrouper un ensemble de donneacutees en

diffeacuterents paquets homogegravenes chaque sous-ensemble partage des caracteacuteristiques communes qui

correspondent le plus souvent agrave des critegraveres de proximiteacute que lon deacutefinit en introduisant des mesures

de distance

Principe

Pour obtenir un bon partitionnement il convient de

bull minimiser linertie intra-classe pour obtenir des grappes (cluster en anglais) les plus homogegravenes

possibles

bull maximiser linertie inter-classe afin dobtenir des sous-ensembles bien diffeacuterencieacutes

Composition

Un cluster est composeacute de

bull une liste de mots-cleacutes

bull une liste dassociations internes

bull une liste dassociations externes

bull une eacutetiquette

bull une liste de documents affecteacutes apregraves la classification

30

Cartographie de linformation- Composantes des applications cartographiques

1- Composante calculatoire DataClustering

bull Lassociation la plus forte permet de creacuteer le premier cluster ici laquoa-braquo)

bull Une nouvelle association peut donner lieu agrave un laquoenrichissementraquo de cluster laquoa-eraquo vient

enrichir le cluster laquoa-braquo qui contient deacutejagrave laquoaraquo) ou agrave une creacuteation de nouveau cluster (laquoc-draquo par

exemple)

Deacutefinitions

Web mining Data mining appliqueacute aux donneacutees de navigation sur le web

Objectifs du web mining

1 Optimiser la navigation dans un site web (confort des internautes)

2 Augmenter le nombre de pages consulteacutees et lrsquoimpact des liens et des banniegraveres publicitaires

3 Deacuteceler les centres drsquointeacuterecirct et donc les attentes des internautes visitant le site

Types dAnalyses

Statistique descriptive

bull laquo 70 des internautes ont consulteacute 3 pages ou moins raquo

bull laquo 40 des internautes accegravedent au site sans passer par la page drsquoaccueil raquo

Deacutetection des regravegles drsquoassociation

bull laquo 20 des internautes visitant la page A visitent la page B dans la mecircme session raquo

Segmentation des internautes

bull Selon les sites de provenance les pages drsquoentreacutee le nombre de pages consulteacutees les fichiers teacuteleacutechargeacutes les pages de sortie etc

1- Composante calculatoire Web Mining

Cartographie de linformation- Composantes des applications cartographiques

31

32

Cartographie de linformation- Composantes des applications cartographiques

1- Composante calculatoire Web Social Data Mining

Hypothegravese documentaire

Web structureacute par des laquo localiteacutes theacutematiques raquo deacutefinies par une forte correacutelation entre

contenu des documents et proximiteacute hypertexte dessinant comme un territoire

Probleacutematique de la laquo traccedilabiliteacute raquo du socialbull Le web se preacutesente comme une matrice technique distribueacutee faccedilonneacutee par des usages dont

le reacuteseau garde la meacutemoire bull Le seul fait dutiliser une technologie numeacuterique contribue agrave produire des traces et agrave

grande eacutechelle elles constituent un reacuteservoir immense de donneacutees disponibles

Principes hubs et autoriteacutes (Kleinberg et al)

bull Autoriteacutes ensemble des pages contenant les meilleures sources drsquoinformation pour un

thegraveme donneacute

bull Hubs pages pointant sur les autoriteacutes

bull Le calcul ressemble au calcul drsquoimportance drsquoun article par nombre de citations (les liens

du Web vus comme des recommendations)

Applications

Sujets controverseacutes ougrave le seul lexique nest pas discriminant

33

Cartographie de linformation- Composantes des applications cartographiques

2- Composante visuelle

Eleacutements de seacutemiologie graphique (J Bertin) Theacuteorie de la Gestalt

34

Cartographie de linformation- Composantes des applications cartographiques

2- Composante visuelle Eleacutements de seacutemiologie graphique (J Bertin)

35

Cartographie de linformation- Composantes des applications cartographiques

2- Composante visuelle Eleacutements de seacutemiologie graphique (J Bertin)

Type de dessin Signification

des signes Description Exemple

Graphis

me

Image non-

figurative Panseacutemique

Le systegraveme srsquoouvre agrave toute

signification Tableau drsquoart

Image

figurative Polyseacutemique

Le systegraveme a pour objectif de

deacutefinir un concept ou une ideacutee

mais les interpreacutetations peuvent

diverger

Photographie

aeacuterienne

Graphique Monoseacutemique

Transcriptions de relations entre

des concepts preacutealablement

deacutefinis

Un

organigramme

36

Cartographie de linformation- Composantes des applications cartographiques

2- Composante visuelle Eleacutements de seacutemiologie graphique (J Bertin)

laquo La graphique est un systegraveme de signes [structures visuelles] qui permet de transcrire les

relations de diffeacuterence drsquoordre ou de proportionnaliteacute existant entre des donneacutees qualitatives ou

quantitatives raquo [Bonin 1997]

laquo La carte est une image graphique qui transcrit les relations de proportionnaliteacute ordre et

diffeacuterence par des variations proportionnelles ordonneacutees et diffeacuterentielles raquo

37

Cartographie de linformation- Composantes des applications cartographiques

2- Composante visuelle Eleacutements de seacutemiologie graphique (J Bertin)

38

Cartographie de linformation- Composantes des applications cartographiques

2- Composante visuelle Eleacutements de seacutemiologie graphique (J Bertin)

39

Cartographie de linformation- Composantes des applications cartographiques

2- Composante visuelle Eleacutements de seacutemiologie graphique (J Bertin)

40

Cartographie de linformation- Composantes des applications cartographiques

2- Composante visuelle Eleacutements de seacutemiologie graphique (J Bertin)

41

Cartographie de linformation- Composantes des applications cartographiques

2- Composante visuelle Eleacutements de seacutemiologie graphique (J Bertin)

Variables visuelles (laquo variables reacutetiniennes raquo)

Variation des proprieacuteteacutes graphiques des structures visuelles

42

Cartographie de linformation- Composantes des applications cartographiques

2- Composante visuelle Eleacutements de seacutemiologie graphique (J Bertin)

Variables visuelles

Cartographie de linformation- Composantes des applications cartographiques

2- Composante visuelle Eleacutements de seacutemiologie graphique (J Bertin)

43

44

Cartographie de linformation- Composantes des applications cartographiques

2- Composante visuelle Theacuteorie de la Gestalt (1890)

Principe

Le contexte est tregraves important dans la perception visuelle [Guillaume]

Les structures visuelles ne sont pas indeacutependantes les unes des autres et le contexte est

important pour la signification qui leur est attribueacutee

En graphique

La perception visuelle srsquoattache agrave reconnaicirctre des modegraveles dans un ensemble de structures

visuelles

De cette theacuteorie reacutesultent des lois correspondant agrave des cateacutegories drsquointeractions possibles entre

les structures visuelles

45

Cartographie de linformation- Composantes des applications cartographiques

Lois Effets Illustrations

Preacutegnance Une image est facile agrave comprendre si sa structure est simple et inversement

Proximiteacute Deux composants qui sont proches ont tendance agrave ecirctre perccedilus comme un

seul composant

Similariteacute Les composants similaires sont perccedilus comme srsquoils eacutetaient regroupeacutes

Fermeture Les contours proches sont perccedilus comme unifieacutes

Continuiteacute Des eacuteleacutements voisins sont perccedilus groupeacutes lorsqursquoils possegravedent

potentiellement un trait qui les relie

Symeacutetrie Des eacuteleacutements sont perccedilus comme un eacuteleacutement global lorsqursquoils forment une

symeacutetrie

Trajectoire identique Des eacuteleacutements qui se deacuteplacent avec la mecircme trajectoire semblent groupeacutes

Familiariteacute Des eacuteleacutements sont plus facilement groupables si le groupe est familier ou

significatif

46

Cartographie de linformation- Composantes des applications cartographiques

2- Composante visuelle Theacuteorie de la Gestalt (1890)

47

Cartographie de linformation- Composantes des applications cartographiques

2- Composante visuelle Conception drsquoun langage graphique (JB Lamy)

1- Analyser les informations ou connaissances que lrsquoon souhaite repreacutesenter

Determiner les attributs qui

deacutefinissent les termes agrave repreacutesenter

bull Par exemple pour repreacutesenter

des maladies les attributs pourraient

ecirctre la localisation anatomique

(cardiaque reacutenale) la seacuteveacuteriteacute etc

2- Associer agrave chaque attribut une variable

reacutetinienne pour le repreacutesenter

bull Par exemple pour les maladies

Associer lrsquoattribut localisation

anatomique agrave la variable

formepictogramme

bull Repreacutesenter la seacuteveacuteriteacute par la variable

couleur

3- Les relations entre les diffeacuterents termes

repreacutesenteacutes doivent ecirctre expliciteacutees

48

Cartographie de linformation

Famille doutils et contextes applicatifs

1- Famille doutils

Typologies

Aperccedilu

Travaux pratiques

2- Contextes applicatifs

Eleacutements deacutevaluation

Les perspectives de la cartographie seacutemantique

49

Cartographie de linformation- Famille doutils et contextes applicatifs

1- Famille doutils

Typologies

Aperccedilu

TP agrave partir de la seacutelection httpdeliciouscommylk02Stage_Carto

Et encore httpwwwvisualcomplexitycomvc (plus de 500 projets dans le domaine)

50

Cartographie de linformation- Famille doutils et contextes applicatifs

1- Famille doutils typologies

11- Typologie scientifique eacutetablie selon des critegraveres internes au domaine

bull les trois principaux paradigmes technique de visualisation type de donneacutees et type dinteraction (Keim

DA 2002)

bull la nature des donneacutees unidimensionnelles bidimensionnelles tridimensionnelles temporelles

multidimensionnelles hieacuterarchiques reacuteseaux (Shneiderman B 1996)

12- Etat de lart eacutevaluation - benchmarking typologie orienteacutee usages (veille et intelligence eacuteconomique)

Quelques exemples

Inist httpoutilsveilleinistfr

Esiee httpwwwaa-esieecomevent2005AGClaudeAschenbrennerppt

Ecole des Mines httpwwwdemoscienceorgresources

Commercial httpwwwk-praxiscom

Commercial httpwwwinformation-mininginfostate_of_art

Universitaire httpwell-formed-datanetthesis

13- Typologie cartographique

Quelques exemples de bloggers

bull Claude Aschenbrenner httpwwwserialmappercomarchive20070110la-pierre-de-rosette-de-la-

cartographie-de-l-informationhtml avec son mode demploi

bull Kartoo httpwwwmapdreamcom

51

Cartographie de linformation- Famille doutils et contextes applicatifs

1- Famille doutils typologie scientifique

52

Cartographie de linformation- Famille doutils orienteacutes laquo bibliothegraveques raquo

2- Les outils de navigation et de recherche sur Internet (seacutelection de Pierre Nobis)

A- Les navigateurs Nestor Navicrawler

53

Cartographie de linformation- Famille doutils orienteacutes laquo bibliothegraveques raquo

2- Les outils de navigation et de recherche sur Internet (seacutelection de Pierre Nobis)

B- Les outils de visualisation des reacutesultats PageBull ManagedQ

Bbis Les outils de visualisation de reacutesultats dans les actualiteacutes

repreacutesentation carreacutee Marumushi - Google NewsNewsIsFree - The Hive Group Tenbyten -flux RSS des sources drsquoactualiteacutes internationales

repreacutesentation sous forme de graphe

Silobreaker

54

Cartographie de linformation- Famille doutils orienteacutes laquo bibliothegraveques raquo

2- Les outils de navigation et de recherche sur Internet

B-Les outils de visualisation des reacutesultats TouchGraph application Java permettant de cartographier les reacutesultats issus

notamment de Google Amazon PubMed Alexa FaceBook

55

Cartographie de linformation- Famille doutils orienteacutes laquo bibliothegraveques raquo

2- Les outils de navigation et de recherche sur Internet (seacutelection de Pierre Nobis)

C- Les outils de recherche avec ajout de termes associeacutes dans une colonne regroupement theacutematique nuage de laquo tags raquo

D- Meacutetamoteurs avec affichage de clusters sous forme de listes

Carrot2 Clusty-Vivissimo Iboogie Polymeta Turbo10 Webclust

56

Cartographie de linformation- Famille doutils orienteacutes laquo bibliothegraveques raquo

2- Les outils de navigation et de recherche sur Internet (seacutelection de Pierre Nobis)

E- Meacutetamoteurs avec affichage de clusters sous forme graphique

E1- repreacutesentation centreacutee Allplus WebBrain

Allplus est un meacutetamoteur agrave clusteacuterisation graphique qui interroge les bases de Ask Google Yahoo et Livepar le biais de lrsquooutil Polymeta Lrsquointerface cluster graph permet de visualiser les reacutesultats sous une forme graphique

Webbrain permet de visualiser et drsquoaffiner les reacutesultats drsquoune requecircte issus de lrsquoOpen Directory Project

57

Cartographie de linformation- Famille doutils orienteacutes laquo bibliothegraveques raquo

2- Les outils de navigation et de recherche sur Internet (seacutelection de Pierre Nobis)

E- Meacutetamoteurs avec affichage de clusters sous forme graphique

E2- Repreacutesentation circulaire Grokker

E3- Repreacutesentation topographique TooLeNet srsquoappuie sur les technologies de KartOO et sur lrsquoindex de

Yahoo pour effectuer des recherches selon 3 modes moteur annuaire et carte auxquels srsquoajoutent des

options de personnalisation et de classification assez avanceacutees

58

Cartographie de linformation- Famille doutils orienteacutes laquo bibliothegraveques raquo

3- Les Outils graphiques dexploration

Wikimindmap est un outil drsquointerrogation

et de repreacutesentation des informations issues

de Wikipedia sous forme de carte heuristique

Visuwords est un dictionnaire en ligne

qui preacutesente ses reacutesultats sous forme de laquo grappes raquo

Il utilise la base de donneacutees Wordnet

Code couleur pour les diffeacuterentes relations

seacutemantiques hieacuterarchiques entre les termes

ainsi que les synonymes et les antonymes

59

Cartographie de linformation- Famille doutils orienteacutes laquo bibliothegraveques raquo

4- Les outils de creacuteation (carto)graphiqueA- Pour meacutemoire les logiciels de creacuteation de cartes heuristiques et conceptuelles

Cmaptools est un logiciel gratuit (usage eacuteducatif) de creacuteation de cartes conceptuelles

Freemind est un logiciel libre et gratuit qui permet de reacutealiser des cartes heuristiques

Thinkgraph est un logiciel gratuit de dessin 2D orienteacute vers la reacutealisation de cartes conceptuelles

60

Cartographie de linformation- Famille doutils orienteacutes laquo bibliothegraveques raquo

4- Les outils de creacuteation (carto)graphique

B- Les outils drsquoeacutedition de graphes

Guess est un logiciel libre et gratuit deacuteveloppeacute par Eytan Adar qui permet de visualiser des

graphes statiques Options de modification de certains attributs (taille couleur forme

algorithmes de positionnementhellip)

Pajek est un logiciel libre et gratuit (usage non commercial) deacuteveloppeacute par V Batagelj et A

Mrvar qui permet de traiter des donneacutees de reacuteseaux de grande taille Pajek signifie araigneacutee

en slovegravene

C- Les outils en ligne

ManyEye service collaboratif deacuteveloppeacute par IBM gracircce auquel on peut geacuteneacuterer selon un

des modegraveles proposeacutes sa propre visualisation de lrsquoinformation (apregraves avoir teacuteleacuteverseacute ses

propres donneacutees)

IssueCrawler outil de web social mining utilisable agrave distance (chargement des URL)

reacutecupeacuteration graphique

61

Cartographie de linformation- Famille doutils et contextes applicatifs

2- Contextes applicatifs

Eleacutements deacutevaluation

Les perspectives de la cartographie seacutemantique

62

Cartographie de linformation- Famille doutils et contextes applicatifs

2- Contextes applicatifs Eleacutements deacutevaluation

21- Evaluation scientifique

Question de meacutethode Eacutevaluation des Interfaces Utilisateur drsquoInformation Bonnel et Chevalier 2006

Objectif proposer une meacutethodologie deacutevaluation permettant de comparer du point de vue de la

visualisation des reacutesultats agrave une requecircte les outils de recherche Google Vivisimo Ujiko Grokker Kartoo

Vios SmartWeb (prototype)

Evaluation des repreacutesentations graphiques geacuteneacuteraliteacutes (Tricot et Roche 2006)

bull Arborescences simples

habitude des utilisateurs (explorateur de fichiers informatiques) pas de problegravemes avec volume limiteacute

au-delagrave drsquoune certaine quantiteacute drsquoinformation les arborescences deviennent inefficaces

bull Arbres de cocircnes en 3D

posent des problegravemes agrave lrsquoutilisateur qui nrsquoa pas lrsquohabitude des espaces en 3D

effort cognitif plus eacuteleveacute et prise en main plus longue

bull Arbres hyperboliques

problegravemes des eacutetiquettes des eacuteleacutements (occlusion)

effet de zoom impreacutevisible

Lrsquoune des conclusions une seule visualisation ne permet pas de reacutepondre agrave toutes les questions

multiplier les possibiliteacutes de visualisation

63

Cartographie de linformation- Famille doutils et contextes applicatifs

2- Contextes applicatifs Eleacutements deacutevaluation

21- Evaluation scientifique doctorat en cours agrave lrsquoEBSI (Aline Creacutedeville)

bull Contexte visualisation de lrsquoinformation dans le contexte de recherche drsquoinformation

bull Point de vue de la seacutemiologie graphique

o principes les plus couramment utiliseacutes sont la proximiteacute (Grokker) lrsquoenglobage (Kartoo)

et la connectiviteacute (Auquabrowser)

omeacutetaphores visuelles pas toujours adeacutequates au web

bull Reacutesultats

o lrsquoinformation doit ecirctre structureacutee

o apports possible pour lrsquoexploration mais pas pour la recherche

64

Cartographie de linformation- Famille doutils et contextes applicatifs

2- Contextes applicatifs Eleacutements deacutevaluation

22- Evaluation en contexte dusage de recherche dinformations (Ciaccia Ihadjadene Martins 2006)

Objectif analyse de lrsquoinfluence du mode de preacutesentation des informations sur les processus cognitifs mis

en jeu par lrsquoutilisateur dans lrsquoactiviteacute de recherche drsquoinformations sur Internet

Outils eacutevalueacutes Kartoo (pour 18 usagers) et Mapstan (pour 16 usagers)

Principaux reacutesultats

Coucirct cognitif sans pour autant conduire agrave de meilleures performances (comparaison avec une

preacutesentation en liste)

Hypothegravese nouveauteacute de la preacutesentation versus habitude des preacutesentations verbales

Strateacutegie optimiseacutee preacuteciser la requecircte drsquoune recherche agrave but flou et se concentrer sur les informations

relieacutees agrave lrsquoobjectif de la question versus informations non relieacutees

Le sens de la visualisation doit ecirctre clarifieacute les systegravemes doivent faciliter la compreacutehension des

eacuteleacutements visualiseacutes

65

Cartographie de linformation- Famille doutils et contextes applicatifs

2- Contextes applicatifs Les perspectives de la cartographie seacutemantique (C Tricot de la seacutemantique agrave la carte)

Pour reacutesoudre la probleacutematique de la repreacutesentation de lrsquoinformation la visualisation de

lrsquoinformation seule ne suffit pas

La visualisation de lrsquoinformation permet uniquement de preacutesenter des donneacutees en leur

associant une repreacutesentation graphique

La cartographie seacutemantique se veut

Une meacutethode de cartographie reposant sur la seacutemantique dun domaine

Un processus de production de connaissances

donneacutees brutes -gt donneacutees structureacutees -gt donneacutees repreacutesenteacutees -gt donneacutees visualiseacutees

Un formalisme de description type Reacuteseaux seacutemantiques

Un langage de description cartographique

Une architecture multi-agents

66

Cartographie de linformation- Famille doutils et contextes applicatifs

2- Contextes applicatifs Les perspectives de la cartographie seacutemantique (C Tricot de la seacutemantique agrave la carte)

67

Cartographie de linformation- Famille doutils et contextes applicatifs

2- Contextes applicatifs Les perspectives de la cartographie seacutemantique

ldquoUne bonne structure repreacutesentative graphique pour un arbre de donneacutees est celle qui deacuteforme le moins les similitudes originales entre les uniteacutes de donneacutees (similitudes qui sont donneacutes par loutil de classification) ou en dautres termes deux individus (ou classes) qui sont proches lune de lautre le restent aussi possible que peut apregraves projection dans l`espace de visualisation et ceci doit ecirctre eacutevident(et veacuterifiable par une mesure de calcul de divergence) dans lenvironnement de visualisation ldquo Tricot 2006

Page 21: Cartographie de l'information- Composantes des - Urfist de Paris

21

Text Mining Data Mining

Impleacutementation vaste

degraves 2000

Impleacutementation vaste

degraves 1994Maturiteacute

milliersmilliers Dimension

complexesimpleRepreacutesentation

non-structureacutestructureacuteStructure

textuelnumeacuterique amp

cateacutegorique Objet

Text MiningData Mining

22

Vue simplifieacutee du Text Mining

23

Analyse lexicomeacutetrique

Eliminer les mots vides Deacutecouper les textes en uniteacutes Lemmatiser Reacuteduire le nombre de termes agrave traiter

24

Anayse statistique

25

Term frequency (TF)

Un terme qui apparait plusieurs fois dans un document est plus

important qursquoun terme qui apparaicirct une seule fois

wij = Nombre drsquooccurrences du terme ti dans le document dj

TFij = Freacutequence du terme ti dans le document dj

j

ij

d

wTF

ij

26

Inverse document frequency (IDF)

Un terme qui apparaicirct dans peu de documents est un meilleur discriminant qursquoun terme qui apparaicirct dans tous les documents

bull dfi = nombre de documents contenant le terme ti

bull d = nombre de documents du corpus

Inverse document frequency

i

i

df

dIDF log

27

Pondeacuteration TF-IDF

TF-IDF signifie Term Frequency x Inverse Document

Frequency

bull Proposeacutee par [Salton 1989] mesure limportance drsquoun terme

dans un document relativement agrave lrsquoensemble des documents

bull tf ij = freacutequence du terme i dans le document j

df i = nombre de documents contenant le terme i

N = d = nombre de documents du corpus

28

Similariteacute entre documents

Permet de ranger les

documents par pertinence

Le cosinus de lrsquoangle est

souvent utiliseacute

2d1d

2dT

1d2d1d )cos(

bull gt cos( )ltcos( )

bull d2 est plus proche de d1que de d3

29

Cartographie de linformation- Composantes des applications cartographiques

1- Composante calculatoire Data Clustering ou partitionnement de donneacutees

Deacutefinition

Meacutethode statistique danalyse des donneacutees qui a pour but de regrouper un ensemble de donneacutees en

diffeacuterents paquets homogegravenes chaque sous-ensemble partage des caracteacuteristiques communes qui

correspondent le plus souvent agrave des critegraveres de proximiteacute que lon deacutefinit en introduisant des mesures

de distance

Principe

Pour obtenir un bon partitionnement il convient de

bull minimiser linertie intra-classe pour obtenir des grappes (cluster en anglais) les plus homogegravenes

possibles

bull maximiser linertie inter-classe afin dobtenir des sous-ensembles bien diffeacuterencieacutes

Composition

Un cluster est composeacute de

bull une liste de mots-cleacutes

bull une liste dassociations internes

bull une liste dassociations externes

bull une eacutetiquette

bull une liste de documents affecteacutes apregraves la classification

30

Cartographie de linformation- Composantes des applications cartographiques

1- Composante calculatoire DataClustering

bull Lassociation la plus forte permet de creacuteer le premier cluster ici laquoa-braquo)

bull Une nouvelle association peut donner lieu agrave un laquoenrichissementraquo de cluster laquoa-eraquo vient

enrichir le cluster laquoa-braquo qui contient deacutejagrave laquoaraquo) ou agrave une creacuteation de nouveau cluster (laquoc-draquo par

exemple)

Deacutefinitions

Web mining Data mining appliqueacute aux donneacutees de navigation sur le web

Objectifs du web mining

1 Optimiser la navigation dans un site web (confort des internautes)

2 Augmenter le nombre de pages consulteacutees et lrsquoimpact des liens et des banniegraveres publicitaires

3 Deacuteceler les centres drsquointeacuterecirct et donc les attentes des internautes visitant le site

Types dAnalyses

Statistique descriptive

bull laquo 70 des internautes ont consulteacute 3 pages ou moins raquo

bull laquo 40 des internautes accegravedent au site sans passer par la page drsquoaccueil raquo

Deacutetection des regravegles drsquoassociation

bull laquo 20 des internautes visitant la page A visitent la page B dans la mecircme session raquo

Segmentation des internautes

bull Selon les sites de provenance les pages drsquoentreacutee le nombre de pages consulteacutees les fichiers teacuteleacutechargeacutes les pages de sortie etc

1- Composante calculatoire Web Mining

Cartographie de linformation- Composantes des applications cartographiques

31

32

Cartographie de linformation- Composantes des applications cartographiques

1- Composante calculatoire Web Social Data Mining

Hypothegravese documentaire

Web structureacute par des laquo localiteacutes theacutematiques raquo deacutefinies par une forte correacutelation entre

contenu des documents et proximiteacute hypertexte dessinant comme un territoire

Probleacutematique de la laquo traccedilabiliteacute raquo du socialbull Le web se preacutesente comme une matrice technique distribueacutee faccedilonneacutee par des usages dont

le reacuteseau garde la meacutemoire bull Le seul fait dutiliser une technologie numeacuterique contribue agrave produire des traces et agrave

grande eacutechelle elles constituent un reacuteservoir immense de donneacutees disponibles

Principes hubs et autoriteacutes (Kleinberg et al)

bull Autoriteacutes ensemble des pages contenant les meilleures sources drsquoinformation pour un

thegraveme donneacute

bull Hubs pages pointant sur les autoriteacutes

bull Le calcul ressemble au calcul drsquoimportance drsquoun article par nombre de citations (les liens

du Web vus comme des recommendations)

Applications

Sujets controverseacutes ougrave le seul lexique nest pas discriminant

33

Cartographie de linformation- Composantes des applications cartographiques

2- Composante visuelle

Eleacutements de seacutemiologie graphique (J Bertin) Theacuteorie de la Gestalt

34

Cartographie de linformation- Composantes des applications cartographiques

2- Composante visuelle Eleacutements de seacutemiologie graphique (J Bertin)

35

Cartographie de linformation- Composantes des applications cartographiques

2- Composante visuelle Eleacutements de seacutemiologie graphique (J Bertin)

Type de dessin Signification

des signes Description Exemple

Graphis

me

Image non-

figurative Panseacutemique

Le systegraveme srsquoouvre agrave toute

signification Tableau drsquoart

Image

figurative Polyseacutemique

Le systegraveme a pour objectif de

deacutefinir un concept ou une ideacutee

mais les interpreacutetations peuvent

diverger

Photographie

aeacuterienne

Graphique Monoseacutemique

Transcriptions de relations entre

des concepts preacutealablement

deacutefinis

Un

organigramme

36

Cartographie de linformation- Composantes des applications cartographiques

2- Composante visuelle Eleacutements de seacutemiologie graphique (J Bertin)

laquo La graphique est un systegraveme de signes [structures visuelles] qui permet de transcrire les

relations de diffeacuterence drsquoordre ou de proportionnaliteacute existant entre des donneacutees qualitatives ou

quantitatives raquo [Bonin 1997]

laquo La carte est une image graphique qui transcrit les relations de proportionnaliteacute ordre et

diffeacuterence par des variations proportionnelles ordonneacutees et diffeacuterentielles raquo

37

Cartographie de linformation- Composantes des applications cartographiques

2- Composante visuelle Eleacutements de seacutemiologie graphique (J Bertin)

38

Cartographie de linformation- Composantes des applications cartographiques

2- Composante visuelle Eleacutements de seacutemiologie graphique (J Bertin)

39

Cartographie de linformation- Composantes des applications cartographiques

2- Composante visuelle Eleacutements de seacutemiologie graphique (J Bertin)

40

Cartographie de linformation- Composantes des applications cartographiques

2- Composante visuelle Eleacutements de seacutemiologie graphique (J Bertin)

41

Cartographie de linformation- Composantes des applications cartographiques

2- Composante visuelle Eleacutements de seacutemiologie graphique (J Bertin)

Variables visuelles (laquo variables reacutetiniennes raquo)

Variation des proprieacuteteacutes graphiques des structures visuelles

42

Cartographie de linformation- Composantes des applications cartographiques

2- Composante visuelle Eleacutements de seacutemiologie graphique (J Bertin)

Variables visuelles

Cartographie de linformation- Composantes des applications cartographiques

2- Composante visuelle Eleacutements de seacutemiologie graphique (J Bertin)

43

44

Cartographie de linformation- Composantes des applications cartographiques

2- Composante visuelle Theacuteorie de la Gestalt (1890)

Principe

Le contexte est tregraves important dans la perception visuelle [Guillaume]

Les structures visuelles ne sont pas indeacutependantes les unes des autres et le contexte est

important pour la signification qui leur est attribueacutee

En graphique

La perception visuelle srsquoattache agrave reconnaicirctre des modegraveles dans un ensemble de structures

visuelles

De cette theacuteorie reacutesultent des lois correspondant agrave des cateacutegories drsquointeractions possibles entre

les structures visuelles

45

Cartographie de linformation- Composantes des applications cartographiques

Lois Effets Illustrations

Preacutegnance Une image est facile agrave comprendre si sa structure est simple et inversement

Proximiteacute Deux composants qui sont proches ont tendance agrave ecirctre perccedilus comme un

seul composant

Similariteacute Les composants similaires sont perccedilus comme srsquoils eacutetaient regroupeacutes

Fermeture Les contours proches sont perccedilus comme unifieacutes

Continuiteacute Des eacuteleacutements voisins sont perccedilus groupeacutes lorsqursquoils possegravedent

potentiellement un trait qui les relie

Symeacutetrie Des eacuteleacutements sont perccedilus comme un eacuteleacutement global lorsqursquoils forment une

symeacutetrie

Trajectoire identique Des eacuteleacutements qui se deacuteplacent avec la mecircme trajectoire semblent groupeacutes

Familiariteacute Des eacuteleacutements sont plus facilement groupables si le groupe est familier ou

significatif

46

Cartographie de linformation- Composantes des applications cartographiques

2- Composante visuelle Theacuteorie de la Gestalt (1890)

47

Cartographie de linformation- Composantes des applications cartographiques

2- Composante visuelle Conception drsquoun langage graphique (JB Lamy)

1- Analyser les informations ou connaissances que lrsquoon souhaite repreacutesenter

Determiner les attributs qui

deacutefinissent les termes agrave repreacutesenter

bull Par exemple pour repreacutesenter

des maladies les attributs pourraient

ecirctre la localisation anatomique

(cardiaque reacutenale) la seacuteveacuteriteacute etc

2- Associer agrave chaque attribut une variable

reacutetinienne pour le repreacutesenter

bull Par exemple pour les maladies

Associer lrsquoattribut localisation

anatomique agrave la variable

formepictogramme

bull Repreacutesenter la seacuteveacuteriteacute par la variable

couleur

3- Les relations entre les diffeacuterents termes

repreacutesenteacutes doivent ecirctre expliciteacutees

48

Cartographie de linformation

Famille doutils et contextes applicatifs

1- Famille doutils

Typologies

Aperccedilu

Travaux pratiques

2- Contextes applicatifs

Eleacutements deacutevaluation

Les perspectives de la cartographie seacutemantique

49

Cartographie de linformation- Famille doutils et contextes applicatifs

1- Famille doutils

Typologies

Aperccedilu

TP agrave partir de la seacutelection httpdeliciouscommylk02Stage_Carto

Et encore httpwwwvisualcomplexitycomvc (plus de 500 projets dans le domaine)

50

Cartographie de linformation- Famille doutils et contextes applicatifs

1- Famille doutils typologies

11- Typologie scientifique eacutetablie selon des critegraveres internes au domaine

bull les trois principaux paradigmes technique de visualisation type de donneacutees et type dinteraction (Keim

DA 2002)

bull la nature des donneacutees unidimensionnelles bidimensionnelles tridimensionnelles temporelles

multidimensionnelles hieacuterarchiques reacuteseaux (Shneiderman B 1996)

12- Etat de lart eacutevaluation - benchmarking typologie orienteacutee usages (veille et intelligence eacuteconomique)

Quelques exemples

Inist httpoutilsveilleinistfr

Esiee httpwwwaa-esieecomevent2005AGClaudeAschenbrennerppt

Ecole des Mines httpwwwdemoscienceorgresources

Commercial httpwwwk-praxiscom

Commercial httpwwwinformation-mininginfostate_of_art

Universitaire httpwell-formed-datanetthesis

13- Typologie cartographique

Quelques exemples de bloggers

bull Claude Aschenbrenner httpwwwserialmappercomarchive20070110la-pierre-de-rosette-de-la-

cartographie-de-l-informationhtml avec son mode demploi

bull Kartoo httpwwwmapdreamcom

51

Cartographie de linformation- Famille doutils et contextes applicatifs

1- Famille doutils typologie scientifique

52

Cartographie de linformation- Famille doutils orienteacutes laquo bibliothegraveques raquo

2- Les outils de navigation et de recherche sur Internet (seacutelection de Pierre Nobis)

A- Les navigateurs Nestor Navicrawler

53

Cartographie de linformation- Famille doutils orienteacutes laquo bibliothegraveques raquo

2- Les outils de navigation et de recherche sur Internet (seacutelection de Pierre Nobis)

B- Les outils de visualisation des reacutesultats PageBull ManagedQ

Bbis Les outils de visualisation de reacutesultats dans les actualiteacutes

repreacutesentation carreacutee Marumushi - Google NewsNewsIsFree - The Hive Group Tenbyten -flux RSS des sources drsquoactualiteacutes internationales

repreacutesentation sous forme de graphe

Silobreaker

54

Cartographie de linformation- Famille doutils orienteacutes laquo bibliothegraveques raquo

2- Les outils de navigation et de recherche sur Internet

B-Les outils de visualisation des reacutesultats TouchGraph application Java permettant de cartographier les reacutesultats issus

notamment de Google Amazon PubMed Alexa FaceBook

55

Cartographie de linformation- Famille doutils orienteacutes laquo bibliothegraveques raquo

2- Les outils de navigation et de recherche sur Internet (seacutelection de Pierre Nobis)

C- Les outils de recherche avec ajout de termes associeacutes dans une colonne regroupement theacutematique nuage de laquo tags raquo

D- Meacutetamoteurs avec affichage de clusters sous forme de listes

Carrot2 Clusty-Vivissimo Iboogie Polymeta Turbo10 Webclust

56

Cartographie de linformation- Famille doutils orienteacutes laquo bibliothegraveques raquo

2- Les outils de navigation et de recherche sur Internet (seacutelection de Pierre Nobis)

E- Meacutetamoteurs avec affichage de clusters sous forme graphique

E1- repreacutesentation centreacutee Allplus WebBrain

Allplus est un meacutetamoteur agrave clusteacuterisation graphique qui interroge les bases de Ask Google Yahoo et Livepar le biais de lrsquooutil Polymeta Lrsquointerface cluster graph permet de visualiser les reacutesultats sous une forme graphique

Webbrain permet de visualiser et drsquoaffiner les reacutesultats drsquoune requecircte issus de lrsquoOpen Directory Project

57

Cartographie de linformation- Famille doutils orienteacutes laquo bibliothegraveques raquo

2- Les outils de navigation et de recherche sur Internet (seacutelection de Pierre Nobis)

E- Meacutetamoteurs avec affichage de clusters sous forme graphique

E2- Repreacutesentation circulaire Grokker

E3- Repreacutesentation topographique TooLeNet srsquoappuie sur les technologies de KartOO et sur lrsquoindex de

Yahoo pour effectuer des recherches selon 3 modes moteur annuaire et carte auxquels srsquoajoutent des

options de personnalisation et de classification assez avanceacutees

58

Cartographie de linformation- Famille doutils orienteacutes laquo bibliothegraveques raquo

3- Les Outils graphiques dexploration

Wikimindmap est un outil drsquointerrogation

et de repreacutesentation des informations issues

de Wikipedia sous forme de carte heuristique

Visuwords est un dictionnaire en ligne

qui preacutesente ses reacutesultats sous forme de laquo grappes raquo

Il utilise la base de donneacutees Wordnet

Code couleur pour les diffeacuterentes relations

seacutemantiques hieacuterarchiques entre les termes

ainsi que les synonymes et les antonymes

59

Cartographie de linformation- Famille doutils orienteacutes laquo bibliothegraveques raquo

4- Les outils de creacuteation (carto)graphiqueA- Pour meacutemoire les logiciels de creacuteation de cartes heuristiques et conceptuelles

Cmaptools est un logiciel gratuit (usage eacuteducatif) de creacuteation de cartes conceptuelles

Freemind est un logiciel libre et gratuit qui permet de reacutealiser des cartes heuristiques

Thinkgraph est un logiciel gratuit de dessin 2D orienteacute vers la reacutealisation de cartes conceptuelles

60

Cartographie de linformation- Famille doutils orienteacutes laquo bibliothegraveques raquo

4- Les outils de creacuteation (carto)graphique

B- Les outils drsquoeacutedition de graphes

Guess est un logiciel libre et gratuit deacuteveloppeacute par Eytan Adar qui permet de visualiser des

graphes statiques Options de modification de certains attributs (taille couleur forme

algorithmes de positionnementhellip)

Pajek est un logiciel libre et gratuit (usage non commercial) deacuteveloppeacute par V Batagelj et A

Mrvar qui permet de traiter des donneacutees de reacuteseaux de grande taille Pajek signifie araigneacutee

en slovegravene

C- Les outils en ligne

ManyEye service collaboratif deacuteveloppeacute par IBM gracircce auquel on peut geacuteneacuterer selon un

des modegraveles proposeacutes sa propre visualisation de lrsquoinformation (apregraves avoir teacuteleacuteverseacute ses

propres donneacutees)

IssueCrawler outil de web social mining utilisable agrave distance (chargement des URL)

reacutecupeacuteration graphique

61

Cartographie de linformation- Famille doutils et contextes applicatifs

2- Contextes applicatifs

Eleacutements deacutevaluation

Les perspectives de la cartographie seacutemantique

62

Cartographie de linformation- Famille doutils et contextes applicatifs

2- Contextes applicatifs Eleacutements deacutevaluation

21- Evaluation scientifique

Question de meacutethode Eacutevaluation des Interfaces Utilisateur drsquoInformation Bonnel et Chevalier 2006

Objectif proposer une meacutethodologie deacutevaluation permettant de comparer du point de vue de la

visualisation des reacutesultats agrave une requecircte les outils de recherche Google Vivisimo Ujiko Grokker Kartoo

Vios SmartWeb (prototype)

Evaluation des repreacutesentations graphiques geacuteneacuteraliteacutes (Tricot et Roche 2006)

bull Arborescences simples

habitude des utilisateurs (explorateur de fichiers informatiques) pas de problegravemes avec volume limiteacute

au-delagrave drsquoune certaine quantiteacute drsquoinformation les arborescences deviennent inefficaces

bull Arbres de cocircnes en 3D

posent des problegravemes agrave lrsquoutilisateur qui nrsquoa pas lrsquohabitude des espaces en 3D

effort cognitif plus eacuteleveacute et prise en main plus longue

bull Arbres hyperboliques

problegravemes des eacutetiquettes des eacuteleacutements (occlusion)

effet de zoom impreacutevisible

Lrsquoune des conclusions une seule visualisation ne permet pas de reacutepondre agrave toutes les questions

multiplier les possibiliteacutes de visualisation

63

Cartographie de linformation- Famille doutils et contextes applicatifs

2- Contextes applicatifs Eleacutements deacutevaluation

21- Evaluation scientifique doctorat en cours agrave lrsquoEBSI (Aline Creacutedeville)

bull Contexte visualisation de lrsquoinformation dans le contexte de recherche drsquoinformation

bull Point de vue de la seacutemiologie graphique

o principes les plus couramment utiliseacutes sont la proximiteacute (Grokker) lrsquoenglobage (Kartoo)

et la connectiviteacute (Auquabrowser)

omeacutetaphores visuelles pas toujours adeacutequates au web

bull Reacutesultats

o lrsquoinformation doit ecirctre structureacutee

o apports possible pour lrsquoexploration mais pas pour la recherche

64

Cartographie de linformation- Famille doutils et contextes applicatifs

2- Contextes applicatifs Eleacutements deacutevaluation

22- Evaluation en contexte dusage de recherche dinformations (Ciaccia Ihadjadene Martins 2006)

Objectif analyse de lrsquoinfluence du mode de preacutesentation des informations sur les processus cognitifs mis

en jeu par lrsquoutilisateur dans lrsquoactiviteacute de recherche drsquoinformations sur Internet

Outils eacutevalueacutes Kartoo (pour 18 usagers) et Mapstan (pour 16 usagers)

Principaux reacutesultats

Coucirct cognitif sans pour autant conduire agrave de meilleures performances (comparaison avec une

preacutesentation en liste)

Hypothegravese nouveauteacute de la preacutesentation versus habitude des preacutesentations verbales

Strateacutegie optimiseacutee preacuteciser la requecircte drsquoune recherche agrave but flou et se concentrer sur les informations

relieacutees agrave lrsquoobjectif de la question versus informations non relieacutees

Le sens de la visualisation doit ecirctre clarifieacute les systegravemes doivent faciliter la compreacutehension des

eacuteleacutements visualiseacutes

65

Cartographie de linformation- Famille doutils et contextes applicatifs

2- Contextes applicatifs Les perspectives de la cartographie seacutemantique (C Tricot de la seacutemantique agrave la carte)

Pour reacutesoudre la probleacutematique de la repreacutesentation de lrsquoinformation la visualisation de

lrsquoinformation seule ne suffit pas

La visualisation de lrsquoinformation permet uniquement de preacutesenter des donneacutees en leur

associant une repreacutesentation graphique

La cartographie seacutemantique se veut

Une meacutethode de cartographie reposant sur la seacutemantique dun domaine

Un processus de production de connaissances

donneacutees brutes -gt donneacutees structureacutees -gt donneacutees repreacutesenteacutees -gt donneacutees visualiseacutees

Un formalisme de description type Reacuteseaux seacutemantiques

Un langage de description cartographique

Une architecture multi-agents

66

Cartographie de linformation- Famille doutils et contextes applicatifs

2- Contextes applicatifs Les perspectives de la cartographie seacutemantique (C Tricot de la seacutemantique agrave la carte)

67

Cartographie de linformation- Famille doutils et contextes applicatifs

2- Contextes applicatifs Les perspectives de la cartographie seacutemantique

ldquoUne bonne structure repreacutesentative graphique pour un arbre de donneacutees est celle qui deacuteforme le moins les similitudes originales entre les uniteacutes de donneacutees (similitudes qui sont donneacutes par loutil de classification) ou en dautres termes deux individus (ou classes) qui sont proches lune de lautre le restent aussi possible que peut apregraves projection dans l`espace de visualisation et ceci doit ecirctre eacutevident(et veacuterifiable par une mesure de calcul de divergence) dans lenvironnement de visualisation ldquo Tricot 2006

Page 22: Cartographie de l'information- Composantes des - Urfist de Paris

22

Vue simplifieacutee du Text Mining

23

Analyse lexicomeacutetrique

Eliminer les mots vides Deacutecouper les textes en uniteacutes Lemmatiser Reacuteduire le nombre de termes agrave traiter

24

Anayse statistique

25

Term frequency (TF)

Un terme qui apparait plusieurs fois dans un document est plus

important qursquoun terme qui apparaicirct une seule fois

wij = Nombre drsquooccurrences du terme ti dans le document dj

TFij = Freacutequence du terme ti dans le document dj

j

ij

d

wTF

ij

26

Inverse document frequency (IDF)

Un terme qui apparaicirct dans peu de documents est un meilleur discriminant qursquoun terme qui apparaicirct dans tous les documents

bull dfi = nombre de documents contenant le terme ti

bull d = nombre de documents du corpus

Inverse document frequency

i

i

df

dIDF log

27

Pondeacuteration TF-IDF

TF-IDF signifie Term Frequency x Inverse Document

Frequency

bull Proposeacutee par [Salton 1989] mesure limportance drsquoun terme

dans un document relativement agrave lrsquoensemble des documents

bull tf ij = freacutequence du terme i dans le document j

df i = nombre de documents contenant le terme i

N = d = nombre de documents du corpus

28

Similariteacute entre documents

Permet de ranger les

documents par pertinence

Le cosinus de lrsquoangle est

souvent utiliseacute

2d1d

2dT

1d2d1d )cos(

bull gt cos( )ltcos( )

bull d2 est plus proche de d1que de d3

29

Cartographie de linformation- Composantes des applications cartographiques

1- Composante calculatoire Data Clustering ou partitionnement de donneacutees

Deacutefinition

Meacutethode statistique danalyse des donneacutees qui a pour but de regrouper un ensemble de donneacutees en

diffeacuterents paquets homogegravenes chaque sous-ensemble partage des caracteacuteristiques communes qui

correspondent le plus souvent agrave des critegraveres de proximiteacute que lon deacutefinit en introduisant des mesures

de distance

Principe

Pour obtenir un bon partitionnement il convient de

bull minimiser linertie intra-classe pour obtenir des grappes (cluster en anglais) les plus homogegravenes

possibles

bull maximiser linertie inter-classe afin dobtenir des sous-ensembles bien diffeacuterencieacutes

Composition

Un cluster est composeacute de

bull une liste de mots-cleacutes

bull une liste dassociations internes

bull une liste dassociations externes

bull une eacutetiquette

bull une liste de documents affecteacutes apregraves la classification

30

Cartographie de linformation- Composantes des applications cartographiques

1- Composante calculatoire DataClustering

bull Lassociation la plus forte permet de creacuteer le premier cluster ici laquoa-braquo)

bull Une nouvelle association peut donner lieu agrave un laquoenrichissementraquo de cluster laquoa-eraquo vient

enrichir le cluster laquoa-braquo qui contient deacutejagrave laquoaraquo) ou agrave une creacuteation de nouveau cluster (laquoc-draquo par

exemple)

Deacutefinitions

Web mining Data mining appliqueacute aux donneacutees de navigation sur le web

Objectifs du web mining

1 Optimiser la navigation dans un site web (confort des internautes)

2 Augmenter le nombre de pages consulteacutees et lrsquoimpact des liens et des banniegraveres publicitaires

3 Deacuteceler les centres drsquointeacuterecirct et donc les attentes des internautes visitant le site

Types dAnalyses

Statistique descriptive

bull laquo 70 des internautes ont consulteacute 3 pages ou moins raquo

bull laquo 40 des internautes accegravedent au site sans passer par la page drsquoaccueil raquo

Deacutetection des regravegles drsquoassociation

bull laquo 20 des internautes visitant la page A visitent la page B dans la mecircme session raquo

Segmentation des internautes

bull Selon les sites de provenance les pages drsquoentreacutee le nombre de pages consulteacutees les fichiers teacuteleacutechargeacutes les pages de sortie etc

1- Composante calculatoire Web Mining

Cartographie de linformation- Composantes des applications cartographiques

31

32

Cartographie de linformation- Composantes des applications cartographiques

1- Composante calculatoire Web Social Data Mining

Hypothegravese documentaire

Web structureacute par des laquo localiteacutes theacutematiques raquo deacutefinies par une forte correacutelation entre

contenu des documents et proximiteacute hypertexte dessinant comme un territoire

Probleacutematique de la laquo traccedilabiliteacute raquo du socialbull Le web se preacutesente comme une matrice technique distribueacutee faccedilonneacutee par des usages dont

le reacuteseau garde la meacutemoire bull Le seul fait dutiliser une technologie numeacuterique contribue agrave produire des traces et agrave

grande eacutechelle elles constituent un reacuteservoir immense de donneacutees disponibles

Principes hubs et autoriteacutes (Kleinberg et al)

bull Autoriteacutes ensemble des pages contenant les meilleures sources drsquoinformation pour un

thegraveme donneacute

bull Hubs pages pointant sur les autoriteacutes

bull Le calcul ressemble au calcul drsquoimportance drsquoun article par nombre de citations (les liens

du Web vus comme des recommendations)

Applications

Sujets controverseacutes ougrave le seul lexique nest pas discriminant

33

Cartographie de linformation- Composantes des applications cartographiques

2- Composante visuelle

Eleacutements de seacutemiologie graphique (J Bertin) Theacuteorie de la Gestalt

34

Cartographie de linformation- Composantes des applications cartographiques

2- Composante visuelle Eleacutements de seacutemiologie graphique (J Bertin)

35

Cartographie de linformation- Composantes des applications cartographiques

2- Composante visuelle Eleacutements de seacutemiologie graphique (J Bertin)

Type de dessin Signification

des signes Description Exemple

Graphis

me

Image non-

figurative Panseacutemique

Le systegraveme srsquoouvre agrave toute

signification Tableau drsquoart

Image

figurative Polyseacutemique

Le systegraveme a pour objectif de

deacutefinir un concept ou une ideacutee

mais les interpreacutetations peuvent

diverger

Photographie

aeacuterienne

Graphique Monoseacutemique

Transcriptions de relations entre

des concepts preacutealablement

deacutefinis

Un

organigramme

36

Cartographie de linformation- Composantes des applications cartographiques

2- Composante visuelle Eleacutements de seacutemiologie graphique (J Bertin)

laquo La graphique est un systegraveme de signes [structures visuelles] qui permet de transcrire les

relations de diffeacuterence drsquoordre ou de proportionnaliteacute existant entre des donneacutees qualitatives ou

quantitatives raquo [Bonin 1997]

laquo La carte est une image graphique qui transcrit les relations de proportionnaliteacute ordre et

diffeacuterence par des variations proportionnelles ordonneacutees et diffeacuterentielles raquo

37

Cartographie de linformation- Composantes des applications cartographiques

2- Composante visuelle Eleacutements de seacutemiologie graphique (J Bertin)

38

Cartographie de linformation- Composantes des applications cartographiques

2- Composante visuelle Eleacutements de seacutemiologie graphique (J Bertin)

39

Cartographie de linformation- Composantes des applications cartographiques

2- Composante visuelle Eleacutements de seacutemiologie graphique (J Bertin)

40

Cartographie de linformation- Composantes des applications cartographiques

2- Composante visuelle Eleacutements de seacutemiologie graphique (J Bertin)

41

Cartographie de linformation- Composantes des applications cartographiques

2- Composante visuelle Eleacutements de seacutemiologie graphique (J Bertin)

Variables visuelles (laquo variables reacutetiniennes raquo)

Variation des proprieacuteteacutes graphiques des structures visuelles

42

Cartographie de linformation- Composantes des applications cartographiques

2- Composante visuelle Eleacutements de seacutemiologie graphique (J Bertin)

Variables visuelles

Cartographie de linformation- Composantes des applications cartographiques

2- Composante visuelle Eleacutements de seacutemiologie graphique (J Bertin)

43

44

Cartographie de linformation- Composantes des applications cartographiques

2- Composante visuelle Theacuteorie de la Gestalt (1890)

Principe

Le contexte est tregraves important dans la perception visuelle [Guillaume]

Les structures visuelles ne sont pas indeacutependantes les unes des autres et le contexte est

important pour la signification qui leur est attribueacutee

En graphique

La perception visuelle srsquoattache agrave reconnaicirctre des modegraveles dans un ensemble de structures

visuelles

De cette theacuteorie reacutesultent des lois correspondant agrave des cateacutegories drsquointeractions possibles entre

les structures visuelles

45

Cartographie de linformation- Composantes des applications cartographiques

Lois Effets Illustrations

Preacutegnance Une image est facile agrave comprendre si sa structure est simple et inversement

Proximiteacute Deux composants qui sont proches ont tendance agrave ecirctre perccedilus comme un

seul composant

Similariteacute Les composants similaires sont perccedilus comme srsquoils eacutetaient regroupeacutes

Fermeture Les contours proches sont perccedilus comme unifieacutes

Continuiteacute Des eacuteleacutements voisins sont perccedilus groupeacutes lorsqursquoils possegravedent

potentiellement un trait qui les relie

Symeacutetrie Des eacuteleacutements sont perccedilus comme un eacuteleacutement global lorsqursquoils forment une

symeacutetrie

Trajectoire identique Des eacuteleacutements qui se deacuteplacent avec la mecircme trajectoire semblent groupeacutes

Familiariteacute Des eacuteleacutements sont plus facilement groupables si le groupe est familier ou

significatif

46

Cartographie de linformation- Composantes des applications cartographiques

2- Composante visuelle Theacuteorie de la Gestalt (1890)

47

Cartographie de linformation- Composantes des applications cartographiques

2- Composante visuelle Conception drsquoun langage graphique (JB Lamy)

1- Analyser les informations ou connaissances que lrsquoon souhaite repreacutesenter

Determiner les attributs qui

deacutefinissent les termes agrave repreacutesenter

bull Par exemple pour repreacutesenter

des maladies les attributs pourraient

ecirctre la localisation anatomique

(cardiaque reacutenale) la seacuteveacuteriteacute etc

2- Associer agrave chaque attribut une variable

reacutetinienne pour le repreacutesenter

bull Par exemple pour les maladies

Associer lrsquoattribut localisation

anatomique agrave la variable

formepictogramme

bull Repreacutesenter la seacuteveacuteriteacute par la variable

couleur

3- Les relations entre les diffeacuterents termes

repreacutesenteacutes doivent ecirctre expliciteacutees

48

Cartographie de linformation

Famille doutils et contextes applicatifs

1- Famille doutils

Typologies

Aperccedilu

Travaux pratiques

2- Contextes applicatifs

Eleacutements deacutevaluation

Les perspectives de la cartographie seacutemantique

49

Cartographie de linformation- Famille doutils et contextes applicatifs

1- Famille doutils

Typologies

Aperccedilu

TP agrave partir de la seacutelection httpdeliciouscommylk02Stage_Carto

Et encore httpwwwvisualcomplexitycomvc (plus de 500 projets dans le domaine)

50

Cartographie de linformation- Famille doutils et contextes applicatifs

1- Famille doutils typologies

11- Typologie scientifique eacutetablie selon des critegraveres internes au domaine

bull les trois principaux paradigmes technique de visualisation type de donneacutees et type dinteraction (Keim

DA 2002)

bull la nature des donneacutees unidimensionnelles bidimensionnelles tridimensionnelles temporelles

multidimensionnelles hieacuterarchiques reacuteseaux (Shneiderman B 1996)

12- Etat de lart eacutevaluation - benchmarking typologie orienteacutee usages (veille et intelligence eacuteconomique)

Quelques exemples

Inist httpoutilsveilleinistfr

Esiee httpwwwaa-esieecomevent2005AGClaudeAschenbrennerppt

Ecole des Mines httpwwwdemoscienceorgresources

Commercial httpwwwk-praxiscom

Commercial httpwwwinformation-mininginfostate_of_art

Universitaire httpwell-formed-datanetthesis

13- Typologie cartographique

Quelques exemples de bloggers

bull Claude Aschenbrenner httpwwwserialmappercomarchive20070110la-pierre-de-rosette-de-la-

cartographie-de-l-informationhtml avec son mode demploi

bull Kartoo httpwwwmapdreamcom

51

Cartographie de linformation- Famille doutils et contextes applicatifs

1- Famille doutils typologie scientifique

52

Cartographie de linformation- Famille doutils orienteacutes laquo bibliothegraveques raquo

2- Les outils de navigation et de recherche sur Internet (seacutelection de Pierre Nobis)

A- Les navigateurs Nestor Navicrawler

53

Cartographie de linformation- Famille doutils orienteacutes laquo bibliothegraveques raquo

2- Les outils de navigation et de recherche sur Internet (seacutelection de Pierre Nobis)

B- Les outils de visualisation des reacutesultats PageBull ManagedQ

Bbis Les outils de visualisation de reacutesultats dans les actualiteacutes

repreacutesentation carreacutee Marumushi - Google NewsNewsIsFree - The Hive Group Tenbyten -flux RSS des sources drsquoactualiteacutes internationales

repreacutesentation sous forme de graphe

Silobreaker

54

Cartographie de linformation- Famille doutils orienteacutes laquo bibliothegraveques raquo

2- Les outils de navigation et de recherche sur Internet

B-Les outils de visualisation des reacutesultats TouchGraph application Java permettant de cartographier les reacutesultats issus

notamment de Google Amazon PubMed Alexa FaceBook

55

Cartographie de linformation- Famille doutils orienteacutes laquo bibliothegraveques raquo

2- Les outils de navigation et de recherche sur Internet (seacutelection de Pierre Nobis)

C- Les outils de recherche avec ajout de termes associeacutes dans une colonne regroupement theacutematique nuage de laquo tags raquo

D- Meacutetamoteurs avec affichage de clusters sous forme de listes

Carrot2 Clusty-Vivissimo Iboogie Polymeta Turbo10 Webclust

56

Cartographie de linformation- Famille doutils orienteacutes laquo bibliothegraveques raquo

2- Les outils de navigation et de recherche sur Internet (seacutelection de Pierre Nobis)

E- Meacutetamoteurs avec affichage de clusters sous forme graphique

E1- repreacutesentation centreacutee Allplus WebBrain

Allplus est un meacutetamoteur agrave clusteacuterisation graphique qui interroge les bases de Ask Google Yahoo et Livepar le biais de lrsquooutil Polymeta Lrsquointerface cluster graph permet de visualiser les reacutesultats sous une forme graphique

Webbrain permet de visualiser et drsquoaffiner les reacutesultats drsquoune requecircte issus de lrsquoOpen Directory Project

57

Cartographie de linformation- Famille doutils orienteacutes laquo bibliothegraveques raquo

2- Les outils de navigation et de recherche sur Internet (seacutelection de Pierre Nobis)

E- Meacutetamoteurs avec affichage de clusters sous forme graphique

E2- Repreacutesentation circulaire Grokker

E3- Repreacutesentation topographique TooLeNet srsquoappuie sur les technologies de KartOO et sur lrsquoindex de

Yahoo pour effectuer des recherches selon 3 modes moteur annuaire et carte auxquels srsquoajoutent des

options de personnalisation et de classification assez avanceacutees

58

Cartographie de linformation- Famille doutils orienteacutes laquo bibliothegraveques raquo

3- Les Outils graphiques dexploration

Wikimindmap est un outil drsquointerrogation

et de repreacutesentation des informations issues

de Wikipedia sous forme de carte heuristique

Visuwords est un dictionnaire en ligne

qui preacutesente ses reacutesultats sous forme de laquo grappes raquo

Il utilise la base de donneacutees Wordnet

Code couleur pour les diffeacuterentes relations

seacutemantiques hieacuterarchiques entre les termes

ainsi que les synonymes et les antonymes

59

Cartographie de linformation- Famille doutils orienteacutes laquo bibliothegraveques raquo

4- Les outils de creacuteation (carto)graphiqueA- Pour meacutemoire les logiciels de creacuteation de cartes heuristiques et conceptuelles

Cmaptools est un logiciel gratuit (usage eacuteducatif) de creacuteation de cartes conceptuelles

Freemind est un logiciel libre et gratuit qui permet de reacutealiser des cartes heuristiques

Thinkgraph est un logiciel gratuit de dessin 2D orienteacute vers la reacutealisation de cartes conceptuelles

60

Cartographie de linformation- Famille doutils orienteacutes laquo bibliothegraveques raquo

4- Les outils de creacuteation (carto)graphique

B- Les outils drsquoeacutedition de graphes

Guess est un logiciel libre et gratuit deacuteveloppeacute par Eytan Adar qui permet de visualiser des

graphes statiques Options de modification de certains attributs (taille couleur forme

algorithmes de positionnementhellip)

Pajek est un logiciel libre et gratuit (usage non commercial) deacuteveloppeacute par V Batagelj et A

Mrvar qui permet de traiter des donneacutees de reacuteseaux de grande taille Pajek signifie araigneacutee

en slovegravene

C- Les outils en ligne

ManyEye service collaboratif deacuteveloppeacute par IBM gracircce auquel on peut geacuteneacuterer selon un

des modegraveles proposeacutes sa propre visualisation de lrsquoinformation (apregraves avoir teacuteleacuteverseacute ses

propres donneacutees)

IssueCrawler outil de web social mining utilisable agrave distance (chargement des URL)

reacutecupeacuteration graphique

61

Cartographie de linformation- Famille doutils et contextes applicatifs

2- Contextes applicatifs

Eleacutements deacutevaluation

Les perspectives de la cartographie seacutemantique

62

Cartographie de linformation- Famille doutils et contextes applicatifs

2- Contextes applicatifs Eleacutements deacutevaluation

21- Evaluation scientifique

Question de meacutethode Eacutevaluation des Interfaces Utilisateur drsquoInformation Bonnel et Chevalier 2006

Objectif proposer une meacutethodologie deacutevaluation permettant de comparer du point de vue de la

visualisation des reacutesultats agrave une requecircte les outils de recherche Google Vivisimo Ujiko Grokker Kartoo

Vios SmartWeb (prototype)

Evaluation des repreacutesentations graphiques geacuteneacuteraliteacutes (Tricot et Roche 2006)

bull Arborescences simples

habitude des utilisateurs (explorateur de fichiers informatiques) pas de problegravemes avec volume limiteacute

au-delagrave drsquoune certaine quantiteacute drsquoinformation les arborescences deviennent inefficaces

bull Arbres de cocircnes en 3D

posent des problegravemes agrave lrsquoutilisateur qui nrsquoa pas lrsquohabitude des espaces en 3D

effort cognitif plus eacuteleveacute et prise en main plus longue

bull Arbres hyperboliques

problegravemes des eacutetiquettes des eacuteleacutements (occlusion)

effet de zoom impreacutevisible

Lrsquoune des conclusions une seule visualisation ne permet pas de reacutepondre agrave toutes les questions

multiplier les possibiliteacutes de visualisation

63

Cartographie de linformation- Famille doutils et contextes applicatifs

2- Contextes applicatifs Eleacutements deacutevaluation

21- Evaluation scientifique doctorat en cours agrave lrsquoEBSI (Aline Creacutedeville)

bull Contexte visualisation de lrsquoinformation dans le contexte de recherche drsquoinformation

bull Point de vue de la seacutemiologie graphique

o principes les plus couramment utiliseacutes sont la proximiteacute (Grokker) lrsquoenglobage (Kartoo)

et la connectiviteacute (Auquabrowser)

omeacutetaphores visuelles pas toujours adeacutequates au web

bull Reacutesultats

o lrsquoinformation doit ecirctre structureacutee

o apports possible pour lrsquoexploration mais pas pour la recherche

64

Cartographie de linformation- Famille doutils et contextes applicatifs

2- Contextes applicatifs Eleacutements deacutevaluation

22- Evaluation en contexte dusage de recherche dinformations (Ciaccia Ihadjadene Martins 2006)

Objectif analyse de lrsquoinfluence du mode de preacutesentation des informations sur les processus cognitifs mis

en jeu par lrsquoutilisateur dans lrsquoactiviteacute de recherche drsquoinformations sur Internet

Outils eacutevalueacutes Kartoo (pour 18 usagers) et Mapstan (pour 16 usagers)

Principaux reacutesultats

Coucirct cognitif sans pour autant conduire agrave de meilleures performances (comparaison avec une

preacutesentation en liste)

Hypothegravese nouveauteacute de la preacutesentation versus habitude des preacutesentations verbales

Strateacutegie optimiseacutee preacuteciser la requecircte drsquoune recherche agrave but flou et se concentrer sur les informations

relieacutees agrave lrsquoobjectif de la question versus informations non relieacutees

Le sens de la visualisation doit ecirctre clarifieacute les systegravemes doivent faciliter la compreacutehension des

eacuteleacutements visualiseacutes

65

Cartographie de linformation- Famille doutils et contextes applicatifs

2- Contextes applicatifs Les perspectives de la cartographie seacutemantique (C Tricot de la seacutemantique agrave la carte)

Pour reacutesoudre la probleacutematique de la repreacutesentation de lrsquoinformation la visualisation de

lrsquoinformation seule ne suffit pas

La visualisation de lrsquoinformation permet uniquement de preacutesenter des donneacutees en leur

associant une repreacutesentation graphique

La cartographie seacutemantique se veut

Une meacutethode de cartographie reposant sur la seacutemantique dun domaine

Un processus de production de connaissances

donneacutees brutes -gt donneacutees structureacutees -gt donneacutees repreacutesenteacutees -gt donneacutees visualiseacutees

Un formalisme de description type Reacuteseaux seacutemantiques

Un langage de description cartographique

Une architecture multi-agents

66

Cartographie de linformation- Famille doutils et contextes applicatifs

2- Contextes applicatifs Les perspectives de la cartographie seacutemantique (C Tricot de la seacutemantique agrave la carte)

67

Cartographie de linformation- Famille doutils et contextes applicatifs

2- Contextes applicatifs Les perspectives de la cartographie seacutemantique

ldquoUne bonne structure repreacutesentative graphique pour un arbre de donneacutees est celle qui deacuteforme le moins les similitudes originales entre les uniteacutes de donneacutees (similitudes qui sont donneacutes par loutil de classification) ou en dautres termes deux individus (ou classes) qui sont proches lune de lautre le restent aussi possible que peut apregraves projection dans l`espace de visualisation et ceci doit ecirctre eacutevident(et veacuterifiable par une mesure de calcul de divergence) dans lenvironnement de visualisation ldquo Tricot 2006

Page 23: Cartographie de l'information- Composantes des - Urfist de Paris

23

Analyse lexicomeacutetrique

Eliminer les mots vides Deacutecouper les textes en uniteacutes Lemmatiser Reacuteduire le nombre de termes agrave traiter

24

Anayse statistique

25

Term frequency (TF)

Un terme qui apparait plusieurs fois dans un document est plus

important qursquoun terme qui apparaicirct une seule fois

wij = Nombre drsquooccurrences du terme ti dans le document dj

TFij = Freacutequence du terme ti dans le document dj

j

ij

d

wTF

ij

26

Inverse document frequency (IDF)

Un terme qui apparaicirct dans peu de documents est un meilleur discriminant qursquoun terme qui apparaicirct dans tous les documents

bull dfi = nombre de documents contenant le terme ti

bull d = nombre de documents du corpus

Inverse document frequency

i

i

df

dIDF log

27

Pondeacuteration TF-IDF

TF-IDF signifie Term Frequency x Inverse Document

Frequency

bull Proposeacutee par [Salton 1989] mesure limportance drsquoun terme

dans un document relativement agrave lrsquoensemble des documents

bull tf ij = freacutequence du terme i dans le document j

df i = nombre de documents contenant le terme i

N = d = nombre de documents du corpus

28

Similariteacute entre documents

Permet de ranger les

documents par pertinence

Le cosinus de lrsquoangle est

souvent utiliseacute

2d1d

2dT

1d2d1d )cos(

bull gt cos( )ltcos( )

bull d2 est plus proche de d1que de d3

29

Cartographie de linformation- Composantes des applications cartographiques

1- Composante calculatoire Data Clustering ou partitionnement de donneacutees

Deacutefinition

Meacutethode statistique danalyse des donneacutees qui a pour but de regrouper un ensemble de donneacutees en

diffeacuterents paquets homogegravenes chaque sous-ensemble partage des caracteacuteristiques communes qui

correspondent le plus souvent agrave des critegraveres de proximiteacute que lon deacutefinit en introduisant des mesures

de distance

Principe

Pour obtenir un bon partitionnement il convient de

bull minimiser linertie intra-classe pour obtenir des grappes (cluster en anglais) les plus homogegravenes

possibles

bull maximiser linertie inter-classe afin dobtenir des sous-ensembles bien diffeacuterencieacutes

Composition

Un cluster est composeacute de

bull une liste de mots-cleacutes

bull une liste dassociations internes

bull une liste dassociations externes

bull une eacutetiquette

bull une liste de documents affecteacutes apregraves la classification

30

Cartographie de linformation- Composantes des applications cartographiques

1- Composante calculatoire DataClustering

bull Lassociation la plus forte permet de creacuteer le premier cluster ici laquoa-braquo)

bull Une nouvelle association peut donner lieu agrave un laquoenrichissementraquo de cluster laquoa-eraquo vient

enrichir le cluster laquoa-braquo qui contient deacutejagrave laquoaraquo) ou agrave une creacuteation de nouveau cluster (laquoc-draquo par

exemple)

Deacutefinitions

Web mining Data mining appliqueacute aux donneacutees de navigation sur le web

Objectifs du web mining

1 Optimiser la navigation dans un site web (confort des internautes)

2 Augmenter le nombre de pages consulteacutees et lrsquoimpact des liens et des banniegraveres publicitaires

3 Deacuteceler les centres drsquointeacuterecirct et donc les attentes des internautes visitant le site

Types dAnalyses

Statistique descriptive

bull laquo 70 des internautes ont consulteacute 3 pages ou moins raquo

bull laquo 40 des internautes accegravedent au site sans passer par la page drsquoaccueil raquo

Deacutetection des regravegles drsquoassociation

bull laquo 20 des internautes visitant la page A visitent la page B dans la mecircme session raquo

Segmentation des internautes

bull Selon les sites de provenance les pages drsquoentreacutee le nombre de pages consulteacutees les fichiers teacuteleacutechargeacutes les pages de sortie etc

1- Composante calculatoire Web Mining

Cartographie de linformation- Composantes des applications cartographiques

31

32

Cartographie de linformation- Composantes des applications cartographiques

1- Composante calculatoire Web Social Data Mining

Hypothegravese documentaire

Web structureacute par des laquo localiteacutes theacutematiques raquo deacutefinies par une forte correacutelation entre

contenu des documents et proximiteacute hypertexte dessinant comme un territoire

Probleacutematique de la laquo traccedilabiliteacute raquo du socialbull Le web se preacutesente comme une matrice technique distribueacutee faccedilonneacutee par des usages dont

le reacuteseau garde la meacutemoire bull Le seul fait dutiliser une technologie numeacuterique contribue agrave produire des traces et agrave

grande eacutechelle elles constituent un reacuteservoir immense de donneacutees disponibles

Principes hubs et autoriteacutes (Kleinberg et al)

bull Autoriteacutes ensemble des pages contenant les meilleures sources drsquoinformation pour un

thegraveme donneacute

bull Hubs pages pointant sur les autoriteacutes

bull Le calcul ressemble au calcul drsquoimportance drsquoun article par nombre de citations (les liens

du Web vus comme des recommendations)

Applications

Sujets controverseacutes ougrave le seul lexique nest pas discriminant

33

Cartographie de linformation- Composantes des applications cartographiques

2- Composante visuelle

Eleacutements de seacutemiologie graphique (J Bertin) Theacuteorie de la Gestalt

34

Cartographie de linformation- Composantes des applications cartographiques

2- Composante visuelle Eleacutements de seacutemiologie graphique (J Bertin)

35

Cartographie de linformation- Composantes des applications cartographiques

2- Composante visuelle Eleacutements de seacutemiologie graphique (J Bertin)

Type de dessin Signification

des signes Description Exemple

Graphis

me

Image non-

figurative Panseacutemique

Le systegraveme srsquoouvre agrave toute

signification Tableau drsquoart

Image

figurative Polyseacutemique

Le systegraveme a pour objectif de

deacutefinir un concept ou une ideacutee

mais les interpreacutetations peuvent

diverger

Photographie

aeacuterienne

Graphique Monoseacutemique

Transcriptions de relations entre

des concepts preacutealablement

deacutefinis

Un

organigramme

36

Cartographie de linformation- Composantes des applications cartographiques

2- Composante visuelle Eleacutements de seacutemiologie graphique (J Bertin)

laquo La graphique est un systegraveme de signes [structures visuelles] qui permet de transcrire les

relations de diffeacuterence drsquoordre ou de proportionnaliteacute existant entre des donneacutees qualitatives ou

quantitatives raquo [Bonin 1997]

laquo La carte est une image graphique qui transcrit les relations de proportionnaliteacute ordre et

diffeacuterence par des variations proportionnelles ordonneacutees et diffeacuterentielles raquo

37

Cartographie de linformation- Composantes des applications cartographiques

2- Composante visuelle Eleacutements de seacutemiologie graphique (J Bertin)

38

Cartographie de linformation- Composantes des applications cartographiques

2- Composante visuelle Eleacutements de seacutemiologie graphique (J Bertin)

39

Cartographie de linformation- Composantes des applications cartographiques

2- Composante visuelle Eleacutements de seacutemiologie graphique (J Bertin)

40

Cartographie de linformation- Composantes des applications cartographiques

2- Composante visuelle Eleacutements de seacutemiologie graphique (J Bertin)

41

Cartographie de linformation- Composantes des applications cartographiques

2- Composante visuelle Eleacutements de seacutemiologie graphique (J Bertin)

Variables visuelles (laquo variables reacutetiniennes raquo)

Variation des proprieacuteteacutes graphiques des structures visuelles

42

Cartographie de linformation- Composantes des applications cartographiques

2- Composante visuelle Eleacutements de seacutemiologie graphique (J Bertin)

Variables visuelles

Cartographie de linformation- Composantes des applications cartographiques

2- Composante visuelle Eleacutements de seacutemiologie graphique (J Bertin)

43

44

Cartographie de linformation- Composantes des applications cartographiques

2- Composante visuelle Theacuteorie de la Gestalt (1890)

Principe

Le contexte est tregraves important dans la perception visuelle [Guillaume]

Les structures visuelles ne sont pas indeacutependantes les unes des autres et le contexte est

important pour la signification qui leur est attribueacutee

En graphique

La perception visuelle srsquoattache agrave reconnaicirctre des modegraveles dans un ensemble de structures

visuelles

De cette theacuteorie reacutesultent des lois correspondant agrave des cateacutegories drsquointeractions possibles entre

les structures visuelles

45

Cartographie de linformation- Composantes des applications cartographiques

Lois Effets Illustrations

Preacutegnance Une image est facile agrave comprendre si sa structure est simple et inversement

Proximiteacute Deux composants qui sont proches ont tendance agrave ecirctre perccedilus comme un

seul composant

Similariteacute Les composants similaires sont perccedilus comme srsquoils eacutetaient regroupeacutes

Fermeture Les contours proches sont perccedilus comme unifieacutes

Continuiteacute Des eacuteleacutements voisins sont perccedilus groupeacutes lorsqursquoils possegravedent

potentiellement un trait qui les relie

Symeacutetrie Des eacuteleacutements sont perccedilus comme un eacuteleacutement global lorsqursquoils forment une

symeacutetrie

Trajectoire identique Des eacuteleacutements qui se deacuteplacent avec la mecircme trajectoire semblent groupeacutes

Familiariteacute Des eacuteleacutements sont plus facilement groupables si le groupe est familier ou

significatif

46

Cartographie de linformation- Composantes des applications cartographiques

2- Composante visuelle Theacuteorie de la Gestalt (1890)

47

Cartographie de linformation- Composantes des applications cartographiques

2- Composante visuelle Conception drsquoun langage graphique (JB Lamy)

1- Analyser les informations ou connaissances que lrsquoon souhaite repreacutesenter

Determiner les attributs qui

deacutefinissent les termes agrave repreacutesenter

bull Par exemple pour repreacutesenter

des maladies les attributs pourraient

ecirctre la localisation anatomique

(cardiaque reacutenale) la seacuteveacuteriteacute etc

2- Associer agrave chaque attribut une variable

reacutetinienne pour le repreacutesenter

bull Par exemple pour les maladies

Associer lrsquoattribut localisation

anatomique agrave la variable

formepictogramme

bull Repreacutesenter la seacuteveacuteriteacute par la variable

couleur

3- Les relations entre les diffeacuterents termes

repreacutesenteacutes doivent ecirctre expliciteacutees

48

Cartographie de linformation

Famille doutils et contextes applicatifs

1- Famille doutils

Typologies

Aperccedilu

Travaux pratiques

2- Contextes applicatifs

Eleacutements deacutevaluation

Les perspectives de la cartographie seacutemantique

49

Cartographie de linformation- Famille doutils et contextes applicatifs

1- Famille doutils

Typologies

Aperccedilu

TP agrave partir de la seacutelection httpdeliciouscommylk02Stage_Carto

Et encore httpwwwvisualcomplexitycomvc (plus de 500 projets dans le domaine)

50

Cartographie de linformation- Famille doutils et contextes applicatifs

1- Famille doutils typologies

11- Typologie scientifique eacutetablie selon des critegraveres internes au domaine

bull les trois principaux paradigmes technique de visualisation type de donneacutees et type dinteraction (Keim

DA 2002)

bull la nature des donneacutees unidimensionnelles bidimensionnelles tridimensionnelles temporelles

multidimensionnelles hieacuterarchiques reacuteseaux (Shneiderman B 1996)

12- Etat de lart eacutevaluation - benchmarking typologie orienteacutee usages (veille et intelligence eacuteconomique)

Quelques exemples

Inist httpoutilsveilleinistfr

Esiee httpwwwaa-esieecomevent2005AGClaudeAschenbrennerppt

Ecole des Mines httpwwwdemoscienceorgresources

Commercial httpwwwk-praxiscom

Commercial httpwwwinformation-mininginfostate_of_art

Universitaire httpwell-formed-datanetthesis

13- Typologie cartographique

Quelques exemples de bloggers

bull Claude Aschenbrenner httpwwwserialmappercomarchive20070110la-pierre-de-rosette-de-la-

cartographie-de-l-informationhtml avec son mode demploi

bull Kartoo httpwwwmapdreamcom

51

Cartographie de linformation- Famille doutils et contextes applicatifs

1- Famille doutils typologie scientifique

52

Cartographie de linformation- Famille doutils orienteacutes laquo bibliothegraveques raquo

2- Les outils de navigation et de recherche sur Internet (seacutelection de Pierre Nobis)

A- Les navigateurs Nestor Navicrawler

53

Cartographie de linformation- Famille doutils orienteacutes laquo bibliothegraveques raquo

2- Les outils de navigation et de recherche sur Internet (seacutelection de Pierre Nobis)

B- Les outils de visualisation des reacutesultats PageBull ManagedQ

Bbis Les outils de visualisation de reacutesultats dans les actualiteacutes

repreacutesentation carreacutee Marumushi - Google NewsNewsIsFree - The Hive Group Tenbyten -flux RSS des sources drsquoactualiteacutes internationales

repreacutesentation sous forme de graphe

Silobreaker

54

Cartographie de linformation- Famille doutils orienteacutes laquo bibliothegraveques raquo

2- Les outils de navigation et de recherche sur Internet

B-Les outils de visualisation des reacutesultats TouchGraph application Java permettant de cartographier les reacutesultats issus

notamment de Google Amazon PubMed Alexa FaceBook

55

Cartographie de linformation- Famille doutils orienteacutes laquo bibliothegraveques raquo

2- Les outils de navigation et de recherche sur Internet (seacutelection de Pierre Nobis)

C- Les outils de recherche avec ajout de termes associeacutes dans une colonne regroupement theacutematique nuage de laquo tags raquo

D- Meacutetamoteurs avec affichage de clusters sous forme de listes

Carrot2 Clusty-Vivissimo Iboogie Polymeta Turbo10 Webclust

56

Cartographie de linformation- Famille doutils orienteacutes laquo bibliothegraveques raquo

2- Les outils de navigation et de recherche sur Internet (seacutelection de Pierre Nobis)

E- Meacutetamoteurs avec affichage de clusters sous forme graphique

E1- repreacutesentation centreacutee Allplus WebBrain

Allplus est un meacutetamoteur agrave clusteacuterisation graphique qui interroge les bases de Ask Google Yahoo et Livepar le biais de lrsquooutil Polymeta Lrsquointerface cluster graph permet de visualiser les reacutesultats sous une forme graphique

Webbrain permet de visualiser et drsquoaffiner les reacutesultats drsquoune requecircte issus de lrsquoOpen Directory Project

57

Cartographie de linformation- Famille doutils orienteacutes laquo bibliothegraveques raquo

2- Les outils de navigation et de recherche sur Internet (seacutelection de Pierre Nobis)

E- Meacutetamoteurs avec affichage de clusters sous forme graphique

E2- Repreacutesentation circulaire Grokker

E3- Repreacutesentation topographique TooLeNet srsquoappuie sur les technologies de KartOO et sur lrsquoindex de

Yahoo pour effectuer des recherches selon 3 modes moteur annuaire et carte auxquels srsquoajoutent des

options de personnalisation et de classification assez avanceacutees

58

Cartographie de linformation- Famille doutils orienteacutes laquo bibliothegraveques raquo

3- Les Outils graphiques dexploration

Wikimindmap est un outil drsquointerrogation

et de repreacutesentation des informations issues

de Wikipedia sous forme de carte heuristique

Visuwords est un dictionnaire en ligne

qui preacutesente ses reacutesultats sous forme de laquo grappes raquo

Il utilise la base de donneacutees Wordnet

Code couleur pour les diffeacuterentes relations

seacutemantiques hieacuterarchiques entre les termes

ainsi que les synonymes et les antonymes

59

Cartographie de linformation- Famille doutils orienteacutes laquo bibliothegraveques raquo

4- Les outils de creacuteation (carto)graphiqueA- Pour meacutemoire les logiciels de creacuteation de cartes heuristiques et conceptuelles

Cmaptools est un logiciel gratuit (usage eacuteducatif) de creacuteation de cartes conceptuelles

Freemind est un logiciel libre et gratuit qui permet de reacutealiser des cartes heuristiques

Thinkgraph est un logiciel gratuit de dessin 2D orienteacute vers la reacutealisation de cartes conceptuelles

60

Cartographie de linformation- Famille doutils orienteacutes laquo bibliothegraveques raquo

4- Les outils de creacuteation (carto)graphique

B- Les outils drsquoeacutedition de graphes

Guess est un logiciel libre et gratuit deacuteveloppeacute par Eytan Adar qui permet de visualiser des

graphes statiques Options de modification de certains attributs (taille couleur forme

algorithmes de positionnementhellip)

Pajek est un logiciel libre et gratuit (usage non commercial) deacuteveloppeacute par V Batagelj et A

Mrvar qui permet de traiter des donneacutees de reacuteseaux de grande taille Pajek signifie araigneacutee

en slovegravene

C- Les outils en ligne

ManyEye service collaboratif deacuteveloppeacute par IBM gracircce auquel on peut geacuteneacuterer selon un

des modegraveles proposeacutes sa propre visualisation de lrsquoinformation (apregraves avoir teacuteleacuteverseacute ses

propres donneacutees)

IssueCrawler outil de web social mining utilisable agrave distance (chargement des URL)

reacutecupeacuteration graphique

61

Cartographie de linformation- Famille doutils et contextes applicatifs

2- Contextes applicatifs

Eleacutements deacutevaluation

Les perspectives de la cartographie seacutemantique

62

Cartographie de linformation- Famille doutils et contextes applicatifs

2- Contextes applicatifs Eleacutements deacutevaluation

21- Evaluation scientifique

Question de meacutethode Eacutevaluation des Interfaces Utilisateur drsquoInformation Bonnel et Chevalier 2006

Objectif proposer une meacutethodologie deacutevaluation permettant de comparer du point de vue de la

visualisation des reacutesultats agrave une requecircte les outils de recherche Google Vivisimo Ujiko Grokker Kartoo

Vios SmartWeb (prototype)

Evaluation des repreacutesentations graphiques geacuteneacuteraliteacutes (Tricot et Roche 2006)

bull Arborescences simples

habitude des utilisateurs (explorateur de fichiers informatiques) pas de problegravemes avec volume limiteacute

au-delagrave drsquoune certaine quantiteacute drsquoinformation les arborescences deviennent inefficaces

bull Arbres de cocircnes en 3D

posent des problegravemes agrave lrsquoutilisateur qui nrsquoa pas lrsquohabitude des espaces en 3D

effort cognitif plus eacuteleveacute et prise en main plus longue

bull Arbres hyperboliques

problegravemes des eacutetiquettes des eacuteleacutements (occlusion)

effet de zoom impreacutevisible

Lrsquoune des conclusions une seule visualisation ne permet pas de reacutepondre agrave toutes les questions

multiplier les possibiliteacutes de visualisation

63

Cartographie de linformation- Famille doutils et contextes applicatifs

2- Contextes applicatifs Eleacutements deacutevaluation

21- Evaluation scientifique doctorat en cours agrave lrsquoEBSI (Aline Creacutedeville)

bull Contexte visualisation de lrsquoinformation dans le contexte de recherche drsquoinformation

bull Point de vue de la seacutemiologie graphique

o principes les plus couramment utiliseacutes sont la proximiteacute (Grokker) lrsquoenglobage (Kartoo)

et la connectiviteacute (Auquabrowser)

omeacutetaphores visuelles pas toujours adeacutequates au web

bull Reacutesultats

o lrsquoinformation doit ecirctre structureacutee

o apports possible pour lrsquoexploration mais pas pour la recherche

64

Cartographie de linformation- Famille doutils et contextes applicatifs

2- Contextes applicatifs Eleacutements deacutevaluation

22- Evaluation en contexte dusage de recherche dinformations (Ciaccia Ihadjadene Martins 2006)

Objectif analyse de lrsquoinfluence du mode de preacutesentation des informations sur les processus cognitifs mis

en jeu par lrsquoutilisateur dans lrsquoactiviteacute de recherche drsquoinformations sur Internet

Outils eacutevalueacutes Kartoo (pour 18 usagers) et Mapstan (pour 16 usagers)

Principaux reacutesultats

Coucirct cognitif sans pour autant conduire agrave de meilleures performances (comparaison avec une

preacutesentation en liste)

Hypothegravese nouveauteacute de la preacutesentation versus habitude des preacutesentations verbales

Strateacutegie optimiseacutee preacuteciser la requecircte drsquoune recherche agrave but flou et se concentrer sur les informations

relieacutees agrave lrsquoobjectif de la question versus informations non relieacutees

Le sens de la visualisation doit ecirctre clarifieacute les systegravemes doivent faciliter la compreacutehension des

eacuteleacutements visualiseacutes

65

Cartographie de linformation- Famille doutils et contextes applicatifs

2- Contextes applicatifs Les perspectives de la cartographie seacutemantique (C Tricot de la seacutemantique agrave la carte)

Pour reacutesoudre la probleacutematique de la repreacutesentation de lrsquoinformation la visualisation de

lrsquoinformation seule ne suffit pas

La visualisation de lrsquoinformation permet uniquement de preacutesenter des donneacutees en leur

associant une repreacutesentation graphique

La cartographie seacutemantique se veut

Une meacutethode de cartographie reposant sur la seacutemantique dun domaine

Un processus de production de connaissances

donneacutees brutes -gt donneacutees structureacutees -gt donneacutees repreacutesenteacutees -gt donneacutees visualiseacutees

Un formalisme de description type Reacuteseaux seacutemantiques

Un langage de description cartographique

Une architecture multi-agents

66

Cartographie de linformation- Famille doutils et contextes applicatifs

2- Contextes applicatifs Les perspectives de la cartographie seacutemantique (C Tricot de la seacutemantique agrave la carte)

67

Cartographie de linformation- Famille doutils et contextes applicatifs

2- Contextes applicatifs Les perspectives de la cartographie seacutemantique

ldquoUne bonne structure repreacutesentative graphique pour un arbre de donneacutees est celle qui deacuteforme le moins les similitudes originales entre les uniteacutes de donneacutees (similitudes qui sont donneacutes par loutil de classification) ou en dautres termes deux individus (ou classes) qui sont proches lune de lautre le restent aussi possible que peut apregraves projection dans l`espace de visualisation et ceci doit ecirctre eacutevident(et veacuterifiable par une mesure de calcul de divergence) dans lenvironnement de visualisation ldquo Tricot 2006

Page 24: Cartographie de l'information- Composantes des - Urfist de Paris

24

Anayse statistique

25

Term frequency (TF)

Un terme qui apparait plusieurs fois dans un document est plus

important qursquoun terme qui apparaicirct une seule fois

wij = Nombre drsquooccurrences du terme ti dans le document dj

TFij = Freacutequence du terme ti dans le document dj

j

ij

d

wTF

ij

26

Inverse document frequency (IDF)

Un terme qui apparaicirct dans peu de documents est un meilleur discriminant qursquoun terme qui apparaicirct dans tous les documents

bull dfi = nombre de documents contenant le terme ti

bull d = nombre de documents du corpus

Inverse document frequency

i

i

df

dIDF log

27

Pondeacuteration TF-IDF

TF-IDF signifie Term Frequency x Inverse Document

Frequency

bull Proposeacutee par [Salton 1989] mesure limportance drsquoun terme

dans un document relativement agrave lrsquoensemble des documents

bull tf ij = freacutequence du terme i dans le document j

df i = nombre de documents contenant le terme i

N = d = nombre de documents du corpus

28

Similariteacute entre documents

Permet de ranger les

documents par pertinence

Le cosinus de lrsquoangle est

souvent utiliseacute

2d1d

2dT

1d2d1d )cos(

bull gt cos( )ltcos( )

bull d2 est plus proche de d1que de d3

29

Cartographie de linformation- Composantes des applications cartographiques

1- Composante calculatoire Data Clustering ou partitionnement de donneacutees

Deacutefinition

Meacutethode statistique danalyse des donneacutees qui a pour but de regrouper un ensemble de donneacutees en

diffeacuterents paquets homogegravenes chaque sous-ensemble partage des caracteacuteristiques communes qui

correspondent le plus souvent agrave des critegraveres de proximiteacute que lon deacutefinit en introduisant des mesures

de distance

Principe

Pour obtenir un bon partitionnement il convient de

bull minimiser linertie intra-classe pour obtenir des grappes (cluster en anglais) les plus homogegravenes

possibles

bull maximiser linertie inter-classe afin dobtenir des sous-ensembles bien diffeacuterencieacutes

Composition

Un cluster est composeacute de

bull une liste de mots-cleacutes

bull une liste dassociations internes

bull une liste dassociations externes

bull une eacutetiquette

bull une liste de documents affecteacutes apregraves la classification

30

Cartographie de linformation- Composantes des applications cartographiques

1- Composante calculatoire DataClustering

bull Lassociation la plus forte permet de creacuteer le premier cluster ici laquoa-braquo)

bull Une nouvelle association peut donner lieu agrave un laquoenrichissementraquo de cluster laquoa-eraquo vient

enrichir le cluster laquoa-braquo qui contient deacutejagrave laquoaraquo) ou agrave une creacuteation de nouveau cluster (laquoc-draquo par

exemple)

Deacutefinitions

Web mining Data mining appliqueacute aux donneacutees de navigation sur le web

Objectifs du web mining

1 Optimiser la navigation dans un site web (confort des internautes)

2 Augmenter le nombre de pages consulteacutees et lrsquoimpact des liens et des banniegraveres publicitaires

3 Deacuteceler les centres drsquointeacuterecirct et donc les attentes des internautes visitant le site

Types dAnalyses

Statistique descriptive

bull laquo 70 des internautes ont consulteacute 3 pages ou moins raquo

bull laquo 40 des internautes accegravedent au site sans passer par la page drsquoaccueil raquo

Deacutetection des regravegles drsquoassociation

bull laquo 20 des internautes visitant la page A visitent la page B dans la mecircme session raquo

Segmentation des internautes

bull Selon les sites de provenance les pages drsquoentreacutee le nombre de pages consulteacutees les fichiers teacuteleacutechargeacutes les pages de sortie etc

1- Composante calculatoire Web Mining

Cartographie de linformation- Composantes des applications cartographiques

31

32

Cartographie de linformation- Composantes des applications cartographiques

1- Composante calculatoire Web Social Data Mining

Hypothegravese documentaire

Web structureacute par des laquo localiteacutes theacutematiques raquo deacutefinies par une forte correacutelation entre

contenu des documents et proximiteacute hypertexte dessinant comme un territoire

Probleacutematique de la laquo traccedilabiliteacute raquo du socialbull Le web se preacutesente comme une matrice technique distribueacutee faccedilonneacutee par des usages dont

le reacuteseau garde la meacutemoire bull Le seul fait dutiliser une technologie numeacuterique contribue agrave produire des traces et agrave

grande eacutechelle elles constituent un reacuteservoir immense de donneacutees disponibles

Principes hubs et autoriteacutes (Kleinberg et al)

bull Autoriteacutes ensemble des pages contenant les meilleures sources drsquoinformation pour un

thegraveme donneacute

bull Hubs pages pointant sur les autoriteacutes

bull Le calcul ressemble au calcul drsquoimportance drsquoun article par nombre de citations (les liens

du Web vus comme des recommendations)

Applications

Sujets controverseacutes ougrave le seul lexique nest pas discriminant

33

Cartographie de linformation- Composantes des applications cartographiques

2- Composante visuelle

Eleacutements de seacutemiologie graphique (J Bertin) Theacuteorie de la Gestalt

34

Cartographie de linformation- Composantes des applications cartographiques

2- Composante visuelle Eleacutements de seacutemiologie graphique (J Bertin)

35

Cartographie de linformation- Composantes des applications cartographiques

2- Composante visuelle Eleacutements de seacutemiologie graphique (J Bertin)

Type de dessin Signification

des signes Description Exemple

Graphis

me

Image non-

figurative Panseacutemique

Le systegraveme srsquoouvre agrave toute

signification Tableau drsquoart

Image

figurative Polyseacutemique

Le systegraveme a pour objectif de

deacutefinir un concept ou une ideacutee

mais les interpreacutetations peuvent

diverger

Photographie

aeacuterienne

Graphique Monoseacutemique

Transcriptions de relations entre

des concepts preacutealablement

deacutefinis

Un

organigramme

36

Cartographie de linformation- Composantes des applications cartographiques

2- Composante visuelle Eleacutements de seacutemiologie graphique (J Bertin)

laquo La graphique est un systegraveme de signes [structures visuelles] qui permet de transcrire les

relations de diffeacuterence drsquoordre ou de proportionnaliteacute existant entre des donneacutees qualitatives ou

quantitatives raquo [Bonin 1997]

laquo La carte est une image graphique qui transcrit les relations de proportionnaliteacute ordre et

diffeacuterence par des variations proportionnelles ordonneacutees et diffeacuterentielles raquo

37

Cartographie de linformation- Composantes des applications cartographiques

2- Composante visuelle Eleacutements de seacutemiologie graphique (J Bertin)

38

Cartographie de linformation- Composantes des applications cartographiques

2- Composante visuelle Eleacutements de seacutemiologie graphique (J Bertin)

39

Cartographie de linformation- Composantes des applications cartographiques

2- Composante visuelle Eleacutements de seacutemiologie graphique (J Bertin)

40

Cartographie de linformation- Composantes des applications cartographiques

2- Composante visuelle Eleacutements de seacutemiologie graphique (J Bertin)

41

Cartographie de linformation- Composantes des applications cartographiques

2- Composante visuelle Eleacutements de seacutemiologie graphique (J Bertin)

Variables visuelles (laquo variables reacutetiniennes raquo)

Variation des proprieacuteteacutes graphiques des structures visuelles

42

Cartographie de linformation- Composantes des applications cartographiques

2- Composante visuelle Eleacutements de seacutemiologie graphique (J Bertin)

Variables visuelles

Cartographie de linformation- Composantes des applications cartographiques

2- Composante visuelle Eleacutements de seacutemiologie graphique (J Bertin)

43

44

Cartographie de linformation- Composantes des applications cartographiques

2- Composante visuelle Theacuteorie de la Gestalt (1890)

Principe

Le contexte est tregraves important dans la perception visuelle [Guillaume]

Les structures visuelles ne sont pas indeacutependantes les unes des autres et le contexte est

important pour la signification qui leur est attribueacutee

En graphique

La perception visuelle srsquoattache agrave reconnaicirctre des modegraveles dans un ensemble de structures

visuelles

De cette theacuteorie reacutesultent des lois correspondant agrave des cateacutegories drsquointeractions possibles entre

les structures visuelles

45

Cartographie de linformation- Composantes des applications cartographiques

Lois Effets Illustrations

Preacutegnance Une image est facile agrave comprendre si sa structure est simple et inversement

Proximiteacute Deux composants qui sont proches ont tendance agrave ecirctre perccedilus comme un

seul composant

Similariteacute Les composants similaires sont perccedilus comme srsquoils eacutetaient regroupeacutes

Fermeture Les contours proches sont perccedilus comme unifieacutes

Continuiteacute Des eacuteleacutements voisins sont perccedilus groupeacutes lorsqursquoils possegravedent

potentiellement un trait qui les relie

Symeacutetrie Des eacuteleacutements sont perccedilus comme un eacuteleacutement global lorsqursquoils forment une

symeacutetrie

Trajectoire identique Des eacuteleacutements qui se deacuteplacent avec la mecircme trajectoire semblent groupeacutes

Familiariteacute Des eacuteleacutements sont plus facilement groupables si le groupe est familier ou

significatif

46

Cartographie de linformation- Composantes des applications cartographiques

2- Composante visuelle Theacuteorie de la Gestalt (1890)

47

Cartographie de linformation- Composantes des applications cartographiques

2- Composante visuelle Conception drsquoun langage graphique (JB Lamy)

1- Analyser les informations ou connaissances que lrsquoon souhaite repreacutesenter

Determiner les attributs qui

deacutefinissent les termes agrave repreacutesenter

bull Par exemple pour repreacutesenter

des maladies les attributs pourraient

ecirctre la localisation anatomique

(cardiaque reacutenale) la seacuteveacuteriteacute etc

2- Associer agrave chaque attribut une variable

reacutetinienne pour le repreacutesenter

bull Par exemple pour les maladies

Associer lrsquoattribut localisation

anatomique agrave la variable

formepictogramme

bull Repreacutesenter la seacuteveacuteriteacute par la variable

couleur

3- Les relations entre les diffeacuterents termes

repreacutesenteacutes doivent ecirctre expliciteacutees

48

Cartographie de linformation

Famille doutils et contextes applicatifs

1- Famille doutils

Typologies

Aperccedilu

Travaux pratiques

2- Contextes applicatifs

Eleacutements deacutevaluation

Les perspectives de la cartographie seacutemantique

49

Cartographie de linformation- Famille doutils et contextes applicatifs

1- Famille doutils

Typologies

Aperccedilu

TP agrave partir de la seacutelection httpdeliciouscommylk02Stage_Carto

Et encore httpwwwvisualcomplexitycomvc (plus de 500 projets dans le domaine)

50

Cartographie de linformation- Famille doutils et contextes applicatifs

1- Famille doutils typologies

11- Typologie scientifique eacutetablie selon des critegraveres internes au domaine

bull les trois principaux paradigmes technique de visualisation type de donneacutees et type dinteraction (Keim

DA 2002)

bull la nature des donneacutees unidimensionnelles bidimensionnelles tridimensionnelles temporelles

multidimensionnelles hieacuterarchiques reacuteseaux (Shneiderman B 1996)

12- Etat de lart eacutevaluation - benchmarking typologie orienteacutee usages (veille et intelligence eacuteconomique)

Quelques exemples

Inist httpoutilsveilleinistfr

Esiee httpwwwaa-esieecomevent2005AGClaudeAschenbrennerppt

Ecole des Mines httpwwwdemoscienceorgresources

Commercial httpwwwk-praxiscom

Commercial httpwwwinformation-mininginfostate_of_art

Universitaire httpwell-formed-datanetthesis

13- Typologie cartographique

Quelques exemples de bloggers

bull Claude Aschenbrenner httpwwwserialmappercomarchive20070110la-pierre-de-rosette-de-la-

cartographie-de-l-informationhtml avec son mode demploi

bull Kartoo httpwwwmapdreamcom

51

Cartographie de linformation- Famille doutils et contextes applicatifs

1- Famille doutils typologie scientifique

52

Cartographie de linformation- Famille doutils orienteacutes laquo bibliothegraveques raquo

2- Les outils de navigation et de recherche sur Internet (seacutelection de Pierre Nobis)

A- Les navigateurs Nestor Navicrawler

53

Cartographie de linformation- Famille doutils orienteacutes laquo bibliothegraveques raquo

2- Les outils de navigation et de recherche sur Internet (seacutelection de Pierre Nobis)

B- Les outils de visualisation des reacutesultats PageBull ManagedQ

Bbis Les outils de visualisation de reacutesultats dans les actualiteacutes

repreacutesentation carreacutee Marumushi - Google NewsNewsIsFree - The Hive Group Tenbyten -flux RSS des sources drsquoactualiteacutes internationales

repreacutesentation sous forme de graphe

Silobreaker

54

Cartographie de linformation- Famille doutils orienteacutes laquo bibliothegraveques raquo

2- Les outils de navigation et de recherche sur Internet

B-Les outils de visualisation des reacutesultats TouchGraph application Java permettant de cartographier les reacutesultats issus

notamment de Google Amazon PubMed Alexa FaceBook

55

Cartographie de linformation- Famille doutils orienteacutes laquo bibliothegraveques raquo

2- Les outils de navigation et de recherche sur Internet (seacutelection de Pierre Nobis)

C- Les outils de recherche avec ajout de termes associeacutes dans une colonne regroupement theacutematique nuage de laquo tags raquo

D- Meacutetamoteurs avec affichage de clusters sous forme de listes

Carrot2 Clusty-Vivissimo Iboogie Polymeta Turbo10 Webclust

56

Cartographie de linformation- Famille doutils orienteacutes laquo bibliothegraveques raquo

2- Les outils de navigation et de recherche sur Internet (seacutelection de Pierre Nobis)

E- Meacutetamoteurs avec affichage de clusters sous forme graphique

E1- repreacutesentation centreacutee Allplus WebBrain

Allplus est un meacutetamoteur agrave clusteacuterisation graphique qui interroge les bases de Ask Google Yahoo et Livepar le biais de lrsquooutil Polymeta Lrsquointerface cluster graph permet de visualiser les reacutesultats sous une forme graphique

Webbrain permet de visualiser et drsquoaffiner les reacutesultats drsquoune requecircte issus de lrsquoOpen Directory Project

57

Cartographie de linformation- Famille doutils orienteacutes laquo bibliothegraveques raquo

2- Les outils de navigation et de recherche sur Internet (seacutelection de Pierre Nobis)

E- Meacutetamoteurs avec affichage de clusters sous forme graphique

E2- Repreacutesentation circulaire Grokker

E3- Repreacutesentation topographique TooLeNet srsquoappuie sur les technologies de KartOO et sur lrsquoindex de

Yahoo pour effectuer des recherches selon 3 modes moteur annuaire et carte auxquels srsquoajoutent des

options de personnalisation et de classification assez avanceacutees

58

Cartographie de linformation- Famille doutils orienteacutes laquo bibliothegraveques raquo

3- Les Outils graphiques dexploration

Wikimindmap est un outil drsquointerrogation

et de repreacutesentation des informations issues

de Wikipedia sous forme de carte heuristique

Visuwords est un dictionnaire en ligne

qui preacutesente ses reacutesultats sous forme de laquo grappes raquo

Il utilise la base de donneacutees Wordnet

Code couleur pour les diffeacuterentes relations

seacutemantiques hieacuterarchiques entre les termes

ainsi que les synonymes et les antonymes

59

Cartographie de linformation- Famille doutils orienteacutes laquo bibliothegraveques raquo

4- Les outils de creacuteation (carto)graphiqueA- Pour meacutemoire les logiciels de creacuteation de cartes heuristiques et conceptuelles

Cmaptools est un logiciel gratuit (usage eacuteducatif) de creacuteation de cartes conceptuelles

Freemind est un logiciel libre et gratuit qui permet de reacutealiser des cartes heuristiques

Thinkgraph est un logiciel gratuit de dessin 2D orienteacute vers la reacutealisation de cartes conceptuelles

60

Cartographie de linformation- Famille doutils orienteacutes laquo bibliothegraveques raquo

4- Les outils de creacuteation (carto)graphique

B- Les outils drsquoeacutedition de graphes

Guess est un logiciel libre et gratuit deacuteveloppeacute par Eytan Adar qui permet de visualiser des

graphes statiques Options de modification de certains attributs (taille couleur forme

algorithmes de positionnementhellip)

Pajek est un logiciel libre et gratuit (usage non commercial) deacuteveloppeacute par V Batagelj et A

Mrvar qui permet de traiter des donneacutees de reacuteseaux de grande taille Pajek signifie araigneacutee

en slovegravene

C- Les outils en ligne

ManyEye service collaboratif deacuteveloppeacute par IBM gracircce auquel on peut geacuteneacuterer selon un

des modegraveles proposeacutes sa propre visualisation de lrsquoinformation (apregraves avoir teacuteleacuteverseacute ses

propres donneacutees)

IssueCrawler outil de web social mining utilisable agrave distance (chargement des URL)

reacutecupeacuteration graphique

61

Cartographie de linformation- Famille doutils et contextes applicatifs

2- Contextes applicatifs

Eleacutements deacutevaluation

Les perspectives de la cartographie seacutemantique

62

Cartographie de linformation- Famille doutils et contextes applicatifs

2- Contextes applicatifs Eleacutements deacutevaluation

21- Evaluation scientifique

Question de meacutethode Eacutevaluation des Interfaces Utilisateur drsquoInformation Bonnel et Chevalier 2006

Objectif proposer une meacutethodologie deacutevaluation permettant de comparer du point de vue de la

visualisation des reacutesultats agrave une requecircte les outils de recherche Google Vivisimo Ujiko Grokker Kartoo

Vios SmartWeb (prototype)

Evaluation des repreacutesentations graphiques geacuteneacuteraliteacutes (Tricot et Roche 2006)

bull Arborescences simples

habitude des utilisateurs (explorateur de fichiers informatiques) pas de problegravemes avec volume limiteacute

au-delagrave drsquoune certaine quantiteacute drsquoinformation les arborescences deviennent inefficaces

bull Arbres de cocircnes en 3D

posent des problegravemes agrave lrsquoutilisateur qui nrsquoa pas lrsquohabitude des espaces en 3D

effort cognitif plus eacuteleveacute et prise en main plus longue

bull Arbres hyperboliques

problegravemes des eacutetiquettes des eacuteleacutements (occlusion)

effet de zoom impreacutevisible

Lrsquoune des conclusions une seule visualisation ne permet pas de reacutepondre agrave toutes les questions

multiplier les possibiliteacutes de visualisation

63

Cartographie de linformation- Famille doutils et contextes applicatifs

2- Contextes applicatifs Eleacutements deacutevaluation

21- Evaluation scientifique doctorat en cours agrave lrsquoEBSI (Aline Creacutedeville)

bull Contexte visualisation de lrsquoinformation dans le contexte de recherche drsquoinformation

bull Point de vue de la seacutemiologie graphique

o principes les plus couramment utiliseacutes sont la proximiteacute (Grokker) lrsquoenglobage (Kartoo)

et la connectiviteacute (Auquabrowser)

omeacutetaphores visuelles pas toujours adeacutequates au web

bull Reacutesultats

o lrsquoinformation doit ecirctre structureacutee

o apports possible pour lrsquoexploration mais pas pour la recherche

64

Cartographie de linformation- Famille doutils et contextes applicatifs

2- Contextes applicatifs Eleacutements deacutevaluation

22- Evaluation en contexte dusage de recherche dinformations (Ciaccia Ihadjadene Martins 2006)

Objectif analyse de lrsquoinfluence du mode de preacutesentation des informations sur les processus cognitifs mis

en jeu par lrsquoutilisateur dans lrsquoactiviteacute de recherche drsquoinformations sur Internet

Outils eacutevalueacutes Kartoo (pour 18 usagers) et Mapstan (pour 16 usagers)

Principaux reacutesultats

Coucirct cognitif sans pour autant conduire agrave de meilleures performances (comparaison avec une

preacutesentation en liste)

Hypothegravese nouveauteacute de la preacutesentation versus habitude des preacutesentations verbales

Strateacutegie optimiseacutee preacuteciser la requecircte drsquoune recherche agrave but flou et se concentrer sur les informations

relieacutees agrave lrsquoobjectif de la question versus informations non relieacutees

Le sens de la visualisation doit ecirctre clarifieacute les systegravemes doivent faciliter la compreacutehension des

eacuteleacutements visualiseacutes

65

Cartographie de linformation- Famille doutils et contextes applicatifs

2- Contextes applicatifs Les perspectives de la cartographie seacutemantique (C Tricot de la seacutemantique agrave la carte)

Pour reacutesoudre la probleacutematique de la repreacutesentation de lrsquoinformation la visualisation de

lrsquoinformation seule ne suffit pas

La visualisation de lrsquoinformation permet uniquement de preacutesenter des donneacutees en leur

associant une repreacutesentation graphique

La cartographie seacutemantique se veut

Une meacutethode de cartographie reposant sur la seacutemantique dun domaine

Un processus de production de connaissances

donneacutees brutes -gt donneacutees structureacutees -gt donneacutees repreacutesenteacutees -gt donneacutees visualiseacutees

Un formalisme de description type Reacuteseaux seacutemantiques

Un langage de description cartographique

Une architecture multi-agents

66

Cartographie de linformation- Famille doutils et contextes applicatifs

2- Contextes applicatifs Les perspectives de la cartographie seacutemantique (C Tricot de la seacutemantique agrave la carte)

67

Cartographie de linformation- Famille doutils et contextes applicatifs

2- Contextes applicatifs Les perspectives de la cartographie seacutemantique

ldquoUne bonne structure repreacutesentative graphique pour un arbre de donneacutees est celle qui deacuteforme le moins les similitudes originales entre les uniteacutes de donneacutees (similitudes qui sont donneacutes par loutil de classification) ou en dautres termes deux individus (ou classes) qui sont proches lune de lautre le restent aussi possible que peut apregraves projection dans l`espace de visualisation et ceci doit ecirctre eacutevident(et veacuterifiable par une mesure de calcul de divergence) dans lenvironnement de visualisation ldquo Tricot 2006

Page 25: Cartographie de l'information- Composantes des - Urfist de Paris

25

Term frequency (TF)

Un terme qui apparait plusieurs fois dans un document est plus

important qursquoun terme qui apparaicirct une seule fois

wij = Nombre drsquooccurrences du terme ti dans le document dj

TFij = Freacutequence du terme ti dans le document dj

j

ij

d

wTF

ij

26

Inverse document frequency (IDF)

Un terme qui apparaicirct dans peu de documents est un meilleur discriminant qursquoun terme qui apparaicirct dans tous les documents

bull dfi = nombre de documents contenant le terme ti

bull d = nombre de documents du corpus

Inverse document frequency

i

i

df

dIDF log

27

Pondeacuteration TF-IDF

TF-IDF signifie Term Frequency x Inverse Document

Frequency

bull Proposeacutee par [Salton 1989] mesure limportance drsquoun terme

dans un document relativement agrave lrsquoensemble des documents

bull tf ij = freacutequence du terme i dans le document j

df i = nombre de documents contenant le terme i

N = d = nombre de documents du corpus

28

Similariteacute entre documents

Permet de ranger les

documents par pertinence

Le cosinus de lrsquoangle est

souvent utiliseacute

2d1d

2dT

1d2d1d )cos(

bull gt cos( )ltcos( )

bull d2 est plus proche de d1que de d3

29

Cartographie de linformation- Composantes des applications cartographiques

1- Composante calculatoire Data Clustering ou partitionnement de donneacutees

Deacutefinition

Meacutethode statistique danalyse des donneacutees qui a pour but de regrouper un ensemble de donneacutees en

diffeacuterents paquets homogegravenes chaque sous-ensemble partage des caracteacuteristiques communes qui

correspondent le plus souvent agrave des critegraveres de proximiteacute que lon deacutefinit en introduisant des mesures

de distance

Principe

Pour obtenir un bon partitionnement il convient de

bull minimiser linertie intra-classe pour obtenir des grappes (cluster en anglais) les plus homogegravenes

possibles

bull maximiser linertie inter-classe afin dobtenir des sous-ensembles bien diffeacuterencieacutes

Composition

Un cluster est composeacute de

bull une liste de mots-cleacutes

bull une liste dassociations internes

bull une liste dassociations externes

bull une eacutetiquette

bull une liste de documents affecteacutes apregraves la classification

30

Cartographie de linformation- Composantes des applications cartographiques

1- Composante calculatoire DataClustering

bull Lassociation la plus forte permet de creacuteer le premier cluster ici laquoa-braquo)

bull Une nouvelle association peut donner lieu agrave un laquoenrichissementraquo de cluster laquoa-eraquo vient

enrichir le cluster laquoa-braquo qui contient deacutejagrave laquoaraquo) ou agrave une creacuteation de nouveau cluster (laquoc-draquo par

exemple)

Deacutefinitions

Web mining Data mining appliqueacute aux donneacutees de navigation sur le web

Objectifs du web mining

1 Optimiser la navigation dans un site web (confort des internautes)

2 Augmenter le nombre de pages consulteacutees et lrsquoimpact des liens et des banniegraveres publicitaires

3 Deacuteceler les centres drsquointeacuterecirct et donc les attentes des internautes visitant le site

Types dAnalyses

Statistique descriptive

bull laquo 70 des internautes ont consulteacute 3 pages ou moins raquo

bull laquo 40 des internautes accegravedent au site sans passer par la page drsquoaccueil raquo

Deacutetection des regravegles drsquoassociation

bull laquo 20 des internautes visitant la page A visitent la page B dans la mecircme session raquo

Segmentation des internautes

bull Selon les sites de provenance les pages drsquoentreacutee le nombre de pages consulteacutees les fichiers teacuteleacutechargeacutes les pages de sortie etc

1- Composante calculatoire Web Mining

Cartographie de linformation- Composantes des applications cartographiques

31

32

Cartographie de linformation- Composantes des applications cartographiques

1- Composante calculatoire Web Social Data Mining

Hypothegravese documentaire

Web structureacute par des laquo localiteacutes theacutematiques raquo deacutefinies par une forte correacutelation entre

contenu des documents et proximiteacute hypertexte dessinant comme un territoire

Probleacutematique de la laquo traccedilabiliteacute raquo du socialbull Le web se preacutesente comme une matrice technique distribueacutee faccedilonneacutee par des usages dont

le reacuteseau garde la meacutemoire bull Le seul fait dutiliser une technologie numeacuterique contribue agrave produire des traces et agrave

grande eacutechelle elles constituent un reacuteservoir immense de donneacutees disponibles

Principes hubs et autoriteacutes (Kleinberg et al)

bull Autoriteacutes ensemble des pages contenant les meilleures sources drsquoinformation pour un

thegraveme donneacute

bull Hubs pages pointant sur les autoriteacutes

bull Le calcul ressemble au calcul drsquoimportance drsquoun article par nombre de citations (les liens

du Web vus comme des recommendations)

Applications

Sujets controverseacutes ougrave le seul lexique nest pas discriminant

33

Cartographie de linformation- Composantes des applications cartographiques

2- Composante visuelle

Eleacutements de seacutemiologie graphique (J Bertin) Theacuteorie de la Gestalt

34

Cartographie de linformation- Composantes des applications cartographiques

2- Composante visuelle Eleacutements de seacutemiologie graphique (J Bertin)

35

Cartographie de linformation- Composantes des applications cartographiques

2- Composante visuelle Eleacutements de seacutemiologie graphique (J Bertin)

Type de dessin Signification

des signes Description Exemple

Graphis

me

Image non-

figurative Panseacutemique

Le systegraveme srsquoouvre agrave toute

signification Tableau drsquoart

Image

figurative Polyseacutemique

Le systegraveme a pour objectif de

deacutefinir un concept ou une ideacutee

mais les interpreacutetations peuvent

diverger

Photographie

aeacuterienne

Graphique Monoseacutemique

Transcriptions de relations entre

des concepts preacutealablement

deacutefinis

Un

organigramme

36

Cartographie de linformation- Composantes des applications cartographiques

2- Composante visuelle Eleacutements de seacutemiologie graphique (J Bertin)

laquo La graphique est un systegraveme de signes [structures visuelles] qui permet de transcrire les

relations de diffeacuterence drsquoordre ou de proportionnaliteacute existant entre des donneacutees qualitatives ou

quantitatives raquo [Bonin 1997]

laquo La carte est une image graphique qui transcrit les relations de proportionnaliteacute ordre et

diffeacuterence par des variations proportionnelles ordonneacutees et diffeacuterentielles raquo

37

Cartographie de linformation- Composantes des applications cartographiques

2- Composante visuelle Eleacutements de seacutemiologie graphique (J Bertin)

38

Cartographie de linformation- Composantes des applications cartographiques

2- Composante visuelle Eleacutements de seacutemiologie graphique (J Bertin)

39

Cartographie de linformation- Composantes des applications cartographiques

2- Composante visuelle Eleacutements de seacutemiologie graphique (J Bertin)

40

Cartographie de linformation- Composantes des applications cartographiques

2- Composante visuelle Eleacutements de seacutemiologie graphique (J Bertin)

41

Cartographie de linformation- Composantes des applications cartographiques

2- Composante visuelle Eleacutements de seacutemiologie graphique (J Bertin)

Variables visuelles (laquo variables reacutetiniennes raquo)

Variation des proprieacuteteacutes graphiques des structures visuelles

42

Cartographie de linformation- Composantes des applications cartographiques

2- Composante visuelle Eleacutements de seacutemiologie graphique (J Bertin)

Variables visuelles

Cartographie de linformation- Composantes des applications cartographiques

2- Composante visuelle Eleacutements de seacutemiologie graphique (J Bertin)

43

44

Cartographie de linformation- Composantes des applications cartographiques

2- Composante visuelle Theacuteorie de la Gestalt (1890)

Principe

Le contexte est tregraves important dans la perception visuelle [Guillaume]

Les structures visuelles ne sont pas indeacutependantes les unes des autres et le contexte est

important pour la signification qui leur est attribueacutee

En graphique

La perception visuelle srsquoattache agrave reconnaicirctre des modegraveles dans un ensemble de structures

visuelles

De cette theacuteorie reacutesultent des lois correspondant agrave des cateacutegories drsquointeractions possibles entre

les structures visuelles

45

Cartographie de linformation- Composantes des applications cartographiques

Lois Effets Illustrations

Preacutegnance Une image est facile agrave comprendre si sa structure est simple et inversement

Proximiteacute Deux composants qui sont proches ont tendance agrave ecirctre perccedilus comme un

seul composant

Similariteacute Les composants similaires sont perccedilus comme srsquoils eacutetaient regroupeacutes

Fermeture Les contours proches sont perccedilus comme unifieacutes

Continuiteacute Des eacuteleacutements voisins sont perccedilus groupeacutes lorsqursquoils possegravedent

potentiellement un trait qui les relie

Symeacutetrie Des eacuteleacutements sont perccedilus comme un eacuteleacutement global lorsqursquoils forment une

symeacutetrie

Trajectoire identique Des eacuteleacutements qui se deacuteplacent avec la mecircme trajectoire semblent groupeacutes

Familiariteacute Des eacuteleacutements sont plus facilement groupables si le groupe est familier ou

significatif

46

Cartographie de linformation- Composantes des applications cartographiques

2- Composante visuelle Theacuteorie de la Gestalt (1890)

47

Cartographie de linformation- Composantes des applications cartographiques

2- Composante visuelle Conception drsquoun langage graphique (JB Lamy)

1- Analyser les informations ou connaissances que lrsquoon souhaite repreacutesenter

Determiner les attributs qui

deacutefinissent les termes agrave repreacutesenter

bull Par exemple pour repreacutesenter

des maladies les attributs pourraient

ecirctre la localisation anatomique

(cardiaque reacutenale) la seacuteveacuteriteacute etc

2- Associer agrave chaque attribut une variable

reacutetinienne pour le repreacutesenter

bull Par exemple pour les maladies

Associer lrsquoattribut localisation

anatomique agrave la variable

formepictogramme

bull Repreacutesenter la seacuteveacuteriteacute par la variable

couleur

3- Les relations entre les diffeacuterents termes

repreacutesenteacutes doivent ecirctre expliciteacutees

48

Cartographie de linformation

Famille doutils et contextes applicatifs

1- Famille doutils

Typologies

Aperccedilu

Travaux pratiques

2- Contextes applicatifs

Eleacutements deacutevaluation

Les perspectives de la cartographie seacutemantique

49

Cartographie de linformation- Famille doutils et contextes applicatifs

1- Famille doutils

Typologies

Aperccedilu

TP agrave partir de la seacutelection httpdeliciouscommylk02Stage_Carto

Et encore httpwwwvisualcomplexitycomvc (plus de 500 projets dans le domaine)

50

Cartographie de linformation- Famille doutils et contextes applicatifs

1- Famille doutils typologies

11- Typologie scientifique eacutetablie selon des critegraveres internes au domaine

bull les trois principaux paradigmes technique de visualisation type de donneacutees et type dinteraction (Keim

DA 2002)

bull la nature des donneacutees unidimensionnelles bidimensionnelles tridimensionnelles temporelles

multidimensionnelles hieacuterarchiques reacuteseaux (Shneiderman B 1996)

12- Etat de lart eacutevaluation - benchmarking typologie orienteacutee usages (veille et intelligence eacuteconomique)

Quelques exemples

Inist httpoutilsveilleinistfr

Esiee httpwwwaa-esieecomevent2005AGClaudeAschenbrennerppt

Ecole des Mines httpwwwdemoscienceorgresources

Commercial httpwwwk-praxiscom

Commercial httpwwwinformation-mininginfostate_of_art

Universitaire httpwell-formed-datanetthesis

13- Typologie cartographique

Quelques exemples de bloggers

bull Claude Aschenbrenner httpwwwserialmappercomarchive20070110la-pierre-de-rosette-de-la-

cartographie-de-l-informationhtml avec son mode demploi

bull Kartoo httpwwwmapdreamcom

51

Cartographie de linformation- Famille doutils et contextes applicatifs

1- Famille doutils typologie scientifique

52

Cartographie de linformation- Famille doutils orienteacutes laquo bibliothegraveques raquo

2- Les outils de navigation et de recherche sur Internet (seacutelection de Pierre Nobis)

A- Les navigateurs Nestor Navicrawler

53

Cartographie de linformation- Famille doutils orienteacutes laquo bibliothegraveques raquo

2- Les outils de navigation et de recherche sur Internet (seacutelection de Pierre Nobis)

B- Les outils de visualisation des reacutesultats PageBull ManagedQ

Bbis Les outils de visualisation de reacutesultats dans les actualiteacutes

repreacutesentation carreacutee Marumushi - Google NewsNewsIsFree - The Hive Group Tenbyten -flux RSS des sources drsquoactualiteacutes internationales

repreacutesentation sous forme de graphe

Silobreaker

54

Cartographie de linformation- Famille doutils orienteacutes laquo bibliothegraveques raquo

2- Les outils de navigation et de recherche sur Internet

B-Les outils de visualisation des reacutesultats TouchGraph application Java permettant de cartographier les reacutesultats issus

notamment de Google Amazon PubMed Alexa FaceBook

55

Cartographie de linformation- Famille doutils orienteacutes laquo bibliothegraveques raquo

2- Les outils de navigation et de recherche sur Internet (seacutelection de Pierre Nobis)

C- Les outils de recherche avec ajout de termes associeacutes dans une colonne regroupement theacutematique nuage de laquo tags raquo

D- Meacutetamoteurs avec affichage de clusters sous forme de listes

Carrot2 Clusty-Vivissimo Iboogie Polymeta Turbo10 Webclust

56

Cartographie de linformation- Famille doutils orienteacutes laquo bibliothegraveques raquo

2- Les outils de navigation et de recherche sur Internet (seacutelection de Pierre Nobis)

E- Meacutetamoteurs avec affichage de clusters sous forme graphique

E1- repreacutesentation centreacutee Allplus WebBrain

Allplus est un meacutetamoteur agrave clusteacuterisation graphique qui interroge les bases de Ask Google Yahoo et Livepar le biais de lrsquooutil Polymeta Lrsquointerface cluster graph permet de visualiser les reacutesultats sous une forme graphique

Webbrain permet de visualiser et drsquoaffiner les reacutesultats drsquoune requecircte issus de lrsquoOpen Directory Project

57

Cartographie de linformation- Famille doutils orienteacutes laquo bibliothegraveques raquo

2- Les outils de navigation et de recherche sur Internet (seacutelection de Pierre Nobis)

E- Meacutetamoteurs avec affichage de clusters sous forme graphique

E2- Repreacutesentation circulaire Grokker

E3- Repreacutesentation topographique TooLeNet srsquoappuie sur les technologies de KartOO et sur lrsquoindex de

Yahoo pour effectuer des recherches selon 3 modes moteur annuaire et carte auxquels srsquoajoutent des

options de personnalisation et de classification assez avanceacutees

58

Cartographie de linformation- Famille doutils orienteacutes laquo bibliothegraveques raquo

3- Les Outils graphiques dexploration

Wikimindmap est un outil drsquointerrogation

et de repreacutesentation des informations issues

de Wikipedia sous forme de carte heuristique

Visuwords est un dictionnaire en ligne

qui preacutesente ses reacutesultats sous forme de laquo grappes raquo

Il utilise la base de donneacutees Wordnet

Code couleur pour les diffeacuterentes relations

seacutemantiques hieacuterarchiques entre les termes

ainsi que les synonymes et les antonymes

59

Cartographie de linformation- Famille doutils orienteacutes laquo bibliothegraveques raquo

4- Les outils de creacuteation (carto)graphiqueA- Pour meacutemoire les logiciels de creacuteation de cartes heuristiques et conceptuelles

Cmaptools est un logiciel gratuit (usage eacuteducatif) de creacuteation de cartes conceptuelles

Freemind est un logiciel libre et gratuit qui permet de reacutealiser des cartes heuristiques

Thinkgraph est un logiciel gratuit de dessin 2D orienteacute vers la reacutealisation de cartes conceptuelles

60

Cartographie de linformation- Famille doutils orienteacutes laquo bibliothegraveques raquo

4- Les outils de creacuteation (carto)graphique

B- Les outils drsquoeacutedition de graphes

Guess est un logiciel libre et gratuit deacuteveloppeacute par Eytan Adar qui permet de visualiser des

graphes statiques Options de modification de certains attributs (taille couleur forme

algorithmes de positionnementhellip)

Pajek est un logiciel libre et gratuit (usage non commercial) deacuteveloppeacute par V Batagelj et A

Mrvar qui permet de traiter des donneacutees de reacuteseaux de grande taille Pajek signifie araigneacutee

en slovegravene

C- Les outils en ligne

ManyEye service collaboratif deacuteveloppeacute par IBM gracircce auquel on peut geacuteneacuterer selon un

des modegraveles proposeacutes sa propre visualisation de lrsquoinformation (apregraves avoir teacuteleacuteverseacute ses

propres donneacutees)

IssueCrawler outil de web social mining utilisable agrave distance (chargement des URL)

reacutecupeacuteration graphique

61

Cartographie de linformation- Famille doutils et contextes applicatifs

2- Contextes applicatifs

Eleacutements deacutevaluation

Les perspectives de la cartographie seacutemantique

62

Cartographie de linformation- Famille doutils et contextes applicatifs

2- Contextes applicatifs Eleacutements deacutevaluation

21- Evaluation scientifique

Question de meacutethode Eacutevaluation des Interfaces Utilisateur drsquoInformation Bonnel et Chevalier 2006

Objectif proposer une meacutethodologie deacutevaluation permettant de comparer du point de vue de la

visualisation des reacutesultats agrave une requecircte les outils de recherche Google Vivisimo Ujiko Grokker Kartoo

Vios SmartWeb (prototype)

Evaluation des repreacutesentations graphiques geacuteneacuteraliteacutes (Tricot et Roche 2006)

bull Arborescences simples

habitude des utilisateurs (explorateur de fichiers informatiques) pas de problegravemes avec volume limiteacute

au-delagrave drsquoune certaine quantiteacute drsquoinformation les arborescences deviennent inefficaces

bull Arbres de cocircnes en 3D

posent des problegravemes agrave lrsquoutilisateur qui nrsquoa pas lrsquohabitude des espaces en 3D

effort cognitif plus eacuteleveacute et prise en main plus longue

bull Arbres hyperboliques

problegravemes des eacutetiquettes des eacuteleacutements (occlusion)

effet de zoom impreacutevisible

Lrsquoune des conclusions une seule visualisation ne permet pas de reacutepondre agrave toutes les questions

multiplier les possibiliteacutes de visualisation

63

Cartographie de linformation- Famille doutils et contextes applicatifs

2- Contextes applicatifs Eleacutements deacutevaluation

21- Evaluation scientifique doctorat en cours agrave lrsquoEBSI (Aline Creacutedeville)

bull Contexte visualisation de lrsquoinformation dans le contexte de recherche drsquoinformation

bull Point de vue de la seacutemiologie graphique

o principes les plus couramment utiliseacutes sont la proximiteacute (Grokker) lrsquoenglobage (Kartoo)

et la connectiviteacute (Auquabrowser)

omeacutetaphores visuelles pas toujours adeacutequates au web

bull Reacutesultats

o lrsquoinformation doit ecirctre structureacutee

o apports possible pour lrsquoexploration mais pas pour la recherche

64

Cartographie de linformation- Famille doutils et contextes applicatifs

2- Contextes applicatifs Eleacutements deacutevaluation

22- Evaluation en contexte dusage de recherche dinformations (Ciaccia Ihadjadene Martins 2006)

Objectif analyse de lrsquoinfluence du mode de preacutesentation des informations sur les processus cognitifs mis

en jeu par lrsquoutilisateur dans lrsquoactiviteacute de recherche drsquoinformations sur Internet

Outils eacutevalueacutes Kartoo (pour 18 usagers) et Mapstan (pour 16 usagers)

Principaux reacutesultats

Coucirct cognitif sans pour autant conduire agrave de meilleures performances (comparaison avec une

preacutesentation en liste)

Hypothegravese nouveauteacute de la preacutesentation versus habitude des preacutesentations verbales

Strateacutegie optimiseacutee preacuteciser la requecircte drsquoune recherche agrave but flou et se concentrer sur les informations

relieacutees agrave lrsquoobjectif de la question versus informations non relieacutees

Le sens de la visualisation doit ecirctre clarifieacute les systegravemes doivent faciliter la compreacutehension des

eacuteleacutements visualiseacutes

65

Cartographie de linformation- Famille doutils et contextes applicatifs

2- Contextes applicatifs Les perspectives de la cartographie seacutemantique (C Tricot de la seacutemantique agrave la carte)

Pour reacutesoudre la probleacutematique de la repreacutesentation de lrsquoinformation la visualisation de

lrsquoinformation seule ne suffit pas

La visualisation de lrsquoinformation permet uniquement de preacutesenter des donneacutees en leur

associant une repreacutesentation graphique

La cartographie seacutemantique se veut

Une meacutethode de cartographie reposant sur la seacutemantique dun domaine

Un processus de production de connaissances

donneacutees brutes -gt donneacutees structureacutees -gt donneacutees repreacutesenteacutees -gt donneacutees visualiseacutees

Un formalisme de description type Reacuteseaux seacutemantiques

Un langage de description cartographique

Une architecture multi-agents

66

Cartographie de linformation- Famille doutils et contextes applicatifs

2- Contextes applicatifs Les perspectives de la cartographie seacutemantique (C Tricot de la seacutemantique agrave la carte)

67

Cartographie de linformation- Famille doutils et contextes applicatifs

2- Contextes applicatifs Les perspectives de la cartographie seacutemantique

ldquoUne bonne structure repreacutesentative graphique pour un arbre de donneacutees est celle qui deacuteforme le moins les similitudes originales entre les uniteacutes de donneacutees (similitudes qui sont donneacutes par loutil de classification) ou en dautres termes deux individus (ou classes) qui sont proches lune de lautre le restent aussi possible que peut apregraves projection dans l`espace de visualisation et ceci doit ecirctre eacutevident(et veacuterifiable par une mesure de calcul de divergence) dans lenvironnement de visualisation ldquo Tricot 2006

Page 26: Cartographie de l'information- Composantes des - Urfist de Paris

26

Inverse document frequency (IDF)

Un terme qui apparaicirct dans peu de documents est un meilleur discriminant qursquoun terme qui apparaicirct dans tous les documents

bull dfi = nombre de documents contenant le terme ti

bull d = nombre de documents du corpus

Inverse document frequency

i

i

df

dIDF log

27

Pondeacuteration TF-IDF

TF-IDF signifie Term Frequency x Inverse Document

Frequency

bull Proposeacutee par [Salton 1989] mesure limportance drsquoun terme

dans un document relativement agrave lrsquoensemble des documents

bull tf ij = freacutequence du terme i dans le document j

df i = nombre de documents contenant le terme i

N = d = nombre de documents du corpus

28

Similariteacute entre documents

Permet de ranger les

documents par pertinence

Le cosinus de lrsquoangle est

souvent utiliseacute

2d1d

2dT

1d2d1d )cos(

bull gt cos( )ltcos( )

bull d2 est plus proche de d1que de d3

29

Cartographie de linformation- Composantes des applications cartographiques

1- Composante calculatoire Data Clustering ou partitionnement de donneacutees

Deacutefinition

Meacutethode statistique danalyse des donneacutees qui a pour but de regrouper un ensemble de donneacutees en

diffeacuterents paquets homogegravenes chaque sous-ensemble partage des caracteacuteristiques communes qui

correspondent le plus souvent agrave des critegraveres de proximiteacute que lon deacutefinit en introduisant des mesures

de distance

Principe

Pour obtenir un bon partitionnement il convient de

bull minimiser linertie intra-classe pour obtenir des grappes (cluster en anglais) les plus homogegravenes

possibles

bull maximiser linertie inter-classe afin dobtenir des sous-ensembles bien diffeacuterencieacutes

Composition

Un cluster est composeacute de

bull une liste de mots-cleacutes

bull une liste dassociations internes

bull une liste dassociations externes

bull une eacutetiquette

bull une liste de documents affecteacutes apregraves la classification

30

Cartographie de linformation- Composantes des applications cartographiques

1- Composante calculatoire DataClustering

bull Lassociation la plus forte permet de creacuteer le premier cluster ici laquoa-braquo)

bull Une nouvelle association peut donner lieu agrave un laquoenrichissementraquo de cluster laquoa-eraquo vient

enrichir le cluster laquoa-braquo qui contient deacutejagrave laquoaraquo) ou agrave une creacuteation de nouveau cluster (laquoc-draquo par

exemple)

Deacutefinitions

Web mining Data mining appliqueacute aux donneacutees de navigation sur le web

Objectifs du web mining

1 Optimiser la navigation dans un site web (confort des internautes)

2 Augmenter le nombre de pages consulteacutees et lrsquoimpact des liens et des banniegraveres publicitaires

3 Deacuteceler les centres drsquointeacuterecirct et donc les attentes des internautes visitant le site

Types dAnalyses

Statistique descriptive

bull laquo 70 des internautes ont consulteacute 3 pages ou moins raquo

bull laquo 40 des internautes accegravedent au site sans passer par la page drsquoaccueil raquo

Deacutetection des regravegles drsquoassociation

bull laquo 20 des internautes visitant la page A visitent la page B dans la mecircme session raquo

Segmentation des internautes

bull Selon les sites de provenance les pages drsquoentreacutee le nombre de pages consulteacutees les fichiers teacuteleacutechargeacutes les pages de sortie etc

1- Composante calculatoire Web Mining

Cartographie de linformation- Composantes des applications cartographiques

31

32

Cartographie de linformation- Composantes des applications cartographiques

1- Composante calculatoire Web Social Data Mining

Hypothegravese documentaire

Web structureacute par des laquo localiteacutes theacutematiques raquo deacutefinies par une forte correacutelation entre

contenu des documents et proximiteacute hypertexte dessinant comme un territoire

Probleacutematique de la laquo traccedilabiliteacute raquo du socialbull Le web se preacutesente comme une matrice technique distribueacutee faccedilonneacutee par des usages dont

le reacuteseau garde la meacutemoire bull Le seul fait dutiliser une technologie numeacuterique contribue agrave produire des traces et agrave

grande eacutechelle elles constituent un reacuteservoir immense de donneacutees disponibles

Principes hubs et autoriteacutes (Kleinberg et al)

bull Autoriteacutes ensemble des pages contenant les meilleures sources drsquoinformation pour un

thegraveme donneacute

bull Hubs pages pointant sur les autoriteacutes

bull Le calcul ressemble au calcul drsquoimportance drsquoun article par nombre de citations (les liens

du Web vus comme des recommendations)

Applications

Sujets controverseacutes ougrave le seul lexique nest pas discriminant

33

Cartographie de linformation- Composantes des applications cartographiques

2- Composante visuelle

Eleacutements de seacutemiologie graphique (J Bertin) Theacuteorie de la Gestalt

34

Cartographie de linformation- Composantes des applications cartographiques

2- Composante visuelle Eleacutements de seacutemiologie graphique (J Bertin)

35

Cartographie de linformation- Composantes des applications cartographiques

2- Composante visuelle Eleacutements de seacutemiologie graphique (J Bertin)

Type de dessin Signification

des signes Description Exemple

Graphis

me

Image non-

figurative Panseacutemique

Le systegraveme srsquoouvre agrave toute

signification Tableau drsquoart

Image

figurative Polyseacutemique

Le systegraveme a pour objectif de

deacutefinir un concept ou une ideacutee

mais les interpreacutetations peuvent

diverger

Photographie

aeacuterienne

Graphique Monoseacutemique

Transcriptions de relations entre

des concepts preacutealablement

deacutefinis

Un

organigramme

36

Cartographie de linformation- Composantes des applications cartographiques

2- Composante visuelle Eleacutements de seacutemiologie graphique (J Bertin)

laquo La graphique est un systegraveme de signes [structures visuelles] qui permet de transcrire les

relations de diffeacuterence drsquoordre ou de proportionnaliteacute existant entre des donneacutees qualitatives ou

quantitatives raquo [Bonin 1997]

laquo La carte est une image graphique qui transcrit les relations de proportionnaliteacute ordre et

diffeacuterence par des variations proportionnelles ordonneacutees et diffeacuterentielles raquo

37

Cartographie de linformation- Composantes des applications cartographiques

2- Composante visuelle Eleacutements de seacutemiologie graphique (J Bertin)

38

Cartographie de linformation- Composantes des applications cartographiques

2- Composante visuelle Eleacutements de seacutemiologie graphique (J Bertin)

39

Cartographie de linformation- Composantes des applications cartographiques

2- Composante visuelle Eleacutements de seacutemiologie graphique (J Bertin)

40

Cartographie de linformation- Composantes des applications cartographiques

2- Composante visuelle Eleacutements de seacutemiologie graphique (J Bertin)

41

Cartographie de linformation- Composantes des applications cartographiques

2- Composante visuelle Eleacutements de seacutemiologie graphique (J Bertin)

Variables visuelles (laquo variables reacutetiniennes raquo)

Variation des proprieacuteteacutes graphiques des structures visuelles

42

Cartographie de linformation- Composantes des applications cartographiques

2- Composante visuelle Eleacutements de seacutemiologie graphique (J Bertin)

Variables visuelles

Cartographie de linformation- Composantes des applications cartographiques

2- Composante visuelle Eleacutements de seacutemiologie graphique (J Bertin)

43

44

Cartographie de linformation- Composantes des applications cartographiques

2- Composante visuelle Theacuteorie de la Gestalt (1890)

Principe

Le contexte est tregraves important dans la perception visuelle [Guillaume]

Les structures visuelles ne sont pas indeacutependantes les unes des autres et le contexte est

important pour la signification qui leur est attribueacutee

En graphique

La perception visuelle srsquoattache agrave reconnaicirctre des modegraveles dans un ensemble de structures

visuelles

De cette theacuteorie reacutesultent des lois correspondant agrave des cateacutegories drsquointeractions possibles entre

les structures visuelles

45

Cartographie de linformation- Composantes des applications cartographiques

Lois Effets Illustrations

Preacutegnance Une image est facile agrave comprendre si sa structure est simple et inversement

Proximiteacute Deux composants qui sont proches ont tendance agrave ecirctre perccedilus comme un

seul composant

Similariteacute Les composants similaires sont perccedilus comme srsquoils eacutetaient regroupeacutes

Fermeture Les contours proches sont perccedilus comme unifieacutes

Continuiteacute Des eacuteleacutements voisins sont perccedilus groupeacutes lorsqursquoils possegravedent

potentiellement un trait qui les relie

Symeacutetrie Des eacuteleacutements sont perccedilus comme un eacuteleacutement global lorsqursquoils forment une

symeacutetrie

Trajectoire identique Des eacuteleacutements qui se deacuteplacent avec la mecircme trajectoire semblent groupeacutes

Familiariteacute Des eacuteleacutements sont plus facilement groupables si le groupe est familier ou

significatif

46

Cartographie de linformation- Composantes des applications cartographiques

2- Composante visuelle Theacuteorie de la Gestalt (1890)

47

Cartographie de linformation- Composantes des applications cartographiques

2- Composante visuelle Conception drsquoun langage graphique (JB Lamy)

1- Analyser les informations ou connaissances que lrsquoon souhaite repreacutesenter

Determiner les attributs qui

deacutefinissent les termes agrave repreacutesenter

bull Par exemple pour repreacutesenter

des maladies les attributs pourraient

ecirctre la localisation anatomique

(cardiaque reacutenale) la seacuteveacuteriteacute etc

2- Associer agrave chaque attribut une variable

reacutetinienne pour le repreacutesenter

bull Par exemple pour les maladies

Associer lrsquoattribut localisation

anatomique agrave la variable

formepictogramme

bull Repreacutesenter la seacuteveacuteriteacute par la variable

couleur

3- Les relations entre les diffeacuterents termes

repreacutesenteacutes doivent ecirctre expliciteacutees

48

Cartographie de linformation

Famille doutils et contextes applicatifs

1- Famille doutils

Typologies

Aperccedilu

Travaux pratiques

2- Contextes applicatifs

Eleacutements deacutevaluation

Les perspectives de la cartographie seacutemantique

49

Cartographie de linformation- Famille doutils et contextes applicatifs

1- Famille doutils

Typologies

Aperccedilu

TP agrave partir de la seacutelection httpdeliciouscommylk02Stage_Carto

Et encore httpwwwvisualcomplexitycomvc (plus de 500 projets dans le domaine)

50

Cartographie de linformation- Famille doutils et contextes applicatifs

1- Famille doutils typologies

11- Typologie scientifique eacutetablie selon des critegraveres internes au domaine

bull les trois principaux paradigmes technique de visualisation type de donneacutees et type dinteraction (Keim

DA 2002)

bull la nature des donneacutees unidimensionnelles bidimensionnelles tridimensionnelles temporelles

multidimensionnelles hieacuterarchiques reacuteseaux (Shneiderman B 1996)

12- Etat de lart eacutevaluation - benchmarking typologie orienteacutee usages (veille et intelligence eacuteconomique)

Quelques exemples

Inist httpoutilsveilleinistfr

Esiee httpwwwaa-esieecomevent2005AGClaudeAschenbrennerppt

Ecole des Mines httpwwwdemoscienceorgresources

Commercial httpwwwk-praxiscom

Commercial httpwwwinformation-mininginfostate_of_art

Universitaire httpwell-formed-datanetthesis

13- Typologie cartographique

Quelques exemples de bloggers

bull Claude Aschenbrenner httpwwwserialmappercomarchive20070110la-pierre-de-rosette-de-la-

cartographie-de-l-informationhtml avec son mode demploi

bull Kartoo httpwwwmapdreamcom

51

Cartographie de linformation- Famille doutils et contextes applicatifs

1- Famille doutils typologie scientifique

52

Cartographie de linformation- Famille doutils orienteacutes laquo bibliothegraveques raquo

2- Les outils de navigation et de recherche sur Internet (seacutelection de Pierre Nobis)

A- Les navigateurs Nestor Navicrawler

53

Cartographie de linformation- Famille doutils orienteacutes laquo bibliothegraveques raquo

2- Les outils de navigation et de recherche sur Internet (seacutelection de Pierre Nobis)

B- Les outils de visualisation des reacutesultats PageBull ManagedQ

Bbis Les outils de visualisation de reacutesultats dans les actualiteacutes

repreacutesentation carreacutee Marumushi - Google NewsNewsIsFree - The Hive Group Tenbyten -flux RSS des sources drsquoactualiteacutes internationales

repreacutesentation sous forme de graphe

Silobreaker

54

Cartographie de linformation- Famille doutils orienteacutes laquo bibliothegraveques raquo

2- Les outils de navigation et de recherche sur Internet

B-Les outils de visualisation des reacutesultats TouchGraph application Java permettant de cartographier les reacutesultats issus

notamment de Google Amazon PubMed Alexa FaceBook

55

Cartographie de linformation- Famille doutils orienteacutes laquo bibliothegraveques raquo

2- Les outils de navigation et de recherche sur Internet (seacutelection de Pierre Nobis)

C- Les outils de recherche avec ajout de termes associeacutes dans une colonne regroupement theacutematique nuage de laquo tags raquo

D- Meacutetamoteurs avec affichage de clusters sous forme de listes

Carrot2 Clusty-Vivissimo Iboogie Polymeta Turbo10 Webclust

56

Cartographie de linformation- Famille doutils orienteacutes laquo bibliothegraveques raquo

2- Les outils de navigation et de recherche sur Internet (seacutelection de Pierre Nobis)

E- Meacutetamoteurs avec affichage de clusters sous forme graphique

E1- repreacutesentation centreacutee Allplus WebBrain

Allplus est un meacutetamoteur agrave clusteacuterisation graphique qui interroge les bases de Ask Google Yahoo et Livepar le biais de lrsquooutil Polymeta Lrsquointerface cluster graph permet de visualiser les reacutesultats sous une forme graphique

Webbrain permet de visualiser et drsquoaffiner les reacutesultats drsquoune requecircte issus de lrsquoOpen Directory Project

57

Cartographie de linformation- Famille doutils orienteacutes laquo bibliothegraveques raquo

2- Les outils de navigation et de recherche sur Internet (seacutelection de Pierre Nobis)

E- Meacutetamoteurs avec affichage de clusters sous forme graphique

E2- Repreacutesentation circulaire Grokker

E3- Repreacutesentation topographique TooLeNet srsquoappuie sur les technologies de KartOO et sur lrsquoindex de

Yahoo pour effectuer des recherches selon 3 modes moteur annuaire et carte auxquels srsquoajoutent des

options de personnalisation et de classification assez avanceacutees

58

Cartographie de linformation- Famille doutils orienteacutes laquo bibliothegraveques raquo

3- Les Outils graphiques dexploration

Wikimindmap est un outil drsquointerrogation

et de repreacutesentation des informations issues

de Wikipedia sous forme de carte heuristique

Visuwords est un dictionnaire en ligne

qui preacutesente ses reacutesultats sous forme de laquo grappes raquo

Il utilise la base de donneacutees Wordnet

Code couleur pour les diffeacuterentes relations

seacutemantiques hieacuterarchiques entre les termes

ainsi que les synonymes et les antonymes

59

Cartographie de linformation- Famille doutils orienteacutes laquo bibliothegraveques raquo

4- Les outils de creacuteation (carto)graphiqueA- Pour meacutemoire les logiciels de creacuteation de cartes heuristiques et conceptuelles

Cmaptools est un logiciel gratuit (usage eacuteducatif) de creacuteation de cartes conceptuelles

Freemind est un logiciel libre et gratuit qui permet de reacutealiser des cartes heuristiques

Thinkgraph est un logiciel gratuit de dessin 2D orienteacute vers la reacutealisation de cartes conceptuelles

60

Cartographie de linformation- Famille doutils orienteacutes laquo bibliothegraveques raquo

4- Les outils de creacuteation (carto)graphique

B- Les outils drsquoeacutedition de graphes

Guess est un logiciel libre et gratuit deacuteveloppeacute par Eytan Adar qui permet de visualiser des

graphes statiques Options de modification de certains attributs (taille couleur forme

algorithmes de positionnementhellip)

Pajek est un logiciel libre et gratuit (usage non commercial) deacuteveloppeacute par V Batagelj et A

Mrvar qui permet de traiter des donneacutees de reacuteseaux de grande taille Pajek signifie araigneacutee

en slovegravene

C- Les outils en ligne

ManyEye service collaboratif deacuteveloppeacute par IBM gracircce auquel on peut geacuteneacuterer selon un

des modegraveles proposeacutes sa propre visualisation de lrsquoinformation (apregraves avoir teacuteleacuteverseacute ses

propres donneacutees)

IssueCrawler outil de web social mining utilisable agrave distance (chargement des URL)

reacutecupeacuteration graphique

61

Cartographie de linformation- Famille doutils et contextes applicatifs

2- Contextes applicatifs

Eleacutements deacutevaluation

Les perspectives de la cartographie seacutemantique

62

Cartographie de linformation- Famille doutils et contextes applicatifs

2- Contextes applicatifs Eleacutements deacutevaluation

21- Evaluation scientifique

Question de meacutethode Eacutevaluation des Interfaces Utilisateur drsquoInformation Bonnel et Chevalier 2006

Objectif proposer une meacutethodologie deacutevaluation permettant de comparer du point de vue de la

visualisation des reacutesultats agrave une requecircte les outils de recherche Google Vivisimo Ujiko Grokker Kartoo

Vios SmartWeb (prototype)

Evaluation des repreacutesentations graphiques geacuteneacuteraliteacutes (Tricot et Roche 2006)

bull Arborescences simples

habitude des utilisateurs (explorateur de fichiers informatiques) pas de problegravemes avec volume limiteacute

au-delagrave drsquoune certaine quantiteacute drsquoinformation les arborescences deviennent inefficaces

bull Arbres de cocircnes en 3D

posent des problegravemes agrave lrsquoutilisateur qui nrsquoa pas lrsquohabitude des espaces en 3D

effort cognitif plus eacuteleveacute et prise en main plus longue

bull Arbres hyperboliques

problegravemes des eacutetiquettes des eacuteleacutements (occlusion)

effet de zoom impreacutevisible

Lrsquoune des conclusions une seule visualisation ne permet pas de reacutepondre agrave toutes les questions

multiplier les possibiliteacutes de visualisation

63

Cartographie de linformation- Famille doutils et contextes applicatifs

2- Contextes applicatifs Eleacutements deacutevaluation

21- Evaluation scientifique doctorat en cours agrave lrsquoEBSI (Aline Creacutedeville)

bull Contexte visualisation de lrsquoinformation dans le contexte de recherche drsquoinformation

bull Point de vue de la seacutemiologie graphique

o principes les plus couramment utiliseacutes sont la proximiteacute (Grokker) lrsquoenglobage (Kartoo)

et la connectiviteacute (Auquabrowser)

omeacutetaphores visuelles pas toujours adeacutequates au web

bull Reacutesultats

o lrsquoinformation doit ecirctre structureacutee

o apports possible pour lrsquoexploration mais pas pour la recherche

64

Cartographie de linformation- Famille doutils et contextes applicatifs

2- Contextes applicatifs Eleacutements deacutevaluation

22- Evaluation en contexte dusage de recherche dinformations (Ciaccia Ihadjadene Martins 2006)

Objectif analyse de lrsquoinfluence du mode de preacutesentation des informations sur les processus cognitifs mis

en jeu par lrsquoutilisateur dans lrsquoactiviteacute de recherche drsquoinformations sur Internet

Outils eacutevalueacutes Kartoo (pour 18 usagers) et Mapstan (pour 16 usagers)

Principaux reacutesultats

Coucirct cognitif sans pour autant conduire agrave de meilleures performances (comparaison avec une

preacutesentation en liste)

Hypothegravese nouveauteacute de la preacutesentation versus habitude des preacutesentations verbales

Strateacutegie optimiseacutee preacuteciser la requecircte drsquoune recherche agrave but flou et se concentrer sur les informations

relieacutees agrave lrsquoobjectif de la question versus informations non relieacutees

Le sens de la visualisation doit ecirctre clarifieacute les systegravemes doivent faciliter la compreacutehension des

eacuteleacutements visualiseacutes

65

Cartographie de linformation- Famille doutils et contextes applicatifs

2- Contextes applicatifs Les perspectives de la cartographie seacutemantique (C Tricot de la seacutemantique agrave la carte)

Pour reacutesoudre la probleacutematique de la repreacutesentation de lrsquoinformation la visualisation de

lrsquoinformation seule ne suffit pas

La visualisation de lrsquoinformation permet uniquement de preacutesenter des donneacutees en leur

associant une repreacutesentation graphique

La cartographie seacutemantique se veut

Une meacutethode de cartographie reposant sur la seacutemantique dun domaine

Un processus de production de connaissances

donneacutees brutes -gt donneacutees structureacutees -gt donneacutees repreacutesenteacutees -gt donneacutees visualiseacutees

Un formalisme de description type Reacuteseaux seacutemantiques

Un langage de description cartographique

Une architecture multi-agents

66

Cartographie de linformation- Famille doutils et contextes applicatifs

2- Contextes applicatifs Les perspectives de la cartographie seacutemantique (C Tricot de la seacutemantique agrave la carte)

67

Cartographie de linformation- Famille doutils et contextes applicatifs

2- Contextes applicatifs Les perspectives de la cartographie seacutemantique

ldquoUne bonne structure repreacutesentative graphique pour un arbre de donneacutees est celle qui deacuteforme le moins les similitudes originales entre les uniteacutes de donneacutees (similitudes qui sont donneacutes par loutil de classification) ou en dautres termes deux individus (ou classes) qui sont proches lune de lautre le restent aussi possible que peut apregraves projection dans l`espace de visualisation et ceci doit ecirctre eacutevident(et veacuterifiable par une mesure de calcul de divergence) dans lenvironnement de visualisation ldquo Tricot 2006

Page 27: Cartographie de l'information- Composantes des - Urfist de Paris

27

Pondeacuteration TF-IDF

TF-IDF signifie Term Frequency x Inverse Document

Frequency

bull Proposeacutee par [Salton 1989] mesure limportance drsquoun terme

dans un document relativement agrave lrsquoensemble des documents

bull tf ij = freacutequence du terme i dans le document j

df i = nombre de documents contenant le terme i

N = d = nombre de documents du corpus

28

Similariteacute entre documents

Permet de ranger les

documents par pertinence

Le cosinus de lrsquoangle est

souvent utiliseacute

2d1d

2dT

1d2d1d )cos(

bull gt cos( )ltcos( )

bull d2 est plus proche de d1que de d3

29

Cartographie de linformation- Composantes des applications cartographiques

1- Composante calculatoire Data Clustering ou partitionnement de donneacutees

Deacutefinition

Meacutethode statistique danalyse des donneacutees qui a pour but de regrouper un ensemble de donneacutees en

diffeacuterents paquets homogegravenes chaque sous-ensemble partage des caracteacuteristiques communes qui

correspondent le plus souvent agrave des critegraveres de proximiteacute que lon deacutefinit en introduisant des mesures

de distance

Principe

Pour obtenir un bon partitionnement il convient de

bull minimiser linertie intra-classe pour obtenir des grappes (cluster en anglais) les plus homogegravenes

possibles

bull maximiser linertie inter-classe afin dobtenir des sous-ensembles bien diffeacuterencieacutes

Composition

Un cluster est composeacute de

bull une liste de mots-cleacutes

bull une liste dassociations internes

bull une liste dassociations externes

bull une eacutetiquette

bull une liste de documents affecteacutes apregraves la classification

30

Cartographie de linformation- Composantes des applications cartographiques

1- Composante calculatoire DataClustering

bull Lassociation la plus forte permet de creacuteer le premier cluster ici laquoa-braquo)

bull Une nouvelle association peut donner lieu agrave un laquoenrichissementraquo de cluster laquoa-eraquo vient

enrichir le cluster laquoa-braquo qui contient deacutejagrave laquoaraquo) ou agrave une creacuteation de nouveau cluster (laquoc-draquo par

exemple)

Deacutefinitions

Web mining Data mining appliqueacute aux donneacutees de navigation sur le web

Objectifs du web mining

1 Optimiser la navigation dans un site web (confort des internautes)

2 Augmenter le nombre de pages consulteacutees et lrsquoimpact des liens et des banniegraveres publicitaires

3 Deacuteceler les centres drsquointeacuterecirct et donc les attentes des internautes visitant le site

Types dAnalyses

Statistique descriptive

bull laquo 70 des internautes ont consulteacute 3 pages ou moins raquo

bull laquo 40 des internautes accegravedent au site sans passer par la page drsquoaccueil raquo

Deacutetection des regravegles drsquoassociation

bull laquo 20 des internautes visitant la page A visitent la page B dans la mecircme session raquo

Segmentation des internautes

bull Selon les sites de provenance les pages drsquoentreacutee le nombre de pages consulteacutees les fichiers teacuteleacutechargeacutes les pages de sortie etc

1- Composante calculatoire Web Mining

Cartographie de linformation- Composantes des applications cartographiques

31

32

Cartographie de linformation- Composantes des applications cartographiques

1- Composante calculatoire Web Social Data Mining

Hypothegravese documentaire

Web structureacute par des laquo localiteacutes theacutematiques raquo deacutefinies par une forte correacutelation entre

contenu des documents et proximiteacute hypertexte dessinant comme un territoire

Probleacutematique de la laquo traccedilabiliteacute raquo du socialbull Le web se preacutesente comme une matrice technique distribueacutee faccedilonneacutee par des usages dont

le reacuteseau garde la meacutemoire bull Le seul fait dutiliser une technologie numeacuterique contribue agrave produire des traces et agrave

grande eacutechelle elles constituent un reacuteservoir immense de donneacutees disponibles

Principes hubs et autoriteacutes (Kleinberg et al)

bull Autoriteacutes ensemble des pages contenant les meilleures sources drsquoinformation pour un

thegraveme donneacute

bull Hubs pages pointant sur les autoriteacutes

bull Le calcul ressemble au calcul drsquoimportance drsquoun article par nombre de citations (les liens

du Web vus comme des recommendations)

Applications

Sujets controverseacutes ougrave le seul lexique nest pas discriminant

33

Cartographie de linformation- Composantes des applications cartographiques

2- Composante visuelle

Eleacutements de seacutemiologie graphique (J Bertin) Theacuteorie de la Gestalt

34

Cartographie de linformation- Composantes des applications cartographiques

2- Composante visuelle Eleacutements de seacutemiologie graphique (J Bertin)

35

Cartographie de linformation- Composantes des applications cartographiques

2- Composante visuelle Eleacutements de seacutemiologie graphique (J Bertin)

Type de dessin Signification

des signes Description Exemple

Graphis

me

Image non-

figurative Panseacutemique

Le systegraveme srsquoouvre agrave toute

signification Tableau drsquoart

Image

figurative Polyseacutemique

Le systegraveme a pour objectif de

deacutefinir un concept ou une ideacutee

mais les interpreacutetations peuvent

diverger

Photographie

aeacuterienne

Graphique Monoseacutemique

Transcriptions de relations entre

des concepts preacutealablement

deacutefinis

Un

organigramme

36

Cartographie de linformation- Composantes des applications cartographiques

2- Composante visuelle Eleacutements de seacutemiologie graphique (J Bertin)

laquo La graphique est un systegraveme de signes [structures visuelles] qui permet de transcrire les

relations de diffeacuterence drsquoordre ou de proportionnaliteacute existant entre des donneacutees qualitatives ou

quantitatives raquo [Bonin 1997]

laquo La carte est une image graphique qui transcrit les relations de proportionnaliteacute ordre et

diffeacuterence par des variations proportionnelles ordonneacutees et diffeacuterentielles raquo

37

Cartographie de linformation- Composantes des applications cartographiques

2- Composante visuelle Eleacutements de seacutemiologie graphique (J Bertin)

38

Cartographie de linformation- Composantes des applications cartographiques

2- Composante visuelle Eleacutements de seacutemiologie graphique (J Bertin)

39

Cartographie de linformation- Composantes des applications cartographiques

2- Composante visuelle Eleacutements de seacutemiologie graphique (J Bertin)

40

Cartographie de linformation- Composantes des applications cartographiques

2- Composante visuelle Eleacutements de seacutemiologie graphique (J Bertin)

41

Cartographie de linformation- Composantes des applications cartographiques

2- Composante visuelle Eleacutements de seacutemiologie graphique (J Bertin)

Variables visuelles (laquo variables reacutetiniennes raquo)

Variation des proprieacuteteacutes graphiques des structures visuelles

42

Cartographie de linformation- Composantes des applications cartographiques

2- Composante visuelle Eleacutements de seacutemiologie graphique (J Bertin)

Variables visuelles

Cartographie de linformation- Composantes des applications cartographiques

2- Composante visuelle Eleacutements de seacutemiologie graphique (J Bertin)

43

44

Cartographie de linformation- Composantes des applications cartographiques

2- Composante visuelle Theacuteorie de la Gestalt (1890)

Principe

Le contexte est tregraves important dans la perception visuelle [Guillaume]

Les structures visuelles ne sont pas indeacutependantes les unes des autres et le contexte est

important pour la signification qui leur est attribueacutee

En graphique

La perception visuelle srsquoattache agrave reconnaicirctre des modegraveles dans un ensemble de structures

visuelles

De cette theacuteorie reacutesultent des lois correspondant agrave des cateacutegories drsquointeractions possibles entre

les structures visuelles

45

Cartographie de linformation- Composantes des applications cartographiques

Lois Effets Illustrations

Preacutegnance Une image est facile agrave comprendre si sa structure est simple et inversement

Proximiteacute Deux composants qui sont proches ont tendance agrave ecirctre perccedilus comme un

seul composant

Similariteacute Les composants similaires sont perccedilus comme srsquoils eacutetaient regroupeacutes

Fermeture Les contours proches sont perccedilus comme unifieacutes

Continuiteacute Des eacuteleacutements voisins sont perccedilus groupeacutes lorsqursquoils possegravedent

potentiellement un trait qui les relie

Symeacutetrie Des eacuteleacutements sont perccedilus comme un eacuteleacutement global lorsqursquoils forment une

symeacutetrie

Trajectoire identique Des eacuteleacutements qui se deacuteplacent avec la mecircme trajectoire semblent groupeacutes

Familiariteacute Des eacuteleacutements sont plus facilement groupables si le groupe est familier ou

significatif

46

Cartographie de linformation- Composantes des applications cartographiques

2- Composante visuelle Theacuteorie de la Gestalt (1890)

47

Cartographie de linformation- Composantes des applications cartographiques

2- Composante visuelle Conception drsquoun langage graphique (JB Lamy)

1- Analyser les informations ou connaissances que lrsquoon souhaite repreacutesenter

Determiner les attributs qui

deacutefinissent les termes agrave repreacutesenter

bull Par exemple pour repreacutesenter

des maladies les attributs pourraient

ecirctre la localisation anatomique

(cardiaque reacutenale) la seacuteveacuteriteacute etc

2- Associer agrave chaque attribut une variable

reacutetinienne pour le repreacutesenter

bull Par exemple pour les maladies

Associer lrsquoattribut localisation

anatomique agrave la variable

formepictogramme

bull Repreacutesenter la seacuteveacuteriteacute par la variable

couleur

3- Les relations entre les diffeacuterents termes

repreacutesenteacutes doivent ecirctre expliciteacutees

48

Cartographie de linformation

Famille doutils et contextes applicatifs

1- Famille doutils

Typologies

Aperccedilu

Travaux pratiques

2- Contextes applicatifs

Eleacutements deacutevaluation

Les perspectives de la cartographie seacutemantique

49

Cartographie de linformation- Famille doutils et contextes applicatifs

1- Famille doutils

Typologies

Aperccedilu

TP agrave partir de la seacutelection httpdeliciouscommylk02Stage_Carto

Et encore httpwwwvisualcomplexitycomvc (plus de 500 projets dans le domaine)

50

Cartographie de linformation- Famille doutils et contextes applicatifs

1- Famille doutils typologies

11- Typologie scientifique eacutetablie selon des critegraveres internes au domaine

bull les trois principaux paradigmes technique de visualisation type de donneacutees et type dinteraction (Keim

DA 2002)

bull la nature des donneacutees unidimensionnelles bidimensionnelles tridimensionnelles temporelles

multidimensionnelles hieacuterarchiques reacuteseaux (Shneiderman B 1996)

12- Etat de lart eacutevaluation - benchmarking typologie orienteacutee usages (veille et intelligence eacuteconomique)

Quelques exemples

Inist httpoutilsveilleinistfr

Esiee httpwwwaa-esieecomevent2005AGClaudeAschenbrennerppt

Ecole des Mines httpwwwdemoscienceorgresources

Commercial httpwwwk-praxiscom

Commercial httpwwwinformation-mininginfostate_of_art

Universitaire httpwell-formed-datanetthesis

13- Typologie cartographique

Quelques exemples de bloggers

bull Claude Aschenbrenner httpwwwserialmappercomarchive20070110la-pierre-de-rosette-de-la-

cartographie-de-l-informationhtml avec son mode demploi

bull Kartoo httpwwwmapdreamcom

51

Cartographie de linformation- Famille doutils et contextes applicatifs

1- Famille doutils typologie scientifique

52

Cartographie de linformation- Famille doutils orienteacutes laquo bibliothegraveques raquo

2- Les outils de navigation et de recherche sur Internet (seacutelection de Pierre Nobis)

A- Les navigateurs Nestor Navicrawler

53

Cartographie de linformation- Famille doutils orienteacutes laquo bibliothegraveques raquo

2- Les outils de navigation et de recherche sur Internet (seacutelection de Pierre Nobis)

B- Les outils de visualisation des reacutesultats PageBull ManagedQ

Bbis Les outils de visualisation de reacutesultats dans les actualiteacutes

repreacutesentation carreacutee Marumushi - Google NewsNewsIsFree - The Hive Group Tenbyten -flux RSS des sources drsquoactualiteacutes internationales

repreacutesentation sous forme de graphe

Silobreaker

54

Cartographie de linformation- Famille doutils orienteacutes laquo bibliothegraveques raquo

2- Les outils de navigation et de recherche sur Internet

B-Les outils de visualisation des reacutesultats TouchGraph application Java permettant de cartographier les reacutesultats issus

notamment de Google Amazon PubMed Alexa FaceBook

55

Cartographie de linformation- Famille doutils orienteacutes laquo bibliothegraveques raquo

2- Les outils de navigation et de recherche sur Internet (seacutelection de Pierre Nobis)

C- Les outils de recherche avec ajout de termes associeacutes dans une colonne regroupement theacutematique nuage de laquo tags raquo

D- Meacutetamoteurs avec affichage de clusters sous forme de listes

Carrot2 Clusty-Vivissimo Iboogie Polymeta Turbo10 Webclust

56

Cartographie de linformation- Famille doutils orienteacutes laquo bibliothegraveques raquo

2- Les outils de navigation et de recherche sur Internet (seacutelection de Pierre Nobis)

E- Meacutetamoteurs avec affichage de clusters sous forme graphique

E1- repreacutesentation centreacutee Allplus WebBrain

Allplus est un meacutetamoteur agrave clusteacuterisation graphique qui interroge les bases de Ask Google Yahoo et Livepar le biais de lrsquooutil Polymeta Lrsquointerface cluster graph permet de visualiser les reacutesultats sous une forme graphique

Webbrain permet de visualiser et drsquoaffiner les reacutesultats drsquoune requecircte issus de lrsquoOpen Directory Project

57

Cartographie de linformation- Famille doutils orienteacutes laquo bibliothegraveques raquo

2- Les outils de navigation et de recherche sur Internet (seacutelection de Pierre Nobis)

E- Meacutetamoteurs avec affichage de clusters sous forme graphique

E2- Repreacutesentation circulaire Grokker

E3- Repreacutesentation topographique TooLeNet srsquoappuie sur les technologies de KartOO et sur lrsquoindex de

Yahoo pour effectuer des recherches selon 3 modes moteur annuaire et carte auxquels srsquoajoutent des

options de personnalisation et de classification assez avanceacutees

58

Cartographie de linformation- Famille doutils orienteacutes laquo bibliothegraveques raquo

3- Les Outils graphiques dexploration

Wikimindmap est un outil drsquointerrogation

et de repreacutesentation des informations issues

de Wikipedia sous forme de carte heuristique

Visuwords est un dictionnaire en ligne

qui preacutesente ses reacutesultats sous forme de laquo grappes raquo

Il utilise la base de donneacutees Wordnet

Code couleur pour les diffeacuterentes relations

seacutemantiques hieacuterarchiques entre les termes

ainsi que les synonymes et les antonymes

59

Cartographie de linformation- Famille doutils orienteacutes laquo bibliothegraveques raquo

4- Les outils de creacuteation (carto)graphiqueA- Pour meacutemoire les logiciels de creacuteation de cartes heuristiques et conceptuelles

Cmaptools est un logiciel gratuit (usage eacuteducatif) de creacuteation de cartes conceptuelles

Freemind est un logiciel libre et gratuit qui permet de reacutealiser des cartes heuristiques

Thinkgraph est un logiciel gratuit de dessin 2D orienteacute vers la reacutealisation de cartes conceptuelles

60

Cartographie de linformation- Famille doutils orienteacutes laquo bibliothegraveques raquo

4- Les outils de creacuteation (carto)graphique

B- Les outils drsquoeacutedition de graphes

Guess est un logiciel libre et gratuit deacuteveloppeacute par Eytan Adar qui permet de visualiser des

graphes statiques Options de modification de certains attributs (taille couleur forme

algorithmes de positionnementhellip)

Pajek est un logiciel libre et gratuit (usage non commercial) deacuteveloppeacute par V Batagelj et A

Mrvar qui permet de traiter des donneacutees de reacuteseaux de grande taille Pajek signifie araigneacutee

en slovegravene

C- Les outils en ligne

ManyEye service collaboratif deacuteveloppeacute par IBM gracircce auquel on peut geacuteneacuterer selon un

des modegraveles proposeacutes sa propre visualisation de lrsquoinformation (apregraves avoir teacuteleacuteverseacute ses

propres donneacutees)

IssueCrawler outil de web social mining utilisable agrave distance (chargement des URL)

reacutecupeacuteration graphique

61

Cartographie de linformation- Famille doutils et contextes applicatifs

2- Contextes applicatifs

Eleacutements deacutevaluation

Les perspectives de la cartographie seacutemantique

62

Cartographie de linformation- Famille doutils et contextes applicatifs

2- Contextes applicatifs Eleacutements deacutevaluation

21- Evaluation scientifique

Question de meacutethode Eacutevaluation des Interfaces Utilisateur drsquoInformation Bonnel et Chevalier 2006

Objectif proposer une meacutethodologie deacutevaluation permettant de comparer du point de vue de la

visualisation des reacutesultats agrave une requecircte les outils de recherche Google Vivisimo Ujiko Grokker Kartoo

Vios SmartWeb (prototype)

Evaluation des repreacutesentations graphiques geacuteneacuteraliteacutes (Tricot et Roche 2006)

bull Arborescences simples

habitude des utilisateurs (explorateur de fichiers informatiques) pas de problegravemes avec volume limiteacute

au-delagrave drsquoune certaine quantiteacute drsquoinformation les arborescences deviennent inefficaces

bull Arbres de cocircnes en 3D

posent des problegravemes agrave lrsquoutilisateur qui nrsquoa pas lrsquohabitude des espaces en 3D

effort cognitif plus eacuteleveacute et prise en main plus longue

bull Arbres hyperboliques

problegravemes des eacutetiquettes des eacuteleacutements (occlusion)

effet de zoom impreacutevisible

Lrsquoune des conclusions une seule visualisation ne permet pas de reacutepondre agrave toutes les questions

multiplier les possibiliteacutes de visualisation

63

Cartographie de linformation- Famille doutils et contextes applicatifs

2- Contextes applicatifs Eleacutements deacutevaluation

21- Evaluation scientifique doctorat en cours agrave lrsquoEBSI (Aline Creacutedeville)

bull Contexte visualisation de lrsquoinformation dans le contexte de recherche drsquoinformation

bull Point de vue de la seacutemiologie graphique

o principes les plus couramment utiliseacutes sont la proximiteacute (Grokker) lrsquoenglobage (Kartoo)

et la connectiviteacute (Auquabrowser)

omeacutetaphores visuelles pas toujours adeacutequates au web

bull Reacutesultats

o lrsquoinformation doit ecirctre structureacutee

o apports possible pour lrsquoexploration mais pas pour la recherche

64

Cartographie de linformation- Famille doutils et contextes applicatifs

2- Contextes applicatifs Eleacutements deacutevaluation

22- Evaluation en contexte dusage de recherche dinformations (Ciaccia Ihadjadene Martins 2006)

Objectif analyse de lrsquoinfluence du mode de preacutesentation des informations sur les processus cognitifs mis

en jeu par lrsquoutilisateur dans lrsquoactiviteacute de recherche drsquoinformations sur Internet

Outils eacutevalueacutes Kartoo (pour 18 usagers) et Mapstan (pour 16 usagers)

Principaux reacutesultats

Coucirct cognitif sans pour autant conduire agrave de meilleures performances (comparaison avec une

preacutesentation en liste)

Hypothegravese nouveauteacute de la preacutesentation versus habitude des preacutesentations verbales

Strateacutegie optimiseacutee preacuteciser la requecircte drsquoune recherche agrave but flou et se concentrer sur les informations

relieacutees agrave lrsquoobjectif de la question versus informations non relieacutees

Le sens de la visualisation doit ecirctre clarifieacute les systegravemes doivent faciliter la compreacutehension des

eacuteleacutements visualiseacutes

65

Cartographie de linformation- Famille doutils et contextes applicatifs

2- Contextes applicatifs Les perspectives de la cartographie seacutemantique (C Tricot de la seacutemantique agrave la carte)

Pour reacutesoudre la probleacutematique de la repreacutesentation de lrsquoinformation la visualisation de

lrsquoinformation seule ne suffit pas

La visualisation de lrsquoinformation permet uniquement de preacutesenter des donneacutees en leur

associant une repreacutesentation graphique

La cartographie seacutemantique se veut

Une meacutethode de cartographie reposant sur la seacutemantique dun domaine

Un processus de production de connaissances

donneacutees brutes -gt donneacutees structureacutees -gt donneacutees repreacutesenteacutees -gt donneacutees visualiseacutees

Un formalisme de description type Reacuteseaux seacutemantiques

Un langage de description cartographique

Une architecture multi-agents

66

Cartographie de linformation- Famille doutils et contextes applicatifs

2- Contextes applicatifs Les perspectives de la cartographie seacutemantique (C Tricot de la seacutemantique agrave la carte)

67

Cartographie de linformation- Famille doutils et contextes applicatifs

2- Contextes applicatifs Les perspectives de la cartographie seacutemantique

ldquoUne bonne structure repreacutesentative graphique pour un arbre de donneacutees est celle qui deacuteforme le moins les similitudes originales entre les uniteacutes de donneacutees (similitudes qui sont donneacutes par loutil de classification) ou en dautres termes deux individus (ou classes) qui sont proches lune de lautre le restent aussi possible que peut apregraves projection dans l`espace de visualisation et ceci doit ecirctre eacutevident(et veacuterifiable par une mesure de calcul de divergence) dans lenvironnement de visualisation ldquo Tricot 2006

Page 28: Cartographie de l'information- Composantes des - Urfist de Paris

28

Similariteacute entre documents

Permet de ranger les

documents par pertinence

Le cosinus de lrsquoangle est

souvent utiliseacute

2d1d

2dT

1d2d1d )cos(

bull gt cos( )ltcos( )

bull d2 est plus proche de d1que de d3

29

Cartographie de linformation- Composantes des applications cartographiques

1- Composante calculatoire Data Clustering ou partitionnement de donneacutees

Deacutefinition

Meacutethode statistique danalyse des donneacutees qui a pour but de regrouper un ensemble de donneacutees en

diffeacuterents paquets homogegravenes chaque sous-ensemble partage des caracteacuteristiques communes qui

correspondent le plus souvent agrave des critegraveres de proximiteacute que lon deacutefinit en introduisant des mesures

de distance

Principe

Pour obtenir un bon partitionnement il convient de

bull minimiser linertie intra-classe pour obtenir des grappes (cluster en anglais) les plus homogegravenes

possibles

bull maximiser linertie inter-classe afin dobtenir des sous-ensembles bien diffeacuterencieacutes

Composition

Un cluster est composeacute de

bull une liste de mots-cleacutes

bull une liste dassociations internes

bull une liste dassociations externes

bull une eacutetiquette

bull une liste de documents affecteacutes apregraves la classification

30

Cartographie de linformation- Composantes des applications cartographiques

1- Composante calculatoire DataClustering

bull Lassociation la plus forte permet de creacuteer le premier cluster ici laquoa-braquo)

bull Une nouvelle association peut donner lieu agrave un laquoenrichissementraquo de cluster laquoa-eraquo vient

enrichir le cluster laquoa-braquo qui contient deacutejagrave laquoaraquo) ou agrave une creacuteation de nouveau cluster (laquoc-draquo par

exemple)

Deacutefinitions

Web mining Data mining appliqueacute aux donneacutees de navigation sur le web

Objectifs du web mining

1 Optimiser la navigation dans un site web (confort des internautes)

2 Augmenter le nombre de pages consulteacutees et lrsquoimpact des liens et des banniegraveres publicitaires

3 Deacuteceler les centres drsquointeacuterecirct et donc les attentes des internautes visitant le site

Types dAnalyses

Statistique descriptive

bull laquo 70 des internautes ont consulteacute 3 pages ou moins raquo

bull laquo 40 des internautes accegravedent au site sans passer par la page drsquoaccueil raquo

Deacutetection des regravegles drsquoassociation

bull laquo 20 des internautes visitant la page A visitent la page B dans la mecircme session raquo

Segmentation des internautes

bull Selon les sites de provenance les pages drsquoentreacutee le nombre de pages consulteacutees les fichiers teacuteleacutechargeacutes les pages de sortie etc

1- Composante calculatoire Web Mining

Cartographie de linformation- Composantes des applications cartographiques

31

32

Cartographie de linformation- Composantes des applications cartographiques

1- Composante calculatoire Web Social Data Mining

Hypothegravese documentaire

Web structureacute par des laquo localiteacutes theacutematiques raquo deacutefinies par une forte correacutelation entre

contenu des documents et proximiteacute hypertexte dessinant comme un territoire

Probleacutematique de la laquo traccedilabiliteacute raquo du socialbull Le web se preacutesente comme une matrice technique distribueacutee faccedilonneacutee par des usages dont

le reacuteseau garde la meacutemoire bull Le seul fait dutiliser une technologie numeacuterique contribue agrave produire des traces et agrave

grande eacutechelle elles constituent un reacuteservoir immense de donneacutees disponibles

Principes hubs et autoriteacutes (Kleinberg et al)

bull Autoriteacutes ensemble des pages contenant les meilleures sources drsquoinformation pour un

thegraveme donneacute

bull Hubs pages pointant sur les autoriteacutes

bull Le calcul ressemble au calcul drsquoimportance drsquoun article par nombre de citations (les liens

du Web vus comme des recommendations)

Applications

Sujets controverseacutes ougrave le seul lexique nest pas discriminant

33

Cartographie de linformation- Composantes des applications cartographiques

2- Composante visuelle

Eleacutements de seacutemiologie graphique (J Bertin) Theacuteorie de la Gestalt

34

Cartographie de linformation- Composantes des applications cartographiques

2- Composante visuelle Eleacutements de seacutemiologie graphique (J Bertin)

35

Cartographie de linformation- Composantes des applications cartographiques

2- Composante visuelle Eleacutements de seacutemiologie graphique (J Bertin)

Type de dessin Signification

des signes Description Exemple

Graphis

me

Image non-

figurative Panseacutemique

Le systegraveme srsquoouvre agrave toute

signification Tableau drsquoart

Image

figurative Polyseacutemique

Le systegraveme a pour objectif de

deacutefinir un concept ou une ideacutee

mais les interpreacutetations peuvent

diverger

Photographie

aeacuterienne

Graphique Monoseacutemique

Transcriptions de relations entre

des concepts preacutealablement

deacutefinis

Un

organigramme

36

Cartographie de linformation- Composantes des applications cartographiques

2- Composante visuelle Eleacutements de seacutemiologie graphique (J Bertin)

laquo La graphique est un systegraveme de signes [structures visuelles] qui permet de transcrire les

relations de diffeacuterence drsquoordre ou de proportionnaliteacute existant entre des donneacutees qualitatives ou

quantitatives raquo [Bonin 1997]

laquo La carte est une image graphique qui transcrit les relations de proportionnaliteacute ordre et

diffeacuterence par des variations proportionnelles ordonneacutees et diffeacuterentielles raquo

37

Cartographie de linformation- Composantes des applications cartographiques

2- Composante visuelle Eleacutements de seacutemiologie graphique (J Bertin)

38

Cartographie de linformation- Composantes des applications cartographiques

2- Composante visuelle Eleacutements de seacutemiologie graphique (J Bertin)

39

Cartographie de linformation- Composantes des applications cartographiques

2- Composante visuelle Eleacutements de seacutemiologie graphique (J Bertin)

40

Cartographie de linformation- Composantes des applications cartographiques

2- Composante visuelle Eleacutements de seacutemiologie graphique (J Bertin)

41

Cartographie de linformation- Composantes des applications cartographiques

2- Composante visuelle Eleacutements de seacutemiologie graphique (J Bertin)

Variables visuelles (laquo variables reacutetiniennes raquo)

Variation des proprieacuteteacutes graphiques des structures visuelles

42

Cartographie de linformation- Composantes des applications cartographiques

2- Composante visuelle Eleacutements de seacutemiologie graphique (J Bertin)

Variables visuelles

Cartographie de linformation- Composantes des applications cartographiques

2- Composante visuelle Eleacutements de seacutemiologie graphique (J Bertin)

43

44

Cartographie de linformation- Composantes des applications cartographiques

2- Composante visuelle Theacuteorie de la Gestalt (1890)

Principe

Le contexte est tregraves important dans la perception visuelle [Guillaume]

Les structures visuelles ne sont pas indeacutependantes les unes des autres et le contexte est

important pour la signification qui leur est attribueacutee

En graphique

La perception visuelle srsquoattache agrave reconnaicirctre des modegraveles dans un ensemble de structures

visuelles

De cette theacuteorie reacutesultent des lois correspondant agrave des cateacutegories drsquointeractions possibles entre

les structures visuelles

45

Cartographie de linformation- Composantes des applications cartographiques

Lois Effets Illustrations

Preacutegnance Une image est facile agrave comprendre si sa structure est simple et inversement

Proximiteacute Deux composants qui sont proches ont tendance agrave ecirctre perccedilus comme un

seul composant

Similariteacute Les composants similaires sont perccedilus comme srsquoils eacutetaient regroupeacutes

Fermeture Les contours proches sont perccedilus comme unifieacutes

Continuiteacute Des eacuteleacutements voisins sont perccedilus groupeacutes lorsqursquoils possegravedent

potentiellement un trait qui les relie

Symeacutetrie Des eacuteleacutements sont perccedilus comme un eacuteleacutement global lorsqursquoils forment une

symeacutetrie

Trajectoire identique Des eacuteleacutements qui se deacuteplacent avec la mecircme trajectoire semblent groupeacutes

Familiariteacute Des eacuteleacutements sont plus facilement groupables si le groupe est familier ou

significatif

46

Cartographie de linformation- Composantes des applications cartographiques

2- Composante visuelle Theacuteorie de la Gestalt (1890)

47

Cartographie de linformation- Composantes des applications cartographiques

2- Composante visuelle Conception drsquoun langage graphique (JB Lamy)

1- Analyser les informations ou connaissances que lrsquoon souhaite repreacutesenter

Determiner les attributs qui

deacutefinissent les termes agrave repreacutesenter

bull Par exemple pour repreacutesenter

des maladies les attributs pourraient

ecirctre la localisation anatomique

(cardiaque reacutenale) la seacuteveacuteriteacute etc

2- Associer agrave chaque attribut une variable

reacutetinienne pour le repreacutesenter

bull Par exemple pour les maladies

Associer lrsquoattribut localisation

anatomique agrave la variable

formepictogramme

bull Repreacutesenter la seacuteveacuteriteacute par la variable

couleur

3- Les relations entre les diffeacuterents termes

repreacutesenteacutes doivent ecirctre expliciteacutees

48

Cartographie de linformation

Famille doutils et contextes applicatifs

1- Famille doutils

Typologies

Aperccedilu

Travaux pratiques

2- Contextes applicatifs

Eleacutements deacutevaluation

Les perspectives de la cartographie seacutemantique

49

Cartographie de linformation- Famille doutils et contextes applicatifs

1- Famille doutils

Typologies

Aperccedilu

TP agrave partir de la seacutelection httpdeliciouscommylk02Stage_Carto

Et encore httpwwwvisualcomplexitycomvc (plus de 500 projets dans le domaine)

50

Cartographie de linformation- Famille doutils et contextes applicatifs

1- Famille doutils typologies

11- Typologie scientifique eacutetablie selon des critegraveres internes au domaine

bull les trois principaux paradigmes technique de visualisation type de donneacutees et type dinteraction (Keim

DA 2002)

bull la nature des donneacutees unidimensionnelles bidimensionnelles tridimensionnelles temporelles

multidimensionnelles hieacuterarchiques reacuteseaux (Shneiderman B 1996)

12- Etat de lart eacutevaluation - benchmarking typologie orienteacutee usages (veille et intelligence eacuteconomique)

Quelques exemples

Inist httpoutilsveilleinistfr

Esiee httpwwwaa-esieecomevent2005AGClaudeAschenbrennerppt

Ecole des Mines httpwwwdemoscienceorgresources

Commercial httpwwwk-praxiscom

Commercial httpwwwinformation-mininginfostate_of_art

Universitaire httpwell-formed-datanetthesis

13- Typologie cartographique

Quelques exemples de bloggers

bull Claude Aschenbrenner httpwwwserialmappercomarchive20070110la-pierre-de-rosette-de-la-

cartographie-de-l-informationhtml avec son mode demploi

bull Kartoo httpwwwmapdreamcom

51

Cartographie de linformation- Famille doutils et contextes applicatifs

1- Famille doutils typologie scientifique

52

Cartographie de linformation- Famille doutils orienteacutes laquo bibliothegraveques raquo

2- Les outils de navigation et de recherche sur Internet (seacutelection de Pierre Nobis)

A- Les navigateurs Nestor Navicrawler

53

Cartographie de linformation- Famille doutils orienteacutes laquo bibliothegraveques raquo

2- Les outils de navigation et de recherche sur Internet (seacutelection de Pierre Nobis)

B- Les outils de visualisation des reacutesultats PageBull ManagedQ

Bbis Les outils de visualisation de reacutesultats dans les actualiteacutes

repreacutesentation carreacutee Marumushi - Google NewsNewsIsFree - The Hive Group Tenbyten -flux RSS des sources drsquoactualiteacutes internationales

repreacutesentation sous forme de graphe

Silobreaker

54

Cartographie de linformation- Famille doutils orienteacutes laquo bibliothegraveques raquo

2- Les outils de navigation et de recherche sur Internet

B-Les outils de visualisation des reacutesultats TouchGraph application Java permettant de cartographier les reacutesultats issus

notamment de Google Amazon PubMed Alexa FaceBook

55

Cartographie de linformation- Famille doutils orienteacutes laquo bibliothegraveques raquo

2- Les outils de navigation et de recherche sur Internet (seacutelection de Pierre Nobis)

C- Les outils de recherche avec ajout de termes associeacutes dans une colonne regroupement theacutematique nuage de laquo tags raquo

D- Meacutetamoteurs avec affichage de clusters sous forme de listes

Carrot2 Clusty-Vivissimo Iboogie Polymeta Turbo10 Webclust

56

Cartographie de linformation- Famille doutils orienteacutes laquo bibliothegraveques raquo

2- Les outils de navigation et de recherche sur Internet (seacutelection de Pierre Nobis)

E- Meacutetamoteurs avec affichage de clusters sous forme graphique

E1- repreacutesentation centreacutee Allplus WebBrain

Allplus est un meacutetamoteur agrave clusteacuterisation graphique qui interroge les bases de Ask Google Yahoo et Livepar le biais de lrsquooutil Polymeta Lrsquointerface cluster graph permet de visualiser les reacutesultats sous une forme graphique

Webbrain permet de visualiser et drsquoaffiner les reacutesultats drsquoune requecircte issus de lrsquoOpen Directory Project

57

Cartographie de linformation- Famille doutils orienteacutes laquo bibliothegraveques raquo

2- Les outils de navigation et de recherche sur Internet (seacutelection de Pierre Nobis)

E- Meacutetamoteurs avec affichage de clusters sous forme graphique

E2- Repreacutesentation circulaire Grokker

E3- Repreacutesentation topographique TooLeNet srsquoappuie sur les technologies de KartOO et sur lrsquoindex de

Yahoo pour effectuer des recherches selon 3 modes moteur annuaire et carte auxquels srsquoajoutent des

options de personnalisation et de classification assez avanceacutees

58

Cartographie de linformation- Famille doutils orienteacutes laquo bibliothegraveques raquo

3- Les Outils graphiques dexploration

Wikimindmap est un outil drsquointerrogation

et de repreacutesentation des informations issues

de Wikipedia sous forme de carte heuristique

Visuwords est un dictionnaire en ligne

qui preacutesente ses reacutesultats sous forme de laquo grappes raquo

Il utilise la base de donneacutees Wordnet

Code couleur pour les diffeacuterentes relations

seacutemantiques hieacuterarchiques entre les termes

ainsi que les synonymes et les antonymes

59

Cartographie de linformation- Famille doutils orienteacutes laquo bibliothegraveques raquo

4- Les outils de creacuteation (carto)graphiqueA- Pour meacutemoire les logiciels de creacuteation de cartes heuristiques et conceptuelles

Cmaptools est un logiciel gratuit (usage eacuteducatif) de creacuteation de cartes conceptuelles

Freemind est un logiciel libre et gratuit qui permet de reacutealiser des cartes heuristiques

Thinkgraph est un logiciel gratuit de dessin 2D orienteacute vers la reacutealisation de cartes conceptuelles

60

Cartographie de linformation- Famille doutils orienteacutes laquo bibliothegraveques raquo

4- Les outils de creacuteation (carto)graphique

B- Les outils drsquoeacutedition de graphes

Guess est un logiciel libre et gratuit deacuteveloppeacute par Eytan Adar qui permet de visualiser des

graphes statiques Options de modification de certains attributs (taille couleur forme

algorithmes de positionnementhellip)

Pajek est un logiciel libre et gratuit (usage non commercial) deacuteveloppeacute par V Batagelj et A

Mrvar qui permet de traiter des donneacutees de reacuteseaux de grande taille Pajek signifie araigneacutee

en slovegravene

C- Les outils en ligne

ManyEye service collaboratif deacuteveloppeacute par IBM gracircce auquel on peut geacuteneacuterer selon un

des modegraveles proposeacutes sa propre visualisation de lrsquoinformation (apregraves avoir teacuteleacuteverseacute ses

propres donneacutees)

IssueCrawler outil de web social mining utilisable agrave distance (chargement des URL)

reacutecupeacuteration graphique

61

Cartographie de linformation- Famille doutils et contextes applicatifs

2- Contextes applicatifs

Eleacutements deacutevaluation

Les perspectives de la cartographie seacutemantique

62

Cartographie de linformation- Famille doutils et contextes applicatifs

2- Contextes applicatifs Eleacutements deacutevaluation

21- Evaluation scientifique

Question de meacutethode Eacutevaluation des Interfaces Utilisateur drsquoInformation Bonnel et Chevalier 2006

Objectif proposer une meacutethodologie deacutevaluation permettant de comparer du point de vue de la

visualisation des reacutesultats agrave une requecircte les outils de recherche Google Vivisimo Ujiko Grokker Kartoo

Vios SmartWeb (prototype)

Evaluation des repreacutesentations graphiques geacuteneacuteraliteacutes (Tricot et Roche 2006)

bull Arborescences simples

habitude des utilisateurs (explorateur de fichiers informatiques) pas de problegravemes avec volume limiteacute

au-delagrave drsquoune certaine quantiteacute drsquoinformation les arborescences deviennent inefficaces

bull Arbres de cocircnes en 3D

posent des problegravemes agrave lrsquoutilisateur qui nrsquoa pas lrsquohabitude des espaces en 3D

effort cognitif plus eacuteleveacute et prise en main plus longue

bull Arbres hyperboliques

problegravemes des eacutetiquettes des eacuteleacutements (occlusion)

effet de zoom impreacutevisible

Lrsquoune des conclusions une seule visualisation ne permet pas de reacutepondre agrave toutes les questions

multiplier les possibiliteacutes de visualisation

63

Cartographie de linformation- Famille doutils et contextes applicatifs

2- Contextes applicatifs Eleacutements deacutevaluation

21- Evaluation scientifique doctorat en cours agrave lrsquoEBSI (Aline Creacutedeville)

bull Contexte visualisation de lrsquoinformation dans le contexte de recherche drsquoinformation

bull Point de vue de la seacutemiologie graphique

o principes les plus couramment utiliseacutes sont la proximiteacute (Grokker) lrsquoenglobage (Kartoo)

et la connectiviteacute (Auquabrowser)

omeacutetaphores visuelles pas toujours adeacutequates au web

bull Reacutesultats

o lrsquoinformation doit ecirctre structureacutee

o apports possible pour lrsquoexploration mais pas pour la recherche

64

Cartographie de linformation- Famille doutils et contextes applicatifs

2- Contextes applicatifs Eleacutements deacutevaluation

22- Evaluation en contexte dusage de recherche dinformations (Ciaccia Ihadjadene Martins 2006)

Objectif analyse de lrsquoinfluence du mode de preacutesentation des informations sur les processus cognitifs mis

en jeu par lrsquoutilisateur dans lrsquoactiviteacute de recherche drsquoinformations sur Internet

Outils eacutevalueacutes Kartoo (pour 18 usagers) et Mapstan (pour 16 usagers)

Principaux reacutesultats

Coucirct cognitif sans pour autant conduire agrave de meilleures performances (comparaison avec une

preacutesentation en liste)

Hypothegravese nouveauteacute de la preacutesentation versus habitude des preacutesentations verbales

Strateacutegie optimiseacutee preacuteciser la requecircte drsquoune recherche agrave but flou et se concentrer sur les informations

relieacutees agrave lrsquoobjectif de la question versus informations non relieacutees

Le sens de la visualisation doit ecirctre clarifieacute les systegravemes doivent faciliter la compreacutehension des

eacuteleacutements visualiseacutes

65

Cartographie de linformation- Famille doutils et contextes applicatifs

2- Contextes applicatifs Les perspectives de la cartographie seacutemantique (C Tricot de la seacutemantique agrave la carte)

Pour reacutesoudre la probleacutematique de la repreacutesentation de lrsquoinformation la visualisation de

lrsquoinformation seule ne suffit pas

La visualisation de lrsquoinformation permet uniquement de preacutesenter des donneacutees en leur

associant une repreacutesentation graphique

La cartographie seacutemantique se veut

Une meacutethode de cartographie reposant sur la seacutemantique dun domaine

Un processus de production de connaissances

donneacutees brutes -gt donneacutees structureacutees -gt donneacutees repreacutesenteacutees -gt donneacutees visualiseacutees

Un formalisme de description type Reacuteseaux seacutemantiques

Un langage de description cartographique

Une architecture multi-agents

66

Cartographie de linformation- Famille doutils et contextes applicatifs

2- Contextes applicatifs Les perspectives de la cartographie seacutemantique (C Tricot de la seacutemantique agrave la carte)

67

Cartographie de linformation- Famille doutils et contextes applicatifs

2- Contextes applicatifs Les perspectives de la cartographie seacutemantique

ldquoUne bonne structure repreacutesentative graphique pour un arbre de donneacutees est celle qui deacuteforme le moins les similitudes originales entre les uniteacutes de donneacutees (similitudes qui sont donneacutes par loutil de classification) ou en dautres termes deux individus (ou classes) qui sont proches lune de lautre le restent aussi possible que peut apregraves projection dans l`espace de visualisation et ceci doit ecirctre eacutevident(et veacuterifiable par une mesure de calcul de divergence) dans lenvironnement de visualisation ldquo Tricot 2006

Page 29: Cartographie de l'information- Composantes des - Urfist de Paris

29

Cartographie de linformation- Composantes des applications cartographiques

1- Composante calculatoire Data Clustering ou partitionnement de donneacutees

Deacutefinition

Meacutethode statistique danalyse des donneacutees qui a pour but de regrouper un ensemble de donneacutees en

diffeacuterents paquets homogegravenes chaque sous-ensemble partage des caracteacuteristiques communes qui

correspondent le plus souvent agrave des critegraveres de proximiteacute que lon deacutefinit en introduisant des mesures

de distance

Principe

Pour obtenir un bon partitionnement il convient de

bull minimiser linertie intra-classe pour obtenir des grappes (cluster en anglais) les plus homogegravenes

possibles

bull maximiser linertie inter-classe afin dobtenir des sous-ensembles bien diffeacuterencieacutes

Composition

Un cluster est composeacute de

bull une liste de mots-cleacutes

bull une liste dassociations internes

bull une liste dassociations externes

bull une eacutetiquette

bull une liste de documents affecteacutes apregraves la classification

30

Cartographie de linformation- Composantes des applications cartographiques

1- Composante calculatoire DataClustering

bull Lassociation la plus forte permet de creacuteer le premier cluster ici laquoa-braquo)

bull Une nouvelle association peut donner lieu agrave un laquoenrichissementraquo de cluster laquoa-eraquo vient

enrichir le cluster laquoa-braquo qui contient deacutejagrave laquoaraquo) ou agrave une creacuteation de nouveau cluster (laquoc-draquo par

exemple)

Deacutefinitions

Web mining Data mining appliqueacute aux donneacutees de navigation sur le web

Objectifs du web mining

1 Optimiser la navigation dans un site web (confort des internautes)

2 Augmenter le nombre de pages consulteacutees et lrsquoimpact des liens et des banniegraveres publicitaires

3 Deacuteceler les centres drsquointeacuterecirct et donc les attentes des internautes visitant le site

Types dAnalyses

Statistique descriptive

bull laquo 70 des internautes ont consulteacute 3 pages ou moins raquo

bull laquo 40 des internautes accegravedent au site sans passer par la page drsquoaccueil raquo

Deacutetection des regravegles drsquoassociation

bull laquo 20 des internautes visitant la page A visitent la page B dans la mecircme session raquo

Segmentation des internautes

bull Selon les sites de provenance les pages drsquoentreacutee le nombre de pages consulteacutees les fichiers teacuteleacutechargeacutes les pages de sortie etc

1- Composante calculatoire Web Mining

Cartographie de linformation- Composantes des applications cartographiques

31

32

Cartographie de linformation- Composantes des applications cartographiques

1- Composante calculatoire Web Social Data Mining

Hypothegravese documentaire

Web structureacute par des laquo localiteacutes theacutematiques raquo deacutefinies par une forte correacutelation entre

contenu des documents et proximiteacute hypertexte dessinant comme un territoire

Probleacutematique de la laquo traccedilabiliteacute raquo du socialbull Le web se preacutesente comme une matrice technique distribueacutee faccedilonneacutee par des usages dont

le reacuteseau garde la meacutemoire bull Le seul fait dutiliser une technologie numeacuterique contribue agrave produire des traces et agrave

grande eacutechelle elles constituent un reacuteservoir immense de donneacutees disponibles

Principes hubs et autoriteacutes (Kleinberg et al)

bull Autoriteacutes ensemble des pages contenant les meilleures sources drsquoinformation pour un

thegraveme donneacute

bull Hubs pages pointant sur les autoriteacutes

bull Le calcul ressemble au calcul drsquoimportance drsquoun article par nombre de citations (les liens

du Web vus comme des recommendations)

Applications

Sujets controverseacutes ougrave le seul lexique nest pas discriminant

33

Cartographie de linformation- Composantes des applications cartographiques

2- Composante visuelle

Eleacutements de seacutemiologie graphique (J Bertin) Theacuteorie de la Gestalt

34

Cartographie de linformation- Composantes des applications cartographiques

2- Composante visuelle Eleacutements de seacutemiologie graphique (J Bertin)

35

Cartographie de linformation- Composantes des applications cartographiques

2- Composante visuelle Eleacutements de seacutemiologie graphique (J Bertin)

Type de dessin Signification

des signes Description Exemple

Graphis

me

Image non-

figurative Panseacutemique

Le systegraveme srsquoouvre agrave toute

signification Tableau drsquoart

Image

figurative Polyseacutemique

Le systegraveme a pour objectif de

deacutefinir un concept ou une ideacutee

mais les interpreacutetations peuvent

diverger

Photographie

aeacuterienne

Graphique Monoseacutemique

Transcriptions de relations entre

des concepts preacutealablement

deacutefinis

Un

organigramme

36

Cartographie de linformation- Composantes des applications cartographiques

2- Composante visuelle Eleacutements de seacutemiologie graphique (J Bertin)

laquo La graphique est un systegraveme de signes [structures visuelles] qui permet de transcrire les

relations de diffeacuterence drsquoordre ou de proportionnaliteacute existant entre des donneacutees qualitatives ou

quantitatives raquo [Bonin 1997]

laquo La carte est une image graphique qui transcrit les relations de proportionnaliteacute ordre et

diffeacuterence par des variations proportionnelles ordonneacutees et diffeacuterentielles raquo

37

Cartographie de linformation- Composantes des applications cartographiques

2- Composante visuelle Eleacutements de seacutemiologie graphique (J Bertin)

38

Cartographie de linformation- Composantes des applications cartographiques

2- Composante visuelle Eleacutements de seacutemiologie graphique (J Bertin)

39

Cartographie de linformation- Composantes des applications cartographiques

2- Composante visuelle Eleacutements de seacutemiologie graphique (J Bertin)

40

Cartographie de linformation- Composantes des applications cartographiques

2- Composante visuelle Eleacutements de seacutemiologie graphique (J Bertin)

41

Cartographie de linformation- Composantes des applications cartographiques

2- Composante visuelle Eleacutements de seacutemiologie graphique (J Bertin)

Variables visuelles (laquo variables reacutetiniennes raquo)

Variation des proprieacuteteacutes graphiques des structures visuelles

42

Cartographie de linformation- Composantes des applications cartographiques

2- Composante visuelle Eleacutements de seacutemiologie graphique (J Bertin)

Variables visuelles

Cartographie de linformation- Composantes des applications cartographiques

2- Composante visuelle Eleacutements de seacutemiologie graphique (J Bertin)

43

44

Cartographie de linformation- Composantes des applications cartographiques

2- Composante visuelle Theacuteorie de la Gestalt (1890)

Principe

Le contexte est tregraves important dans la perception visuelle [Guillaume]

Les structures visuelles ne sont pas indeacutependantes les unes des autres et le contexte est

important pour la signification qui leur est attribueacutee

En graphique

La perception visuelle srsquoattache agrave reconnaicirctre des modegraveles dans un ensemble de structures

visuelles

De cette theacuteorie reacutesultent des lois correspondant agrave des cateacutegories drsquointeractions possibles entre

les structures visuelles

45

Cartographie de linformation- Composantes des applications cartographiques

Lois Effets Illustrations

Preacutegnance Une image est facile agrave comprendre si sa structure est simple et inversement

Proximiteacute Deux composants qui sont proches ont tendance agrave ecirctre perccedilus comme un

seul composant

Similariteacute Les composants similaires sont perccedilus comme srsquoils eacutetaient regroupeacutes

Fermeture Les contours proches sont perccedilus comme unifieacutes

Continuiteacute Des eacuteleacutements voisins sont perccedilus groupeacutes lorsqursquoils possegravedent

potentiellement un trait qui les relie

Symeacutetrie Des eacuteleacutements sont perccedilus comme un eacuteleacutement global lorsqursquoils forment une

symeacutetrie

Trajectoire identique Des eacuteleacutements qui se deacuteplacent avec la mecircme trajectoire semblent groupeacutes

Familiariteacute Des eacuteleacutements sont plus facilement groupables si le groupe est familier ou

significatif

46

Cartographie de linformation- Composantes des applications cartographiques

2- Composante visuelle Theacuteorie de la Gestalt (1890)

47

Cartographie de linformation- Composantes des applications cartographiques

2- Composante visuelle Conception drsquoun langage graphique (JB Lamy)

1- Analyser les informations ou connaissances que lrsquoon souhaite repreacutesenter

Determiner les attributs qui

deacutefinissent les termes agrave repreacutesenter

bull Par exemple pour repreacutesenter

des maladies les attributs pourraient

ecirctre la localisation anatomique

(cardiaque reacutenale) la seacuteveacuteriteacute etc

2- Associer agrave chaque attribut une variable

reacutetinienne pour le repreacutesenter

bull Par exemple pour les maladies

Associer lrsquoattribut localisation

anatomique agrave la variable

formepictogramme

bull Repreacutesenter la seacuteveacuteriteacute par la variable

couleur

3- Les relations entre les diffeacuterents termes

repreacutesenteacutes doivent ecirctre expliciteacutees

48

Cartographie de linformation

Famille doutils et contextes applicatifs

1- Famille doutils

Typologies

Aperccedilu

Travaux pratiques

2- Contextes applicatifs

Eleacutements deacutevaluation

Les perspectives de la cartographie seacutemantique

49

Cartographie de linformation- Famille doutils et contextes applicatifs

1- Famille doutils

Typologies

Aperccedilu

TP agrave partir de la seacutelection httpdeliciouscommylk02Stage_Carto

Et encore httpwwwvisualcomplexitycomvc (plus de 500 projets dans le domaine)

50

Cartographie de linformation- Famille doutils et contextes applicatifs

1- Famille doutils typologies

11- Typologie scientifique eacutetablie selon des critegraveres internes au domaine

bull les trois principaux paradigmes technique de visualisation type de donneacutees et type dinteraction (Keim

DA 2002)

bull la nature des donneacutees unidimensionnelles bidimensionnelles tridimensionnelles temporelles

multidimensionnelles hieacuterarchiques reacuteseaux (Shneiderman B 1996)

12- Etat de lart eacutevaluation - benchmarking typologie orienteacutee usages (veille et intelligence eacuteconomique)

Quelques exemples

Inist httpoutilsveilleinistfr

Esiee httpwwwaa-esieecomevent2005AGClaudeAschenbrennerppt

Ecole des Mines httpwwwdemoscienceorgresources

Commercial httpwwwk-praxiscom

Commercial httpwwwinformation-mininginfostate_of_art

Universitaire httpwell-formed-datanetthesis

13- Typologie cartographique

Quelques exemples de bloggers

bull Claude Aschenbrenner httpwwwserialmappercomarchive20070110la-pierre-de-rosette-de-la-

cartographie-de-l-informationhtml avec son mode demploi

bull Kartoo httpwwwmapdreamcom

51

Cartographie de linformation- Famille doutils et contextes applicatifs

1- Famille doutils typologie scientifique

52

Cartographie de linformation- Famille doutils orienteacutes laquo bibliothegraveques raquo

2- Les outils de navigation et de recherche sur Internet (seacutelection de Pierre Nobis)

A- Les navigateurs Nestor Navicrawler

53

Cartographie de linformation- Famille doutils orienteacutes laquo bibliothegraveques raquo

2- Les outils de navigation et de recherche sur Internet (seacutelection de Pierre Nobis)

B- Les outils de visualisation des reacutesultats PageBull ManagedQ

Bbis Les outils de visualisation de reacutesultats dans les actualiteacutes

repreacutesentation carreacutee Marumushi - Google NewsNewsIsFree - The Hive Group Tenbyten -flux RSS des sources drsquoactualiteacutes internationales

repreacutesentation sous forme de graphe

Silobreaker

54

Cartographie de linformation- Famille doutils orienteacutes laquo bibliothegraveques raquo

2- Les outils de navigation et de recherche sur Internet

B-Les outils de visualisation des reacutesultats TouchGraph application Java permettant de cartographier les reacutesultats issus

notamment de Google Amazon PubMed Alexa FaceBook

55

Cartographie de linformation- Famille doutils orienteacutes laquo bibliothegraveques raquo

2- Les outils de navigation et de recherche sur Internet (seacutelection de Pierre Nobis)

C- Les outils de recherche avec ajout de termes associeacutes dans une colonne regroupement theacutematique nuage de laquo tags raquo

D- Meacutetamoteurs avec affichage de clusters sous forme de listes

Carrot2 Clusty-Vivissimo Iboogie Polymeta Turbo10 Webclust

56

Cartographie de linformation- Famille doutils orienteacutes laquo bibliothegraveques raquo

2- Les outils de navigation et de recherche sur Internet (seacutelection de Pierre Nobis)

E- Meacutetamoteurs avec affichage de clusters sous forme graphique

E1- repreacutesentation centreacutee Allplus WebBrain

Allplus est un meacutetamoteur agrave clusteacuterisation graphique qui interroge les bases de Ask Google Yahoo et Livepar le biais de lrsquooutil Polymeta Lrsquointerface cluster graph permet de visualiser les reacutesultats sous une forme graphique

Webbrain permet de visualiser et drsquoaffiner les reacutesultats drsquoune requecircte issus de lrsquoOpen Directory Project

57

Cartographie de linformation- Famille doutils orienteacutes laquo bibliothegraveques raquo

2- Les outils de navigation et de recherche sur Internet (seacutelection de Pierre Nobis)

E- Meacutetamoteurs avec affichage de clusters sous forme graphique

E2- Repreacutesentation circulaire Grokker

E3- Repreacutesentation topographique TooLeNet srsquoappuie sur les technologies de KartOO et sur lrsquoindex de

Yahoo pour effectuer des recherches selon 3 modes moteur annuaire et carte auxquels srsquoajoutent des

options de personnalisation et de classification assez avanceacutees

58

Cartographie de linformation- Famille doutils orienteacutes laquo bibliothegraveques raquo

3- Les Outils graphiques dexploration

Wikimindmap est un outil drsquointerrogation

et de repreacutesentation des informations issues

de Wikipedia sous forme de carte heuristique

Visuwords est un dictionnaire en ligne

qui preacutesente ses reacutesultats sous forme de laquo grappes raquo

Il utilise la base de donneacutees Wordnet

Code couleur pour les diffeacuterentes relations

seacutemantiques hieacuterarchiques entre les termes

ainsi que les synonymes et les antonymes

59

Cartographie de linformation- Famille doutils orienteacutes laquo bibliothegraveques raquo

4- Les outils de creacuteation (carto)graphiqueA- Pour meacutemoire les logiciels de creacuteation de cartes heuristiques et conceptuelles

Cmaptools est un logiciel gratuit (usage eacuteducatif) de creacuteation de cartes conceptuelles

Freemind est un logiciel libre et gratuit qui permet de reacutealiser des cartes heuristiques

Thinkgraph est un logiciel gratuit de dessin 2D orienteacute vers la reacutealisation de cartes conceptuelles

60

Cartographie de linformation- Famille doutils orienteacutes laquo bibliothegraveques raquo

4- Les outils de creacuteation (carto)graphique

B- Les outils drsquoeacutedition de graphes

Guess est un logiciel libre et gratuit deacuteveloppeacute par Eytan Adar qui permet de visualiser des

graphes statiques Options de modification de certains attributs (taille couleur forme

algorithmes de positionnementhellip)

Pajek est un logiciel libre et gratuit (usage non commercial) deacuteveloppeacute par V Batagelj et A

Mrvar qui permet de traiter des donneacutees de reacuteseaux de grande taille Pajek signifie araigneacutee

en slovegravene

C- Les outils en ligne

ManyEye service collaboratif deacuteveloppeacute par IBM gracircce auquel on peut geacuteneacuterer selon un

des modegraveles proposeacutes sa propre visualisation de lrsquoinformation (apregraves avoir teacuteleacuteverseacute ses

propres donneacutees)

IssueCrawler outil de web social mining utilisable agrave distance (chargement des URL)

reacutecupeacuteration graphique

61

Cartographie de linformation- Famille doutils et contextes applicatifs

2- Contextes applicatifs

Eleacutements deacutevaluation

Les perspectives de la cartographie seacutemantique

62

Cartographie de linformation- Famille doutils et contextes applicatifs

2- Contextes applicatifs Eleacutements deacutevaluation

21- Evaluation scientifique

Question de meacutethode Eacutevaluation des Interfaces Utilisateur drsquoInformation Bonnel et Chevalier 2006

Objectif proposer une meacutethodologie deacutevaluation permettant de comparer du point de vue de la

visualisation des reacutesultats agrave une requecircte les outils de recherche Google Vivisimo Ujiko Grokker Kartoo

Vios SmartWeb (prototype)

Evaluation des repreacutesentations graphiques geacuteneacuteraliteacutes (Tricot et Roche 2006)

bull Arborescences simples

habitude des utilisateurs (explorateur de fichiers informatiques) pas de problegravemes avec volume limiteacute

au-delagrave drsquoune certaine quantiteacute drsquoinformation les arborescences deviennent inefficaces

bull Arbres de cocircnes en 3D

posent des problegravemes agrave lrsquoutilisateur qui nrsquoa pas lrsquohabitude des espaces en 3D

effort cognitif plus eacuteleveacute et prise en main plus longue

bull Arbres hyperboliques

problegravemes des eacutetiquettes des eacuteleacutements (occlusion)

effet de zoom impreacutevisible

Lrsquoune des conclusions une seule visualisation ne permet pas de reacutepondre agrave toutes les questions

multiplier les possibiliteacutes de visualisation

63

Cartographie de linformation- Famille doutils et contextes applicatifs

2- Contextes applicatifs Eleacutements deacutevaluation

21- Evaluation scientifique doctorat en cours agrave lrsquoEBSI (Aline Creacutedeville)

bull Contexte visualisation de lrsquoinformation dans le contexte de recherche drsquoinformation

bull Point de vue de la seacutemiologie graphique

o principes les plus couramment utiliseacutes sont la proximiteacute (Grokker) lrsquoenglobage (Kartoo)

et la connectiviteacute (Auquabrowser)

omeacutetaphores visuelles pas toujours adeacutequates au web

bull Reacutesultats

o lrsquoinformation doit ecirctre structureacutee

o apports possible pour lrsquoexploration mais pas pour la recherche

64

Cartographie de linformation- Famille doutils et contextes applicatifs

2- Contextes applicatifs Eleacutements deacutevaluation

22- Evaluation en contexte dusage de recherche dinformations (Ciaccia Ihadjadene Martins 2006)

Objectif analyse de lrsquoinfluence du mode de preacutesentation des informations sur les processus cognitifs mis

en jeu par lrsquoutilisateur dans lrsquoactiviteacute de recherche drsquoinformations sur Internet

Outils eacutevalueacutes Kartoo (pour 18 usagers) et Mapstan (pour 16 usagers)

Principaux reacutesultats

Coucirct cognitif sans pour autant conduire agrave de meilleures performances (comparaison avec une

preacutesentation en liste)

Hypothegravese nouveauteacute de la preacutesentation versus habitude des preacutesentations verbales

Strateacutegie optimiseacutee preacuteciser la requecircte drsquoune recherche agrave but flou et se concentrer sur les informations

relieacutees agrave lrsquoobjectif de la question versus informations non relieacutees

Le sens de la visualisation doit ecirctre clarifieacute les systegravemes doivent faciliter la compreacutehension des

eacuteleacutements visualiseacutes

65

Cartographie de linformation- Famille doutils et contextes applicatifs

2- Contextes applicatifs Les perspectives de la cartographie seacutemantique (C Tricot de la seacutemantique agrave la carte)

Pour reacutesoudre la probleacutematique de la repreacutesentation de lrsquoinformation la visualisation de

lrsquoinformation seule ne suffit pas

La visualisation de lrsquoinformation permet uniquement de preacutesenter des donneacutees en leur

associant une repreacutesentation graphique

La cartographie seacutemantique se veut

Une meacutethode de cartographie reposant sur la seacutemantique dun domaine

Un processus de production de connaissances

donneacutees brutes -gt donneacutees structureacutees -gt donneacutees repreacutesenteacutees -gt donneacutees visualiseacutees

Un formalisme de description type Reacuteseaux seacutemantiques

Un langage de description cartographique

Une architecture multi-agents

66

Cartographie de linformation- Famille doutils et contextes applicatifs

2- Contextes applicatifs Les perspectives de la cartographie seacutemantique (C Tricot de la seacutemantique agrave la carte)

67

Cartographie de linformation- Famille doutils et contextes applicatifs

2- Contextes applicatifs Les perspectives de la cartographie seacutemantique

ldquoUne bonne structure repreacutesentative graphique pour un arbre de donneacutees est celle qui deacuteforme le moins les similitudes originales entre les uniteacutes de donneacutees (similitudes qui sont donneacutes par loutil de classification) ou en dautres termes deux individus (ou classes) qui sont proches lune de lautre le restent aussi possible que peut apregraves projection dans l`espace de visualisation et ceci doit ecirctre eacutevident(et veacuterifiable par une mesure de calcul de divergence) dans lenvironnement de visualisation ldquo Tricot 2006

Page 30: Cartographie de l'information- Composantes des - Urfist de Paris

30

Cartographie de linformation- Composantes des applications cartographiques

1- Composante calculatoire DataClustering

bull Lassociation la plus forte permet de creacuteer le premier cluster ici laquoa-braquo)

bull Une nouvelle association peut donner lieu agrave un laquoenrichissementraquo de cluster laquoa-eraquo vient

enrichir le cluster laquoa-braquo qui contient deacutejagrave laquoaraquo) ou agrave une creacuteation de nouveau cluster (laquoc-draquo par

exemple)

Deacutefinitions

Web mining Data mining appliqueacute aux donneacutees de navigation sur le web

Objectifs du web mining

1 Optimiser la navigation dans un site web (confort des internautes)

2 Augmenter le nombre de pages consulteacutees et lrsquoimpact des liens et des banniegraveres publicitaires

3 Deacuteceler les centres drsquointeacuterecirct et donc les attentes des internautes visitant le site

Types dAnalyses

Statistique descriptive

bull laquo 70 des internautes ont consulteacute 3 pages ou moins raquo

bull laquo 40 des internautes accegravedent au site sans passer par la page drsquoaccueil raquo

Deacutetection des regravegles drsquoassociation

bull laquo 20 des internautes visitant la page A visitent la page B dans la mecircme session raquo

Segmentation des internautes

bull Selon les sites de provenance les pages drsquoentreacutee le nombre de pages consulteacutees les fichiers teacuteleacutechargeacutes les pages de sortie etc

1- Composante calculatoire Web Mining

Cartographie de linformation- Composantes des applications cartographiques

31

32

Cartographie de linformation- Composantes des applications cartographiques

1- Composante calculatoire Web Social Data Mining

Hypothegravese documentaire

Web structureacute par des laquo localiteacutes theacutematiques raquo deacutefinies par une forte correacutelation entre

contenu des documents et proximiteacute hypertexte dessinant comme un territoire

Probleacutematique de la laquo traccedilabiliteacute raquo du socialbull Le web se preacutesente comme une matrice technique distribueacutee faccedilonneacutee par des usages dont

le reacuteseau garde la meacutemoire bull Le seul fait dutiliser une technologie numeacuterique contribue agrave produire des traces et agrave

grande eacutechelle elles constituent un reacuteservoir immense de donneacutees disponibles

Principes hubs et autoriteacutes (Kleinberg et al)

bull Autoriteacutes ensemble des pages contenant les meilleures sources drsquoinformation pour un

thegraveme donneacute

bull Hubs pages pointant sur les autoriteacutes

bull Le calcul ressemble au calcul drsquoimportance drsquoun article par nombre de citations (les liens

du Web vus comme des recommendations)

Applications

Sujets controverseacutes ougrave le seul lexique nest pas discriminant

33

Cartographie de linformation- Composantes des applications cartographiques

2- Composante visuelle

Eleacutements de seacutemiologie graphique (J Bertin) Theacuteorie de la Gestalt

34

Cartographie de linformation- Composantes des applications cartographiques

2- Composante visuelle Eleacutements de seacutemiologie graphique (J Bertin)

35

Cartographie de linformation- Composantes des applications cartographiques

2- Composante visuelle Eleacutements de seacutemiologie graphique (J Bertin)

Type de dessin Signification

des signes Description Exemple

Graphis

me

Image non-

figurative Panseacutemique

Le systegraveme srsquoouvre agrave toute

signification Tableau drsquoart

Image

figurative Polyseacutemique

Le systegraveme a pour objectif de

deacutefinir un concept ou une ideacutee

mais les interpreacutetations peuvent

diverger

Photographie

aeacuterienne

Graphique Monoseacutemique

Transcriptions de relations entre

des concepts preacutealablement

deacutefinis

Un

organigramme

36

Cartographie de linformation- Composantes des applications cartographiques

2- Composante visuelle Eleacutements de seacutemiologie graphique (J Bertin)

laquo La graphique est un systegraveme de signes [structures visuelles] qui permet de transcrire les

relations de diffeacuterence drsquoordre ou de proportionnaliteacute existant entre des donneacutees qualitatives ou

quantitatives raquo [Bonin 1997]

laquo La carte est une image graphique qui transcrit les relations de proportionnaliteacute ordre et

diffeacuterence par des variations proportionnelles ordonneacutees et diffeacuterentielles raquo

37

Cartographie de linformation- Composantes des applications cartographiques

2- Composante visuelle Eleacutements de seacutemiologie graphique (J Bertin)

38

Cartographie de linformation- Composantes des applications cartographiques

2- Composante visuelle Eleacutements de seacutemiologie graphique (J Bertin)

39

Cartographie de linformation- Composantes des applications cartographiques

2- Composante visuelle Eleacutements de seacutemiologie graphique (J Bertin)

40

Cartographie de linformation- Composantes des applications cartographiques

2- Composante visuelle Eleacutements de seacutemiologie graphique (J Bertin)

41

Cartographie de linformation- Composantes des applications cartographiques

2- Composante visuelle Eleacutements de seacutemiologie graphique (J Bertin)

Variables visuelles (laquo variables reacutetiniennes raquo)

Variation des proprieacuteteacutes graphiques des structures visuelles

42

Cartographie de linformation- Composantes des applications cartographiques

2- Composante visuelle Eleacutements de seacutemiologie graphique (J Bertin)

Variables visuelles

Cartographie de linformation- Composantes des applications cartographiques

2- Composante visuelle Eleacutements de seacutemiologie graphique (J Bertin)

43

44

Cartographie de linformation- Composantes des applications cartographiques

2- Composante visuelle Theacuteorie de la Gestalt (1890)

Principe

Le contexte est tregraves important dans la perception visuelle [Guillaume]

Les structures visuelles ne sont pas indeacutependantes les unes des autres et le contexte est

important pour la signification qui leur est attribueacutee

En graphique

La perception visuelle srsquoattache agrave reconnaicirctre des modegraveles dans un ensemble de structures

visuelles

De cette theacuteorie reacutesultent des lois correspondant agrave des cateacutegories drsquointeractions possibles entre

les structures visuelles

45

Cartographie de linformation- Composantes des applications cartographiques

Lois Effets Illustrations

Preacutegnance Une image est facile agrave comprendre si sa structure est simple et inversement

Proximiteacute Deux composants qui sont proches ont tendance agrave ecirctre perccedilus comme un

seul composant

Similariteacute Les composants similaires sont perccedilus comme srsquoils eacutetaient regroupeacutes

Fermeture Les contours proches sont perccedilus comme unifieacutes

Continuiteacute Des eacuteleacutements voisins sont perccedilus groupeacutes lorsqursquoils possegravedent

potentiellement un trait qui les relie

Symeacutetrie Des eacuteleacutements sont perccedilus comme un eacuteleacutement global lorsqursquoils forment une

symeacutetrie

Trajectoire identique Des eacuteleacutements qui se deacuteplacent avec la mecircme trajectoire semblent groupeacutes

Familiariteacute Des eacuteleacutements sont plus facilement groupables si le groupe est familier ou

significatif

46

Cartographie de linformation- Composantes des applications cartographiques

2- Composante visuelle Theacuteorie de la Gestalt (1890)

47

Cartographie de linformation- Composantes des applications cartographiques

2- Composante visuelle Conception drsquoun langage graphique (JB Lamy)

1- Analyser les informations ou connaissances que lrsquoon souhaite repreacutesenter

Determiner les attributs qui

deacutefinissent les termes agrave repreacutesenter

bull Par exemple pour repreacutesenter

des maladies les attributs pourraient

ecirctre la localisation anatomique

(cardiaque reacutenale) la seacuteveacuteriteacute etc

2- Associer agrave chaque attribut une variable

reacutetinienne pour le repreacutesenter

bull Par exemple pour les maladies

Associer lrsquoattribut localisation

anatomique agrave la variable

formepictogramme

bull Repreacutesenter la seacuteveacuteriteacute par la variable

couleur

3- Les relations entre les diffeacuterents termes

repreacutesenteacutes doivent ecirctre expliciteacutees

48

Cartographie de linformation

Famille doutils et contextes applicatifs

1- Famille doutils

Typologies

Aperccedilu

Travaux pratiques

2- Contextes applicatifs

Eleacutements deacutevaluation

Les perspectives de la cartographie seacutemantique

49

Cartographie de linformation- Famille doutils et contextes applicatifs

1- Famille doutils

Typologies

Aperccedilu

TP agrave partir de la seacutelection httpdeliciouscommylk02Stage_Carto

Et encore httpwwwvisualcomplexitycomvc (plus de 500 projets dans le domaine)

50

Cartographie de linformation- Famille doutils et contextes applicatifs

1- Famille doutils typologies

11- Typologie scientifique eacutetablie selon des critegraveres internes au domaine

bull les trois principaux paradigmes technique de visualisation type de donneacutees et type dinteraction (Keim

DA 2002)

bull la nature des donneacutees unidimensionnelles bidimensionnelles tridimensionnelles temporelles

multidimensionnelles hieacuterarchiques reacuteseaux (Shneiderman B 1996)

12- Etat de lart eacutevaluation - benchmarking typologie orienteacutee usages (veille et intelligence eacuteconomique)

Quelques exemples

Inist httpoutilsveilleinistfr

Esiee httpwwwaa-esieecomevent2005AGClaudeAschenbrennerppt

Ecole des Mines httpwwwdemoscienceorgresources

Commercial httpwwwk-praxiscom

Commercial httpwwwinformation-mininginfostate_of_art

Universitaire httpwell-formed-datanetthesis

13- Typologie cartographique

Quelques exemples de bloggers

bull Claude Aschenbrenner httpwwwserialmappercomarchive20070110la-pierre-de-rosette-de-la-

cartographie-de-l-informationhtml avec son mode demploi

bull Kartoo httpwwwmapdreamcom

51

Cartographie de linformation- Famille doutils et contextes applicatifs

1- Famille doutils typologie scientifique

52

Cartographie de linformation- Famille doutils orienteacutes laquo bibliothegraveques raquo

2- Les outils de navigation et de recherche sur Internet (seacutelection de Pierre Nobis)

A- Les navigateurs Nestor Navicrawler

53

Cartographie de linformation- Famille doutils orienteacutes laquo bibliothegraveques raquo

2- Les outils de navigation et de recherche sur Internet (seacutelection de Pierre Nobis)

B- Les outils de visualisation des reacutesultats PageBull ManagedQ

Bbis Les outils de visualisation de reacutesultats dans les actualiteacutes

repreacutesentation carreacutee Marumushi - Google NewsNewsIsFree - The Hive Group Tenbyten -flux RSS des sources drsquoactualiteacutes internationales

repreacutesentation sous forme de graphe

Silobreaker

54

Cartographie de linformation- Famille doutils orienteacutes laquo bibliothegraveques raquo

2- Les outils de navigation et de recherche sur Internet

B-Les outils de visualisation des reacutesultats TouchGraph application Java permettant de cartographier les reacutesultats issus

notamment de Google Amazon PubMed Alexa FaceBook

55

Cartographie de linformation- Famille doutils orienteacutes laquo bibliothegraveques raquo

2- Les outils de navigation et de recherche sur Internet (seacutelection de Pierre Nobis)

C- Les outils de recherche avec ajout de termes associeacutes dans une colonne regroupement theacutematique nuage de laquo tags raquo

D- Meacutetamoteurs avec affichage de clusters sous forme de listes

Carrot2 Clusty-Vivissimo Iboogie Polymeta Turbo10 Webclust

56

Cartographie de linformation- Famille doutils orienteacutes laquo bibliothegraveques raquo

2- Les outils de navigation et de recherche sur Internet (seacutelection de Pierre Nobis)

E- Meacutetamoteurs avec affichage de clusters sous forme graphique

E1- repreacutesentation centreacutee Allplus WebBrain

Allplus est un meacutetamoteur agrave clusteacuterisation graphique qui interroge les bases de Ask Google Yahoo et Livepar le biais de lrsquooutil Polymeta Lrsquointerface cluster graph permet de visualiser les reacutesultats sous une forme graphique

Webbrain permet de visualiser et drsquoaffiner les reacutesultats drsquoune requecircte issus de lrsquoOpen Directory Project

57

Cartographie de linformation- Famille doutils orienteacutes laquo bibliothegraveques raquo

2- Les outils de navigation et de recherche sur Internet (seacutelection de Pierre Nobis)

E- Meacutetamoteurs avec affichage de clusters sous forme graphique

E2- Repreacutesentation circulaire Grokker

E3- Repreacutesentation topographique TooLeNet srsquoappuie sur les technologies de KartOO et sur lrsquoindex de

Yahoo pour effectuer des recherches selon 3 modes moteur annuaire et carte auxquels srsquoajoutent des

options de personnalisation et de classification assez avanceacutees

58

Cartographie de linformation- Famille doutils orienteacutes laquo bibliothegraveques raquo

3- Les Outils graphiques dexploration

Wikimindmap est un outil drsquointerrogation

et de repreacutesentation des informations issues

de Wikipedia sous forme de carte heuristique

Visuwords est un dictionnaire en ligne

qui preacutesente ses reacutesultats sous forme de laquo grappes raquo

Il utilise la base de donneacutees Wordnet

Code couleur pour les diffeacuterentes relations

seacutemantiques hieacuterarchiques entre les termes

ainsi que les synonymes et les antonymes

59

Cartographie de linformation- Famille doutils orienteacutes laquo bibliothegraveques raquo

4- Les outils de creacuteation (carto)graphiqueA- Pour meacutemoire les logiciels de creacuteation de cartes heuristiques et conceptuelles

Cmaptools est un logiciel gratuit (usage eacuteducatif) de creacuteation de cartes conceptuelles

Freemind est un logiciel libre et gratuit qui permet de reacutealiser des cartes heuristiques

Thinkgraph est un logiciel gratuit de dessin 2D orienteacute vers la reacutealisation de cartes conceptuelles

60

Cartographie de linformation- Famille doutils orienteacutes laquo bibliothegraveques raquo

4- Les outils de creacuteation (carto)graphique

B- Les outils drsquoeacutedition de graphes

Guess est un logiciel libre et gratuit deacuteveloppeacute par Eytan Adar qui permet de visualiser des

graphes statiques Options de modification de certains attributs (taille couleur forme

algorithmes de positionnementhellip)

Pajek est un logiciel libre et gratuit (usage non commercial) deacuteveloppeacute par V Batagelj et A

Mrvar qui permet de traiter des donneacutees de reacuteseaux de grande taille Pajek signifie araigneacutee

en slovegravene

C- Les outils en ligne

ManyEye service collaboratif deacuteveloppeacute par IBM gracircce auquel on peut geacuteneacuterer selon un

des modegraveles proposeacutes sa propre visualisation de lrsquoinformation (apregraves avoir teacuteleacuteverseacute ses

propres donneacutees)

IssueCrawler outil de web social mining utilisable agrave distance (chargement des URL)

reacutecupeacuteration graphique

61

Cartographie de linformation- Famille doutils et contextes applicatifs

2- Contextes applicatifs

Eleacutements deacutevaluation

Les perspectives de la cartographie seacutemantique

62

Cartographie de linformation- Famille doutils et contextes applicatifs

2- Contextes applicatifs Eleacutements deacutevaluation

21- Evaluation scientifique

Question de meacutethode Eacutevaluation des Interfaces Utilisateur drsquoInformation Bonnel et Chevalier 2006

Objectif proposer une meacutethodologie deacutevaluation permettant de comparer du point de vue de la

visualisation des reacutesultats agrave une requecircte les outils de recherche Google Vivisimo Ujiko Grokker Kartoo

Vios SmartWeb (prototype)

Evaluation des repreacutesentations graphiques geacuteneacuteraliteacutes (Tricot et Roche 2006)

bull Arborescences simples

habitude des utilisateurs (explorateur de fichiers informatiques) pas de problegravemes avec volume limiteacute

au-delagrave drsquoune certaine quantiteacute drsquoinformation les arborescences deviennent inefficaces

bull Arbres de cocircnes en 3D

posent des problegravemes agrave lrsquoutilisateur qui nrsquoa pas lrsquohabitude des espaces en 3D

effort cognitif plus eacuteleveacute et prise en main plus longue

bull Arbres hyperboliques

problegravemes des eacutetiquettes des eacuteleacutements (occlusion)

effet de zoom impreacutevisible

Lrsquoune des conclusions une seule visualisation ne permet pas de reacutepondre agrave toutes les questions

multiplier les possibiliteacutes de visualisation

63

Cartographie de linformation- Famille doutils et contextes applicatifs

2- Contextes applicatifs Eleacutements deacutevaluation

21- Evaluation scientifique doctorat en cours agrave lrsquoEBSI (Aline Creacutedeville)

bull Contexte visualisation de lrsquoinformation dans le contexte de recherche drsquoinformation

bull Point de vue de la seacutemiologie graphique

o principes les plus couramment utiliseacutes sont la proximiteacute (Grokker) lrsquoenglobage (Kartoo)

et la connectiviteacute (Auquabrowser)

omeacutetaphores visuelles pas toujours adeacutequates au web

bull Reacutesultats

o lrsquoinformation doit ecirctre structureacutee

o apports possible pour lrsquoexploration mais pas pour la recherche

64

Cartographie de linformation- Famille doutils et contextes applicatifs

2- Contextes applicatifs Eleacutements deacutevaluation

22- Evaluation en contexte dusage de recherche dinformations (Ciaccia Ihadjadene Martins 2006)

Objectif analyse de lrsquoinfluence du mode de preacutesentation des informations sur les processus cognitifs mis

en jeu par lrsquoutilisateur dans lrsquoactiviteacute de recherche drsquoinformations sur Internet

Outils eacutevalueacutes Kartoo (pour 18 usagers) et Mapstan (pour 16 usagers)

Principaux reacutesultats

Coucirct cognitif sans pour autant conduire agrave de meilleures performances (comparaison avec une

preacutesentation en liste)

Hypothegravese nouveauteacute de la preacutesentation versus habitude des preacutesentations verbales

Strateacutegie optimiseacutee preacuteciser la requecircte drsquoune recherche agrave but flou et se concentrer sur les informations

relieacutees agrave lrsquoobjectif de la question versus informations non relieacutees

Le sens de la visualisation doit ecirctre clarifieacute les systegravemes doivent faciliter la compreacutehension des

eacuteleacutements visualiseacutes

65

Cartographie de linformation- Famille doutils et contextes applicatifs

2- Contextes applicatifs Les perspectives de la cartographie seacutemantique (C Tricot de la seacutemantique agrave la carte)

Pour reacutesoudre la probleacutematique de la repreacutesentation de lrsquoinformation la visualisation de

lrsquoinformation seule ne suffit pas

La visualisation de lrsquoinformation permet uniquement de preacutesenter des donneacutees en leur

associant une repreacutesentation graphique

La cartographie seacutemantique se veut

Une meacutethode de cartographie reposant sur la seacutemantique dun domaine

Un processus de production de connaissances

donneacutees brutes -gt donneacutees structureacutees -gt donneacutees repreacutesenteacutees -gt donneacutees visualiseacutees

Un formalisme de description type Reacuteseaux seacutemantiques

Un langage de description cartographique

Une architecture multi-agents

66

Cartographie de linformation- Famille doutils et contextes applicatifs

2- Contextes applicatifs Les perspectives de la cartographie seacutemantique (C Tricot de la seacutemantique agrave la carte)

67

Cartographie de linformation- Famille doutils et contextes applicatifs

2- Contextes applicatifs Les perspectives de la cartographie seacutemantique

ldquoUne bonne structure repreacutesentative graphique pour un arbre de donneacutees est celle qui deacuteforme le moins les similitudes originales entre les uniteacutes de donneacutees (similitudes qui sont donneacutes par loutil de classification) ou en dautres termes deux individus (ou classes) qui sont proches lune de lautre le restent aussi possible que peut apregraves projection dans l`espace de visualisation et ceci doit ecirctre eacutevident(et veacuterifiable par une mesure de calcul de divergence) dans lenvironnement de visualisation ldquo Tricot 2006

Page 31: Cartographie de l'information- Composantes des - Urfist de Paris

Deacutefinitions

Web mining Data mining appliqueacute aux donneacutees de navigation sur le web

Objectifs du web mining

1 Optimiser la navigation dans un site web (confort des internautes)

2 Augmenter le nombre de pages consulteacutees et lrsquoimpact des liens et des banniegraveres publicitaires

3 Deacuteceler les centres drsquointeacuterecirct et donc les attentes des internautes visitant le site

Types dAnalyses

Statistique descriptive

bull laquo 70 des internautes ont consulteacute 3 pages ou moins raquo

bull laquo 40 des internautes accegravedent au site sans passer par la page drsquoaccueil raquo

Deacutetection des regravegles drsquoassociation

bull laquo 20 des internautes visitant la page A visitent la page B dans la mecircme session raquo

Segmentation des internautes

bull Selon les sites de provenance les pages drsquoentreacutee le nombre de pages consulteacutees les fichiers teacuteleacutechargeacutes les pages de sortie etc

1- Composante calculatoire Web Mining

Cartographie de linformation- Composantes des applications cartographiques

31

32

Cartographie de linformation- Composantes des applications cartographiques

1- Composante calculatoire Web Social Data Mining

Hypothegravese documentaire

Web structureacute par des laquo localiteacutes theacutematiques raquo deacutefinies par une forte correacutelation entre

contenu des documents et proximiteacute hypertexte dessinant comme un territoire

Probleacutematique de la laquo traccedilabiliteacute raquo du socialbull Le web se preacutesente comme une matrice technique distribueacutee faccedilonneacutee par des usages dont

le reacuteseau garde la meacutemoire bull Le seul fait dutiliser une technologie numeacuterique contribue agrave produire des traces et agrave

grande eacutechelle elles constituent un reacuteservoir immense de donneacutees disponibles

Principes hubs et autoriteacutes (Kleinberg et al)

bull Autoriteacutes ensemble des pages contenant les meilleures sources drsquoinformation pour un

thegraveme donneacute

bull Hubs pages pointant sur les autoriteacutes

bull Le calcul ressemble au calcul drsquoimportance drsquoun article par nombre de citations (les liens

du Web vus comme des recommendations)

Applications

Sujets controverseacutes ougrave le seul lexique nest pas discriminant

33

Cartographie de linformation- Composantes des applications cartographiques

2- Composante visuelle

Eleacutements de seacutemiologie graphique (J Bertin) Theacuteorie de la Gestalt

34

Cartographie de linformation- Composantes des applications cartographiques

2- Composante visuelle Eleacutements de seacutemiologie graphique (J Bertin)

35

Cartographie de linformation- Composantes des applications cartographiques

2- Composante visuelle Eleacutements de seacutemiologie graphique (J Bertin)

Type de dessin Signification

des signes Description Exemple

Graphis

me

Image non-

figurative Panseacutemique

Le systegraveme srsquoouvre agrave toute

signification Tableau drsquoart

Image

figurative Polyseacutemique

Le systegraveme a pour objectif de

deacutefinir un concept ou une ideacutee

mais les interpreacutetations peuvent

diverger

Photographie

aeacuterienne

Graphique Monoseacutemique

Transcriptions de relations entre

des concepts preacutealablement

deacutefinis

Un

organigramme

36

Cartographie de linformation- Composantes des applications cartographiques

2- Composante visuelle Eleacutements de seacutemiologie graphique (J Bertin)

laquo La graphique est un systegraveme de signes [structures visuelles] qui permet de transcrire les

relations de diffeacuterence drsquoordre ou de proportionnaliteacute existant entre des donneacutees qualitatives ou

quantitatives raquo [Bonin 1997]

laquo La carte est une image graphique qui transcrit les relations de proportionnaliteacute ordre et

diffeacuterence par des variations proportionnelles ordonneacutees et diffeacuterentielles raquo

37

Cartographie de linformation- Composantes des applications cartographiques

2- Composante visuelle Eleacutements de seacutemiologie graphique (J Bertin)

38

Cartographie de linformation- Composantes des applications cartographiques

2- Composante visuelle Eleacutements de seacutemiologie graphique (J Bertin)

39

Cartographie de linformation- Composantes des applications cartographiques

2- Composante visuelle Eleacutements de seacutemiologie graphique (J Bertin)

40

Cartographie de linformation- Composantes des applications cartographiques

2- Composante visuelle Eleacutements de seacutemiologie graphique (J Bertin)

41

Cartographie de linformation- Composantes des applications cartographiques

2- Composante visuelle Eleacutements de seacutemiologie graphique (J Bertin)

Variables visuelles (laquo variables reacutetiniennes raquo)

Variation des proprieacuteteacutes graphiques des structures visuelles

42

Cartographie de linformation- Composantes des applications cartographiques

2- Composante visuelle Eleacutements de seacutemiologie graphique (J Bertin)

Variables visuelles

Cartographie de linformation- Composantes des applications cartographiques

2- Composante visuelle Eleacutements de seacutemiologie graphique (J Bertin)

43

44

Cartographie de linformation- Composantes des applications cartographiques

2- Composante visuelle Theacuteorie de la Gestalt (1890)

Principe

Le contexte est tregraves important dans la perception visuelle [Guillaume]

Les structures visuelles ne sont pas indeacutependantes les unes des autres et le contexte est

important pour la signification qui leur est attribueacutee

En graphique

La perception visuelle srsquoattache agrave reconnaicirctre des modegraveles dans un ensemble de structures

visuelles

De cette theacuteorie reacutesultent des lois correspondant agrave des cateacutegories drsquointeractions possibles entre

les structures visuelles

45

Cartographie de linformation- Composantes des applications cartographiques

Lois Effets Illustrations

Preacutegnance Une image est facile agrave comprendre si sa structure est simple et inversement

Proximiteacute Deux composants qui sont proches ont tendance agrave ecirctre perccedilus comme un

seul composant

Similariteacute Les composants similaires sont perccedilus comme srsquoils eacutetaient regroupeacutes

Fermeture Les contours proches sont perccedilus comme unifieacutes

Continuiteacute Des eacuteleacutements voisins sont perccedilus groupeacutes lorsqursquoils possegravedent

potentiellement un trait qui les relie

Symeacutetrie Des eacuteleacutements sont perccedilus comme un eacuteleacutement global lorsqursquoils forment une

symeacutetrie

Trajectoire identique Des eacuteleacutements qui se deacuteplacent avec la mecircme trajectoire semblent groupeacutes

Familiariteacute Des eacuteleacutements sont plus facilement groupables si le groupe est familier ou

significatif

46

Cartographie de linformation- Composantes des applications cartographiques

2- Composante visuelle Theacuteorie de la Gestalt (1890)

47

Cartographie de linformation- Composantes des applications cartographiques

2- Composante visuelle Conception drsquoun langage graphique (JB Lamy)

1- Analyser les informations ou connaissances que lrsquoon souhaite repreacutesenter

Determiner les attributs qui

deacutefinissent les termes agrave repreacutesenter

bull Par exemple pour repreacutesenter

des maladies les attributs pourraient

ecirctre la localisation anatomique

(cardiaque reacutenale) la seacuteveacuteriteacute etc

2- Associer agrave chaque attribut une variable

reacutetinienne pour le repreacutesenter

bull Par exemple pour les maladies

Associer lrsquoattribut localisation

anatomique agrave la variable

formepictogramme

bull Repreacutesenter la seacuteveacuteriteacute par la variable

couleur

3- Les relations entre les diffeacuterents termes

repreacutesenteacutes doivent ecirctre expliciteacutees

48

Cartographie de linformation

Famille doutils et contextes applicatifs

1- Famille doutils

Typologies

Aperccedilu

Travaux pratiques

2- Contextes applicatifs

Eleacutements deacutevaluation

Les perspectives de la cartographie seacutemantique

49

Cartographie de linformation- Famille doutils et contextes applicatifs

1- Famille doutils

Typologies

Aperccedilu

TP agrave partir de la seacutelection httpdeliciouscommylk02Stage_Carto

Et encore httpwwwvisualcomplexitycomvc (plus de 500 projets dans le domaine)

50

Cartographie de linformation- Famille doutils et contextes applicatifs

1- Famille doutils typologies

11- Typologie scientifique eacutetablie selon des critegraveres internes au domaine

bull les trois principaux paradigmes technique de visualisation type de donneacutees et type dinteraction (Keim

DA 2002)

bull la nature des donneacutees unidimensionnelles bidimensionnelles tridimensionnelles temporelles

multidimensionnelles hieacuterarchiques reacuteseaux (Shneiderman B 1996)

12- Etat de lart eacutevaluation - benchmarking typologie orienteacutee usages (veille et intelligence eacuteconomique)

Quelques exemples

Inist httpoutilsveilleinistfr

Esiee httpwwwaa-esieecomevent2005AGClaudeAschenbrennerppt

Ecole des Mines httpwwwdemoscienceorgresources

Commercial httpwwwk-praxiscom

Commercial httpwwwinformation-mininginfostate_of_art

Universitaire httpwell-formed-datanetthesis

13- Typologie cartographique

Quelques exemples de bloggers

bull Claude Aschenbrenner httpwwwserialmappercomarchive20070110la-pierre-de-rosette-de-la-

cartographie-de-l-informationhtml avec son mode demploi

bull Kartoo httpwwwmapdreamcom

51

Cartographie de linformation- Famille doutils et contextes applicatifs

1- Famille doutils typologie scientifique

52

Cartographie de linformation- Famille doutils orienteacutes laquo bibliothegraveques raquo

2- Les outils de navigation et de recherche sur Internet (seacutelection de Pierre Nobis)

A- Les navigateurs Nestor Navicrawler

53

Cartographie de linformation- Famille doutils orienteacutes laquo bibliothegraveques raquo

2- Les outils de navigation et de recherche sur Internet (seacutelection de Pierre Nobis)

B- Les outils de visualisation des reacutesultats PageBull ManagedQ

Bbis Les outils de visualisation de reacutesultats dans les actualiteacutes

repreacutesentation carreacutee Marumushi - Google NewsNewsIsFree - The Hive Group Tenbyten -flux RSS des sources drsquoactualiteacutes internationales

repreacutesentation sous forme de graphe

Silobreaker

54

Cartographie de linformation- Famille doutils orienteacutes laquo bibliothegraveques raquo

2- Les outils de navigation et de recherche sur Internet

B-Les outils de visualisation des reacutesultats TouchGraph application Java permettant de cartographier les reacutesultats issus

notamment de Google Amazon PubMed Alexa FaceBook

55

Cartographie de linformation- Famille doutils orienteacutes laquo bibliothegraveques raquo

2- Les outils de navigation et de recherche sur Internet (seacutelection de Pierre Nobis)

C- Les outils de recherche avec ajout de termes associeacutes dans une colonne regroupement theacutematique nuage de laquo tags raquo

D- Meacutetamoteurs avec affichage de clusters sous forme de listes

Carrot2 Clusty-Vivissimo Iboogie Polymeta Turbo10 Webclust

56

Cartographie de linformation- Famille doutils orienteacutes laquo bibliothegraveques raquo

2- Les outils de navigation et de recherche sur Internet (seacutelection de Pierre Nobis)

E- Meacutetamoteurs avec affichage de clusters sous forme graphique

E1- repreacutesentation centreacutee Allplus WebBrain

Allplus est un meacutetamoteur agrave clusteacuterisation graphique qui interroge les bases de Ask Google Yahoo et Livepar le biais de lrsquooutil Polymeta Lrsquointerface cluster graph permet de visualiser les reacutesultats sous une forme graphique

Webbrain permet de visualiser et drsquoaffiner les reacutesultats drsquoune requecircte issus de lrsquoOpen Directory Project

57

Cartographie de linformation- Famille doutils orienteacutes laquo bibliothegraveques raquo

2- Les outils de navigation et de recherche sur Internet (seacutelection de Pierre Nobis)

E- Meacutetamoteurs avec affichage de clusters sous forme graphique

E2- Repreacutesentation circulaire Grokker

E3- Repreacutesentation topographique TooLeNet srsquoappuie sur les technologies de KartOO et sur lrsquoindex de

Yahoo pour effectuer des recherches selon 3 modes moteur annuaire et carte auxquels srsquoajoutent des

options de personnalisation et de classification assez avanceacutees

58

Cartographie de linformation- Famille doutils orienteacutes laquo bibliothegraveques raquo

3- Les Outils graphiques dexploration

Wikimindmap est un outil drsquointerrogation

et de repreacutesentation des informations issues

de Wikipedia sous forme de carte heuristique

Visuwords est un dictionnaire en ligne

qui preacutesente ses reacutesultats sous forme de laquo grappes raquo

Il utilise la base de donneacutees Wordnet

Code couleur pour les diffeacuterentes relations

seacutemantiques hieacuterarchiques entre les termes

ainsi que les synonymes et les antonymes

59

Cartographie de linformation- Famille doutils orienteacutes laquo bibliothegraveques raquo

4- Les outils de creacuteation (carto)graphiqueA- Pour meacutemoire les logiciels de creacuteation de cartes heuristiques et conceptuelles

Cmaptools est un logiciel gratuit (usage eacuteducatif) de creacuteation de cartes conceptuelles

Freemind est un logiciel libre et gratuit qui permet de reacutealiser des cartes heuristiques

Thinkgraph est un logiciel gratuit de dessin 2D orienteacute vers la reacutealisation de cartes conceptuelles

60

Cartographie de linformation- Famille doutils orienteacutes laquo bibliothegraveques raquo

4- Les outils de creacuteation (carto)graphique

B- Les outils drsquoeacutedition de graphes

Guess est un logiciel libre et gratuit deacuteveloppeacute par Eytan Adar qui permet de visualiser des

graphes statiques Options de modification de certains attributs (taille couleur forme

algorithmes de positionnementhellip)

Pajek est un logiciel libre et gratuit (usage non commercial) deacuteveloppeacute par V Batagelj et A

Mrvar qui permet de traiter des donneacutees de reacuteseaux de grande taille Pajek signifie araigneacutee

en slovegravene

C- Les outils en ligne

ManyEye service collaboratif deacuteveloppeacute par IBM gracircce auquel on peut geacuteneacuterer selon un

des modegraveles proposeacutes sa propre visualisation de lrsquoinformation (apregraves avoir teacuteleacuteverseacute ses

propres donneacutees)

IssueCrawler outil de web social mining utilisable agrave distance (chargement des URL)

reacutecupeacuteration graphique

61

Cartographie de linformation- Famille doutils et contextes applicatifs

2- Contextes applicatifs

Eleacutements deacutevaluation

Les perspectives de la cartographie seacutemantique

62

Cartographie de linformation- Famille doutils et contextes applicatifs

2- Contextes applicatifs Eleacutements deacutevaluation

21- Evaluation scientifique

Question de meacutethode Eacutevaluation des Interfaces Utilisateur drsquoInformation Bonnel et Chevalier 2006

Objectif proposer une meacutethodologie deacutevaluation permettant de comparer du point de vue de la

visualisation des reacutesultats agrave une requecircte les outils de recherche Google Vivisimo Ujiko Grokker Kartoo

Vios SmartWeb (prototype)

Evaluation des repreacutesentations graphiques geacuteneacuteraliteacutes (Tricot et Roche 2006)

bull Arborescences simples

habitude des utilisateurs (explorateur de fichiers informatiques) pas de problegravemes avec volume limiteacute

au-delagrave drsquoune certaine quantiteacute drsquoinformation les arborescences deviennent inefficaces

bull Arbres de cocircnes en 3D

posent des problegravemes agrave lrsquoutilisateur qui nrsquoa pas lrsquohabitude des espaces en 3D

effort cognitif plus eacuteleveacute et prise en main plus longue

bull Arbres hyperboliques

problegravemes des eacutetiquettes des eacuteleacutements (occlusion)

effet de zoom impreacutevisible

Lrsquoune des conclusions une seule visualisation ne permet pas de reacutepondre agrave toutes les questions

multiplier les possibiliteacutes de visualisation

63

Cartographie de linformation- Famille doutils et contextes applicatifs

2- Contextes applicatifs Eleacutements deacutevaluation

21- Evaluation scientifique doctorat en cours agrave lrsquoEBSI (Aline Creacutedeville)

bull Contexte visualisation de lrsquoinformation dans le contexte de recherche drsquoinformation

bull Point de vue de la seacutemiologie graphique

o principes les plus couramment utiliseacutes sont la proximiteacute (Grokker) lrsquoenglobage (Kartoo)

et la connectiviteacute (Auquabrowser)

omeacutetaphores visuelles pas toujours adeacutequates au web

bull Reacutesultats

o lrsquoinformation doit ecirctre structureacutee

o apports possible pour lrsquoexploration mais pas pour la recherche

64

Cartographie de linformation- Famille doutils et contextes applicatifs

2- Contextes applicatifs Eleacutements deacutevaluation

22- Evaluation en contexte dusage de recherche dinformations (Ciaccia Ihadjadene Martins 2006)

Objectif analyse de lrsquoinfluence du mode de preacutesentation des informations sur les processus cognitifs mis

en jeu par lrsquoutilisateur dans lrsquoactiviteacute de recherche drsquoinformations sur Internet

Outils eacutevalueacutes Kartoo (pour 18 usagers) et Mapstan (pour 16 usagers)

Principaux reacutesultats

Coucirct cognitif sans pour autant conduire agrave de meilleures performances (comparaison avec une

preacutesentation en liste)

Hypothegravese nouveauteacute de la preacutesentation versus habitude des preacutesentations verbales

Strateacutegie optimiseacutee preacuteciser la requecircte drsquoune recherche agrave but flou et se concentrer sur les informations

relieacutees agrave lrsquoobjectif de la question versus informations non relieacutees

Le sens de la visualisation doit ecirctre clarifieacute les systegravemes doivent faciliter la compreacutehension des

eacuteleacutements visualiseacutes

65

Cartographie de linformation- Famille doutils et contextes applicatifs

2- Contextes applicatifs Les perspectives de la cartographie seacutemantique (C Tricot de la seacutemantique agrave la carte)

Pour reacutesoudre la probleacutematique de la repreacutesentation de lrsquoinformation la visualisation de

lrsquoinformation seule ne suffit pas

La visualisation de lrsquoinformation permet uniquement de preacutesenter des donneacutees en leur

associant une repreacutesentation graphique

La cartographie seacutemantique se veut

Une meacutethode de cartographie reposant sur la seacutemantique dun domaine

Un processus de production de connaissances

donneacutees brutes -gt donneacutees structureacutees -gt donneacutees repreacutesenteacutees -gt donneacutees visualiseacutees

Un formalisme de description type Reacuteseaux seacutemantiques

Un langage de description cartographique

Une architecture multi-agents

66

Cartographie de linformation- Famille doutils et contextes applicatifs

2- Contextes applicatifs Les perspectives de la cartographie seacutemantique (C Tricot de la seacutemantique agrave la carte)

67

Cartographie de linformation- Famille doutils et contextes applicatifs

2- Contextes applicatifs Les perspectives de la cartographie seacutemantique

ldquoUne bonne structure repreacutesentative graphique pour un arbre de donneacutees est celle qui deacuteforme le moins les similitudes originales entre les uniteacutes de donneacutees (similitudes qui sont donneacutes par loutil de classification) ou en dautres termes deux individus (ou classes) qui sont proches lune de lautre le restent aussi possible que peut apregraves projection dans l`espace de visualisation et ceci doit ecirctre eacutevident(et veacuterifiable par une mesure de calcul de divergence) dans lenvironnement de visualisation ldquo Tricot 2006

Page 32: Cartographie de l'information- Composantes des - Urfist de Paris

32

Cartographie de linformation- Composantes des applications cartographiques

1- Composante calculatoire Web Social Data Mining

Hypothegravese documentaire

Web structureacute par des laquo localiteacutes theacutematiques raquo deacutefinies par une forte correacutelation entre

contenu des documents et proximiteacute hypertexte dessinant comme un territoire

Probleacutematique de la laquo traccedilabiliteacute raquo du socialbull Le web se preacutesente comme une matrice technique distribueacutee faccedilonneacutee par des usages dont

le reacuteseau garde la meacutemoire bull Le seul fait dutiliser une technologie numeacuterique contribue agrave produire des traces et agrave

grande eacutechelle elles constituent un reacuteservoir immense de donneacutees disponibles

Principes hubs et autoriteacutes (Kleinberg et al)

bull Autoriteacutes ensemble des pages contenant les meilleures sources drsquoinformation pour un

thegraveme donneacute

bull Hubs pages pointant sur les autoriteacutes

bull Le calcul ressemble au calcul drsquoimportance drsquoun article par nombre de citations (les liens

du Web vus comme des recommendations)

Applications

Sujets controverseacutes ougrave le seul lexique nest pas discriminant

33

Cartographie de linformation- Composantes des applications cartographiques

2- Composante visuelle

Eleacutements de seacutemiologie graphique (J Bertin) Theacuteorie de la Gestalt

34

Cartographie de linformation- Composantes des applications cartographiques

2- Composante visuelle Eleacutements de seacutemiologie graphique (J Bertin)

35

Cartographie de linformation- Composantes des applications cartographiques

2- Composante visuelle Eleacutements de seacutemiologie graphique (J Bertin)

Type de dessin Signification

des signes Description Exemple

Graphis

me

Image non-

figurative Panseacutemique

Le systegraveme srsquoouvre agrave toute

signification Tableau drsquoart

Image

figurative Polyseacutemique

Le systegraveme a pour objectif de

deacutefinir un concept ou une ideacutee

mais les interpreacutetations peuvent

diverger

Photographie

aeacuterienne

Graphique Monoseacutemique

Transcriptions de relations entre

des concepts preacutealablement

deacutefinis

Un

organigramme

36

Cartographie de linformation- Composantes des applications cartographiques

2- Composante visuelle Eleacutements de seacutemiologie graphique (J Bertin)

laquo La graphique est un systegraveme de signes [structures visuelles] qui permet de transcrire les

relations de diffeacuterence drsquoordre ou de proportionnaliteacute existant entre des donneacutees qualitatives ou

quantitatives raquo [Bonin 1997]

laquo La carte est une image graphique qui transcrit les relations de proportionnaliteacute ordre et

diffeacuterence par des variations proportionnelles ordonneacutees et diffeacuterentielles raquo

37

Cartographie de linformation- Composantes des applications cartographiques

2- Composante visuelle Eleacutements de seacutemiologie graphique (J Bertin)

38

Cartographie de linformation- Composantes des applications cartographiques

2- Composante visuelle Eleacutements de seacutemiologie graphique (J Bertin)

39

Cartographie de linformation- Composantes des applications cartographiques

2- Composante visuelle Eleacutements de seacutemiologie graphique (J Bertin)

40

Cartographie de linformation- Composantes des applications cartographiques

2- Composante visuelle Eleacutements de seacutemiologie graphique (J Bertin)

41

Cartographie de linformation- Composantes des applications cartographiques

2- Composante visuelle Eleacutements de seacutemiologie graphique (J Bertin)

Variables visuelles (laquo variables reacutetiniennes raquo)

Variation des proprieacuteteacutes graphiques des structures visuelles

42

Cartographie de linformation- Composantes des applications cartographiques

2- Composante visuelle Eleacutements de seacutemiologie graphique (J Bertin)

Variables visuelles

Cartographie de linformation- Composantes des applications cartographiques

2- Composante visuelle Eleacutements de seacutemiologie graphique (J Bertin)

43

44

Cartographie de linformation- Composantes des applications cartographiques

2- Composante visuelle Theacuteorie de la Gestalt (1890)

Principe

Le contexte est tregraves important dans la perception visuelle [Guillaume]

Les structures visuelles ne sont pas indeacutependantes les unes des autres et le contexte est

important pour la signification qui leur est attribueacutee

En graphique

La perception visuelle srsquoattache agrave reconnaicirctre des modegraveles dans un ensemble de structures

visuelles

De cette theacuteorie reacutesultent des lois correspondant agrave des cateacutegories drsquointeractions possibles entre

les structures visuelles

45

Cartographie de linformation- Composantes des applications cartographiques

Lois Effets Illustrations

Preacutegnance Une image est facile agrave comprendre si sa structure est simple et inversement

Proximiteacute Deux composants qui sont proches ont tendance agrave ecirctre perccedilus comme un

seul composant

Similariteacute Les composants similaires sont perccedilus comme srsquoils eacutetaient regroupeacutes

Fermeture Les contours proches sont perccedilus comme unifieacutes

Continuiteacute Des eacuteleacutements voisins sont perccedilus groupeacutes lorsqursquoils possegravedent

potentiellement un trait qui les relie

Symeacutetrie Des eacuteleacutements sont perccedilus comme un eacuteleacutement global lorsqursquoils forment une

symeacutetrie

Trajectoire identique Des eacuteleacutements qui se deacuteplacent avec la mecircme trajectoire semblent groupeacutes

Familiariteacute Des eacuteleacutements sont plus facilement groupables si le groupe est familier ou

significatif

46

Cartographie de linformation- Composantes des applications cartographiques

2- Composante visuelle Theacuteorie de la Gestalt (1890)

47

Cartographie de linformation- Composantes des applications cartographiques

2- Composante visuelle Conception drsquoun langage graphique (JB Lamy)

1- Analyser les informations ou connaissances que lrsquoon souhaite repreacutesenter

Determiner les attributs qui

deacutefinissent les termes agrave repreacutesenter

bull Par exemple pour repreacutesenter

des maladies les attributs pourraient

ecirctre la localisation anatomique

(cardiaque reacutenale) la seacuteveacuteriteacute etc

2- Associer agrave chaque attribut une variable

reacutetinienne pour le repreacutesenter

bull Par exemple pour les maladies

Associer lrsquoattribut localisation

anatomique agrave la variable

formepictogramme

bull Repreacutesenter la seacuteveacuteriteacute par la variable

couleur

3- Les relations entre les diffeacuterents termes

repreacutesenteacutes doivent ecirctre expliciteacutees

48

Cartographie de linformation

Famille doutils et contextes applicatifs

1- Famille doutils

Typologies

Aperccedilu

Travaux pratiques

2- Contextes applicatifs

Eleacutements deacutevaluation

Les perspectives de la cartographie seacutemantique

49

Cartographie de linformation- Famille doutils et contextes applicatifs

1- Famille doutils

Typologies

Aperccedilu

TP agrave partir de la seacutelection httpdeliciouscommylk02Stage_Carto

Et encore httpwwwvisualcomplexitycomvc (plus de 500 projets dans le domaine)

50

Cartographie de linformation- Famille doutils et contextes applicatifs

1- Famille doutils typologies

11- Typologie scientifique eacutetablie selon des critegraveres internes au domaine

bull les trois principaux paradigmes technique de visualisation type de donneacutees et type dinteraction (Keim

DA 2002)

bull la nature des donneacutees unidimensionnelles bidimensionnelles tridimensionnelles temporelles

multidimensionnelles hieacuterarchiques reacuteseaux (Shneiderman B 1996)

12- Etat de lart eacutevaluation - benchmarking typologie orienteacutee usages (veille et intelligence eacuteconomique)

Quelques exemples

Inist httpoutilsveilleinistfr

Esiee httpwwwaa-esieecomevent2005AGClaudeAschenbrennerppt

Ecole des Mines httpwwwdemoscienceorgresources

Commercial httpwwwk-praxiscom

Commercial httpwwwinformation-mininginfostate_of_art

Universitaire httpwell-formed-datanetthesis

13- Typologie cartographique

Quelques exemples de bloggers

bull Claude Aschenbrenner httpwwwserialmappercomarchive20070110la-pierre-de-rosette-de-la-

cartographie-de-l-informationhtml avec son mode demploi

bull Kartoo httpwwwmapdreamcom

51

Cartographie de linformation- Famille doutils et contextes applicatifs

1- Famille doutils typologie scientifique

52

Cartographie de linformation- Famille doutils orienteacutes laquo bibliothegraveques raquo

2- Les outils de navigation et de recherche sur Internet (seacutelection de Pierre Nobis)

A- Les navigateurs Nestor Navicrawler

53

Cartographie de linformation- Famille doutils orienteacutes laquo bibliothegraveques raquo

2- Les outils de navigation et de recherche sur Internet (seacutelection de Pierre Nobis)

B- Les outils de visualisation des reacutesultats PageBull ManagedQ

Bbis Les outils de visualisation de reacutesultats dans les actualiteacutes

repreacutesentation carreacutee Marumushi - Google NewsNewsIsFree - The Hive Group Tenbyten -flux RSS des sources drsquoactualiteacutes internationales

repreacutesentation sous forme de graphe

Silobreaker

54

Cartographie de linformation- Famille doutils orienteacutes laquo bibliothegraveques raquo

2- Les outils de navigation et de recherche sur Internet

B-Les outils de visualisation des reacutesultats TouchGraph application Java permettant de cartographier les reacutesultats issus

notamment de Google Amazon PubMed Alexa FaceBook

55

Cartographie de linformation- Famille doutils orienteacutes laquo bibliothegraveques raquo

2- Les outils de navigation et de recherche sur Internet (seacutelection de Pierre Nobis)

C- Les outils de recherche avec ajout de termes associeacutes dans une colonne regroupement theacutematique nuage de laquo tags raquo

D- Meacutetamoteurs avec affichage de clusters sous forme de listes

Carrot2 Clusty-Vivissimo Iboogie Polymeta Turbo10 Webclust

56

Cartographie de linformation- Famille doutils orienteacutes laquo bibliothegraveques raquo

2- Les outils de navigation et de recherche sur Internet (seacutelection de Pierre Nobis)

E- Meacutetamoteurs avec affichage de clusters sous forme graphique

E1- repreacutesentation centreacutee Allplus WebBrain

Allplus est un meacutetamoteur agrave clusteacuterisation graphique qui interroge les bases de Ask Google Yahoo et Livepar le biais de lrsquooutil Polymeta Lrsquointerface cluster graph permet de visualiser les reacutesultats sous une forme graphique

Webbrain permet de visualiser et drsquoaffiner les reacutesultats drsquoune requecircte issus de lrsquoOpen Directory Project

57

Cartographie de linformation- Famille doutils orienteacutes laquo bibliothegraveques raquo

2- Les outils de navigation et de recherche sur Internet (seacutelection de Pierre Nobis)

E- Meacutetamoteurs avec affichage de clusters sous forme graphique

E2- Repreacutesentation circulaire Grokker

E3- Repreacutesentation topographique TooLeNet srsquoappuie sur les technologies de KartOO et sur lrsquoindex de

Yahoo pour effectuer des recherches selon 3 modes moteur annuaire et carte auxquels srsquoajoutent des

options de personnalisation et de classification assez avanceacutees

58

Cartographie de linformation- Famille doutils orienteacutes laquo bibliothegraveques raquo

3- Les Outils graphiques dexploration

Wikimindmap est un outil drsquointerrogation

et de repreacutesentation des informations issues

de Wikipedia sous forme de carte heuristique

Visuwords est un dictionnaire en ligne

qui preacutesente ses reacutesultats sous forme de laquo grappes raquo

Il utilise la base de donneacutees Wordnet

Code couleur pour les diffeacuterentes relations

seacutemantiques hieacuterarchiques entre les termes

ainsi que les synonymes et les antonymes

59

Cartographie de linformation- Famille doutils orienteacutes laquo bibliothegraveques raquo

4- Les outils de creacuteation (carto)graphiqueA- Pour meacutemoire les logiciels de creacuteation de cartes heuristiques et conceptuelles

Cmaptools est un logiciel gratuit (usage eacuteducatif) de creacuteation de cartes conceptuelles

Freemind est un logiciel libre et gratuit qui permet de reacutealiser des cartes heuristiques

Thinkgraph est un logiciel gratuit de dessin 2D orienteacute vers la reacutealisation de cartes conceptuelles

60

Cartographie de linformation- Famille doutils orienteacutes laquo bibliothegraveques raquo

4- Les outils de creacuteation (carto)graphique

B- Les outils drsquoeacutedition de graphes

Guess est un logiciel libre et gratuit deacuteveloppeacute par Eytan Adar qui permet de visualiser des

graphes statiques Options de modification de certains attributs (taille couleur forme

algorithmes de positionnementhellip)

Pajek est un logiciel libre et gratuit (usage non commercial) deacuteveloppeacute par V Batagelj et A

Mrvar qui permet de traiter des donneacutees de reacuteseaux de grande taille Pajek signifie araigneacutee

en slovegravene

C- Les outils en ligne

ManyEye service collaboratif deacuteveloppeacute par IBM gracircce auquel on peut geacuteneacuterer selon un

des modegraveles proposeacutes sa propre visualisation de lrsquoinformation (apregraves avoir teacuteleacuteverseacute ses

propres donneacutees)

IssueCrawler outil de web social mining utilisable agrave distance (chargement des URL)

reacutecupeacuteration graphique

61

Cartographie de linformation- Famille doutils et contextes applicatifs

2- Contextes applicatifs

Eleacutements deacutevaluation

Les perspectives de la cartographie seacutemantique

62

Cartographie de linformation- Famille doutils et contextes applicatifs

2- Contextes applicatifs Eleacutements deacutevaluation

21- Evaluation scientifique

Question de meacutethode Eacutevaluation des Interfaces Utilisateur drsquoInformation Bonnel et Chevalier 2006

Objectif proposer une meacutethodologie deacutevaluation permettant de comparer du point de vue de la

visualisation des reacutesultats agrave une requecircte les outils de recherche Google Vivisimo Ujiko Grokker Kartoo

Vios SmartWeb (prototype)

Evaluation des repreacutesentations graphiques geacuteneacuteraliteacutes (Tricot et Roche 2006)

bull Arborescences simples

habitude des utilisateurs (explorateur de fichiers informatiques) pas de problegravemes avec volume limiteacute

au-delagrave drsquoune certaine quantiteacute drsquoinformation les arborescences deviennent inefficaces

bull Arbres de cocircnes en 3D

posent des problegravemes agrave lrsquoutilisateur qui nrsquoa pas lrsquohabitude des espaces en 3D

effort cognitif plus eacuteleveacute et prise en main plus longue

bull Arbres hyperboliques

problegravemes des eacutetiquettes des eacuteleacutements (occlusion)

effet de zoom impreacutevisible

Lrsquoune des conclusions une seule visualisation ne permet pas de reacutepondre agrave toutes les questions

multiplier les possibiliteacutes de visualisation

63

Cartographie de linformation- Famille doutils et contextes applicatifs

2- Contextes applicatifs Eleacutements deacutevaluation

21- Evaluation scientifique doctorat en cours agrave lrsquoEBSI (Aline Creacutedeville)

bull Contexte visualisation de lrsquoinformation dans le contexte de recherche drsquoinformation

bull Point de vue de la seacutemiologie graphique

o principes les plus couramment utiliseacutes sont la proximiteacute (Grokker) lrsquoenglobage (Kartoo)

et la connectiviteacute (Auquabrowser)

omeacutetaphores visuelles pas toujours adeacutequates au web

bull Reacutesultats

o lrsquoinformation doit ecirctre structureacutee

o apports possible pour lrsquoexploration mais pas pour la recherche

64

Cartographie de linformation- Famille doutils et contextes applicatifs

2- Contextes applicatifs Eleacutements deacutevaluation

22- Evaluation en contexte dusage de recherche dinformations (Ciaccia Ihadjadene Martins 2006)

Objectif analyse de lrsquoinfluence du mode de preacutesentation des informations sur les processus cognitifs mis

en jeu par lrsquoutilisateur dans lrsquoactiviteacute de recherche drsquoinformations sur Internet

Outils eacutevalueacutes Kartoo (pour 18 usagers) et Mapstan (pour 16 usagers)

Principaux reacutesultats

Coucirct cognitif sans pour autant conduire agrave de meilleures performances (comparaison avec une

preacutesentation en liste)

Hypothegravese nouveauteacute de la preacutesentation versus habitude des preacutesentations verbales

Strateacutegie optimiseacutee preacuteciser la requecircte drsquoune recherche agrave but flou et se concentrer sur les informations

relieacutees agrave lrsquoobjectif de la question versus informations non relieacutees

Le sens de la visualisation doit ecirctre clarifieacute les systegravemes doivent faciliter la compreacutehension des

eacuteleacutements visualiseacutes

65

Cartographie de linformation- Famille doutils et contextes applicatifs

2- Contextes applicatifs Les perspectives de la cartographie seacutemantique (C Tricot de la seacutemantique agrave la carte)

Pour reacutesoudre la probleacutematique de la repreacutesentation de lrsquoinformation la visualisation de

lrsquoinformation seule ne suffit pas

La visualisation de lrsquoinformation permet uniquement de preacutesenter des donneacutees en leur

associant une repreacutesentation graphique

La cartographie seacutemantique se veut

Une meacutethode de cartographie reposant sur la seacutemantique dun domaine

Un processus de production de connaissances

donneacutees brutes -gt donneacutees structureacutees -gt donneacutees repreacutesenteacutees -gt donneacutees visualiseacutees

Un formalisme de description type Reacuteseaux seacutemantiques

Un langage de description cartographique

Une architecture multi-agents

66

Cartographie de linformation- Famille doutils et contextes applicatifs

2- Contextes applicatifs Les perspectives de la cartographie seacutemantique (C Tricot de la seacutemantique agrave la carte)

67

Cartographie de linformation- Famille doutils et contextes applicatifs

2- Contextes applicatifs Les perspectives de la cartographie seacutemantique

ldquoUne bonne structure repreacutesentative graphique pour un arbre de donneacutees est celle qui deacuteforme le moins les similitudes originales entre les uniteacutes de donneacutees (similitudes qui sont donneacutes par loutil de classification) ou en dautres termes deux individus (ou classes) qui sont proches lune de lautre le restent aussi possible que peut apregraves projection dans l`espace de visualisation et ceci doit ecirctre eacutevident(et veacuterifiable par une mesure de calcul de divergence) dans lenvironnement de visualisation ldquo Tricot 2006

Page 33: Cartographie de l'information- Composantes des - Urfist de Paris

33

Cartographie de linformation- Composantes des applications cartographiques

2- Composante visuelle

Eleacutements de seacutemiologie graphique (J Bertin) Theacuteorie de la Gestalt

34

Cartographie de linformation- Composantes des applications cartographiques

2- Composante visuelle Eleacutements de seacutemiologie graphique (J Bertin)

35

Cartographie de linformation- Composantes des applications cartographiques

2- Composante visuelle Eleacutements de seacutemiologie graphique (J Bertin)

Type de dessin Signification

des signes Description Exemple

Graphis

me

Image non-

figurative Panseacutemique

Le systegraveme srsquoouvre agrave toute

signification Tableau drsquoart

Image

figurative Polyseacutemique

Le systegraveme a pour objectif de

deacutefinir un concept ou une ideacutee

mais les interpreacutetations peuvent

diverger

Photographie

aeacuterienne

Graphique Monoseacutemique

Transcriptions de relations entre

des concepts preacutealablement

deacutefinis

Un

organigramme

36

Cartographie de linformation- Composantes des applications cartographiques

2- Composante visuelle Eleacutements de seacutemiologie graphique (J Bertin)

laquo La graphique est un systegraveme de signes [structures visuelles] qui permet de transcrire les

relations de diffeacuterence drsquoordre ou de proportionnaliteacute existant entre des donneacutees qualitatives ou

quantitatives raquo [Bonin 1997]

laquo La carte est une image graphique qui transcrit les relations de proportionnaliteacute ordre et

diffeacuterence par des variations proportionnelles ordonneacutees et diffeacuterentielles raquo

37

Cartographie de linformation- Composantes des applications cartographiques

2- Composante visuelle Eleacutements de seacutemiologie graphique (J Bertin)

38

Cartographie de linformation- Composantes des applications cartographiques

2- Composante visuelle Eleacutements de seacutemiologie graphique (J Bertin)

39

Cartographie de linformation- Composantes des applications cartographiques

2- Composante visuelle Eleacutements de seacutemiologie graphique (J Bertin)

40

Cartographie de linformation- Composantes des applications cartographiques

2- Composante visuelle Eleacutements de seacutemiologie graphique (J Bertin)

41

Cartographie de linformation- Composantes des applications cartographiques

2- Composante visuelle Eleacutements de seacutemiologie graphique (J Bertin)

Variables visuelles (laquo variables reacutetiniennes raquo)

Variation des proprieacuteteacutes graphiques des structures visuelles

42

Cartographie de linformation- Composantes des applications cartographiques

2- Composante visuelle Eleacutements de seacutemiologie graphique (J Bertin)

Variables visuelles

Cartographie de linformation- Composantes des applications cartographiques

2- Composante visuelle Eleacutements de seacutemiologie graphique (J Bertin)

43

44

Cartographie de linformation- Composantes des applications cartographiques

2- Composante visuelle Theacuteorie de la Gestalt (1890)

Principe

Le contexte est tregraves important dans la perception visuelle [Guillaume]

Les structures visuelles ne sont pas indeacutependantes les unes des autres et le contexte est

important pour la signification qui leur est attribueacutee

En graphique

La perception visuelle srsquoattache agrave reconnaicirctre des modegraveles dans un ensemble de structures

visuelles

De cette theacuteorie reacutesultent des lois correspondant agrave des cateacutegories drsquointeractions possibles entre

les structures visuelles

45

Cartographie de linformation- Composantes des applications cartographiques

Lois Effets Illustrations

Preacutegnance Une image est facile agrave comprendre si sa structure est simple et inversement

Proximiteacute Deux composants qui sont proches ont tendance agrave ecirctre perccedilus comme un

seul composant

Similariteacute Les composants similaires sont perccedilus comme srsquoils eacutetaient regroupeacutes

Fermeture Les contours proches sont perccedilus comme unifieacutes

Continuiteacute Des eacuteleacutements voisins sont perccedilus groupeacutes lorsqursquoils possegravedent

potentiellement un trait qui les relie

Symeacutetrie Des eacuteleacutements sont perccedilus comme un eacuteleacutement global lorsqursquoils forment une

symeacutetrie

Trajectoire identique Des eacuteleacutements qui se deacuteplacent avec la mecircme trajectoire semblent groupeacutes

Familiariteacute Des eacuteleacutements sont plus facilement groupables si le groupe est familier ou

significatif

46

Cartographie de linformation- Composantes des applications cartographiques

2- Composante visuelle Theacuteorie de la Gestalt (1890)

47

Cartographie de linformation- Composantes des applications cartographiques

2- Composante visuelle Conception drsquoun langage graphique (JB Lamy)

1- Analyser les informations ou connaissances que lrsquoon souhaite repreacutesenter

Determiner les attributs qui

deacutefinissent les termes agrave repreacutesenter

bull Par exemple pour repreacutesenter

des maladies les attributs pourraient

ecirctre la localisation anatomique

(cardiaque reacutenale) la seacuteveacuteriteacute etc

2- Associer agrave chaque attribut une variable

reacutetinienne pour le repreacutesenter

bull Par exemple pour les maladies

Associer lrsquoattribut localisation

anatomique agrave la variable

formepictogramme

bull Repreacutesenter la seacuteveacuteriteacute par la variable

couleur

3- Les relations entre les diffeacuterents termes

repreacutesenteacutes doivent ecirctre expliciteacutees

48

Cartographie de linformation

Famille doutils et contextes applicatifs

1- Famille doutils

Typologies

Aperccedilu

Travaux pratiques

2- Contextes applicatifs

Eleacutements deacutevaluation

Les perspectives de la cartographie seacutemantique

49

Cartographie de linformation- Famille doutils et contextes applicatifs

1- Famille doutils

Typologies

Aperccedilu

TP agrave partir de la seacutelection httpdeliciouscommylk02Stage_Carto

Et encore httpwwwvisualcomplexitycomvc (plus de 500 projets dans le domaine)

50

Cartographie de linformation- Famille doutils et contextes applicatifs

1- Famille doutils typologies

11- Typologie scientifique eacutetablie selon des critegraveres internes au domaine

bull les trois principaux paradigmes technique de visualisation type de donneacutees et type dinteraction (Keim

DA 2002)

bull la nature des donneacutees unidimensionnelles bidimensionnelles tridimensionnelles temporelles

multidimensionnelles hieacuterarchiques reacuteseaux (Shneiderman B 1996)

12- Etat de lart eacutevaluation - benchmarking typologie orienteacutee usages (veille et intelligence eacuteconomique)

Quelques exemples

Inist httpoutilsveilleinistfr

Esiee httpwwwaa-esieecomevent2005AGClaudeAschenbrennerppt

Ecole des Mines httpwwwdemoscienceorgresources

Commercial httpwwwk-praxiscom

Commercial httpwwwinformation-mininginfostate_of_art

Universitaire httpwell-formed-datanetthesis

13- Typologie cartographique

Quelques exemples de bloggers

bull Claude Aschenbrenner httpwwwserialmappercomarchive20070110la-pierre-de-rosette-de-la-

cartographie-de-l-informationhtml avec son mode demploi

bull Kartoo httpwwwmapdreamcom

51

Cartographie de linformation- Famille doutils et contextes applicatifs

1- Famille doutils typologie scientifique

52

Cartographie de linformation- Famille doutils orienteacutes laquo bibliothegraveques raquo

2- Les outils de navigation et de recherche sur Internet (seacutelection de Pierre Nobis)

A- Les navigateurs Nestor Navicrawler

53

Cartographie de linformation- Famille doutils orienteacutes laquo bibliothegraveques raquo

2- Les outils de navigation et de recherche sur Internet (seacutelection de Pierre Nobis)

B- Les outils de visualisation des reacutesultats PageBull ManagedQ

Bbis Les outils de visualisation de reacutesultats dans les actualiteacutes

repreacutesentation carreacutee Marumushi - Google NewsNewsIsFree - The Hive Group Tenbyten -flux RSS des sources drsquoactualiteacutes internationales

repreacutesentation sous forme de graphe

Silobreaker

54

Cartographie de linformation- Famille doutils orienteacutes laquo bibliothegraveques raquo

2- Les outils de navigation et de recherche sur Internet

B-Les outils de visualisation des reacutesultats TouchGraph application Java permettant de cartographier les reacutesultats issus

notamment de Google Amazon PubMed Alexa FaceBook

55

Cartographie de linformation- Famille doutils orienteacutes laquo bibliothegraveques raquo

2- Les outils de navigation et de recherche sur Internet (seacutelection de Pierre Nobis)

C- Les outils de recherche avec ajout de termes associeacutes dans une colonne regroupement theacutematique nuage de laquo tags raquo

D- Meacutetamoteurs avec affichage de clusters sous forme de listes

Carrot2 Clusty-Vivissimo Iboogie Polymeta Turbo10 Webclust

56

Cartographie de linformation- Famille doutils orienteacutes laquo bibliothegraveques raquo

2- Les outils de navigation et de recherche sur Internet (seacutelection de Pierre Nobis)

E- Meacutetamoteurs avec affichage de clusters sous forme graphique

E1- repreacutesentation centreacutee Allplus WebBrain

Allplus est un meacutetamoteur agrave clusteacuterisation graphique qui interroge les bases de Ask Google Yahoo et Livepar le biais de lrsquooutil Polymeta Lrsquointerface cluster graph permet de visualiser les reacutesultats sous une forme graphique

Webbrain permet de visualiser et drsquoaffiner les reacutesultats drsquoune requecircte issus de lrsquoOpen Directory Project

57

Cartographie de linformation- Famille doutils orienteacutes laquo bibliothegraveques raquo

2- Les outils de navigation et de recherche sur Internet (seacutelection de Pierre Nobis)

E- Meacutetamoteurs avec affichage de clusters sous forme graphique

E2- Repreacutesentation circulaire Grokker

E3- Repreacutesentation topographique TooLeNet srsquoappuie sur les technologies de KartOO et sur lrsquoindex de

Yahoo pour effectuer des recherches selon 3 modes moteur annuaire et carte auxquels srsquoajoutent des

options de personnalisation et de classification assez avanceacutees

58

Cartographie de linformation- Famille doutils orienteacutes laquo bibliothegraveques raquo

3- Les Outils graphiques dexploration

Wikimindmap est un outil drsquointerrogation

et de repreacutesentation des informations issues

de Wikipedia sous forme de carte heuristique

Visuwords est un dictionnaire en ligne

qui preacutesente ses reacutesultats sous forme de laquo grappes raquo

Il utilise la base de donneacutees Wordnet

Code couleur pour les diffeacuterentes relations

seacutemantiques hieacuterarchiques entre les termes

ainsi que les synonymes et les antonymes

59

Cartographie de linformation- Famille doutils orienteacutes laquo bibliothegraveques raquo

4- Les outils de creacuteation (carto)graphiqueA- Pour meacutemoire les logiciels de creacuteation de cartes heuristiques et conceptuelles

Cmaptools est un logiciel gratuit (usage eacuteducatif) de creacuteation de cartes conceptuelles

Freemind est un logiciel libre et gratuit qui permet de reacutealiser des cartes heuristiques

Thinkgraph est un logiciel gratuit de dessin 2D orienteacute vers la reacutealisation de cartes conceptuelles

60

Cartographie de linformation- Famille doutils orienteacutes laquo bibliothegraveques raquo

4- Les outils de creacuteation (carto)graphique

B- Les outils drsquoeacutedition de graphes

Guess est un logiciel libre et gratuit deacuteveloppeacute par Eytan Adar qui permet de visualiser des

graphes statiques Options de modification de certains attributs (taille couleur forme

algorithmes de positionnementhellip)

Pajek est un logiciel libre et gratuit (usage non commercial) deacuteveloppeacute par V Batagelj et A

Mrvar qui permet de traiter des donneacutees de reacuteseaux de grande taille Pajek signifie araigneacutee

en slovegravene

C- Les outils en ligne

ManyEye service collaboratif deacuteveloppeacute par IBM gracircce auquel on peut geacuteneacuterer selon un

des modegraveles proposeacutes sa propre visualisation de lrsquoinformation (apregraves avoir teacuteleacuteverseacute ses

propres donneacutees)

IssueCrawler outil de web social mining utilisable agrave distance (chargement des URL)

reacutecupeacuteration graphique

61

Cartographie de linformation- Famille doutils et contextes applicatifs

2- Contextes applicatifs

Eleacutements deacutevaluation

Les perspectives de la cartographie seacutemantique

62

Cartographie de linformation- Famille doutils et contextes applicatifs

2- Contextes applicatifs Eleacutements deacutevaluation

21- Evaluation scientifique

Question de meacutethode Eacutevaluation des Interfaces Utilisateur drsquoInformation Bonnel et Chevalier 2006

Objectif proposer une meacutethodologie deacutevaluation permettant de comparer du point de vue de la

visualisation des reacutesultats agrave une requecircte les outils de recherche Google Vivisimo Ujiko Grokker Kartoo

Vios SmartWeb (prototype)

Evaluation des repreacutesentations graphiques geacuteneacuteraliteacutes (Tricot et Roche 2006)

bull Arborescences simples

habitude des utilisateurs (explorateur de fichiers informatiques) pas de problegravemes avec volume limiteacute

au-delagrave drsquoune certaine quantiteacute drsquoinformation les arborescences deviennent inefficaces

bull Arbres de cocircnes en 3D

posent des problegravemes agrave lrsquoutilisateur qui nrsquoa pas lrsquohabitude des espaces en 3D

effort cognitif plus eacuteleveacute et prise en main plus longue

bull Arbres hyperboliques

problegravemes des eacutetiquettes des eacuteleacutements (occlusion)

effet de zoom impreacutevisible

Lrsquoune des conclusions une seule visualisation ne permet pas de reacutepondre agrave toutes les questions

multiplier les possibiliteacutes de visualisation

63

Cartographie de linformation- Famille doutils et contextes applicatifs

2- Contextes applicatifs Eleacutements deacutevaluation

21- Evaluation scientifique doctorat en cours agrave lrsquoEBSI (Aline Creacutedeville)

bull Contexte visualisation de lrsquoinformation dans le contexte de recherche drsquoinformation

bull Point de vue de la seacutemiologie graphique

o principes les plus couramment utiliseacutes sont la proximiteacute (Grokker) lrsquoenglobage (Kartoo)

et la connectiviteacute (Auquabrowser)

omeacutetaphores visuelles pas toujours adeacutequates au web

bull Reacutesultats

o lrsquoinformation doit ecirctre structureacutee

o apports possible pour lrsquoexploration mais pas pour la recherche

64

Cartographie de linformation- Famille doutils et contextes applicatifs

2- Contextes applicatifs Eleacutements deacutevaluation

22- Evaluation en contexte dusage de recherche dinformations (Ciaccia Ihadjadene Martins 2006)

Objectif analyse de lrsquoinfluence du mode de preacutesentation des informations sur les processus cognitifs mis

en jeu par lrsquoutilisateur dans lrsquoactiviteacute de recherche drsquoinformations sur Internet

Outils eacutevalueacutes Kartoo (pour 18 usagers) et Mapstan (pour 16 usagers)

Principaux reacutesultats

Coucirct cognitif sans pour autant conduire agrave de meilleures performances (comparaison avec une

preacutesentation en liste)

Hypothegravese nouveauteacute de la preacutesentation versus habitude des preacutesentations verbales

Strateacutegie optimiseacutee preacuteciser la requecircte drsquoune recherche agrave but flou et se concentrer sur les informations

relieacutees agrave lrsquoobjectif de la question versus informations non relieacutees

Le sens de la visualisation doit ecirctre clarifieacute les systegravemes doivent faciliter la compreacutehension des

eacuteleacutements visualiseacutes

65

Cartographie de linformation- Famille doutils et contextes applicatifs

2- Contextes applicatifs Les perspectives de la cartographie seacutemantique (C Tricot de la seacutemantique agrave la carte)

Pour reacutesoudre la probleacutematique de la repreacutesentation de lrsquoinformation la visualisation de

lrsquoinformation seule ne suffit pas

La visualisation de lrsquoinformation permet uniquement de preacutesenter des donneacutees en leur

associant une repreacutesentation graphique

La cartographie seacutemantique se veut

Une meacutethode de cartographie reposant sur la seacutemantique dun domaine

Un processus de production de connaissances

donneacutees brutes -gt donneacutees structureacutees -gt donneacutees repreacutesenteacutees -gt donneacutees visualiseacutees

Un formalisme de description type Reacuteseaux seacutemantiques

Un langage de description cartographique

Une architecture multi-agents

66

Cartographie de linformation- Famille doutils et contextes applicatifs

2- Contextes applicatifs Les perspectives de la cartographie seacutemantique (C Tricot de la seacutemantique agrave la carte)

67

Cartographie de linformation- Famille doutils et contextes applicatifs

2- Contextes applicatifs Les perspectives de la cartographie seacutemantique

ldquoUne bonne structure repreacutesentative graphique pour un arbre de donneacutees est celle qui deacuteforme le moins les similitudes originales entre les uniteacutes de donneacutees (similitudes qui sont donneacutes par loutil de classification) ou en dautres termes deux individus (ou classes) qui sont proches lune de lautre le restent aussi possible que peut apregraves projection dans l`espace de visualisation et ceci doit ecirctre eacutevident(et veacuterifiable par une mesure de calcul de divergence) dans lenvironnement de visualisation ldquo Tricot 2006

Page 34: Cartographie de l'information- Composantes des - Urfist de Paris

34

Cartographie de linformation- Composantes des applications cartographiques

2- Composante visuelle Eleacutements de seacutemiologie graphique (J Bertin)

35

Cartographie de linformation- Composantes des applications cartographiques

2- Composante visuelle Eleacutements de seacutemiologie graphique (J Bertin)

Type de dessin Signification

des signes Description Exemple

Graphis

me

Image non-

figurative Panseacutemique

Le systegraveme srsquoouvre agrave toute

signification Tableau drsquoart

Image

figurative Polyseacutemique

Le systegraveme a pour objectif de

deacutefinir un concept ou une ideacutee

mais les interpreacutetations peuvent

diverger

Photographie

aeacuterienne

Graphique Monoseacutemique

Transcriptions de relations entre

des concepts preacutealablement

deacutefinis

Un

organigramme

36

Cartographie de linformation- Composantes des applications cartographiques

2- Composante visuelle Eleacutements de seacutemiologie graphique (J Bertin)

laquo La graphique est un systegraveme de signes [structures visuelles] qui permet de transcrire les

relations de diffeacuterence drsquoordre ou de proportionnaliteacute existant entre des donneacutees qualitatives ou

quantitatives raquo [Bonin 1997]

laquo La carte est une image graphique qui transcrit les relations de proportionnaliteacute ordre et

diffeacuterence par des variations proportionnelles ordonneacutees et diffeacuterentielles raquo

37

Cartographie de linformation- Composantes des applications cartographiques

2- Composante visuelle Eleacutements de seacutemiologie graphique (J Bertin)

38

Cartographie de linformation- Composantes des applications cartographiques

2- Composante visuelle Eleacutements de seacutemiologie graphique (J Bertin)

39

Cartographie de linformation- Composantes des applications cartographiques

2- Composante visuelle Eleacutements de seacutemiologie graphique (J Bertin)

40

Cartographie de linformation- Composantes des applications cartographiques

2- Composante visuelle Eleacutements de seacutemiologie graphique (J Bertin)

41

Cartographie de linformation- Composantes des applications cartographiques

2- Composante visuelle Eleacutements de seacutemiologie graphique (J Bertin)

Variables visuelles (laquo variables reacutetiniennes raquo)

Variation des proprieacuteteacutes graphiques des structures visuelles

42

Cartographie de linformation- Composantes des applications cartographiques

2- Composante visuelle Eleacutements de seacutemiologie graphique (J Bertin)

Variables visuelles

Cartographie de linformation- Composantes des applications cartographiques

2- Composante visuelle Eleacutements de seacutemiologie graphique (J Bertin)

43

44

Cartographie de linformation- Composantes des applications cartographiques

2- Composante visuelle Theacuteorie de la Gestalt (1890)

Principe

Le contexte est tregraves important dans la perception visuelle [Guillaume]

Les structures visuelles ne sont pas indeacutependantes les unes des autres et le contexte est

important pour la signification qui leur est attribueacutee

En graphique

La perception visuelle srsquoattache agrave reconnaicirctre des modegraveles dans un ensemble de structures

visuelles

De cette theacuteorie reacutesultent des lois correspondant agrave des cateacutegories drsquointeractions possibles entre

les structures visuelles

45

Cartographie de linformation- Composantes des applications cartographiques

Lois Effets Illustrations

Preacutegnance Une image est facile agrave comprendre si sa structure est simple et inversement

Proximiteacute Deux composants qui sont proches ont tendance agrave ecirctre perccedilus comme un

seul composant

Similariteacute Les composants similaires sont perccedilus comme srsquoils eacutetaient regroupeacutes

Fermeture Les contours proches sont perccedilus comme unifieacutes

Continuiteacute Des eacuteleacutements voisins sont perccedilus groupeacutes lorsqursquoils possegravedent

potentiellement un trait qui les relie

Symeacutetrie Des eacuteleacutements sont perccedilus comme un eacuteleacutement global lorsqursquoils forment une

symeacutetrie

Trajectoire identique Des eacuteleacutements qui se deacuteplacent avec la mecircme trajectoire semblent groupeacutes

Familiariteacute Des eacuteleacutements sont plus facilement groupables si le groupe est familier ou

significatif

46

Cartographie de linformation- Composantes des applications cartographiques

2- Composante visuelle Theacuteorie de la Gestalt (1890)

47

Cartographie de linformation- Composantes des applications cartographiques

2- Composante visuelle Conception drsquoun langage graphique (JB Lamy)

1- Analyser les informations ou connaissances que lrsquoon souhaite repreacutesenter

Determiner les attributs qui

deacutefinissent les termes agrave repreacutesenter

bull Par exemple pour repreacutesenter

des maladies les attributs pourraient

ecirctre la localisation anatomique

(cardiaque reacutenale) la seacuteveacuteriteacute etc

2- Associer agrave chaque attribut une variable

reacutetinienne pour le repreacutesenter

bull Par exemple pour les maladies

Associer lrsquoattribut localisation

anatomique agrave la variable

formepictogramme

bull Repreacutesenter la seacuteveacuteriteacute par la variable

couleur

3- Les relations entre les diffeacuterents termes

repreacutesenteacutes doivent ecirctre expliciteacutees

48

Cartographie de linformation

Famille doutils et contextes applicatifs

1- Famille doutils

Typologies

Aperccedilu

Travaux pratiques

2- Contextes applicatifs

Eleacutements deacutevaluation

Les perspectives de la cartographie seacutemantique

49

Cartographie de linformation- Famille doutils et contextes applicatifs

1- Famille doutils

Typologies

Aperccedilu

TP agrave partir de la seacutelection httpdeliciouscommylk02Stage_Carto

Et encore httpwwwvisualcomplexitycomvc (plus de 500 projets dans le domaine)

50

Cartographie de linformation- Famille doutils et contextes applicatifs

1- Famille doutils typologies

11- Typologie scientifique eacutetablie selon des critegraveres internes au domaine

bull les trois principaux paradigmes technique de visualisation type de donneacutees et type dinteraction (Keim

DA 2002)

bull la nature des donneacutees unidimensionnelles bidimensionnelles tridimensionnelles temporelles

multidimensionnelles hieacuterarchiques reacuteseaux (Shneiderman B 1996)

12- Etat de lart eacutevaluation - benchmarking typologie orienteacutee usages (veille et intelligence eacuteconomique)

Quelques exemples

Inist httpoutilsveilleinistfr

Esiee httpwwwaa-esieecomevent2005AGClaudeAschenbrennerppt

Ecole des Mines httpwwwdemoscienceorgresources

Commercial httpwwwk-praxiscom

Commercial httpwwwinformation-mininginfostate_of_art

Universitaire httpwell-formed-datanetthesis

13- Typologie cartographique

Quelques exemples de bloggers

bull Claude Aschenbrenner httpwwwserialmappercomarchive20070110la-pierre-de-rosette-de-la-

cartographie-de-l-informationhtml avec son mode demploi

bull Kartoo httpwwwmapdreamcom

51

Cartographie de linformation- Famille doutils et contextes applicatifs

1- Famille doutils typologie scientifique

52

Cartographie de linformation- Famille doutils orienteacutes laquo bibliothegraveques raquo

2- Les outils de navigation et de recherche sur Internet (seacutelection de Pierre Nobis)

A- Les navigateurs Nestor Navicrawler

53

Cartographie de linformation- Famille doutils orienteacutes laquo bibliothegraveques raquo

2- Les outils de navigation et de recherche sur Internet (seacutelection de Pierre Nobis)

B- Les outils de visualisation des reacutesultats PageBull ManagedQ

Bbis Les outils de visualisation de reacutesultats dans les actualiteacutes

repreacutesentation carreacutee Marumushi - Google NewsNewsIsFree - The Hive Group Tenbyten -flux RSS des sources drsquoactualiteacutes internationales

repreacutesentation sous forme de graphe

Silobreaker

54

Cartographie de linformation- Famille doutils orienteacutes laquo bibliothegraveques raquo

2- Les outils de navigation et de recherche sur Internet

B-Les outils de visualisation des reacutesultats TouchGraph application Java permettant de cartographier les reacutesultats issus

notamment de Google Amazon PubMed Alexa FaceBook

55

Cartographie de linformation- Famille doutils orienteacutes laquo bibliothegraveques raquo

2- Les outils de navigation et de recherche sur Internet (seacutelection de Pierre Nobis)

C- Les outils de recherche avec ajout de termes associeacutes dans une colonne regroupement theacutematique nuage de laquo tags raquo

D- Meacutetamoteurs avec affichage de clusters sous forme de listes

Carrot2 Clusty-Vivissimo Iboogie Polymeta Turbo10 Webclust

56

Cartographie de linformation- Famille doutils orienteacutes laquo bibliothegraveques raquo

2- Les outils de navigation et de recherche sur Internet (seacutelection de Pierre Nobis)

E- Meacutetamoteurs avec affichage de clusters sous forme graphique

E1- repreacutesentation centreacutee Allplus WebBrain

Allplus est un meacutetamoteur agrave clusteacuterisation graphique qui interroge les bases de Ask Google Yahoo et Livepar le biais de lrsquooutil Polymeta Lrsquointerface cluster graph permet de visualiser les reacutesultats sous une forme graphique

Webbrain permet de visualiser et drsquoaffiner les reacutesultats drsquoune requecircte issus de lrsquoOpen Directory Project

57

Cartographie de linformation- Famille doutils orienteacutes laquo bibliothegraveques raquo

2- Les outils de navigation et de recherche sur Internet (seacutelection de Pierre Nobis)

E- Meacutetamoteurs avec affichage de clusters sous forme graphique

E2- Repreacutesentation circulaire Grokker

E3- Repreacutesentation topographique TooLeNet srsquoappuie sur les technologies de KartOO et sur lrsquoindex de

Yahoo pour effectuer des recherches selon 3 modes moteur annuaire et carte auxquels srsquoajoutent des

options de personnalisation et de classification assez avanceacutees

58

Cartographie de linformation- Famille doutils orienteacutes laquo bibliothegraveques raquo

3- Les Outils graphiques dexploration

Wikimindmap est un outil drsquointerrogation

et de repreacutesentation des informations issues

de Wikipedia sous forme de carte heuristique

Visuwords est un dictionnaire en ligne

qui preacutesente ses reacutesultats sous forme de laquo grappes raquo

Il utilise la base de donneacutees Wordnet

Code couleur pour les diffeacuterentes relations

seacutemantiques hieacuterarchiques entre les termes

ainsi que les synonymes et les antonymes

59

Cartographie de linformation- Famille doutils orienteacutes laquo bibliothegraveques raquo

4- Les outils de creacuteation (carto)graphiqueA- Pour meacutemoire les logiciels de creacuteation de cartes heuristiques et conceptuelles

Cmaptools est un logiciel gratuit (usage eacuteducatif) de creacuteation de cartes conceptuelles

Freemind est un logiciel libre et gratuit qui permet de reacutealiser des cartes heuristiques

Thinkgraph est un logiciel gratuit de dessin 2D orienteacute vers la reacutealisation de cartes conceptuelles

60

Cartographie de linformation- Famille doutils orienteacutes laquo bibliothegraveques raquo

4- Les outils de creacuteation (carto)graphique

B- Les outils drsquoeacutedition de graphes

Guess est un logiciel libre et gratuit deacuteveloppeacute par Eytan Adar qui permet de visualiser des

graphes statiques Options de modification de certains attributs (taille couleur forme

algorithmes de positionnementhellip)

Pajek est un logiciel libre et gratuit (usage non commercial) deacuteveloppeacute par V Batagelj et A

Mrvar qui permet de traiter des donneacutees de reacuteseaux de grande taille Pajek signifie araigneacutee

en slovegravene

C- Les outils en ligne

ManyEye service collaboratif deacuteveloppeacute par IBM gracircce auquel on peut geacuteneacuterer selon un

des modegraveles proposeacutes sa propre visualisation de lrsquoinformation (apregraves avoir teacuteleacuteverseacute ses

propres donneacutees)

IssueCrawler outil de web social mining utilisable agrave distance (chargement des URL)

reacutecupeacuteration graphique

61

Cartographie de linformation- Famille doutils et contextes applicatifs

2- Contextes applicatifs

Eleacutements deacutevaluation

Les perspectives de la cartographie seacutemantique

62

Cartographie de linformation- Famille doutils et contextes applicatifs

2- Contextes applicatifs Eleacutements deacutevaluation

21- Evaluation scientifique

Question de meacutethode Eacutevaluation des Interfaces Utilisateur drsquoInformation Bonnel et Chevalier 2006

Objectif proposer une meacutethodologie deacutevaluation permettant de comparer du point de vue de la

visualisation des reacutesultats agrave une requecircte les outils de recherche Google Vivisimo Ujiko Grokker Kartoo

Vios SmartWeb (prototype)

Evaluation des repreacutesentations graphiques geacuteneacuteraliteacutes (Tricot et Roche 2006)

bull Arborescences simples

habitude des utilisateurs (explorateur de fichiers informatiques) pas de problegravemes avec volume limiteacute

au-delagrave drsquoune certaine quantiteacute drsquoinformation les arborescences deviennent inefficaces

bull Arbres de cocircnes en 3D

posent des problegravemes agrave lrsquoutilisateur qui nrsquoa pas lrsquohabitude des espaces en 3D

effort cognitif plus eacuteleveacute et prise en main plus longue

bull Arbres hyperboliques

problegravemes des eacutetiquettes des eacuteleacutements (occlusion)

effet de zoom impreacutevisible

Lrsquoune des conclusions une seule visualisation ne permet pas de reacutepondre agrave toutes les questions

multiplier les possibiliteacutes de visualisation

63

Cartographie de linformation- Famille doutils et contextes applicatifs

2- Contextes applicatifs Eleacutements deacutevaluation

21- Evaluation scientifique doctorat en cours agrave lrsquoEBSI (Aline Creacutedeville)

bull Contexte visualisation de lrsquoinformation dans le contexte de recherche drsquoinformation

bull Point de vue de la seacutemiologie graphique

o principes les plus couramment utiliseacutes sont la proximiteacute (Grokker) lrsquoenglobage (Kartoo)

et la connectiviteacute (Auquabrowser)

omeacutetaphores visuelles pas toujours adeacutequates au web

bull Reacutesultats

o lrsquoinformation doit ecirctre structureacutee

o apports possible pour lrsquoexploration mais pas pour la recherche

64

Cartographie de linformation- Famille doutils et contextes applicatifs

2- Contextes applicatifs Eleacutements deacutevaluation

22- Evaluation en contexte dusage de recherche dinformations (Ciaccia Ihadjadene Martins 2006)

Objectif analyse de lrsquoinfluence du mode de preacutesentation des informations sur les processus cognitifs mis

en jeu par lrsquoutilisateur dans lrsquoactiviteacute de recherche drsquoinformations sur Internet

Outils eacutevalueacutes Kartoo (pour 18 usagers) et Mapstan (pour 16 usagers)

Principaux reacutesultats

Coucirct cognitif sans pour autant conduire agrave de meilleures performances (comparaison avec une

preacutesentation en liste)

Hypothegravese nouveauteacute de la preacutesentation versus habitude des preacutesentations verbales

Strateacutegie optimiseacutee preacuteciser la requecircte drsquoune recherche agrave but flou et se concentrer sur les informations

relieacutees agrave lrsquoobjectif de la question versus informations non relieacutees

Le sens de la visualisation doit ecirctre clarifieacute les systegravemes doivent faciliter la compreacutehension des

eacuteleacutements visualiseacutes

65

Cartographie de linformation- Famille doutils et contextes applicatifs

2- Contextes applicatifs Les perspectives de la cartographie seacutemantique (C Tricot de la seacutemantique agrave la carte)

Pour reacutesoudre la probleacutematique de la repreacutesentation de lrsquoinformation la visualisation de

lrsquoinformation seule ne suffit pas

La visualisation de lrsquoinformation permet uniquement de preacutesenter des donneacutees en leur

associant une repreacutesentation graphique

La cartographie seacutemantique se veut

Une meacutethode de cartographie reposant sur la seacutemantique dun domaine

Un processus de production de connaissances

donneacutees brutes -gt donneacutees structureacutees -gt donneacutees repreacutesenteacutees -gt donneacutees visualiseacutees

Un formalisme de description type Reacuteseaux seacutemantiques

Un langage de description cartographique

Une architecture multi-agents

66

Cartographie de linformation- Famille doutils et contextes applicatifs

2- Contextes applicatifs Les perspectives de la cartographie seacutemantique (C Tricot de la seacutemantique agrave la carte)

67

Cartographie de linformation- Famille doutils et contextes applicatifs

2- Contextes applicatifs Les perspectives de la cartographie seacutemantique

ldquoUne bonne structure repreacutesentative graphique pour un arbre de donneacutees est celle qui deacuteforme le moins les similitudes originales entre les uniteacutes de donneacutees (similitudes qui sont donneacutes par loutil de classification) ou en dautres termes deux individus (ou classes) qui sont proches lune de lautre le restent aussi possible que peut apregraves projection dans l`espace de visualisation et ceci doit ecirctre eacutevident(et veacuterifiable par une mesure de calcul de divergence) dans lenvironnement de visualisation ldquo Tricot 2006

Page 35: Cartographie de l'information- Composantes des - Urfist de Paris

35

Cartographie de linformation- Composantes des applications cartographiques

2- Composante visuelle Eleacutements de seacutemiologie graphique (J Bertin)

Type de dessin Signification

des signes Description Exemple

Graphis

me

Image non-

figurative Panseacutemique

Le systegraveme srsquoouvre agrave toute

signification Tableau drsquoart

Image

figurative Polyseacutemique

Le systegraveme a pour objectif de

deacutefinir un concept ou une ideacutee

mais les interpreacutetations peuvent

diverger

Photographie

aeacuterienne

Graphique Monoseacutemique

Transcriptions de relations entre

des concepts preacutealablement

deacutefinis

Un

organigramme

36

Cartographie de linformation- Composantes des applications cartographiques

2- Composante visuelle Eleacutements de seacutemiologie graphique (J Bertin)

laquo La graphique est un systegraveme de signes [structures visuelles] qui permet de transcrire les

relations de diffeacuterence drsquoordre ou de proportionnaliteacute existant entre des donneacutees qualitatives ou

quantitatives raquo [Bonin 1997]

laquo La carte est une image graphique qui transcrit les relations de proportionnaliteacute ordre et

diffeacuterence par des variations proportionnelles ordonneacutees et diffeacuterentielles raquo

37

Cartographie de linformation- Composantes des applications cartographiques

2- Composante visuelle Eleacutements de seacutemiologie graphique (J Bertin)

38

Cartographie de linformation- Composantes des applications cartographiques

2- Composante visuelle Eleacutements de seacutemiologie graphique (J Bertin)

39

Cartographie de linformation- Composantes des applications cartographiques

2- Composante visuelle Eleacutements de seacutemiologie graphique (J Bertin)

40

Cartographie de linformation- Composantes des applications cartographiques

2- Composante visuelle Eleacutements de seacutemiologie graphique (J Bertin)

41

Cartographie de linformation- Composantes des applications cartographiques

2- Composante visuelle Eleacutements de seacutemiologie graphique (J Bertin)

Variables visuelles (laquo variables reacutetiniennes raquo)

Variation des proprieacuteteacutes graphiques des structures visuelles

42

Cartographie de linformation- Composantes des applications cartographiques

2- Composante visuelle Eleacutements de seacutemiologie graphique (J Bertin)

Variables visuelles

Cartographie de linformation- Composantes des applications cartographiques

2- Composante visuelle Eleacutements de seacutemiologie graphique (J Bertin)

43

44

Cartographie de linformation- Composantes des applications cartographiques

2- Composante visuelle Theacuteorie de la Gestalt (1890)

Principe

Le contexte est tregraves important dans la perception visuelle [Guillaume]

Les structures visuelles ne sont pas indeacutependantes les unes des autres et le contexte est

important pour la signification qui leur est attribueacutee

En graphique

La perception visuelle srsquoattache agrave reconnaicirctre des modegraveles dans un ensemble de structures

visuelles

De cette theacuteorie reacutesultent des lois correspondant agrave des cateacutegories drsquointeractions possibles entre

les structures visuelles

45

Cartographie de linformation- Composantes des applications cartographiques

Lois Effets Illustrations

Preacutegnance Une image est facile agrave comprendre si sa structure est simple et inversement

Proximiteacute Deux composants qui sont proches ont tendance agrave ecirctre perccedilus comme un

seul composant

Similariteacute Les composants similaires sont perccedilus comme srsquoils eacutetaient regroupeacutes

Fermeture Les contours proches sont perccedilus comme unifieacutes

Continuiteacute Des eacuteleacutements voisins sont perccedilus groupeacutes lorsqursquoils possegravedent

potentiellement un trait qui les relie

Symeacutetrie Des eacuteleacutements sont perccedilus comme un eacuteleacutement global lorsqursquoils forment une

symeacutetrie

Trajectoire identique Des eacuteleacutements qui se deacuteplacent avec la mecircme trajectoire semblent groupeacutes

Familiariteacute Des eacuteleacutements sont plus facilement groupables si le groupe est familier ou

significatif

46

Cartographie de linformation- Composantes des applications cartographiques

2- Composante visuelle Theacuteorie de la Gestalt (1890)

47

Cartographie de linformation- Composantes des applications cartographiques

2- Composante visuelle Conception drsquoun langage graphique (JB Lamy)

1- Analyser les informations ou connaissances que lrsquoon souhaite repreacutesenter

Determiner les attributs qui

deacutefinissent les termes agrave repreacutesenter

bull Par exemple pour repreacutesenter

des maladies les attributs pourraient

ecirctre la localisation anatomique

(cardiaque reacutenale) la seacuteveacuteriteacute etc

2- Associer agrave chaque attribut une variable

reacutetinienne pour le repreacutesenter

bull Par exemple pour les maladies

Associer lrsquoattribut localisation

anatomique agrave la variable

formepictogramme

bull Repreacutesenter la seacuteveacuteriteacute par la variable

couleur

3- Les relations entre les diffeacuterents termes

repreacutesenteacutes doivent ecirctre expliciteacutees

48

Cartographie de linformation

Famille doutils et contextes applicatifs

1- Famille doutils

Typologies

Aperccedilu

Travaux pratiques

2- Contextes applicatifs

Eleacutements deacutevaluation

Les perspectives de la cartographie seacutemantique

49

Cartographie de linformation- Famille doutils et contextes applicatifs

1- Famille doutils

Typologies

Aperccedilu

TP agrave partir de la seacutelection httpdeliciouscommylk02Stage_Carto

Et encore httpwwwvisualcomplexitycomvc (plus de 500 projets dans le domaine)

50

Cartographie de linformation- Famille doutils et contextes applicatifs

1- Famille doutils typologies

11- Typologie scientifique eacutetablie selon des critegraveres internes au domaine

bull les trois principaux paradigmes technique de visualisation type de donneacutees et type dinteraction (Keim

DA 2002)

bull la nature des donneacutees unidimensionnelles bidimensionnelles tridimensionnelles temporelles

multidimensionnelles hieacuterarchiques reacuteseaux (Shneiderman B 1996)

12- Etat de lart eacutevaluation - benchmarking typologie orienteacutee usages (veille et intelligence eacuteconomique)

Quelques exemples

Inist httpoutilsveilleinistfr

Esiee httpwwwaa-esieecomevent2005AGClaudeAschenbrennerppt

Ecole des Mines httpwwwdemoscienceorgresources

Commercial httpwwwk-praxiscom

Commercial httpwwwinformation-mininginfostate_of_art

Universitaire httpwell-formed-datanetthesis

13- Typologie cartographique

Quelques exemples de bloggers

bull Claude Aschenbrenner httpwwwserialmappercomarchive20070110la-pierre-de-rosette-de-la-

cartographie-de-l-informationhtml avec son mode demploi

bull Kartoo httpwwwmapdreamcom

51

Cartographie de linformation- Famille doutils et contextes applicatifs

1- Famille doutils typologie scientifique

52

Cartographie de linformation- Famille doutils orienteacutes laquo bibliothegraveques raquo

2- Les outils de navigation et de recherche sur Internet (seacutelection de Pierre Nobis)

A- Les navigateurs Nestor Navicrawler

53

Cartographie de linformation- Famille doutils orienteacutes laquo bibliothegraveques raquo

2- Les outils de navigation et de recherche sur Internet (seacutelection de Pierre Nobis)

B- Les outils de visualisation des reacutesultats PageBull ManagedQ

Bbis Les outils de visualisation de reacutesultats dans les actualiteacutes

repreacutesentation carreacutee Marumushi - Google NewsNewsIsFree - The Hive Group Tenbyten -flux RSS des sources drsquoactualiteacutes internationales

repreacutesentation sous forme de graphe

Silobreaker

54

Cartographie de linformation- Famille doutils orienteacutes laquo bibliothegraveques raquo

2- Les outils de navigation et de recherche sur Internet

B-Les outils de visualisation des reacutesultats TouchGraph application Java permettant de cartographier les reacutesultats issus

notamment de Google Amazon PubMed Alexa FaceBook

55

Cartographie de linformation- Famille doutils orienteacutes laquo bibliothegraveques raquo

2- Les outils de navigation et de recherche sur Internet (seacutelection de Pierre Nobis)

C- Les outils de recherche avec ajout de termes associeacutes dans une colonne regroupement theacutematique nuage de laquo tags raquo

D- Meacutetamoteurs avec affichage de clusters sous forme de listes

Carrot2 Clusty-Vivissimo Iboogie Polymeta Turbo10 Webclust

56

Cartographie de linformation- Famille doutils orienteacutes laquo bibliothegraveques raquo

2- Les outils de navigation et de recherche sur Internet (seacutelection de Pierre Nobis)

E- Meacutetamoteurs avec affichage de clusters sous forme graphique

E1- repreacutesentation centreacutee Allplus WebBrain

Allplus est un meacutetamoteur agrave clusteacuterisation graphique qui interroge les bases de Ask Google Yahoo et Livepar le biais de lrsquooutil Polymeta Lrsquointerface cluster graph permet de visualiser les reacutesultats sous une forme graphique

Webbrain permet de visualiser et drsquoaffiner les reacutesultats drsquoune requecircte issus de lrsquoOpen Directory Project

57

Cartographie de linformation- Famille doutils orienteacutes laquo bibliothegraveques raquo

2- Les outils de navigation et de recherche sur Internet (seacutelection de Pierre Nobis)

E- Meacutetamoteurs avec affichage de clusters sous forme graphique

E2- Repreacutesentation circulaire Grokker

E3- Repreacutesentation topographique TooLeNet srsquoappuie sur les technologies de KartOO et sur lrsquoindex de

Yahoo pour effectuer des recherches selon 3 modes moteur annuaire et carte auxquels srsquoajoutent des

options de personnalisation et de classification assez avanceacutees

58

Cartographie de linformation- Famille doutils orienteacutes laquo bibliothegraveques raquo

3- Les Outils graphiques dexploration

Wikimindmap est un outil drsquointerrogation

et de repreacutesentation des informations issues

de Wikipedia sous forme de carte heuristique

Visuwords est un dictionnaire en ligne

qui preacutesente ses reacutesultats sous forme de laquo grappes raquo

Il utilise la base de donneacutees Wordnet

Code couleur pour les diffeacuterentes relations

seacutemantiques hieacuterarchiques entre les termes

ainsi que les synonymes et les antonymes

59

Cartographie de linformation- Famille doutils orienteacutes laquo bibliothegraveques raquo

4- Les outils de creacuteation (carto)graphiqueA- Pour meacutemoire les logiciels de creacuteation de cartes heuristiques et conceptuelles

Cmaptools est un logiciel gratuit (usage eacuteducatif) de creacuteation de cartes conceptuelles

Freemind est un logiciel libre et gratuit qui permet de reacutealiser des cartes heuristiques

Thinkgraph est un logiciel gratuit de dessin 2D orienteacute vers la reacutealisation de cartes conceptuelles

60

Cartographie de linformation- Famille doutils orienteacutes laquo bibliothegraveques raquo

4- Les outils de creacuteation (carto)graphique

B- Les outils drsquoeacutedition de graphes

Guess est un logiciel libre et gratuit deacuteveloppeacute par Eytan Adar qui permet de visualiser des

graphes statiques Options de modification de certains attributs (taille couleur forme

algorithmes de positionnementhellip)

Pajek est un logiciel libre et gratuit (usage non commercial) deacuteveloppeacute par V Batagelj et A

Mrvar qui permet de traiter des donneacutees de reacuteseaux de grande taille Pajek signifie araigneacutee

en slovegravene

C- Les outils en ligne

ManyEye service collaboratif deacuteveloppeacute par IBM gracircce auquel on peut geacuteneacuterer selon un

des modegraveles proposeacutes sa propre visualisation de lrsquoinformation (apregraves avoir teacuteleacuteverseacute ses

propres donneacutees)

IssueCrawler outil de web social mining utilisable agrave distance (chargement des URL)

reacutecupeacuteration graphique

61

Cartographie de linformation- Famille doutils et contextes applicatifs

2- Contextes applicatifs

Eleacutements deacutevaluation

Les perspectives de la cartographie seacutemantique

62

Cartographie de linformation- Famille doutils et contextes applicatifs

2- Contextes applicatifs Eleacutements deacutevaluation

21- Evaluation scientifique

Question de meacutethode Eacutevaluation des Interfaces Utilisateur drsquoInformation Bonnel et Chevalier 2006

Objectif proposer une meacutethodologie deacutevaluation permettant de comparer du point de vue de la

visualisation des reacutesultats agrave une requecircte les outils de recherche Google Vivisimo Ujiko Grokker Kartoo

Vios SmartWeb (prototype)

Evaluation des repreacutesentations graphiques geacuteneacuteraliteacutes (Tricot et Roche 2006)

bull Arborescences simples

habitude des utilisateurs (explorateur de fichiers informatiques) pas de problegravemes avec volume limiteacute

au-delagrave drsquoune certaine quantiteacute drsquoinformation les arborescences deviennent inefficaces

bull Arbres de cocircnes en 3D

posent des problegravemes agrave lrsquoutilisateur qui nrsquoa pas lrsquohabitude des espaces en 3D

effort cognitif plus eacuteleveacute et prise en main plus longue

bull Arbres hyperboliques

problegravemes des eacutetiquettes des eacuteleacutements (occlusion)

effet de zoom impreacutevisible

Lrsquoune des conclusions une seule visualisation ne permet pas de reacutepondre agrave toutes les questions

multiplier les possibiliteacutes de visualisation

63

Cartographie de linformation- Famille doutils et contextes applicatifs

2- Contextes applicatifs Eleacutements deacutevaluation

21- Evaluation scientifique doctorat en cours agrave lrsquoEBSI (Aline Creacutedeville)

bull Contexte visualisation de lrsquoinformation dans le contexte de recherche drsquoinformation

bull Point de vue de la seacutemiologie graphique

o principes les plus couramment utiliseacutes sont la proximiteacute (Grokker) lrsquoenglobage (Kartoo)

et la connectiviteacute (Auquabrowser)

omeacutetaphores visuelles pas toujours adeacutequates au web

bull Reacutesultats

o lrsquoinformation doit ecirctre structureacutee

o apports possible pour lrsquoexploration mais pas pour la recherche

64

Cartographie de linformation- Famille doutils et contextes applicatifs

2- Contextes applicatifs Eleacutements deacutevaluation

22- Evaluation en contexte dusage de recherche dinformations (Ciaccia Ihadjadene Martins 2006)

Objectif analyse de lrsquoinfluence du mode de preacutesentation des informations sur les processus cognitifs mis

en jeu par lrsquoutilisateur dans lrsquoactiviteacute de recherche drsquoinformations sur Internet

Outils eacutevalueacutes Kartoo (pour 18 usagers) et Mapstan (pour 16 usagers)

Principaux reacutesultats

Coucirct cognitif sans pour autant conduire agrave de meilleures performances (comparaison avec une

preacutesentation en liste)

Hypothegravese nouveauteacute de la preacutesentation versus habitude des preacutesentations verbales

Strateacutegie optimiseacutee preacuteciser la requecircte drsquoune recherche agrave but flou et se concentrer sur les informations

relieacutees agrave lrsquoobjectif de la question versus informations non relieacutees

Le sens de la visualisation doit ecirctre clarifieacute les systegravemes doivent faciliter la compreacutehension des

eacuteleacutements visualiseacutes

65

Cartographie de linformation- Famille doutils et contextes applicatifs

2- Contextes applicatifs Les perspectives de la cartographie seacutemantique (C Tricot de la seacutemantique agrave la carte)

Pour reacutesoudre la probleacutematique de la repreacutesentation de lrsquoinformation la visualisation de

lrsquoinformation seule ne suffit pas

La visualisation de lrsquoinformation permet uniquement de preacutesenter des donneacutees en leur

associant une repreacutesentation graphique

La cartographie seacutemantique se veut

Une meacutethode de cartographie reposant sur la seacutemantique dun domaine

Un processus de production de connaissances

donneacutees brutes -gt donneacutees structureacutees -gt donneacutees repreacutesenteacutees -gt donneacutees visualiseacutees

Un formalisme de description type Reacuteseaux seacutemantiques

Un langage de description cartographique

Une architecture multi-agents

66

Cartographie de linformation- Famille doutils et contextes applicatifs

2- Contextes applicatifs Les perspectives de la cartographie seacutemantique (C Tricot de la seacutemantique agrave la carte)

67

Cartographie de linformation- Famille doutils et contextes applicatifs

2- Contextes applicatifs Les perspectives de la cartographie seacutemantique

ldquoUne bonne structure repreacutesentative graphique pour un arbre de donneacutees est celle qui deacuteforme le moins les similitudes originales entre les uniteacutes de donneacutees (similitudes qui sont donneacutes par loutil de classification) ou en dautres termes deux individus (ou classes) qui sont proches lune de lautre le restent aussi possible que peut apregraves projection dans l`espace de visualisation et ceci doit ecirctre eacutevident(et veacuterifiable par une mesure de calcul de divergence) dans lenvironnement de visualisation ldquo Tricot 2006

Page 36: Cartographie de l'information- Composantes des - Urfist de Paris

36

Cartographie de linformation- Composantes des applications cartographiques

2- Composante visuelle Eleacutements de seacutemiologie graphique (J Bertin)

laquo La graphique est un systegraveme de signes [structures visuelles] qui permet de transcrire les

relations de diffeacuterence drsquoordre ou de proportionnaliteacute existant entre des donneacutees qualitatives ou

quantitatives raquo [Bonin 1997]

laquo La carte est une image graphique qui transcrit les relations de proportionnaliteacute ordre et

diffeacuterence par des variations proportionnelles ordonneacutees et diffeacuterentielles raquo

37

Cartographie de linformation- Composantes des applications cartographiques

2- Composante visuelle Eleacutements de seacutemiologie graphique (J Bertin)

38

Cartographie de linformation- Composantes des applications cartographiques

2- Composante visuelle Eleacutements de seacutemiologie graphique (J Bertin)

39

Cartographie de linformation- Composantes des applications cartographiques

2- Composante visuelle Eleacutements de seacutemiologie graphique (J Bertin)

40

Cartographie de linformation- Composantes des applications cartographiques

2- Composante visuelle Eleacutements de seacutemiologie graphique (J Bertin)

41

Cartographie de linformation- Composantes des applications cartographiques

2- Composante visuelle Eleacutements de seacutemiologie graphique (J Bertin)

Variables visuelles (laquo variables reacutetiniennes raquo)

Variation des proprieacuteteacutes graphiques des structures visuelles

42

Cartographie de linformation- Composantes des applications cartographiques

2- Composante visuelle Eleacutements de seacutemiologie graphique (J Bertin)

Variables visuelles

Cartographie de linformation- Composantes des applications cartographiques

2- Composante visuelle Eleacutements de seacutemiologie graphique (J Bertin)

43

44

Cartographie de linformation- Composantes des applications cartographiques

2- Composante visuelle Theacuteorie de la Gestalt (1890)

Principe

Le contexte est tregraves important dans la perception visuelle [Guillaume]

Les structures visuelles ne sont pas indeacutependantes les unes des autres et le contexte est

important pour la signification qui leur est attribueacutee

En graphique

La perception visuelle srsquoattache agrave reconnaicirctre des modegraveles dans un ensemble de structures

visuelles

De cette theacuteorie reacutesultent des lois correspondant agrave des cateacutegories drsquointeractions possibles entre

les structures visuelles

45

Cartographie de linformation- Composantes des applications cartographiques

Lois Effets Illustrations

Preacutegnance Une image est facile agrave comprendre si sa structure est simple et inversement

Proximiteacute Deux composants qui sont proches ont tendance agrave ecirctre perccedilus comme un

seul composant

Similariteacute Les composants similaires sont perccedilus comme srsquoils eacutetaient regroupeacutes

Fermeture Les contours proches sont perccedilus comme unifieacutes

Continuiteacute Des eacuteleacutements voisins sont perccedilus groupeacutes lorsqursquoils possegravedent

potentiellement un trait qui les relie

Symeacutetrie Des eacuteleacutements sont perccedilus comme un eacuteleacutement global lorsqursquoils forment une

symeacutetrie

Trajectoire identique Des eacuteleacutements qui se deacuteplacent avec la mecircme trajectoire semblent groupeacutes

Familiariteacute Des eacuteleacutements sont plus facilement groupables si le groupe est familier ou

significatif

46

Cartographie de linformation- Composantes des applications cartographiques

2- Composante visuelle Theacuteorie de la Gestalt (1890)

47

Cartographie de linformation- Composantes des applications cartographiques

2- Composante visuelle Conception drsquoun langage graphique (JB Lamy)

1- Analyser les informations ou connaissances que lrsquoon souhaite repreacutesenter

Determiner les attributs qui

deacutefinissent les termes agrave repreacutesenter

bull Par exemple pour repreacutesenter

des maladies les attributs pourraient

ecirctre la localisation anatomique

(cardiaque reacutenale) la seacuteveacuteriteacute etc

2- Associer agrave chaque attribut une variable

reacutetinienne pour le repreacutesenter

bull Par exemple pour les maladies

Associer lrsquoattribut localisation

anatomique agrave la variable

formepictogramme

bull Repreacutesenter la seacuteveacuteriteacute par la variable

couleur

3- Les relations entre les diffeacuterents termes

repreacutesenteacutes doivent ecirctre expliciteacutees

48

Cartographie de linformation

Famille doutils et contextes applicatifs

1- Famille doutils

Typologies

Aperccedilu

Travaux pratiques

2- Contextes applicatifs

Eleacutements deacutevaluation

Les perspectives de la cartographie seacutemantique

49

Cartographie de linformation- Famille doutils et contextes applicatifs

1- Famille doutils

Typologies

Aperccedilu

TP agrave partir de la seacutelection httpdeliciouscommylk02Stage_Carto

Et encore httpwwwvisualcomplexitycomvc (plus de 500 projets dans le domaine)

50

Cartographie de linformation- Famille doutils et contextes applicatifs

1- Famille doutils typologies

11- Typologie scientifique eacutetablie selon des critegraveres internes au domaine

bull les trois principaux paradigmes technique de visualisation type de donneacutees et type dinteraction (Keim

DA 2002)

bull la nature des donneacutees unidimensionnelles bidimensionnelles tridimensionnelles temporelles

multidimensionnelles hieacuterarchiques reacuteseaux (Shneiderman B 1996)

12- Etat de lart eacutevaluation - benchmarking typologie orienteacutee usages (veille et intelligence eacuteconomique)

Quelques exemples

Inist httpoutilsveilleinistfr

Esiee httpwwwaa-esieecomevent2005AGClaudeAschenbrennerppt

Ecole des Mines httpwwwdemoscienceorgresources

Commercial httpwwwk-praxiscom

Commercial httpwwwinformation-mininginfostate_of_art

Universitaire httpwell-formed-datanetthesis

13- Typologie cartographique

Quelques exemples de bloggers

bull Claude Aschenbrenner httpwwwserialmappercomarchive20070110la-pierre-de-rosette-de-la-

cartographie-de-l-informationhtml avec son mode demploi

bull Kartoo httpwwwmapdreamcom

51

Cartographie de linformation- Famille doutils et contextes applicatifs

1- Famille doutils typologie scientifique

52

Cartographie de linformation- Famille doutils orienteacutes laquo bibliothegraveques raquo

2- Les outils de navigation et de recherche sur Internet (seacutelection de Pierre Nobis)

A- Les navigateurs Nestor Navicrawler

53

Cartographie de linformation- Famille doutils orienteacutes laquo bibliothegraveques raquo

2- Les outils de navigation et de recherche sur Internet (seacutelection de Pierre Nobis)

B- Les outils de visualisation des reacutesultats PageBull ManagedQ

Bbis Les outils de visualisation de reacutesultats dans les actualiteacutes

repreacutesentation carreacutee Marumushi - Google NewsNewsIsFree - The Hive Group Tenbyten -flux RSS des sources drsquoactualiteacutes internationales

repreacutesentation sous forme de graphe

Silobreaker

54

Cartographie de linformation- Famille doutils orienteacutes laquo bibliothegraveques raquo

2- Les outils de navigation et de recherche sur Internet

B-Les outils de visualisation des reacutesultats TouchGraph application Java permettant de cartographier les reacutesultats issus

notamment de Google Amazon PubMed Alexa FaceBook

55

Cartographie de linformation- Famille doutils orienteacutes laquo bibliothegraveques raquo

2- Les outils de navigation et de recherche sur Internet (seacutelection de Pierre Nobis)

C- Les outils de recherche avec ajout de termes associeacutes dans une colonne regroupement theacutematique nuage de laquo tags raquo

D- Meacutetamoteurs avec affichage de clusters sous forme de listes

Carrot2 Clusty-Vivissimo Iboogie Polymeta Turbo10 Webclust

56

Cartographie de linformation- Famille doutils orienteacutes laquo bibliothegraveques raquo

2- Les outils de navigation et de recherche sur Internet (seacutelection de Pierre Nobis)

E- Meacutetamoteurs avec affichage de clusters sous forme graphique

E1- repreacutesentation centreacutee Allplus WebBrain

Allplus est un meacutetamoteur agrave clusteacuterisation graphique qui interroge les bases de Ask Google Yahoo et Livepar le biais de lrsquooutil Polymeta Lrsquointerface cluster graph permet de visualiser les reacutesultats sous une forme graphique

Webbrain permet de visualiser et drsquoaffiner les reacutesultats drsquoune requecircte issus de lrsquoOpen Directory Project

57

Cartographie de linformation- Famille doutils orienteacutes laquo bibliothegraveques raquo

2- Les outils de navigation et de recherche sur Internet (seacutelection de Pierre Nobis)

E- Meacutetamoteurs avec affichage de clusters sous forme graphique

E2- Repreacutesentation circulaire Grokker

E3- Repreacutesentation topographique TooLeNet srsquoappuie sur les technologies de KartOO et sur lrsquoindex de

Yahoo pour effectuer des recherches selon 3 modes moteur annuaire et carte auxquels srsquoajoutent des

options de personnalisation et de classification assez avanceacutees

58

Cartographie de linformation- Famille doutils orienteacutes laquo bibliothegraveques raquo

3- Les Outils graphiques dexploration

Wikimindmap est un outil drsquointerrogation

et de repreacutesentation des informations issues

de Wikipedia sous forme de carte heuristique

Visuwords est un dictionnaire en ligne

qui preacutesente ses reacutesultats sous forme de laquo grappes raquo

Il utilise la base de donneacutees Wordnet

Code couleur pour les diffeacuterentes relations

seacutemantiques hieacuterarchiques entre les termes

ainsi que les synonymes et les antonymes

59

Cartographie de linformation- Famille doutils orienteacutes laquo bibliothegraveques raquo

4- Les outils de creacuteation (carto)graphiqueA- Pour meacutemoire les logiciels de creacuteation de cartes heuristiques et conceptuelles

Cmaptools est un logiciel gratuit (usage eacuteducatif) de creacuteation de cartes conceptuelles

Freemind est un logiciel libre et gratuit qui permet de reacutealiser des cartes heuristiques

Thinkgraph est un logiciel gratuit de dessin 2D orienteacute vers la reacutealisation de cartes conceptuelles

60

Cartographie de linformation- Famille doutils orienteacutes laquo bibliothegraveques raquo

4- Les outils de creacuteation (carto)graphique

B- Les outils drsquoeacutedition de graphes

Guess est un logiciel libre et gratuit deacuteveloppeacute par Eytan Adar qui permet de visualiser des

graphes statiques Options de modification de certains attributs (taille couleur forme

algorithmes de positionnementhellip)

Pajek est un logiciel libre et gratuit (usage non commercial) deacuteveloppeacute par V Batagelj et A

Mrvar qui permet de traiter des donneacutees de reacuteseaux de grande taille Pajek signifie araigneacutee

en slovegravene

C- Les outils en ligne

ManyEye service collaboratif deacuteveloppeacute par IBM gracircce auquel on peut geacuteneacuterer selon un

des modegraveles proposeacutes sa propre visualisation de lrsquoinformation (apregraves avoir teacuteleacuteverseacute ses

propres donneacutees)

IssueCrawler outil de web social mining utilisable agrave distance (chargement des URL)

reacutecupeacuteration graphique

61

Cartographie de linformation- Famille doutils et contextes applicatifs

2- Contextes applicatifs

Eleacutements deacutevaluation

Les perspectives de la cartographie seacutemantique

62

Cartographie de linformation- Famille doutils et contextes applicatifs

2- Contextes applicatifs Eleacutements deacutevaluation

21- Evaluation scientifique

Question de meacutethode Eacutevaluation des Interfaces Utilisateur drsquoInformation Bonnel et Chevalier 2006

Objectif proposer une meacutethodologie deacutevaluation permettant de comparer du point de vue de la

visualisation des reacutesultats agrave une requecircte les outils de recherche Google Vivisimo Ujiko Grokker Kartoo

Vios SmartWeb (prototype)

Evaluation des repreacutesentations graphiques geacuteneacuteraliteacutes (Tricot et Roche 2006)

bull Arborescences simples

habitude des utilisateurs (explorateur de fichiers informatiques) pas de problegravemes avec volume limiteacute

au-delagrave drsquoune certaine quantiteacute drsquoinformation les arborescences deviennent inefficaces

bull Arbres de cocircnes en 3D

posent des problegravemes agrave lrsquoutilisateur qui nrsquoa pas lrsquohabitude des espaces en 3D

effort cognitif plus eacuteleveacute et prise en main plus longue

bull Arbres hyperboliques

problegravemes des eacutetiquettes des eacuteleacutements (occlusion)

effet de zoom impreacutevisible

Lrsquoune des conclusions une seule visualisation ne permet pas de reacutepondre agrave toutes les questions

multiplier les possibiliteacutes de visualisation

63

Cartographie de linformation- Famille doutils et contextes applicatifs

2- Contextes applicatifs Eleacutements deacutevaluation

21- Evaluation scientifique doctorat en cours agrave lrsquoEBSI (Aline Creacutedeville)

bull Contexte visualisation de lrsquoinformation dans le contexte de recherche drsquoinformation

bull Point de vue de la seacutemiologie graphique

o principes les plus couramment utiliseacutes sont la proximiteacute (Grokker) lrsquoenglobage (Kartoo)

et la connectiviteacute (Auquabrowser)

omeacutetaphores visuelles pas toujours adeacutequates au web

bull Reacutesultats

o lrsquoinformation doit ecirctre structureacutee

o apports possible pour lrsquoexploration mais pas pour la recherche

64

Cartographie de linformation- Famille doutils et contextes applicatifs

2- Contextes applicatifs Eleacutements deacutevaluation

22- Evaluation en contexte dusage de recherche dinformations (Ciaccia Ihadjadene Martins 2006)

Objectif analyse de lrsquoinfluence du mode de preacutesentation des informations sur les processus cognitifs mis

en jeu par lrsquoutilisateur dans lrsquoactiviteacute de recherche drsquoinformations sur Internet

Outils eacutevalueacutes Kartoo (pour 18 usagers) et Mapstan (pour 16 usagers)

Principaux reacutesultats

Coucirct cognitif sans pour autant conduire agrave de meilleures performances (comparaison avec une

preacutesentation en liste)

Hypothegravese nouveauteacute de la preacutesentation versus habitude des preacutesentations verbales

Strateacutegie optimiseacutee preacuteciser la requecircte drsquoune recherche agrave but flou et se concentrer sur les informations

relieacutees agrave lrsquoobjectif de la question versus informations non relieacutees

Le sens de la visualisation doit ecirctre clarifieacute les systegravemes doivent faciliter la compreacutehension des

eacuteleacutements visualiseacutes

65

Cartographie de linformation- Famille doutils et contextes applicatifs

2- Contextes applicatifs Les perspectives de la cartographie seacutemantique (C Tricot de la seacutemantique agrave la carte)

Pour reacutesoudre la probleacutematique de la repreacutesentation de lrsquoinformation la visualisation de

lrsquoinformation seule ne suffit pas

La visualisation de lrsquoinformation permet uniquement de preacutesenter des donneacutees en leur

associant une repreacutesentation graphique

La cartographie seacutemantique se veut

Une meacutethode de cartographie reposant sur la seacutemantique dun domaine

Un processus de production de connaissances

donneacutees brutes -gt donneacutees structureacutees -gt donneacutees repreacutesenteacutees -gt donneacutees visualiseacutees

Un formalisme de description type Reacuteseaux seacutemantiques

Un langage de description cartographique

Une architecture multi-agents

66

Cartographie de linformation- Famille doutils et contextes applicatifs

2- Contextes applicatifs Les perspectives de la cartographie seacutemantique (C Tricot de la seacutemantique agrave la carte)

67

Cartographie de linformation- Famille doutils et contextes applicatifs

2- Contextes applicatifs Les perspectives de la cartographie seacutemantique

ldquoUne bonne structure repreacutesentative graphique pour un arbre de donneacutees est celle qui deacuteforme le moins les similitudes originales entre les uniteacutes de donneacutees (similitudes qui sont donneacutes par loutil de classification) ou en dautres termes deux individus (ou classes) qui sont proches lune de lautre le restent aussi possible que peut apregraves projection dans l`espace de visualisation et ceci doit ecirctre eacutevident(et veacuterifiable par une mesure de calcul de divergence) dans lenvironnement de visualisation ldquo Tricot 2006

Page 37: Cartographie de l'information- Composantes des - Urfist de Paris

37

Cartographie de linformation- Composantes des applications cartographiques

2- Composante visuelle Eleacutements de seacutemiologie graphique (J Bertin)

38

Cartographie de linformation- Composantes des applications cartographiques

2- Composante visuelle Eleacutements de seacutemiologie graphique (J Bertin)

39

Cartographie de linformation- Composantes des applications cartographiques

2- Composante visuelle Eleacutements de seacutemiologie graphique (J Bertin)

40

Cartographie de linformation- Composantes des applications cartographiques

2- Composante visuelle Eleacutements de seacutemiologie graphique (J Bertin)

41

Cartographie de linformation- Composantes des applications cartographiques

2- Composante visuelle Eleacutements de seacutemiologie graphique (J Bertin)

Variables visuelles (laquo variables reacutetiniennes raquo)

Variation des proprieacuteteacutes graphiques des structures visuelles

42

Cartographie de linformation- Composantes des applications cartographiques

2- Composante visuelle Eleacutements de seacutemiologie graphique (J Bertin)

Variables visuelles

Cartographie de linformation- Composantes des applications cartographiques

2- Composante visuelle Eleacutements de seacutemiologie graphique (J Bertin)

43

44

Cartographie de linformation- Composantes des applications cartographiques

2- Composante visuelle Theacuteorie de la Gestalt (1890)

Principe

Le contexte est tregraves important dans la perception visuelle [Guillaume]

Les structures visuelles ne sont pas indeacutependantes les unes des autres et le contexte est

important pour la signification qui leur est attribueacutee

En graphique

La perception visuelle srsquoattache agrave reconnaicirctre des modegraveles dans un ensemble de structures

visuelles

De cette theacuteorie reacutesultent des lois correspondant agrave des cateacutegories drsquointeractions possibles entre

les structures visuelles

45

Cartographie de linformation- Composantes des applications cartographiques

Lois Effets Illustrations

Preacutegnance Une image est facile agrave comprendre si sa structure est simple et inversement

Proximiteacute Deux composants qui sont proches ont tendance agrave ecirctre perccedilus comme un

seul composant

Similariteacute Les composants similaires sont perccedilus comme srsquoils eacutetaient regroupeacutes

Fermeture Les contours proches sont perccedilus comme unifieacutes

Continuiteacute Des eacuteleacutements voisins sont perccedilus groupeacutes lorsqursquoils possegravedent

potentiellement un trait qui les relie

Symeacutetrie Des eacuteleacutements sont perccedilus comme un eacuteleacutement global lorsqursquoils forment une

symeacutetrie

Trajectoire identique Des eacuteleacutements qui se deacuteplacent avec la mecircme trajectoire semblent groupeacutes

Familiariteacute Des eacuteleacutements sont plus facilement groupables si le groupe est familier ou

significatif

46

Cartographie de linformation- Composantes des applications cartographiques

2- Composante visuelle Theacuteorie de la Gestalt (1890)

47

Cartographie de linformation- Composantes des applications cartographiques

2- Composante visuelle Conception drsquoun langage graphique (JB Lamy)

1- Analyser les informations ou connaissances que lrsquoon souhaite repreacutesenter

Determiner les attributs qui

deacutefinissent les termes agrave repreacutesenter

bull Par exemple pour repreacutesenter

des maladies les attributs pourraient

ecirctre la localisation anatomique

(cardiaque reacutenale) la seacuteveacuteriteacute etc

2- Associer agrave chaque attribut une variable

reacutetinienne pour le repreacutesenter

bull Par exemple pour les maladies

Associer lrsquoattribut localisation

anatomique agrave la variable

formepictogramme

bull Repreacutesenter la seacuteveacuteriteacute par la variable

couleur

3- Les relations entre les diffeacuterents termes

repreacutesenteacutes doivent ecirctre expliciteacutees

48

Cartographie de linformation

Famille doutils et contextes applicatifs

1- Famille doutils

Typologies

Aperccedilu

Travaux pratiques

2- Contextes applicatifs

Eleacutements deacutevaluation

Les perspectives de la cartographie seacutemantique

49

Cartographie de linformation- Famille doutils et contextes applicatifs

1- Famille doutils

Typologies

Aperccedilu

TP agrave partir de la seacutelection httpdeliciouscommylk02Stage_Carto

Et encore httpwwwvisualcomplexitycomvc (plus de 500 projets dans le domaine)

50

Cartographie de linformation- Famille doutils et contextes applicatifs

1- Famille doutils typologies

11- Typologie scientifique eacutetablie selon des critegraveres internes au domaine

bull les trois principaux paradigmes technique de visualisation type de donneacutees et type dinteraction (Keim

DA 2002)

bull la nature des donneacutees unidimensionnelles bidimensionnelles tridimensionnelles temporelles

multidimensionnelles hieacuterarchiques reacuteseaux (Shneiderman B 1996)

12- Etat de lart eacutevaluation - benchmarking typologie orienteacutee usages (veille et intelligence eacuteconomique)

Quelques exemples

Inist httpoutilsveilleinistfr

Esiee httpwwwaa-esieecomevent2005AGClaudeAschenbrennerppt

Ecole des Mines httpwwwdemoscienceorgresources

Commercial httpwwwk-praxiscom

Commercial httpwwwinformation-mininginfostate_of_art

Universitaire httpwell-formed-datanetthesis

13- Typologie cartographique

Quelques exemples de bloggers

bull Claude Aschenbrenner httpwwwserialmappercomarchive20070110la-pierre-de-rosette-de-la-

cartographie-de-l-informationhtml avec son mode demploi

bull Kartoo httpwwwmapdreamcom

51

Cartographie de linformation- Famille doutils et contextes applicatifs

1- Famille doutils typologie scientifique

52

Cartographie de linformation- Famille doutils orienteacutes laquo bibliothegraveques raquo

2- Les outils de navigation et de recherche sur Internet (seacutelection de Pierre Nobis)

A- Les navigateurs Nestor Navicrawler

53

Cartographie de linformation- Famille doutils orienteacutes laquo bibliothegraveques raquo

2- Les outils de navigation et de recherche sur Internet (seacutelection de Pierre Nobis)

B- Les outils de visualisation des reacutesultats PageBull ManagedQ

Bbis Les outils de visualisation de reacutesultats dans les actualiteacutes

repreacutesentation carreacutee Marumushi - Google NewsNewsIsFree - The Hive Group Tenbyten -flux RSS des sources drsquoactualiteacutes internationales

repreacutesentation sous forme de graphe

Silobreaker

54

Cartographie de linformation- Famille doutils orienteacutes laquo bibliothegraveques raquo

2- Les outils de navigation et de recherche sur Internet

B-Les outils de visualisation des reacutesultats TouchGraph application Java permettant de cartographier les reacutesultats issus

notamment de Google Amazon PubMed Alexa FaceBook

55

Cartographie de linformation- Famille doutils orienteacutes laquo bibliothegraveques raquo

2- Les outils de navigation et de recherche sur Internet (seacutelection de Pierre Nobis)

C- Les outils de recherche avec ajout de termes associeacutes dans une colonne regroupement theacutematique nuage de laquo tags raquo

D- Meacutetamoteurs avec affichage de clusters sous forme de listes

Carrot2 Clusty-Vivissimo Iboogie Polymeta Turbo10 Webclust

56

Cartographie de linformation- Famille doutils orienteacutes laquo bibliothegraveques raquo

2- Les outils de navigation et de recherche sur Internet (seacutelection de Pierre Nobis)

E- Meacutetamoteurs avec affichage de clusters sous forme graphique

E1- repreacutesentation centreacutee Allplus WebBrain

Allplus est un meacutetamoteur agrave clusteacuterisation graphique qui interroge les bases de Ask Google Yahoo et Livepar le biais de lrsquooutil Polymeta Lrsquointerface cluster graph permet de visualiser les reacutesultats sous une forme graphique

Webbrain permet de visualiser et drsquoaffiner les reacutesultats drsquoune requecircte issus de lrsquoOpen Directory Project

57

Cartographie de linformation- Famille doutils orienteacutes laquo bibliothegraveques raquo

2- Les outils de navigation et de recherche sur Internet (seacutelection de Pierre Nobis)

E- Meacutetamoteurs avec affichage de clusters sous forme graphique

E2- Repreacutesentation circulaire Grokker

E3- Repreacutesentation topographique TooLeNet srsquoappuie sur les technologies de KartOO et sur lrsquoindex de

Yahoo pour effectuer des recherches selon 3 modes moteur annuaire et carte auxquels srsquoajoutent des

options de personnalisation et de classification assez avanceacutees

58

Cartographie de linformation- Famille doutils orienteacutes laquo bibliothegraveques raquo

3- Les Outils graphiques dexploration

Wikimindmap est un outil drsquointerrogation

et de repreacutesentation des informations issues

de Wikipedia sous forme de carte heuristique

Visuwords est un dictionnaire en ligne

qui preacutesente ses reacutesultats sous forme de laquo grappes raquo

Il utilise la base de donneacutees Wordnet

Code couleur pour les diffeacuterentes relations

seacutemantiques hieacuterarchiques entre les termes

ainsi que les synonymes et les antonymes

59

Cartographie de linformation- Famille doutils orienteacutes laquo bibliothegraveques raquo

4- Les outils de creacuteation (carto)graphiqueA- Pour meacutemoire les logiciels de creacuteation de cartes heuristiques et conceptuelles

Cmaptools est un logiciel gratuit (usage eacuteducatif) de creacuteation de cartes conceptuelles

Freemind est un logiciel libre et gratuit qui permet de reacutealiser des cartes heuristiques

Thinkgraph est un logiciel gratuit de dessin 2D orienteacute vers la reacutealisation de cartes conceptuelles

60

Cartographie de linformation- Famille doutils orienteacutes laquo bibliothegraveques raquo

4- Les outils de creacuteation (carto)graphique

B- Les outils drsquoeacutedition de graphes

Guess est un logiciel libre et gratuit deacuteveloppeacute par Eytan Adar qui permet de visualiser des

graphes statiques Options de modification de certains attributs (taille couleur forme

algorithmes de positionnementhellip)

Pajek est un logiciel libre et gratuit (usage non commercial) deacuteveloppeacute par V Batagelj et A

Mrvar qui permet de traiter des donneacutees de reacuteseaux de grande taille Pajek signifie araigneacutee

en slovegravene

C- Les outils en ligne

ManyEye service collaboratif deacuteveloppeacute par IBM gracircce auquel on peut geacuteneacuterer selon un

des modegraveles proposeacutes sa propre visualisation de lrsquoinformation (apregraves avoir teacuteleacuteverseacute ses

propres donneacutees)

IssueCrawler outil de web social mining utilisable agrave distance (chargement des URL)

reacutecupeacuteration graphique

61

Cartographie de linformation- Famille doutils et contextes applicatifs

2- Contextes applicatifs

Eleacutements deacutevaluation

Les perspectives de la cartographie seacutemantique

62

Cartographie de linformation- Famille doutils et contextes applicatifs

2- Contextes applicatifs Eleacutements deacutevaluation

21- Evaluation scientifique

Question de meacutethode Eacutevaluation des Interfaces Utilisateur drsquoInformation Bonnel et Chevalier 2006

Objectif proposer une meacutethodologie deacutevaluation permettant de comparer du point de vue de la

visualisation des reacutesultats agrave une requecircte les outils de recherche Google Vivisimo Ujiko Grokker Kartoo

Vios SmartWeb (prototype)

Evaluation des repreacutesentations graphiques geacuteneacuteraliteacutes (Tricot et Roche 2006)

bull Arborescences simples

habitude des utilisateurs (explorateur de fichiers informatiques) pas de problegravemes avec volume limiteacute

au-delagrave drsquoune certaine quantiteacute drsquoinformation les arborescences deviennent inefficaces

bull Arbres de cocircnes en 3D

posent des problegravemes agrave lrsquoutilisateur qui nrsquoa pas lrsquohabitude des espaces en 3D

effort cognitif plus eacuteleveacute et prise en main plus longue

bull Arbres hyperboliques

problegravemes des eacutetiquettes des eacuteleacutements (occlusion)

effet de zoom impreacutevisible

Lrsquoune des conclusions une seule visualisation ne permet pas de reacutepondre agrave toutes les questions

multiplier les possibiliteacutes de visualisation

63

Cartographie de linformation- Famille doutils et contextes applicatifs

2- Contextes applicatifs Eleacutements deacutevaluation

21- Evaluation scientifique doctorat en cours agrave lrsquoEBSI (Aline Creacutedeville)

bull Contexte visualisation de lrsquoinformation dans le contexte de recherche drsquoinformation

bull Point de vue de la seacutemiologie graphique

o principes les plus couramment utiliseacutes sont la proximiteacute (Grokker) lrsquoenglobage (Kartoo)

et la connectiviteacute (Auquabrowser)

omeacutetaphores visuelles pas toujours adeacutequates au web

bull Reacutesultats

o lrsquoinformation doit ecirctre structureacutee

o apports possible pour lrsquoexploration mais pas pour la recherche

64

Cartographie de linformation- Famille doutils et contextes applicatifs

2- Contextes applicatifs Eleacutements deacutevaluation

22- Evaluation en contexte dusage de recherche dinformations (Ciaccia Ihadjadene Martins 2006)

Objectif analyse de lrsquoinfluence du mode de preacutesentation des informations sur les processus cognitifs mis

en jeu par lrsquoutilisateur dans lrsquoactiviteacute de recherche drsquoinformations sur Internet

Outils eacutevalueacutes Kartoo (pour 18 usagers) et Mapstan (pour 16 usagers)

Principaux reacutesultats

Coucirct cognitif sans pour autant conduire agrave de meilleures performances (comparaison avec une

preacutesentation en liste)

Hypothegravese nouveauteacute de la preacutesentation versus habitude des preacutesentations verbales

Strateacutegie optimiseacutee preacuteciser la requecircte drsquoune recherche agrave but flou et se concentrer sur les informations

relieacutees agrave lrsquoobjectif de la question versus informations non relieacutees

Le sens de la visualisation doit ecirctre clarifieacute les systegravemes doivent faciliter la compreacutehension des

eacuteleacutements visualiseacutes

65

Cartographie de linformation- Famille doutils et contextes applicatifs

2- Contextes applicatifs Les perspectives de la cartographie seacutemantique (C Tricot de la seacutemantique agrave la carte)

Pour reacutesoudre la probleacutematique de la repreacutesentation de lrsquoinformation la visualisation de

lrsquoinformation seule ne suffit pas

La visualisation de lrsquoinformation permet uniquement de preacutesenter des donneacutees en leur

associant une repreacutesentation graphique

La cartographie seacutemantique se veut

Une meacutethode de cartographie reposant sur la seacutemantique dun domaine

Un processus de production de connaissances

donneacutees brutes -gt donneacutees structureacutees -gt donneacutees repreacutesenteacutees -gt donneacutees visualiseacutees

Un formalisme de description type Reacuteseaux seacutemantiques

Un langage de description cartographique

Une architecture multi-agents

66

Cartographie de linformation- Famille doutils et contextes applicatifs

2- Contextes applicatifs Les perspectives de la cartographie seacutemantique (C Tricot de la seacutemantique agrave la carte)

67

Cartographie de linformation- Famille doutils et contextes applicatifs

2- Contextes applicatifs Les perspectives de la cartographie seacutemantique

ldquoUne bonne structure repreacutesentative graphique pour un arbre de donneacutees est celle qui deacuteforme le moins les similitudes originales entre les uniteacutes de donneacutees (similitudes qui sont donneacutes par loutil de classification) ou en dautres termes deux individus (ou classes) qui sont proches lune de lautre le restent aussi possible que peut apregraves projection dans l`espace de visualisation et ceci doit ecirctre eacutevident(et veacuterifiable par une mesure de calcul de divergence) dans lenvironnement de visualisation ldquo Tricot 2006

Page 38: Cartographie de l'information- Composantes des - Urfist de Paris

38

Cartographie de linformation- Composantes des applications cartographiques

2- Composante visuelle Eleacutements de seacutemiologie graphique (J Bertin)

39

Cartographie de linformation- Composantes des applications cartographiques

2- Composante visuelle Eleacutements de seacutemiologie graphique (J Bertin)

40

Cartographie de linformation- Composantes des applications cartographiques

2- Composante visuelle Eleacutements de seacutemiologie graphique (J Bertin)

41

Cartographie de linformation- Composantes des applications cartographiques

2- Composante visuelle Eleacutements de seacutemiologie graphique (J Bertin)

Variables visuelles (laquo variables reacutetiniennes raquo)

Variation des proprieacuteteacutes graphiques des structures visuelles

42

Cartographie de linformation- Composantes des applications cartographiques

2- Composante visuelle Eleacutements de seacutemiologie graphique (J Bertin)

Variables visuelles

Cartographie de linformation- Composantes des applications cartographiques

2- Composante visuelle Eleacutements de seacutemiologie graphique (J Bertin)

43

44

Cartographie de linformation- Composantes des applications cartographiques

2- Composante visuelle Theacuteorie de la Gestalt (1890)

Principe

Le contexte est tregraves important dans la perception visuelle [Guillaume]

Les structures visuelles ne sont pas indeacutependantes les unes des autres et le contexte est

important pour la signification qui leur est attribueacutee

En graphique

La perception visuelle srsquoattache agrave reconnaicirctre des modegraveles dans un ensemble de structures

visuelles

De cette theacuteorie reacutesultent des lois correspondant agrave des cateacutegories drsquointeractions possibles entre

les structures visuelles

45

Cartographie de linformation- Composantes des applications cartographiques

Lois Effets Illustrations

Preacutegnance Une image est facile agrave comprendre si sa structure est simple et inversement

Proximiteacute Deux composants qui sont proches ont tendance agrave ecirctre perccedilus comme un

seul composant

Similariteacute Les composants similaires sont perccedilus comme srsquoils eacutetaient regroupeacutes

Fermeture Les contours proches sont perccedilus comme unifieacutes

Continuiteacute Des eacuteleacutements voisins sont perccedilus groupeacutes lorsqursquoils possegravedent

potentiellement un trait qui les relie

Symeacutetrie Des eacuteleacutements sont perccedilus comme un eacuteleacutement global lorsqursquoils forment une

symeacutetrie

Trajectoire identique Des eacuteleacutements qui se deacuteplacent avec la mecircme trajectoire semblent groupeacutes

Familiariteacute Des eacuteleacutements sont plus facilement groupables si le groupe est familier ou

significatif

46

Cartographie de linformation- Composantes des applications cartographiques

2- Composante visuelle Theacuteorie de la Gestalt (1890)

47

Cartographie de linformation- Composantes des applications cartographiques

2- Composante visuelle Conception drsquoun langage graphique (JB Lamy)

1- Analyser les informations ou connaissances que lrsquoon souhaite repreacutesenter

Determiner les attributs qui

deacutefinissent les termes agrave repreacutesenter

bull Par exemple pour repreacutesenter

des maladies les attributs pourraient

ecirctre la localisation anatomique

(cardiaque reacutenale) la seacuteveacuteriteacute etc

2- Associer agrave chaque attribut une variable

reacutetinienne pour le repreacutesenter

bull Par exemple pour les maladies

Associer lrsquoattribut localisation

anatomique agrave la variable

formepictogramme

bull Repreacutesenter la seacuteveacuteriteacute par la variable

couleur

3- Les relations entre les diffeacuterents termes

repreacutesenteacutes doivent ecirctre expliciteacutees

48

Cartographie de linformation

Famille doutils et contextes applicatifs

1- Famille doutils

Typologies

Aperccedilu

Travaux pratiques

2- Contextes applicatifs

Eleacutements deacutevaluation

Les perspectives de la cartographie seacutemantique

49

Cartographie de linformation- Famille doutils et contextes applicatifs

1- Famille doutils

Typologies

Aperccedilu

TP agrave partir de la seacutelection httpdeliciouscommylk02Stage_Carto

Et encore httpwwwvisualcomplexitycomvc (plus de 500 projets dans le domaine)

50

Cartographie de linformation- Famille doutils et contextes applicatifs

1- Famille doutils typologies

11- Typologie scientifique eacutetablie selon des critegraveres internes au domaine

bull les trois principaux paradigmes technique de visualisation type de donneacutees et type dinteraction (Keim

DA 2002)

bull la nature des donneacutees unidimensionnelles bidimensionnelles tridimensionnelles temporelles

multidimensionnelles hieacuterarchiques reacuteseaux (Shneiderman B 1996)

12- Etat de lart eacutevaluation - benchmarking typologie orienteacutee usages (veille et intelligence eacuteconomique)

Quelques exemples

Inist httpoutilsveilleinistfr

Esiee httpwwwaa-esieecomevent2005AGClaudeAschenbrennerppt

Ecole des Mines httpwwwdemoscienceorgresources

Commercial httpwwwk-praxiscom

Commercial httpwwwinformation-mininginfostate_of_art

Universitaire httpwell-formed-datanetthesis

13- Typologie cartographique

Quelques exemples de bloggers

bull Claude Aschenbrenner httpwwwserialmappercomarchive20070110la-pierre-de-rosette-de-la-

cartographie-de-l-informationhtml avec son mode demploi

bull Kartoo httpwwwmapdreamcom

51

Cartographie de linformation- Famille doutils et contextes applicatifs

1- Famille doutils typologie scientifique

52

Cartographie de linformation- Famille doutils orienteacutes laquo bibliothegraveques raquo

2- Les outils de navigation et de recherche sur Internet (seacutelection de Pierre Nobis)

A- Les navigateurs Nestor Navicrawler

53

Cartographie de linformation- Famille doutils orienteacutes laquo bibliothegraveques raquo

2- Les outils de navigation et de recherche sur Internet (seacutelection de Pierre Nobis)

B- Les outils de visualisation des reacutesultats PageBull ManagedQ

Bbis Les outils de visualisation de reacutesultats dans les actualiteacutes

repreacutesentation carreacutee Marumushi - Google NewsNewsIsFree - The Hive Group Tenbyten -flux RSS des sources drsquoactualiteacutes internationales

repreacutesentation sous forme de graphe

Silobreaker

54

Cartographie de linformation- Famille doutils orienteacutes laquo bibliothegraveques raquo

2- Les outils de navigation et de recherche sur Internet

B-Les outils de visualisation des reacutesultats TouchGraph application Java permettant de cartographier les reacutesultats issus

notamment de Google Amazon PubMed Alexa FaceBook

55

Cartographie de linformation- Famille doutils orienteacutes laquo bibliothegraveques raquo

2- Les outils de navigation et de recherche sur Internet (seacutelection de Pierre Nobis)

C- Les outils de recherche avec ajout de termes associeacutes dans une colonne regroupement theacutematique nuage de laquo tags raquo

D- Meacutetamoteurs avec affichage de clusters sous forme de listes

Carrot2 Clusty-Vivissimo Iboogie Polymeta Turbo10 Webclust

56

Cartographie de linformation- Famille doutils orienteacutes laquo bibliothegraveques raquo

2- Les outils de navigation et de recherche sur Internet (seacutelection de Pierre Nobis)

E- Meacutetamoteurs avec affichage de clusters sous forme graphique

E1- repreacutesentation centreacutee Allplus WebBrain

Allplus est un meacutetamoteur agrave clusteacuterisation graphique qui interroge les bases de Ask Google Yahoo et Livepar le biais de lrsquooutil Polymeta Lrsquointerface cluster graph permet de visualiser les reacutesultats sous une forme graphique

Webbrain permet de visualiser et drsquoaffiner les reacutesultats drsquoune requecircte issus de lrsquoOpen Directory Project

57

Cartographie de linformation- Famille doutils orienteacutes laquo bibliothegraveques raquo

2- Les outils de navigation et de recherche sur Internet (seacutelection de Pierre Nobis)

E- Meacutetamoteurs avec affichage de clusters sous forme graphique

E2- Repreacutesentation circulaire Grokker

E3- Repreacutesentation topographique TooLeNet srsquoappuie sur les technologies de KartOO et sur lrsquoindex de

Yahoo pour effectuer des recherches selon 3 modes moteur annuaire et carte auxquels srsquoajoutent des

options de personnalisation et de classification assez avanceacutees

58

Cartographie de linformation- Famille doutils orienteacutes laquo bibliothegraveques raquo

3- Les Outils graphiques dexploration

Wikimindmap est un outil drsquointerrogation

et de repreacutesentation des informations issues

de Wikipedia sous forme de carte heuristique

Visuwords est un dictionnaire en ligne

qui preacutesente ses reacutesultats sous forme de laquo grappes raquo

Il utilise la base de donneacutees Wordnet

Code couleur pour les diffeacuterentes relations

seacutemantiques hieacuterarchiques entre les termes

ainsi que les synonymes et les antonymes

59

Cartographie de linformation- Famille doutils orienteacutes laquo bibliothegraveques raquo

4- Les outils de creacuteation (carto)graphiqueA- Pour meacutemoire les logiciels de creacuteation de cartes heuristiques et conceptuelles

Cmaptools est un logiciel gratuit (usage eacuteducatif) de creacuteation de cartes conceptuelles

Freemind est un logiciel libre et gratuit qui permet de reacutealiser des cartes heuristiques

Thinkgraph est un logiciel gratuit de dessin 2D orienteacute vers la reacutealisation de cartes conceptuelles

60

Cartographie de linformation- Famille doutils orienteacutes laquo bibliothegraveques raquo

4- Les outils de creacuteation (carto)graphique

B- Les outils drsquoeacutedition de graphes

Guess est un logiciel libre et gratuit deacuteveloppeacute par Eytan Adar qui permet de visualiser des

graphes statiques Options de modification de certains attributs (taille couleur forme

algorithmes de positionnementhellip)

Pajek est un logiciel libre et gratuit (usage non commercial) deacuteveloppeacute par V Batagelj et A

Mrvar qui permet de traiter des donneacutees de reacuteseaux de grande taille Pajek signifie araigneacutee

en slovegravene

C- Les outils en ligne

ManyEye service collaboratif deacuteveloppeacute par IBM gracircce auquel on peut geacuteneacuterer selon un

des modegraveles proposeacutes sa propre visualisation de lrsquoinformation (apregraves avoir teacuteleacuteverseacute ses

propres donneacutees)

IssueCrawler outil de web social mining utilisable agrave distance (chargement des URL)

reacutecupeacuteration graphique

61

Cartographie de linformation- Famille doutils et contextes applicatifs

2- Contextes applicatifs

Eleacutements deacutevaluation

Les perspectives de la cartographie seacutemantique

62

Cartographie de linformation- Famille doutils et contextes applicatifs

2- Contextes applicatifs Eleacutements deacutevaluation

21- Evaluation scientifique

Question de meacutethode Eacutevaluation des Interfaces Utilisateur drsquoInformation Bonnel et Chevalier 2006

Objectif proposer une meacutethodologie deacutevaluation permettant de comparer du point de vue de la

visualisation des reacutesultats agrave une requecircte les outils de recherche Google Vivisimo Ujiko Grokker Kartoo

Vios SmartWeb (prototype)

Evaluation des repreacutesentations graphiques geacuteneacuteraliteacutes (Tricot et Roche 2006)

bull Arborescences simples

habitude des utilisateurs (explorateur de fichiers informatiques) pas de problegravemes avec volume limiteacute

au-delagrave drsquoune certaine quantiteacute drsquoinformation les arborescences deviennent inefficaces

bull Arbres de cocircnes en 3D

posent des problegravemes agrave lrsquoutilisateur qui nrsquoa pas lrsquohabitude des espaces en 3D

effort cognitif plus eacuteleveacute et prise en main plus longue

bull Arbres hyperboliques

problegravemes des eacutetiquettes des eacuteleacutements (occlusion)

effet de zoom impreacutevisible

Lrsquoune des conclusions une seule visualisation ne permet pas de reacutepondre agrave toutes les questions

multiplier les possibiliteacutes de visualisation

63

Cartographie de linformation- Famille doutils et contextes applicatifs

2- Contextes applicatifs Eleacutements deacutevaluation

21- Evaluation scientifique doctorat en cours agrave lrsquoEBSI (Aline Creacutedeville)

bull Contexte visualisation de lrsquoinformation dans le contexte de recherche drsquoinformation

bull Point de vue de la seacutemiologie graphique

o principes les plus couramment utiliseacutes sont la proximiteacute (Grokker) lrsquoenglobage (Kartoo)

et la connectiviteacute (Auquabrowser)

omeacutetaphores visuelles pas toujours adeacutequates au web

bull Reacutesultats

o lrsquoinformation doit ecirctre structureacutee

o apports possible pour lrsquoexploration mais pas pour la recherche

64

Cartographie de linformation- Famille doutils et contextes applicatifs

2- Contextes applicatifs Eleacutements deacutevaluation

22- Evaluation en contexte dusage de recherche dinformations (Ciaccia Ihadjadene Martins 2006)

Objectif analyse de lrsquoinfluence du mode de preacutesentation des informations sur les processus cognitifs mis

en jeu par lrsquoutilisateur dans lrsquoactiviteacute de recherche drsquoinformations sur Internet

Outils eacutevalueacutes Kartoo (pour 18 usagers) et Mapstan (pour 16 usagers)

Principaux reacutesultats

Coucirct cognitif sans pour autant conduire agrave de meilleures performances (comparaison avec une

preacutesentation en liste)

Hypothegravese nouveauteacute de la preacutesentation versus habitude des preacutesentations verbales

Strateacutegie optimiseacutee preacuteciser la requecircte drsquoune recherche agrave but flou et se concentrer sur les informations

relieacutees agrave lrsquoobjectif de la question versus informations non relieacutees

Le sens de la visualisation doit ecirctre clarifieacute les systegravemes doivent faciliter la compreacutehension des

eacuteleacutements visualiseacutes

65

Cartographie de linformation- Famille doutils et contextes applicatifs

2- Contextes applicatifs Les perspectives de la cartographie seacutemantique (C Tricot de la seacutemantique agrave la carte)

Pour reacutesoudre la probleacutematique de la repreacutesentation de lrsquoinformation la visualisation de

lrsquoinformation seule ne suffit pas

La visualisation de lrsquoinformation permet uniquement de preacutesenter des donneacutees en leur

associant une repreacutesentation graphique

La cartographie seacutemantique se veut

Une meacutethode de cartographie reposant sur la seacutemantique dun domaine

Un processus de production de connaissances

donneacutees brutes -gt donneacutees structureacutees -gt donneacutees repreacutesenteacutees -gt donneacutees visualiseacutees

Un formalisme de description type Reacuteseaux seacutemantiques

Un langage de description cartographique

Une architecture multi-agents

66

Cartographie de linformation- Famille doutils et contextes applicatifs

2- Contextes applicatifs Les perspectives de la cartographie seacutemantique (C Tricot de la seacutemantique agrave la carte)

67

Cartographie de linformation- Famille doutils et contextes applicatifs

2- Contextes applicatifs Les perspectives de la cartographie seacutemantique

ldquoUne bonne structure repreacutesentative graphique pour un arbre de donneacutees est celle qui deacuteforme le moins les similitudes originales entre les uniteacutes de donneacutees (similitudes qui sont donneacutes par loutil de classification) ou en dautres termes deux individus (ou classes) qui sont proches lune de lautre le restent aussi possible que peut apregraves projection dans l`espace de visualisation et ceci doit ecirctre eacutevident(et veacuterifiable par une mesure de calcul de divergence) dans lenvironnement de visualisation ldquo Tricot 2006

Page 39: Cartographie de l'information- Composantes des - Urfist de Paris

39

Cartographie de linformation- Composantes des applications cartographiques

2- Composante visuelle Eleacutements de seacutemiologie graphique (J Bertin)

40

Cartographie de linformation- Composantes des applications cartographiques

2- Composante visuelle Eleacutements de seacutemiologie graphique (J Bertin)

41

Cartographie de linformation- Composantes des applications cartographiques

2- Composante visuelle Eleacutements de seacutemiologie graphique (J Bertin)

Variables visuelles (laquo variables reacutetiniennes raquo)

Variation des proprieacuteteacutes graphiques des structures visuelles

42

Cartographie de linformation- Composantes des applications cartographiques

2- Composante visuelle Eleacutements de seacutemiologie graphique (J Bertin)

Variables visuelles

Cartographie de linformation- Composantes des applications cartographiques

2- Composante visuelle Eleacutements de seacutemiologie graphique (J Bertin)

43

44

Cartographie de linformation- Composantes des applications cartographiques

2- Composante visuelle Theacuteorie de la Gestalt (1890)

Principe

Le contexte est tregraves important dans la perception visuelle [Guillaume]

Les structures visuelles ne sont pas indeacutependantes les unes des autres et le contexte est

important pour la signification qui leur est attribueacutee

En graphique

La perception visuelle srsquoattache agrave reconnaicirctre des modegraveles dans un ensemble de structures

visuelles

De cette theacuteorie reacutesultent des lois correspondant agrave des cateacutegories drsquointeractions possibles entre

les structures visuelles

45

Cartographie de linformation- Composantes des applications cartographiques

Lois Effets Illustrations

Preacutegnance Une image est facile agrave comprendre si sa structure est simple et inversement

Proximiteacute Deux composants qui sont proches ont tendance agrave ecirctre perccedilus comme un

seul composant

Similariteacute Les composants similaires sont perccedilus comme srsquoils eacutetaient regroupeacutes

Fermeture Les contours proches sont perccedilus comme unifieacutes

Continuiteacute Des eacuteleacutements voisins sont perccedilus groupeacutes lorsqursquoils possegravedent

potentiellement un trait qui les relie

Symeacutetrie Des eacuteleacutements sont perccedilus comme un eacuteleacutement global lorsqursquoils forment une

symeacutetrie

Trajectoire identique Des eacuteleacutements qui se deacuteplacent avec la mecircme trajectoire semblent groupeacutes

Familiariteacute Des eacuteleacutements sont plus facilement groupables si le groupe est familier ou

significatif

46

Cartographie de linformation- Composantes des applications cartographiques

2- Composante visuelle Theacuteorie de la Gestalt (1890)

47

Cartographie de linformation- Composantes des applications cartographiques

2- Composante visuelle Conception drsquoun langage graphique (JB Lamy)

1- Analyser les informations ou connaissances que lrsquoon souhaite repreacutesenter

Determiner les attributs qui

deacutefinissent les termes agrave repreacutesenter

bull Par exemple pour repreacutesenter

des maladies les attributs pourraient

ecirctre la localisation anatomique

(cardiaque reacutenale) la seacuteveacuteriteacute etc

2- Associer agrave chaque attribut une variable

reacutetinienne pour le repreacutesenter

bull Par exemple pour les maladies

Associer lrsquoattribut localisation

anatomique agrave la variable

formepictogramme

bull Repreacutesenter la seacuteveacuteriteacute par la variable

couleur

3- Les relations entre les diffeacuterents termes

repreacutesenteacutes doivent ecirctre expliciteacutees

48

Cartographie de linformation

Famille doutils et contextes applicatifs

1- Famille doutils

Typologies

Aperccedilu

Travaux pratiques

2- Contextes applicatifs

Eleacutements deacutevaluation

Les perspectives de la cartographie seacutemantique

49

Cartographie de linformation- Famille doutils et contextes applicatifs

1- Famille doutils

Typologies

Aperccedilu

TP agrave partir de la seacutelection httpdeliciouscommylk02Stage_Carto

Et encore httpwwwvisualcomplexitycomvc (plus de 500 projets dans le domaine)

50

Cartographie de linformation- Famille doutils et contextes applicatifs

1- Famille doutils typologies

11- Typologie scientifique eacutetablie selon des critegraveres internes au domaine

bull les trois principaux paradigmes technique de visualisation type de donneacutees et type dinteraction (Keim

DA 2002)

bull la nature des donneacutees unidimensionnelles bidimensionnelles tridimensionnelles temporelles

multidimensionnelles hieacuterarchiques reacuteseaux (Shneiderman B 1996)

12- Etat de lart eacutevaluation - benchmarking typologie orienteacutee usages (veille et intelligence eacuteconomique)

Quelques exemples

Inist httpoutilsveilleinistfr

Esiee httpwwwaa-esieecomevent2005AGClaudeAschenbrennerppt

Ecole des Mines httpwwwdemoscienceorgresources

Commercial httpwwwk-praxiscom

Commercial httpwwwinformation-mininginfostate_of_art

Universitaire httpwell-formed-datanetthesis

13- Typologie cartographique

Quelques exemples de bloggers

bull Claude Aschenbrenner httpwwwserialmappercomarchive20070110la-pierre-de-rosette-de-la-

cartographie-de-l-informationhtml avec son mode demploi

bull Kartoo httpwwwmapdreamcom

51

Cartographie de linformation- Famille doutils et contextes applicatifs

1- Famille doutils typologie scientifique

52

Cartographie de linformation- Famille doutils orienteacutes laquo bibliothegraveques raquo

2- Les outils de navigation et de recherche sur Internet (seacutelection de Pierre Nobis)

A- Les navigateurs Nestor Navicrawler

53

Cartographie de linformation- Famille doutils orienteacutes laquo bibliothegraveques raquo

2- Les outils de navigation et de recherche sur Internet (seacutelection de Pierre Nobis)

B- Les outils de visualisation des reacutesultats PageBull ManagedQ

Bbis Les outils de visualisation de reacutesultats dans les actualiteacutes

repreacutesentation carreacutee Marumushi - Google NewsNewsIsFree - The Hive Group Tenbyten -flux RSS des sources drsquoactualiteacutes internationales

repreacutesentation sous forme de graphe

Silobreaker

54

Cartographie de linformation- Famille doutils orienteacutes laquo bibliothegraveques raquo

2- Les outils de navigation et de recherche sur Internet

B-Les outils de visualisation des reacutesultats TouchGraph application Java permettant de cartographier les reacutesultats issus

notamment de Google Amazon PubMed Alexa FaceBook

55

Cartographie de linformation- Famille doutils orienteacutes laquo bibliothegraveques raquo

2- Les outils de navigation et de recherche sur Internet (seacutelection de Pierre Nobis)

C- Les outils de recherche avec ajout de termes associeacutes dans une colonne regroupement theacutematique nuage de laquo tags raquo

D- Meacutetamoteurs avec affichage de clusters sous forme de listes

Carrot2 Clusty-Vivissimo Iboogie Polymeta Turbo10 Webclust

56

Cartographie de linformation- Famille doutils orienteacutes laquo bibliothegraveques raquo

2- Les outils de navigation et de recherche sur Internet (seacutelection de Pierre Nobis)

E- Meacutetamoteurs avec affichage de clusters sous forme graphique

E1- repreacutesentation centreacutee Allplus WebBrain

Allplus est un meacutetamoteur agrave clusteacuterisation graphique qui interroge les bases de Ask Google Yahoo et Livepar le biais de lrsquooutil Polymeta Lrsquointerface cluster graph permet de visualiser les reacutesultats sous une forme graphique

Webbrain permet de visualiser et drsquoaffiner les reacutesultats drsquoune requecircte issus de lrsquoOpen Directory Project

57

Cartographie de linformation- Famille doutils orienteacutes laquo bibliothegraveques raquo

2- Les outils de navigation et de recherche sur Internet (seacutelection de Pierre Nobis)

E- Meacutetamoteurs avec affichage de clusters sous forme graphique

E2- Repreacutesentation circulaire Grokker

E3- Repreacutesentation topographique TooLeNet srsquoappuie sur les technologies de KartOO et sur lrsquoindex de

Yahoo pour effectuer des recherches selon 3 modes moteur annuaire et carte auxquels srsquoajoutent des

options de personnalisation et de classification assez avanceacutees

58

Cartographie de linformation- Famille doutils orienteacutes laquo bibliothegraveques raquo

3- Les Outils graphiques dexploration

Wikimindmap est un outil drsquointerrogation

et de repreacutesentation des informations issues

de Wikipedia sous forme de carte heuristique

Visuwords est un dictionnaire en ligne

qui preacutesente ses reacutesultats sous forme de laquo grappes raquo

Il utilise la base de donneacutees Wordnet

Code couleur pour les diffeacuterentes relations

seacutemantiques hieacuterarchiques entre les termes

ainsi que les synonymes et les antonymes

59

Cartographie de linformation- Famille doutils orienteacutes laquo bibliothegraveques raquo

4- Les outils de creacuteation (carto)graphiqueA- Pour meacutemoire les logiciels de creacuteation de cartes heuristiques et conceptuelles

Cmaptools est un logiciel gratuit (usage eacuteducatif) de creacuteation de cartes conceptuelles

Freemind est un logiciel libre et gratuit qui permet de reacutealiser des cartes heuristiques

Thinkgraph est un logiciel gratuit de dessin 2D orienteacute vers la reacutealisation de cartes conceptuelles

60

Cartographie de linformation- Famille doutils orienteacutes laquo bibliothegraveques raquo

4- Les outils de creacuteation (carto)graphique

B- Les outils drsquoeacutedition de graphes

Guess est un logiciel libre et gratuit deacuteveloppeacute par Eytan Adar qui permet de visualiser des

graphes statiques Options de modification de certains attributs (taille couleur forme

algorithmes de positionnementhellip)

Pajek est un logiciel libre et gratuit (usage non commercial) deacuteveloppeacute par V Batagelj et A

Mrvar qui permet de traiter des donneacutees de reacuteseaux de grande taille Pajek signifie araigneacutee

en slovegravene

C- Les outils en ligne

ManyEye service collaboratif deacuteveloppeacute par IBM gracircce auquel on peut geacuteneacuterer selon un

des modegraveles proposeacutes sa propre visualisation de lrsquoinformation (apregraves avoir teacuteleacuteverseacute ses

propres donneacutees)

IssueCrawler outil de web social mining utilisable agrave distance (chargement des URL)

reacutecupeacuteration graphique

61

Cartographie de linformation- Famille doutils et contextes applicatifs

2- Contextes applicatifs

Eleacutements deacutevaluation

Les perspectives de la cartographie seacutemantique

62

Cartographie de linformation- Famille doutils et contextes applicatifs

2- Contextes applicatifs Eleacutements deacutevaluation

21- Evaluation scientifique

Question de meacutethode Eacutevaluation des Interfaces Utilisateur drsquoInformation Bonnel et Chevalier 2006

Objectif proposer une meacutethodologie deacutevaluation permettant de comparer du point de vue de la

visualisation des reacutesultats agrave une requecircte les outils de recherche Google Vivisimo Ujiko Grokker Kartoo

Vios SmartWeb (prototype)

Evaluation des repreacutesentations graphiques geacuteneacuteraliteacutes (Tricot et Roche 2006)

bull Arborescences simples

habitude des utilisateurs (explorateur de fichiers informatiques) pas de problegravemes avec volume limiteacute

au-delagrave drsquoune certaine quantiteacute drsquoinformation les arborescences deviennent inefficaces

bull Arbres de cocircnes en 3D

posent des problegravemes agrave lrsquoutilisateur qui nrsquoa pas lrsquohabitude des espaces en 3D

effort cognitif plus eacuteleveacute et prise en main plus longue

bull Arbres hyperboliques

problegravemes des eacutetiquettes des eacuteleacutements (occlusion)

effet de zoom impreacutevisible

Lrsquoune des conclusions une seule visualisation ne permet pas de reacutepondre agrave toutes les questions

multiplier les possibiliteacutes de visualisation

63

Cartographie de linformation- Famille doutils et contextes applicatifs

2- Contextes applicatifs Eleacutements deacutevaluation

21- Evaluation scientifique doctorat en cours agrave lrsquoEBSI (Aline Creacutedeville)

bull Contexte visualisation de lrsquoinformation dans le contexte de recherche drsquoinformation

bull Point de vue de la seacutemiologie graphique

o principes les plus couramment utiliseacutes sont la proximiteacute (Grokker) lrsquoenglobage (Kartoo)

et la connectiviteacute (Auquabrowser)

omeacutetaphores visuelles pas toujours adeacutequates au web

bull Reacutesultats

o lrsquoinformation doit ecirctre structureacutee

o apports possible pour lrsquoexploration mais pas pour la recherche

64

Cartographie de linformation- Famille doutils et contextes applicatifs

2- Contextes applicatifs Eleacutements deacutevaluation

22- Evaluation en contexte dusage de recherche dinformations (Ciaccia Ihadjadene Martins 2006)

Objectif analyse de lrsquoinfluence du mode de preacutesentation des informations sur les processus cognitifs mis

en jeu par lrsquoutilisateur dans lrsquoactiviteacute de recherche drsquoinformations sur Internet

Outils eacutevalueacutes Kartoo (pour 18 usagers) et Mapstan (pour 16 usagers)

Principaux reacutesultats

Coucirct cognitif sans pour autant conduire agrave de meilleures performances (comparaison avec une

preacutesentation en liste)

Hypothegravese nouveauteacute de la preacutesentation versus habitude des preacutesentations verbales

Strateacutegie optimiseacutee preacuteciser la requecircte drsquoune recherche agrave but flou et se concentrer sur les informations

relieacutees agrave lrsquoobjectif de la question versus informations non relieacutees

Le sens de la visualisation doit ecirctre clarifieacute les systegravemes doivent faciliter la compreacutehension des

eacuteleacutements visualiseacutes

65

Cartographie de linformation- Famille doutils et contextes applicatifs

2- Contextes applicatifs Les perspectives de la cartographie seacutemantique (C Tricot de la seacutemantique agrave la carte)

Pour reacutesoudre la probleacutematique de la repreacutesentation de lrsquoinformation la visualisation de

lrsquoinformation seule ne suffit pas

La visualisation de lrsquoinformation permet uniquement de preacutesenter des donneacutees en leur

associant une repreacutesentation graphique

La cartographie seacutemantique se veut

Une meacutethode de cartographie reposant sur la seacutemantique dun domaine

Un processus de production de connaissances

donneacutees brutes -gt donneacutees structureacutees -gt donneacutees repreacutesenteacutees -gt donneacutees visualiseacutees

Un formalisme de description type Reacuteseaux seacutemantiques

Un langage de description cartographique

Une architecture multi-agents

66

Cartographie de linformation- Famille doutils et contextes applicatifs

2- Contextes applicatifs Les perspectives de la cartographie seacutemantique (C Tricot de la seacutemantique agrave la carte)

67

Cartographie de linformation- Famille doutils et contextes applicatifs

2- Contextes applicatifs Les perspectives de la cartographie seacutemantique

ldquoUne bonne structure repreacutesentative graphique pour un arbre de donneacutees est celle qui deacuteforme le moins les similitudes originales entre les uniteacutes de donneacutees (similitudes qui sont donneacutes par loutil de classification) ou en dautres termes deux individus (ou classes) qui sont proches lune de lautre le restent aussi possible que peut apregraves projection dans l`espace de visualisation et ceci doit ecirctre eacutevident(et veacuterifiable par une mesure de calcul de divergence) dans lenvironnement de visualisation ldquo Tricot 2006

Page 40: Cartographie de l'information- Composantes des - Urfist de Paris

40

Cartographie de linformation- Composantes des applications cartographiques

2- Composante visuelle Eleacutements de seacutemiologie graphique (J Bertin)

41

Cartographie de linformation- Composantes des applications cartographiques

2- Composante visuelle Eleacutements de seacutemiologie graphique (J Bertin)

Variables visuelles (laquo variables reacutetiniennes raquo)

Variation des proprieacuteteacutes graphiques des structures visuelles

42

Cartographie de linformation- Composantes des applications cartographiques

2- Composante visuelle Eleacutements de seacutemiologie graphique (J Bertin)

Variables visuelles

Cartographie de linformation- Composantes des applications cartographiques

2- Composante visuelle Eleacutements de seacutemiologie graphique (J Bertin)

43

44

Cartographie de linformation- Composantes des applications cartographiques

2- Composante visuelle Theacuteorie de la Gestalt (1890)

Principe

Le contexte est tregraves important dans la perception visuelle [Guillaume]

Les structures visuelles ne sont pas indeacutependantes les unes des autres et le contexte est

important pour la signification qui leur est attribueacutee

En graphique

La perception visuelle srsquoattache agrave reconnaicirctre des modegraveles dans un ensemble de structures

visuelles

De cette theacuteorie reacutesultent des lois correspondant agrave des cateacutegories drsquointeractions possibles entre

les structures visuelles

45

Cartographie de linformation- Composantes des applications cartographiques

Lois Effets Illustrations

Preacutegnance Une image est facile agrave comprendre si sa structure est simple et inversement

Proximiteacute Deux composants qui sont proches ont tendance agrave ecirctre perccedilus comme un

seul composant

Similariteacute Les composants similaires sont perccedilus comme srsquoils eacutetaient regroupeacutes

Fermeture Les contours proches sont perccedilus comme unifieacutes

Continuiteacute Des eacuteleacutements voisins sont perccedilus groupeacutes lorsqursquoils possegravedent

potentiellement un trait qui les relie

Symeacutetrie Des eacuteleacutements sont perccedilus comme un eacuteleacutement global lorsqursquoils forment une

symeacutetrie

Trajectoire identique Des eacuteleacutements qui se deacuteplacent avec la mecircme trajectoire semblent groupeacutes

Familiariteacute Des eacuteleacutements sont plus facilement groupables si le groupe est familier ou

significatif

46

Cartographie de linformation- Composantes des applications cartographiques

2- Composante visuelle Theacuteorie de la Gestalt (1890)

47

Cartographie de linformation- Composantes des applications cartographiques

2- Composante visuelle Conception drsquoun langage graphique (JB Lamy)

1- Analyser les informations ou connaissances que lrsquoon souhaite repreacutesenter

Determiner les attributs qui

deacutefinissent les termes agrave repreacutesenter

bull Par exemple pour repreacutesenter

des maladies les attributs pourraient

ecirctre la localisation anatomique

(cardiaque reacutenale) la seacuteveacuteriteacute etc

2- Associer agrave chaque attribut une variable

reacutetinienne pour le repreacutesenter

bull Par exemple pour les maladies

Associer lrsquoattribut localisation

anatomique agrave la variable

formepictogramme

bull Repreacutesenter la seacuteveacuteriteacute par la variable

couleur

3- Les relations entre les diffeacuterents termes

repreacutesenteacutes doivent ecirctre expliciteacutees

48

Cartographie de linformation

Famille doutils et contextes applicatifs

1- Famille doutils

Typologies

Aperccedilu

Travaux pratiques

2- Contextes applicatifs

Eleacutements deacutevaluation

Les perspectives de la cartographie seacutemantique

49

Cartographie de linformation- Famille doutils et contextes applicatifs

1- Famille doutils

Typologies

Aperccedilu

TP agrave partir de la seacutelection httpdeliciouscommylk02Stage_Carto

Et encore httpwwwvisualcomplexitycomvc (plus de 500 projets dans le domaine)

50

Cartographie de linformation- Famille doutils et contextes applicatifs

1- Famille doutils typologies

11- Typologie scientifique eacutetablie selon des critegraveres internes au domaine

bull les trois principaux paradigmes technique de visualisation type de donneacutees et type dinteraction (Keim

DA 2002)

bull la nature des donneacutees unidimensionnelles bidimensionnelles tridimensionnelles temporelles

multidimensionnelles hieacuterarchiques reacuteseaux (Shneiderman B 1996)

12- Etat de lart eacutevaluation - benchmarking typologie orienteacutee usages (veille et intelligence eacuteconomique)

Quelques exemples

Inist httpoutilsveilleinistfr

Esiee httpwwwaa-esieecomevent2005AGClaudeAschenbrennerppt

Ecole des Mines httpwwwdemoscienceorgresources

Commercial httpwwwk-praxiscom

Commercial httpwwwinformation-mininginfostate_of_art

Universitaire httpwell-formed-datanetthesis

13- Typologie cartographique

Quelques exemples de bloggers

bull Claude Aschenbrenner httpwwwserialmappercomarchive20070110la-pierre-de-rosette-de-la-

cartographie-de-l-informationhtml avec son mode demploi

bull Kartoo httpwwwmapdreamcom

51

Cartographie de linformation- Famille doutils et contextes applicatifs

1- Famille doutils typologie scientifique

52

Cartographie de linformation- Famille doutils orienteacutes laquo bibliothegraveques raquo

2- Les outils de navigation et de recherche sur Internet (seacutelection de Pierre Nobis)

A- Les navigateurs Nestor Navicrawler

53

Cartographie de linformation- Famille doutils orienteacutes laquo bibliothegraveques raquo

2- Les outils de navigation et de recherche sur Internet (seacutelection de Pierre Nobis)

B- Les outils de visualisation des reacutesultats PageBull ManagedQ

Bbis Les outils de visualisation de reacutesultats dans les actualiteacutes

repreacutesentation carreacutee Marumushi - Google NewsNewsIsFree - The Hive Group Tenbyten -flux RSS des sources drsquoactualiteacutes internationales

repreacutesentation sous forme de graphe

Silobreaker

54

Cartographie de linformation- Famille doutils orienteacutes laquo bibliothegraveques raquo

2- Les outils de navigation et de recherche sur Internet

B-Les outils de visualisation des reacutesultats TouchGraph application Java permettant de cartographier les reacutesultats issus

notamment de Google Amazon PubMed Alexa FaceBook

55

Cartographie de linformation- Famille doutils orienteacutes laquo bibliothegraveques raquo

2- Les outils de navigation et de recherche sur Internet (seacutelection de Pierre Nobis)

C- Les outils de recherche avec ajout de termes associeacutes dans une colonne regroupement theacutematique nuage de laquo tags raquo

D- Meacutetamoteurs avec affichage de clusters sous forme de listes

Carrot2 Clusty-Vivissimo Iboogie Polymeta Turbo10 Webclust

56

Cartographie de linformation- Famille doutils orienteacutes laquo bibliothegraveques raquo

2- Les outils de navigation et de recherche sur Internet (seacutelection de Pierre Nobis)

E- Meacutetamoteurs avec affichage de clusters sous forme graphique

E1- repreacutesentation centreacutee Allplus WebBrain

Allplus est un meacutetamoteur agrave clusteacuterisation graphique qui interroge les bases de Ask Google Yahoo et Livepar le biais de lrsquooutil Polymeta Lrsquointerface cluster graph permet de visualiser les reacutesultats sous une forme graphique

Webbrain permet de visualiser et drsquoaffiner les reacutesultats drsquoune requecircte issus de lrsquoOpen Directory Project

57

Cartographie de linformation- Famille doutils orienteacutes laquo bibliothegraveques raquo

2- Les outils de navigation et de recherche sur Internet (seacutelection de Pierre Nobis)

E- Meacutetamoteurs avec affichage de clusters sous forme graphique

E2- Repreacutesentation circulaire Grokker

E3- Repreacutesentation topographique TooLeNet srsquoappuie sur les technologies de KartOO et sur lrsquoindex de

Yahoo pour effectuer des recherches selon 3 modes moteur annuaire et carte auxquels srsquoajoutent des

options de personnalisation et de classification assez avanceacutees

58

Cartographie de linformation- Famille doutils orienteacutes laquo bibliothegraveques raquo

3- Les Outils graphiques dexploration

Wikimindmap est un outil drsquointerrogation

et de repreacutesentation des informations issues

de Wikipedia sous forme de carte heuristique

Visuwords est un dictionnaire en ligne

qui preacutesente ses reacutesultats sous forme de laquo grappes raquo

Il utilise la base de donneacutees Wordnet

Code couleur pour les diffeacuterentes relations

seacutemantiques hieacuterarchiques entre les termes

ainsi que les synonymes et les antonymes

59

Cartographie de linformation- Famille doutils orienteacutes laquo bibliothegraveques raquo

4- Les outils de creacuteation (carto)graphiqueA- Pour meacutemoire les logiciels de creacuteation de cartes heuristiques et conceptuelles

Cmaptools est un logiciel gratuit (usage eacuteducatif) de creacuteation de cartes conceptuelles

Freemind est un logiciel libre et gratuit qui permet de reacutealiser des cartes heuristiques

Thinkgraph est un logiciel gratuit de dessin 2D orienteacute vers la reacutealisation de cartes conceptuelles

60

Cartographie de linformation- Famille doutils orienteacutes laquo bibliothegraveques raquo

4- Les outils de creacuteation (carto)graphique

B- Les outils drsquoeacutedition de graphes

Guess est un logiciel libre et gratuit deacuteveloppeacute par Eytan Adar qui permet de visualiser des

graphes statiques Options de modification de certains attributs (taille couleur forme

algorithmes de positionnementhellip)

Pajek est un logiciel libre et gratuit (usage non commercial) deacuteveloppeacute par V Batagelj et A

Mrvar qui permet de traiter des donneacutees de reacuteseaux de grande taille Pajek signifie araigneacutee

en slovegravene

C- Les outils en ligne

ManyEye service collaboratif deacuteveloppeacute par IBM gracircce auquel on peut geacuteneacuterer selon un

des modegraveles proposeacutes sa propre visualisation de lrsquoinformation (apregraves avoir teacuteleacuteverseacute ses

propres donneacutees)

IssueCrawler outil de web social mining utilisable agrave distance (chargement des URL)

reacutecupeacuteration graphique

61

Cartographie de linformation- Famille doutils et contextes applicatifs

2- Contextes applicatifs

Eleacutements deacutevaluation

Les perspectives de la cartographie seacutemantique

62

Cartographie de linformation- Famille doutils et contextes applicatifs

2- Contextes applicatifs Eleacutements deacutevaluation

21- Evaluation scientifique

Question de meacutethode Eacutevaluation des Interfaces Utilisateur drsquoInformation Bonnel et Chevalier 2006

Objectif proposer une meacutethodologie deacutevaluation permettant de comparer du point de vue de la

visualisation des reacutesultats agrave une requecircte les outils de recherche Google Vivisimo Ujiko Grokker Kartoo

Vios SmartWeb (prototype)

Evaluation des repreacutesentations graphiques geacuteneacuteraliteacutes (Tricot et Roche 2006)

bull Arborescences simples

habitude des utilisateurs (explorateur de fichiers informatiques) pas de problegravemes avec volume limiteacute

au-delagrave drsquoune certaine quantiteacute drsquoinformation les arborescences deviennent inefficaces

bull Arbres de cocircnes en 3D

posent des problegravemes agrave lrsquoutilisateur qui nrsquoa pas lrsquohabitude des espaces en 3D

effort cognitif plus eacuteleveacute et prise en main plus longue

bull Arbres hyperboliques

problegravemes des eacutetiquettes des eacuteleacutements (occlusion)

effet de zoom impreacutevisible

Lrsquoune des conclusions une seule visualisation ne permet pas de reacutepondre agrave toutes les questions

multiplier les possibiliteacutes de visualisation

63

Cartographie de linformation- Famille doutils et contextes applicatifs

2- Contextes applicatifs Eleacutements deacutevaluation

21- Evaluation scientifique doctorat en cours agrave lrsquoEBSI (Aline Creacutedeville)

bull Contexte visualisation de lrsquoinformation dans le contexte de recherche drsquoinformation

bull Point de vue de la seacutemiologie graphique

o principes les plus couramment utiliseacutes sont la proximiteacute (Grokker) lrsquoenglobage (Kartoo)

et la connectiviteacute (Auquabrowser)

omeacutetaphores visuelles pas toujours adeacutequates au web

bull Reacutesultats

o lrsquoinformation doit ecirctre structureacutee

o apports possible pour lrsquoexploration mais pas pour la recherche

64

Cartographie de linformation- Famille doutils et contextes applicatifs

2- Contextes applicatifs Eleacutements deacutevaluation

22- Evaluation en contexte dusage de recherche dinformations (Ciaccia Ihadjadene Martins 2006)

Objectif analyse de lrsquoinfluence du mode de preacutesentation des informations sur les processus cognitifs mis

en jeu par lrsquoutilisateur dans lrsquoactiviteacute de recherche drsquoinformations sur Internet

Outils eacutevalueacutes Kartoo (pour 18 usagers) et Mapstan (pour 16 usagers)

Principaux reacutesultats

Coucirct cognitif sans pour autant conduire agrave de meilleures performances (comparaison avec une

preacutesentation en liste)

Hypothegravese nouveauteacute de la preacutesentation versus habitude des preacutesentations verbales

Strateacutegie optimiseacutee preacuteciser la requecircte drsquoune recherche agrave but flou et se concentrer sur les informations

relieacutees agrave lrsquoobjectif de la question versus informations non relieacutees

Le sens de la visualisation doit ecirctre clarifieacute les systegravemes doivent faciliter la compreacutehension des

eacuteleacutements visualiseacutes

65

Cartographie de linformation- Famille doutils et contextes applicatifs

2- Contextes applicatifs Les perspectives de la cartographie seacutemantique (C Tricot de la seacutemantique agrave la carte)

Pour reacutesoudre la probleacutematique de la repreacutesentation de lrsquoinformation la visualisation de

lrsquoinformation seule ne suffit pas

La visualisation de lrsquoinformation permet uniquement de preacutesenter des donneacutees en leur

associant une repreacutesentation graphique

La cartographie seacutemantique se veut

Une meacutethode de cartographie reposant sur la seacutemantique dun domaine

Un processus de production de connaissances

donneacutees brutes -gt donneacutees structureacutees -gt donneacutees repreacutesenteacutees -gt donneacutees visualiseacutees

Un formalisme de description type Reacuteseaux seacutemantiques

Un langage de description cartographique

Une architecture multi-agents

66

Cartographie de linformation- Famille doutils et contextes applicatifs

2- Contextes applicatifs Les perspectives de la cartographie seacutemantique (C Tricot de la seacutemantique agrave la carte)

67

Cartographie de linformation- Famille doutils et contextes applicatifs

2- Contextes applicatifs Les perspectives de la cartographie seacutemantique

ldquoUne bonne structure repreacutesentative graphique pour un arbre de donneacutees est celle qui deacuteforme le moins les similitudes originales entre les uniteacutes de donneacutees (similitudes qui sont donneacutes par loutil de classification) ou en dautres termes deux individus (ou classes) qui sont proches lune de lautre le restent aussi possible que peut apregraves projection dans l`espace de visualisation et ceci doit ecirctre eacutevident(et veacuterifiable par une mesure de calcul de divergence) dans lenvironnement de visualisation ldquo Tricot 2006

Page 41: Cartographie de l'information- Composantes des - Urfist de Paris

41

Cartographie de linformation- Composantes des applications cartographiques

2- Composante visuelle Eleacutements de seacutemiologie graphique (J Bertin)

Variables visuelles (laquo variables reacutetiniennes raquo)

Variation des proprieacuteteacutes graphiques des structures visuelles

42

Cartographie de linformation- Composantes des applications cartographiques

2- Composante visuelle Eleacutements de seacutemiologie graphique (J Bertin)

Variables visuelles

Cartographie de linformation- Composantes des applications cartographiques

2- Composante visuelle Eleacutements de seacutemiologie graphique (J Bertin)

43

44

Cartographie de linformation- Composantes des applications cartographiques

2- Composante visuelle Theacuteorie de la Gestalt (1890)

Principe

Le contexte est tregraves important dans la perception visuelle [Guillaume]

Les structures visuelles ne sont pas indeacutependantes les unes des autres et le contexte est

important pour la signification qui leur est attribueacutee

En graphique

La perception visuelle srsquoattache agrave reconnaicirctre des modegraveles dans un ensemble de structures

visuelles

De cette theacuteorie reacutesultent des lois correspondant agrave des cateacutegories drsquointeractions possibles entre

les structures visuelles

45

Cartographie de linformation- Composantes des applications cartographiques

Lois Effets Illustrations

Preacutegnance Une image est facile agrave comprendre si sa structure est simple et inversement

Proximiteacute Deux composants qui sont proches ont tendance agrave ecirctre perccedilus comme un

seul composant

Similariteacute Les composants similaires sont perccedilus comme srsquoils eacutetaient regroupeacutes

Fermeture Les contours proches sont perccedilus comme unifieacutes

Continuiteacute Des eacuteleacutements voisins sont perccedilus groupeacutes lorsqursquoils possegravedent

potentiellement un trait qui les relie

Symeacutetrie Des eacuteleacutements sont perccedilus comme un eacuteleacutement global lorsqursquoils forment une

symeacutetrie

Trajectoire identique Des eacuteleacutements qui se deacuteplacent avec la mecircme trajectoire semblent groupeacutes

Familiariteacute Des eacuteleacutements sont plus facilement groupables si le groupe est familier ou

significatif

46

Cartographie de linformation- Composantes des applications cartographiques

2- Composante visuelle Theacuteorie de la Gestalt (1890)

47

Cartographie de linformation- Composantes des applications cartographiques

2- Composante visuelle Conception drsquoun langage graphique (JB Lamy)

1- Analyser les informations ou connaissances que lrsquoon souhaite repreacutesenter

Determiner les attributs qui

deacutefinissent les termes agrave repreacutesenter

bull Par exemple pour repreacutesenter

des maladies les attributs pourraient

ecirctre la localisation anatomique

(cardiaque reacutenale) la seacuteveacuteriteacute etc

2- Associer agrave chaque attribut une variable

reacutetinienne pour le repreacutesenter

bull Par exemple pour les maladies

Associer lrsquoattribut localisation

anatomique agrave la variable

formepictogramme

bull Repreacutesenter la seacuteveacuteriteacute par la variable

couleur

3- Les relations entre les diffeacuterents termes

repreacutesenteacutes doivent ecirctre expliciteacutees

48

Cartographie de linformation

Famille doutils et contextes applicatifs

1- Famille doutils

Typologies

Aperccedilu

Travaux pratiques

2- Contextes applicatifs

Eleacutements deacutevaluation

Les perspectives de la cartographie seacutemantique

49

Cartographie de linformation- Famille doutils et contextes applicatifs

1- Famille doutils

Typologies

Aperccedilu

TP agrave partir de la seacutelection httpdeliciouscommylk02Stage_Carto

Et encore httpwwwvisualcomplexitycomvc (plus de 500 projets dans le domaine)

50

Cartographie de linformation- Famille doutils et contextes applicatifs

1- Famille doutils typologies

11- Typologie scientifique eacutetablie selon des critegraveres internes au domaine

bull les trois principaux paradigmes technique de visualisation type de donneacutees et type dinteraction (Keim

DA 2002)

bull la nature des donneacutees unidimensionnelles bidimensionnelles tridimensionnelles temporelles

multidimensionnelles hieacuterarchiques reacuteseaux (Shneiderman B 1996)

12- Etat de lart eacutevaluation - benchmarking typologie orienteacutee usages (veille et intelligence eacuteconomique)

Quelques exemples

Inist httpoutilsveilleinistfr

Esiee httpwwwaa-esieecomevent2005AGClaudeAschenbrennerppt

Ecole des Mines httpwwwdemoscienceorgresources

Commercial httpwwwk-praxiscom

Commercial httpwwwinformation-mininginfostate_of_art

Universitaire httpwell-formed-datanetthesis

13- Typologie cartographique

Quelques exemples de bloggers

bull Claude Aschenbrenner httpwwwserialmappercomarchive20070110la-pierre-de-rosette-de-la-

cartographie-de-l-informationhtml avec son mode demploi

bull Kartoo httpwwwmapdreamcom

51

Cartographie de linformation- Famille doutils et contextes applicatifs

1- Famille doutils typologie scientifique

52

Cartographie de linformation- Famille doutils orienteacutes laquo bibliothegraveques raquo

2- Les outils de navigation et de recherche sur Internet (seacutelection de Pierre Nobis)

A- Les navigateurs Nestor Navicrawler

53

Cartographie de linformation- Famille doutils orienteacutes laquo bibliothegraveques raquo

2- Les outils de navigation et de recherche sur Internet (seacutelection de Pierre Nobis)

B- Les outils de visualisation des reacutesultats PageBull ManagedQ

Bbis Les outils de visualisation de reacutesultats dans les actualiteacutes

repreacutesentation carreacutee Marumushi - Google NewsNewsIsFree - The Hive Group Tenbyten -flux RSS des sources drsquoactualiteacutes internationales

repreacutesentation sous forme de graphe

Silobreaker

54

Cartographie de linformation- Famille doutils orienteacutes laquo bibliothegraveques raquo

2- Les outils de navigation et de recherche sur Internet

B-Les outils de visualisation des reacutesultats TouchGraph application Java permettant de cartographier les reacutesultats issus

notamment de Google Amazon PubMed Alexa FaceBook

55

Cartographie de linformation- Famille doutils orienteacutes laquo bibliothegraveques raquo

2- Les outils de navigation et de recherche sur Internet (seacutelection de Pierre Nobis)

C- Les outils de recherche avec ajout de termes associeacutes dans une colonne regroupement theacutematique nuage de laquo tags raquo

D- Meacutetamoteurs avec affichage de clusters sous forme de listes

Carrot2 Clusty-Vivissimo Iboogie Polymeta Turbo10 Webclust

56

Cartographie de linformation- Famille doutils orienteacutes laquo bibliothegraveques raquo

2- Les outils de navigation et de recherche sur Internet (seacutelection de Pierre Nobis)

E- Meacutetamoteurs avec affichage de clusters sous forme graphique

E1- repreacutesentation centreacutee Allplus WebBrain

Allplus est un meacutetamoteur agrave clusteacuterisation graphique qui interroge les bases de Ask Google Yahoo et Livepar le biais de lrsquooutil Polymeta Lrsquointerface cluster graph permet de visualiser les reacutesultats sous une forme graphique

Webbrain permet de visualiser et drsquoaffiner les reacutesultats drsquoune requecircte issus de lrsquoOpen Directory Project

57

Cartographie de linformation- Famille doutils orienteacutes laquo bibliothegraveques raquo

2- Les outils de navigation et de recherche sur Internet (seacutelection de Pierre Nobis)

E- Meacutetamoteurs avec affichage de clusters sous forme graphique

E2- Repreacutesentation circulaire Grokker

E3- Repreacutesentation topographique TooLeNet srsquoappuie sur les technologies de KartOO et sur lrsquoindex de

Yahoo pour effectuer des recherches selon 3 modes moteur annuaire et carte auxquels srsquoajoutent des

options de personnalisation et de classification assez avanceacutees

58

Cartographie de linformation- Famille doutils orienteacutes laquo bibliothegraveques raquo

3- Les Outils graphiques dexploration

Wikimindmap est un outil drsquointerrogation

et de repreacutesentation des informations issues

de Wikipedia sous forme de carte heuristique

Visuwords est un dictionnaire en ligne

qui preacutesente ses reacutesultats sous forme de laquo grappes raquo

Il utilise la base de donneacutees Wordnet

Code couleur pour les diffeacuterentes relations

seacutemantiques hieacuterarchiques entre les termes

ainsi que les synonymes et les antonymes

59

Cartographie de linformation- Famille doutils orienteacutes laquo bibliothegraveques raquo

4- Les outils de creacuteation (carto)graphiqueA- Pour meacutemoire les logiciels de creacuteation de cartes heuristiques et conceptuelles

Cmaptools est un logiciel gratuit (usage eacuteducatif) de creacuteation de cartes conceptuelles

Freemind est un logiciel libre et gratuit qui permet de reacutealiser des cartes heuristiques

Thinkgraph est un logiciel gratuit de dessin 2D orienteacute vers la reacutealisation de cartes conceptuelles

60

Cartographie de linformation- Famille doutils orienteacutes laquo bibliothegraveques raquo

4- Les outils de creacuteation (carto)graphique

B- Les outils drsquoeacutedition de graphes

Guess est un logiciel libre et gratuit deacuteveloppeacute par Eytan Adar qui permet de visualiser des

graphes statiques Options de modification de certains attributs (taille couleur forme

algorithmes de positionnementhellip)

Pajek est un logiciel libre et gratuit (usage non commercial) deacuteveloppeacute par V Batagelj et A

Mrvar qui permet de traiter des donneacutees de reacuteseaux de grande taille Pajek signifie araigneacutee

en slovegravene

C- Les outils en ligne

ManyEye service collaboratif deacuteveloppeacute par IBM gracircce auquel on peut geacuteneacuterer selon un

des modegraveles proposeacutes sa propre visualisation de lrsquoinformation (apregraves avoir teacuteleacuteverseacute ses

propres donneacutees)

IssueCrawler outil de web social mining utilisable agrave distance (chargement des URL)

reacutecupeacuteration graphique

61

Cartographie de linformation- Famille doutils et contextes applicatifs

2- Contextes applicatifs

Eleacutements deacutevaluation

Les perspectives de la cartographie seacutemantique

62

Cartographie de linformation- Famille doutils et contextes applicatifs

2- Contextes applicatifs Eleacutements deacutevaluation

21- Evaluation scientifique

Question de meacutethode Eacutevaluation des Interfaces Utilisateur drsquoInformation Bonnel et Chevalier 2006

Objectif proposer une meacutethodologie deacutevaluation permettant de comparer du point de vue de la

visualisation des reacutesultats agrave une requecircte les outils de recherche Google Vivisimo Ujiko Grokker Kartoo

Vios SmartWeb (prototype)

Evaluation des repreacutesentations graphiques geacuteneacuteraliteacutes (Tricot et Roche 2006)

bull Arborescences simples

habitude des utilisateurs (explorateur de fichiers informatiques) pas de problegravemes avec volume limiteacute

au-delagrave drsquoune certaine quantiteacute drsquoinformation les arborescences deviennent inefficaces

bull Arbres de cocircnes en 3D

posent des problegravemes agrave lrsquoutilisateur qui nrsquoa pas lrsquohabitude des espaces en 3D

effort cognitif plus eacuteleveacute et prise en main plus longue

bull Arbres hyperboliques

problegravemes des eacutetiquettes des eacuteleacutements (occlusion)

effet de zoom impreacutevisible

Lrsquoune des conclusions une seule visualisation ne permet pas de reacutepondre agrave toutes les questions

multiplier les possibiliteacutes de visualisation

63

Cartographie de linformation- Famille doutils et contextes applicatifs

2- Contextes applicatifs Eleacutements deacutevaluation

21- Evaluation scientifique doctorat en cours agrave lrsquoEBSI (Aline Creacutedeville)

bull Contexte visualisation de lrsquoinformation dans le contexte de recherche drsquoinformation

bull Point de vue de la seacutemiologie graphique

o principes les plus couramment utiliseacutes sont la proximiteacute (Grokker) lrsquoenglobage (Kartoo)

et la connectiviteacute (Auquabrowser)

omeacutetaphores visuelles pas toujours adeacutequates au web

bull Reacutesultats

o lrsquoinformation doit ecirctre structureacutee

o apports possible pour lrsquoexploration mais pas pour la recherche

64

Cartographie de linformation- Famille doutils et contextes applicatifs

2- Contextes applicatifs Eleacutements deacutevaluation

22- Evaluation en contexte dusage de recherche dinformations (Ciaccia Ihadjadene Martins 2006)

Objectif analyse de lrsquoinfluence du mode de preacutesentation des informations sur les processus cognitifs mis

en jeu par lrsquoutilisateur dans lrsquoactiviteacute de recherche drsquoinformations sur Internet

Outils eacutevalueacutes Kartoo (pour 18 usagers) et Mapstan (pour 16 usagers)

Principaux reacutesultats

Coucirct cognitif sans pour autant conduire agrave de meilleures performances (comparaison avec une

preacutesentation en liste)

Hypothegravese nouveauteacute de la preacutesentation versus habitude des preacutesentations verbales

Strateacutegie optimiseacutee preacuteciser la requecircte drsquoune recherche agrave but flou et se concentrer sur les informations

relieacutees agrave lrsquoobjectif de la question versus informations non relieacutees

Le sens de la visualisation doit ecirctre clarifieacute les systegravemes doivent faciliter la compreacutehension des

eacuteleacutements visualiseacutes

65

Cartographie de linformation- Famille doutils et contextes applicatifs

2- Contextes applicatifs Les perspectives de la cartographie seacutemantique (C Tricot de la seacutemantique agrave la carte)

Pour reacutesoudre la probleacutematique de la repreacutesentation de lrsquoinformation la visualisation de

lrsquoinformation seule ne suffit pas

La visualisation de lrsquoinformation permet uniquement de preacutesenter des donneacutees en leur

associant une repreacutesentation graphique

La cartographie seacutemantique se veut

Une meacutethode de cartographie reposant sur la seacutemantique dun domaine

Un processus de production de connaissances

donneacutees brutes -gt donneacutees structureacutees -gt donneacutees repreacutesenteacutees -gt donneacutees visualiseacutees

Un formalisme de description type Reacuteseaux seacutemantiques

Un langage de description cartographique

Une architecture multi-agents

66

Cartographie de linformation- Famille doutils et contextes applicatifs

2- Contextes applicatifs Les perspectives de la cartographie seacutemantique (C Tricot de la seacutemantique agrave la carte)

67

Cartographie de linformation- Famille doutils et contextes applicatifs

2- Contextes applicatifs Les perspectives de la cartographie seacutemantique

ldquoUne bonne structure repreacutesentative graphique pour un arbre de donneacutees est celle qui deacuteforme le moins les similitudes originales entre les uniteacutes de donneacutees (similitudes qui sont donneacutes par loutil de classification) ou en dautres termes deux individus (ou classes) qui sont proches lune de lautre le restent aussi possible que peut apregraves projection dans l`espace de visualisation et ceci doit ecirctre eacutevident(et veacuterifiable par une mesure de calcul de divergence) dans lenvironnement de visualisation ldquo Tricot 2006

Page 42: Cartographie de l'information- Composantes des - Urfist de Paris

42

Cartographie de linformation- Composantes des applications cartographiques

2- Composante visuelle Eleacutements de seacutemiologie graphique (J Bertin)

Variables visuelles

Cartographie de linformation- Composantes des applications cartographiques

2- Composante visuelle Eleacutements de seacutemiologie graphique (J Bertin)

43

44

Cartographie de linformation- Composantes des applications cartographiques

2- Composante visuelle Theacuteorie de la Gestalt (1890)

Principe

Le contexte est tregraves important dans la perception visuelle [Guillaume]

Les structures visuelles ne sont pas indeacutependantes les unes des autres et le contexte est

important pour la signification qui leur est attribueacutee

En graphique

La perception visuelle srsquoattache agrave reconnaicirctre des modegraveles dans un ensemble de structures

visuelles

De cette theacuteorie reacutesultent des lois correspondant agrave des cateacutegories drsquointeractions possibles entre

les structures visuelles

45

Cartographie de linformation- Composantes des applications cartographiques

Lois Effets Illustrations

Preacutegnance Une image est facile agrave comprendre si sa structure est simple et inversement

Proximiteacute Deux composants qui sont proches ont tendance agrave ecirctre perccedilus comme un

seul composant

Similariteacute Les composants similaires sont perccedilus comme srsquoils eacutetaient regroupeacutes

Fermeture Les contours proches sont perccedilus comme unifieacutes

Continuiteacute Des eacuteleacutements voisins sont perccedilus groupeacutes lorsqursquoils possegravedent

potentiellement un trait qui les relie

Symeacutetrie Des eacuteleacutements sont perccedilus comme un eacuteleacutement global lorsqursquoils forment une

symeacutetrie

Trajectoire identique Des eacuteleacutements qui se deacuteplacent avec la mecircme trajectoire semblent groupeacutes

Familiariteacute Des eacuteleacutements sont plus facilement groupables si le groupe est familier ou

significatif

46

Cartographie de linformation- Composantes des applications cartographiques

2- Composante visuelle Theacuteorie de la Gestalt (1890)

47

Cartographie de linformation- Composantes des applications cartographiques

2- Composante visuelle Conception drsquoun langage graphique (JB Lamy)

1- Analyser les informations ou connaissances que lrsquoon souhaite repreacutesenter

Determiner les attributs qui

deacutefinissent les termes agrave repreacutesenter

bull Par exemple pour repreacutesenter

des maladies les attributs pourraient

ecirctre la localisation anatomique

(cardiaque reacutenale) la seacuteveacuteriteacute etc

2- Associer agrave chaque attribut une variable

reacutetinienne pour le repreacutesenter

bull Par exemple pour les maladies

Associer lrsquoattribut localisation

anatomique agrave la variable

formepictogramme

bull Repreacutesenter la seacuteveacuteriteacute par la variable

couleur

3- Les relations entre les diffeacuterents termes

repreacutesenteacutes doivent ecirctre expliciteacutees

48

Cartographie de linformation

Famille doutils et contextes applicatifs

1- Famille doutils

Typologies

Aperccedilu

Travaux pratiques

2- Contextes applicatifs

Eleacutements deacutevaluation

Les perspectives de la cartographie seacutemantique

49

Cartographie de linformation- Famille doutils et contextes applicatifs

1- Famille doutils

Typologies

Aperccedilu

TP agrave partir de la seacutelection httpdeliciouscommylk02Stage_Carto

Et encore httpwwwvisualcomplexitycomvc (plus de 500 projets dans le domaine)

50

Cartographie de linformation- Famille doutils et contextes applicatifs

1- Famille doutils typologies

11- Typologie scientifique eacutetablie selon des critegraveres internes au domaine

bull les trois principaux paradigmes technique de visualisation type de donneacutees et type dinteraction (Keim

DA 2002)

bull la nature des donneacutees unidimensionnelles bidimensionnelles tridimensionnelles temporelles

multidimensionnelles hieacuterarchiques reacuteseaux (Shneiderman B 1996)

12- Etat de lart eacutevaluation - benchmarking typologie orienteacutee usages (veille et intelligence eacuteconomique)

Quelques exemples

Inist httpoutilsveilleinistfr

Esiee httpwwwaa-esieecomevent2005AGClaudeAschenbrennerppt

Ecole des Mines httpwwwdemoscienceorgresources

Commercial httpwwwk-praxiscom

Commercial httpwwwinformation-mininginfostate_of_art

Universitaire httpwell-formed-datanetthesis

13- Typologie cartographique

Quelques exemples de bloggers

bull Claude Aschenbrenner httpwwwserialmappercomarchive20070110la-pierre-de-rosette-de-la-

cartographie-de-l-informationhtml avec son mode demploi

bull Kartoo httpwwwmapdreamcom

51

Cartographie de linformation- Famille doutils et contextes applicatifs

1- Famille doutils typologie scientifique

52

Cartographie de linformation- Famille doutils orienteacutes laquo bibliothegraveques raquo

2- Les outils de navigation et de recherche sur Internet (seacutelection de Pierre Nobis)

A- Les navigateurs Nestor Navicrawler

53

Cartographie de linformation- Famille doutils orienteacutes laquo bibliothegraveques raquo

2- Les outils de navigation et de recherche sur Internet (seacutelection de Pierre Nobis)

B- Les outils de visualisation des reacutesultats PageBull ManagedQ

Bbis Les outils de visualisation de reacutesultats dans les actualiteacutes

repreacutesentation carreacutee Marumushi - Google NewsNewsIsFree - The Hive Group Tenbyten -flux RSS des sources drsquoactualiteacutes internationales

repreacutesentation sous forme de graphe

Silobreaker

54

Cartographie de linformation- Famille doutils orienteacutes laquo bibliothegraveques raquo

2- Les outils de navigation et de recherche sur Internet

B-Les outils de visualisation des reacutesultats TouchGraph application Java permettant de cartographier les reacutesultats issus

notamment de Google Amazon PubMed Alexa FaceBook

55

Cartographie de linformation- Famille doutils orienteacutes laquo bibliothegraveques raquo

2- Les outils de navigation et de recherche sur Internet (seacutelection de Pierre Nobis)

C- Les outils de recherche avec ajout de termes associeacutes dans une colonne regroupement theacutematique nuage de laquo tags raquo

D- Meacutetamoteurs avec affichage de clusters sous forme de listes

Carrot2 Clusty-Vivissimo Iboogie Polymeta Turbo10 Webclust

56

Cartographie de linformation- Famille doutils orienteacutes laquo bibliothegraveques raquo

2- Les outils de navigation et de recherche sur Internet (seacutelection de Pierre Nobis)

E- Meacutetamoteurs avec affichage de clusters sous forme graphique

E1- repreacutesentation centreacutee Allplus WebBrain

Allplus est un meacutetamoteur agrave clusteacuterisation graphique qui interroge les bases de Ask Google Yahoo et Livepar le biais de lrsquooutil Polymeta Lrsquointerface cluster graph permet de visualiser les reacutesultats sous une forme graphique

Webbrain permet de visualiser et drsquoaffiner les reacutesultats drsquoune requecircte issus de lrsquoOpen Directory Project

57

Cartographie de linformation- Famille doutils orienteacutes laquo bibliothegraveques raquo

2- Les outils de navigation et de recherche sur Internet (seacutelection de Pierre Nobis)

E- Meacutetamoteurs avec affichage de clusters sous forme graphique

E2- Repreacutesentation circulaire Grokker

E3- Repreacutesentation topographique TooLeNet srsquoappuie sur les technologies de KartOO et sur lrsquoindex de

Yahoo pour effectuer des recherches selon 3 modes moteur annuaire et carte auxquels srsquoajoutent des

options de personnalisation et de classification assez avanceacutees

58

Cartographie de linformation- Famille doutils orienteacutes laquo bibliothegraveques raquo

3- Les Outils graphiques dexploration

Wikimindmap est un outil drsquointerrogation

et de repreacutesentation des informations issues

de Wikipedia sous forme de carte heuristique

Visuwords est un dictionnaire en ligne

qui preacutesente ses reacutesultats sous forme de laquo grappes raquo

Il utilise la base de donneacutees Wordnet

Code couleur pour les diffeacuterentes relations

seacutemantiques hieacuterarchiques entre les termes

ainsi que les synonymes et les antonymes

59

Cartographie de linformation- Famille doutils orienteacutes laquo bibliothegraveques raquo

4- Les outils de creacuteation (carto)graphiqueA- Pour meacutemoire les logiciels de creacuteation de cartes heuristiques et conceptuelles

Cmaptools est un logiciel gratuit (usage eacuteducatif) de creacuteation de cartes conceptuelles

Freemind est un logiciel libre et gratuit qui permet de reacutealiser des cartes heuristiques

Thinkgraph est un logiciel gratuit de dessin 2D orienteacute vers la reacutealisation de cartes conceptuelles

60

Cartographie de linformation- Famille doutils orienteacutes laquo bibliothegraveques raquo

4- Les outils de creacuteation (carto)graphique

B- Les outils drsquoeacutedition de graphes

Guess est un logiciel libre et gratuit deacuteveloppeacute par Eytan Adar qui permet de visualiser des

graphes statiques Options de modification de certains attributs (taille couleur forme

algorithmes de positionnementhellip)

Pajek est un logiciel libre et gratuit (usage non commercial) deacuteveloppeacute par V Batagelj et A

Mrvar qui permet de traiter des donneacutees de reacuteseaux de grande taille Pajek signifie araigneacutee

en slovegravene

C- Les outils en ligne

ManyEye service collaboratif deacuteveloppeacute par IBM gracircce auquel on peut geacuteneacuterer selon un

des modegraveles proposeacutes sa propre visualisation de lrsquoinformation (apregraves avoir teacuteleacuteverseacute ses

propres donneacutees)

IssueCrawler outil de web social mining utilisable agrave distance (chargement des URL)

reacutecupeacuteration graphique

61

Cartographie de linformation- Famille doutils et contextes applicatifs

2- Contextes applicatifs

Eleacutements deacutevaluation

Les perspectives de la cartographie seacutemantique

62

Cartographie de linformation- Famille doutils et contextes applicatifs

2- Contextes applicatifs Eleacutements deacutevaluation

21- Evaluation scientifique

Question de meacutethode Eacutevaluation des Interfaces Utilisateur drsquoInformation Bonnel et Chevalier 2006

Objectif proposer une meacutethodologie deacutevaluation permettant de comparer du point de vue de la

visualisation des reacutesultats agrave une requecircte les outils de recherche Google Vivisimo Ujiko Grokker Kartoo

Vios SmartWeb (prototype)

Evaluation des repreacutesentations graphiques geacuteneacuteraliteacutes (Tricot et Roche 2006)

bull Arborescences simples

habitude des utilisateurs (explorateur de fichiers informatiques) pas de problegravemes avec volume limiteacute

au-delagrave drsquoune certaine quantiteacute drsquoinformation les arborescences deviennent inefficaces

bull Arbres de cocircnes en 3D

posent des problegravemes agrave lrsquoutilisateur qui nrsquoa pas lrsquohabitude des espaces en 3D

effort cognitif plus eacuteleveacute et prise en main plus longue

bull Arbres hyperboliques

problegravemes des eacutetiquettes des eacuteleacutements (occlusion)

effet de zoom impreacutevisible

Lrsquoune des conclusions une seule visualisation ne permet pas de reacutepondre agrave toutes les questions

multiplier les possibiliteacutes de visualisation

63

Cartographie de linformation- Famille doutils et contextes applicatifs

2- Contextes applicatifs Eleacutements deacutevaluation

21- Evaluation scientifique doctorat en cours agrave lrsquoEBSI (Aline Creacutedeville)

bull Contexte visualisation de lrsquoinformation dans le contexte de recherche drsquoinformation

bull Point de vue de la seacutemiologie graphique

o principes les plus couramment utiliseacutes sont la proximiteacute (Grokker) lrsquoenglobage (Kartoo)

et la connectiviteacute (Auquabrowser)

omeacutetaphores visuelles pas toujours adeacutequates au web

bull Reacutesultats

o lrsquoinformation doit ecirctre structureacutee

o apports possible pour lrsquoexploration mais pas pour la recherche

64

Cartographie de linformation- Famille doutils et contextes applicatifs

2- Contextes applicatifs Eleacutements deacutevaluation

22- Evaluation en contexte dusage de recherche dinformations (Ciaccia Ihadjadene Martins 2006)

Objectif analyse de lrsquoinfluence du mode de preacutesentation des informations sur les processus cognitifs mis

en jeu par lrsquoutilisateur dans lrsquoactiviteacute de recherche drsquoinformations sur Internet

Outils eacutevalueacutes Kartoo (pour 18 usagers) et Mapstan (pour 16 usagers)

Principaux reacutesultats

Coucirct cognitif sans pour autant conduire agrave de meilleures performances (comparaison avec une

preacutesentation en liste)

Hypothegravese nouveauteacute de la preacutesentation versus habitude des preacutesentations verbales

Strateacutegie optimiseacutee preacuteciser la requecircte drsquoune recherche agrave but flou et se concentrer sur les informations

relieacutees agrave lrsquoobjectif de la question versus informations non relieacutees

Le sens de la visualisation doit ecirctre clarifieacute les systegravemes doivent faciliter la compreacutehension des

eacuteleacutements visualiseacutes

65

Cartographie de linformation- Famille doutils et contextes applicatifs

2- Contextes applicatifs Les perspectives de la cartographie seacutemantique (C Tricot de la seacutemantique agrave la carte)

Pour reacutesoudre la probleacutematique de la repreacutesentation de lrsquoinformation la visualisation de

lrsquoinformation seule ne suffit pas

La visualisation de lrsquoinformation permet uniquement de preacutesenter des donneacutees en leur

associant une repreacutesentation graphique

La cartographie seacutemantique se veut

Une meacutethode de cartographie reposant sur la seacutemantique dun domaine

Un processus de production de connaissances

donneacutees brutes -gt donneacutees structureacutees -gt donneacutees repreacutesenteacutees -gt donneacutees visualiseacutees

Un formalisme de description type Reacuteseaux seacutemantiques

Un langage de description cartographique

Une architecture multi-agents

66

Cartographie de linformation- Famille doutils et contextes applicatifs

2- Contextes applicatifs Les perspectives de la cartographie seacutemantique (C Tricot de la seacutemantique agrave la carte)

67

Cartographie de linformation- Famille doutils et contextes applicatifs

2- Contextes applicatifs Les perspectives de la cartographie seacutemantique

ldquoUne bonne structure repreacutesentative graphique pour un arbre de donneacutees est celle qui deacuteforme le moins les similitudes originales entre les uniteacutes de donneacutees (similitudes qui sont donneacutes par loutil de classification) ou en dautres termes deux individus (ou classes) qui sont proches lune de lautre le restent aussi possible que peut apregraves projection dans l`espace de visualisation et ceci doit ecirctre eacutevident(et veacuterifiable par une mesure de calcul de divergence) dans lenvironnement de visualisation ldquo Tricot 2006

Page 43: Cartographie de l'information- Composantes des - Urfist de Paris

Cartographie de linformation- Composantes des applications cartographiques

2- Composante visuelle Eleacutements de seacutemiologie graphique (J Bertin)

43

44

Cartographie de linformation- Composantes des applications cartographiques

2- Composante visuelle Theacuteorie de la Gestalt (1890)

Principe

Le contexte est tregraves important dans la perception visuelle [Guillaume]

Les structures visuelles ne sont pas indeacutependantes les unes des autres et le contexte est

important pour la signification qui leur est attribueacutee

En graphique

La perception visuelle srsquoattache agrave reconnaicirctre des modegraveles dans un ensemble de structures

visuelles

De cette theacuteorie reacutesultent des lois correspondant agrave des cateacutegories drsquointeractions possibles entre

les structures visuelles

45

Cartographie de linformation- Composantes des applications cartographiques

Lois Effets Illustrations

Preacutegnance Une image est facile agrave comprendre si sa structure est simple et inversement

Proximiteacute Deux composants qui sont proches ont tendance agrave ecirctre perccedilus comme un

seul composant

Similariteacute Les composants similaires sont perccedilus comme srsquoils eacutetaient regroupeacutes

Fermeture Les contours proches sont perccedilus comme unifieacutes

Continuiteacute Des eacuteleacutements voisins sont perccedilus groupeacutes lorsqursquoils possegravedent

potentiellement un trait qui les relie

Symeacutetrie Des eacuteleacutements sont perccedilus comme un eacuteleacutement global lorsqursquoils forment une

symeacutetrie

Trajectoire identique Des eacuteleacutements qui se deacuteplacent avec la mecircme trajectoire semblent groupeacutes

Familiariteacute Des eacuteleacutements sont plus facilement groupables si le groupe est familier ou

significatif

46

Cartographie de linformation- Composantes des applications cartographiques

2- Composante visuelle Theacuteorie de la Gestalt (1890)

47

Cartographie de linformation- Composantes des applications cartographiques

2- Composante visuelle Conception drsquoun langage graphique (JB Lamy)

1- Analyser les informations ou connaissances que lrsquoon souhaite repreacutesenter

Determiner les attributs qui

deacutefinissent les termes agrave repreacutesenter

bull Par exemple pour repreacutesenter

des maladies les attributs pourraient

ecirctre la localisation anatomique

(cardiaque reacutenale) la seacuteveacuteriteacute etc

2- Associer agrave chaque attribut une variable

reacutetinienne pour le repreacutesenter

bull Par exemple pour les maladies

Associer lrsquoattribut localisation

anatomique agrave la variable

formepictogramme

bull Repreacutesenter la seacuteveacuteriteacute par la variable

couleur

3- Les relations entre les diffeacuterents termes

repreacutesenteacutes doivent ecirctre expliciteacutees

48

Cartographie de linformation

Famille doutils et contextes applicatifs

1- Famille doutils

Typologies

Aperccedilu

Travaux pratiques

2- Contextes applicatifs

Eleacutements deacutevaluation

Les perspectives de la cartographie seacutemantique

49

Cartographie de linformation- Famille doutils et contextes applicatifs

1- Famille doutils

Typologies

Aperccedilu

TP agrave partir de la seacutelection httpdeliciouscommylk02Stage_Carto

Et encore httpwwwvisualcomplexitycomvc (plus de 500 projets dans le domaine)

50

Cartographie de linformation- Famille doutils et contextes applicatifs

1- Famille doutils typologies

11- Typologie scientifique eacutetablie selon des critegraveres internes au domaine

bull les trois principaux paradigmes technique de visualisation type de donneacutees et type dinteraction (Keim

DA 2002)

bull la nature des donneacutees unidimensionnelles bidimensionnelles tridimensionnelles temporelles

multidimensionnelles hieacuterarchiques reacuteseaux (Shneiderman B 1996)

12- Etat de lart eacutevaluation - benchmarking typologie orienteacutee usages (veille et intelligence eacuteconomique)

Quelques exemples

Inist httpoutilsveilleinistfr

Esiee httpwwwaa-esieecomevent2005AGClaudeAschenbrennerppt

Ecole des Mines httpwwwdemoscienceorgresources

Commercial httpwwwk-praxiscom

Commercial httpwwwinformation-mininginfostate_of_art

Universitaire httpwell-formed-datanetthesis

13- Typologie cartographique

Quelques exemples de bloggers

bull Claude Aschenbrenner httpwwwserialmappercomarchive20070110la-pierre-de-rosette-de-la-

cartographie-de-l-informationhtml avec son mode demploi

bull Kartoo httpwwwmapdreamcom

51

Cartographie de linformation- Famille doutils et contextes applicatifs

1- Famille doutils typologie scientifique

52

Cartographie de linformation- Famille doutils orienteacutes laquo bibliothegraveques raquo

2- Les outils de navigation et de recherche sur Internet (seacutelection de Pierre Nobis)

A- Les navigateurs Nestor Navicrawler

53

Cartographie de linformation- Famille doutils orienteacutes laquo bibliothegraveques raquo

2- Les outils de navigation et de recherche sur Internet (seacutelection de Pierre Nobis)

B- Les outils de visualisation des reacutesultats PageBull ManagedQ

Bbis Les outils de visualisation de reacutesultats dans les actualiteacutes

repreacutesentation carreacutee Marumushi - Google NewsNewsIsFree - The Hive Group Tenbyten -flux RSS des sources drsquoactualiteacutes internationales

repreacutesentation sous forme de graphe

Silobreaker

54

Cartographie de linformation- Famille doutils orienteacutes laquo bibliothegraveques raquo

2- Les outils de navigation et de recherche sur Internet

B-Les outils de visualisation des reacutesultats TouchGraph application Java permettant de cartographier les reacutesultats issus

notamment de Google Amazon PubMed Alexa FaceBook

55

Cartographie de linformation- Famille doutils orienteacutes laquo bibliothegraveques raquo

2- Les outils de navigation et de recherche sur Internet (seacutelection de Pierre Nobis)

C- Les outils de recherche avec ajout de termes associeacutes dans une colonne regroupement theacutematique nuage de laquo tags raquo

D- Meacutetamoteurs avec affichage de clusters sous forme de listes

Carrot2 Clusty-Vivissimo Iboogie Polymeta Turbo10 Webclust

56

Cartographie de linformation- Famille doutils orienteacutes laquo bibliothegraveques raquo

2- Les outils de navigation et de recherche sur Internet (seacutelection de Pierre Nobis)

E- Meacutetamoteurs avec affichage de clusters sous forme graphique

E1- repreacutesentation centreacutee Allplus WebBrain

Allplus est un meacutetamoteur agrave clusteacuterisation graphique qui interroge les bases de Ask Google Yahoo et Livepar le biais de lrsquooutil Polymeta Lrsquointerface cluster graph permet de visualiser les reacutesultats sous une forme graphique

Webbrain permet de visualiser et drsquoaffiner les reacutesultats drsquoune requecircte issus de lrsquoOpen Directory Project

57

Cartographie de linformation- Famille doutils orienteacutes laquo bibliothegraveques raquo

2- Les outils de navigation et de recherche sur Internet (seacutelection de Pierre Nobis)

E- Meacutetamoteurs avec affichage de clusters sous forme graphique

E2- Repreacutesentation circulaire Grokker

E3- Repreacutesentation topographique TooLeNet srsquoappuie sur les technologies de KartOO et sur lrsquoindex de

Yahoo pour effectuer des recherches selon 3 modes moteur annuaire et carte auxquels srsquoajoutent des

options de personnalisation et de classification assez avanceacutees

58

Cartographie de linformation- Famille doutils orienteacutes laquo bibliothegraveques raquo

3- Les Outils graphiques dexploration

Wikimindmap est un outil drsquointerrogation

et de repreacutesentation des informations issues

de Wikipedia sous forme de carte heuristique

Visuwords est un dictionnaire en ligne

qui preacutesente ses reacutesultats sous forme de laquo grappes raquo

Il utilise la base de donneacutees Wordnet

Code couleur pour les diffeacuterentes relations

seacutemantiques hieacuterarchiques entre les termes

ainsi que les synonymes et les antonymes

59

Cartographie de linformation- Famille doutils orienteacutes laquo bibliothegraveques raquo

4- Les outils de creacuteation (carto)graphiqueA- Pour meacutemoire les logiciels de creacuteation de cartes heuristiques et conceptuelles

Cmaptools est un logiciel gratuit (usage eacuteducatif) de creacuteation de cartes conceptuelles

Freemind est un logiciel libre et gratuit qui permet de reacutealiser des cartes heuristiques

Thinkgraph est un logiciel gratuit de dessin 2D orienteacute vers la reacutealisation de cartes conceptuelles

60

Cartographie de linformation- Famille doutils orienteacutes laquo bibliothegraveques raquo

4- Les outils de creacuteation (carto)graphique

B- Les outils drsquoeacutedition de graphes

Guess est un logiciel libre et gratuit deacuteveloppeacute par Eytan Adar qui permet de visualiser des

graphes statiques Options de modification de certains attributs (taille couleur forme

algorithmes de positionnementhellip)

Pajek est un logiciel libre et gratuit (usage non commercial) deacuteveloppeacute par V Batagelj et A

Mrvar qui permet de traiter des donneacutees de reacuteseaux de grande taille Pajek signifie araigneacutee

en slovegravene

C- Les outils en ligne

ManyEye service collaboratif deacuteveloppeacute par IBM gracircce auquel on peut geacuteneacuterer selon un

des modegraveles proposeacutes sa propre visualisation de lrsquoinformation (apregraves avoir teacuteleacuteverseacute ses

propres donneacutees)

IssueCrawler outil de web social mining utilisable agrave distance (chargement des URL)

reacutecupeacuteration graphique

61

Cartographie de linformation- Famille doutils et contextes applicatifs

2- Contextes applicatifs

Eleacutements deacutevaluation

Les perspectives de la cartographie seacutemantique

62

Cartographie de linformation- Famille doutils et contextes applicatifs

2- Contextes applicatifs Eleacutements deacutevaluation

21- Evaluation scientifique

Question de meacutethode Eacutevaluation des Interfaces Utilisateur drsquoInformation Bonnel et Chevalier 2006

Objectif proposer une meacutethodologie deacutevaluation permettant de comparer du point de vue de la

visualisation des reacutesultats agrave une requecircte les outils de recherche Google Vivisimo Ujiko Grokker Kartoo

Vios SmartWeb (prototype)

Evaluation des repreacutesentations graphiques geacuteneacuteraliteacutes (Tricot et Roche 2006)

bull Arborescences simples

habitude des utilisateurs (explorateur de fichiers informatiques) pas de problegravemes avec volume limiteacute

au-delagrave drsquoune certaine quantiteacute drsquoinformation les arborescences deviennent inefficaces

bull Arbres de cocircnes en 3D

posent des problegravemes agrave lrsquoutilisateur qui nrsquoa pas lrsquohabitude des espaces en 3D

effort cognitif plus eacuteleveacute et prise en main plus longue

bull Arbres hyperboliques

problegravemes des eacutetiquettes des eacuteleacutements (occlusion)

effet de zoom impreacutevisible

Lrsquoune des conclusions une seule visualisation ne permet pas de reacutepondre agrave toutes les questions

multiplier les possibiliteacutes de visualisation

63

Cartographie de linformation- Famille doutils et contextes applicatifs

2- Contextes applicatifs Eleacutements deacutevaluation

21- Evaluation scientifique doctorat en cours agrave lrsquoEBSI (Aline Creacutedeville)

bull Contexte visualisation de lrsquoinformation dans le contexte de recherche drsquoinformation

bull Point de vue de la seacutemiologie graphique

o principes les plus couramment utiliseacutes sont la proximiteacute (Grokker) lrsquoenglobage (Kartoo)

et la connectiviteacute (Auquabrowser)

omeacutetaphores visuelles pas toujours adeacutequates au web

bull Reacutesultats

o lrsquoinformation doit ecirctre structureacutee

o apports possible pour lrsquoexploration mais pas pour la recherche

64

Cartographie de linformation- Famille doutils et contextes applicatifs

2- Contextes applicatifs Eleacutements deacutevaluation

22- Evaluation en contexte dusage de recherche dinformations (Ciaccia Ihadjadene Martins 2006)

Objectif analyse de lrsquoinfluence du mode de preacutesentation des informations sur les processus cognitifs mis

en jeu par lrsquoutilisateur dans lrsquoactiviteacute de recherche drsquoinformations sur Internet

Outils eacutevalueacutes Kartoo (pour 18 usagers) et Mapstan (pour 16 usagers)

Principaux reacutesultats

Coucirct cognitif sans pour autant conduire agrave de meilleures performances (comparaison avec une

preacutesentation en liste)

Hypothegravese nouveauteacute de la preacutesentation versus habitude des preacutesentations verbales

Strateacutegie optimiseacutee preacuteciser la requecircte drsquoune recherche agrave but flou et se concentrer sur les informations

relieacutees agrave lrsquoobjectif de la question versus informations non relieacutees

Le sens de la visualisation doit ecirctre clarifieacute les systegravemes doivent faciliter la compreacutehension des

eacuteleacutements visualiseacutes

65

Cartographie de linformation- Famille doutils et contextes applicatifs

2- Contextes applicatifs Les perspectives de la cartographie seacutemantique (C Tricot de la seacutemantique agrave la carte)

Pour reacutesoudre la probleacutematique de la repreacutesentation de lrsquoinformation la visualisation de

lrsquoinformation seule ne suffit pas

La visualisation de lrsquoinformation permet uniquement de preacutesenter des donneacutees en leur

associant une repreacutesentation graphique

La cartographie seacutemantique se veut

Une meacutethode de cartographie reposant sur la seacutemantique dun domaine

Un processus de production de connaissances

donneacutees brutes -gt donneacutees structureacutees -gt donneacutees repreacutesenteacutees -gt donneacutees visualiseacutees

Un formalisme de description type Reacuteseaux seacutemantiques

Un langage de description cartographique

Une architecture multi-agents

66

Cartographie de linformation- Famille doutils et contextes applicatifs

2- Contextes applicatifs Les perspectives de la cartographie seacutemantique (C Tricot de la seacutemantique agrave la carte)

67

Cartographie de linformation- Famille doutils et contextes applicatifs

2- Contextes applicatifs Les perspectives de la cartographie seacutemantique

ldquoUne bonne structure repreacutesentative graphique pour un arbre de donneacutees est celle qui deacuteforme le moins les similitudes originales entre les uniteacutes de donneacutees (similitudes qui sont donneacutes par loutil de classification) ou en dautres termes deux individus (ou classes) qui sont proches lune de lautre le restent aussi possible que peut apregraves projection dans l`espace de visualisation et ceci doit ecirctre eacutevident(et veacuterifiable par une mesure de calcul de divergence) dans lenvironnement de visualisation ldquo Tricot 2006

Page 44: Cartographie de l'information- Composantes des - Urfist de Paris

44

Cartographie de linformation- Composantes des applications cartographiques

2- Composante visuelle Theacuteorie de la Gestalt (1890)

Principe

Le contexte est tregraves important dans la perception visuelle [Guillaume]

Les structures visuelles ne sont pas indeacutependantes les unes des autres et le contexte est

important pour la signification qui leur est attribueacutee

En graphique

La perception visuelle srsquoattache agrave reconnaicirctre des modegraveles dans un ensemble de structures

visuelles

De cette theacuteorie reacutesultent des lois correspondant agrave des cateacutegories drsquointeractions possibles entre

les structures visuelles

45

Cartographie de linformation- Composantes des applications cartographiques

Lois Effets Illustrations

Preacutegnance Une image est facile agrave comprendre si sa structure est simple et inversement

Proximiteacute Deux composants qui sont proches ont tendance agrave ecirctre perccedilus comme un

seul composant

Similariteacute Les composants similaires sont perccedilus comme srsquoils eacutetaient regroupeacutes

Fermeture Les contours proches sont perccedilus comme unifieacutes

Continuiteacute Des eacuteleacutements voisins sont perccedilus groupeacutes lorsqursquoils possegravedent

potentiellement un trait qui les relie

Symeacutetrie Des eacuteleacutements sont perccedilus comme un eacuteleacutement global lorsqursquoils forment une

symeacutetrie

Trajectoire identique Des eacuteleacutements qui se deacuteplacent avec la mecircme trajectoire semblent groupeacutes

Familiariteacute Des eacuteleacutements sont plus facilement groupables si le groupe est familier ou

significatif

46

Cartographie de linformation- Composantes des applications cartographiques

2- Composante visuelle Theacuteorie de la Gestalt (1890)

47

Cartographie de linformation- Composantes des applications cartographiques

2- Composante visuelle Conception drsquoun langage graphique (JB Lamy)

1- Analyser les informations ou connaissances que lrsquoon souhaite repreacutesenter

Determiner les attributs qui

deacutefinissent les termes agrave repreacutesenter

bull Par exemple pour repreacutesenter

des maladies les attributs pourraient

ecirctre la localisation anatomique

(cardiaque reacutenale) la seacuteveacuteriteacute etc

2- Associer agrave chaque attribut une variable

reacutetinienne pour le repreacutesenter

bull Par exemple pour les maladies

Associer lrsquoattribut localisation

anatomique agrave la variable

formepictogramme

bull Repreacutesenter la seacuteveacuteriteacute par la variable

couleur

3- Les relations entre les diffeacuterents termes

repreacutesenteacutes doivent ecirctre expliciteacutees

48

Cartographie de linformation

Famille doutils et contextes applicatifs

1- Famille doutils

Typologies

Aperccedilu

Travaux pratiques

2- Contextes applicatifs

Eleacutements deacutevaluation

Les perspectives de la cartographie seacutemantique

49

Cartographie de linformation- Famille doutils et contextes applicatifs

1- Famille doutils

Typologies

Aperccedilu

TP agrave partir de la seacutelection httpdeliciouscommylk02Stage_Carto

Et encore httpwwwvisualcomplexitycomvc (plus de 500 projets dans le domaine)

50

Cartographie de linformation- Famille doutils et contextes applicatifs

1- Famille doutils typologies

11- Typologie scientifique eacutetablie selon des critegraveres internes au domaine

bull les trois principaux paradigmes technique de visualisation type de donneacutees et type dinteraction (Keim

DA 2002)

bull la nature des donneacutees unidimensionnelles bidimensionnelles tridimensionnelles temporelles

multidimensionnelles hieacuterarchiques reacuteseaux (Shneiderman B 1996)

12- Etat de lart eacutevaluation - benchmarking typologie orienteacutee usages (veille et intelligence eacuteconomique)

Quelques exemples

Inist httpoutilsveilleinistfr

Esiee httpwwwaa-esieecomevent2005AGClaudeAschenbrennerppt

Ecole des Mines httpwwwdemoscienceorgresources

Commercial httpwwwk-praxiscom

Commercial httpwwwinformation-mininginfostate_of_art

Universitaire httpwell-formed-datanetthesis

13- Typologie cartographique

Quelques exemples de bloggers

bull Claude Aschenbrenner httpwwwserialmappercomarchive20070110la-pierre-de-rosette-de-la-

cartographie-de-l-informationhtml avec son mode demploi

bull Kartoo httpwwwmapdreamcom

51

Cartographie de linformation- Famille doutils et contextes applicatifs

1- Famille doutils typologie scientifique

52

Cartographie de linformation- Famille doutils orienteacutes laquo bibliothegraveques raquo

2- Les outils de navigation et de recherche sur Internet (seacutelection de Pierre Nobis)

A- Les navigateurs Nestor Navicrawler

53

Cartographie de linformation- Famille doutils orienteacutes laquo bibliothegraveques raquo

2- Les outils de navigation et de recherche sur Internet (seacutelection de Pierre Nobis)

B- Les outils de visualisation des reacutesultats PageBull ManagedQ

Bbis Les outils de visualisation de reacutesultats dans les actualiteacutes

repreacutesentation carreacutee Marumushi - Google NewsNewsIsFree - The Hive Group Tenbyten -flux RSS des sources drsquoactualiteacutes internationales

repreacutesentation sous forme de graphe

Silobreaker

54

Cartographie de linformation- Famille doutils orienteacutes laquo bibliothegraveques raquo

2- Les outils de navigation et de recherche sur Internet

B-Les outils de visualisation des reacutesultats TouchGraph application Java permettant de cartographier les reacutesultats issus

notamment de Google Amazon PubMed Alexa FaceBook

55

Cartographie de linformation- Famille doutils orienteacutes laquo bibliothegraveques raquo

2- Les outils de navigation et de recherche sur Internet (seacutelection de Pierre Nobis)

C- Les outils de recherche avec ajout de termes associeacutes dans une colonne regroupement theacutematique nuage de laquo tags raquo

D- Meacutetamoteurs avec affichage de clusters sous forme de listes

Carrot2 Clusty-Vivissimo Iboogie Polymeta Turbo10 Webclust

56

Cartographie de linformation- Famille doutils orienteacutes laquo bibliothegraveques raquo

2- Les outils de navigation et de recherche sur Internet (seacutelection de Pierre Nobis)

E- Meacutetamoteurs avec affichage de clusters sous forme graphique

E1- repreacutesentation centreacutee Allplus WebBrain

Allplus est un meacutetamoteur agrave clusteacuterisation graphique qui interroge les bases de Ask Google Yahoo et Livepar le biais de lrsquooutil Polymeta Lrsquointerface cluster graph permet de visualiser les reacutesultats sous une forme graphique

Webbrain permet de visualiser et drsquoaffiner les reacutesultats drsquoune requecircte issus de lrsquoOpen Directory Project

57

Cartographie de linformation- Famille doutils orienteacutes laquo bibliothegraveques raquo

2- Les outils de navigation et de recherche sur Internet (seacutelection de Pierre Nobis)

E- Meacutetamoteurs avec affichage de clusters sous forme graphique

E2- Repreacutesentation circulaire Grokker

E3- Repreacutesentation topographique TooLeNet srsquoappuie sur les technologies de KartOO et sur lrsquoindex de

Yahoo pour effectuer des recherches selon 3 modes moteur annuaire et carte auxquels srsquoajoutent des

options de personnalisation et de classification assez avanceacutees

58

Cartographie de linformation- Famille doutils orienteacutes laquo bibliothegraveques raquo

3- Les Outils graphiques dexploration

Wikimindmap est un outil drsquointerrogation

et de repreacutesentation des informations issues

de Wikipedia sous forme de carte heuristique

Visuwords est un dictionnaire en ligne

qui preacutesente ses reacutesultats sous forme de laquo grappes raquo

Il utilise la base de donneacutees Wordnet

Code couleur pour les diffeacuterentes relations

seacutemantiques hieacuterarchiques entre les termes

ainsi que les synonymes et les antonymes

59

Cartographie de linformation- Famille doutils orienteacutes laquo bibliothegraveques raquo

4- Les outils de creacuteation (carto)graphiqueA- Pour meacutemoire les logiciels de creacuteation de cartes heuristiques et conceptuelles

Cmaptools est un logiciel gratuit (usage eacuteducatif) de creacuteation de cartes conceptuelles

Freemind est un logiciel libre et gratuit qui permet de reacutealiser des cartes heuristiques

Thinkgraph est un logiciel gratuit de dessin 2D orienteacute vers la reacutealisation de cartes conceptuelles

60

Cartographie de linformation- Famille doutils orienteacutes laquo bibliothegraveques raquo

4- Les outils de creacuteation (carto)graphique

B- Les outils drsquoeacutedition de graphes

Guess est un logiciel libre et gratuit deacuteveloppeacute par Eytan Adar qui permet de visualiser des

graphes statiques Options de modification de certains attributs (taille couleur forme

algorithmes de positionnementhellip)

Pajek est un logiciel libre et gratuit (usage non commercial) deacuteveloppeacute par V Batagelj et A

Mrvar qui permet de traiter des donneacutees de reacuteseaux de grande taille Pajek signifie araigneacutee

en slovegravene

C- Les outils en ligne

ManyEye service collaboratif deacuteveloppeacute par IBM gracircce auquel on peut geacuteneacuterer selon un

des modegraveles proposeacutes sa propre visualisation de lrsquoinformation (apregraves avoir teacuteleacuteverseacute ses

propres donneacutees)

IssueCrawler outil de web social mining utilisable agrave distance (chargement des URL)

reacutecupeacuteration graphique

61

Cartographie de linformation- Famille doutils et contextes applicatifs

2- Contextes applicatifs

Eleacutements deacutevaluation

Les perspectives de la cartographie seacutemantique

62

Cartographie de linformation- Famille doutils et contextes applicatifs

2- Contextes applicatifs Eleacutements deacutevaluation

21- Evaluation scientifique

Question de meacutethode Eacutevaluation des Interfaces Utilisateur drsquoInformation Bonnel et Chevalier 2006

Objectif proposer une meacutethodologie deacutevaluation permettant de comparer du point de vue de la

visualisation des reacutesultats agrave une requecircte les outils de recherche Google Vivisimo Ujiko Grokker Kartoo

Vios SmartWeb (prototype)

Evaluation des repreacutesentations graphiques geacuteneacuteraliteacutes (Tricot et Roche 2006)

bull Arborescences simples

habitude des utilisateurs (explorateur de fichiers informatiques) pas de problegravemes avec volume limiteacute

au-delagrave drsquoune certaine quantiteacute drsquoinformation les arborescences deviennent inefficaces

bull Arbres de cocircnes en 3D

posent des problegravemes agrave lrsquoutilisateur qui nrsquoa pas lrsquohabitude des espaces en 3D

effort cognitif plus eacuteleveacute et prise en main plus longue

bull Arbres hyperboliques

problegravemes des eacutetiquettes des eacuteleacutements (occlusion)

effet de zoom impreacutevisible

Lrsquoune des conclusions une seule visualisation ne permet pas de reacutepondre agrave toutes les questions

multiplier les possibiliteacutes de visualisation

63

Cartographie de linformation- Famille doutils et contextes applicatifs

2- Contextes applicatifs Eleacutements deacutevaluation

21- Evaluation scientifique doctorat en cours agrave lrsquoEBSI (Aline Creacutedeville)

bull Contexte visualisation de lrsquoinformation dans le contexte de recherche drsquoinformation

bull Point de vue de la seacutemiologie graphique

o principes les plus couramment utiliseacutes sont la proximiteacute (Grokker) lrsquoenglobage (Kartoo)

et la connectiviteacute (Auquabrowser)

omeacutetaphores visuelles pas toujours adeacutequates au web

bull Reacutesultats

o lrsquoinformation doit ecirctre structureacutee

o apports possible pour lrsquoexploration mais pas pour la recherche

64

Cartographie de linformation- Famille doutils et contextes applicatifs

2- Contextes applicatifs Eleacutements deacutevaluation

22- Evaluation en contexte dusage de recherche dinformations (Ciaccia Ihadjadene Martins 2006)

Objectif analyse de lrsquoinfluence du mode de preacutesentation des informations sur les processus cognitifs mis

en jeu par lrsquoutilisateur dans lrsquoactiviteacute de recherche drsquoinformations sur Internet

Outils eacutevalueacutes Kartoo (pour 18 usagers) et Mapstan (pour 16 usagers)

Principaux reacutesultats

Coucirct cognitif sans pour autant conduire agrave de meilleures performances (comparaison avec une

preacutesentation en liste)

Hypothegravese nouveauteacute de la preacutesentation versus habitude des preacutesentations verbales

Strateacutegie optimiseacutee preacuteciser la requecircte drsquoune recherche agrave but flou et se concentrer sur les informations

relieacutees agrave lrsquoobjectif de la question versus informations non relieacutees

Le sens de la visualisation doit ecirctre clarifieacute les systegravemes doivent faciliter la compreacutehension des

eacuteleacutements visualiseacutes

65

Cartographie de linformation- Famille doutils et contextes applicatifs

2- Contextes applicatifs Les perspectives de la cartographie seacutemantique (C Tricot de la seacutemantique agrave la carte)

Pour reacutesoudre la probleacutematique de la repreacutesentation de lrsquoinformation la visualisation de

lrsquoinformation seule ne suffit pas

La visualisation de lrsquoinformation permet uniquement de preacutesenter des donneacutees en leur

associant une repreacutesentation graphique

La cartographie seacutemantique se veut

Une meacutethode de cartographie reposant sur la seacutemantique dun domaine

Un processus de production de connaissances

donneacutees brutes -gt donneacutees structureacutees -gt donneacutees repreacutesenteacutees -gt donneacutees visualiseacutees

Un formalisme de description type Reacuteseaux seacutemantiques

Un langage de description cartographique

Une architecture multi-agents

66

Cartographie de linformation- Famille doutils et contextes applicatifs

2- Contextes applicatifs Les perspectives de la cartographie seacutemantique (C Tricot de la seacutemantique agrave la carte)

67

Cartographie de linformation- Famille doutils et contextes applicatifs

2- Contextes applicatifs Les perspectives de la cartographie seacutemantique

ldquoUne bonne structure repreacutesentative graphique pour un arbre de donneacutees est celle qui deacuteforme le moins les similitudes originales entre les uniteacutes de donneacutees (similitudes qui sont donneacutes par loutil de classification) ou en dautres termes deux individus (ou classes) qui sont proches lune de lautre le restent aussi possible que peut apregraves projection dans l`espace de visualisation et ceci doit ecirctre eacutevident(et veacuterifiable par une mesure de calcul de divergence) dans lenvironnement de visualisation ldquo Tricot 2006

Page 45: Cartographie de l'information- Composantes des - Urfist de Paris

45

Cartographie de linformation- Composantes des applications cartographiques

Lois Effets Illustrations

Preacutegnance Une image est facile agrave comprendre si sa structure est simple et inversement

Proximiteacute Deux composants qui sont proches ont tendance agrave ecirctre perccedilus comme un

seul composant

Similariteacute Les composants similaires sont perccedilus comme srsquoils eacutetaient regroupeacutes

Fermeture Les contours proches sont perccedilus comme unifieacutes

Continuiteacute Des eacuteleacutements voisins sont perccedilus groupeacutes lorsqursquoils possegravedent

potentiellement un trait qui les relie

Symeacutetrie Des eacuteleacutements sont perccedilus comme un eacuteleacutement global lorsqursquoils forment une

symeacutetrie

Trajectoire identique Des eacuteleacutements qui se deacuteplacent avec la mecircme trajectoire semblent groupeacutes

Familiariteacute Des eacuteleacutements sont plus facilement groupables si le groupe est familier ou

significatif

46

Cartographie de linformation- Composantes des applications cartographiques

2- Composante visuelle Theacuteorie de la Gestalt (1890)

47

Cartographie de linformation- Composantes des applications cartographiques

2- Composante visuelle Conception drsquoun langage graphique (JB Lamy)

1- Analyser les informations ou connaissances que lrsquoon souhaite repreacutesenter

Determiner les attributs qui

deacutefinissent les termes agrave repreacutesenter

bull Par exemple pour repreacutesenter

des maladies les attributs pourraient

ecirctre la localisation anatomique

(cardiaque reacutenale) la seacuteveacuteriteacute etc

2- Associer agrave chaque attribut une variable

reacutetinienne pour le repreacutesenter

bull Par exemple pour les maladies

Associer lrsquoattribut localisation

anatomique agrave la variable

formepictogramme

bull Repreacutesenter la seacuteveacuteriteacute par la variable

couleur

3- Les relations entre les diffeacuterents termes

repreacutesenteacutes doivent ecirctre expliciteacutees

48

Cartographie de linformation

Famille doutils et contextes applicatifs

1- Famille doutils

Typologies

Aperccedilu

Travaux pratiques

2- Contextes applicatifs

Eleacutements deacutevaluation

Les perspectives de la cartographie seacutemantique

49

Cartographie de linformation- Famille doutils et contextes applicatifs

1- Famille doutils

Typologies

Aperccedilu

TP agrave partir de la seacutelection httpdeliciouscommylk02Stage_Carto

Et encore httpwwwvisualcomplexitycomvc (plus de 500 projets dans le domaine)

50

Cartographie de linformation- Famille doutils et contextes applicatifs

1- Famille doutils typologies

11- Typologie scientifique eacutetablie selon des critegraveres internes au domaine

bull les trois principaux paradigmes technique de visualisation type de donneacutees et type dinteraction (Keim

DA 2002)

bull la nature des donneacutees unidimensionnelles bidimensionnelles tridimensionnelles temporelles

multidimensionnelles hieacuterarchiques reacuteseaux (Shneiderman B 1996)

12- Etat de lart eacutevaluation - benchmarking typologie orienteacutee usages (veille et intelligence eacuteconomique)

Quelques exemples

Inist httpoutilsveilleinistfr

Esiee httpwwwaa-esieecomevent2005AGClaudeAschenbrennerppt

Ecole des Mines httpwwwdemoscienceorgresources

Commercial httpwwwk-praxiscom

Commercial httpwwwinformation-mininginfostate_of_art

Universitaire httpwell-formed-datanetthesis

13- Typologie cartographique

Quelques exemples de bloggers

bull Claude Aschenbrenner httpwwwserialmappercomarchive20070110la-pierre-de-rosette-de-la-

cartographie-de-l-informationhtml avec son mode demploi

bull Kartoo httpwwwmapdreamcom

51

Cartographie de linformation- Famille doutils et contextes applicatifs

1- Famille doutils typologie scientifique

52

Cartographie de linformation- Famille doutils orienteacutes laquo bibliothegraveques raquo

2- Les outils de navigation et de recherche sur Internet (seacutelection de Pierre Nobis)

A- Les navigateurs Nestor Navicrawler

53

Cartographie de linformation- Famille doutils orienteacutes laquo bibliothegraveques raquo

2- Les outils de navigation et de recherche sur Internet (seacutelection de Pierre Nobis)

B- Les outils de visualisation des reacutesultats PageBull ManagedQ

Bbis Les outils de visualisation de reacutesultats dans les actualiteacutes

repreacutesentation carreacutee Marumushi - Google NewsNewsIsFree - The Hive Group Tenbyten -flux RSS des sources drsquoactualiteacutes internationales

repreacutesentation sous forme de graphe

Silobreaker

54

Cartographie de linformation- Famille doutils orienteacutes laquo bibliothegraveques raquo

2- Les outils de navigation et de recherche sur Internet

B-Les outils de visualisation des reacutesultats TouchGraph application Java permettant de cartographier les reacutesultats issus

notamment de Google Amazon PubMed Alexa FaceBook

55

Cartographie de linformation- Famille doutils orienteacutes laquo bibliothegraveques raquo

2- Les outils de navigation et de recherche sur Internet (seacutelection de Pierre Nobis)

C- Les outils de recherche avec ajout de termes associeacutes dans une colonne regroupement theacutematique nuage de laquo tags raquo

D- Meacutetamoteurs avec affichage de clusters sous forme de listes

Carrot2 Clusty-Vivissimo Iboogie Polymeta Turbo10 Webclust

56

Cartographie de linformation- Famille doutils orienteacutes laquo bibliothegraveques raquo

2- Les outils de navigation et de recherche sur Internet (seacutelection de Pierre Nobis)

E- Meacutetamoteurs avec affichage de clusters sous forme graphique

E1- repreacutesentation centreacutee Allplus WebBrain

Allplus est un meacutetamoteur agrave clusteacuterisation graphique qui interroge les bases de Ask Google Yahoo et Livepar le biais de lrsquooutil Polymeta Lrsquointerface cluster graph permet de visualiser les reacutesultats sous une forme graphique

Webbrain permet de visualiser et drsquoaffiner les reacutesultats drsquoune requecircte issus de lrsquoOpen Directory Project

57

Cartographie de linformation- Famille doutils orienteacutes laquo bibliothegraveques raquo

2- Les outils de navigation et de recherche sur Internet (seacutelection de Pierre Nobis)

E- Meacutetamoteurs avec affichage de clusters sous forme graphique

E2- Repreacutesentation circulaire Grokker

E3- Repreacutesentation topographique TooLeNet srsquoappuie sur les technologies de KartOO et sur lrsquoindex de

Yahoo pour effectuer des recherches selon 3 modes moteur annuaire et carte auxquels srsquoajoutent des

options de personnalisation et de classification assez avanceacutees

58

Cartographie de linformation- Famille doutils orienteacutes laquo bibliothegraveques raquo

3- Les Outils graphiques dexploration

Wikimindmap est un outil drsquointerrogation

et de repreacutesentation des informations issues

de Wikipedia sous forme de carte heuristique

Visuwords est un dictionnaire en ligne

qui preacutesente ses reacutesultats sous forme de laquo grappes raquo

Il utilise la base de donneacutees Wordnet

Code couleur pour les diffeacuterentes relations

seacutemantiques hieacuterarchiques entre les termes

ainsi que les synonymes et les antonymes

59

Cartographie de linformation- Famille doutils orienteacutes laquo bibliothegraveques raquo

4- Les outils de creacuteation (carto)graphiqueA- Pour meacutemoire les logiciels de creacuteation de cartes heuristiques et conceptuelles

Cmaptools est un logiciel gratuit (usage eacuteducatif) de creacuteation de cartes conceptuelles

Freemind est un logiciel libre et gratuit qui permet de reacutealiser des cartes heuristiques

Thinkgraph est un logiciel gratuit de dessin 2D orienteacute vers la reacutealisation de cartes conceptuelles

60

Cartographie de linformation- Famille doutils orienteacutes laquo bibliothegraveques raquo

4- Les outils de creacuteation (carto)graphique

B- Les outils drsquoeacutedition de graphes

Guess est un logiciel libre et gratuit deacuteveloppeacute par Eytan Adar qui permet de visualiser des

graphes statiques Options de modification de certains attributs (taille couleur forme

algorithmes de positionnementhellip)

Pajek est un logiciel libre et gratuit (usage non commercial) deacuteveloppeacute par V Batagelj et A

Mrvar qui permet de traiter des donneacutees de reacuteseaux de grande taille Pajek signifie araigneacutee

en slovegravene

C- Les outils en ligne

ManyEye service collaboratif deacuteveloppeacute par IBM gracircce auquel on peut geacuteneacuterer selon un

des modegraveles proposeacutes sa propre visualisation de lrsquoinformation (apregraves avoir teacuteleacuteverseacute ses

propres donneacutees)

IssueCrawler outil de web social mining utilisable agrave distance (chargement des URL)

reacutecupeacuteration graphique

61

Cartographie de linformation- Famille doutils et contextes applicatifs

2- Contextes applicatifs

Eleacutements deacutevaluation

Les perspectives de la cartographie seacutemantique

62

Cartographie de linformation- Famille doutils et contextes applicatifs

2- Contextes applicatifs Eleacutements deacutevaluation

21- Evaluation scientifique

Question de meacutethode Eacutevaluation des Interfaces Utilisateur drsquoInformation Bonnel et Chevalier 2006

Objectif proposer une meacutethodologie deacutevaluation permettant de comparer du point de vue de la

visualisation des reacutesultats agrave une requecircte les outils de recherche Google Vivisimo Ujiko Grokker Kartoo

Vios SmartWeb (prototype)

Evaluation des repreacutesentations graphiques geacuteneacuteraliteacutes (Tricot et Roche 2006)

bull Arborescences simples

habitude des utilisateurs (explorateur de fichiers informatiques) pas de problegravemes avec volume limiteacute

au-delagrave drsquoune certaine quantiteacute drsquoinformation les arborescences deviennent inefficaces

bull Arbres de cocircnes en 3D

posent des problegravemes agrave lrsquoutilisateur qui nrsquoa pas lrsquohabitude des espaces en 3D

effort cognitif plus eacuteleveacute et prise en main plus longue

bull Arbres hyperboliques

problegravemes des eacutetiquettes des eacuteleacutements (occlusion)

effet de zoom impreacutevisible

Lrsquoune des conclusions une seule visualisation ne permet pas de reacutepondre agrave toutes les questions

multiplier les possibiliteacutes de visualisation

63

Cartographie de linformation- Famille doutils et contextes applicatifs

2- Contextes applicatifs Eleacutements deacutevaluation

21- Evaluation scientifique doctorat en cours agrave lrsquoEBSI (Aline Creacutedeville)

bull Contexte visualisation de lrsquoinformation dans le contexte de recherche drsquoinformation

bull Point de vue de la seacutemiologie graphique

o principes les plus couramment utiliseacutes sont la proximiteacute (Grokker) lrsquoenglobage (Kartoo)

et la connectiviteacute (Auquabrowser)

omeacutetaphores visuelles pas toujours adeacutequates au web

bull Reacutesultats

o lrsquoinformation doit ecirctre structureacutee

o apports possible pour lrsquoexploration mais pas pour la recherche

64

Cartographie de linformation- Famille doutils et contextes applicatifs

2- Contextes applicatifs Eleacutements deacutevaluation

22- Evaluation en contexte dusage de recherche dinformations (Ciaccia Ihadjadene Martins 2006)

Objectif analyse de lrsquoinfluence du mode de preacutesentation des informations sur les processus cognitifs mis

en jeu par lrsquoutilisateur dans lrsquoactiviteacute de recherche drsquoinformations sur Internet

Outils eacutevalueacutes Kartoo (pour 18 usagers) et Mapstan (pour 16 usagers)

Principaux reacutesultats

Coucirct cognitif sans pour autant conduire agrave de meilleures performances (comparaison avec une

preacutesentation en liste)

Hypothegravese nouveauteacute de la preacutesentation versus habitude des preacutesentations verbales

Strateacutegie optimiseacutee preacuteciser la requecircte drsquoune recherche agrave but flou et se concentrer sur les informations

relieacutees agrave lrsquoobjectif de la question versus informations non relieacutees

Le sens de la visualisation doit ecirctre clarifieacute les systegravemes doivent faciliter la compreacutehension des

eacuteleacutements visualiseacutes

65

Cartographie de linformation- Famille doutils et contextes applicatifs

2- Contextes applicatifs Les perspectives de la cartographie seacutemantique (C Tricot de la seacutemantique agrave la carte)

Pour reacutesoudre la probleacutematique de la repreacutesentation de lrsquoinformation la visualisation de

lrsquoinformation seule ne suffit pas

La visualisation de lrsquoinformation permet uniquement de preacutesenter des donneacutees en leur

associant une repreacutesentation graphique

La cartographie seacutemantique se veut

Une meacutethode de cartographie reposant sur la seacutemantique dun domaine

Un processus de production de connaissances

donneacutees brutes -gt donneacutees structureacutees -gt donneacutees repreacutesenteacutees -gt donneacutees visualiseacutees

Un formalisme de description type Reacuteseaux seacutemantiques

Un langage de description cartographique

Une architecture multi-agents

66

Cartographie de linformation- Famille doutils et contextes applicatifs

2- Contextes applicatifs Les perspectives de la cartographie seacutemantique (C Tricot de la seacutemantique agrave la carte)

67

Cartographie de linformation- Famille doutils et contextes applicatifs

2- Contextes applicatifs Les perspectives de la cartographie seacutemantique

ldquoUne bonne structure repreacutesentative graphique pour un arbre de donneacutees est celle qui deacuteforme le moins les similitudes originales entre les uniteacutes de donneacutees (similitudes qui sont donneacutes par loutil de classification) ou en dautres termes deux individus (ou classes) qui sont proches lune de lautre le restent aussi possible que peut apregraves projection dans l`espace de visualisation et ceci doit ecirctre eacutevident(et veacuterifiable par une mesure de calcul de divergence) dans lenvironnement de visualisation ldquo Tricot 2006

Page 46: Cartographie de l'information- Composantes des - Urfist de Paris

46

Cartographie de linformation- Composantes des applications cartographiques

2- Composante visuelle Theacuteorie de la Gestalt (1890)

47

Cartographie de linformation- Composantes des applications cartographiques

2- Composante visuelle Conception drsquoun langage graphique (JB Lamy)

1- Analyser les informations ou connaissances que lrsquoon souhaite repreacutesenter

Determiner les attributs qui

deacutefinissent les termes agrave repreacutesenter

bull Par exemple pour repreacutesenter

des maladies les attributs pourraient

ecirctre la localisation anatomique

(cardiaque reacutenale) la seacuteveacuteriteacute etc

2- Associer agrave chaque attribut une variable

reacutetinienne pour le repreacutesenter

bull Par exemple pour les maladies

Associer lrsquoattribut localisation

anatomique agrave la variable

formepictogramme

bull Repreacutesenter la seacuteveacuteriteacute par la variable

couleur

3- Les relations entre les diffeacuterents termes

repreacutesenteacutes doivent ecirctre expliciteacutees

48

Cartographie de linformation

Famille doutils et contextes applicatifs

1- Famille doutils

Typologies

Aperccedilu

Travaux pratiques

2- Contextes applicatifs

Eleacutements deacutevaluation

Les perspectives de la cartographie seacutemantique

49

Cartographie de linformation- Famille doutils et contextes applicatifs

1- Famille doutils

Typologies

Aperccedilu

TP agrave partir de la seacutelection httpdeliciouscommylk02Stage_Carto

Et encore httpwwwvisualcomplexitycomvc (plus de 500 projets dans le domaine)

50

Cartographie de linformation- Famille doutils et contextes applicatifs

1- Famille doutils typologies

11- Typologie scientifique eacutetablie selon des critegraveres internes au domaine

bull les trois principaux paradigmes technique de visualisation type de donneacutees et type dinteraction (Keim

DA 2002)

bull la nature des donneacutees unidimensionnelles bidimensionnelles tridimensionnelles temporelles

multidimensionnelles hieacuterarchiques reacuteseaux (Shneiderman B 1996)

12- Etat de lart eacutevaluation - benchmarking typologie orienteacutee usages (veille et intelligence eacuteconomique)

Quelques exemples

Inist httpoutilsveilleinistfr

Esiee httpwwwaa-esieecomevent2005AGClaudeAschenbrennerppt

Ecole des Mines httpwwwdemoscienceorgresources

Commercial httpwwwk-praxiscom

Commercial httpwwwinformation-mininginfostate_of_art

Universitaire httpwell-formed-datanetthesis

13- Typologie cartographique

Quelques exemples de bloggers

bull Claude Aschenbrenner httpwwwserialmappercomarchive20070110la-pierre-de-rosette-de-la-

cartographie-de-l-informationhtml avec son mode demploi

bull Kartoo httpwwwmapdreamcom

51

Cartographie de linformation- Famille doutils et contextes applicatifs

1- Famille doutils typologie scientifique

52

Cartographie de linformation- Famille doutils orienteacutes laquo bibliothegraveques raquo

2- Les outils de navigation et de recherche sur Internet (seacutelection de Pierre Nobis)

A- Les navigateurs Nestor Navicrawler

53

Cartographie de linformation- Famille doutils orienteacutes laquo bibliothegraveques raquo

2- Les outils de navigation et de recherche sur Internet (seacutelection de Pierre Nobis)

B- Les outils de visualisation des reacutesultats PageBull ManagedQ

Bbis Les outils de visualisation de reacutesultats dans les actualiteacutes

repreacutesentation carreacutee Marumushi - Google NewsNewsIsFree - The Hive Group Tenbyten -flux RSS des sources drsquoactualiteacutes internationales

repreacutesentation sous forme de graphe

Silobreaker

54

Cartographie de linformation- Famille doutils orienteacutes laquo bibliothegraveques raquo

2- Les outils de navigation et de recherche sur Internet

B-Les outils de visualisation des reacutesultats TouchGraph application Java permettant de cartographier les reacutesultats issus

notamment de Google Amazon PubMed Alexa FaceBook

55

Cartographie de linformation- Famille doutils orienteacutes laquo bibliothegraveques raquo

2- Les outils de navigation et de recherche sur Internet (seacutelection de Pierre Nobis)

C- Les outils de recherche avec ajout de termes associeacutes dans une colonne regroupement theacutematique nuage de laquo tags raquo

D- Meacutetamoteurs avec affichage de clusters sous forme de listes

Carrot2 Clusty-Vivissimo Iboogie Polymeta Turbo10 Webclust

56

Cartographie de linformation- Famille doutils orienteacutes laquo bibliothegraveques raquo

2- Les outils de navigation et de recherche sur Internet (seacutelection de Pierre Nobis)

E- Meacutetamoteurs avec affichage de clusters sous forme graphique

E1- repreacutesentation centreacutee Allplus WebBrain

Allplus est un meacutetamoteur agrave clusteacuterisation graphique qui interroge les bases de Ask Google Yahoo et Livepar le biais de lrsquooutil Polymeta Lrsquointerface cluster graph permet de visualiser les reacutesultats sous une forme graphique

Webbrain permet de visualiser et drsquoaffiner les reacutesultats drsquoune requecircte issus de lrsquoOpen Directory Project

57

Cartographie de linformation- Famille doutils orienteacutes laquo bibliothegraveques raquo

2- Les outils de navigation et de recherche sur Internet (seacutelection de Pierre Nobis)

E- Meacutetamoteurs avec affichage de clusters sous forme graphique

E2- Repreacutesentation circulaire Grokker

E3- Repreacutesentation topographique TooLeNet srsquoappuie sur les technologies de KartOO et sur lrsquoindex de

Yahoo pour effectuer des recherches selon 3 modes moteur annuaire et carte auxquels srsquoajoutent des

options de personnalisation et de classification assez avanceacutees

58

Cartographie de linformation- Famille doutils orienteacutes laquo bibliothegraveques raquo

3- Les Outils graphiques dexploration

Wikimindmap est un outil drsquointerrogation

et de repreacutesentation des informations issues

de Wikipedia sous forme de carte heuristique

Visuwords est un dictionnaire en ligne

qui preacutesente ses reacutesultats sous forme de laquo grappes raquo

Il utilise la base de donneacutees Wordnet

Code couleur pour les diffeacuterentes relations

seacutemantiques hieacuterarchiques entre les termes

ainsi que les synonymes et les antonymes

59

Cartographie de linformation- Famille doutils orienteacutes laquo bibliothegraveques raquo

4- Les outils de creacuteation (carto)graphiqueA- Pour meacutemoire les logiciels de creacuteation de cartes heuristiques et conceptuelles

Cmaptools est un logiciel gratuit (usage eacuteducatif) de creacuteation de cartes conceptuelles

Freemind est un logiciel libre et gratuit qui permet de reacutealiser des cartes heuristiques

Thinkgraph est un logiciel gratuit de dessin 2D orienteacute vers la reacutealisation de cartes conceptuelles

60

Cartographie de linformation- Famille doutils orienteacutes laquo bibliothegraveques raquo

4- Les outils de creacuteation (carto)graphique

B- Les outils drsquoeacutedition de graphes

Guess est un logiciel libre et gratuit deacuteveloppeacute par Eytan Adar qui permet de visualiser des

graphes statiques Options de modification de certains attributs (taille couleur forme

algorithmes de positionnementhellip)

Pajek est un logiciel libre et gratuit (usage non commercial) deacuteveloppeacute par V Batagelj et A

Mrvar qui permet de traiter des donneacutees de reacuteseaux de grande taille Pajek signifie araigneacutee

en slovegravene

C- Les outils en ligne

ManyEye service collaboratif deacuteveloppeacute par IBM gracircce auquel on peut geacuteneacuterer selon un

des modegraveles proposeacutes sa propre visualisation de lrsquoinformation (apregraves avoir teacuteleacuteverseacute ses

propres donneacutees)

IssueCrawler outil de web social mining utilisable agrave distance (chargement des URL)

reacutecupeacuteration graphique

61

Cartographie de linformation- Famille doutils et contextes applicatifs

2- Contextes applicatifs

Eleacutements deacutevaluation

Les perspectives de la cartographie seacutemantique

62

Cartographie de linformation- Famille doutils et contextes applicatifs

2- Contextes applicatifs Eleacutements deacutevaluation

21- Evaluation scientifique

Question de meacutethode Eacutevaluation des Interfaces Utilisateur drsquoInformation Bonnel et Chevalier 2006

Objectif proposer une meacutethodologie deacutevaluation permettant de comparer du point de vue de la

visualisation des reacutesultats agrave une requecircte les outils de recherche Google Vivisimo Ujiko Grokker Kartoo

Vios SmartWeb (prototype)

Evaluation des repreacutesentations graphiques geacuteneacuteraliteacutes (Tricot et Roche 2006)

bull Arborescences simples

habitude des utilisateurs (explorateur de fichiers informatiques) pas de problegravemes avec volume limiteacute

au-delagrave drsquoune certaine quantiteacute drsquoinformation les arborescences deviennent inefficaces

bull Arbres de cocircnes en 3D

posent des problegravemes agrave lrsquoutilisateur qui nrsquoa pas lrsquohabitude des espaces en 3D

effort cognitif plus eacuteleveacute et prise en main plus longue

bull Arbres hyperboliques

problegravemes des eacutetiquettes des eacuteleacutements (occlusion)

effet de zoom impreacutevisible

Lrsquoune des conclusions une seule visualisation ne permet pas de reacutepondre agrave toutes les questions

multiplier les possibiliteacutes de visualisation

63

Cartographie de linformation- Famille doutils et contextes applicatifs

2- Contextes applicatifs Eleacutements deacutevaluation

21- Evaluation scientifique doctorat en cours agrave lrsquoEBSI (Aline Creacutedeville)

bull Contexte visualisation de lrsquoinformation dans le contexte de recherche drsquoinformation

bull Point de vue de la seacutemiologie graphique

o principes les plus couramment utiliseacutes sont la proximiteacute (Grokker) lrsquoenglobage (Kartoo)

et la connectiviteacute (Auquabrowser)

omeacutetaphores visuelles pas toujours adeacutequates au web

bull Reacutesultats

o lrsquoinformation doit ecirctre structureacutee

o apports possible pour lrsquoexploration mais pas pour la recherche

64

Cartographie de linformation- Famille doutils et contextes applicatifs

2- Contextes applicatifs Eleacutements deacutevaluation

22- Evaluation en contexte dusage de recherche dinformations (Ciaccia Ihadjadene Martins 2006)

Objectif analyse de lrsquoinfluence du mode de preacutesentation des informations sur les processus cognitifs mis

en jeu par lrsquoutilisateur dans lrsquoactiviteacute de recherche drsquoinformations sur Internet

Outils eacutevalueacutes Kartoo (pour 18 usagers) et Mapstan (pour 16 usagers)

Principaux reacutesultats

Coucirct cognitif sans pour autant conduire agrave de meilleures performances (comparaison avec une

preacutesentation en liste)

Hypothegravese nouveauteacute de la preacutesentation versus habitude des preacutesentations verbales

Strateacutegie optimiseacutee preacuteciser la requecircte drsquoune recherche agrave but flou et se concentrer sur les informations

relieacutees agrave lrsquoobjectif de la question versus informations non relieacutees

Le sens de la visualisation doit ecirctre clarifieacute les systegravemes doivent faciliter la compreacutehension des

eacuteleacutements visualiseacutes

65

Cartographie de linformation- Famille doutils et contextes applicatifs

2- Contextes applicatifs Les perspectives de la cartographie seacutemantique (C Tricot de la seacutemantique agrave la carte)

Pour reacutesoudre la probleacutematique de la repreacutesentation de lrsquoinformation la visualisation de

lrsquoinformation seule ne suffit pas

La visualisation de lrsquoinformation permet uniquement de preacutesenter des donneacutees en leur

associant une repreacutesentation graphique

La cartographie seacutemantique se veut

Une meacutethode de cartographie reposant sur la seacutemantique dun domaine

Un processus de production de connaissances

donneacutees brutes -gt donneacutees structureacutees -gt donneacutees repreacutesenteacutees -gt donneacutees visualiseacutees

Un formalisme de description type Reacuteseaux seacutemantiques

Un langage de description cartographique

Une architecture multi-agents

66

Cartographie de linformation- Famille doutils et contextes applicatifs

2- Contextes applicatifs Les perspectives de la cartographie seacutemantique (C Tricot de la seacutemantique agrave la carte)

67

Cartographie de linformation- Famille doutils et contextes applicatifs

2- Contextes applicatifs Les perspectives de la cartographie seacutemantique

ldquoUne bonne structure repreacutesentative graphique pour un arbre de donneacutees est celle qui deacuteforme le moins les similitudes originales entre les uniteacutes de donneacutees (similitudes qui sont donneacutes par loutil de classification) ou en dautres termes deux individus (ou classes) qui sont proches lune de lautre le restent aussi possible que peut apregraves projection dans l`espace de visualisation et ceci doit ecirctre eacutevident(et veacuterifiable par une mesure de calcul de divergence) dans lenvironnement de visualisation ldquo Tricot 2006

Page 47: Cartographie de l'information- Composantes des - Urfist de Paris

47

Cartographie de linformation- Composantes des applications cartographiques

2- Composante visuelle Conception drsquoun langage graphique (JB Lamy)

1- Analyser les informations ou connaissances que lrsquoon souhaite repreacutesenter

Determiner les attributs qui

deacutefinissent les termes agrave repreacutesenter

bull Par exemple pour repreacutesenter

des maladies les attributs pourraient

ecirctre la localisation anatomique

(cardiaque reacutenale) la seacuteveacuteriteacute etc

2- Associer agrave chaque attribut une variable

reacutetinienne pour le repreacutesenter

bull Par exemple pour les maladies

Associer lrsquoattribut localisation

anatomique agrave la variable

formepictogramme

bull Repreacutesenter la seacuteveacuteriteacute par la variable

couleur

3- Les relations entre les diffeacuterents termes

repreacutesenteacutes doivent ecirctre expliciteacutees

48

Cartographie de linformation

Famille doutils et contextes applicatifs

1- Famille doutils

Typologies

Aperccedilu

Travaux pratiques

2- Contextes applicatifs

Eleacutements deacutevaluation

Les perspectives de la cartographie seacutemantique

49

Cartographie de linformation- Famille doutils et contextes applicatifs

1- Famille doutils

Typologies

Aperccedilu

TP agrave partir de la seacutelection httpdeliciouscommylk02Stage_Carto

Et encore httpwwwvisualcomplexitycomvc (plus de 500 projets dans le domaine)

50

Cartographie de linformation- Famille doutils et contextes applicatifs

1- Famille doutils typologies

11- Typologie scientifique eacutetablie selon des critegraveres internes au domaine

bull les trois principaux paradigmes technique de visualisation type de donneacutees et type dinteraction (Keim

DA 2002)

bull la nature des donneacutees unidimensionnelles bidimensionnelles tridimensionnelles temporelles

multidimensionnelles hieacuterarchiques reacuteseaux (Shneiderman B 1996)

12- Etat de lart eacutevaluation - benchmarking typologie orienteacutee usages (veille et intelligence eacuteconomique)

Quelques exemples

Inist httpoutilsveilleinistfr

Esiee httpwwwaa-esieecomevent2005AGClaudeAschenbrennerppt

Ecole des Mines httpwwwdemoscienceorgresources

Commercial httpwwwk-praxiscom

Commercial httpwwwinformation-mininginfostate_of_art

Universitaire httpwell-formed-datanetthesis

13- Typologie cartographique

Quelques exemples de bloggers

bull Claude Aschenbrenner httpwwwserialmappercomarchive20070110la-pierre-de-rosette-de-la-

cartographie-de-l-informationhtml avec son mode demploi

bull Kartoo httpwwwmapdreamcom

51

Cartographie de linformation- Famille doutils et contextes applicatifs

1- Famille doutils typologie scientifique

52

Cartographie de linformation- Famille doutils orienteacutes laquo bibliothegraveques raquo

2- Les outils de navigation et de recherche sur Internet (seacutelection de Pierre Nobis)

A- Les navigateurs Nestor Navicrawler

53

Cartographie de linformation- Famille doutils orienteacutes laquo bibliothegraveques raquo

2- Les outils de navigation et de recherche sur Internet (seacutelection de Pierre Nobis)

B- Les outils de visualisation des reacutesultats PageBull ManagedQ

Bbis Les outils de visualisation de reacutesultats dans les actualiteacutes

repreacutesentation carreacutee Marumushi - Google NewsNewsIsFree - The Hive Group Tenbyten -flux RSS des sources drsquoactualiteacutes internationales

repreacutesentation sous forme de graphe

Silobreaker

54

Cartographie de linformation- Famille doutils orienteacutes laquo bibliothegraveques raquo

2- Les outils de navigation et de recherche sur Internet

B-Les outils de visualisation des reacutesultats TouchGraph application Java permettant de cartographier les reacutesultats issus

notamment de Google Amazon PubMed Alexa FaceBook

55

Cartographie de linformation- Famille doutils orienteacutes laquo bibliothegraveques raquo

2- Les outils de navigation et de recherche sur Internet (seacutelection de Pierre Nobis)

C- Les outils de recherche avec ajout de termes associeacutes dans une colonne regroupement theacutematique nuage de laquo tags raquo

D- Meacutetamoteurs avec affichage de clusters sous forme de listes

Carrot2 Clusty-Vivissimo Iboogie Polymeta Turbo10 Webclust

56

Cartographie de linformation- Famille doutils orienteacutes laquo bibliothegraveques raquo

2- Les outils de navigation et de recherche sur Internet (seacutelection de Pierre Nobis)

E- Meacutetamoteurs avec affichage de clusters sous forme graphique

E1- repreacutesentation centreacutee Allplus WebBrain

Allplus est un meacutetamoteur agrave clusteacuterisation graphique qui interroge les bases de Ask Google Yahoo et Livepar le biais de lrsquooutil Polymeta Lrsquointerface cluster graph permet de visualiser les reacutesultats sous une forme graphique

Webbrain permet de visualiser et drsquoaffiner les reacutesultats drsquoune requecircte issus de lrsquoOpen Directory Project

57

Cartographie de linformation- Famille doutils orienteacutes laquo bibliothegraveques raquo

2- Les outils de navigation et de recherche sur Internet (seacutelection de Pierre Nobis)

E- Meacutetamoteurs avec affichage de clusters sous forme graphique

E2- Repreacutesentation circulaire Grokker

E3- Repreacutesentation topographique TooLeNet srsquoappuie sur les technologies de KartOO et sur lrsquoindex de

Yahoo pour effectuer des recherches selon 3 modes moteur annuaire et carte auxquels srsquoajoutent des

options de personnalisation et de classification assez avanceacutees

58

Cartographie de linformation- Famille doutils orienteacutes laquo bibliothegraveques raquo

3- Les Outils graphiques dexploration

Wikimindmap est un outil drsquointerrogation

et de repreacutesentation des informations issues

de Wikipedia sous forme de carte heuristique

Visuwords est un dictionnaire en ligne

qui preacutesente ses reacutesultats sous forme de laquo grappes raquo

Il utilise la base de donneacutees Wordnet

Code couleur pour les diffeacuterentes relations

seacutemantiques hieacuterarchiques entre les termes

ainsi que les synonymes et les antonymes

59

Cartographie de linformation- Famille doutils orienteacutes laquo bibliothegraveques raquo

4- Les outils de creacuteation (carto)graphiqueA- Pour meacutemoire les logiciels de creacuteation de cartes heuristiques et conceptuelles

Cmaptools est un logiciel gratuit (usage eacuteducatif) de creacuteation de cartes conceptuelles

Freemind est un logiciel libre et gratuit qui permet de reacutealiser des cartes heuristiques

Thinkgraph est un logiciel gratuit de dessin 2D orienteacute vers la reacutealisation de cartes conceptuelles

60

Cartographie de linformation- Famille doutils orienteacutes laquo bibliothegraveques raquo

4- Les outils de creacuteation (carto)graphique

B- Les outils drsquoeacutedition de graphes

Guess est un logiciel libre et gratuit deacuteveloppeacute par Eytan Adar qui permet de visualiser des

graphes statiques Options de modification de certains attributs (taille couleur forme

algorithmes de positionnementhellip)

Pajek est un logiciel libre et gratuit (usage non commercial) deacuteveloppeacute par V Batagelj et A

Mrvar qui permet de traiter des donneacutees de reacuteseaux de grande taille Pajek signifie araigneacutee

en slovegravene

C- Les outils en ligne

ManyEye service collaboratif deacuteveloppeacute par IBM gracircce auquel on peut geacuteneacuterer selon un

des modegraveles proposeacutes sa propre visualisation de lrsquoinformation (apregraves avoir teacuteleacuteverseacute ses

propres donneacutees)

IssueCrawler outil de web social mining utilisable agrave distance (chargement des URL)

reacutecupeacuteration graphique

61

Cartographie de linformation- Famille doutils et contextes applicatifs

2- Contextes applicatifs

Eleacutements deacutevaluation

Les perspectives de la cartographie seacutemantique

62

Cartographie de linformation- Famille doutils et contextes applicatifs

2- Contextes applicatifs Eleacutements deacutevaluation

21- Evaluation scientifique

Question de meacutethode Eacutevaluation des Interfaces Utilisateur drsquoInformation Bonnel et Chevalier 2006

Objectif proposer une meacutethodologie deacutevaluation permettant de comparer du point de vue de la

visualisation des reacutesultats agrave une requecircte les outils de recherche Google Vivisimo Ujiko Grokker Kartoo

Vios SmartWeb (prototype)

Evaluation des repreacutesentations graphiques geacuteneacuteraliteacutes (Tricot et Roche 2006)

bull Arborescences simples

habitude des utilisateurs (explorateur de fichiers informatiques) pas de problegravemes avec volume limiteacute

au-delagrave drsquoune certaine quantiteacute drsquoinformation les arborescences deviennent inefficaces

bull Arbres de cocircnes en 3D

posent des problegravemes agrave lrsquoutilisateur qui nrsquoa pas lrsquohabitude des espaces en 3D

effort cognitif plus eacuteleveacute et prise en main plus longue

bull Arbres hyperboliques

problegravemes des eacutetiquettes des eacuteleacutements (occlusion)

effet de zoom impreacutevisible

Lrsquoune des conclusions une seule visualisation ne permet pas de reacutepondre agrave toutes les questions

multiplier les possibiliteacutes de visualisation

63

Cartographie de linformation- Famille doutils et contextes applicatifs

2- Contextes applicatifs Eleacutements deacutevaluation

21- Evaluation scientifique doctorat en cours agrave lrsquoEBSI (Aline Creacutedeville)

bull Contexte visualisation de lrsquoinformation dans le contexte de recherche drsquoinformation

bull Point de vue de la seacutemiologie graphique

o principes les plus couramment utiliseacutes sont la proximiteacute (Grokker) lrsquoenglobage (Kartoo)

et la connectiviteacute (Auquabrowser)

omeacutetaphores visuelles pas toujours adeacutequates au web

bull Reacutesultats

o lrsquoinformation doit ecirctre structureacutee

o apports possible pour lrsquoexploration mais pas pour la recherche

64

Cartographie de linformation- Famille doutils et contextes applicatifs

2- Contextes applicatifs Eleacutements deacutevaluation

22- Evaluation en contexte dusage de recherche dinformations (Ciaccia Ihadjadene Martins 2006)

Objectif analyse de lrsquoinfluence du mode de preacutesentation des informations sur les processus cognitifs mis

en jeu par lrsquoutilisateur dans lrsquoactiviteacute de recherche drsquoinformations sur Internet

Outils eacutevalueacutes Kartoo (pour 18 usagers) et Mapstan (pour 16 usagers)

Principaux reacutesultats

Coucirct cognitif sans pour autant conduire agrave de meilleures performances (comparaison avec une

preacutesentation en liste)

Hypothegravese nouveauteacute de la preacutesentation versus habitude des preacutesentations verbales

Strateacutegie optimiseacutee preacuteciser la requecircte drsquoune recherche agrave but flou et se concentrer sur les informations

relieacutees agrave lrsquoobjectif de la question versus informations non relieacutees

Le sens de la visualisation doit ecirctre clarifieacute les systegravemes doivent faciliter la compreacutehension des

eacuteleacutements visualiseacutes

65

Cartographie de linformation- Famille doutils et contextes applicatifs

2- Contextes applicatifs Les perspectives de la cartographie seacutemantique (C Tricot de la seacutemantique agrave la carte)

Pour reacutesoudre la probleacutematique de la repreacutesentation de lrsquoinformation la visualisation de

lrsquoinformation seule ne suffit pas

La visualisation de lrsquoinformation permet uniquement de preacutesenter des donneacutees en leur

associant une repreacutesentation graphique

La cartographie seacutemantique se veut

Une meacutethode de cartographie reposant sur la seacutemantique dun domaine

Un processus de production de connaissances

donneacutees brutes -gt donneacutees structureacutees -gt donneacutees repreacutesenteacutees -gt donneacutees visualiseacutees

Un formalisme de description type Reacuteseaux seacutemantiques

Un langage de description cartographique

Une architecture multi-agents

66

Cartographie de linformation- Famille doutils et contextes applicatifs

2- Contextes applicatifs Les perspectives de la cartographie seacutemantique (C Tricot de la seacutemantique agrave la carte)

67

Cartographie de linformation- Famille doutils et contextes applicatifs

2- Contextes applicatifs Les perspectives de la cartographie seacutemantique

ldquoUne bonne structure repreacutesentative graphique pour un arbre de donneacutees est celle qui deacuteforme le moins les similitudes originales entre les uniteacutes de donneacutees (similitudes qui sont donneacutes par loutil de classification) ou en dautres termes deux individus (ou classes) qui sont proches lune de lautre le restent aussi possible que peut apregraves projection dans l`espace de visualisation et ceci doit ecirctre eacutevident(et veacuterifiable par une mesure de calcul de divergence) dans lenvironnement de visualisation ldquo Tricot 2006

Page 48: Cartographie de l'information- Composantes des - Urfist de Paris

48

Cartographie de linformation

Famille doutils et contextes applicatifs

1- Famille doutils

Typologies

Aperccedilu

Travaux pratiques

2- Contextes applicatifs

Eleacutements deacutevaluation

Les perspectives de la cartographie seacutemantique

49

Cartographie de linformation- Famille doutils et contextes applicatifs

1- Famille doutils

Typologies

Aperccedilu

TP agrave partir de la seacutelection httpdeliciouscommylk02Stage_Carto

Et encore httpwwwvisualcomplexitycomvc (plus de 500 projets dans le domaine)

50

Cartographie de linformation- Famille doutils et contextes applicatifs

1- Famille doutils typologies

11- Typologie scientifique eacutetablie selon des critegraveres internes au domaine

bull les trois principaux paradigmes technique de visualisation type de donneacutees et type dinteraction (Keim

DA 2002)

bull la nature des donneacutees unidimensionnelles bidimensionnelles tridimensionnelles temporelles

multidimensionnelles hieacuterarchiques reacuteseaux (Shneiderman B 1996)

12- Etat de lart eacutevaluation - benchmarking typologie orienteacutee usages (veille et intelligence eacuteconomique)

Quelques exemples

Inist httpoutilsveilleinistfr

Esiee httpwwwaa-esieecomevent2005AGClaudeAschenbrennerppt

Ecole des Mines httpwwwdemoscienceorgresources

Commercial httpwwwk-praxiscom

Commercial httpwwwinformation-mininginfostate_of_art

Universitaire httpwell-formed-datanetthesis

13- Typologie cartographique

Quelques exemples de bloggers

bull Claude Aschenbrenner httpwwwserialmappercomarchive20070110la-pierre-de-rosette-de-la-

cartographie-de-l-informationhtml avec son mode demploi

bull Kartoo httpwwwmapdreamcom

51

Cartographie de linformation- Famille doutils et contextes applicatifs

1- Famille doutils typologie scientifique

52

Cartographie de linformation- Famille doutils orienteacutes laquo bibliothegraveques raquo

2- Les outils de navigation et de recherche sur Internet (seacutelection de Pierre Nobis)

A- Les navigateurs Nestor Navicrawler

53

Cartographie de linformation- Famille doutils orienteacutes laquo bibliothegraveques raquo

2- Les outils de navigation et de recherche sur Internet (seacutelection de Pierre Nobis)

B- Les outils de visualisation des reacutesultats PageBull ManagedQ

Bbis Les outils de visualisation de reacutesultats dans les actualiteacutes

repreacutesentation carreacutee Marumushi - Google NewsNewsIsFree - The Hive Group Tenbyten -flux RSS des sources drsquoactualiteacutes internationales

repreacutesentation sous forme de graphe

Silobreaker

54

Cartographie de linformation- Famille doutils orienteacutes laquo bibliothegraveques raquo

2- Les outils de navigation et de recherche sur Internet

B-Les outils de visualisation des reacutesultats TouchGraph application Java permettant de cartographier les reacutesultats issus

notamment de Google Amazon PubMed Alexa FaceBook

55

Cartographie de linformation- Famille doutils orienteacutes laquo bibliothegraveques raquo

2- Les outils de navigation et de recherche sur Internet (seacutelection de Pierre Nobis)

C- Les outils de recherche avec ajout de termes associeacutes dans une colonne regroupement theacutematique nuage de laquo tags raquo

D- Meacutetamoteurs avec affichage de clusters sous forme de listes

Carrot2 Clusty-Vivissimo Iboogie Polymeta Turbo10 Webclust

56

Cartographie de linformation- Famille doutils orienteacutes laquo bibliothegraveques raquo

2- Les outils de navigation et de recherche sur Internet (seacutelection de Pierre Nobis)

E- Meacutetamoteurs avec affichage de clusters sous forme graphique

E1- repreacutesentation centreacutee Allplus WebBrain

Allplus est un meacutetamoteur agrave clusteacuterisation graphique qui interroge les bases de Ask Google Yahoo et Livepar le biais de lrsquooutil Polymeta Lrsquointerface cluster graph permet de visualiser les reacutesultats sous une forme graphique

Webbrain permet de visualiser et drsquoaffiner les reacutesultats drsquoune requecircte issus de lrsquoOpen Directory Project

57

Cartographie de linformation- Famille doutils orienteacutes laquo bibliothegraveques raquo

2- Les outils de navigation et de recherche sur Internet (seacutelection de Pierre Nobis)

E- Meacutetamoteurs avec affichage de clusters sous forme graphique

E2- Repreacutesentation circulaire Grokker

E3- Repreacutesentation topographique TooLeNet srsquoappuie sur les technologies de KartOO et sur lrsquoindex de

Yahoo pour effectuer des recherches selon 3 modes moteur annuaire et carte auxquels srsquoajoutent des

options de personnalisation et de classification assez avanceacutees

58

Cartographie de linformation- Famille doutils orienteacutes laquo bibliothegraveques raquo

3- Les Outils graphiques dexploration

Wikimindmap est un outil drsquointerrogation

et de repreacutesentation des informations issues

de Wikipedia sous forme de carte heuristique

Visuwords est un dictionnaire en ligne

qui preacutesente ses reacutesultats sous forme de laquo grappes raquo

Il utilise la base de donneacutees Wordnet

Code couleur pour les diffeacuterentes relations

seacutemantiques hieacuterarchiques entre les termes

ainsi que les synonymes et les antonymes

59

Cartographie de linformation- Famille doutils orienteacutes laquo bibliothegraveques raquo

4- Les outils de creacuteation (carto)graphiqueA- Pour meacutemoire les logiciels de creacuteation de cartes heuristiques et conceptuelles

Cmaptools est un logiciel gratuit (usage eacuteducatif) de creacuteation de cartes conceptuelles

Freemind est un logiciel libre et gratuit qui permet de reacutealiser des cartes heuristiques

Thinkgraph est un logiciel gratuit de dessin 2D orienteacute vers la reacutealisation de cartes conceptuelles

60

Cartographie de linformation- Famille doutils orienteacutes laquo bibliothegraveques raquo

4- Les outils de creacuteation (carto)graphique

B- Les outils drsquoeacutedition de graphes

Guess est un logiciel libre et gratuit deacuteveloppeacute par Eytan Adar qui permet de visualiser des

graphes statiques Options de modification de certains attributs (taille couleur forme

algorithmes de positionnementhellip)

Pajek est un logiciel libre et gratuit (usage non commercial) deacuteveloppeacute par V Batagelj et A

Mrvar qui permet de traiter des donneacutees de reacuteseaux de grande taille Pajek signifie araigneacutee

en slovegravene

C- Les outils en ligne

ManyEye service collaboratif deacuteveloppeacute par IBM gracircce auquel on peut geacuteneacuterer selon un

des modegraveles proposeacutes sa propre visualisation de lrsquoinformation (apregraves avoir teacuteleacuteverseacute ses

propres donneacutees)

IssueCrawler outil de web social mining utilisable agrave distance (chargement des URL)

reacutecupeacuteration graphique

61

Cartographie de linformation- Famille doutils et contextes applicatifs

2- Contextes applicatifs

Eleacutements deacutevaluation

Les perspectives de la cartographie seacutemantique

62

Cartographie de linformation- Famille doutils et contextes applicatifs

2- Contextes applicatifs Eleacutements deacutevaluation

21- Evaluation scientifique

Question de meacutethode Eacutevaluation des Interfaces Utilisateur drsquoInformation Bonnel et Chevalier 2006

Objectif proposer une meacutethodologie deacutevaluation permettant de comparer du point de vue de la

visualisation des reacutesultats agrave une requecircte les outils de recherche Google Vivisimo Ujiko Grokker Kartoo

Vios SmartWeb (prototype)

Evaluation des repreacutesentations graphiques geacuteneacuteraliteacutes (Tricot et Roche 2006)

bull Arborescences simples

habitude des utilisateurs (explorateur de fichiers informatiques) pas de problegravemes avec volume limiteacute

au-delagrave drsquoune certaine quantiteacute drsquoinformation les arborescences deviennent inefficaces

bull Arbres de cocircnes en 3D

posent des problegravemes agrave lrsquoutilisateur qui nrsquoa pas lrsquohabitude des espaces en 3D

effort cognitif plus eacuteleveacute et prise en main plus longue

bull Arbres hyperboliques

problegravemes des eacutetiquettes des eacuteleacutements (occlusion)

effet de zoom impreacutevisible

Lrsquoune des conclusions une seule visualisation ne permet pas de reacutepondre agrave toutes les questions

multiplier les possibiliteacutes de visualisation

63

Cartographie de linformation- Famille doutils et contextes applicatifs

2- Contextes applicatifs Eleacutements deacutevaluation

21- Evaluation scientifique doctorat en cours agrave lrsquoEBSI (Aline Creacutedeville)

bull Contexte visualisation de lrsquoinformation dans le contexte de recherche drsquoinformation

bull Point de vue de la seacutemiologie graphique

o principes les plus couramment utiliseacutes sont la proximiteacute (Grokker) lrsquoenglobage (Kartoo)

et la connectiviteacute (Auquabrowser)

omeacutetaphores visuelles pas toujours adeacutequates au web

bull Reacutesultats

o lrsquoinformation doit ecirctre structureacutee

o apports possible pour lrsquoexploration mais pas pour la recherche

64

Cartographie de linformation- Famille doutils et contextes applicatifs

2- Contextes applicatifs Eleacutements deacutevaluation

22- Evaluation en contexte dusage de recherche dinformations (Ciaccia Ihadjadene Martins 2006)

Objectif analyse de lrsquoinfluence du mode de preacutesentation des informations sur les processus cognitifs mis

en jeu par lrsquoutilisateur dans lrsquoactiviteacute de recherche drsquoinformations sur Internet

Outils eacutevalueacutes Kartoo (pour 18 usagers) et Mapstan (pour 16 usagers)

Principaux reacutesultats

Coucirct cognitif sans pour autant conduire agrave de meilleures performances (comparaison avec une

preacutesentation en liste)

Hypothegravese nouveauteacute de la preacutesentation versus habitude des preacutesentations verbales

Strateacutegie optimiseacutee preacuteciser la requecircte drsquoune recherche agrave but flou et se concentrer sur les informations

relieacutees agrave lrsquoobjectif de la question versus informations non relieacutees

Le sens de la visualisation doit ecirctre clarifieacute les systegravemes doivent faciliter la compreacutehension des

eacuteleacutements visualiseacutes

65

Cartographie de linformation- Famille doutils et contextes applicatifs

2- Contextes applicatifs Les perspectives de la cartographie seacutemantique (C Tricot de la seacutemantique agrave la carte)

Pour reacutesoudre la probleacutematique de la repreacutesentation de lrsquoinformation la visualisation de

lrsquoinformation seule ne suffit pas

La visualisation de lrsquoinformation permet uniquement de preacutesenter des donneacutees en leur

associant une repreacutesentation graphique

La cartographie seacutemantique se veut

Une meacutethode de cartographie reposant sur la seacutemantique dun domaine

Un processus de production de connaissances

donneacutees brutes -gt donneacutees structureacutees -gt donneacutees repreacutesenteacutees -gt donneacutees visualiseacutees

Un formalisme de description type Reacuteseaux seacutemantiques

Un langage de description cartographique

Une architecture multi-agents

66

Cartographie de linformation- Famille doutils et contextes applicatifs

2- Contextes applicatifs Les perspectives de la cartographie seacutemantique (C Tricot de la seacutemantique agrave la carte)

67

Cartographie de linformation- Famille doutils et contextes applicatifs

2- Contextes applicatifs Les perspectives de la cartographie seacutemantique

ldquoUne bonne structure repreacutesentative graphique pour un arbre de donneacutees est celle qui deacuteforme le moins les similitudes originales entre les uniteacutes de donneacutees (similitudes qui sont donneacutes par loutil de classification) ou en dautres termes deux individus (ou classes) qui sont proches lune de lautre le restent aussi possible que peut apregraves projection dans l`espace de visualisation et ceci doit ecirctre eacutevident(et veacuterifiable par une mesure de calcul de divergence) dans lenvironnement de visualisation ldquo Tricot 2006

Page 49: Cartographie de l'information- Composantes des - Urfist de Paris

49

Cartographie de linformation- Famille doutils et contextes applicatifs

1- Famille doutils

Typologies

Aperccedilu

TP agrave partir de la seacutelection httpdeliciouscommylk02Stage_Carto

Et encore httpwwwvisualcomplexitycomvc (plus de 500 projets dans le domaine)

50

Cartographie de linformation- Famille doutils et contextes applicatifs

1- Famille doutils typologies

11- Typologie scientifique eacutetablie selon des critegraveres internes au domaine

bull les trois principaux paradigmes technique de visualisation type de donneacutees et type dinteraction (Keim

DA 2002)

bull la nature des donneacutees unidimensionnelles bidimensionnelles tridimensionnelles temporelles

multidimensionnelles hieacuterarchiques reacuteseaux (Shneiderman B 1996)

12- Etat de lart eacutevaluation - benchmarking typologie orienteacutee usages (veille et intelligence eacuteconomique)

Quelques exemples

Inist httpoutilsveilleinistfr

Esiee httpwwwaa-esieecomevent2005AGClaudeAschenbrennerppt

Ecole des Mines httpwwwdemoscienceorgresources

Commercial httpwwwk-praxiscom

Commercial httpwwwinformation-mininginfostate_of_art

Universitaire httpwell-formed-datanetthesis

13- Typologie cartographique

Quelques exemples de bloggers

bull Claude Aschenbrenner httpwwwserialmappercomarchive20070110la-pierre-de-rosette-de-la-

cartographie-de-l-informationhtml avec son mode demploi

bull Kartoo httpwwwmapdreamcom

51

Cartographie de linformation- Famille doutils et contextes applicatifs

1- Famille doutils typologie scientifique

52

Cartographie de linformation- Famille doutils orienteacutes laquo bibliothegraveques raquo

2- Les outils de navigation et de recherche sur Internet (seacutelection de Pierre Nobis)

A- Les navigateurs Nestor Navicrawler

53

Cartographie de linformation- Famille doutils orienteacutes laquo bibliothegraveques raquo

2- Les outils de navigation et de recherche sur Internet (seacutelection de Pierre Nobis)

B- Les outils de visualisation des reacutesultats PageBull ManagedQ

Bbis Les outils de visualisation de reacutesultats dans les actualiteacutes

repreacutesentation carreacutee Marumushi - Google NewsNewsIsFree - The Hive Group Tenbyten -flux RSS des sources drsquoactualiteacutes internationales

repreacutesentation sous forme de graphe

Silobreaker

54

Cartographie de linformation- Famille doutils orienteacutes laquo bibliothegraveques raquo

2- Les outils de navigation et de recherche sur Internet

B-Les outils de visualisation des reacutesultats TouchGraph application Java permettant de cartographier les reacutesultats issus

notamment de Google Amazon PubMed Alexa FaceBook

55

Cartographie de linformation- Famille doutils orienteacutes laquo bibliothegraveques raquo

2- Les outils de navigation et de recherche sur Internet (seacutelection de Pierre Nobis)

C- Les outils de recherche avec ajout de termes associeacutes dans une colonne regroupement theacutematique nuage de laquo tags raquo

D- Meacutetamoteurs avec affichage de clusters sous forme de listes

Carrot2 Clusty-Vivissimo Iboogie Polymeta Turbo10 Webclust

56

Cartographie de linformation- Famille doutils orienteacutes laquo bibliothegraveques raquo

2- Les outils de navigation et de recherche sur Internet (seacutelection de Pierre Nobis)

E- Meacutetamoteurs avec affichage de clusters sous forme graphique

E1- repreacutesentation centreacutee Allplus WebBrain

Allplus est un meacutetamoteur agrave clusteacuterisation graphique qui interroge les bases de Ask Google Yahoo et Livepar le biais de lrsquooutil Polymeta Lrsquointerface cluster graph permet de visualiser les reacutesultats sous une forme graphique

Webbrain permet de visualiser et drsquoaffiner les reacutesultats drsquoune requecircte issus de lrsquoOpen Directory Project

57

Cartographie de linformation- Famille doutils orienteacutes laquo bibliothegraveques raquo

2- Les outils de navigation et de recherche sur Internet (seacutelection de Pierre Nobis)

E- Meacutetamoteurs avec affichage de clusters sous forme graphique

E2- Repreacutesentation circulaire Grokker

E3- Repreacutesentation topographique TooLeNet srsquoappuie sur les technologies de KartOO et sur lrsquoindex de

Yahoo pour effectuer des recherches selon 3 modes moteur annuaire et carte auxquels srsquoajoutent des

options de personnalisation et de classification assez avanceacutees

58

Cartographie de linformation- Famille doutils orienteacutes laquo bibliothegraveques raquo

3- Les Outils graphiques dexploration

Wikimindmap est un outil drsquointerrogation

et de repreacutesentation des informations issues

de Wikipedia sous forme de carte heuristique

Visuwords est un dictionnaire en ligne

qui preacutesente ses reacutesultats sous forme de laquo grappes raquo

Il utilise la base de donneacutees Wordnet

Code couleur pour les diffeacuterentes relations

seacutemantiques hieacuterarchiques entre les termes

ainsi que les synonymes et les antonymes

59

Cartographie de linformation- Famille doutils orienteacutes laquo bibliothegraveques raquo

4- Les outils de creacuteation (carto)graphiqueA- Pour meacutemoire les logiciels de creacuteation de cartes heuristiques et conceptuelles

Cmaptools est un logiciel gratuit (usage eacuteducatif) de creacuteation de cartes conceptuelles

Freemind est un logiciel libre et gratuit qui permet de reacutealiser des cartes heuristiques

Thinkgraph est un logiciel gratuit de dessin 2D orienteacute vers la reacutealisation de cartes conceptuelles

60

Cartographie de linformation- Famille doutils orienteacutes laquo bibliothegraveques raquo

4- Les outils de creacuteation (carto)graphique

B- Les outils drsquoeacutedition de graphes

Guess est un logiciel libre et gratuit deacuteveloppeacute par Eytan Adar qui permet de visualiser des

graphes statiques Options de modification de certains attributs (taille couleur forme

algorithmes de positionnementhellip)

Pajek est un logiciel libre et gratuit (usage non commercial) deacuteveloppeacute par V Batagelj et A

Mrvar qui permet de traiter des donneacutees de reacuteseaux de grande taille Pajek signifie araigneacutee

en slovegravene

C- Les outils en ligne

ManyEye service collaboratif deacuteveloppeacute par IBM gracircce auquel on peut geacuteneacuterer selon un

des modegraveles proposeacutes sa propre visualisation de lrsquoinformation (apregraves avoir teacuteleacuteverseacute ses

propres donneacutees)

IssueCrawler outil de web social mining utilisable agrave distance (chargement des URL)

reacutecupeacuteration graphique

61

Cartographie de linformation- Famille doutils et contextes applicatifs

2- Contextes applicatifs

Eleacutements deacutevaluation

Les perspectives de la cartographie seacutemantique

62

Cartographie de linformation- Famille doutils et contextes applicatifs

2- Contextes applicatifs Eleacutements deacutevaluation

21- Evaluation scientifique

Question de meacutethode Eacutevaluation des Interfaces Utilisateur drsquoInformation Bonnel et Chevalier 2006

Objectif proposer une meacutethodologie deacutevaluation permettant de comparer du point de vue de la

visualisation des reacutesultats agrave une requecircte les outils de recherche Google Vivisimo Ujiko Grokker Kartoo

Vios SmartWeb (prototype)

Evaluation des repreacutesentations graphiques geacuteneacuteraliteacutes (Tricot et Roche 2006)

bull Arborescences simples

habitude des utilisateurs (explorateur de fichiers informatiques) pas de problegravemes avec volume limiteacute

au-delagrave drsquoune certaine quantiteacute drsquoinformation les arborescences deviennent inefficaces

bull Arbres de cocircnes en 3D

posent des problegravemes agrave lrsquoutilisateur qui nrsquoa pas lrsquohabitude des espaces en 3D

effort cognitif plus eacuteleveacute et prise en main plus longue

bull Arbres hyperboliques

problegravemes des eacutetiquettes des eacuteleacutements (occlusion)

effet de zoom impreacutevisible

Lrsquoune des conclusions une seule visualisation ne permet pas de reacutepondre agrave toutes les questions

multiplier les possibiliteacutes de visualisation

63

Cartographie de linformation- Famille doutils et contextes applicatifs

2- Contextes applicatifs Eleacutements deacutevaluation

21- Evaluation scientifique doctorat en cours agrave lrsquoEBSI (Aline Creacutedeville)

bull Contexte visualisation de lrsquoinformation dans le contexte de recherche drsquoinformation

bull Point de vue de la seacutemiologie graphique

o principes les plus couramment utiliseacutes sont la proximiteacute (Grokker) lrsquoenglobage (Kartoo)

et la connectiviteacute (Auquabrowser)

omeacutetaphores visuelles pas toujours adeacutequates au web

bull Reacutesultats

o lrsquoinformation doit ecirctre structureacutee

o apports possible pour lrsquoexploration mais pas pour la recherche

64

Cartographie de linformation- Famille doutils et contextes applicatifs

2- Contextes applicatifs Eleacutements deacutevaluation

22- Evaluation en contexte dusage de recherche dinformations (Ciaccia Ihadjadene Martins 2006)

Objectif analyse de lrsquoinfluence du mode de preacutesentation des informations sur les processus cognitifs mis

en jeu par lrsquoutilisateur dans lrsquoactiviteacute de recherche drsquoinformations sur Internet

Outils eacutevalueacutes Kartoo (pour 18 usagers) et Mapstan (pour 16 usagers)

Principaux reacutesultats

Coucirct cognitif sans pour autant conduire agrave de meilleures performances (comparaison avec une

preacutesentation en liste)

Hypothegravese nouveauteacute de la preacutesentation versus habitude des preacutesentations verbales

Strateacutegie optimiseacutee preacuteciser la requecircte drsquoune recherche agrave but flou et se concentrer sur les informations

relieacutees agrave lrsquoobjectif de la question versus informations non relieacutees

Le sens de la visualisation doit ecirctre clarifieacute les systegravemes doivent faciliter la compreacutehension des

eacuteleacutements visualiseacutes

65

Cartographie de linformation- Famille doutils et contextes applicatifs

2- Contextes applicatifs Les perspectives de la cartographie seacutemantique (C Tricot de la seacutemantique agrave la carte)

Pour reacutesoudre la probleacutematique de la repreacutesentation de lrsquoinformation la visualisation de

lrsquoinformation seule ne suffit pas

La visualisation de lrsquoinformation permet uniquement de preacutesenter des donneacutees en leur

associant une repreacutesentation graphique

La cartographie seacutemantique se veut

Une meacutethode de cartographie reposant sur la seacutemantique dun domaine

Un processus de production de connaissances

donneacutees brutes -gt donneacutees structureacutees -gt donneacutees repreacutesenteacutees -gt donneacutees visualiseacutees

Un formalisme de description type Reacuteseaux seacutemantiques

Un langage de description cartographique

Une architecture multi-agents

66

Cartographie de linformation- Famille doutils et contextes applicatifs

2- Contextes applicatifs Les perspectives de la cartographie seacutemantique (C Tricot de la seacutemantique agrave la carte)

67

Cartographie de linformation- Famille doutils et contextes applicatifs

2- Contextes applicatifs Les perspectives de la cartographie seacutemantique

ldquoUne bonne structure repreacutesentative graphique pour un arbre de donneacutees est celle qui deacuteforme le moins les similitudes originales entre les uniteacutes de donneacutees (similitudes qui sont donneacutes par loutil de classification) ou en dautres termes deux individus (ou classes) qui sont proches lune de lautre le restent aussi possible que peut apregraves projection dans l`espace de visualisation et ceci doit ecirctre eacutevident(et veacuterifiable par une mesure de calcul de divergence) dans lenvironnement de visualisation ldquo Tricot 2006

Page 50: Cartographie de l'information- Composantes des - Urfist de Paris

50

Cartographie de linformation- Famille doutils et contextes applicatifs

1- Famille doutils typologies

11- Typologie scientifique eacutetablie selon des critegraveres internes au domaine

bull les trois principaux paradigmes technique de visualisation type de donneacutees et type dinteraction (Keim

DA 2002)

bull la nature des donneacutees unidimensionnelles bidimensionnelles tridimensionnelles temporelles

multidimensionnelles hieacuterarchiques reacuteseaux (Shneiderman B 1996)

12- Etat de lart eacutevaluation - benchmarking typologie orienteacutee usages (veille et intelligence eacuteconomique)

Quelques exemples

Inist httpoutilsveilleinistfr

Esiee httpwwwaa-esieecomevent2005AGClaudeAschenbrennerppt

Ecole des Mines httpwwwdemoscienceorgresources

Commercial httpwwwk-praxiscom

Commercial httpwwwinformation-mininginfostate_of_art

Universitaire httpwell-formed-datanetthesis

13- Typologie cartographique

Quelques exemples de bloggers

bull Claude Aschenbrenner httpwwwserialmappercomarchive20070110la-pierre-de-rosette-de-la-

cartographie-de-l-informationhtml avec son mode demploi

bull Kartoo httpwwwmapdreamcom

51

Cartographie de linformation- Famille doutils et contextes applicatifs

1- Famille doutils typologie scientifique

52

Cartographie de linformation- Famille doutils orienteacutes laquo bibliothegraveques raquo

2- Les outils de navigation et de recherche sur Internet (seacutelection de Pierre Nobis)

A- Les navigateurs Nestor Navicrawler

53

Cartographie de linformation- Famille doutils orienteacutes laquo bibliothegraveques raquo

2- Les outils de navigation et de recherche sur Internet (seacutelection de Pierre Nobis)

B- Les outils de visualisation des reacutesultats PageBull ManagedQ

Bbis Les outils de visualisation de reacutesultats dans les actualiteacutes

repreacutesentation carreacutee Marumushi - Google NewsNewsIsFree - The Hive Group Tenbyten -flux RSS des sources drsquoactualiteacutes internationales

repreacutesentation sous forme de graphe

Silobreaker

54

Cartographie de linformation- Famille doutils orienteacutes laquo bibliothegraveques raquo

2- Les outils de navigation et de recherche sur Internet

B-Les outils de visualisation des reacutesultats TouchGraph application Java permettant de cartographier les reacutesultats issus

notamment de Google Amazon PubMed Alexa FaceBook

55

Cartographie de linformation- Famille doutils orienteacutes laquo bibliothegraveques raquo

2- Les outils de navigation et de recherche sur Internet (seacutelection de Pierre Nobis)

C- Les outils de recherche avec ajout de termes associeacutes dans une colonne regroupement theacutematique nuage de laquo tags raquo

D- Meacutetamoteurs avec affichage de clusters sous forme de listes

Carrot2 Clusty-Vivissimo Iboogie Polymeta Turbo10 Webclust

56

Cartographie de linformation- Famille doutils orienteacutes laquo bibliothegraveques raquo

2- Les outils de navigation et de recherche sur Internet (seacutelection de Pierre Nobis)

E- Meacutetamoteurs avec affichage de clusters sous forme graphique

E1- repreacutesentation centreacutee Allplus WebBrain

Allplus est un meacutetamoteur agrave clusteacuterisation graphique qui interroge les bases de Ask Google Yahoo et Livepar le biais de lrsquooutil Polymeta Lrsquointerface cluster graph permet de visualiser les reacutesultats sous une forme graphique

Webbrain permet de visualiser et drsquoaffiner les reacutesultats drsquoune requecircte issus de lrsquoOpen Directory Project

57

Cartographie de linformation- Famille doutils orienteacutes laquo bibliothegraveques raquo

2- Les outils de navigation et de recherche sur Internet (seacutelection de Pierre Nobis)

E- Meacutetamoteurs avec affichage de clusters sous forme graphique

E2- Repreacutesentation circulaire Grokker

E3- Repreacutesentation topographique TooLeNet srsquoappuie sur les technologies de KartOO et sur lrsquoindex de

Yahoo pour effectuer des recherches selon 3 modes moteur annuaire et carte auxquels srsquoajoutent des

options de personnalisation et de classification assez avanceacutees

58

Cartographie de linformation- Famille doutils orienteacutes laquo bibliothegraveques raquo

3- Les Outils graphiques dexploration

Wikimindmap est un outil drsquointerrogation

et de repreacutesentation des informations issues

de Wikipedia sous forme de carte heuristique

Visuwords est un dictionnaire en ligne

qui preacutesente ses reacutesultats sous forme de laquo grappes raquo

Il utilise la base de donneacutees Wordnet

Code couleur pour les diffeacuterentes relations

seacutemantiques hieacuterarchiques entre les termes

ainsi que les synonymes et les antonymes

59

Cartographie de linformation- Famille doutils orienteacutes laquo bibliothegraveques raquo

4- Les outils de creacuteation (carto)graphiqueA- Pour meacutemoire les logiciels de creacuteation de cartes heuristiques et conceptuelles

Cmaptools est un logiciel gratuit (usage eacuteducatif) de creacuteation de cartes conceptuelles

Freemind est un logiciel libre et gratuit qui permet de reacutealiser des cartes heuristiques

Thinkgraph est un logiciel gratuit de dessin 2D orienteacute vers la reacutealisation de cartes conceptuelles

60

Cartographie de linformation- Famille doutils orienteacutes laquo bibliothegraveques raquo

4- Les outils de creacuteation (carto)graphique

B- Les outils drsquoeacutedition de graphes

Guess est un logiciel libre et gratuit deacuteveloppeacute par Eytan Adar qui permet de visualiser des

graphes statiques Options de modification de certains attributs (taille couleur forme

algorithmes de positionnementhellip)

Pajek est un logiciel libre et gratuit (usage non commercial) deacuteveloppeacute par V Batagelj et A

Mrvar qui permet de traiter des donneacutees de reacuteseaux de grande taille Pajek signifie araigneacutee

en slovegravene

C- Les outils en ligne

ManyEye service collaboratif deacuteveloppeacute par IBM gracircce auquel on peut geacuteneacuterer selon un

des modegraveles proposeacutes sa propre visualisation de lrsquoinformation (apregraves avoir teacuteleacuteverseacute ses

propres donneacutees)

IssueCrawler outil de web social mining utilisable agrave distance (chargement des URL)

reacutecupeacuteration graphique

61

Cartographie de linformation- Famille doutils et contextes applicatifs

2- Contextes applicatifs

Eleacutements deacutevaluation

Les perspectives de la cartographie seacutemantique

62

Cartographie de linformation- Famille doutils et contextes applicatifs

2- Contextes applicatifs Eleacutements deacutevaluation

21- Evaluation scientifique

Question de meacutethode Eacutevaluation des Interfaces Utilisateur drsquoInformation Bonnel et Chevalier 2006

Objectif proposer une meacutethodologie deacutevaluation permettant de comparer du point de vue de la

visualisation des reacutesultats agrave une requecircte les outils de recherche Google Vivisimo Ujiko Grokker Kartoo

Vios SmartWeb (prototype)

Evaluation des repreacutesentations graphiques geacuteneacuteraliteacutes (Tricot et Roche 2006)

bull Arborescences simples

habitude des utilisateurs (explorateur de fichiers informatiques) pas de problegravemes avec volume limiteacute

au-delagrave drsquoune certaine quantiteacute drsquoinformation les arborescences deviennent inefficaces

bull Arbres de cocircnes en 3D

posent des problegravemes agrave lrsquoutilisateur qui nrsquoa pas lrsquohabitude des espaces en 3D

effort cognitif plus eacuteleveacute et prise en main plus longue

bull Arbres hyperboliques

problegravemes des eacutetiquettes des eacuteleacutements (occlusion)

effet de zoom impreacutevisible

Lrsquoune des conclusions une seule visualisation ne permet pas de reacutepondre agrave toutes les questions

multiplier les possibiliteacutes de visualisation

63

Cartographie de linformation- Famille doutils et contextes applicatifs

2- Contextes applicatifs Eleacutements deacutevaluation

21- Evaluation scientifique doctorat en cours agrave lrsquoEBSI (Aline Creacutedeville)

bull Contexte visualisation de lrsquoinformation dans le contexte de recherche drsquoinformation

bull Point de vue de la seacutemiologie graphique

o principes les plus couramment utiliseacutes sont la proximiteacute (Grokker) lrsquoenglobage (Kartoo)

et la connectiviteacute (Auquabrowser)

omeacutetaphores visuelles pas toujours adeacutequates au web

bull Reacutesultats

o lrsquoinformation doit ecirctre structureacutee

o apports possible pour lrsquoexploration mais pas pour la recherche

64

Cartographie de linformation- Famille doutils et contextes applicatifs

2- Contextes applicatifs Eleacutements deacutevaluation

22- Evaluation en contexte dusage de recherche dinformations (Ciaccia Ihadjadene Martins 2006)

Objectif analyse de lrsquoinfluence du mode de preacutesentation des informations sur les processus cognitifs mis

en jeu par lrsquoutilisateur dans lrsquoactiviteacute de recherche drsquoinformations sur Internet

Outils eacutevalueacutes Kartoo (pour 18 usagers) et Mapstan (pour 16 usagers)

Principaux reacutesultats

Coucirct cognitif sans pour autant conduire agrave de meilleures performances (comparaison avec une

preacutesentation en liste)

Hypothegravese nouveauteacute de la preacutesentation versus habitude des preacutesentations verbales

Strateacutegie optimiseacutee preacuteciser la requecircte drsquoune recherche agrave but flou et se concentrer sur les informations

relieacutees agrave lrsquoobjectif de la question versus informations non relieacutees

Le sens de la visualisation doit ecirctre clarifieacute les systegravemes doivent faciliter la compreacutehension des

eacuteleacutements visualiseacutes

65

Cartographie de linformation- Famille doutils et contextes applicatifs

2- Contextes applicatifs Les perspectives de la cartographie seacutemantique (C Tricot de la seacutemantique agrave la carte)

Pour reacutesoudre la probleacutematique de la repreacutesentation de lrsquoinformation la visualisation de

lrsquoinformation seule ne suffit pas

La visualisation de lrsquoinformation permet uniquement de preacutesenter des donneacutees en leur

associant une repreacutesentation graphique

La cartographie seacutemantique se veut

Une meacutethode de cartographie reposant sur la seacutemantique dun domaine

Un processus de production de connaissances

donneacutees brutes -gt donneacutees structureacutees -gt donneacutees repreacutesenteacutees -gt donneacutees visualiseacutees

Un formalisme de description type Reacuteseaux seacutemantiques

Un langage de description cartographique

Une architecture multi-agents

66

Cartographie de linformation- Famille doutils et contextes applicatifs

2- Contextes applicatifs Les perspectives de la cartographie seacutemantique (C Tricot de la seacutemantique agrave la carte)

67

Cartographie de linformation- Famille doutils et contextes applicatifs

2- Contextes applicatifs Les perspectives de la cartographie seacutemantique

ldquoUne bonne structure repreacutesentative graphique pour un arbre de donneacutees est celle qui deacuteforme le moins les similitudes originales entre les uniteacutes de donneacutees (similitudes qui sont donneacutes par loutil de classification) ou en dautres termes deux individus (ou classes) qui sont proches lune de lautre le restent aussi possible que peut apregraves projection dans l`espace de visualisation et ceci doit ecirctre eacutevident(et veacuterifiable par une mesure de calcul de divergence) dans lenvironnement de visualisation ldquo Tricot 2006

Page 51: Cartographie de l'information- Composantes des - Urfist de Paris

51

Cartographie de linformation- Famille doutils et contextes applicatifs

1- Famille doutils typologie scientifique

52

Cartographie de linformation- Famille doutils orienteacutes laquo bibliothegraveques raquo

2- Les outils de navigation et de recherche sur Internet (seacutelection de Pierre Nobis)

A- Les navigateurs Nestor Navicrawler

53

Cartographie de linformation- Famille doutils orienteacutes laquo bibliothegraveques raquo

2- Les outils de navigation et de recherche sur Internet (seacutelection de Pierre Nobis)

B- Les outils de visualisation des reacutesultats PageBull ManagedQ

Bbis Les outils de visualisation de reacutesultats dans les actualiteacutes

repreacutesentation carreacutee Marumushi - Google NewsNewsIsFree - The Hive Group Tenbyten -flux RSS des sources drsquoactualiteacutes internationales

repreacutesentation sous forme de graphe

Silobreaker

54

Cartographie de linformation- Famille doutils orienteacutes laquo bibliothegraveques raquo

2- Les outils de navigation et de recherche sur Internet

B-Les outils de visualisation des reacutesultats TouchGraph application Java permettant de cartographier les reacutesultats issus

notamment de Google Amazon PubMed Alexa FaceBook

55

Cartographie de linformation- Famille doutils orienteacutes laquo bibliothegraveques raquo

2- Les outils de navigation et de recherche sur Internet (seacutelection de Pierre Nobis)

C- Les outils de recherche avec ajout de termes associeacutes dans une colonne regroupement theacutematique nuage de laquo tags raquo

D- Meacutetamoteurs avec affichage de clusters sous forme de listes

Carrot2 Clusty-Vivissimo Iboogie Polymeta Turbo10 Webclust

56

Cartographie de linformation- Famille doutils orienteacutes laquo bibliothegraveques raquo

2- Les outils de navigation et de recherche sur Internet (seacutelection de Pierre Nobis)

E- Meacutetamoteurs avec affichage de clusters sous forme graphique

E1- repreacutesentation centreacutee Allplus WebBrain

Allplus est un meacutetamoteur agrave clusteacuterisation graphique qui interroge les bases de Ask Google Yahoo et Livepar le biais de lrsquooutil Polymeta Lrsquointerface cluster graph permet de visualiser les reacutesultats sous une forme graphique

Webbrain permet de visualiser et drsquoaffiner les reacutesultats drsquoune requecircte issus de lrsquoOpen Directory Project

57

Cartographie de linformation- Famille doutils orienteacutes laquo bibliothegraveques raquo

2- Les outils de navigation et de recherche sur Internet (seacutelection de Pierre Nobis)

E- Meacutetamoteurs avec affichage de clusters sous forme graphique

E2- Repreacutesentation circulaire Grokker

E3- Repreacutesentation topographique TooLeNet srsquoappuie sur les technologies de KartOO et sur lrsquoindex de

Yahoo pour effectuer des recherches selon 3 modes moteur annuaire et carte auxquels srsquoajoutent des

options de personnalisation et de classification assez avanceacutees

58

Cartographie de linformation- Famille doutils orienteacutes laquo bibliothegraveques raquo

3- Les Outils graphiques dexploration

Wikimindmap est un outil drsquointerrogation

et de repreacutesentation des informations issues

de Wikipedia sous forme de carte heuristique

Visuwords est un dictionnaire en ligne

qui preacutesente ses reacutesultats sous forme de laquo grappes raquo

Il utilise la base de donneacutees Wordnet

Code couleur pour les diffeacuterentes relations

seacutemantiques hieacuterarchiques entre les termes

ainsi que les synonymes et les antonymes

59

Cartographie de linformation- Famille doutils orienteacutes laquo bibliothegraveques raquo

4- Les outils de creacuteation (carto)graphiqueA- Pour meacutemoire les logiciels de creacuteation de cartes heuristiques et conceptuelles

Cmaptools est un logiciel gratuit (usage eacuteducatif) de creacuteation de cartes conceptuelles

Freemind est un logiciel libre et gratuit qui permet de reacutealiser des cartes heuristiques

Thinkgraph est un logiciel gratuit de dessin 2D orienteacute vers la reacutealisation de cartes conceptuelles

60

Cartographie de linformation- Famille doutils orienteacutes laquo bibliothegraveques raquo

4- Les outils de creacuteation (carto)graphique

B- Les outils drsquoeacutedition de graphes

Guess est un logiciel libre et gratuit deacuteveloppeacute par Eytan Adar qui permet de visualiser des

graphes statiques Options de modification de certains attributs (taille couleur forme

algorithmes de positionnementhellip)

Pajek est un logiciel libre et gratuit (usage non commercial) deacuteveloppeacute par V Batagelj et A

Mrvar qui permet de traiter des donneacutees de reacuteseaux de grande taille Pajek signifie araigneacutee

en slovegravene

C- Les outils en ligne

ManyEye service collaboratif deacuteveloppeacute par IBM gracircce auquel on peut geacuteneacuterer selon un

des modegraveles proposeacutes sa propre visualisation de lrsquoinformation (apregraves avoir teacuteleacuteverseacute ses

propres donneacutees)

IssueCrawler outil de web social mining utilisable agrave distance (chargement des URL)

reacutecupeacuteration graphique

61

Cartographie de linformation- Famille doutils et contextes applicatifs

2- Contextes applicatifs

Eleacutements deacutevaluation

Les perspectives de la cartographie seacutemantique

62

Cartographie de linformation- Famille doutils et contextes applicatifs

2- Contextes applicatifs Eleacutements deacutevaluation

21- Evaluation scientifique

Question de meacutethode Eacutevaluation des Interfaces Utilisateur drsquoInformation Bonnel et Chevalier 2006

Objectif proposer une meacutethodologie deacutevaluation permettant de comparer du point de vue de la

visualisation des reacutesultats agrave une requecircte les outils de recherche Google Vivisimo Ujiko Grokker Kartoo

Vios SmartWeb (prototype)

Evaluation des repreacutesentations graphiques geacuteneacuteraliteacutes (Tricot et Roche 2006)

bull Arborescences simples

habitude des utilisateurs (explorateur de fichiers informatiques) pas de problegravemes avec volume limiteacute

au-delagrave drsquoune certaine quantiteacute drsquoinformation les arborescences deviennent inefficaces

bull Arbres de cocircnes en 3D

posent des problegravemes agrave lrsquoutilisateur qui nrsquoa pas lrsquohabitude des espaces en 3D

effort cognitif plus eacuteleveacute et prise en main plus longue

bull Arbres hyperboliques

problegravemes des eacutetiquettes des eacuteleacutements (occlusion)

effet de zoom impreacutevisible

Lrsquoune des conclusions une seule visualisation ne permet pas de reacutepondre agrave toutes les questions

multiplier les possibiliteacutes de visualisation

63

Cartographie de linformation- Famille doutils et contextes applicatifs

2- Contextes applicatifs Eleacutements deacutevaluation

21- Evaluation scientifique doctorat en cours agrave lrsquoEBSI (Aline Creacutedeville)

bull Contexte visualisation de lrsquoinformation dans le contexte de recherche drsquoinformation

bull Point de vue de la seacutemiologie graphique

o principes les plus couramment utiliseacutes sont la proximiteacute (Grokker) lrsquoenglobage (Kartoo)

et la connectiviteacute (Auquabrowser)

omeacutetaphores visuelles pas toujours adeacutequates au web

bull Reacutesultats

o lrsquoinformation doit ecirctre structureacutee

o apports possible pour lrsquoexploration mais pas pour la recherche

64

Cartographie de linformation- Famille doutils et contextes applicatifs

2- Contextes applicatifs Eleacutements deacutevaluation

22- Evaluation en contexte dusage de recherche dinformations (Ciaccia Ihadjadene Martins 2006)

Objectif analyse de lrsquoinfluence du mode de preacutesentation des informations sur les processus cognitifs mis

en jeu par lrsquoutilisateur dans lrsquoactiviteacute de recherche drsquoinformations sur Internet

Outils eacutevalueacutes Kartoo (pour 18 usagers) et Mapstan (pour 16 usagers)

Principaux reacutesultats

Coucirct cognitif sans pour autant conduire agrave de meilleures performances (comparaison avec une

preacutesentation en liste)

Hypothegravese nouveauteacute de la preacutesentation versus habitude des preacutesentations verbales

Strateacutegie optimiseacutee preacuteciser la requecircte drsquoune recherche agrave but flou et se concentrer sur les informations

relieacutees agrave lrsquoobjectif de la question versus informations non relieacutees

Le sens de la visualisation doit ecirctre clarifieacute les systegravemes doivent faciliter la compreacutehension des

eacuteleacutements visualiseacutes

65

Cartographie de linformation- Famille doutils et contextes applicatifs

2- Contextes applicatifs Les perspectives de la cartographie seacutemantique (C Tricot de la seacutemantique agrave la carte)

Pour reacutesoudre la probleacutematique de la repreacutesentation de lrsquoinformation la visualisation de

lrsquoinformation seule ne suffit pas

La visualisation de lrsquoinformation permet uniquement de preacutesenter des donneacutees en leur

associant une repreacutesentation graphique

La cartographie seacutemantique se veut

Une meacutethode de cartographie reposant sur la seacutemantique dun domaine

Un processus de production de connaissances

donneacutees brutes -gt donneacutees structureacutees -gt donneacutees repreacutesenteacutees -gt donneacutees visualiseacutees

Un formalisme de description type Reacuteseaux seacutemantiques

Un langage de description cartographique

Une architecture multi-agents

66

Cartographie de linformation- Famille doutils et contextes applicatifs

2- Contextes applicatifs Les perspectives de la cartographie seacutemantique (C Tricot de la seacutemantique agrave la carte)

67

Cartographie de linformation- Famille doutils et contextes applicatifs

2- Contextes applicatifs Les perspectives de la cartographie seacutemantique

ldquoUne bonne structure repreacutesentative graphique pour un arbre de donneacutees est celle qui deacuteforme le moins les similitudes originales entre les uniteacutes de donneacutees (similitudes qui sont donneacutes par loutil de classification) ou en dautres termes deux individus (ou classes) qui sont proches lune de lautre le restent aussi possible que peut apregraves projection dans l`espace de visualisation et ceci doit ecirctre eacutevident(et veacuterifiable par une mesure de calcul de divergence) dans lenvironnement de visualisation ldquo Tricot 2006

Page 52: Cartographie de l'information- Composantes des - Urfist de Paris

52

Cartographie de linformation- Famille doutils orienteacutes laquo bibliothegraveques raquo

2- Les outils de navigation et de recherche sur Internet (seacutelection de Pierre Nobis)

A- Les navigateurs Nestor Navicrawler

53

Cartographie de linformation- Famille doutils orienteacutes laquo bibliothegraveques raquo

2- Les outils de navigation et de recherche sur Internet (seacutelection de Pierre Nobis)

B- Les outils de visualisation des reacutesultats PageBull ManagedQ

Bbis Les outils de visualisation de reacutesultats dans les actualiteacutes

repreacutesentation carreacutee Marumushi - Google NewsNewsIsFree - The Hive Group Tenbyten -flux RSS des sources drsquoactualiteacutes internationales

repreacutesentation sous forme de graphe

Silobreaker

54

Cartographie de linformation- Famille doutils orienteacutes laquo bibliothegraveques raquo

2- Les outils de navigation et de recherche sur Internet

B-Les outils de visualisation des reacutesultats TouchGraph application Java permettant de cartographier les reacutesultats issus

notamment de Google Amazon PubMed Alexa FaceBook

55

Cartographie de linformation- Famille doutils orienteacutes laquo bibliothegraveques raquo

2- Les outils de navigation et de recherche sur Internet (seacutelection de Pierre Nobis)

C- Les outils de recherche avec ajout de termes associeacutes dans une colonne regroupement theacutematique nuage de laquo tags raquo

D- Meacutetamoteurs avec affichage de clusters sous forme de listes

Carrot2 Clusty-Vivissimo Iboogie Polymeta Turbo10 Webclust

56

Cartographie de linformation- Famille doutils orienteacutes laquo bibliothegraveques raquo

2- Les outils de navigation et de recherche sur Internet (seacutelection de Pierre Nobis)

E- Meacutetamoteurs avec affichage de clusters sous forme graphique

E1- repreacutesentation centreacutee Allplus WebBrain

Allplus est un meacutetamoteur agrave clusteacuterisation graphique qui interroge les bases de Ask Google Yahoo et Livepar le biais de lrsquooutil Polymeta Lrsquointerface cluster graph permet de visualiser les reacutesultats sous une forme graphique

Webbrain permet de visualiser et drsquoaffiner les reacutesultats drsquoune requecircte issus de lrsquoOpen Directory Project

57

Cartographie de linformation- Famille doutils orienteacutes laquo bibliothegraveques raquo

2- Les outils de navigation et de recherche sur Internet (seacutelection de Pierre Nobis)

E- Meacutetamoteurs avec affichage de clusters sous forme graphique

E2- Repreacutesentation circulaire Grokker

E3- Repreacutesentation topographique TooLeNet srsquoappuie sur les technologies de KartOO et sur lrsquoindex de

Yahoo pour effectuer des recherches selon 3 modes moteur annuaire et carte auxquels srsquoajoutent des

options de personnalisation et de classification assez avanceacutees

58

Cartographie de linformation- Famille doutils orienteacutes laquo bibliothegraveques raquo

3- Les Outils graphiques dexploration

Wikimindmap est un outil drsquointerrogation

et de repreacutesentation des informations issues

de Wikipedia sous forme de carte heuristique

Visuwords est un dictionnaire en ligne

qui preacutesente ses reacutesultats sous forme de laquo grappes raquo

Il utilise la base de donneacutees Wordnet

Code couleur pour les diffeacuterentes relations

seacutemantiques hieacuterarchiques entre les termes

ainsi que les synonymes et les antonymes

59

Cartographie de linformation- Famille doutils orienteacutes laquo bibliothegraveques raquo

4- Les outils de creacuteation (carto)graphiqueA- Pour meacutemoire les logiciels de creacuteation de cartes heuristiques et conceptuelles

Cmaptools est un logiciel gratuit (usage eacuteducatif) de creacuteation de cartes conceptuelles

Freemind est un logiciel libre et gratuit qui permet de reacutealiser des cartes heuristiques

Thinkgraph est un logiciel gratuit de dessin 2D orienteacute vers la reacutealisation de cartes conceptuelles

60

Cartographie de linformation- Famille doutils orienteacutes laquo bibliothegraveques raquo

4- Les outils de creacuteation (carto)graphique

B- Les outils drsquoeacutedition de graphes

Guess est un logiciel libre et gratuit deacuteveloppeacute par Eytan Adar qui permet de visualiser des

graphes statiques Options de modification de certains attributs (taille couleur forme

algorithmes de positionnementhellip)

Pajek est un logiciel libre et gratuit (usage non commercial) deacuteveloppeacute par V Batagelj et A

Mrvar qui permet de traiter des donneacutees de reacuteseaux de grande taille Pajek signifie araigneacutee

en slovegravene

C- Les outils en ligne

ManyEye service collaboratif deacuteveloppeacute par IBM gracircce auquel on peut geacuteneacuterer selon un

des modegraveles proposeacutes sa propre visualisation de lrsquoinformation (apregraves avoir teacuteleacuteverseacute ses

propres donneacutees)

IssueCrawler outil de web social mining utilisable agrave distance (chargement des URL)

reacutecupeacuteration graphique

61

Cartographie de linformation- Famille doutils et contextes applicatifs

2- Contextes applicatifs

Eleacutements deacutevaluation

Les perspectives de la cartographie seacutemantique

62

Cartographie de linformation- Famille doutils et contextes applicatifs

2- Contextes applicatifs Eleacutements deacutevaluation

21- Evaluation scientifique

Question de meacutethode Eacutevaluation des Interfaces Utilisateur drsquoInformation Bonnel et Chevalier 2006

Objectif proposer une meacutethodologie deacutevaluation permettant de comparer du point de vue de la

visualisation des reacutesultats agrave une requecircte les outils de recherche Google Vivisimo Ujiko Grokker Kartoo

Vios SmartWeb (prototype)

Evaluation des repreacutesentations graphiques geacuteneacuteraliteacutes (Tricot et Roche 2006)

bull Arborescences simples

habitude des utilisateurs (explorateur de fichiers informatiques) pas de problegravemes avec volume limiteacute

au-delagrave drsquoune certaine quantiteacute drsquoinformation les arborescences deviennent inefficaces

bull Arbres de cocircnes en 3D

posent des problegravemes agrave lrsquoutilisateur qui nrsquoa pas lrsquohabitude des espaces en 3D

effort cognitif plus eacuteleveacute et prise en main plus longue

bull Arbres hyperboliques

problegravemes des eacutetiquettes des eacuteleacutements (occlusion)

effet de zoom impreacutevisible

Lrsquoune des conclusions une seule visualisation ne permet pas de reacutepondre agrave toutes les questions

multiplier les possibiliteacutes de visualisation

63

Cartographie de linformation- Famille doutils et contextes applicatifs

2- Contextes applicatifs Eleacutements deacutevaluation

21- Evaluation scientifique doctorat en cours agrave lrsquoEBSI (Aline Creacutedeville)

bull Contexte visualisation de lrsquoinformation dans le contexte de recherche drsquoinformation

bull Point de vue de la seacutemiologie graphique

o principes les plus couramment utiliseacutes sont la proximiteacute (Grokker) lrsquoenglobage (Kartoo)

et la connectiviteacute (Auquabrowser)

omeacutetaphores visuelles pas toujours adeacutequates au web

bull Reacutesultats

o lrsquoinformation doit ecirctre structureacutee

o apports possible pour lrsquoexploration mais pas pour la recherche

64

Cartographie de linformation- Famille doutils et contextes applicatifs

2- Contextes applicatifs Eleacutements deacutevaluation

22- Evaluation en contexte dusage de recherche dinformations (Ciaccia Ihadjadene Martins 2006)

Objectif analyse de lrsquoinfluence du mode de preacutesentation des informations sur les processus cognitifs mis

en jeu par lrsquoutilisateur dans lrsquoactiviteacute de recherche drsquoinformations sur Internet

Outils eacutevalueacutes Kartoo (pour 18 usagers) et Mapstan (pour 16 usagers)

Principaux reacutesultats

Coucirct cognitif sans pour autant conduire agrave de meilleures performances (comparaison avec une

preacutesentation en liste)

Hypothegravese nouveauteacute de la preacutesentation versus habitude des preacutesentations verbales

Strateacutegie optimiseacutee preacuteciser la requecircte drsquoune recherche agrave but flou et se concentrer sur les informations

relieacutees agrave lrsquoobjectif de la question versus informations non relieacutees

Le sens de la visualisation doit ecirctre clarifieacute les systegravemes doivent faciliter la compreacutehension des

eacuteleacutements visualiseacutes

65

Cartographie de linformation- Famille doutils et contextes applicatifs

2- Contextes applicatifs Les perspectives de la cartographie seacutemantique (C Tricot de la seacutemantique agrave la carte)

Pour reacutesoudre la probleacutematique de la repreacutesentation de lrsquoinformation la visualisation de

lrsquoinformation seule ne suffit pas

La visualisation de lrsquoinformation permet uniquement de preacutesenter des donneacutees en leur

associant une repreacutesentation graphique

La cartographie seacutemantique se veut

Une meacutethode de cartographie reposant sur la seacutemantique dun domaine

Un processus de production de connaissances

donneacutees brutes -gt donneacutees structureacutees -gt donneacutees repreacutesenteacutees -gt donneacutees visualiseacutees

Un formalisme de description type Reacuteseaux seacutemantiques

Un langage de description cartographique

Une architecture multi-agents

66

Cartographie de linformation- Famille doutils et contextes applicatifs

2- Contextes applicatifs Les perspectives de la cartographie seacutemantique (C Tricot de la seacutemantique agrave la carte)

67

Cartographie de linformation- Famille doutils et contextes applicatifs

2- Contextes applicatifs Les perspectives de la cartographie seacutemantique

ldquoUne bonne structure repreacutesentative graphique pour un arbre de donneacutees est celle qui deacuteforme le moins les similitudes originales entre les uniteacutes de donneacutees (similitudes qui sont donneacutes par loutil de classification) ou en dautres termes deux individus (ou classes) qui sont proches lune de lautre le restent aussi possible que peut apregraves projection dans l`espace de visualisation et ceci doit ecirctre eacutevident(et veacuterifiable par une mesure de calcul de divergence) dans lenvironnement de visualisation ldquo Tricot 2006

Page 53: Cartographie de l'information- Composantes des - Urfist de Paris

53

Cartographie de linformation- Famille doutils orienteacutes laquo bibliothegraveques raquo

2- Les outils de navigation et de recherche sur Internet (seacutelection de Pierre Nobis)

B- Les outils de visualisation des reacutesultats PageBull ManagedQ

Bbis Les outils de visualisation de reacutesultats dans les actualiteacutes

repreacutesentation carreacutee Marumushi - Google NewsNewsIsFree - The Hive Group Tenbyten -flux RSS des sources drsquoactualiteacutes internationales

repreacutesentation sous forme de graphe

Silobreaker

54

Cartographie de linformation- Famille doutils orienteacutes laquo bibliothegraveques raquo

2- Les outils de navigation et de recherche sur Internet

B-Les outils de visualisation des reacutesultats TouchGraph application Java permettant de cartographier les reacutesultats issus

notamment de Google Amazon PubMed Alexa FaceBook

55

Cartographie de linformation- Famille doutils orienteacutes laquo bibliothegraveques raquo

2- Les outils de navigation et de recherche sur Internet (seacutelection de Pierre Nobis)

C- Les outils de recherche avec ajout de termes associeacutes dans une colonne regroupement theacutematique nuage de laquo tags raquo

D- Meacutetamoteurs avec affichage de clusters sous forme de listes

Carrot2 Clusty-Vivissimo Iboogie Polymeta Turbo10 Webclust

56

Cartographie de linformation- Famille doutils orienteacutes laquo bibliothegraveques raquo

2- Les outils de navigation et de recherche sur Internet (seacutelection de Pierre Nobis)

E- Meacutetamoteurs avec affichage de clusters sous forme graphique

E1- repreacutesentation centreacutee Allplus WebBrain

Allplus est un meacutetamoteur agrave clusteacuterisation graphique qui interroge les bases de Ask Google Yahoo et Livepar le biais de lrsquooutil Polymeta Lrsquointerface cluster graph permet de visualiser les reacutesultats sous une forme graphique

Webbrain permet de visualiser et drsquoaffiner les reacutesultats drsquoune requecircte issus de lrsquoOpen Directory Project

57

Cartographie de linformation- Famille doutils orienteacutes laquo bibliothegraveques raquo

2- Les outils de navigation et de recherche sur Internet (seacutelection de Pierre Nobis)

E- Meacutetamoteurs avec affichage de clusters sous forme graphique

E2- Repreacutesentation circulaire Grokker

E3- Repreacutesentation topographique TooLeNet srsquoappuie sur les technologies de KartOO et sur lrsquoindex de

Yahoo pour effectuer des recherches selon 3 modes moteur annuaire et carte auxquels srsquoajoutent des

options de personnalisation et de classification assez avanceacutees

58

Cartographie de linformation- Famille doutils orienteacutes laquo bibliothegraveques raquo

3- Les Outils graphiques dexploration

Wikimindmap est un outil drsquointerrogation

et de repreacutesentation des informations issues

de Wikipedia sous forme de carte heuristique

Visuwords est un dictionnaire en ligne

qui preacutesente ses reacutesultats sous forme de laquo grappes raquo

Il utilise la base de donneacutees Wordnet

Code couleur pour les diffeacuterentes relations

seacutemantiques hieacuterarchiques entre les termes

ainsi que les synonymes et les antonymes

59

Cartographie de linformation- Famille doutils orienteacutes laquo bibliothegraveques raquo

4- Les outils de creacuteation (carto)graphiqueA- Pour meacutemoire les logiciels de creacuteation de cartes heuristiques et conceptuelles

Cmaptools est un logiciel gratuit (usage eacuteducatif) de creacuteation de cartes conceptuelles

Freemind est un logiciel libre et gratuit qui permet de reacutealiser des cartes heuristiques

Thinkgraph est un logiciel gratuit de dessin 2D orienteacute vers la reacutealisation de cartes conceptuelles

60

Cartographie de linformation- Famille doutils orienteacutes laquo bibliothegraveques raquo

4- Les outils de creacuteation (carto)graphique

B- Les outils drsquoeacutedition de graphes

Guess est un logiciel libre et gratuit deacuteveloppeacute par Eytan Adar qui permet de visualiser des

graphes statiques Options de modification de certains attributs (taille couleur forme

algorithmes de positionnementhellip)

Pajek est un logiciel libre et gratuit (usage non commercial) deacuteveloppeacute par V Batagelj et A

Mrvar qui permet de traiter des donneacutees de reacuteseaux de grande taille Pajek signifie araigneacutee

en slovegravene

C- Les outils en ligne

ManyEye service collaboratif deacuteveloppeacute par IBM gracircce auquel on peut geacuteneacuterer selon un

des modegraveles proposeacutes sa propre visualisation de lrsquoinformation (apregraves avoir teacuteleacuteverseacute ses

propres donneacutees)

IssueCrawler outil de web social mining utilisable agrave distance (chargement des URL)

reacutecupeacuteration graphique

61

Cartographie de linformation- Famille doutils et contextes applicatifs

2- Contextes applicatifs

Eleacutements deacutevaluation

Les perspectives de la cartographie seacutemantique

62

Cartographie de linformation- Famille doutils et contextes applicatifs

2- Contextes applicatifs Eleacutements deacutevaluation

21- Evaluation scientifique

Question de meacutethode Eacutevaluation des Interfaces Utilisateur drsquoInformation Bonnel et Chevalier 2006

Objectif proposer une meacutethodologie deacutevaluation permettant de comparer du point de vue de la

visualisation des reacutesultats agrave une requecircte les outils de recherche Google Vivisimo Ujiko Grokker Kartoo

Vios SmartWeb (prototype)

Evaluation des repreacutesentations graphiques geacuteneacuteraliteacutes (Tricot et Roche 2006)

bull Arborescences simples

habitude des utilisateurs (explorateur de fichiers informatiques) pas de problegravemes avec volume limiteacute

au-delagrave drsquoune certaine quantiteacute drsquoinformation les arborescences deviennent inefficaces

bull Arbres de cocircnes en 3D

posent des problegravemes agrave lrsquoutilisateur qui nrsquoa pas lrsquohabitude des espaces en 3D

effort cognitif plus eacuteleveacute et prise en main plus longue

bull Arbres hyperboliques

problegravemes des eacutetiquettes des eacuteleacutements (occlusion)

effet de zoom impreacutevisible

Lrsquoune des conclusions une seule visualisation ne permet pas de reacutepondre agrave toutes les questions

multiplier les possibiliteacutes de visualisation

63

Cartographie de linformation- Famille doutils et contextes applicatifs

2- Contextes applicatifs Eleacutements deacutevaluation

21- Evaluation scientifique doctorat en cours agrave lrsquoEBSI (Aline Creacutedeville)

bull Contexte visualisation de lrsquoinformation dans le contexte de recherche drsquoinformation

bull Point de vue de la seacutemiologie graphique

o principes les plus couramment utiliseacutes sont la proximiteacute (Grokker) lrsquoenglobage (Kartoo)

et la connectiviteacute (Auquabrowser)

omeacutetaphores visuelles pas toujours adeacutequates au web

bull Reacutesultats

o lrsquoinformation doit ecirctre structureacutee

o apports possible pour lrsquoexploration mais pas pour la recherche

64

Cartographie de linformation- Famille doutils et contextes applicatifs

2- Contextes applicatifs Eleacutements deacutevaluation

22- Evaluation en contexte dusage de recherche dinformations (Ciaccia Ihadjadene Martins 2006)

Objectif analyse de lrsquoinfluence du mode de preacutesentation des informations sur les processus cognitifs mis

en jeu par lrsquoutilisateur dans lrsquoactiviteacute de recherche drsquoinformations sur Internet

Outils eacutevalueacutes Kartoo (pour 18 usagers) et Mapstan (pour 16 usagers)

Principaux reacutesultats

Coucirct cognitif sans pour autant conduire agrave de meilleures performances (comparaison avec une

preacutesentation en liste)

Hypothegravese nouveauteacute de la preacutesentation versus habitude des preacutesentations verbales

Strateacutegie optimiseacutee preacuteciser la requecircte drsquoune recherche agrave but flou et se concentrer sur les informations

relieacutees agrave lrsquoobjectif de la question versus informations non relieacutees

Le sens de la visualisation doit ecirctre clarifieacute les systegravemes doivent faciliter la compreacutehension des

eacuteleacutements visualiseacutes

65

Cartographie de linformation- Famille doutils et contextes applicatifs

2- Contextes applicatifs Les perspectives de la cartographie seacutemantique (C Tricot de la seacutemantique agrave la carte)

Pour reacutesoudre la probleacutematique de la repreacutesentation de lrsquoinformation la visualisation de

lrsquoinformation seule ne suffit pas

La visualisation de lrsquoinformation permet uniquement de preacutesenter des donneacutees en leur

associant une repreacutesentation graphique

La cartographie seacutemantique se veut

Une meacutethode de cartographie reposant sur la seacutemantique dun domaine

Un processus de production de connaissances

donneacutees brutes -gt donneacutees structureacutees -gt donneacutees repreacutesenteacutees -gt donneacutees visualiseacutees

Un formalisme de description type Reacuteseaux seacutemantiques

Un langage de description cartographique

Une architecture multi-agents

66

Cartographie de linformation- Famille doutils et contextes applicatifs

2- Contextes applicatifs Les perspectives de la cartographie seacutemantique (C Tricot de la seacutemantique agrave la carte)

67

Cartographie de linformation- Famille doutils et contextes applicatifs

2- Contextes applicatifs Les perspectives de la cartographie seacutemantique

ldquoUne bonne structure repreacutesentative graphique pour un arbre de donneacutees est celle qui deacuteforme le moins les similitudes originales entre les uniteacutes de donneacutees (similitudes qui sont donneacutes par loutil de classification) ou en dautres termes deux individus (ou classes) qui sont proches lune de lautre le restent aussi possible que peut apregraves projection dans l`espace de visualisation et ceci doit ecirctre eacutevident(et veacuterifiable par une mesure de calcul de divergence) dans lenvironnement de visualisation ldquo Tricot 2006

Page 54: Cartographie de l'information- Composantes des - Urfist de Paris

54

Cartographie de linformation- Famille doutils orienteacutes laquo bibliothegraveques raquo

2- Les outils de navigation et de recherche sur Internet

B-Les outils de visualisation des reacutesultats TouchGraph application Java permettant de cartographier les reacutesultats issus

notamment de Google Amazon PubMed Alexa FaceBook

55

Cartographie de linformation- Famille doutils orienteacutes laquo bibliothegraveques raquo

2- Les outils de navigation et de recherche sur Internet (seacutelection de Pierre Nobis)

C- Les outils de recherche avec ajout de termes associeacutes dans une colonne regroupement theacutematique nuage de laquo tags raquo

D- Meacutetamoteurs avec affichage de clusters sous forme de listes

Carrot2 Clusty-Vivissimo Iboogie Polymeta Turbo10 Webclust

56

Cartographie de linformation- Famille doutils orienteacutes laquo bibliothegraveques raquo

2- Les outils de navigation et de recherche sur Internet (seacutelection de Pierre Nobis)

E- Meacutetamoteurs avec affichage de clusters sous forme graphique

E1- repreacutesentation centreacutee Allplus WebBrain

Allplus est un meacutetamoteur agrave clusteacuterisation graphique qui interroge les bases de Ask Google Yahoo et Livepar le biais de lrsquooutil Polymeta Lrsquointerface cluster graph permet de visualiser les reacutesultats sous une forme graphique

Webbrain permet de visualiser et drsquoaffiner les reacutesultats drsquoune requecircte issus de lrsquoOpen Directory Project

57

Cartographie de linformation- Famille doutils orienteacutes laquo bibliothegraveques raquo

2- Les outils de navigation et de recherche sur Internet (seacutelection de Pierre Nobis)

E- Meacutetamoteurs avec affichage de clusters sous forme graphique

E2- Repreacutesentation circulaire Grokker

E3- Repreacutesentation topographique TooLeNet srsquoappuie sur les technologies de KartOO et sur lrsquoindex de

Yahoo pour effectuer des recherches selon 3 modes moteur annuaire et carte auxquels srsquoajoutent des

options de personnalisation et de classification assez avanceacutees

58

Cartographie de linformation- Famille doutils orienteacutes laquo bibliothegraveques raquo

3- Les Outils graphiques dexploration

Wikimindmap est un outil drsquointerrogation

et de repreacutesentation des informations issues

de Wikipedia sous forme de carte heuristique

Visuwords est un dictionnaire en ligne

qui preacutesente ses reacutesultats sous forme de laquo grappes raquo

Il utilise la base de donneacutees Wordnet

Code couleur pour les diffeacuterentes relations

seacutemantiques hieacuterarchiques entre les termes

ainsi que les synonymes et les antonymes

59

Cartographie de linformation- Famille doutils orienteacutes laquo bibliothegraveques raquo

4- Les outils de creacuteation (carto)graphiqueA- Pour meacutemoire les logiciels de creacuteation de cartes heuristiques et conceptuelles

Cmaptools est un logiciel gratuit (usage eacuteducatif) de creacuteation de cartes conceptuelles

Freemind est un logiciel libre et gratuit qui permet de reacutealiser des cartes heuristiques

Thinkgraph est un logiciel gratuit de dessin 2D orienteacute vers la reacutealisation de cartes conceptuelles

60

Cartographie de linformation- Famille doutils orienteacutes laquo bibliothegraveques raquo

4- Les outils de creacuteation (carto)graphique

B- Les outils drsquoeacutedition de graphes

Guess est un logiciel libre et gratuit deacuteveloppeacute par Eytan Adar qui permet de visualiser des

graphes statiques Options de modification de certains attributs (taille couleur forme

algorithmes de positionnementhellip)

Pajek est un logiciel libre et gratuit (usage non commercial) deacuteveloppeacute par V Batagelj et A

Mrvar qui permet de traiter des donneacutees de reacuteseaux de grande taille Pajek signifie araigneacutee

en slovegravene

C- Les outils en ligne

ManyEye service collaboratif deacuteveloppeacute par IBM gracircce auquel on peut geacuteneacuterer selon un

des modegraveles proposeacutes sa propre visualisation de lrsquoinformation (apregraves avoir teacuteleacuteverseacute ses

propres donneacutees)

IssueCrawler outil de web social mining utilisable agrave distance (chargement des URL)

reacutecupeacuteration graphique

61

Cartographie de linformation- Famille doutils et contextes applicatifs

2- Contextes applicatifs

Eleacutements deacutevaluation

Les perspectives de la cartographie seacutemantique

62

Cartographie de linformation- Famille doutils et contextes applicatifs

2- Contextes applicatifs Eleacutements deacutevaluation

21- Evaluation scientifique

Question de meacutethode Eacutevaluation des Interfaces Utilisateur drsquoInformation Bonnel et Chevalier 2006

Objectif proposer une meacutethodologie deacutevaluation permettant de comparer du point de vue de la

visualisation des reacutesultats agrave une requecircte les outils de recherche Google Vivisimo Ujiko Grokker Kartoo

Vios SmartWeb (prototype)

Evaluation des repreacutesentations graphiques geacuteneacuteraliteacutes (Tricot et Roche 2006)

bull Arborescences simples

habitude des utilisateurs (explorateur de fichiers informatiques) pas de problegravemes avec volume limiteacute

au-delagrave drsquoune certaine quantiteacute drsquoinformation les arborescences deviennent inefficaces

bull Arbres de cocircnes en 3D

posent des problegravemes agrave lrsquoutilisateur qui nrsquoa pas lrsquohabitude des espaces en 3D

effort cognitif plus eacuteleveacute et prise en main plus longue

bull Arbres hyperboliques

problegravemes des eacutetiquettes des eacuteleacutements (occlusion)

effet de zoom impreacutevisible

Lrsquoune des conclusions une seule visualisation ne permet pas de reacutepondre agrave toutes les questions

multiplier les possibiliteacutes de visualisation

63

Cartographie de linformation- Famille doutils et contextes applicatifs

2- Contextes applicatifs Eleacutements deacutevaluation

21- Evaluation scientifique doctorat en cours agrave lrsquoEBSI (Aline Creacutedeville)

bull Contexte visualisation de lrsquoinformation dans le contexte de recherche drsquoinformation

bull Point de vue de la seacutemiologie graphique

o principes les plus couramment utiliseacutes sont la proximiteacute (Grokker) lrsquoenglobage (Kartoo)

et la connectiviteacute (Auquabrowser)

omeacutetaphores visuelles pas toujours adeacutequates au web

bull Reacutesultats

o lrsquoinformation doit ecirctre structureacutee

o apports possible pour lrsquoexploration mais pas pour la recherche

64

Cartographie de linformation- Famille doutils et contextes applicatifs

2- Contextes applicatifs Eleacutements deacutevaluation

22- Evaluation en contexte dusage de recherche dinformations (Ciaccia Ihadjadene Martins 2006)

Objectif analyse de lrsquoinfluence du mode de preacutesentation des informations sur les processus cognitifs mis

en jeu par lrsquoutilisateur dans lrsquoactiviteacute de recherche drsquoinformations sur Internet

Outils eacutevalueacutes Kartoo (pour 18 usagers) et Mapstan (pour 16 usagers)

Principaux reacutesultats

Coucirct cognitif sans pour autant conduire agrave de meilleures performances (comparaison avec une

preacutesentation en liste)

Hypothegravese nouveauteacute de la preacutesentation versus habitude des preacutesentations verbales

Strateacutegie optimiseacutee preacuteciser la requecircte drsquoune recherche agrave but flou et se concentrer sur les informations

relieacutees agrave lrsquoobjectif de la question versus informations non relieacutees

Le sens de la visualisation doit ecirctre clarifieacute les systegravemes doivent faciliter la compreacutehension des

eacuteleacutements visualiseacutes

65

Cartographie de linformation- Famille doutils et contextes applicatifs

2- Contextes applicatifs Les perspectives de la cartographie seacutemantique (C Tricot de la seacutemantique agrave la carte)

Pour reacutesoudre la probleacutematique de la repreacutesentation de lrsquoinformation la visualisation de

lrsquoinformation seule ne suffit pas

La visualisation de lrsquoinformation permet uniquement de preacutesenter des donneacutees en leur

associant une repreacutesentation graphique

La cartographie seacutemantique se veut

Une meacutethode de cartographie reposant sur la seacutemantique dun domaine

Un processus de production de connaissances

donneacutees brutes -gt donneacutees structureacutees -gt donneacutees repreacutesenteacutees -gt donneacutees visualiseacutees

Un formalisme de description type Reacuteseaux seacutemantiques

Un langage de description cartographique

Une architecture multi-agents

66

Cartographie de linformation- Famille doutils et contextes applicatifs

2- Contextes applicatifs Les perspectives de la cartographie seacutemantique (C Tricot de la seacutemantique agrave la carte)

67

Cartographie de linformation- Famille doutils et contextes applicatifs

2- Contextes applicatifs Les perspectives de la cartographie seacutemantique

ldquoUne bonne structure repreacutesentative graphique pour un arbre de donneacutees est celle qui deacuteforme le moins les similitudes originales entre les uniteacutes de donneacutees (similitudes qui sont donneacutes par loutil de classification) ou en dautres termes deux individus (ou classes) qui sont proches lune de lautre le restent aussi possible que peut apregraves projection dans l`espace de visualisation et ceci doit ecirctre eacutevident(et veacuterifiable par une mesure de calcul de divergence) dans lenvironnement de visualisation ldquo Tricot 2006

Page 55: Cartographie de l'information- Composantes des - Urfist de Paris

55

Cartographie de linformation- Famille doutils orienteacutes laquo bibliothegraveques raquo

2- Les outils de navigation et de recherche sur Internet (seacutelection de Pierre Nobis)

C- Les outils de recherche avec ajout de termes associeacutes dans une colonne regroupement theacutematique nuage de laquo tags raquo

D- Meacutetamoteurs avec affichage de clusters sous forme de listes

Carrot2 Clusty-Vivissimo Iboogie Polymeta Turbo10 Webclust

56

Cartographie de linformation- Famille doutils orienteacutes laquo bibliothegraveques raquo

2- Les outils de navigation et de recherche sur Internet (seacutelection de Pierre Nobis)

E- Meacutetamoteurs avec affichage de clusters sous forme graphique

E1- repreacutesentation centreacutee Allplus WebBrain

Allplus est un meacutetamoteur agrave clusteacuterisation graphique qui interroge les bases de Ask Google Yahoo et Livepar le biais de lrsquooutil Polymeta Lrsquointerface cluster graph permet de visualiser les reacutesultats sous une forme graphique

Webbrain permet de visualiser et drsquoaffiner les reacutesultats drsquoune requecircte issus de lrsquoOpen Directory Project

57

Cartographie de linformation- Famille doutils orienteacutes laquo bibliothegraveques raquo

2- Les outils de navigation et de recherche sur Internet (seacutelection de Pierre Nobis)

E- Meacutetamoteurs avec affichage de clusters sous forme graphique

E2- Repreacutesentation circulaire Grokker

E3- Repreacutesentation topographique TooLeNet srsquoappuie sur les technologies de KartOO et sur lrsquoindex de

Yahoo pour effectuer des recherches selon 3 modes moteur annuaire et carte auxquels srsquoajoutent des

options de personnalisation et de classification assez avanceacutees

58

Cartographie de linformation- Famille doutils orienteacutes laquo bibliothegraveques raquo

3- Les Outils graphiques dexploration

Wikimindmap est un outil drsquointerrogation

et de repreacutesentation des informations issues

de Wikipedia sous forme de carte heuristique

Visuwords est un dictionnaire en ligne

qui preacutesente ses reacutesultats sous forme de laquo grappes raquo

Il utilise la base de donneacutees Wordnet

Code couleur pour les diffeacuterentes relations

seacutemantiques hieacuterarchiques entre les termes

ainsi que les synonymes et les antonymes

59

Cartographie de linformation- Famille doutils orienteacutes laquo bibliothegraveques raquo

4- Les outils de creacuteation (carto)graphiqueA- Pour meacutemoire les logiciels de creacuteation de cartes heuristiques et conceptuelles

Cmaptools est un logiciel gratuit (usage eacuteducatif) de creacuteation de cartes conceptuelles

Freemind est un logiciel libre et gratuit qui permet de reacutealiser des cartes heuristiques

Thinkgraph est un logiciel gratuit de dessin 2D orienteacute vers la reacutealisation de cartes conceptuelles

60

Cartographie de linformation- Famille doutils orienteacutes laquo bibliothegraveques raquo

4- Les outils de creacuteation (carto)graphique

B- Les outils drsquoeacutedition de graphes

Guess est un logiciel libre et gratuit deacuteveloppeacute par Eytan Adar qui permet de visualiser des

graphes statiques Options de modification de certains attributs (taille couleur forme

algorithmes de positionnementhellip)

Pajek est un logiciel libre et gratuit (usage non commercial) deacuteveloppeacute par V Batagelj et A

Mrvar qui permet de traiter des donneacutees de reacuteseaux de grande taille Pajek signifie araigneacutee

en slovegravene

C- Les outils en ligne

ManyEye service collaboratif deacuteveloppeacute par IBM gracircce auquel on peut geacuteneacuterer selon un

des modegraveles proposeacutes sa propre visualisation de lrsquoinformation (apregraves avoir teacuteleacuteverseacute ses

propres donneacutees)

IssueCrawler outil de web social mining utilisable agrave distance (chargement des URL)

reacutecupeacuteration graphique

61

Cartographie de linformation- Famille doutils et contextes applicatifs

2- Contextes applicatifs

Eleacutements deacutevaluation

Les perspectives de la cartographie seacutemantique

62

Cartographie de linformation- Famille doutils et contextes applicatifs

2- Contextes applicatifs Eleacutements deacutevaluation

21- Evaluation scientifique

Question de meacutethode Eacutevaluation des Interfaces Utilisateur drsquoInformation Bonnel et Chevalier 2006

Objectif proposer une meacutethodologie deacutevaluation permettant de comparer du point de vue de la

visualisation des reacutesultats agrave une requecircte les outils de recherche Google Vivisimo Ujiko Grokker Kartoo

Vios SmartWeb (prototype)

Evaluation des repreacutesentations graphiques geacuteneacuteraliteacutes (Tricot et Roche 2006)

bull Arborescences simples

habitude des utilisateurs (explorateur de fichiers informatiques) pas de problegravemes avec volume limiteacute

au-delagrave drsquoune certaine quantiteacute drsquoinformation les arborescences deviennent inefficaces

bull Arbres de cocircnes en 3D

posent des problegravemes agrave lrsquoutilisateur qui nrsquoa pas lrsquohabitude des espaces en 3D

effort cognitif plus eacuteleveacute et prise en main plus longue

bull Arbres hyperboliques

problegravemes des eacutetiquettes des eacuteleacutements (occlusion)

effet de zoom impreacutevisible

Lrsquoune des conclusions une seule visualisation ne permet pas de reacutepondre agrave toutes les questions

multiplier les possibiliteacutes de visualisation

63

Cartographie de linformation- Famille doutils et contextes applicatifs

2- Contextes applicatifs Eleacutements deacutevaluation

21- Evaluation scientifique doctorat en cours agrave lrsquoEBSI (Aline Creacutedeville)

bull Contexte visualisation de lrsquoinformation dans le contexte de recherche drsquoinformation

bull Point de vue de la seacutemiologie graphique

o principes les plus couramment utiliseacutes sont la proximiteacute (Grokker) lrsquoenglobage (Kartoo)

et la connectiviteacute (Auquabrowser)

omeacutetaphores visuelles pas toujours adeacutequates au web

bull Reacutesultats

o lrsquoinformation doit ecirctre structureacutee

o apports possible pour lrsquoexploration mais pas pour la recherche

64

Cartographie de linformation- Famille doutils et contextes applicatifs

2- Contextes applicatifs Eleacutements deacutevaluation

22- Evaluation en contexte dusage de recherche dinformations (Ciaccia Ihadjadene Martins 2006)

Objectif analyse de lrsquoinfluence du mode de preacutesentation des informations sur les processus cognitifs mis

en jeu par lrsquoutilisateur dans lrsquoactiviteacute de recherche drsquoinformations sur Internet

Outils eacutevalueacutes Kartoo (pour 18 usagers) et Mapstan (pour 16 usagers)

Principaux reacutesultats

Coucirct cognitif sans pour autant conduire agrave de meilleures performances (comparaison avec une

preacutesentation en liste)

Hypothegravese nouveauteacute de la preacutesentation versus habitude des preacutesentations verbales

Strateacutegie optimiseacutee preacuteciser la requecircte drsquoune recherche agrave but flou et se concentrer sur les informations

relieacutees agrave lrsquoobjectif de la question versus informations non relieacutees

Le sens de la visualisation doit ecirctre clarifieacute les systegravemes doivent faciliter la compreacutehension des

eacuteleacutements visualiseacutes

65

Cartographie de linformation- Famille doutils et contextes applicatifs

2- Contextes applicatifs Les perspectives de la cartographie seacutemantique (C Tricot de la seacutemantique agrave la carte)

Pour reacutesoudre la probleacutematique de la repreacutesentation de lrsquoinformation la visualisation de

lrsquoinformation seule ne suffit pas

La visualisation de lrsquoinformation permet uniquement de preacutesenter des donneacutees en leur

associant une repreacutesentation graphique

La cartographie seacutemantique se veut

Une meacutethode de cartographie reposant sur la seacutemantique dun domaine

Un processus de production de connaissances

donneacutees brutes -gt donneacutees structureacutees -gt donneacutees repreacutesenteacutees -gt donneacutees visualiseacutees

Un formalisme de description type Reacuteseaux seacutemantiques

Un langage de description cartographique

Une architecture multi-agents

66

Cartographie de linformation- Famille doutils et contextes applicatifs

2- Contextes applicatifs Les perspectives de la cartographie seacutemantique (C Tricot de la seacutemantique agrave la carte)

67

Cartographie de linformation- Famille doutils et contextes applicatifs

2- Contextes applicatifs Les perspectives de la cartographie seacutemantique

ldquoUne bonne structure repreacutesentative graphique pour un arbre de donneacutees est celle qui deacuteforme le moins les similitudes originales entre les uniteacutes de donneacutees (similitudes qui sont donneacutes par loutil de classification) ou en dautres termes deux individus (ou classes) qui sont proches lune de lautre le restent aussi possible que peut apregraves projection dans l`espace de visualisation et ceci doit ecirctre eacutevident(et veacuterifiable par une mesure de calcul de divergence) dans lenvironnement de visualisation ldquo Tricot 2006

Page 56: Cartographie de l'information- Composantes des - Urfist de Paris

56

Cartographie de linformation- Famille doutils orienteacutes laquo bibliothegraveques raquo

2- Les outils de navigation et de recherche sur Internet (seacutelection de Pierre Nobis)

E- Meacutetamoteurs avec affichage de clusters sous forme graphique

E1- repreacutesentation centreacutee Allplus WebBrain

Allplus est un meacutetamoteur agrave clusteacuterisation graphique qui interroge les bases de Ask Google Yahoo et Livepar le biais de lrsquooutil Polymeta Lrsquointerface cluster graph permet de visualiser les reacutesultats sous une forme graphique

Webbrain permet de visualiser et drsquoaffiner les reacutesultats drsquoune requecircte issus de lrsquoOpen Directory Project

57

Cartographie de linformation- Famille doutils orienteacutes laquo bibliothegraveques raquo

2- Les outils de navigation et de recherche sur Internet (seacutelection de Pierre Nobis)

E- Meacutetamoteurs avec affichage de clusters sous forme graphique

E2- Repreacutesentation circulaire Grokker

E3- Repreacutesentation topographique TooLeNet srsquoappuie sur les technologies de KartOO et sur lrsquoindex de

Yahoo pour effectuer des recherches selon 3 modes moteur annuaire et carte auxquels srsquoajoutent des

options de personnalisation et de classification assez avanceacutees

58

Cartographie de linformation- Famille doutils orienteacutes laquo bibliothegraveques raquo

3- Les Outils graphiques dexploration

Wikimindmap est un outil drsquointerrogation

et de repreacutesentation des informations issues

de Wikipedia sous forme de carte heuristique

Visuwords est un dictionnaire en ligne

qui preacutesente ses reacutesultats sous forme de laquo grappes raquo

Il utilise la base de donneacutees Wordnet

Code couleur pour les diffeacuterentes relations

seacutemantiques hieacuterarchiques entre les termes

ainsi que les synonymes et les antonymes

59

Cartographie de linformation- Famille doutils orienteacutes laquo bibliothegraveques raquo

4- Les outils de creacuteation (carto)graphiqueA- Pour meacutemoire les logiciels de creacuteation de cartes heuristiques et conceptuelles

Cmaptools est un logiciel gratuit (usage eacuteducatif) de creacuteation de cartes conceptuelles

Freemind est un logiciel libre et gratuit qui permet de reacutealiser des cartes heuristiques

Thinkgraph est un logiciel gratuit de dessin 2D orienteacute vers la reacutealisation de cartes conceptuelles

60

Cartographie de linformation- Famille doutils orienteacutes laquo bibliothegraveques raquo

4- Les outils de creacuteation (carto)graphique

B- Les outils drsquoeacutedition de graphes

Guess est un logiciel libre et gratuit deacuteveloppeacute par Eytan Adar qui permet de visualiser des

graphes statiques Options de modification de certains attributs (taille couleur forme

algorithmes de positionnementhellip)

Pajek est un logiciel libre et gratuit (usage non commercial) deacuteveloppeacute par V Batagelj et A

Mrvar qui permet de traiter des donneacutees de reacuteseaux de grande taille Pajek signifie araigneacutee

en slovegravene

C- Les outils en ligne

ManyEye service collaboratif deacuteveloppeacute par IBM gracircce auquel on peut geacuteneacuterer selon un

des modegraveles proposeacutes sa propre visualisation de lrsquoinformation (apregraves avoir teacuteleacuteverseacute ses

propres donneacutees)

IssueCrawler outil de web social mining utilisable agrave distance (chargement des URL)

reacutecupeacuteration graphique

61

Cartographie de linformation- Famille doutils et contextes applicatifs

2- Contextes applicatifs

Eleacutements deacutevaluation

Les perspectives de la cartographie seacutemantique

62

Cartographie de linformation- Famille doutils et contextes applicatifs

2- Contextes applicatifs Eleacutements deacutevaluation

21- Evaluation scientifique

Question de meacutethode Eacutevaluation des Interfaces Utilisateur drsquoInformation Bonnel et Chevalier 2006

Objectif proposer une meacutethodologie deacutevaluation permettant de comparer du point de vue de la

visualisation des reacutesultats agrave une requecircte les outils de recherche Google Vivisimo Ujiko Grokker Kartoo

Vios SmartWeb (prototype)

Evaluation des repreacutesentations graphiques geacuteneacuteraliteacutes (Tricot et Roche 2006)

bull Arborescences simples

habitude des utilisateurs (explorateur de fichiers informatiques) pas de problegravemes avec volume limiteacute

au-delagrave drsquoune certaine quantiteacute drsquoinformation les arborescences deviennent inefficaces

bull Arbres de cocircnes en 3D

posent des problegravemes agrave lrsquoutilisateur qui nrsquoa pas lrsquohabitude des espaces en 3D

effort cognitif plus eacuteleveacute et prise en main plus longue

bull Arbres hyperboliques

problegravemes des eacutetiquettes des eacuteleacutements (occlusion)

effet de zoom impreacutevisible

Lrsquoune des conclusions une seule visualisation ne permet pas de reacutepondre agrave toutes les questions

multiplier les possibiliteacutes de visualisation

63

Cartographie de linformation- Famille doutils et contextes applicatifs

2- Contextes applicatifs Eleacutements deacutevaluation

21- Evaluation scientifique doctorat en cours agrave lrsquoEBSI (Aline Creacutedeville)

bull Contexte visualisation de lrsquoinformation dans le contexte de recherche drsquoinformation

bull Point de vue de la seacutemiologie graphique

o principes les plus couramment utiliseacutes sont la proximiteacute (Grokker) lrsquoenglobage (Kartoo)

et la connectiviteacute (Auquabrowser)

omeacutetaphores visuelles pas toujours adeacutequates au web

bull Reacutesultats

o lrsquoinformation doit ecirctre structureacutee

o apports possible pour lrsquoexploration mais pas pour la recherche

64

Cartographie de linformation- Famille doutils et contextes applicatifs

2- Contextes applicatifs Eleacutements deacutevaluation

22- Evaluation en contexte dusage de recherche dinformations (Ciaccia Ihadjadene Martins 2006)

Objectif analyse de lrsquoinfluence du mode de preacutesentation des informations sur les processus cognitifs mis

en jeu par lrsquoutilisateur dans lrsquoactiviteacute de recherche drsquoinformations sur Internet

Outils eacutevalueacutes Kartoo (pour 18 usagers) et Mapstan (pour 16 usagers)

Principaux reacutesultats

Coucirct cognitif sans pour autant conduire agrave de meilleures performances (comparaison avec une

preacutesentation en liste)

Hypothegravese nouveauteacute de la preacutesentation versus habitude des preacutesentations verbales

Strateacutegie optimiseacutee preacuteciser la requecircte drsquoune recherche agrave but flou et se concentrer sur les informations

relieacutees agrave lrsquoobjectif de la question versus informations non relieacutees

Le sens de la visualisation doit ecirctre clarifieacute les systegravemes doivent faciliter la compreacutehension des

eacuteleacutements visualiseacutes

65

Cartographie de linformation- Famille doutils et contextes applicatifs

2- Contextes applicatifs Les perspectives de la cartographie seacutemantique (C Tricot de la seacutemantique agrave la carte)

Pour reacutesoudre la probleacutematique de la repreacutesentation de lrsquoinformation la visualisation de

lrsquoinformation seule ne suffit pas

La visualisation de lrsquoinformation permet uniquement de preacutesenter des donneacutees en leur

associant une repreacutesentation graphique

La cartographie seacutemantique se veut

Une meacutethode de cartographie reposant sur la seacutemantique dun domaine

Un processus de production de connaissances

donneacutees brutes -gt donneacutees structureacutees -gt donneacutees repreacutesenteacutees -gt donneacutees visualiseacutees

Un formalisme de description type Reacuteseaux seacutemantiques

Un langage de description cartographique

Une architecture multi-agents

66

Cartographie de linformation- Famille doutils et contextes applicatifs

2- Contextes applicatifs Les perspectives de la cartographie seacutemantique (C Tricot de la seacutemantique agrave la carte)

67

Cartographie de linformation- Famille doutils et contextes applicatifs

2- Contextes applicatifs Les perspectives de la cartographie seacutemantique

ldquoUne bonne structure repreacutesentative graphique pour un arbre de donneacutees est celle qui deacuteforme le moins les similitudes originales entre les uniteacutes de donneacutees (similitudes qui sont donneacutes par loutil de classification) ou en dautres termes deux individus (ou classes) qui sont proches lune de lautre le restent aussi possible que peut apregraves projection dans l`espace de visualisation et ceci doit ecirctre eacutevident(et veacuterifiable par une mesure de calcul de divergence) dans lenvironnement de visualisation ldquo Tricot 2006

Page 57: Cartographie de l'information- Composantes des - Urfist de Paris

57

Cartographie de linformation- Famille doutils orienteacutes laquo bibliothegraveques raquo

2- Les outils de navigation et de recherche sur Internet (seacutelection de Pierre Nobis)

E- Meacutetamoteurs avec affichage de clusters sous forme graphique

E2- Repreacutesentation circulaire Grokker

E3- Repreacutesentation topographique TooLeNet srsquoappuie sur les technologies de KartOO et sur lrsquoindex de

Yahoo pour effectuer des recherches selon 3 modes moteur annuaire et carte auxquels srsquoajoutent des

options de personnalisation et de classification assez avanceacutees

58

Cartographie de linformation- Famille doutils orienteacutes laquo bibliothegraveques raquo

3- Les Outils graphiques dexploration

Wikimindmap est un outil drsquointerrogation

et de repreacutesentation des informations issues

de Wikipedia sous forme de carte heuristique

Visuwords est un dictionnaire en ligne

qui preacutesente ses reacutesultats sous forme de laquo grappes raquo

Il utilise la base de donneacutees Wordnet

Code couleur pour les diffeacuterentes relations

seacutemantiques hieacuterarchiques entre les termes

ainsi que les synonymes et les antonymes

59

Cartographie de linformation- Famille doutils orienteacutes laquo bibliothegraveques raquo

4- Les outils de creacuteation (carto)graphiqueA- Pour meacutemoire les logiciels de creacuteation de cartes heuristiques et conceptuelles

Cmaptools est un logiciel gratuit (usage eacuteducatif) de creacuteation de cartes conceptuelles

Freemind est un logiciel libre et gratuit qui permet de reacutealiser des cartes heuristiques

Thinkgraph est un logiciel gratuit de dessin 2D orienteacute vers la reacutealisation de cartes conceptuelles

60

Cartographie de linformation- Famille doutils orienteacutes laquo bibliothegraveques raquo

4- Les outils de creacuteation (carto)graphique

B- Les outils drsquoeacutedition de graphes

Guess est un logiciel libre et gratuit deacuteveloppeacute par Eytan Adar qui permet de visualiser des

graphes statiques Options de modification de certains attributs (taille couleur forme

algorithmes de positionnementhellip)

Pajek est un logiciel libre et gratuit (usage non commercial) deacuteveloppeacute par V Batagelj et A

Mrvar qui permet de traiter des donneacutees de reacuteseaux de grande taille Pajek signifie araigneacutee

en slovegravene

C- Les outils en ligne

ManyEye service collaboratif deacuteveloppeacute par IBM gracircce auquel on peut geacuteneacuterer selon un

des modegraveles proposeacutes sa propre visualisation de lrsquoinformation (apregraves avoir teacuteleacuteverseacute ses

propres donneacutees)

IssueCrawler outil de web social mining utilisable agrave distance (chargement des URL)

reacutecupeacuteration graphique

61

Cartographie de linformation- Famille doutils et contextes applicatifs

2- Contextes applicatifs

Eleacutements deacutevaluation

Les perspectives de la cartographie seacutemantique

62

Cartographie de linformation- Famille doutils et contextes applicatifs

2- Contextes applicatifs Eleacutements deacutevaluation

21- Evaluation scientifique

Question de meacutethode Eacutevaluation des Interfaces Utilisateur drsquoInformation Bonnel et Chevalier 2006

Objectif proposer une meacutethodologie deacutevaluation permettant de comparer du point de vue de la

visualisation des reacutesultats agrave une requecircte les outils de recherche Google Vivisimo Ujiko Grokker Kartoo

Vios SmartWeb (prototype)

Evaluation des repreacutesentations graphiques geacuteneacuteraliteacutes (Tricot et Roche 2006)

bull Arborescences simples

habitude des utilisateurs (explorateur de fichiers informatiques) pas de problegravemes avec volume limiteacute

au-delagrave drsquoune certaine quantiteacute drsquoinformation les arborescences deviennent inefficaces

bull Arbres de cocircnes en 3D

posent des problegravemes agrave lrsquoutilisateur qui nrsquoa pas lrsquohabitude des espaces en 3D

effort cognitif plus eacuteleveacute et prise en main plus longue

bull Arbres hyperboliques

problegravemes des eacutetiquettes des eacuteleacutements (occlusion)

effet de zoom impreacutevisible

Lrsquoune des conclusions une seule visualisation ne permet pas de reacutepondre agrave toutes les questions

multiplier les possibiliteacutes de visualisation

63

Cartographie de linformation- Famille doutils et contextes applicatifs

2- Contextes applicatifs Eleacutements deacutevaluation

21- Evaluation scientifique doctorat en cours agrave lrsquoEBSI (Aline Creacutedeville)

bull Contexte visualisation de lrsquoinformation dans le contexte de recherche drsquoinformation

bull Point de vue de la seacutemiologie graphique

o principes les plus couramment utiliseacutes sont la proximiteacute (Grokker) lrsquoenglobage (Kartoo)

et la connectiviteacute (Auquabrowser)

omeacutetaphores visuelles pas toujours adeacutequates au web

bull Reacutesultats

o lrsquoinformation doit ecirctre structureacutee

o apports possible pour lrsquoexploration mais pas pour la recherche

64

Cartographie de linformation- Famille doutils et contextes applicatifs

2- Contextes applicatifs Eleacutements deacutevaluation

22- Evaluation en contexte dusage de recherche dinformations (Ciaccia Ihadjadene Martins 2006)

Objectif analyse de lrsquoinfluence du mode de preacutesentation des informations sur les processus cognitifs mis

en jeu par lrsquoutilisateur dans lrsquoactiviteacute de recherche drsquoinformations sur Internet

Outils eacutevalueacutes Kartoo (pour 18 usagers) et Mapstan (pour 16 usagers)

Principaux reacutesultats

Coucirct cognitif sans pour autant conduire agrave de meilleures performances (comparaison avec une

preacutesentation en liste)

Hypothegravese nouveauteacute de la preacutesentation versus habitude des preacutesentations verbales

Strateacutegie optimiseacutee preacuteciser la requecircte drsquoune recherche agrave but flou et se concentrer sur les informations

relieacutees agrave lrsquoobjectif de la question versus informations non relieacutees

Le sens de la visualisation doit ecirctre clarifieacute les systegravemes doivent faciliter la compreacutehension des

eacuteleacutements visualiseacutes

65

Cartographie de linformation- Famille doutils et contextes applicatifs

2- Contextes applicatifs Les perspectives de la cartographie seacutemantique (C Tricot de la seacutemantique agrave la carte)

Pour reacutesoudre la probleacutematique de la repreacutesentation de lrsquoinformation la visualisation de

lrsquoinformation seule ne suffit pas

La visualisation de lrsquoinformation permet uniquement de preacutesenter des donneacutees en leur

associant une repreacutesentation graphique

La cartographie seacutemantique se veut

Une meacutethode de cartographie reposant sur la seacutemantique dun domaine

Un processus de production de connaissances

donneacutees brutes -gt donneacutees structureacutees -gt donneacutees repreacutesenteacutees -gt donneacutees visualiseacutees

Un formalisme de description type Reacuteseaux seacutemantiques

Un langage de description cartographique

Une architecture multi-agents

66

Cartographie de linformation- Famille doutils et contextes applicatifs

2- Contextes applicatifs Les perspectives de la cartographie seacutemantique (C Tricot de la seacutemantique agrave la carte)

67

Cartographie de linformation- Famille doutils et contextes applicatifs

2- Contextes applicatifs Les perspectives de la cartographie seacutemantique

ldquoUne bonne structure repreacutesentative graphique pour un arbre de donneacutees est celle qui deacuteforme le moins les similitudes originales entre les uniteacutes de donneacutees (similitudes qui sont donneacutes par loutil de classification) ou en dautres termes deux individus (ou classes) qui sont proches lune de lautre le restent aussi possible que peut apregraves projection dans l`espace de visualisation et ceci doit ecirctre eacutevident(et veacuterifiable par une mesure de calcul de divergence) dans lenvironnement de visualisation ldquo Tricot 2006

Page 58: Cartographie de l'information- Composantes des - Urfist de Paris

58

Cartographie de linformation- Famille doutils orienteacutes laquo bibliothegraveques raquo

3- Les Outils graphiques dexploration

Wikimindmap est un outil drsquointerrogation

et de repreacutesentation des informations issues

de Wikipedia sous forme de carte heuristique

Visuwords est un dictionnaire en ligne

qui preacutesente ses reacutesultats sous forme de laquo grappes raquo

Il utilise la base de donneacutees Wordnet

Code couleur pour les diffeacuterentes relations

seacutemantiques hieacuterarchiques entre les termes

ainsi que les synonymes et les antonymes

59

Cartographie de linformation- Famille doutils orienteacutes laquo bibliothegraveques raquo

4- Les outils de creacuteation (carto)graphiqueA- Pour meacutemoire les logiciels de creacuteation de cartes heuristiques et conceptuelles

Cmaptools est un logiciel gratuit (usage eacuteducatif) de creacuteation de cartes conceptuelles

Freemind est un logiciel libre et gratuit qui permet de reacutealiser des cartes heuristiques

Thinkgraph est un logiciel gratuit de dessin 2D orienteacute vers la reacutealisation de cartes conceptuelles

60

Cartographie de linformation- Famille doutils orienteacutes laquo bibliothegraveques raquo

4- Les outils de creacuteation (carto)graphique

B- Les outils drsquoeacutedition de graphes

Guess est un logiciel libre et gratuit deacuteveloppeacute par Eytan Adar qui permet de visualiser des

graphes statiques Options de modification de certains attributs (taille couleur forme

algorithmes de positionnementhellip)

Pajek est un logiciel libre et gratuit (usage non commercial) deacuteveloppeacute par V Batagelj et A

Mrvar qui permet de traiter des donneacutees de reacuteseaux de grande taille Pajek signifie araigneacutee

en slovegravene

C- Les outils en ligne

ManyEye service collaboratif deacuteveloppeacute par IBM gracircce auquel on peut geacuteneacuterer selon un

des modegraveles proposeacutes sa propre visualisation de lrsquoinformation (apregraves avoir teacuteleacuteverseacute ses

propres donneacutees)

IssueCrawler outil de web social mining utilisable agrave distance (chargement des URL)

reacutecupeacuteration graphique

61

Cartographie de linformation- Famille doutils et contextes applicatifs

2- Contextes applicatifs

Eleacutements deacutevaluation

Les perspectives de la cartographie seacutemantique

62

Cartographie de linformation- Famille doutils et contextes applicatifs

2- Contextes applicatifs Eleacutements deacutevaluation

21- Evaluation scientifique

Question de meacutethode Eacutevaluation des Interfaces Utilisateur drsquoInformation Bonnel et Chevalier 2006

Objectif proposer une meacutethodologie deacutevaluation permettant de comparer du point de vue de la

visualisation des reacutesultats agrave une requecircte les outils de recherche Google Vivisimo Ujiko Grokker Kartoo

Vios SmartWeb (prototype)

Evaluation des repreacutesentations graphiques geacuteneacuteraliteacutes (Tricot et Roche 2006)

bull Arborescences simples

habitude des utilisateurs (explorateur de fichiers informatiques) pas de problegravemes avec volume limiteacute

au-delagrave drsquoune certaine quantiteacute drsquoinformation les arborescences deviennent inefficaces

bull Arbres de cocircnes en 3D

posent des problegravemes agrave lrsquoutilisateur qui nrsquoa pas lrsquohabitude des espaces en 3D

effort cognitif plus eacuteleveacute et prise en main plus longue

bull Arbres hyperboliques

problegravemes des eacutetiquettes des eacuteleacutements (occlusion)

effet de zoom impreacutevisible

Lrsquoune des conclusions une seule visualisation ne permet pas de reacutepondre agrave toutes les questions

multiplier les possibiliteacutes de visualisation

63

Cartographie de linformation- Famille doutils et contextes applicatifs

2- Contextes applicatifs Eleacutements deacutevaluation

21- Evaluation scientifique doctorat en cours agrave lrsquoEBSI (Aline Creacutedeville)

bull Contexte visualisation de lrsquoinformation dans le contexte de recherche drsquoinformation

bull Point de vue de la seacutemiologie graphique

o principes les plus couramment utiliseacutes sont la proximiteacute (Grokker) lrsquoenglobage (Kartoo)

et la connectiviteacute (Auquabrowser)

omeacutetaphores visuelles pas toujours adeacutequates au web

bull Reacutesultats

o lrsquoinformation doit ecirctre structureacutee

o apports possible pour lrsquoexploration mais pas pour la recherche

64

Cartographie de linformation- Famille doutils et contextes applicatifs

2- Contextes applicatifs Eleacutements deacutevaluation

22- Evaluation en contexte dusage de recherche dinformations (Ciaccia Ihadjadene Martins 2006)

Objectif analyse de lrsquoinfluence du mode de preacutesentation des informations sur les processus cognitifs mis

en jeu par lrsquoutilisateur dans lrsquoactiviteacute de recherche drsquoinformations sur Internet

Outils eacutevalueacutes Kartoo (pour 18 usagers) et Mapstan (pour 16 usagers)

Principaux reacutesultats

Coucirct cognitif sans pour autant conduire agrave de meilleures performances (comparaison avec une

preacutesentation en liste)

Hypothegravese nouveauteacute de la preacutesentation versus habitude des preacutesentations verbales

Strateacutegie optimiseacutee preacuteciser la requecircte drsquoune recherche agrave but flou et se concentrer sur les informations

relieacutees agrave lrsquoobjectif de la question versus informations non relieacutees

Le sens de la visualisation doit ecirctre clarifieacute les systegravemes doivent faciliter la compreacutehension des

eacuteleacutements visualiseacutes

65

Cartographie de linformation- Famille doutils et contextes applicatifs

2- Contextes applicatifs Les perspectives de la cartographie seacutemantique (C Tricot de la seacutemantique agrave la carte)

Pour reacutesoudre la probleacutematique de la repreacutesentation de lrsquoinformation la visualisation de

lrsquoinformation seule ne suffit pas

La visualisation de lrsquoinformation permet uniquement de preacutesenter des donneacutees en leur

associant une repreacutesentation graphique

La cartographie seacutemantique se veut

Une meacutethode de cartographie reposant sur la seacutemantique dun domaine

Un processus de production de connaissances

donneacutees brutes -gt donneacutees structureacutees -gt donneacutees repreacutesenteacutees -gt donneacutees visualiseacutees

Un formalisme de description type Reacuteseaux seacutemantiques

Un langage de description cartographique

Une architecture multi-agents

66

Cartographie de linformation- Famille doutils et contextes applicatifs

2- Contextes applicatifs Les perspectives de la cartographie seacutemantique (C Tricot de la seacutemantique agrave la carte)

67

Cartographie de linformation- Famille doutils et contextes applicatifs

2- Contextes applicatifs Les perspectives de la cartographie seacutemantique

ldquoUne bonne structure repreacutesentative graphique pour un arbre de donneacutees est celle qui deacuteforme le moins les similitudes originales entre les uniteacutes de donneacutees (similitudes qui sont donneacutes par loutil de classification) ou en dautres termes deux individus (ou classes) qui sont proches lune de lautre le restent aussi possible que peut apregraves projection dans l`espace de visualisation et ceci doit ecirctre eacutevident(et veacuterifiable par une mesure de calcul de divergence) dans lenvironnement de visualisation ldquo Tricot 2006

Page 59: Cartographie de l'information- Composantes des - Urfist de Paris

59

Cartographie de linformation- Famille doutils orienteacutes laquo bibliothegraveques raquo

4- Les outils de creacuteation (carto)graphiqueA- Pour meacutemoire les logiciels de creacuteation de cartes heuristiques et conceptuelles

Cmaptools est un logiciel gratuit (usage eacuteducatif) de creacuteation de cartes conceptuelles

Freemind est un logiciel libre et gratuit qui permet de reacutealiser des cartes heuristiques

Thinkgraph est un logiciel gratuit de dessin 2D orienteacute vers la reacutealisation de cartes conceptuelles

60

Cartographie de linformation- Famille doutils orienteacutes laquo bibliothegraveques raquo

4- Les outils de creacuteation (carto)graphique

B- Les outils drsquoeacutedition de graphes

Guess est un logiciel libre et gratuit deacuteveloppeacute par Eytan Adar qui permet de visualiser des

graphes statiques Options de modification de certains attributs (taille couleur forme

algorithmes de positionnementhellip)

Pajek est un logiciel libre et gratuit (usage non commercial) deacuteveloppeacute par V Batagelj et A

Mrvar qui permet de traiter des donneacutees de reacuteseaux de grande taille Pajek signifie araigneacutee

en slovegravene

C- Les outils en ligne

ManyEye service collaboratif deacuteveloppeacute par IBM gracircce auquel on peut geacuteneacuterer selon un

des modegraveles proposeacutes sa propre visualisation de lrsquoinformation (apregraves avoir teacuteleacuteverseacute ses

propres donneacutees)

IssueCrawler outil de web social mining utilisable agrave distance (chargement des URL)

reacutecupeacuteration graphique

61

Cartographie de linformation- Famille doutils et contextes applicatifs

2- Contextes applicatifs

Eleacutements deacutevaluation

Les perspectives de la cartographie seacutemantique

62

Cartographie de linformation- Famille doutils et contextes applicatifs

2- Contextes applicatifs Eleacutements deacutevaluation

21- Evaluation scientifique

Question de meacutethode Eacutevaluation des Interfaces Utilisateur drsquoInformation Bonnel et Chevalier 2006

Objectif proposer une meacutethodologie deacutevaluation permettant de comparer du point de vue de la

visualisation des reacutesultats agrave une requecircte les outils de recherche Google Vivisimo Ujiko Grokker Kartoo

Vios SmartWeb (prototype)

Evaluation des repreacutesentations graphiques geacuteneacuteraliteacutes (Tricot et Roche 2006)

bull Arborescences simples

habitude des utilisateurs (explorateur de fichiers informatiques) pas de problegravemes avec volume limiteacute

au-delagrave drsquoune certaine quantiteacute drsquoinformation les arborescences deviennent inefficaces

bull Arbres de cocircnes en 3D

posent des problegravemes agrave lrsquoutilisateur qui nrsquoa pas lrsquohabitude des espaces en 3D

effort cognitif plus eacuteleveacute et prise en main plus longue

bull Arbres hyperboliques

problegravemes des eacutetiquettes des eacuteleacutements (occlusion)

effet de zoom impreacutevisible

Lrsquoune des conclusions une seule visualisation ne permet pas de reacutepondre agrave toutes les questions

multiplier les possibiliteacutes de visualisation

63

Cartographie de linformation- Famille doutils et contextes applicatifs

2- Contextes applicatifs Eleacutements deacutevaluation

21- Evaluation scientifique doctorat en cours agrave lrsquoEBSI (Aline Creacutedeville)

bull Contexte visualisation de lrsquoinformation dans le contexte de recherche drsquoinformation

bull Point de vue de la seacutemiologie graphique

o principes les plus couramment utiliseacutes sont la proximiteacute (Grokker) lrsquoenglobage (Kartoo)

et la connectiviteacute (Auquabrowser)

omeacutetaphores visuelles pas toujours adeacutequates au web

bull Reacutesultats

o lrsquoinformation doit ecirctre structureacutee

o apports possible pour lrsquoexploration mais pas pour la recherche

64

Cartographie de linformation- Famille doutils et contextes applicatifs

2- Contextes applicatifs Eleacutements deacutevaluation

22- Evaluation en contexte dusage de recherche dinformations (Ciaccia Ihadjadene Martins 2006)

Objectif analyse de lrsquoinfluence du mode de preacutesentation des informations sur les processus cognitifs mis

en jeu par lrsquoutilisateur dans lrsquoactiviteacute de recherche drsquoinformations sur Internet

Outils eacutevalueacutes Kartoo (pour 18 usagers) et Mapstan (pour 16 usagers)

Principaux reacutesultats

Coucirct cognitif sans pour autant conduire agrave de meilleures performances (comparaison avec une

preacutesentation en liste)

Hypothegravese nouveauteacute de la preacutesentation versus habitude des preacutesentations verbales

Strateacutegie optimiseacutee preacuteciser la requecircte drsquoune recherche agrave but flou et se concentrer sur les informations

relieacutees agrave lrsquoobjectif de la question versus informations non relieacutees

Le sens de la visualisation doit ecirctre clarifieacute les systegravemes doivent faciliter la compreacutehension des

eacuteleacutements visualiseacutes

65

Cartographie de linformation- Famille doutils et contextes applicatifs

2- Contextes applicatifs Les perspectives de la cartographie seacutemantique (C Tricot de la seacutemantique agrave la carte)

Pour reacutesoudre la probleacutematique de la repreacutesentation de lrsquoinformation la visualisation de

lrsquoinformation seule ne suffit pas

La visualisation de lrsquoinformation permet uniquement de preacutesenter des donneacutees en leur

associant une repreacutesentation graphique

La cartographie seacutemantique se veut

Une meacutethode de cartographie reposant sur la seacutemantique dun domaine

Un processus de production de connaissances

donneacutees brutes -gt donneacutees structureacutees -gt donneacutees repreacutesenteacutees -gt donneacutees visualiseacutees

Un formalisme de description type Reacuteseaux seacutemantiques

Un langage de description cartographique

Une architecture multi-agents

66

Cartographie de linformation- Famille doutils et contextes applicatifs

2- Contextes applicatifs Les perspectives de la cartographie seacutemantique (C Tricot de la seacutemantique agrave la carte)

67

Cartographie de linformation- Famille doutils et contextes applicatifs

2- Contextes applicatifs Les perspectives de la cartographie seacutemantique

ldquoUne bonne structure repreacutesentative graphique pour un arbre de donneacutees est celle qui deacuteforme le moins les similitudes originales entre les uniteacutes de donneacutees (similitudes qui sont donneacutes par loutil de classification) ou en dautres termes deux individus (ou classes) qui sont proches lune de lautre le restent aussi possible que peut apregraves projection dans l`espace de visualisation et ceci doit ecirctre eacutevident(et veacuterifiable par une mesure de calcul de divergence) dans lenvironnement de visualisation ldquo Tricot 2006

Page 60: Cartographie de l'information- Composantes des - Urfist de Paris

60

Cartographie de linformation- Famille doutils orienteacutes laquo bibliothegraveques raquo

4- Les outils de creacuteation (carto)graphique

B- Les outils drsquoeacutedition de graphes

Guess est un logiciel libre et gratuit deacuteveloppeacute par Eytan Adar qui permet de visualiser des

graphes statiques Options de modification de certains attributs (taille couleur forme

algorithmes de positionnementhellip)

Pajek est un logiciel libre et gratuit (usage non commercial) deacuteveloppeacute par V Batagelj et A

Mrvar qui permet de traiter des donneacutees de reacuteseaux de grande taille Pajek signifie araigneacutee

en slovegravene

C- Les outils en ligne

ManyEye service collaboratif deacuteveloppeacute par IBM gracircce auquel on peut geacuteneacuterer selon un

des modegraveles proposeacutes sa propre visualisation de lrsquoinformation (apregraves avoir teacuteleacuteverseacute ses

propres donneacutees)

IssueCrawler outil de web social mining utilisable agrave distance (chargement des URL)

reacutecupeacuteration graphique

61

Cartographie de linformation- Famille doutils et contextes applicatifs

2- Contextes applicatifs

Eleacutements deacutevaluation

Les perspectives de la cartographie seacutemantique

62

Cartographie de linformation- Famille doutils et contextes applicatifs

2- Contextes applicatifs Eleacutements deacutevaluation

21- Evaluation scientifique

Question de meacutethode Eacutevaluation des Interfaces Utilisateur drsquoInformation Bonnel et Chevalier 2006

Objectif proposer une meacutethodologie deacutevaluation permettant de comparer du point de vue de la

visualisation des reacutesultats agrave une requecircte les outils de recherche Google Vivisimo Ujiko Grokker Kartoo

Vios SmartWeb (prototype)

Evaluation des repreacutesentations graphiques geacuteneacuteraliteacutes (Tricot et Roche 2006)

bull Arborescences simples

habitude des utilisateurs (explorateur de fichiers informatiques) pas de problegravemes avec volume limiteacute

au-delagrave drsquoune certaine quantiteacute drsquoinformation les arborescences deviennent inefficaces

bull Arbres de cocircnes en 3D

posent des problegravemes agrave lrsquoutilisateur qui nrsquoa pas lrsquohabitude des espaces en 3D

effort cognitif plus eacuteleveacute et prise en main plus longue

bull Arbres hyperboliques

problegravemes des eacutetiquettes des eacuteleacutements (occlusion)

effet de zoom impreacutevisible

Lrsquoune des conclusions une seule visualisation ne permet pas de reacutepondre agrave toutes les questions

multiplier les possibiliteacutes de visualisation

63

Cartographie de linformation- Famille doutils et contextes applicatifs

2- Contextes applicatifs Eleacutements deacutevaluation

21- Evaluation scientifique doctorat en cours agrave lrsquoEBSI (Aline Creacutedeville)

bull Contexte visualisation de lrsquoinformation dans le contexte de recherche drsquoinformation

bull Point de vue de la seacutemiologie graphique

o principes les plus couramment utiliseacutes sont la proximiteacute (Grokker) lrsquoenglobage (Kartoo)

et la connectiviteacute (Auquabrowser)

omeacutetaphores visuelles pas toujours adeacutequates au web

bull Reacutesultats

o lrsquoinformation doit ecirctre structureacutee

o apports possible pour lrsquoexploration mais pas pour la recherche

64

Cartographie de linformation- Famille doutils et contextes applicatifs

2- Contextes applicatifs Eleacutements deacutevaluation

22- Evaluation en contexte dusage de recherche dinformations (Ciaccia Ihadjadene Martins 2006)

Objectif analyse de lrsquoinfluence du mode de preacutesentation des informations sur les processus cognitifs mis

en jeu par lrsquoutilisateur dans lrsquoactiviteacute de recherche drsquoinformations sur Internet

Outils eacutevalueacutes Kartoo (pour 18 usagers) et Mapstan (pour 16 usagers)

Principaux reacutesultats

Coucirct cognitif sans pour autant conduire agrave de meilleures performances (comparaison avec une

preacutesentation en liste)

Hypothegravese nouveauteacute de la preacutesentation versus habitude des preacutesentations verbales

Strateacutegie optimiseacutee preacuteciser la requecircte drsquoune recherche agrave but flou et se concentrer sur les informations

relieacutees agrave lrsquoobjectif de la question versus informations non relieacutees

Le sens de la visualisation doit ecirctre clarifieacute les systegravemes doivent faciliter la compreacutehension des

eacuteleacutements visualiseacutes

65

Cartographie de linformation- Famille doutils et contextes applicatifs

2- Contextes applicatifs Les perspectives de la cartographie seacutemantique (C Tricot de la seacutemantique agrave la carte)

Pour reacutesoudre la probleacutematique de la repreacutesentation de lrsquoinformation la visualisation de

lrsquoinformation seule ne suffit pas

La visualisation de lrsquoinformation permet uniquement de preacutesenter des donneacutees en leur

associant une repreacutesentation graphique

La cartographie seacutemantique se veut

Une meacutethode de cartographie reposant sur la seacutemantique dun domaine

Un processus de production de connaissances

donneacutees brutes -gt donneacutees structureacutees -gt donneacutees repreacutesenteacutees -gt donneacutees visualiseacutees

Un formalisme de description type Reacuteseaux seacutemantiques

Un langage de description cartographique

Une architecture multi-agents

66

Cartographie de linformation- Famille doutils et contextes applicatifs

2- Contextes applicatifs Les perspectives de la cartographie seacutemantique (C Tricot de la seacutemantique agrave la carte)

67

Cartographie de linformation- Famille doutils et contextes applicatifs

2- Contextes applicatifs Les perspectives de la cartographie seacutemantique

ldquoUne bonne structure repreacutesentative graphique pour un arbre de donneacutees est celle qui deacuteforme le moins les similitudes originales entre les uniteacutes de donneacutees (similitudes qui sont donneacutes par loutil de classification) ou en dautres termes deux individus (ou classes) qui sont proches lune de lautre le restent aussi possible que peut apregraves projection dans l`espace de visualisation et ceci doit ecirctre eacutevident(et veacuterifiable par une mesure de calcul de divergence) dans lenvironnement de visualisation ldquo Tricot 2006

Page 61: Cartographie de l'information- Composantes des - Urfist de Paris

61

Cartographie de linformation- Famille doutils et contextes applicatifs

2- Contextes applicatifs

Eleacutements deacutevaluation

Les perspectives de la cartographie seacutemantique

62

Cartographie de linformation- Famille doutils et contextes applicatifs

2- Contextes applicatifs Eleacutements deacutevaluation

21- Evaluation scientifique

Question de meacutethode Eacutevaluation des Interfaces Utilisateur drsquoInformation Bonnel et Chevalier 2006

Objectif proposer une meacutethodologie deacutevaluation permettant de comparer du point de vue de la

visualisation des reacutesultats agrave une requecircte les outils de recherche Google Vivisimo Ujiko Grokker Kartoo

Vios SmartWeb (prototype)

Evaluation des repreacutesentations graphiques geacuteneacuteraliteacutes (Tricot et Roche 2006)

bull Arborescences simples

habitude des utilisateurs (explorateur de fichiers informatiques) pas de problegravemes avec volume limiteacute

au-delagrave drsquoune certaine quantiteacute drsquoinformation les arborescences deviennent inefficaces

bull Arbres de cocircnes en 3D

posent des problegravemes agrave lrsquoutilisateur qui nrsquoa pas lrsquohabitude des espaces en 3D

effort cognitif plus eacuteleveacute et prise en main plus longue

bull Arbres hyperboliques

problegravemes des eacutetiquettes des eacuteleacutements (occlusion)

effet de zoom impreacutevisible

Lrsquoune des conclusions une seule visualisation ne permet pas de reacutepondre agrave toutes les questions

multiplier les possibiliteacutes de visualisation

63

Cartographie de linformation- Famille doutils et contextes applicatifs

2- Contextes applicatifs Eleacutements deacutevaluation

21- Evaluation scientifique doctorat en cours agrave lrsquoEBSI (Aline Creacutedeville)

bull Contexte visualisation de lrsquoinformation dans le contexte de recherche drsquoinformation

bull Point de vue de la seacutemiologie graphique

o principes les plus couramment utiliseacutes sont la proximiteacute (Grokker) lrsquoenglobage (Kartoo)

et la connectiviteacute (Auquabrowser)

omeacutetaphores visuelles pas toujours adeacutequates au web

bull Reacutesultats

o lrsquoinformation doit ecirctre structureacutee

o apports possible pour lrsquoexploration mais pas pour la recherche

64

Cartographie de linformation- Famille doutils et contextes applicatifs

2- Contextes applicatifs Eleacutements deacutevaluation

22- Evaluation en contexte dusage de recherche dinformations (Ciaccia Ihadjadene Martins 2006)

Objectif analyse de lrsquoinfluence du mode de preacutesentation des informations sur les processus cognitifs mis

en jeu par lrsquoutilisateur dans lrsquoactiviteacute de recherche drsquoinformations sur Internet

Outils eacutevalueacutes Kartoo (pour 18 usagers) et Mapstan (pour 16 usagers)

Principaux reacutesultats

Coucirct cognitif sans pour autant conduire agrave de meilleures performances (comparaison avec une

preacutesentation en liste)

Hypothegravese nouveauteacute de la preacutesentation versus habitude des preacutesentations verbales

Strateacutegie optimiseacutee preacuteciser la requecircte drsquoune recherche agrave but flou et se concentrer sur les informations

relieacutees agrave lrsquoobjectif de la question versus informations non relieacutees

Le sens de la visualisation doit ecirctre clarifieacute les systegravemes doivent faciliter la compreacutehension des

eacuteleacutements visualiseacutes

65

Cartographie de linformation- Famille doutils et contextes applicatifs

2- Contextes applicatifs Les perspectives de la cartographie seacutemantique (C Tricot de la seacutemantique agrave la carte)

Pour reacutesoudre la probleacutematique de la repreacutesentation de lrsquoinformation la visualisation de

lrsquoinformation seule ne suffit pas

La visualisation de lrsquoinformation permet uniquement de preacutesenter des donneacutees en leur

associant une repreacutesentation graphique

La cartographie seacutemantique se veut

Une meacutethode de cartographie reposant sur la seacutemantique dun domaine

Un processus de production de connaissances

donneacutees brutes -gt donneacutees structureacutees -gt donneacutees repreacutesenteacutees -gt donneacutees visualiseacutees

Un formalisme de description type Reacuteseaux seacutemantiques

Un langage de description cartographique

Une architecture multi-agents

66

Cartographie de linformation- Famille doutils et contextes applicatifs

2- Contextes applicatifs Les perspectives de la cartographie seacutemantique (C Tricot de la seacutemantique agrave la carte)

67

Cartographie de linformation- Famille doutils et contextes applicatifs

2- Contextes applicatifs Les perspectives de la cartographie seacutemantique

ldquoUne bonne structure repreacutesentative graphique pour un arbre de donneacutees est celle qui deacuteforme le moins les similitudes originales entre les uniteacutes de donneacutees (similitudes qui sont donneacutes par loutil de classification) ou en dautres termes deux individus (ou classes) qui sont proches lune de lautre le restent aussi possible que peut apregraves projection dans l`espace de visualisation et ceci doit ecirctre eacutevident(et veacuterifiable par une mesure de calcul de divergence) dans lenvironnement de visualisation ldquo Tricot 2006

Page 62: Cartographie de l'information- Composantes des - Urfist de Paris

62

Cartographie de linformation- Famille doutils et contextes applicatifs

2- Contextes applicatifs Eleacutements deacutevaluation

21- Evaluation scientifique

Question de meacutethode Eacutevaluation des Interfaces Utilisateur drsquoInformation Bonnel et Chevalier 2006

Objectif proposer une meacutethodologie deacutevaluation permettant de comparer du point de vue de la

visualisation des reacutesultats agrave une requecircte les outils de recherche Google Vivisimo Ujiko Grokker Kartoo

Vios SmartWeb (prototype)

Evaluation des repreacutesentations graphiques geacuteneacuteraliteacutes (Tricot et Roche 2006)

bull Arborescences simples

habitude des utilisateurs (explorateur de fichiers informatiques) pas de problegravemes avec volume limiteacute

au-delagrave drsquoune certaine quantiteacute drsquoinformation les arborescences deviennent inefficaces

bull Arbres de cocircnes en 3D

posent des problegravemes agrave lrsquoutilisateur qui nrsquoa pas lrsquohabitude des espaces en 3D

effort cognitif plus eacuteleveacute et prise en main plus longue

bull Arbres hyperboliques

problegravemes des eacutetiquettes des eacuteleacutements (occlusion)

effet de zoom impreacutevisible

Lrsquoune des conclusions une seule visualisation ne permet pas de reacutepondre agrave toutes les questions

multiplier les possibiliteacutes de visualisation

63

Cartographie de linformation- Famille doutils et contextes applicatifs

2- Contextes applicatifs Eleacutements deacutevaluation

21- Evaluation scientifique doctorat en cours agrave lrsquoEBSI (Aline Creacutedeville)

bull Contexte visualisation de lrsquoinformation dans le contexte de recherche drsquoinformation

bull Point de vue de la seacutemiologie graphique

o principes les plus couramment utiliseacutes sont la proximiteacute (Grokker) lrsquoenglobage (Kartoo)

et la connectiviteacute (Auquabrowser)

omeacutetaphores visuelles pas toujours adeacutequates au web

bull Reacutesultats

o lrsquoinformation doit ecirctre structureacutee

o apports possible pour lrsquoexploration mais pas pour la recherche

64

Cartographie de linformation- Famille doutils et contextes applicatifs

2- Contextes applicatifs Eleacutements deacutevaluation

22- Evaluation en contexte dusage de recherche dinformations (Ciaccia Ihadjadene Martins 2006)

Objectif analyse de lrsquoinfluence du mode de preacutesentation des informations sur les processus cognitifs mis

en jeu par lrsquoutilisateur dans lrsquoactiviteacute de recherche drsquoinformations sur Internet

Outils eacutevalueacutes Kartoo (pour 18 usagers) et Mapstan (pour 16 usagers)

Principaux reacutesultats

Coucirct cognitif sans pour autant conduire agrave de meilleures performances (comparaison avec une

preacutesentation en liste)

Hypothegravese nouveauteacute de la preacutesentation versus habitude des preacutesentations verbales

Strateacutegie optimiseacutee preacuteciser la requecircte drsquoune recherche agrave but flou et se concentrer sur les informations

relieacutees agrave lrsquoobjectif de la question versus informations non relieacutees

Le sens de la visualisation doit ecirctre clarifieacute les systegravemes doivent faciliter la compreacutehension des

eacuteleacutements visualiseacutes

65

Cartographie de linformation- Famille doutils et contextes applicatifs

2- Contextes applicatifs Les perspectives de la cartographie seacutemantique (C Tricot de la seacutemantique agrave la carte)

Pour reacutesoudre la probleacutematique de la repreacutesentation de lrsquoinformation la visualisation de

lrsquoinformation seule ne suffit pas

La visualisation de lrsquoinformation permet uniquement de preacutesenter des donneacutees en leur

associant une repreacutesentation graphique

La cartographie seacutemantique se veut

Une meacutethode de cartographie reposant sur la seacutemantique dun domaine

Un processus de production de connaissances

donneacutees brutes -gt donneacutees structureacutees -gt donneacutees repreacutesenteacutees -gt donneacutees visualiseacutees

Un formalisme de description type Reacuteseaux seacutemantiques

Un langage de description cartographique

Une architecture multi-agents

66

Cartographie de linformation- Famille doutils et contextes applicatifs

2- Contextes applicatifs Les perspectives de la cartographie seacutemantique (C Tricot de la seacutemantique agrave la carte)

67

Cartographie de linformation- Famille doutils et contextes applicatifs

2- Contextes applicatifs Les perspectives de la cartographie seacutemantique

ldquoUne bonne structure repreacutesentative graphique pour un arbre de donneacutees est celle qui deacuteforme le moins les similitudes originales entre les uniteacutes de donneacutees (similitudes qui sont donneacutes par loutil de classification) ou en dautres termes deux individus (ou classes) qui sont proches lune de lautre le restent aussi possible que peut apregraves projection dans l`espace de visualisation et ceci doit ecirctre eacutevident(et veacuterifiable par une mesure de calcul de divergence) dans lenvironnement de visualisation ldquo Tricot 2006

Page 63: Cartographie de l'information- Composantes des - Urfist de Paris

63

Cartographie de linformation- Famille doutils et contextes applicatifs

2- Contextes applicatifs Eleacutements deacutevaluation

21- Evaluation scientifique doctorat en cours agrave lrsquoEBSI (Aline Creacutedeville)

bull Contexte visualisation de lrsquoinformation dans le contexte de recherche drsquoinformation

bull Point de vue de la seacutemiologie graphique

o principes les plus couramment utiliseacutes sont la proximiteacute (Grokker) lrsquoenglobage (Kartoo)

et la connectiviteacute (Auquabrowser)

omeacutetaphores visuelles pas toujours adeacutequates au web

bull Reacutesultats

o lrsquoinformation doit ecirctre structureacutee

o apports possible pour lrsquoexploration mais pas pour la recherche

64

Cartographie de linformation- Famille doutils et contextes applicatifs

2- Contextes applicatifs Eleacutements deacutevaluation

22- Evaluation en contexte dusage de recherche dinformations (Ciaccia Ihadjadene Martins 2006)

Objectif analyse de lrsquoinfluence du mode de preacutesentation des informations sur les processus cognitifs mis

en jeu par lrsquoutilisateur dans lrsquoactiviteacute de recherche drsquoinformations sur Internet

Outils eacutevalueacutes Kartoo (pour 18 usagers) et Mapstan (pour 16 usagers)

Principaux reacutesultats

Coucirct cognitif sans pour autant conduire agrave de meilleures performances (comparaison avec une

preacutesentation en liste)

Hypothegravese nouveauteacute de la preacutesentation versus habitude des preacutesentations verbales

Strateacutegie optimiseacutee preacuteciser la requecircte drsquoune recherche agrave but flou et se concentrer sur les informations

relieacutees agrave lrsquoobjectif de la question versus informations non relieacutees

Le sens de la visualisation doit ecirctre clarifieacute les systegravemes doivent faciliter la compreacutehension des

eacuteleacutements visualiseacutes

65

Cartographie de linformation- Famille doutils et contextes applicatifs

2- Contextes applicatifs Les perspectives de la cartographie seacutemantique (C Tricot de la seacutemantique agrave la carte)

Pour reacutesoudre la probleacutematique de la repreacutesentation de lrsquoinformation la visualisation de

lrsquoinformation seule ne suffit pas

La visualisation de lrsquoinformation permet uniquement de preacutesenter des donneacutees en leur

associant une repreacutesentation graphique

La cartographie seacutemantique se veut

Une meacutethode de cartographie reposant sur la seacutemantique dun domaine

Un processus de production de connaissances

donneacutees brutes -gt donneacutees structureacutees -gt donneacutees repreacutesenteacutees -gt donneacutees visualiseacutees

Un formalisme de description type Reacuteseaux seacutemantiques

Un langage de description cartographique

Une architecture multi-agents

66

Cartographie de linformation- Famille doutils et contextes applicatifs

2- Contextes applicatifs Les perspectives de la cartographie seacutemantique (C Tricot de la seacutemantique agrave la carte)

67

Cartographie de linformation- Famille doutils et contextes applicatifs

2- Contextes applicatifs Les perspectives de la cartographie seacutemantique

ldquoUne bonne structure repreacutesentative graphique pour un arbre de donneacutees est celle qui deacuteforme le moins les similitudes originales entre les uniteacutes de donneacutees (similitudes qui sont donneacutes par loutil de classification) ou en dautres termes deux individus (ou classes) qui sont proches lune de lautre le restent aussi possible que peut apregraves projection dans l`espace de visualisation et ceci doit ecirctre eacutevident(et veacuterifiable par une mesure de calcul de divergence) dans lenvironnement de visualisation ldquo Tricot 2006

Page 64: Cartographie de l'information- Composantes des - Urfist de Paris

64

Cartographie de linformation- Famille doutils et contextes applicatifs

2- Contextes applicatifs Eleacutements deacutevaluation

22- Evaluation en contexte dusage de recherche dinformations (Ciaccia Ihadjadene Martins 2006)

Objectif analyse de lrsquoinfluence du mode de preacutesentation des informations sur les processus cognitifs mis

en jeu par lrsquoutilisateur dans lrsquoactiviteacute de recherche drsquoinformations sur Internet

Outils eacutevalueacutes Kartoo (pour 18 usagers) et Mapstan (pour 16 usagers)

Principaux reacutesultats

Coucirct cognitif sans pour autant conduire agrave de meilleures performances (comparaison avec une

preacutesentation en liste)

Hypothegravese nouveauteacute de la preacutesentation versus habitude des preacutesentations verbales

Strateacutegie optimiseacutee preacuteciser la requecircte drsquoune recherche agrave but flou et se concentrer sur les informations

relieacutees agrave lrsquoobjectif de la question versus informations non relieacutees

Le sens de la visualisation doit ecirctre clarifieacute les systegravemes doivent faciliter la compreacutehension des

eacuteleacutements visualiseacutes

65

Cartographie de linformation- Famille doutils et contextes applicatifs

2- Contextes applicatifs Les perspectives de la cartographie seacutemantique (C Tricot de la seacutemantique agrave la carte)

Pour reacutesoudre la probleacutematique de la repreacutesentation de lrsquoinformation la visualisation de

lrsquoinformation seule ne suffit pas

La visualisation de lrsquoinformation permet uniquement de preacutesenter des donneacutees en leur

associant une repreacutesentation graphique

La cartographie seacutemantique se veut

Une meacutethode de cartographie reposant sur la seacutemantique dun domaine

Un processus de production de connaissances

donneacutees brutes -gt donneacutees structureacutees -gt donneacutees repreacutesenteacutees -gt donneacutees visualiseacutees

Un formalisme de description type Reacuteseaux seacutemantiques

Un langage de description cartographique

Une architecture multi-agents

66

Cartographie de linformation- Famille doutils et contextes applicatifs

2- Contextes applicatifs Les perspectives de la cartographie seacutemantique (C Tricot de la seacutemantique agrave la carte)

67

Cartographie de linformation- Famille doutils et contextes applicatifs

2- Contextes applicatifs Les perspectives de la cartographie seacutemantique

ldquoUne bonne structure repreacutesentative graphique pour un arbre de donneacutees est celle qui deacuteforme le moins les similitudes originales entre les uniteacutes de donneacutees (similitudes qui sont donneacutes par loutil de classification) ou en dautres termes deux individus (ou classes) qui sont proches lune de lautre le restent aussi possible que peut apregraves projection dans l`espace de visualisation et ceci doit ecirctre eacutevident(et veacuterifiable par une mesure de calcul de divergence) dans lenvironnement de visualisation ldquo Tricot 2006

Page 65: Cartographie de l'information- Composantes des - Urfist de Paris

65

Cartographie de linformation- Famille doutils et contextes applicatifs

2- Contextes applicatifs Les perspectives de la cartographie seacutemantique (C Tricot de la seacutemantique agrave la carte)

Pour reacutesoudre la probleacutematique de la repreacutesentation de lrsquoinformation la visualisation de

lrsquoinformation seule ne suffit pas

La visualisation de lrsquoinformation permet uniquement de preacutesenter des donneacutees en leur

associant une repreacutesentation graphique

La cartographie seacutemantique se veut

Une meacutethode de cartographie reposant sur la seacutemantique dun domaine

Un processus de production de connaissances

donneacutees brutes -gt donneacutees structureacutees -gt donneacutees repreacutesenteacutees -gt donneacutees visualiseacutees

Un formalisme de description type Reacuteseaux seacutemantiques

Un langage de description cartographique

Une architecture multi-agents

66

Cartographie de linformation- Famille doutils et contextes applicatifs

2- Contextes applicatifs Les perspectives de la cartographie seacutemantique (C Tricot de la seacutemantique agrave la carte)

67

Cartographie de linformation- Famille doutils et contextes applicatifs

2- Contextes applicatifs Les perspectives de la cartographie seacutemantique

ldquoUne bonne structure repreacutesentative graphique pour un arbre de donneacutees est celle qui deacuteforme le moins les similitudes originales entre les uniteacutes de donneacutees (similitudes qui sont donneacutes par loutil de classification) ou en dautres termes deux individus (ou classes) qui sont proches lune de lautre le restent aussi possible que peut apregraves projection dans l`espace de visualisation et ceci doit ecirctre eacutevident(et veacuterifiable par une mesure de calcul de divergence) dans lenvironnement de visualisation ldquo Tricot 2006

Page 66: Cartographie de l'information- Composantes des - Urfist de Paris

66

Cartographie de linformation- Famille doutils et contextes applicatifs

2- Contextes applicatifs Les perspectives de la cartographie seacutemantique (C Tricot de la seacutemantique agrave la carte)

67

Cartographie de linformation- Famille doutils et contextes applicatifs

2- Contextes applicatifs Les perspectives de la cartographie seacutemantique

ldquoUne bonne structure repreacutesentative graphique pour un arbre de donneacutees est celle qui deacuteforme le moins les similitudes originales entre les uniteacutes de donneacutees (similitudes qui sont donneacutes par loutil de classification) ou en dautres termes deux individus (ou classes) qui sont proches lune de lautre le restent aussi possible que peut apregraves projection dans l`espace de visualisation et ceci doit ecirctre eacutevident(et veacuterifiable par une mesure de calcul de divergence) dans lenvironnement de visualisation ldquo Tricot 2006

Page 67: Cartographie de l'information- Composantes des - Urfist de Paris

67

Cartographie de linformation- Famille doutils et contextes applicatifs

2- Contextes applicatifs Les perspectives de la cartographie seacutemantique

ldquoUne bonne structure repreacutesentative graphique pour un arbre de donneacutees est celle qui deacuteforme le moins les similitudes originales entre les uniteacutes de donneacutees (similitudes qui sont donneacutes par loutil de classification) ou en dautres termes deux individus (ou classes) qui sont proches lune de lautre le restent aussi possible que peut apregraves projection dans l`espace de visualisation et ceci doit ecirctre eacutevident(et veacuterifiable par une mesure de calcul de divergence) dans lenvironnement de visualisation ldquo Tricot 2006