nouvelles pratiques d’indexation, nouveaux enjeux documentaires ?
DESCRIPTION
Séminaire sur les pratiques d'indexation . Aspect historique des index et de l’indexation (en France), Prise en compte de la fonction de recherche, Prise en compte (partielle) du contexte des CDIs pour évaluer l’impact de ces évolutions fonctionnelles et techniquesTRANSCRIPT
Nouvelles pratiques d’indexation,
Nouveaux enjeux documentaires ?
Sylvie Dalbinhttp://claimid.com/sylviedalbin
ESEN, le 22 Septembre 2009
2Sylvie Dalbin, 22 Septembre 2009
Contexte de l’intervention
Séminaire de 2 heures
Sur les nouvelles pratiques de l’indexation
A l’attention d’un groupe de I.A.- I.P.R.
Orientations prises• Aspect historique des index et de l’indexation (en France)• Prise en compte de la fonction de recherche• Prise en compte (partielle) du contexte des CDIs pour
évaluer l’impact de ces évolutions fonctionnelles et techniques.
3Sylvie Dalbin, 22 Septembre 2009
Déroulement
Présentation de l’intervenante - du groupe
Notions d’indexation
Contexte actuel - principe de convergence
Nouvelles pratiques d’indexation• Indexation linguistique• Indexation structurée (Web de données, Web sémantique)• Indexation sociale
Enjeux documentaires - Débat
Sylvie Dalbin, 22 Septembre 2009
Notion d’indexation
5Sylvie Dalbin, 22 Septembre 2009
Indexation - définition
“attribuer (à un document) une marque distinctive qui renseigne sur le contenu et qui permet de le retrouver” (1948 - Le Robert)
notion ancienne, techniques variées en fonction des périodes et des contextes d’usage
Mais on indexe toujours ... pour offrir des clés d’accès à l’information
6Sylvie Dalbin, 22 Septembre 2009
Indexation - principes
créer des point d’accès à des ressources• quel contexte ?
• un espace fermé : objet autonome, collection versus un espace ouvert• un stock (ou équivalent) versus un flux - évolution dans le temps• un espace éloigné des producteurs ou en proximité ?
• quelle cible ? • niveau de granularité de la cible : document autonome
• quel(s) outil(s) ?• un terme, une liste de termes, hiérarchisés ou non, un graphe de termes• contrôlé ou non
• quel(s) usage(s)
Sylvie Dalbin, 22 Septembre 2009
Indexation - histoire ancienne
Ressources numériquesTechnologies de l’information
Acteurs dans la Société de l’informationModes d’accès à l’information
Sylvie Dalbin, 22 Septembre 2009
Contexte actuelprincipe de convergence
9Sylvie Dalbin, 22 Septembre 2009
Ressources numériques
Traitement à la source - continuum• document porteur de ses méta-informations • tout au long de son cycle de vie
Production structurée et enrichie• grains d’information - ouverture, mashups• production structurée : sémantique structurelle• recherche intra-documents, inter-documents
Multitude de documents et collections, traités selon des méthodes différentes
• recherche multi-(re)sources
10
Sylvie Dalbin, 22 Septembre 2009
Technologies de l’information
50 ans après• “Lorsque, le matin, vous vous asseyez devant votre
ordinateur, vous avez en face de vous, votre tête”, M Serres, 2008
• les TI sont plus qu’un simple appui aux actions humaines• des actions sont conduites par la machine à notre place
• Les TI du Web révolutionnent les notions de document / collection
• “ouverture” - texte balisé, structuré - continuum
• Les TI d’indexation et/ou de recherche permettent aujourd’hui
• de distinguer plus formellement les phases d’indexation de celle de l’accès• la vue des producteurs ou des intermédiaires, de celles des utilisateurs
1111
Sylvie Dalbin, 22 Septembre 2009
Acteurs dans la Société de l’information
Usager pour lui ou son collectif • est producteur - éditeur - lecteur - gestionnaire• les usages de l’information se sont multipliés
• “le syndrome du Lettré”, expert du domaine ayant préparé sa recherche (requête)• lecture active, annotations, gestion et co-gestion
• pratiques guidées par l’efficience et la proximité
Intermédiaires : multiples niveaux• fonction de la proximité avec les usagers• fonction de leur rôle : orienté ressources ou usages
• éditeurs - gestionnaires - diffuseurs - recherchiste
• nous devenons tous producteurs, éditeurs, gestionnaires, recherchistes
12
Sylvie Dalbin, 22 Septembre 2009
Modes d’accès à l’information
Recevoir l’information• automatiquement par un tiers, par un système
Poser une question• sous forme d’une requête à un système dédié• sous forme d’une formulation libre (orale, courriel)
Naviguer au sein d’un schéma structuré• systèmes à facettes, classification,...
Fouiller un “corpus”• ne pas passer de temps à poser une question
Par sérendipité
13
Convergence
l’information comme matière première
le numérique comme médium
l’ordinateur comme outil
les activités de production, édition, gestion, diffusion, recherche d’information
http://www.mkbergman.com/
Sylvie Dalbin, 22 Septembre 2009
Pratiques d’indexation
1. Indexation de la langue2. Indexation structurelle (Web sémantique)
3. Indexation socialeSylvie Dalbin, 22 Septembre 2009
Pratiques d’indexation 1. Indexation de la langue
Sylvie Dalbin, 22 Septembre 2009
16
Indexation de la langue (1)
TALN - traitement automatique des langues naturellesensemble des activités visant à modéliser et générer à l’aide de machines, la capacité humaine à produire et à comprendre des énoncés linguistiques dans des buts de communication (à partir de A.Vilnat)
pourquoi ? document numériques + acteurs protéiformes
50 ans de développements intenses
En recherche d’information amélioration des traitements “texte intégral” (chaîne de caractères)
langues écrites mais aussi parlées
investissement faible des professionnels de l’infodoc.
Sylvie Dalbin, 22 Septembre 2009
17
Indexation de la langue (2)
Ingénierie linguistiquedécoupage du texte en phrases, puis en motsanalyse syntaxique : arbredes ressources dédiées
Apport en recherche d’info.
groupes nominauxextraire les “thématiques” des textes
Fouille de données
Sylvie Dalbin, 22 Septembre 2009
Synomia - index automatique
http://www.synomia.com/fr/
De nombreuses applications
Ici un index de site Web créé automatiquement
Analyse syntaxique
Suppose des corpus textuels
Sylvie Dalbin, 22 Septembre 2009
Pratiques d’indexation 2. Indexation structurelle
Sylvie Dalbin, 22 Septembre 2009
20
Indexation structurelle (1)
Des méthodes et outils spécifiques -- orienté “Domaine”
modélisation informatique (voir page suivante)
outilsschémas de métadonnées ontologies informatiques
finalités : donner la main à la machinestructurent et exposent les donnéespermettent des inférences (des calculs)
Evolutionde la notice / thésaurus => Bases de connaissance / référentiels
20Sylvie Dalbin, 22 Septembre 2009
21
Indexation structurelle (2)
Schémas de métadonnées“données structurées portant sur des données”
Ontologies informatiquesquoi : représentation conceptuelle d'un domaine - modèle formel qui décrit les objets du domaine et les relations qui les unissent
pourquoi : objectif de partager des connaissances entre agents du domaine, humains ou logiciels
Ces structures apportent de la sémantique aux systèmes
Sylvie Dalbin, 22 Septembre 2009
22
Indexation structurelle (3)
Dès “A bout de souffle” (1959), son premier long métrage, Jean-Luc Godard s'impose par un trait novateur, en rupture totale avec les formes du cinéma traditionnel : Jean-Paul Belmondo y vole une voiture, tue un motard, .... Le but de Godard n'est pas de raconter une histoire, mais d'en proposer la lecture critique du genre, en l'occurrence le thriller américain . Ce film devient l'oeuvre phare du cinéma de la Nouvelle Vague. (Cinémathèque Française)
Le Web sémantique” ou “Web de données”A/Ici un texte accessible par les moteurs de recherche
Sylvie Dalbin, 22 Septembre 2009
23
Indexation structurelle (4)Le Web sémantique” ou “Web de données”A/
donner du sens aux données qui circulent en les balisantpour optimiser l’accès et l’interopérabilité entre machines
Dès <tit-f>A bout de souffle<tit-f> (1959), son premier long métrage, <act:au>Jean-Luc Godard<act:au> s'impose par un trait novateur, en rupture totale avec les formes du cinéma traditionnel : <act:com>Jean-Paul Belmondo<act:com> y vole une voiture, tue un motard, .... Le but de Godard n'est pas de raconter une histoire, mais d'en proposer la lecture critique du genre, en l'occurrence le <genre>thriller américain<genre>. Ce film devient l'oeuvre phare du <sujet>cinéma<sujet> de la <genre>Nouvelle Vague<genre> <source>(Cinémathèque Française) <source>
24
Ex. - Delicious et Facette du MIT
les mots-clés sont accompagnés de leur classes de métadonnées
25
Ex. - Delicious et Facette du MIT
26
Indexation structurelle (5)Schémas de métadonnées orientés
ressources
Des référentiels terminologiques communs
27
Ex. - Indexation structurelle (4)
identifiant relation
instance de la classe Oeuvreinstance de la classe Personne
attributentités
Les machines vont pouvoir exploiter automatiquement toutes ces données => le web
sémantique des données
Ontologie du domaine de la musique (très partielle)
28
Architecture des SID
Autre exemple : Métalangage OTAREN (Outil Thématique d’Aide à la Recherche pour l’Education Nationale), François
Feyler
Pratiques d’indexation 3. Indexation sociale
30
Indexation sociale (1)
Indexation orientée usage
clé d’accès, non contrôlé
Tim Berners-Lee, 2007Internet = relation entre machinesWeb = relation entre documentsWeb social = relations entre personnes
CrowdsourcingContenu généré par les utilisateurs 30
Etude des traces (indexation) laissées par les internautes - Projet de la Library of Congress (2007)
•S'ENTHOUSIASMER •SE SOUVENIR•et retrouver•APPRENDRESE DOCUMENTER•STOCKER/CONSERVER•ENRICHIR et ANNOTER
http://dossierdoc.typepad.com/descripteurs/2008/01/tagger-pour-la.html
31
Indexation sociale (2)
Portail du Musée McCord
exploitation libre des données documentaires des SIDportail de l’Utilisateur
Ma sélection d'images courantesMes images personnellesMes tagsMes images annotéesMes commentairesMes commandes photographiquesMes dossiersMes duos
http://dossierdoc.typepad.com/descripteurs/2007/12/publics-librs-a.html
Période Ressource Processus Outils Public Usage
1 AntiquitéUn manuscrit
ou corpus d’un auteur
annotation du contenu d’un texte
notes marginales au texte, de toute nature; table
de concordance
accès rapide à un passage
pour compréhension
=>mémorisation
2 Moyen AgeManuscrit papyrus -
parchemin - codex
note externe - lien au texte; regroupement
des notes
Table - Indexsymbole de repérage
idem + extension aux encyclopédies
3 Renaissance
Impriméun manuscrit
des collections
indexation fine contenu du document
(et de collections)
Index de fin de livre
recherche sujet avec accès direct au
passage du texte ; langues
vernaculaires
4 Fin XIXe siècle
Périodiques, Livres
industrialisation
indexation thématique de collections,
contrôlée
Index de collection
Vocabulaire contrôlé
vedettes - thésaurus
repérage sujet avec accès indirect au
texte
5Après 2ème Guerre
Mondiale
Variétés de “documents”
Support numérique
indexation fine du contenu
de collections + Hypertexte
automates exploitant des
ressources linguistiques
repérage info avec accès
direct au texte
6 Fin XXè - Début XXI Web
annotation.sociale, ..séma
ntiqueontologie, taxonomie
compréhension pour accès à
un grain d’info+ lecture num.
Synthèse : méthodes et outils
Société
Document de travail, Dalbin, version 2009
Adapter nos pratiques professionnelles
Du point de vue du métier de Documentaliste
34
Indexation - quel modèle ? (rappel)
quel contexte ? un espace fermé versus ouvert (accès unique à des multicollections)un stock (ou équivalent) versus un flux - évolution dans le tempsun espace éloigné des producteurs ou en proximité ?
quelle cible ? niveau de granularité de la cible annotation - indexation au plus fin - indexation au thème principal - classement
quel(s) outil(s) ?thésaurus, index et lexique, référentiels variés, nomenclatures, taxonomie,..investir les automates, les langages de recherche (type Otaren)
quels usages ?
34
35
Identité prof. : à ré-évaluer
Fondée sur des missions : fournir ? former ?fournir des documents => fournir des informations ? répondre aux besoins ? (cf. référentiel Fadben, 2006)
former à la recherche => à la gestion, l’organisation, le partage ? prendre en compte tous les besoins informationnels des Usagers ?
Fondée sur des unités de traitements et des outils adaptés
livres et collections => granularité et continuum des espaces doc.
Fondée sur un statut d’exclusivitéAccepter que tout le monde indexe, même la machineLogique de co-partenariat et de services avec les utilisateurs et autres intermédiaires, dont l’informatique
Merci !
37
RéférencesHistoire Chronologie des supports, des dispositifs et des outils de repérage de l'information , Sylvie FAYET-SCRIBE, décembre 1997, http://biblio-fr.info.unicaen.fr/bnum/jelec/Solaris/d04/4fayet_1tab.htmlConcevoir l’index d’un livre. Théorie et pratique, Jacques Maniez, Dominique Maniez, ADBS Editions (à paraître en 2009/2010)Nouvelles pratiques d'indexation, nouveaux enjeux documentaires ?, Muriel Amar, 2008 (manuscrit)Technologies de l’informationLes nouvelles technologies : révolution culturelle et cognitive (Durée :1h04) - Conférence de Michel Serres (philosophe, de l’Académie française), http://www.inria.fr/40ans/forum/video.fr.phpGiant Global Graph, Tim Berners-Lee, nov. 2007 - http://dig.csail.mit.edu/breadcrumbs/node/215Indexation de la langueIntroduction au TALN, Anne Vilnat, 2008 (cours) - http://www.limsi.fr/Individu/anne/coursM2R/intro.pdfRecherche d’information et traitement de la langue : fondements linguistiques et applications. Lallich-Boidin, G. et Maret , D., Presses de l’ENSSIB, 2005. (ISBN: 2-910227-60-X). (analyse - Documentaliste - Sciences de l’information 2006, vol. 43, n° 2, p166- http://www.cairn.info/revue-documentaliste-sciences-de-l-information-2006-2-page-158.htm)Indexation structure (Web sémantique)Sur la légitimité des contenus générés par les utilisateurs, Patrick Peccatte, 30 juin 2009http://blog.tuquoque.com/post/2009/06/30/Sur-la-legitimite-des-contenus-generes-par-les-utilisateursExemples en ligneIndex automatique / Agence de l’Eau Seine Normandie : http://www.eau-seine-normandie.fr/index.php?id=533Les utilisateurs indexent / http://dossierdoc.typepad.com/descripteurs/2008/01/tagger-pour-la.html Outiller les utilisateurs / Musée McCord - http://dossierdoc.typepad.com/descripteurs/2007/12/publics-librs-a.htmlCompétencesMétiers et compétence en InfoDoc, S.Dalbin, (weblogue) - http://referentieleninfodoc.wordpress.com/