nouvelles pratiques d’indexation, nouveaux enjeux documentaires ?

Post on 27-May-2015

2.830 Views

Category:

Documents

1 Downloads

Preview:

Click to see full reader

DESCRIPTION

Séminaire sur les pratiques d'indexation . Aspect historique des index et de l’indexation (en France), Prise en compte de la fonction de recherche, Prise en compte (partielle) du contexte des CDIs pour évaluer l’impact de ces évolutions fonctionnelles et techniques

TRANSCRIPT

Nouvelles pratiques d’indexation,

Nouveaux enjeux documentaires ?

Sylvie Dalbinhttp://claimid.com/sylviedalbin

ESEN, le 22 Septembre 2009

2Sylvie Dalbin, 22 Septembre 2009

Contexte de l’intervention

Séminaire de 2 heures

Sur les nouvelles pratiques de l’indexation

A l’attention d’un groupe de I.A.- I.P.R.

Orientations prises• Aspect historique des index et de l’indexation (en France)• Prise en compte de la fonction de recherche• Prise en compte (partielle) du contexte des CDIs pour

évaluer l’impact de ces évolutions fonctionnelles et techniques.

3Sylvie Dalbin, 22 Septembre 2009

Déroulement

Présentation de l’intervenante - du groupe

Notions d’indexation

Contexte actuel - principe de convergence

Nouvelles pratiques d’indexation• Indexation linguistique• Indexation structurée (Web de données, Web sémantique)• Indexation sociale

Enjeux documentaires - Débat

Sylvie Dalbin, 22 Septembre 2009

Notion d’indexation

5Sylvie Dalbin, 22 Septembre 2009

Indexation - définition

“attribuer (à un document) une marque distinctive qui renseigne sur le contenu et qui permet de le retrouver” (1948 - Le Robert)

notion ancienne, techniques variées en fonction des périodes et des contextes d’usage

Mais on indexe toujours ... pour offrir des clés d’accès à l’information

6Sylvie Dalbin, 22 Septembre 2009

Indexation - principes

créer des point d’accès à des ressources• quel contexte ?

• un espace fermé : objet autonome, collection versus un espace ouvert• un stock (ou équivalent) versus un flux - évolution dans le temps• un espace éloigné des producteurs ou en proximité ?

• quelle cible ? • niveau de granularité de la cible : document autonome

• quel(s) outil(s) ?• un terme, une liste de termes, hiérarchisés ou non, un graphe de termes• contrôlé ou non

• quel(s) usage(s)

Sylvie Dalbin, 22 Septembre 2009

Indexation - histoire ancienne

Ressources numériquesTechnologies de l’information

Acteurs dans la Société de l’informationModes d’accès à l’information

Sylvie Dalbin, 22 Septembre 2009

Contexte actuelprincipe de convergence

9Sylvie Dalbin, 22 Septembre 2009

Ressources numériques

Traitement à la source - continuum• document porteur de ses méta-informations • tout au long de son cycle de vie

Production structurée et enrichie• grains d’information - ouverture, mashups• production structurée : sémantique structurelle• recherche intra-documents, inter-documents

Multitude de documents et collections, traités selon des méthodes différentes

• recherche multi-(re)sources

10

Sylvie Dalbin, 22 Septembre 2009

Technologies de l’information

50 ans après• “Lorsque, le matin, vous vous asseyez devant votre

ordinateur, vous avez en face de vous, votre tête”, M Serres, 2008

• les TI sont plus qu’un simple appui aux actions humaines• des actions sont conduites par la machine à notre place

• Les TI du Web révolutionnent les notions de document / collection

• “ouverture” - texte balisé, structuré - continuum

• Les TI d’indexation et/ou de recherche permettent aujourd’hui

• de distinguer plus formellement les phases d’indexation de celle de l’accès• la vue des producteurs ou des intermédiaires, de celles des utilisateurs

1111

Sylvie Dalbin, 22 Septembre 2009

Acteurs dans la Société de l’information

Usager pour lui ou son collectif • est producteur - éditeur - lecteur - gestionnaire• les usages de l’information se sont multipliés

• “le syndrome du Lettré”, expert du domaine ayant préparé sa recherche (requête)• lecture active, annotations, gestion et co-gestion

• pratiques guidées par l’efficience et la proximité

Intermédiaires : multiples niveaux• fonction de la proximité avec les usagers• fonction de leur rôle : orienté ressources ou usages

• éditeurs - gestionnaires - diffuseurs - recherchiste

• nous devenons tous producteurs, éditeurs, gestionnaires, recherchistes

12

Sylvie Dalbin, 22 Septembre 2009

Modes d’accès à l’information

Recevoir l’information• automatiquement par un tiers, par un système

Poser une question• sous forme d’une requête à un système dédié• sous forme d’une formulation libre (orale, courriel)

Naviguer au sein d’un schéma structuré• systèmes à facettes, classification,...

Fouiller un “corpus”• ne pas passer de temps à poser une question

Par sérendipité

13

Convergence

l’information comme matière première

le numérique comme médium

l’ordinateur comme outil

les activités de production, édition, gestion, diffusion, recherche d’information

http://www.mkbergman.com/

Sylvie Dalbin, 22 Septembre 2009

Pratiques d’indexation

1. Indexation de la langue2. Indexation structurelle (Web sémantique)

3. Indexation socialeSylvie Dalbin, 22 Septembre 2009

Pratiques d’indexation 1. Indexation de la langue

Sylvie Dalbin, 22 Septembre 2009

16

Indexation de la langue (1)

TALN - traitement automatique des langues naturellesensemble des activités visant à modéliser et générer à l’aide de machines, la capacité humaine à produire et à comprendre des énoncés linguistiques dans des buts de communication (à partir de A.Vilnat)

pourquoi ? document numériques + acteurs protéiformes

50 ans de développements intenses

En recherche d’information amélioration des traitements “texte intégral” (chaîne de caractères)

langues écrites mais aussi parlées

investissement faible des professionnels de l’infodoc.

Sylvie Dalbin, 22 Septembre 2009

17

Indexation de la langue (2)

Ingénierie linguistiquedécoupage du texte en phrases, puis en motsanalyse syntaxique : arbredes ressources dédiées

Apport en recherche d’info.

groupes nominauxextraire les “thématiques” des textes

Fouille de données

Sylvie Dalbin, 22 Septembre 2009

Synomia - index automatique

http://www.synomia.com/fr/

De nombreuses applications

Ici un index de site Web créé automatiquement

Analyse syntaxique

Suppose des corpus textuels

Sylvie Dalbin, 22 Septembre 2009

Pratiques d’indexation 2. Indexation structurelle

Sylvie Dalbin, 22 Septembre 2009

20

Indexation structurelle (1)

Des méthodes et outils spécifiques -- orienté “Domaine”

modélisation informatique (voir page suivante)

outilsschémas de métadonnées ontologies informatiques

finalités : donner la main à la machinestructurent et exposent les donnéespermettent des inférences (des calculs)

Evolutionde la notice / thésaurus => Bases de connaissance / référentiels

20Sylvie Dalbin, 22 Septembre 2009

21

Indexation structurelle (2)

Schémas de métadonnées“données structurées portant sur des données”

Ontologies informatiquesquoi : représentation conceptuelle d'un domaine - modèle formel qui décrit les objets du domaine et les relations qui les unissent

pourquoi : objectif de partager des connaissances entre agents du domaine, humains ou logiciels

Ces structures apportent de la sémantique aux systèmes

Sylvie Dalbin, 22 Septembre 2009

22

Indexation structurelle (3)

Dès “A bout de souffle” (1959), son premier long métrage, Jean-Luc Godard s'impose par un trait novateur, en rupture totale avec les formes du cinéma traditionnel : Jean-Paul Belmondo y vole une voiture, tue un motard, .... Le but de Godard n'est pas de raconter une histoire, mais d'en proposer la lecture critique du genre, en l'occurrence le thriller américain . Ce film devient l'oeuvre phare du cinéma de la Nouvelle Vague. (Cinémathèque Française)

Le Web sémantique” ou “Web de données”A/Ici un texte accessible par les moteurs de recherche

Sylvie Dalbin, 22 Septembre 2009

23

Indexation structurelle (4)Le Web sémantique” ou “Web de données”A/

donner du sens aux données qui circulent en les balisantpour optimiser l’accès et l’interopérabilité entre machines

Dès <tit-f>A bout de souffle<tit-f> (1959), son premier long métrage, <act:au>Jean-Luc Godard<act:au> s'impose par un trait novateur, en rupture totale avec les formes du cinéma traditionnel : <act:com>Jean-Paul Belmondo<act:com> y vole une voiture, tue un motard, .... Le but de Godard n'est pas de raconter une histoire, mais d'en proposer la lecture critique du genre, en l'occurrence le <genre>thriller américain<genre>. Ce film devient l'oeuvre phare du <sujet>cinéma<sujet> de la <genre>Nouvelle Vague<genre> <source>(Cinémathèque Française) <source>

24

Ex. - Delicious et Facette du MIT

les mots-clés sont accompagnés de leur classes de métadonnées

25

Ex. - Delicious et Facette du MIT

26

Indexation structurelle (5)Schémas de métadonnées orientés

ressources

Des référentiels terminologiques communs

27

Ex. - Indexation structurelle (4)

identifiant relation

instance de la classe Oeuvreinstance de la classe Personne

attributentités

Les machines vont pouvoir exploiter automatiquement toutes ces données => le web

sémantique des données

Ontologie du domaine de la musique (très partielle)

28

Architecture des SID

Autre exemple : Métalangage OTAREN (Outil Thématique d’Aide à la Recherche pour l’Education Nationale), François

Feyler

Pratiques d’indexation 3. Indexation sociale

30

Indexation sociale (1)

Indexation orientée usage

clé d’accès, non contrôlé

Tim Berners-Lee, 2007Internet = relation entre machinesWeb = relation entre documentsWeb social = relations entre personnes

CrowdsourcingContenu généré par les utilisateurs 30

Etude des traces (indexation) laissées par les internautes - Projet de la Library of Congress (2007)

•S'ENTHOUSIASMER •SE SOUVENIR•et retrouver•APPRENDRESE DOCUMENTER•STOCKER/CONSERVER•ENRICHIR et ANNOTER

http://dossierdoc.typepad.com/descripteurs/2008/01/tagger-pour-la.html

31

Indexation sociale (2)

Portail du Musée McCord

exploitation libre des données documentaires des SIDportail de l’Utilisateur

Ma sélection d'images courantesMes images personnellesMes tagsMes images annotéesMes commentairesMes commandes photographiquesMes dossiersMes duos

http://dossierdoc.typepad.com/descripteurs/2007/12/publics-librs-a.html

Période Ressource Processus Outils Public Usage

1 AntiquitéUn manuscrit

ou corpus d’un auteur

annotation du contenu d’un texte

notes marginales au texte, de toute nature; table

de concordance

accès rapide à un passage

pour compréhension

=>mémorisation

2 Moyen AgeManuscrit papyrus -

parchemin - codex

note externe - lien au texte; regroupement

des notes

Table - Indexsymbole de repérage

idem + extension aux encyclopédies

3 Renaissance

Impriméun manuscrit

des collections

indexation fine contenu du document

(et de collections)

Index de fin de livre

recherche sujet avec accès direct au

passage du texte ; langues

vernaculaires

4 Fin XIXe siècle

Périodiques, Livres

industrialisation

indexation thématique de collections,

contrôlée

Index de collection

Vocabulaire contrôlé

vedettes - thésaurus

repérage sujet avec accès indirect au

texte

5Après 2ème Guerre

Mondiale

Variétés de “documents”

Support numérique

indexation fine du contenu

de collections + Hypertexte

automates exploitant des

ressources linguistiques

repérage info avec accès

direct au texte

6 Fin XXè - Début XXI Web

annotation.sociale, ..séma

ntiqueontologie, taxonomie

compréhension pour accès à

un grain d’info+ lecture num.

Synthèse : méthodes et outils

Société

Document de travail, Dalbin, version 2009

Adapter nos pratiques professionnelles

Du point de vue du métier de Documentaliste

34

Indexation - quel modèle ? (rappel)

quel contexte ? un espace fermé versus ouvert (accès unique à des multicollections)un stock (ou équivalent) versus un flux - évolution dans le tempsun espace éloigné des producteurs ou en proximité ?

quelle cible ? niveau de granularité de la cible annotation - indexation au plus fin - indexation au thème principal - classement

quel(s) outil(s) ?thésaurus, index et lexique, référentiels variés, nomenclatures, taxonomie,..investir les automates, les langages de recherche (type Otaren)

quels usages ?

34

35

Identité prof. : à ré-évaluer

Fondée sur des missions : fournir ? former ?fournir des documents => fournir des informations ? répondre aux besoins ? (cf. référentiel Fadben, 2006)

former à la recherche => à la gestion, l’organisation, le partage ? prendre en compte tous les besoins informationnels des Usagers ?

Fondée sur des unités de traitements et des outils adaptés

livres et collections => granularité et continuum des espaces doc.

Fondée sur un statut d’exclusivitéAccepter que tout le monde indexe, même la machineLogique de co-partenariat et de services avec les utilisateurs et autres intermédiaires, dont l’informatique

Merci !

37

RéférencesHistoire Chronologie des supports, des dispositifs et des outils de repérage de l'information , Sylvie FAYET-SCRIBE, décembre 1997, http://biblio-fr.info.unicaen.fr/bnum/jelec/Solaris/d04/4fayet_1tab.htmlConcevoir l’index d’un livre. Théorie et pratique, Jacques Maniez, Dominique Maniez, ADBS Editions (à paraître en 2009/2010)Nouvelles pratiques d'indexation, nouveaux enjeux documentaires ?, Muriel Amar, 2008 (manuscrit)Technologies de l’informationLes nouvelles technologies : révolution culturelle et cognitive (Durée :1h04) - Conférence de Michel Serres (philosophe, de l’Académie française), http://www.inria.fr/40ans/forum/video.fr.phpGiant Global Graph, Tim Berners-Lee, nov. 2007 - http://dig.csail.mit.edu/breadcrumbs/node/215Indexation de la langueIntroduction au TALN, Anne Vilnat, 2008 (cours) - http://www.limsi.fr/Individu/anne/coursM2R/intro.pdfRecherche d’information et traitement de la langue : fondements linguistiques et applications. Lallich-Boidin, G. et Maret , D., Presses de l’ENSSIB, 2005. (ISBN: 2-910227-60-X). (analyse - Documentaliste - Sciences de l’information 2006, vol. 43, n° 2, p166- http://www.cairn.info/revue-documentaliste-sciences-de-l-information-2006-2-page-158.htm)Indexation structure (Web sémantique)Sur la légitimité des contenus générés par les utilisateurs, Patrick Peccatte, 30 juin 2009http://blog.tuquoque.com/post/2009/06/30/Sur-la-legitimite-des-contenus-generes-par-les-utilisateursExemples en ligneIndex automatique / Agence de l’Eau Seine Normandie : http://www.eau-seine-normandie.fr/index.php?id=533Les utilisateurs indexent / http://dossierdoc.typepad.com/descripteurs/2008/01/tagger-pour-la.html Outiller les utilisateurs / Musée McCord - http://dossierdoc.typepad.com/descripteurs/2007/12/publics-librs-a.htmlCompétencesMétiers et compétence en InfoDoc, S.Dalbin, (weblogue) - http://referentieleninfodoc.wordpress.com/

top related