transcription, annotation et indexation de manuscrits anciens

31
Transcription, annotation et indexation de manuscrits anciens Sylvie Calabretto [email protected] LIRIS - INSA DE LYON Journée Connaissances et Document - 6 octobre 2003

Upload: giulio

Post on 11-Feb-2016

41 views

Category:

Documents


0 download

DESCRIPTION

Transcription, annotation et indexation de manuscrits anciens. Sylvie Calabretto [email protected] LIRIS - INSA DE LYON Journée Connaissances et Document - 6 octobre 2003. Le projet européen BAMBI. BAMBI : Better Access to Manuscripts and - PowerPoint PPT Presentation

TRANSCRIPT

Page 1: Transcription, annotation et indexation de manuscrits anciens

Transcription, annotation et indexation de

manuscrits anciensSylvie Calabretto

[email protected]

LIRIS - INSA DE LYONJournée Connaissances et Document - 6 octobre 2003

Page 2: Transcription, annotation et indexation de manuscrits anciens

Le projet européen BAMBI

BAMBI : Better Access to Manuscripts and Browsing of Images (Programme Libraries) Composition du consortium :

» ACTA S.p.A (Italie)» Biblioteca Nazionale Centrale di Roma (Italie)» Comitato Nazionale delle Ricerche - Istituto di Linguistica

Computazionale di Pisa (Italie)» Consorzio Pisa Ricerche (Italie)» Max Planck Institut für Rechtsgeschichte (Allemagne)» LISI (France)

Page 3: Transcription, annotation et indexation de manuscrits anciens

Objectifs Consultation de manuscrits par un plus large

public Préservation des manuscrits Meilleure lisibilité des textes Informations précises et outils de recherche

pour les chercheurs en Histoire des Textes Possibilité de partager des annotations

Page 4: Transcription, annotation et indexation de manuscrits anciens

La station philologique

La station permet de : Visualiser l’image d’un document source (un manuscrit) avec

une haute résolution, transcrire, annoter et indexer le texte contenu dans les images, visualiser la transcription et l’index dans une fenêtre adjacente

à celle du document source, faire correspondre automatiquement chaque mot de la

transcription avec la portion de l’image source dans lequel le mot est trouvé,

» exporter des information sur les manuscrits au format SGML/HyTime

Page 5: Transcription, annotation et indexation de manuscrits anciens

La station BAMBI

Page 6: Transcription, annotation et indexation de manuscrits anciens

Méta-donnéesCittàSegnatura msSupportoDataConsistenzaTipologia Scrittura

Intestazione: AutoreTitoloIncipit

Segnatura microfilmMarca pellicolaPassoN°fotogrammiData riproduzioneNoteFotogrammi globali

Cod. MS

Page 7: Transcription, annotation et indexation de manuscrits anciens

Session de Recherche

Recherche multi-critères» par métadonnées

• auteur, date, bibliothèque, ...» par mots-clés

Page 8: Transcription, annotation et indexation de manuscrits anciens

Aide à la transcription

Transcription = processus visant à noter la prononciation d’une langue donnée à l’aide d’un système de signes d’une langue de conversion» abréviations syllabiques (« It » pour Item)» abréviations par suspension (« ac. » pour

Accurcius)» utilisation de signes spéciaux ( pour « et »)

Page 9: Transcription, annotation et indexation de manuscrits anciens

Indexation :Index verborum et Index locorum

Page 10: Transcription, annotation et indexation de manuscrits anciens

Annotations Deux types d’annotation :

» les commentaires libres (fond),» les variantes de textes (synonymes ou

corrections de syntaxe) (forme).

Page 11: Transcription, annotation et indexation de manuscrits anciens

Correspondance mot/image

Page 12: Transcription, annotation et indexation de manuscrits anciens

Correction manuelle

Page 13: Transcription, annotation et indexation de manuscrits anciens

Le filtre SGML/HyTime

Exporter les informations relatives à une page de manuscrit au format SGML.» SGML est une Norme Internationale» elle assure la pérennité de l’information» elle assure l’indépendance des informations

par rapport aux logiciels et aux matériels» elle permet la génération d ’une application

BAMBI Web (information exchange through INTERNET)

Page 14: Transcription, annotation et indexation de manuscrits anciens

La DTD BAMBI

Les informations à modéliser :» Description du manuscrit (titre, auteur,

bibliothèque, ...)» Les bookmarks» Liens entre chaque mot de la transcription et le

mot correspondant dans l’image

Page 15: Transcription, annotation et indexation de manuscrits anciens

La DTD BAMBI (1/3)<!-- DTD for a class of document exported from BAMBI project -- ><!ENTITY % doctype "MANUSCRI" >

<!-- Document STRUCTURE --><!-- ELEMENTS MIN CONTENT (EXCEPTIONS) -- >

<!ELEMENT %doctype; - - (InfoManu, Pages*, Fin?) ><!ELEMENT InfoManu - -

(UserName,Title,Author,Library,Incipit,Material,Date,Size,Languages,Handwriting,Bookmark*) >

<!ELEMENT UserName - - (#PCDATA) ><!ELEMENT Title - - (#PCDATA) ><!ELEMENT Author - - (#PCDATA) ><!ELEMENT Library - - (#PCDATA) ><!ELEMENT Incipit - - (#PCDATA) ><!ELEMENT Material - - (#PCDATA) ><!ELEMENT Date - - (#PCDATA) ><!ELEMENT Size - - (#PCDATA) ><!ELEMENT Languages - - (#PCDATA) ><!ELEMENT Handwriting - - (#PCDATA) > <!ELEMENT (Bookmark | Fin)- - (#PCDATA) >

Page 16: Transcription, annotation et indexation de manuscrits anciens

La DTD BAMBI (2/3)<!-- Page STRUCTURE -->

<!ELEMENT Pages - - (Image,Transcri)+ >

<!ELEMENT Image - - (CoorMots*) +graphic >

<!ENTITY % CoordXY "(X1,Y1,X2,Y2)" ><!ELEMENT CoorMots - - (%CoordXY;) >

<!ELEMENT (X1,Y1,X2,Y2) - - (#PCDATA) >

<!ENTITY % Annot "(Annot1|Annot2|Annot3|Annot4|Annot5|Annot6)" >

<!ELEMENT Transcri - - (Curpage,(Column,Ligne,Mots+,(%Annot;)*))*><!ELEMENT Curpage - - (#PCDATA) ><!ELEMENT Column - - (#PCDATA) ><!ATTLIST Column NumCol CDATA #REQUIRED ><!ELEMENT Ligne - - (#PCDATA) ><!ATTLIST Ligne NumLine CDATA #REQUIRED ><!ELEMENT Mots - - (#PCDATA|Mots*) ><!ATTLIST Mots Police CDATA #IMPLIED >

Page 17: Transcription, annotation et indexation de manuscrits anciens

La DTD BAMBI (3/3)<!ELEMENT (Annot1|Annot2|Annot3|Annot4|Annot5|Annot6)

- - (#PCDATA) >

<!-- Attribute definition Lists -->

<!-- Entity-name contents --><!ENTITY MAP1 "<X1> <!USEMAP MAP-INX1>" ><!ENTITY MAP2 "</X1> <Y1> <!USEMAP MAP-INY1>" ><!ENTITY MAP3 "</Y1> <X2> <!USEMAP MAP-INX2>" ><!ENTITY MAP4 "</X2> <Y2> <!USEMAP MAP-INY2>" ><!ENTITY MAP5 "</Y2> </CoorMots>" >

<!-- Mapname delimiter Entity-name --><!SHORTREF MAP-X1 "(" MAP1 ><!SHORTREF MAP-INX1 "," MAP2 ><!SHORTREF MAP-INY1 "," MAP3 ><!SHORTREF MAP-INX2 "," MAP4 ><!SHORTREF MAP-INY2 ")" MAP5 >

<!-- Mapname element --><!USEMAP MAP-X1 CoorMots >

Page 18: Transcription, annotation et indexation de manuscrits anciens

Description de manuscrit

(Instanciation de DTD)

<INFOMANU><USERNAME>Mario</USERNAME><TITLE>Diario del viaggio in Terra Santa 1559</TITLE><AUTHOR>Luca da Gubbio</AUTHOR><LIBRARY>1</LIBRARY><INCIPIT>Unknown</INCIPIT><MATERIAL>Cartaceo</MATERIAL><DATE>Sec. XVI 2° Meta</DATE><SIZE>CC 98</SIZE><HANDWRITING>8</HANDWRITING><BOOKMARK> Diario del viaggio in Terra Santa 1559 : c4r</BOOKMARK><BOOKMARK> Diario del viaggio in Terra Santa 1559 : c5r</BOOKMARK></INFOMANU>

Page 19: Transcription, annotation et indexation de manuscrits anciens

Liens entre parties d’image et partie de

texte<IMAGE><HYLOC><HOTSPOT ID=H1_1_1 GRAPHIC = Image5 REF=T1_1_1 RX= «205,02» RY=«75,64»

RW=«128,52» RH=«69,54».....</HYLOC></IMAGE><TRANSCRI><CURPAGE>c4r</CURPAGE><COLUMN NumCol=1><LINE Numline=1>

<LINK ID=T1_1_1 LINKEND=H1_1_1>I(tem)</LINK>...............

</LINE></COLUMN></TRANSCRI>

Page 20: Transcription, annotation et indexation de manuscrits anciens

Architecture BAMBI

HyTimeEngine

HyTimeApplication

Hyperdocument

BAMBIDatabase

SGMLParser

BAMBI DTD

SGML and Hytime Documents BAMBI

Application

Page 21: Transcription, annotation et indexation de manuscrits anciens

Application HyTime

Page 22: Transcription, annotation et indexation de manuscrits anciens

L’après BAMBI

» Projet SyDoM (Système Documentaire Multilingue)

• 1 thèse (+ 1 en octobre), 2 stagiaires CNAM

» Projet STEMA (Station de Travail pour l ’Etude des Manuscrits Anciens sur le Web)

• Programmes d’Actions Intégrés (P.A.I) MAE-MENRT Galilée 99, projet franco-italien entre le LISI et le CNR- Pise

Projet DiPhiloS• Ministero per i Beni e le Attività Culturali

Page 23: Transcription, annotation et indexation de manuscrits anciens

Le projet SyDoM Objectif :

» Méthode d’indexation sémantique et de recherche de documents multilingues

Propositions :» Un nouveau modèle de graphes pour représenter

les documents et les requêtes » Définition d'un nouveau thésaurus» Définition d’un nouvel opérateur de projection

Page 24: Transcription, annotation et indexation de manuscrits anciens

Prototype SyDoM

Page 25: Transcription, annotation et indexation de manuscrits anciens

Niveau conceptuel

tc1

Ensemble des types de concepts

Ensemble des types de relationsT2

tr1 tr2

machine qui transforme une forme d’énergie

en énergie mécanique

observation permettant de contrôler les données et

les conditions étudiées

T

tc1.1 tc1.2

tc1.2.1

tc2

tc2.1 Relation de spécialisatio

n

Page 26: Transcription, annotation et indexation de manuscrits anciens

Niveau terminologique

ExpérimentationMoteu

r

Experimentation

Engine

Ensemble des vocabulaires

Ensemble des types de concepts

Vocabulaire anglais

Vocabulaire français

tc1

T

tc1.1 tc1.2

tc1.2.1

tc2

tc2.1

Page 27: Transcription, annotation et indexation de manuscrits anciens

Les Graphes Sémantiques

« Tom réalise une expérimentation sur un moteur »

tc1.1tr1

tr2

1 12 2tc2.1 tc1.2

Personne Expérimentation

Moteuragent

patient

1 12 2

Un type de concept

Un terme label d’un type de concept

Un arc

Page 28: Transcription, annotation et indexation de manuscrits anciens

Prototype SyDoM

Page 29: Transcription, annotation et indexation de manuscrits anciens

Perspectives

BAMBI/DiPhiloS en open source

Module de traitement d’image à réécrire Module d’indexation sémantique

multilingue à intégrer

Page 30: Transcription, annotation et indexation de manuscrits anciens

PublicationsBONNATERRE O., BOZZI A., CALABRETTO S. and al., Better Access to Manuscripts and Browsing of Images : Aims and results of an European

Research project in the field of digital Libraries BAMBI Lib-3114.CLUEB (Bologne), 1997, 176 pages, ISBN N° 88-8091-569-X.

CALABRETTO S., PINON J.M., BOZZI A.BAMBI : Système de Gestion de Manuscrits Anciens pour Historiens.Revue Document Numérique. Ed. HERMES, Volume 2, n° 3-4, Numéro spécial sur les

Bibliothèques Numériques, 1998. pp. 31-50. ISBN 2-86601-738-2, ISSN 1279-5127

CALABRETTO S., BOZZI A. The Philological Workstation BAMBI (Better Access to Manuscripts and Browsing of Images).

International Journal of Digital Libraries. 1998. Volume 1, Issue 3http://jodi.ecs.soton.ac.uk/Articles/v01/i03/Calabretto/

Page 31: Transcription, annotation et indexation de manuscrits anciens

BOZZI A., CALABRETTO S. Digital Library and Computational Philology : the BAMBI (LIB -3114) project.

Proceedings of the First European Conference on Research and Advanced Technology for Digital Libraries. Lecture Notes in Computer Science N°1324 (Springer Verlag). Eds. C. Peters and C. Thanos. Pisa, Italie. September 1-3, 1997. pp. 269-285. ISBN 3-540-63554-8

CALABRETTO S., PINON J.M. Modelling of a medieval manuscript database with HyTime. In: Proceedings of ICCC/IFIP Conference on Electronic Publishing : EP'97. New Models and

Opportunities. The University of Kent at Canterbury, Great Britain. April 14-16, 1997. Edited by Fytton Rowland and Jack Meadows. ICCC Press, Washington, pp. 336-345. ISBN 1-891365-00-2

PINON J.M., CALABRETTO S., BOZZI A. Numérisation des manuscrits médiévaux : le projet européen BAMBI.In : Colloque du Centre Jacques Cartier. Vers une nouvelle érudition. Numérisation et recherche en

histoire du livre. Lyon, 6-7 décembre 1999

Publications