cours bibliothèques numériques - la tei -1 introduction à la tei catherine cyrot

34
Cours bibliothèque s numériques - la TEI - 1 Introduction à la TEI Catherine Cyrot

Upload: claudie-berry

Post on 03-Apr-2015

115 views

Category:

Documents


2 download

TRANSCRIPT

Page 1: Cours bibliothèques numériques - la TEI -1 Introduction à la TEI Catherine Cyrot

Cours bibliothèques numériques

- la TEI - 1

Introduction à la TEI

Catherine Cyrot

Page 2: Cours bibliothèques numériques - la TEI -1 Introduction à la TEI Catherine Cyrot

Cours bibliothèques numériques

- la TEI - 2

Page 3: Cours bibliothèques numériques - la TEI -1 Introduction à la TEI Catherine Cyrot

Cours bibliothèques numériques

- la TEI - 3

Page 4: Cours bibliothèques numériques - la TEI -1 Introduction à la TEI Catherine Cyrot

Cours bibliothèques numériques

- la TEI - 4

Comment va-t-on s'y prendre pour arriver à ce résultat ?

En structurant les documents produits, c'est à dire en donnant du sens à l'information contenue dans ce document, quelle que soit sa destination finale.Il va falloir définir des régles de production, de structuration de l'information, mais aussi des règles qui garantissent l'accès, au document, sa stabilité, sa pérennité.Il va falloir ensuite respecter ces régles qui sont des normes.En résumé : XML, Unicode, OAI.....

Page 5: Cours bibliothèques numériques - la TEI -1 Introduction à la TEI Catherine Cyrot

Cours bibliothèques numériques

- la TEI - 5

Page 6: Cours bibliothèques numériques - la TEI -1 Introduction à la TEI Catherine Cyrot

Cours bibliothèques numériques

- la TEI - 6http://www.tei-c.org/

Page 7: Cours bibliothèques numériques - la TEI -1 Introduction à la TEI Catherine Cyrot

Cours bibliothèques numériques

- la TEI - 7

• être simple, clair et concret, • être facile à utiliser sans logiciel particulier, • être rigoureusement défini, • permettre un traitement efficace, • être ouvert à des extensions définies par les utilisateurs, • être compatible avec les standards existants ou en développement.

Principes de la TEI

Page 8: Cours bibliothèques numériques - la TEI -1 Introduction à la TEI Catherine Cyrot

Cours bibliothèques numériques

- la TEI - 8

Ainsi, tout texte conforme à la TEI comporte :

Un en tête qui reprend les caractéristiques formelles des documents : équivalent de la notice catalographique

Une DTD avec les identificateurs de base des grandes catégorises de documents littéraires : prose, poésie, théâtre, …

Ce balisage s'organise selon deux types d'éléments :

Le noyau : ce sont des balises et des éléments communs à toutes disciplines. Par exemple, la structure en division et paragraphes, la description documentaire du contenu, etc..

. Les balises et éléments propres à des disciplines : ils

permettent de travailler sur le théâtre, la poésie, les dictionnaires, l'histoire...

Page 9: Cours bibliothèques numériques - la TEI -1 Introduction à la TEI Catherine Cyrot

Cours bibliothèques numériques

- la TEI - 9

La structure de la TEI

L'en-tête TEI contient des informations analogues à celles que l'on trouve sur la page de titre d'un texte imprimé. Il contient jusqu'à quatre parties : => Une description bibliographique du texte électronique; => Une description de la manière dont il a été codé; => Une description non bibliographique du texte (le « profil » du texte); Un historique de révision.

Par exemple : pour un document unitaire<TEI.2> <teiHeader> [ informations contenues dans l'en-tête TEI ] </teiHeader>,

<text> <front>[ textes préliminaires... ] </front>,

<body>[ corps du texte... ] </body> <back> [annexes... ] </back>

</text> </TEI.2>

Page 10: Cours bibliothèques numériques - la TEI -1 Introduction à la TEI Catherine Cyrot

Cours bibliothèques numériques

- la TEI - 10

La structure de la TEI le corps du document

1 Le corps d'un texte en prose peut avoir la forme d'une simple suite de paragraphes;

Exemple sur le texte de Victor Hugo :

<div1 id=NDP6 n='VI' type='livre'><div2 id=NDP61 n='1' type='chapitre'><head>Coup d'oeil impartial sur l'ancienne magistrature</head><p>C'était un fort heureux personnage...

2 Coupures de lignes et de pages<pb> marque la limite entre une page d'un texte et la suivante, dans un système de référence normalisé; <lb> marque le début d'une nouvelle ligne (typographique) dans une édition ou version donnée d'un texte.

Page 11: Cours bibliothèques numériques - la TEI -1 Introduction à la TEI Catherine Cyrot

Cours bibliothèques numériques

- la TEI - 11

La structure de la TEI le corps du document3 Marquage d'expressions mises en valeur

Changements des styles de caractères ou alternances typographiques

Exemple<hi rend=gothic>And this Inventure further witnesseth</hi>that the said <hi rend=italic>Walter Shandy</hi>, merchant,in consideration of the said intended marriage ...

Citations et éléments associés

ExempleFew dictionary makers are likely to forgetDr. Johnson's description of the lexicographer as <q>a harmless drudge.</q>

Expressions ou mots étrangers

Exemple John has real <foreign lang=fra>savoir-faire</foreign>.Have you read <title lang=deu>Die Dreigroschenoper</title>?<mentioned lang=fra>Savoir-faire</mentioned> is French for know-how.The court issued a writ of <term lang=lat>mandamus</term>.Savoir-faire se dit <mentioned lang=eng>know-how</mentioned> en anglais!

Page 12: Cours bibliothèques numériques - la TEI -1 Introduction à la TEI Catherine Cyrot

Cours bibliothèques numériques

- la TEI - 12

La structure de la TEI le corps du document

4 Notes Par exempleCollections are ensembles of distinctentities or objects of any sort.<note place=foot n=1>We explain below why we use the uncommon term<mentioned>collection</mentioned>instead of the expected<mentioned>set</mentioned>.Our usage corresponds to the <mentioned>aggregate</mentioned>of many mathematical writings and to the sense of<mentioned>class</mentioned> foundin older logical writings.</note>The elements ...<p><note place=margin>Voir le second exemple</note>Si n&eacute;cessaire, l'attribut ...devrait indiquer leur type.</p>

Page 13: Cours bibliothèques numériques - la TEI -1 Introduction à la TEI Catherine Cyrot

Cours bibliothèques numériques

- la TEI - 13

La structure de la TEI le corps du document

5 Références croisées et liens

Exemple :Si je reviens sur <ref target=ABCD>le passage sur lequel je me suis endormi</ref>, je note que <ref target=EFGH>trois mots</ref> ont été entourés de rouge par un précédant lecteur.

Pointeurs étendus

<xptr> définit un pointeur vers un autre emplacement dans le document courant ou dans un document externe; <xref> définit un pointeur vers un autre emplacement dans le document courant ou dans un document externe, modifié éventuellement par un commentaire ou un texte supplémentaire.

Attributs de liaison

Page 14: Cours bibliothèques numériques - la TEI -1 Introduction à la TEI Catherine Cyrot

Cours bibliothèques numériques

- la TEI - 14

La structure de la TEI le corps du document

Le codage d'un texte électronique a beaucoup de points communs avec l'édition d'un manuscrit ou d'un texte destiné à être imprimé. Dans les deux cas, un éditeur consciencieux peut vouloir enregistrer l'état originel de la source ainsi que toutes les corrections éditoriales ou les modifications qui y ont été apportées. Les éléments présentés dans cette section et la suivante fournissent quelques ressources permettant de répondre à ces besoins

6 Interventions éditoriales

Page 15: Cours bibliothèques numériques - la TEI -1 Introduction à la TEI Catherine Cyrot

Cours bibliothèques numériques

- la TEI - 15

La structure de la TEI le corps du document

7 Omissions, effacements et ajouts

Outre la correction ou la normalisation des mots et des expressions, les rédacteurs et les transcripteurs peuvent aussi ajouter du texte dans des passages lacunaires, ôter du texte, ou encore transcrire du texte effacé ou biffé dans l'original. En outre, un texte donné peut être particulièrement difficile à transcrire car difficile à déchiffrer dans la page. Les éléments suivants peuvent être employés pour enregistrer de tels phénomènes :

8 Noms, dates, chiffres et abréviations

Page 16: Cours bibliothèques numériques - la TEI -1 Introduction à la TEI Catherine Cyrot

Cours bibliothèques numériques

- la TEI - 16

La structure de la TEI le corps du document

9 Listes

Exemple<list><head>Une petite liste:</head><item n=1>premier élément de la liste;</item><item n=2>second élément;</item><item n=3>dernier élément.</item></list>

Page 17: Cours bibliothèques numériques - la TEI -1 Introduction à la TEI Catherine Cyrot

Cours bibliothèques numériques

- la TEI - 17

La structure de la TEI le corps du document

10 Citations bibliographiques

<bibl> contient une citation bibliographique structurée de façon lâche, dans laquelle les sous-éléments peuvent ou non être balisés explicitement.

Par exemple, l'annotation éditoriale suivante

He was a member of Parliament for Warwickshire in 1445, and died March 14, 1470 (according to Kittredge, Harvard Studies 5. 88ff).

Pourrait être transcrite comme suit :

He was a member of Parliament for Warwickshire in 1445, and died March 14, 1470 (according to <bibl><author>Kittredge</author>, <title>Harvard Studies</title> <biblScope>5. 88ff</biblScope></bibl>).

Page 18: Cours bibliothèques numériques - la TEI -1 Introduction à la TEI Catherine Cyrot

Cours bibliothèques numériques

- la TEI - 18

La structure de la TEI le corps du document

11 Tables

<table> contient le texte affiché sous forme tabulaire, en lignes et en colonnes; <row> contient une ligne d'une table; parmi les attributs possibles, citons : <cell> contient une cellule de table; parmi les attributs possibles, citons :

12 Figures et graphiques

<figure> marque l'endroit où un graphique doit être inséré dans un document; parmi les attributs possibles, citons : entity nom d'une entité système prédéfinie contenant une version numérisée du graphique à insérer; <figDesc> contient une description textuelle de l'aspect ou du contenu d'un graphique, lorsqu'une image est documentée sans être visualisée.

Page 19: Cours bibliothèques numériques - la TEI -1 Introduction à la TEI Catherine Cyrot

Cours bibliothèques numériques

- la TEI - 19

La structure de la TEI le corps du document

13 Interprétation et analyse

Typiquement, l'interprétation porte sur l'ensemble d'un texte, sans prendre particulièrement en compte les autres unités structurales.

14 Documentation technique

un nombre limité d'éléments supplémentaires sont inclus dans la TEI Lite en tant qu'extensions du DTD principal de la TEI; ils serviront à marquer les caractéristiques particulières de documents techniques

15 Jeux de caractères, signes diacritiques, etc.

16 Pièces liminaires et annexes

Page 20: Cours bibliothèques numériques - la TEI -1 Introduction à la TEI Catherine Cyrot

Cours bibliothèques numériques

- la TEI - 20

Un exemple d’utilisation de la TEICYBERTHESE

http://www.cybertheses.org/

Page 21: Cours bibliothèques numériques - la TEI -1 Introduction à la TEI Catherine Cyrot

Cours bibliothèques numériques

- la TEI - 21

Page 22: Cours bibliothèques numériques - la TEI -1 Introduction à la TEI Catherine Cyrot

Cours bibliothèques numériques

- la TEI - 22

Page 23: Cours bibliothèques numériques - la TEI -1 Introduction à la TEI Catherine Cyrot

Cours bibliothèques numériques

- la TEI - 23Cerist - Alger - 04 février 2004 J-P Ducasse

La notice biblio

Page 24: Cours bibliothèques numériques - la TEI -1 Introduction à la TEI Catherine Cyrot

Cours bibliothèques numériques

- la TEI - 24

Page 25: Cours bibliothèques numériques - la TEI -1 Introduction à la TEI Catherine Cyrot

Cours bibliothèques numériques

- la TEI - 25

Integral et sommaire

Page 26: Cours bibliothèques numériques - la TEI -1 Introduction à la TEI Catherine Cyrot

Cours bibliothèques numériques

- la TEI - 26

Page 27: Cours bibliothèques numériques - la TEI -1 Introduction à la TEI Catherine Cyrot

Cours bibliothèques numériques

- la TEI - 27

De Cyberthèses à Cyberdocs : les principes politiques et techniques

En 2003-2004, la plateforme Cyberthèses a subi de profonds changements

• Elle est complètement « open source »

• Elle repose sur la norme XML

• Elle fonctionne en mode dynamique

• Il est possible de traiter non seulement les thèses, mais tout type de document

Un projet qui repose sur une approche structurée du document et l’utilisation de SGML et de la DTD TEILite.

Extrait d’une présentation réalisée à l’ENSSIB par Jean Paul Ducasse

Page 28: Cours bibliothèques numériques - la TEI -1 Introduction à la TEI Catherine Cyrot

Cours bibliothèques numériques

- la TEI - 28

Cyberdocs, maintenant c’est :

Une plate forme de publication électronique de documents structurés avec :

– Un module de conversion du traitement de texte vers un document TEILite XML

– Un module de gestion pour diriger la conversion via une interface Web

– Une application Web dynamique pour la publication des documents : SDX

L’ensemble est sous licence GPL

Extrait d’une présentation réalisée à l’ENSSIB par Jean Paul Ducasse

Page 29: Cours bibliothèques numériques - la TEI -1 Introduction à la TEI Catherine Cyrot

Cours bibliothèques numériques

- la TEI - 29

Le Module de conversion

Extrait d’une présentation réalisée à l’ENSSIB par Jean Paul Ducasse

Page 30: Cours bibliothèques numériques - la TEI -1 Introduction à la TEI Catherine Cyrot

Cours bibliothèques numériques

- la TEI - 30Cerist - Alger - 04 février 2004 J-P Ducasse

La conversion et le résultat

Extrait d’une présentation réalisée à l’ENSSIB par Jean Paul Ducasse

Page 31: Cours bibliothèques numériques - la TEI -1 Introduction à la TEI Catherine Cyrot

Cours bibliothèques numériques

- la TEI - 31

Le module de publication

– Infrastructure sous jacente : SDX et XML, moteur de recherche et pivot de publication et Cocoon, une infrastructure basée sur XML pour construire des applications dynamiques

– La recherche peut se faire sur les métadonnées, en plein texte ou dans des zones spécifiques ( titre, légende ou figures). Liste des documents présentée par institution, sujets. Table interactive des matières, liste des tableaux, liste des figures, termes recherchés en surbrillance, recherche à l’intérieur du document.

– Réservoir OAI-PMH: support OAI-PMH est bâti dans la plate forme SDX

– Les métadonnées envoyées sont au format Dublin Core (obligatoirement), ETDMS

Extrait d’une présentation réalisée à l’ENSSIB par Jean Paul Ducasse

Page 32: Cours bibliothèques numériques - la TEI -1 Introduction à la TEI Catherine Cyrot

Cours bibliothèques numériques

- la TEI - 32

http://www.atilf.fr/

Page 33: Cours bibliothèques numériques - la TEI -1 Introduction à la TEI Catherine Cyrot

Cours bibliothèques numériques

- la TEI - 33

Le CES fournit un ensemble de balises et des DTD qui sont spécifiques au codage des corpus de textes pour les besoins de l'ingénierie linguistique, ainsi qu'un ensemble détaillé de recommandations pour l'usage des balises, et leur sémantique précise dans le contexte des corpus.

Une application de la TEI aux industries de la langue : le "Corpus Encoding Standard"

http://www.up.univ-mrs.fr/veronis/pdf/1996gut-corpus.pdf

Page 34: Cours bibliothèques numériques - la TEI -1 Introduction à la TEI Catherine Cyrot

Cours bibliothèques numériques

- la TEI - 34

http://www.gutenberg.eu.org/

Pour en savoir plusUn n° spécial des cahiers Gutemberg