18 02-2015 atelier-pratique-xml-tei-stage-d-ecdotique-2015
TRANSCRIPT
Atelier pratique d’édition XML/TEIEmmanuelle MorlockIGE CNRS, UMR 5189
Proposé dans le cadre du Stage d’ecdotique 2015 de l’Institut Sources Chrétiennes, Lyon, 18/02/2015
cf. http://ecdotique.hypotheses.org/stages-et-formation/la-semaine-decdotique
Objectifs de l’atelier
★ Présenter la TEI et quelques notions technique indispensables
★ Montrer que le balisage est une activité intellectuelle et analytique
★ Pratiquer l’encodage en deux étapes :○ Encodage d’un court texte○ Encodage d’un apparat critique à partir de votre “cahier de collation”
★ Utiliser des outils de visualisation du résultat de l’encodage et de relecture○ Simple feuille de style CSS personnalisable selon des objectifs de relecture○ Critical edition toolbox : pour faciliter le contrôle des encodages complexes○ Modèle d’édition critique DIPLE (Ec. Nat. des Chartes)
○ Versioning Machine pour la visualisation parallèle de plusieurs témoins
IntroductionQu’est-ce que la TEI ?
Pourquoi utiliser XML pour une édition numérique ?
Quelques exemples commentés
La TEI c’est tout à la fois...
★ Un cadre d’encodage gratuit et libre○ un cadre conceptuel pour la représentation des textes○ une architecture informatique modulaire et évolutive○ des “Guidelines” = documentation utilisateur des recommandations d’encodage○ un modèle de document
★ Un écosystème ○ des outils très nombreux et variés○ un consortium international○ une communauté d’utilisateurs actifs
★ Plus qu’un “format standard” ○ un mécanisme pour produire des schémas de contrôle et de validation personnalisés○ un mécanisme permettant de rendre explicite des lectures/interprétations d’un texte○ un format permettant à l’archivage à long terme des données numériques
Mais ce n’est pas...
★ Le seul standard dans le domaine de la représentation des textes★ Un cadre contraingnant ( = “explique-moi ce que tu fais” et pas “fais ainsi”)★ Non-interprétatif ou “objectif”★ Utilisé de manière uniforme (même au sein d’un même projet)★ Un standard stable et non-évolutif★ Une finalité en soi★ Un format de publication automatique★ L’assurance de la préservation à long très terme...
cf. James Cummings, “What is the TEI? And why should I care? “ (27/01/2015) <https://prezi.com/jcvxvvzecc1y/what-is-
the-tei-and-why-should-i-care-a-brief-introduction-for-classicists/>
http://books.openedition.org/oep/679 http://www.sources-chretiennes.mom.fr/upload/doc/20110505-StageEcdotique-Hisoma-TEI-FClavaud.pdf
http://dh.obdurodon.org/what-is-xml.xhtml
XML en (très) bref
1. XML ne sert pas à afficher les données mais à les décrire. Il ne fait rien. Appliqué à la représentation des textes, il permet de décrire notamment leur structure (livre, section, chapitre, paragraphe, phrase, mot…)
2. Les balises ne sont pas prédéfinies On peut librement créer ses propres balises (en fonction de la structure logique qu’on choisit de représenter par exemple)
3. On peut l’utiliser avec une “grammaire” de balises (DTD ou Schéma)Pour donner de la rigueur et encoder avec un langage commun entre projets
4. XML est auto-descriptif et assez facilement lisibleOn peut prendre connaissance de la structure d’un corpus assez rapidement en ouvrant simplement le fichier avec n’importe quel éditeur de texte
Principe du balisage descriptif 1
★ Délimitation de segments de texte de toutes tailles
+
★ Explicitation de leur nature ou fonction
<baliseX>Contenu textuel</baliseX>
Balise ouvrante
Balise fermante
Segment balisé
Principe du balisage descriptif 2
★ Les attributs précisent le sens des balises
<handNote xml:id="EP" medium="red-ink">
Ezra Pound's annotations.
</handNote>
Valeur de l’attribut
Attribut
Principe du balisage descriptif 3
★ Le balisage descriptif = décrit les données sans indication de traitement★ Le principe est celui de la séparation du contenu et de la présentation.
★ Comparez :○ <author>Louise Labé</author>○ <span class=”small-caps”>Louise Labé</span>
★ Le but est de décrire la fonction plus que l’apparence du rendu final :○ c’est cela qui offre la flexibilité maximale permettant des chaînes
éditoriales “multi-support” : le rendu est traité à une étape ultérieure, et peut être adapté à chaque support, au contexte de réception ou dispositif de lecture...
Concrètement
Fichier XML :<author><forename>Louise</forename> <surname>Labé</surname></author>
Fichier CSS :surname { font-variant: small-caps; font-family:Times; }
Résultat :Louise LABÉ
Une source unique, des usages multiples
★ Un texte explicité et enrichi au moyen d’un métalangage simple, clair, universel, permettant de baliser n’importe quel type de texte
★ Une source “matrice”, à partir de laquelle on peut produire des versions différentes (vue normalisée vs vue diplomatique ; version pour le web, pour les liseuses, version “grand public, version savante)
★ Un fichier lisible par les humains (contrairement aux fichiers binaires)
★ Un fichier utilisable pour des recherches fines, des extractions ciblées, des analyses automatiques...
★ Un format libre, facilitant l’intéropérabilité
Quelques principes à retenir
★ Texte vs Document○ Le texte est une abstraction que l’on construit et que l’on peut encoder○ Un document est un objet que l’on peut numériser
★ XML considère le texte comme un système de hiérarchies ordonnées d’objets de contenus (les balises doivent être strictement imbriquées)
★ L’encodage consiste à représenter l’information dans des structures arborescentes, en codant ces structures de manière compréhensible à un ordinateur.
Quoi encoder ? 4 dimensions principales
★ L’apparence physique et visuelle ○ représentation mimétique +/- transférable d’un support à un autre
★ La dimension linguistique et structurelle○ qu’un lecteur humain peut décoder puis la transcrire ou la traduire
★ La dimension sémantique○ que l’on peut comprendre (ou pas !) et annoter
★ Le contexte de production ou de réception ○ que l’on peut décrire par le biais de métadonnées
Analyse préalable
★ Il s’agit d’identifier :○ les éléments structurants et les caractéristiques principales du doc.○ identifier les caractéristique liées aux centres d’intérêt de l’éditeur
★ Les deux peuvent venir de :○ “pseudo-balisage” : déjà présents dans le document○ explicitations issues du savoir externe de l’analyste
★ Au final, il s’agira toujours d’expliciter ce qui paraît important et les raisons de ses choix d’une manière la plus formalisée possible
Processus
★ Analyse du document = quoi encoder ? = analyse et qualifiation des fonctions des objets d’intérêt
★ Choix des balises / création d’un schéma personnalisé (à l’aide ou non du fichier de spécification ODD (One Document Does it all)
★ Balisage par approfondissements successifs
★ Présenter le document : via des “feuilles de style” CSS ou XSLT○ CSS : simple, attribution de caractéristiques visuelles aux balises○ XSL : plus complexe, permet de transformer le document XML
★ Exploiter le document : langages de requête XPath et XQuery...
Substitution
.
<subst> <subst><del/><add/>
</subst>
.. are all included. <del hand="#RG">It is</del><subst> <add>T</add><del>t</del>
</subst>he expressed
Abréviation avec expansion
.
<abbr> <choice><abbr/><expan/>
</subst>
<choice>
<abbr>&</abbr>
<expan>et</expan>
</choice>
Changements de main
.
<handshift> milestone (balise sans contenu)
Lorem ipsum dolor
<handshift medium=”encre-verte” new=”#h1”/>
sit amet
(...)
ailleurs dans le doc :
<handNote xml:id=”h1”>Ecriture très régulière </handshift>
Incertain
.
<unclear>
Vade retro
<unclear reason=”tache-d-encre” cert=”medium” resp=”#EM”>
Satanas
</unclear>
texte restitué
.
<supplied>
Il se retrouvait parmi le <supplied>reason=”erreur-du-scribe”>s</supplied> siens.
Exempleshttp://www.berardier.org/http://vangoghletters.org/
http://godwindiary.bodleian.ox.ac.uk/index2.htmlhttp://txm.bfm-corpus.org/
Atouts d’un balisage TEIExpressivité
ExploitabilitéEvolutivité
Réutilisabilité
Permet également de repousser certains choix au moment de l’utilisation et pas de la production ! par ex. normalisations : on encode les deux leçons, c’est le lecteur qui choisit !
Programme
1. Prise en main de l’éditeur XML Oxygen Editor
2. Exercice : Transcription d’un court texte
3. Principes de transcription d’un apparat critique
4. Exercice : transcription du cahier de collation
5. Visualisations :
a. Diple (présentation classique avec affichage des variantes au survol de la souris)
b. Versioning machine (voir en parallèle les différents témoins)
Découverte de l’interface
★ Personnaliser l’espace de travail
★ Préférences : choisir le navigateur par défaut :
○ Safari (de préférence) ou Firefox
★ Expérimenter :
○ saisie d’une balise○ balises possibles dans le contexte○ valeurs possibles d’un attribut○ documentation contextuelle○ CTRL (CMD) + E○ style
Exercice 1Transcription d’une page d’un manuscrit
de Flaubert extrait des Dossiers documentaires de Bouvard et Pécuchet
Ms g226 (8) f°198 - conservé à la Bibliothèque municipale de Rouen
http://www.dossiers-flaubert.fr/cote-g226_8_f_198__r____
Exercice de transcription en TEI
★ Depuis Oxygen, ouvrez le fichier : “TEI_exercice_SC/content/modele_exercice_0.xml”
★ Le fichier à transcrire se trouve dans : “TEI_exercice_SC/sources/exercice-flaubert”
★ Processus à suivre :a. Analyser le document b. Copier le texte dans l’éditeur (depuis “DBP_8_198_r_texte_avec_sauts_de_ligne.txt”)
c. Baliser : i. la structure
ii. les interventions éditoriales de l’auteur (ajouts, suppressions, substitutions...)
iii. les normalisationsiv. les entités nomméesv. … et tout autre caractéristique qui vous paraît pertinente
Analyse du document
Objectifs :
★ repérer la structure textuelle
★ identifier les “distinctions” pertinentes pour votre projet éditorial ou les analyses souhaitées :○ Orthographe ?○ Variantes graphiques des lettres ?○ Capitalisations ?○ Ponctuation ?○ Abréviations ?○ Mise en page ?○ Ajouts, suppressions ?○ erreurs, omissions ?○ etc.
Quelques balises TEI courantes
Pour une information détaillée sur le modèle de données ou les attributs possibles des balises TEI, se reporter à la documentation en ligne sur le site de la
TEI : http://www.tei-c.org/
<lb/> Saut de ligne
<head> titre
<div> division
<p> paragraphe
<del> suppression
<add> ajout
<subst> substitution
<choice> balisages alternatifs
<orig> forme originale
<reg> forme régularisée
<placeName> Nom de lieu
<persName> Nom de personne
Voir le résultat dans un navigateur
★ Cliquez sur le bouton “ouvrir dans le navigateur”
★ Le fichier s’affiche en fonction de la feuille de style CSS indiquée par les
instructions de traitement du début du fichier (donnés par le modèle)
Transformer le résultat
Utilisez les feuilles de style XSL de la TEI fournies avec Oxygen :
★ Cliquez sur le bouton “configurer un scénario de transformation”
★ Choisissez le scénario de votre choix dans la liste “TEI P5”
○ xhtml, pdf, odt, etc.
Théorie
★ Cf. diaporama de M. Burghart (EHESS, UMR CIHAM)
★ cf. fichier pdf “Antisèche” dans le dossier
“TEI_exercice_SC/sources/exercice-JdeVitry”
Exemple 1 : pseudo-edition-test-file.xml
Déclaration de la méthode d’encodage :
<variantEncoding method="parallel-segmentation" location="internal"/>
dans teiHeader//encodingDesc
Exemple 1 : pseudo-edition-test-file.xml
Liste des témoins <front><div>
<listWit><witness xml:id="A">Manuscript A</witness><witness xml:id="B">Manuscript B</witness><witness xml:id="C">Manuscript C</witness><witness xml:id="D">Manuscript D</witness><witness xml:id="E">Manuscript E</witness>
</listWit></div></front>
Encore à vous de jouer...
★ Ouvrez le fichier : TEI_exercice_SC/content/modele_apparat_critique.xml
★ à partir de votre cahier de collation (ou de la mise en commun du stage d’ecdotique 2014 cf. TEI_exercice_SC/sources/exercice-valere/stage SC.2014Travail2bis.doc), complétez le fichier...
“Contrôle qualité”
Visualisez et contrôlez votre encodage à l’aide de l’outil
développé par M. Burghart “TEI Critical Edition Toolbox”
http://ciham-digital.huma-num.fr/teitoolbox/
VisualisationsDiple
http://developpements.enc.sorbonne.fr/diple/theme/enc/index.php
Versioning machine
http://v-machine.org/
2 façons différentes de transformer votre fichier XML
Diple : dé-commentez l’instruction de traitement “<?xml-stylesheet href="../src/vmachine.xsl" type="text/xsl" ?> ”
et lancez votre navigateur...
Versionning machine : copiez le fichier dans “TEI_exercice_SC/vmachine_MB/samples” puis lancez votre navigateur…