tei & humanités digitales

70
IXe Congrès de l’Association des Francoromanistes allemands IXe Congrès de l’Association des Francoromanistes allemands LES « INTERFACES NUMÉRIQUES » DANS LA RECHERCHE AUJOURD’HUI LES « INTERFACES NUMÉRIQUES » DANS LA RECHERCHE AUJOURD’HUI TEI et humanités digitales en milieu linguistique franco- maghrébin Mokhtar BEN HENDA Henri HUDRISIER

Upload: mokhtar-ben-henda

Post on 14-Apr-2017

231 views

Category:

Data & Analytics


0 download

TRANSCRIPT

Page 1: TEI & Humanités digitales

IXe Congrès de l’Association des Francoromanistes allemandsIXe Congrès de l’Association des Francoromanistes allemandsLES « INTERFACES NUMÉRIQUES » DANS LA RECHERCHE AUJOURD’HUI LES « INTERFACES NUMÉRIQUES » DANS LA RECHERCHE AUJOURD’HUI

TEI et humanités digitales en milieu linguistique franco-

maghrébin

Mokhtar BEN HENDAHenri HUDRISIER

Page 2: TEI & Humanités digitales

Projet HumanitésDigitMaghrebHumanités digitales

Diversité LinguistiqueInterdisciplinarité

HumanitéDigitMaghreb

Page 3: TEI & Humanités digitales

HD : un point d’histoire 1 - Le literacy and linguistic computing (1960-

1980) L’Index Thomisticum : début 1950, le père Busa était le premier

à avoir l’idée générer de façon automatique un index de chaque mot (lemmatisation) du corpus de l’œuvre de Thomas D’Aquin

Brown Corpus for Use on Digital Computers (1964) Tous les mots de la langue anglaise dans toutes les variétés de

discours, indexés au moyen de machines Première tentative de normaliser, de standardiser la construction

d’un corpus selon des principes statistiques Le Thesaurus Linguae Graecae (1972)

Base de données qui rassemblerait tous les textes de la littérature grecque (BetaCode Vs Cartes perforées)

Considérer le texte comme un phénomène statistique Quantifier les signes, identifier les régularités statistiques dans les

textes, d’établir des concordances (recherche des occurrences en contexte pour chaque mot et tri)

Définir la paternité d’un texte en étudiant la distribution de fréquences

Page 4: TEI & Humanités digitales

2 - L’humanities computing (1980-1994) Les HC coïncident avec l’émergence des

langages de documents structurés 1968 : GML (Generalized Markup Language) 1985 : ODA (Open Document Architecture).

Publié en 1993 1986 : SGML (Satandard Generalized Markup

Langage) 1987 : TEI (Text Encoding Initiative)

Enjeu : rendre possible la mutualisation des données en apportant une solution à l’immense variété des manières d’encoder

HD : un point d’histoire

Morale des Humanities Computing « I used to read texts, but now I am learning the tools to play with them » Lou Burnard

Page 5: TEI & Humanités digitales

HD : un point d’histoire 3 - Les digital humanities (1994-…)

Développement exponentiel des capacités informatiques :

Pleine période de discussions théoriques sur l’encodage Explosion du nombre de bibliothèques numériques et de

projets de numérisation en masse Émergence du grid computing : partage et mise à

disposition des informations Émergence du cloud computing Émergence de la folksonomie : contribution par l’utilisateur

final sans médiation scientifique ou technique

03 âges numériques1. Numérisation (machine) : [encodage binaire]2. Médiatisation : [Documents numériques

structurés]3. Relation numérique (Scénographie) : [Réseaux

virtuels, Hypertexte, cloud…]

Page 6: TEI & Humanités digitales

HD : un point d’histoire 1 - Le literacy and linguistic

computing (1960-1980) 2 - L’humanities computing (1980-

1994) 3 - Les digital humanities (1994-…)

« Nous sommes des experts de la maïeutique du texte, et c’est précisément ce qui définit la contribution des sciences humaines et sociales à l’élaboration du Web sémantique ».

Lou Burnard, « Du literary and linguistic computing aux digital humanities : retour sur 40 ans de relations entre sciences humaines et informatique », in Pierre Mounier (dir.), Read/Write Book 2, Marseille, OpenEdition Press (« Collection « Read/Write Book » »), 2012, p. 45-58

Page 7: TEI & Humanités digitales

HD : au-delà de la textualité Déconstruction de la catégorie « texte » et

prendre en compte les catégories parlées ou visuelles « Les Humanités dé-livrées » (*):

(*) Les « humanités délivrées » Cultures parlées, visuelles et écrites, réinventées hors du livre 1-2 octobre 2013, Amphimax 414, Université de Lausanne

Développement d’une attention aux « littératies plurielles » (imprimé, informatique, audiovisuel)

La codification digitale d’un document, de quelque nature qu’il soit (écrit, oral, filmé, etc.), est aujourd’hui un des terrains les plus importants de redéfinition de la connaissance

La TEI (Text Encoding Initiative) s’y adapte convenablement

Page 8: TEI & Humanités digitales

Faire des recommandations qui se basent sur des consensus Concertation / collaboration (Consortium TEI)

Préférer les solutions générales à celles spécifiques à une discipline Pratiques communautaire et inter-communautaires

(Interdisciplinarité)

En même temps permettant la spécialisation et l'extension Appropriation / personnalisation / évolution

TEI : Fondamentaux

Page 9: TEI & Humanités digitales

TEI : organisation

Bottom/Up

Page 10: TEI & Humanités digitales

Spécialisation / harmonisation / interopérabilité La TEI est une architecture plastique, qui peut s’adapter aux

nouveaux besoins et enjeux de la recherche en SHS Les aménagements de la TEI en schémas spécifiques :

TEI Lite : schéma pour la description de documents simples Bare TEI : schéma basique avec un minimum d’éléments All : schéma avec tous les modules inclus Corpus : schéma pour encoder les corpus linguistiques MS : schéma pour la description des manuscrits et les formes

complexes Performance : schéma pour la description d’oeuvres théâtrales et

autres (audio, vidéo) Speech : schéma pour la représentation du discours oral Verse : schéma pour la description de poèmes Dictionaries : schéma pour la description des dictionnaires MEI : Music Encoding Initiative (2010)

TEI : Modélisation (schémas)

Page 11: TEI & Humanités digitales

3 niveaux de représentation

Niveau 1 : Toutes les ressources numériques en SHS disposent d’un minimum de structure commune (Core TAG SET) - Interopérabilité

Niveau 2 : Les ressources en SHS peuvent être classées en sous catégories par genres ou types disposant à leurs tours d’un minimum de points communs (Base TAG SET)

Niveau 3 : Chaque ressource dans une sous catégorie peut avoir ses caractéristiques spécifiques

Champs des SHS

Discipline

Discipline Discipline

Document

Document

Document

TEI : hiérarchisation

Page 12: TEI & Humanités digitales

Niveau Corpus

Niveau collection

Niveau entité/unité

Niveau granulé

Niveau unité/section

Liminaires : page de titre, table des matières, préface, dédicace etc

Annexes : Index, …

En-tête (métadonnées) :Données bibliographiques, Techniques, administratives, etc.

TEI : hiérarchisation

Page 13: TEI & Humanités digitales

<TEI> <teiHeader> [en-tête TEI] </teiHeader> <text>

<front> [liminaires...] </front>

<body>

[contenu]

</body>

<back> [annexes] </back>

</text></TEI>

TEI : hiérarchisation

Page 14: TEI & Humanités digitales

Contexte maghrébin Interdisciplinarité / collaboration

interinstitutionnelle Verticalité des structures institutionnelles et

cloisonnement des disciplines Isolement des chercheurs et les disciplines, Complémentarité des disciplines respectives :

littérature, arts, linguistique, sciences de l’information et de la communication, informatique, sciences humaines et sociales

en matière de recherche littéraire, l’édition critique d’aujourd’hui est éminemment une œuvre non seulement collective mais aussi collaborative.

Page 15: TEI & Humanités digitales

Contexte maghrébin Diversité linguistique

La région du Maghreb connaît une hybridation linguistique importante qui impacte lentement son patrimoine culturel.

D'importantes quantités de ressources dans différentes langues et cultures ont été accumulées dans la région du Maghreb, soit dérivées de l'arabe classique (i.e. les dialectes régionaux) ou de divers dialectes berbères (i.e kabyle).

Plusieurs ressources sont même composées simultanément dans plusieurs langues courantes ou réduites (arabe littéraire, l'arabe dialectal, français, anglais, berbère) comme les journaux, "imprimerie de ville", supports publicitaires, la littérature populaire, contes, manuels pour l'apprentissage des langues, etc.

Ces ressources sont souvent écrites dans une écriture hybride mélangeant arabe classique et vernaculaire, ou en combinant les formes de translittération entre latin, arabe et tifinagh (script traditionnel berbère).

Page 16: TEI & Humanités digitales

Diversité linguistique Constat :

Il n'existe pas aujourd'hui de vaste corpus de textes en langues et écritures vernaculaires (contrairement à la littérature classique imprimée et le fonds de manuscrits médiévaux),

Hypothèse : Prise de conscience de la diversité de ces ressources

textuelles Augmentation exponentielle du nombre de chercheurs

intéressés par la collecte et l'étude des textes anciens classiques et des ressources orales et en dialectes locaux,

Encodage TEI: Proposer de nouvelles formes d’interfaces d’accès Intégrer ces ressources dans le patrimoine culturel

international

Page 17: TEI & Humanités digitales

Diversité linguistique Une analyse linguistique et socio-culturelle du contexte

maghrébin définirait la façon dont la TEI, dans ses versions actuelles et futures, saurait : permettre de coder le patrimoine culturel maghrébin, au-

delà du seul niveau de catalogage selon les normes bibliographiques (MARC ISBD, RCAA2, Dublin Core)

Normaliser les différentes approches de la lecture savante.

Dans son évolution constante, et la nécessité de renforcer sa facette de l'internationalisation, la communauté TEI enrichit sans aucun doute les caractéristiques culturelles et linguistiques, ce qui bien sûr exigeraient que cette communauté soit organisée pour fournir des formats standards adéquats pour l'encodage et de présenter un large éventail de linguistique données textuelles hétérogènes.

Page 18: TEI & Humanités digitales

Diversité linguistique Produire des modèles de référence basées sur la TEI

dans les langues locales et leur présenter les communautés académiques et professionnelles. Ces normes permettront d'aborder la complexité linguistique spécifique que l'hybridation des ressources numériques (dialectes locaux) et la préservation d'une richesse culturelle millénaire orale et artistique En tant que tel, la question de jeux de caractères n'est pas sans

conséquence pour représenter les dialectes locaux, en grande partie parce que beaucoup de leurs aspects culturels n'ont pas été prises en compte dans l'élaboration de normes existantes (numéros de transcription et des symboles, des formes de ligatures, diplomatique et anciens alphabets).

Il existe, par exemple, de nombreuses propriétés de la langue arabe ou berbère, comme les propriétés tonales, synonymie régionale et voyellation classique (écrit notarial) qui nécessitent un traitement spécial.

Les normes, notamment la norme Unicode (beaucoup moins de normes ISO 8859) ne prennent pas en compte un grand nombre de ces aspects

Page 19: TEI & Humanités digitales

Objectifs Création d'une communauté de pratique spécialisée

dans le traitement des ressources spécifiques. Nous notons que la plupart de ces ressources sont potentiellement

complexes et certaines fonctions nécessitent probablement des arrangements de balisage spécifiques,

Cela signifie qu'un environnement dynamique est nécessaire pour spécifier l'encodage de ces documents : un environnement dans lequel il est simple de coder pour des structures simples, mais où des structures plus complexes peuvent également être codées,

Par conséquent, il est important d'avoir des spécifications qui peuvent être facilement étendues lorsque les caractéristiques nouvelles et intéressantes sont identifiées,

Ce qui nous intéresse dans la TEI, c'est précisément sa dynamique collégiale ouverte sur la diversité linguistique non-

européenne son éclectisme dans les disciplines de recherche (littérature, manuscrit,

corpus oraux, la recherche dans les arts, linguistique ...), sa rigueur pour maintenir, enrichir et ldocumenter des directives ouvertes

sur la diversité, et capables d'assurer l'interopérabilité de toutes les ressources produites.

Page 20: TEI & Humanités digitales

Enjeux Plus spécifiquement

L'acquisition de nouveaux habitus de recherche sur les ressources numériques en SHS,

La maîtrise de leur mise en œuvre en corpus interopérable pour promouvoir la synergie de la coopération et de l'étude mondiale de ces ressources,

L'étude du processus d'appropriation, la relocalisation des approches et des redéfinitions épistémologiques induits

Page 21: TEI & Humanités digitales

Montage du projet HumanitéDigitMaghreb

Le projet est une recherche-action qui s’inscrit dans les orientations de recherche des Humanités Digitales

Projet ISCC/CNRS mis en place en 2012 par une équipe de chercheurs de différentes institutions universitaires en France et au Maghreb et du Canada [des linguistes, chercheurs en littérature, culture, histoire, musique, arts,… tant en français qu’en arabe ou berbère]

Page 22: TEI & Humanités digitales

Partenaires

Page 23: TEI & Humanités digitales

Objectifs généraux S’inscrire dans la dynamique des Humanités digitales comme

définie dans les « Principes de Poughkeepsie » (résolutions finales de la conférence de Vassar College, New York, en novembre 1987)  : « 12. Nous nous engageons dans l’édification d’une compétence

collective s’appuyant sur un vocabulaire commun, compétence collective qui procède du travail de l’ensemble des acteurs. Cette compétence collective a vocation à devenir un bien commun. Elle constitue une opportunité scientifique, mais aussi une opportunité d’insertion professionnelle, dans tous les secteurs.

13. Nous souhaitons participer à la définition et à la diffusion de bonnes pratiques, correspondant à des besoins disciplinaires et transdisciplinaires identifiés, qui soient évolutives et issues d’un débat puis d’un consensus au sein des communautés concernées. L’ouverture fondamentale des digital humanities assure néanmoins une approche pragmatique des protocoles et des visions, qui maintient le droit à la coexistence de méthodes différentes et concurrentes, au profit de l’enrichissement de la réflexion et des pratiques.

14. Nous appelons à la construction de cyberinfrastructures évolutives répondant à des besoins réels. Ces cyberinfrastructures se construiront de façon itérative, s’appuyant sur le constat de méthodes et d’approches qui font leurs preuves au sein des communautés de recherche. »

Page 24: TEI & Humanités digitales

Finalités Edition numérique : Humanités digitales

démontrer que le futur de l’édition critique numérique (qui est le cœur de métier de la communauté TEI), est une question hautement stratégique qui doit être collectivement débattue par les chercheurs impliqués dans les Humanités digitales.

Intelligence collective : Recherche collaborative en réseaux et mise en commun de

ressources numériques, porter à un degré jusqu’ici jamais atteint l’intelligence collective des

problématiques travaillées par des chercheurs en SHS. Communauté de pratiques (TEI Consortium)

Consortium TEI : mise en réseaux d’espaces de travail structurés par des balises pour les sciences humaines et sociales

Appui à la recherche en littérature et en étude de textes : manuscrits, paléographie, poésie, théâtre, lexicologie, roman, littératures orales, etc.

Page 25: TEI & Humanités digitales

Objectifs méthodiques Organisation de dispositif (méthode)

Adopter des méthodes pour évaluer le rôle et l’importance des technologies numériques et de la communication dans la recherche scientifique

Instrumentalisation de la recherche SHS (outils) Mettre l’accent sur les opportunités, les difficultés et les

limites de l'usage de la technologie numérique dans les pratiques des recherches scientifiques notamment dans les  sciences humaines et la création littéraire et artistique

Evaluation/qualité de pratiques Appliquer des procédures spécifiques pour évaluer les

pratiques numériques en SHS, lettres et arts Stratégie (perspectives)

Trouver des orientations pour un meilleur usage des données du monde numérique, et une bonne pratique scientifique, surtout chez les jeunes chercheurs en SHS, lettres et arts

Page 26: TEI & Humanités digitales

Recherche-action Définir des modèles de structure de

corpus numérique en SHS fondés sur des typologies de documents (genres littéraires) proposés par les partenaires du projet dans les disciplines des sciences humaines et sociales, des lettres eet des arts

Produire un environnement technologique de production de corpus SHS normalisé par la TEI

Mettre en ligne un corpus de démonstration de ressources mutualisées en SHS

Page 27: TEI & Humanités digitales

Schéma général du projet

Corpus SHS :Modèles de structures de documents SHS

Poésie

Théâtre ConteMusique Manuscrit Discours

Fable

Autres

Vidéo Peinture

Page 28: TEI & Humanités digitales

Les phases du projet Stratégie d’action (méthode)

Répartiion de roles Choix d’outils / applications

Production de ressources Structuration (segmentation) Codage

Organisation des collections/corpus Iréférencement Indexation

Exploitation Recherche de contenu Diffusion

Page 29: TEI & Humanités digitales

Une méthode de travail

Spécialiste SHS

Technicien XML/TEI

Spécialiste de l’Info-Com.

Corpus Arts & SHS

Page 30: TEI & Humanités digitales

Une méthode de travail Les SPÉCIALISTES SHS SPÉCIALISTES SHS identifient la structure

logique d’un type de document dans leurs spécialités respectives (roman, poésie, théâtre, conte, manuscrit, peinture, musique, …)

Page 31: TEI & Humanités digitales

Une méthode de travail Les TECHNICIENSTECHNICIENS convertissent le modèle défini

par les spécialistes SHS en schéma informatique (TEI/XML) avec logiciels spécifiques

Codification XML/TEI Fichiers XML

Page 32: TEI & Humanités digitales

Une méthode de travail Les DOCUMENTALISTES DOCUMENTALISTES font le référencement des

corpus par métadonnées et constituent les BD

Référencement/indexationCMS / BD

Page 33: TEI & Humanités digitales

Outils (interfaces) Oxygen

Page 34: TEI & Humanités digitales

Outils (interfaces) Oxygen : logiciel de production de

corpus numérique en TEI

Page 35: TEI & Humanités digitales

Outils (interfaces)

Adapter un shéma de

baseAdapter un schéma

exhaustif

Modifier une adaptation existante

Utiliser une adaptation existante

Adapter à partir d’un schéma spécifique

http://www.tei-c.org/Roma/

Page 36: TEI & Humanités digitales

Outils (interfaces)

Page 37: TEI & Humanités digitales

Outils (interfaces)

Page 38: TEI & Humanités digitales

Outils (interfaces) OxGarage : pour convertir des

formats de documents numériques de et vers la TEI ;

http://www.tei-c.org/oxgarage/

Page 39: TEI & Humanités digitales

Outils (interfaces) Image Markup Tool (balisage graphique

TEI)

Page 40: TEI & Humanités digitales

Outils (interfaces) Xaira (moteur de recherche xml)

Explorer le langage d'un corpus : chercher des mots, des motifs, des phrases ou des

balises XML analyser la façon dont ils sont utilisés.

Page 41: TEI & Humanités digitales

Outils (interfaces) OMEKA (Aggrégateur/CMS)

Page 42: TEI & Humanités digitales

PRODUCTION : Structuration/encodage d’un poème (TEIVerse) Identifier dans un

poème La mesure des vers Les différents types de

vers Les groupes de verts

(couplets, tercets, quatrains) La strophe La forme de la strophe La rime L’enjambement Le rejet et le contre-rejet ...

Le choix de granularité peut varier entre grands segments et éléments plus petits

Page 43: TEI & Humanités digitales

PRODUCTION : Structuration/encodage d’un poème (TEIVerse)<text>

<body> <head>Heureux qui, comme Ulysse, a fait un beau voyage </head><lg><l>Heureux qui, comme Ulysse, a fait un beau voyage </l><l> Ou comme cestuy-là qui conquit la toison </l><l> Et puis est retourné, plein d'usage et raison </l><l> Vivre entre ses parents le reste de son âge ! </l></lg><lg><l> Quand reverrai-je, hélas, de mon petit village </l><l> Fumer la cheminée, et en quelle saison </l><l> Reverrai-je le clos de ma pauvre maison </l><l> Qui m'est une province, et beaucoup davantage ?</lg><lg><l> Plus me plaît le séjour qu'ont bâti mes aïeux </l><l> Que des palais Romains le front audacieux </l><l> Plus que le marbre dur me plaît l'ardoise fine : </l></lg><lg><l> Plus mon Loir gaulois, que le Tibre latin </l><l> Plus mon petit Liré, que le mont Palatin </l><l> Et plus que l'air marin la douceur angevine </l></lg> </body></text>

<teiHeader> <fileDesc> <titleStmt> <Title>Heureux qui comme Ulysse</title> <respStmt> <resp>Auteur</resp> <Name>Joacquim Du Belay</name> </respStmt> </titleStmt> <sourceDesc> <Bibl>Recueil Les regrets </bibl> </sourceDesc> </fileDesc></teiHeader><text>…

Page 44: TEI & Humanités digitales

PRODUCTION : Structuration/encodage d’une pièce de théâtre (TEIDrama) Identifier dans une pièce de théâtre :

L’interprétation et la mise en scène La parole sur scène Les didascalies Les types d’exposition Le dénouement Le prologue …

Interventions et indications scéniques<sp who=“P”>

<speaker>Paul</speaker>

<p>Il fait chaud aujourd’hui…</p>

</sp>

<stage>Paul allume une cigarette</stage>

Page 45: TEI & Humanités digitales

<surface> : une page, une stèle, tout objet avec une inscription

La surface contient des zones et des lignes

Elle a des coordonnées

<zone>: Une aire de la superficie définie de façon arbitraire à des fins éditoriaux. Les zones peuvent se superposer : la superposition est définie selon des coordonnées spatiaux

Peut contenir des <line> Dispose de coordonnées

<line> : une suite de texte identifiée de façon claire par l’éditeur

Peu contenir du texte et des <zone>

Ne dispose pas de coordonnées

PRODUCTION : Structuration/encodage d’un manuscrit (TEIManuscript)

Page 46: TEI & Humanités digitales

PRODUCTION : Structuration/encodage d’un manuscrit (TEIManuscript)

Page 47: TEI & Humanités digitales

PRODUCTION : Structuration/encodage d’un manuscrit (TEIManuscript)

<sourceDoc> <surface ulx="0" uly="0" lrx="200" lry="300"> <zone ulx="10" uly="43" lrx="185" lry="84" rotate="0”><zone>

<line rend="right"> 1 April 2009</line> </zone><line>Fed Birds in the park today.</line><line>Might write an articleabout</line> <line>the Thick-billed Warbler.</line> </zone> <zone ulx="9" uly="20" lrx="70" lry="60" rotate="90”><line>Samaria is a Greek</line><line>brand of water that</line><line>comes from the natural</line> <line>springs of Stilos, in</line><line>Crete</line></zone></surface> </sourceDoc>

 <surface    ulx="0"    uly="0"    lrx="700"    lry="1000">

<!-- ... --> </surface>

   <zone    ulx="93"     uly="681"     lrx="967"     lry="1568">   <graphic url=« gb.jpg"/>  </zone>

Page 48: TEI & Humanités digitales

PRODUCTION : Structuration/encodage d’un manuscrit (TEIManuscript)

<surface xml:id=“s1” ulx="0" uly="0" lrx="50" lry="50"> <zone xml:id=“s1-z1” ulx="1" uly="1" lrx="10" lry="10"> <line>Poem</line> <!-- ... --> <line>the head</line> </zone> <zone xml:id=“s1-z2” ulx="4" uly="4" lrx="20" lry="20"> <surface xml:id=“s2” ulx="0" uly="0" lrx="100" lry="100"> <zone xml:id=“s2-z1” ulx="10" uly="10" lrx="90" lry="95"> Spring has just set in here, and the weather […] a steamer </zone> </surface> </zone></surface>

s1 s1-z1

s1-z2s2

s2-z1

Page 49: TEI & Humanités digitales

PRODUCTION : Structuration/encodage d’un graphique (Graph) Image Markup Tool

Page 50: TEI & Humanités digitales

PRODUCTION : Structuration/encodage d’un graphique (Graph)

    <teiHeader>        <fileDesc>            <titleStmt>                <title>The Image Markup Logo</title>            </titleStmt>            <publicationStmt>                <p></p>            </publicationStmt>            <sourceDesc>                <p>377 x 259</p>            </sourceDesc>        </fileDesc>        <encodingDesc>        </encodingDesc>    </teiHeader>

Page 51: TEI & Humanités digitales

PRODUCTION : Structuration/encodage d’un graphique (Graph) Image Markup Tool

Page 52: TEI & Humanités digitales

PRODUCTION : Codification/encodage d’une partition musicale (MEI)

© The Music Encoding Initiative. http://music-encoding.org/

Page 53: TEI & Humanités digitales

PRODUCTION : Codification/encodage d’une partition musicale (MEI)

© The Music Encoding Initiative. http://music-encoding.org/

Page 54: TEI & Humanités digitales

PRODUCTION : Codification/encodage d’une chanson (paroles) <TeiHeader> [TEI]

Page 55: TEI & Humanités digitales

PRODUTION : Codification/encodage d’une chanson (paroles) <text><body>

تحت الياسمينة في الليلنسمة والورد محاذينياألغصان عليا تــــميلتمسحلي في دمعة عيني

تحت الياسمينة اتكيتعدلت الـــعود وغنيتوتناطر دمعي وبكيتتفكرتك كيف كنت تجيني

جنينة مزينها النوارفاحت من ريحت األزهارتفكرتك شعــــلت النارعملت لهليبة في قليبي

متوحش وحدي محتارال قمرة و ال حس أطياركان النسمة ع األشجارتوانس فيا وتواسيني

Page 56: TEI & Humanités digitales

PRODUCTION : Codification/encodage d’une chanson (notes musicales) [MEI]

Page 57: TEI & Humanités digitales

PRODUCTION : Structuration/encodage d’un fichier son (TEISpeech) Un énoncé se définit comme une

« séquence attribuée à un locuteur à un instant » : flux temporel « Timeline »

Les énoncés sont regroupés dans des balises <div> (division)

Les segments de discours composant l’énoncé sont balisés par <s> ou <seg>

Opérer, au moyen de balises et d’attributs, une description très fine des différents phénomènes de communication oraux et non-oraux qui font partie du discours : pauses, chevauchements de paroles,

changements d’intonation, de voix ou de langue, expressions vocalisées (tousser, rire, se moucher, grogner…), gestes, etc.

Page 58: TEI & Humanités digitales

PRODUCTION : Structuration/encodage d’un apparat critiqueTitre du

document : [Epître de Yahya ibn al-Munajjm sur la musique] رسالة يحيى بن المنجم

Nature : Fichier Word (converti en TEI P5 XML par Oxgarage)Langue : ArabeGenre littéraire :

Catalogue de manuscrit de musique

Réalisation : Anas GHRABSchéma TEI : AllExtrait du bloc <TEIHeader> :

<teiHeader> <fileDesc xml:idx="001"> <titleStmt> <title type="full"> <title type="main">رسالة يحيى بن المنجم</title> <title type="sub">Titre translitéré</title> <title type="alt">Epître de Yahya ibn al-Munajjm sur la musique</title> </title> <author> <persName> <forename>يحيى</forename> <genName>بن يحيى</genName> <surname>بن المنجم</surname> <addName></addName> </persName> <date>... <placeName> <settlement type="city">...</settlement> <country>...</country> </placeName> </date> <date>... <placeName> <settlement type="city">...</settlement> <country>...</country> </placeName> </date> </author> <respStmt> <resp>تحقيق</resp> <persName>أنس غراب</persName> </respStmt> </titleStmt> <publicationStmt>

Extrait du bloc <Text>

<text> <front> <div type="abstract"> <head>وصف محتوى الكتاب</head> </div> <div type="contents"> <head>فهرس الكتاب</head> </div> </front> <body><p xml:idx="001">حيم حمان الر ه الر بسم الل</p><p xml:idx="002">رسالة يحيى بن علي بن يحيى المنجم مولى أمير المؤمنين المعتضد بالله في الموسيقى</p><p xml:idx="003">

ي، وما يجب أن يكون عليه، ووصفنا ما فيه نهاية من ذلك، ونصف اآلن نقول قد ذكرنا في كتابنا الذي قبل هذا صفة المغنن ما غم وعددها، وما يأتلف منها ويختلف، ومواقع اصبع اصبع من وتر وتر، وموضع كل نغمة من كل دستان، ونبي أمر النتي رسم بعضها بمجرى الوسطى، وبعضها بمجرى البنصر، سماه إسحاق بن ابراهيم الموصلي « المجرى » في األصوات ال واختالف ما بين أصحاب الغناء العربي مثل إسحاق ونظرائه ممن <app><lem>جمع</lem><rdg wit="#Ram">جميع</rdg></app> غم إذ كان إسحاق ونظراؤه يزعمون أن العلم بالصناعة والعمل، وبين أصحاب الموسيقى من الفالسفة القدماء في عدد النها ثماني عشرة غم عشر وكان أصحاب الموسيقى يزعمون أن ،الن <app><lem>.وبعدها شرح لما يجمع األلحان واألنغام</lem><rdg wit="#Ram">وبعده شرح ما يجمع االلحار واالفهام</rdg><rdg wit="#BM">ونقدمه شرح بما يجتمع االلحار واالفهام</rdg><rdg wit="#Zak">ونقدم شرح ما يجتمع األلحان واألنغام</rdg></app>

Rendu visuelComplexité de l’exemple

- Traitement des apparats critiques du texte

Page 59: TEI & Humanités digitales

PRODUCTION : structuration/encodage d’une fable bilingue

Page 60: TEI & Humanités digitales

Organisation (Saisie / Référencement /Indexation / Recherche)

Objet Collection

Typologie Meta Doc Expositi

onBatc

h TEI

Recherche

http://www.hudima.org/admin/

Page 61: TEI & Humanités digitales

Organisation (saisie) OMEKA : agrégateur de

corpus/collection/document

Page 62: TEI & Humanités digitales

Organisation (référencement) OMEKA : référencement par

métadonnées (Dublin Core)

Page 63: TEI & Humanités digitales

Organisation (indexation) OMEKA : Moissonnage

par protocole OAI-PMH

Page 64: TEI & Humanités digitales

Organisation (recherche) OMEKA : environnement

d’archivage et de recherche

Page 65: TEI & Humanités digitales

Organisation (recherche) Recherche multicritère

Page 66: TEI & Humanités digitales

Perspectives Projet MEI & TEI-Euromed (1) Techno-linguistique et les questions technico-

scripturaire en rapport avec la musique arabo-berbère: TEI a été adapté pour être appliqué aux ressources linguistiques d'Europe occidentale. Le latin, le grec et cyrillique posent donc pas de problèmes

techniques et il existe des communautés importantes, y compris TEI, opérant dans plus de l'anglais, allemand, français, italien et espagnol.

Grâce aux efforts d'adaptation importants, il existe aujourd'hui des communautés TEI en japonais, coréen et chinois.

Cependant, il ya peu ou pas de travail en arabe et encore moins dans les langues berbères

La communauté rassemblée autour de notre projet a déjà mobilisé pour entreprendre non seulement pour constituer des corpus important dans ces langues, mais aussi entrepris l'emplacement de TEI en arabe.

Page 67: TEI & Humanités digitales

Perspectives Projet MEI & TEI-Euromed Notons qu'il y a une traduction française de la

« TEI Light », mais la traduction en français de la version complète de la « TEI P5 Guidelines » (1500 pages en comptant les annexes dont environ 600 pages sont traduites à ce jour). Une version arabe est aussi une action liée à ce projet, Un nouveau sujet linguistique est actuellement traité par

TEI: l'arabe est la première écriture de droite à gauche traitée par la TEI,

Cette question semble triviale, mais pose quelques problèmes d'adaptation de centaines de balises qui composent la TEI. Les mêmes questions peuvent se poser dans les MEI pour la notation musicale orientale.

Page 68: TEI & Humanités digitales

Perspectives Projet MEI & TEI-Euromed (2) les problèmes d'analyse scientifique pour la musique

et la poésie arabe et berbère : L'essence de la TEI, ainsi que la MEI, est qu'au-delà des tâches de balisage de documents (en-tête et apparat critique) et le balisage structurel (la structure explicite de corpus poétique et/ou musical dans les collections, poèmes, strophes, vers, hémistiches, pieds ou des signes de ponctuation, etc ... ou des morceaux de musique, des partitions, des refrains, des mesures, des notes et des pauses ...) des problèmes innovants commencent réellement avec la mise en place d'un balisage pour encoder les aspects sémantiques de l'analyse scientifique et critique, Dans la poésie et la musique occidentale, des niveaux de

référencement et de structuration explicites sont relativement bien connus,

Il y a des corpus substantiel qui ont déjà pris en compte et adaptées à leurs problèmes des modes spécifiques de balisage pour toutes les formes de métrique occidentale (idem pour la musique),

Beaucoup d’apparats critiques ont déjà atteint une taille importante entre les différents chercheurs utilisant la TEI et / ou MEI.

Page 69: TEI & Humanités digitales

Le Quo vadis du projet ! Journées d’évaluation du projet à l’ISCC (25-26 avril 2013) Pistes prévues

Inscrire le projet auprès du consortium TEI (participation de Lou Burnard aux journées)

Internationalisation des référentiels : traduction des (bouts des) Guidelines en

Arabe Berbère

Monter des partenariats de bibliothèques numériques et préservation du patrimoine au Maghreb et en Afrique

Dynamique de recherche chez les partenaires Sud

Page 70: TEI & Humanités digitales

Perspectives Projet MEI & TEI-Euromed Cependant, dans la musique et la poésie arabo-berbère,

nous démarrons sur une « table rase ». Il reste à identifier les structures métriques arabes, les aspects

distincts de la notation musicale, mais dans l'ensemble pour renommer toutes les balises pour coïncider avec la correspondance métrique, musicale ou terminologie musicologique,

Le problèmes des humanités numériques (TEI et MEI) euro-méditerranéennes est qu‘elles sont encore inexplorés,

Cela semble être une excellente occasion qui doit nécessairement permettre de produire des centaines de balises spécifiques et une terminologie multilingue pour ces zones critiques,

Ces développements (par construction) doivent être soumis à un contrôle collégial par les consortiums MEI&TEI.

De ce point de vue, étant partenaire direct avec Roland Perry et Lou Burnard, les deux fondateurs et les membres de leurs comités scientifiques et techniques respectifs, c’est une force scientifique majeur pour nous.