xml, dtd et tei pour un dictionnaire étymologique des créoles

38
XML, DTD et TEI pour un dictionnaire étymologique des créoles 12 Octobre 2007 Hélène Manuélian et Emmanuel Schang Universités de Cergy Pontoise et Orléans

Upload: baird

Post on 18-Jan-2016

30 views

Category:

Documents


5 download

DESCRIPTION

XML, DTD et TEI pour un dictionnaire étymologique des créoles. 12 Octobre 2007 Hélène Manuélian et Emmanuel Schang Universités de Cergy Pontoise et Orléans. Ressources textuelles. Données hétérogènes (en-t êtes, caractères spéciaux, illustrations, sens de l’écriture, etc.) - PowerPoint PPT Presentation

TRANSCRIPT

Page 1: XML, DTD et TEI pour un dictionnaire étymologique des créoles

XML, DTD et TEI pour un dictionnaire étymologique des

créoles

12 Octobre 2007

Hélène Manuélian et Emmanuel Schang

Universités de Cergy Pontoise et Orléans

Page 2: XML, DTD et TEI pour un dictionnaire étymologique des créoles

Ressources textuelles

Données hétérogènes (en-têtes, caractères spéciaux, illustrations, sens de l’écriture, etc.)

Informatisation≠lecture possible sur un écran La solution : coder les données

Un problème : moyens pour le codage informatique souvent incompatibles entre eux et dédiés à une catégorie de texte

Une solution : NORMALISER !

Page 3: XML, DTD et TEI pour un dictionnaire étymologique des créoles

Quels éléments coder ?

Niveau physique : codage des caractères. Niveau logique :

– sémantique du codage – organisation de l'information – description explicite de cette information.

Niveau de présentation : indépendant du support de sortie (CD-Rom, Page Web, etc…) .

Page 4: XML, DTD et TEI pour un dictionnaire étymologique des créoles

Normalisation

Ressources portables : – Echanges possibles quels que soient les moyens

informatiques de l’utilisateur

– Archivage garanti, malgré l’évolution des technologies

– Visibilité nationale et internationale La référence : une instance internationale

– Comité de l’ISO (International Standard Office)

– Normes éditées par le TC 37 / SC 4 (Sous comité pour la standardisation des ressources textuelles)

Page 5: XML, DTD et TEI pour un dictionnaire étymologique des créoles

Au commencement…

SGML (Standard Generalized Markup Language)

Les données au format SGML ont un format d’arbre hiérarchique (comme en syntaxe !)

Représente les données textuelles avec des éléments de contenus encapsulés les uns avec les autres : balises

Page 6: XML, DTD et TEI pour un dictionnaire étymologique des créoles

Exemple<entry>

<form><orth>porte</orth><pron>poRt </pron>

</form><gramGrp>

<pos>n</pos>

</gramGrp><sense n="1">

<def>Ouverture pratiquée dans un des plans verticaux qui limitent un espace clos(…) </def>

</sense><sense n="2">

<def> Panneau mobile permettant d'obturer cette ouverture</def>

</sense></entry>

Entry

Form GramGrp Sense1Sense2

Orth pron pos def def

Page 7: XML, DTD et TEI pour un dictionnaire étymologique des créoles

XML est …

Un protocole de stockage et de gestion de l’information

Une famille de technologies qui permettent d’effectuer le formatage de documents et l’extraction de données

Une philosophie de gestion de l’information qui recherche un maximum d’utilité et de souplesse en organisant les données sous la forme la plus pure et la plus structurée

Page 8: XML, DTD et TEI pour un dictionnaire étymologique des créoles

XML n’est pas…

A proprement parler un langage de balisage En fait, c’est un ensemble de règles qui

permettent le balisage

Page 9: XML, DTD et TEI pour un dictionnaire étymologique des créoles

Les balises servent à… Délimiter un fragment de texte<paragraph> blablabla </paragraph>

Indiquer le rôle d’un fragment de texte<salutation> bonjour ! </salutation>

Indiquer la position d’un élément dans un texte<title> TITRE </title> <paragraph> BLABLA

</paragraph>

Imbriquer des éléments les uns dans les autres<chapter> <paragraph> blabla-truc </paragraph> <paragraph>

blabla-bidule </paragraph> <paragraph> blabla-machin </paragraph> </chapter>

Faire des liens entre les fichiers<graphique fileref = "sourire.pict"/>

Page 10: XML, DTD et TEI pour un dictionnaire étymologique des créoles

Composition d’une balise

<link type="coref” subtype="infidèle" lex-rel="hyper" />

Autres valeurs possibles pour l’attribut type :

"anaphor" "bridging"

Autres valeurs possibles pour l’attribut subtype si type = "coref" : "direct"

Autres valeurs possibles pour l’attribut lex-rel :

”hypo" ”syn"

Attributs "Valeurs"

Page 11: XML, DTD et TEI pour un dictionnaire étymologique des créoles

Modèle de document

XML fournit ce qu’on appelle un modèle de document – Ce sont des règles propres à un type de document

– Qui permettent de comparer le document produit à un document du même type et de dire s’il est conforme aux règles. On parle de validation.

– Il en existe deux sortes : DTD (Document Type Definition) et Schéma XML. Je ne présente que les DTD ici.

Page 12: XML, DTD et TEI pour un dictionnaire étymologique des créoles

DTD Ensemble de règles qui indiquent quelles balises le

document peut utiliser en fonction de sa nature. Elle fournit une description formelle de l’organisation

de l’information au sein du document. Elle fournit la liste des attributs possibles pour

une balise et les valeurs possibles de ces attributs On fait référence à la DTD utilisée au début du

document pour que XML puisse valider le document

Page 13: XML, DTD et TEI pour un dictionnaire étymologique des créoles

La TEI

Text Encoding Initiative Résultat d’un consensus entre diverses

associations internationales spécialisées dans l’alliance entre linguistique et informatique

Propose des directives d’encodage des ressources textuelles (normes de codage et représentation uniforme des données)

Page 14: XML, DTD et TEI pour un dictionnaire étymologique des créoles

La TEI

A la fois rigoureuse et flexible : l’utilisateur élabore son propre schéma de codage à partir d’un ensemble d’éléments et d’attributs

Structure de base commune : tous les documents sont divisés en deux parties : l’entête et le texte.

<teiHeader> informations générales sur le texte </teiHeader>

<text> texte constituant la ressource textuelle </text>

Page 15: XML, DTD et TEI pour un dictionnaire étymologique des créoles

L’entête TEI Mise au point par des experts en documentation Contient la description complète du document en

quatre parties<fileDesc> description du fichier </fileDesc>

<encodingDesc> description du codage </encodingDesc>

<profileDesc> profil textuel du document (classification du texte, thème, etc.) </profileDesc>

<revisionDesc> historique des changements </revisionDesc>

Page 16: XML, DTD et TEI pour un dictionnaire étymologique des créoles

Texte TEIExemple pour un roman

<text>

<front> <body> <back>

<div> <div> <div> <div>

Exemple pour un ensemble d’articles :

<text>

<front> <group> <back>

<text> <text> <text>

<front> <body> <back>

<div> <div> <div> <div>

Page 17: XML, DTD et TEI pour un dictionnaire étymologique des créoles

Une norme en cours d’élaboration : LMF

Lexical Markup Framework Deux perspectives:

– La modélisation des dictionnaires – La construction de bases de données lexicales

pour le TAL Projet de spécification de structure de bases

de données lexicales et lexicographiques qui unifie ces deux modèles

Page 18: XML, DTD et TEI pour un dictionnaire étymologique des créoles

Structure de LMF

Info. globales

Base de Données Lexicales

1..1

1..1

Entrée lexicale

0..n

1..1

1..1

Forme

1..1

Sens

0..n

1..1

0..n

1..1

ExtensionLexicaleExtension Lexicale

Extension Lexicale

Page 19: XML, DTD et TEI pour un dictionnaire étymologique des créoles

Perspectives pour le dictionnaire des créoles

Utiliser la norme « Print Dictionaries » de la TEI.

Utiliser, voire contribuer à l’élaboration de la norme : la structure d’un dictionnaire des créoles pourrait montrer qu’une souplesse reste nécessaire

Propositions au TC37/SC4

Page 20: XML, DTD et TEI pour un dictionnaire étymologique des créoles

Problème

Structure des dictionnaires étymologiques du créoles peut-être problématique, parce que différente de la structure des dictionnaires étymologiques classiques, et des dictionnaires bi/multilingues

Page 21: XML, DTD et TEI pour un dictionnaire étymologique des créoles

Deux exemples

Page 22: XML, DTD et TEI pour un dictionnaire étymologique des créoles

Exemples standards<entry>

<form><orth>publish</orth>

...</form><etym>

<lang>ME.</lang><mentioned>publisshen</mentioned><lang>F.</lang><mentioned>publier</mentioned><lang>L.</lang><mentioned>publicare,

publicatum</mentioned>. <xr>See

<ref>public</ref>; cf. 2d <ref>-ish</ref>.

</xr></etym>

</entry> (From: Webster's Second

International)

<entry><form>

<orth>dresser</orth>

</form><sense n="a"><usg type="dom">Theat</usg><cit type="translation" xml:lang="fr">

<quote>habilleur</quote><gen>m</gen>

</cit></sense ><sense n=  "b" >

<usg type="dom">Comm</usg><form type="compound">

<orth> window <oRef/></orth>

</form><cit type="translation" xml:lang="fr"><quote>étalagiste</quote><gen>mf</gen></cit>

</sense>

<!-- ... --> ハ</entry>

Page 23: XML, DTD et TEI pour un dictionnaire étymologique des créoles

Exemple (C. Fontes)

Dictionnaire étymologique du forro Particularité : à la fois dictionnaire trilingue

et dictionnaire étymologique Structure complexe : forro / Traduction(s)

portugaise(s) / traduction(s) anglaise(s) / Etymologie : propriété 1 + propriété 2 + …

Page 24: XML, DTD et TEI pour un dictionnaire étymologique des créoles

Exemple de problème à résoudre

Page 25: XML, DTD et TEI pour un dictionnaire étymologique des créoles

<entry><form>

<orth> blagadu </orth><pron> [blaˈgadu] </pron>

</form><gramGrp>

<pos>adj</pos></gramGrp><trans n=“1”>

P. desfeito; terminado; arregalado;</trans><trans n=“2”>

E. undone; ended; wide opened.</trans><etym>

<lang> P. </lang><mentioned> desbragado </mentioned><gloss>unchained </gloss>

+ aférese + lambdacismo ; <lang>P. </lang> <mentioned> embargado </mentioned><gloss> seized </gloss>+aférese + lambdacismo + metatese

</etym></entry>

Page 26: XML, DTD et TEI pour un dictionnaire étymologique des créoles

une application

prenons l’exemple du forro il existe :

– un dictionnaire étymologique : Rougé (2004)– un mémoire de master (Fontes 2007)– un dictionnaire fantôme (Aires Major xxxx)

des bouts de travaux ici et là (Ferraz 1979, Hagemeijer 2007, Schang 2000, …).

Page 27: XML, DTD et TEI pour un dictionnaire étymologique des créoles

deux approches différentes

1. codage TEI des textes existants (dans leur version électronique)

2. réalisation d’une base de données sous un format nouveau en incorporant des infos prises dans les dictionnaires existants. Il s’agit alors d’un nouveau travail.

Page 28: XML, DTD et TEI pour un dictionnaire étymologique des créoles

avantages et inconvénients

Solution 1 :– faible coût (+)– rien de neuf (-)

Solution 2 :– coût important selon l’ampleur du projet– véritable base multimédia (son/corpus, images,

etc.)

Page 29: XML, DTD et TEI pour un dictionnaire étymologique des créoles

un exemple simple

aba, bord d’un habitEn guinéen aba : « revers », « bas d'un vêtement » ; à Santiago aba :

«rebord d'un chapeau ou d'une jupe. » Pour le capverdien, Lang donne aussi ce nom comme synonyme de bandera « dessus de la porte ».

En forro aba : « volant d’une robe », « rebord d’un chapeau » ; baba de même sens en est vraisemblablement une variante. aba est aussi attesté en angolar avec le même sens, mais il nous semble, considérant les vêtements traditionnels des angolares, qu’il s’agit là d’un emprunt récent au forro.

(Rougé 2004)

Page 30: XML, DTD et TEI pour un dictionnaire étymologique des créoles

structure d’une entréeentry

form gloss etym

Dans ce qui est étiqueté ‘etym’, on va trouver des informations de nature étymologique sur diverses langues. On peut concevoir des sous-entrées pour chaque langue.Pour chaque langue évoquée, on trouve : une ou deux formes une ou deux gloses des informations variées (emprunt récent, synonymes, etc.)

Page 31: XML, DTD et TEI pour un dictionnaire étymologique des créoles

un exemple délicat

Rougé (2004:49)aguardar, attendreL’impératif pluriel du verbe aguardar, aguardai, a donné

l’interjection forro agwêdê ! « Attention ! » qui est utilisée en particulier dans Agwêdê ! Alê ! « Attention! Le roi ! », formule rituelle qui ouvre les devinettes traditionnelles. L’harmonisation vocalique régressive empêche que agwêdê puisse être interprété comme un dérivé de gwada, qui pourtant est de même racine.

Page 32: XML, DTD et TEI pour un dictionnaire étymologique des créoles

proposition de codage TEI

<entry> <form>aguardar</form>,

<gloss xml:lang="fr">attendre</gloss><etym>Limpératif pluriel du verbe aguardar, aguardai, a donné

l’interjection <lang>forro</lang> <form xml:lang="cri">agwêdê!</form> <gloss>Attention!</gloss> qui est utilisé en particulier dans

<mentioned>Agwêdê! Al!</mentioned> <gloss xml:lang="fr">Attention! Le roi!</gloss>,

<def>formule rituelle qui ouvre les devinettes traditionnelles.</def>

L’harmonisation vocalique régressive empêche que <mentioned>agwêdê</mentioned> puisse être interprêté comme un dérivé de <mentioned>gwada</mentioned>, qui pourtant est de même racine.</etym>

</entry>

Page 33: XML, DTD et TEI pour un dictionnaire étymologique des créoles

CreolData et LMF

un projet de base de données lexicales (Schang & alii 2005)

idée simple : réutiliser l’existant pour l’incorporer dans une base de données fonctionnant avec xml

à l’origine, utilisation de LMF et Afnor (Lexique pour le TAL)

Page 34: XML, DTD et TEI pour un dictionnaire étymologique des créoles

CreolData et LMF

Entrée Lexicaleidentifiant : ‘535’forme lemmatisée : ‘flêsê’sens : ‘s535 s536’ 

Forme 1chaîne : ‘flêsê’ 

Forme 2

chaîne : ‘ôflêsê’ 

Sens identifiant : "s535"comportement syntaxique : ‘syn535’ 

Définitiontexte : ‘donner quelque chose en

cadeau à quelqu'un’ Sens identifiant : "s536"comportement syntaxique : "syn536"

Définitiontexte : " présenter un enfant à

l'Eglise"

Page 35: XML, DTD et TEI pour un dictionnaire étymologique des créoles

CreolData et LMF

ce qui donne sous forme xml :<lexicalEntry id="535" pos="verb" lemmatizedForm="flêsê"

autonomy="yes" components="" senses="s535 s536"> <form id="f535a" string="flêsê"/><form id="f535b" string="ôflêsê"/></lexicalEntry>

pour le sens :<sense id="s535" syntacticBehaviors="syn535"

definitionBlocks="def535"> <definition id="def535" text="donner quelque chose en

cadeau à quelqu’un" lang="fr"/></sense><sense id="s536" syntacticBehaviors="syn536"

definitionBlocks="def535"> <definition id="def536" text="présenter un enfant à

l’Eglise" lang="fr"/> </sense>

Page 36: XML, DTD et TEI pour un dictionnaire étymologique des créoles

CreolData et LMF

un système adapté à la description syntaxique :<syntacticBehavior id="syn535" frameSet="fS535"/> <frameSet id="fS535" frames="fS535_f1 fS535_f2"/> <frame id="fS535_f1" comment="verbe doc"

slots="synSlot_1 synSlot_2 synSlot_3"/> <frame id="fS535_f2" comment="verbe à cos"

slots="synSlot_1 synSlot_3 synSlot_4"/> <slot id="synSlot_1" function="subject"

semanticActant="agent" syntacticActant="np"/> <slot id="synSlot_2" function="object"

semanticActant="benef" syntacticActant="np"/> <slot id="synSlot_3" function="object"

semanticActant="theme" syntacticActant="np"/> <slot id="synSlot_4" function="object"

semanticActant="benef" syntacticActant="da_np"/>

Page 37: XML, DTD et TEI pour un dictionnaire étymologique des créoles

CreolData et LMF

comportement syntaxique

id="syn535"

ensemble de cadresid="fS535"

cadre 1verbe double objet

slots : 1, 2, 3

cadre 2verbe à Compl. Obj.

Sec.slots : 1, 3, 4

slot 1

SN

slot 2

SN

slot 3

SN

slot 4

SP

Page 38: XML, DTD et TEI pour un dictionnaire étymologique des créoles

CreolData et LMF

avantages :– liens avec des fichiers sons et des images facilités par la

structure hiérarchisée.

– description syntaxique et morphologique poussée permettant le développement d’analyseurs morphologiques et de grammaires électroniques

inconvénients :– pas de place initialement prévue pour l’étymologie.

Travail à faire pour l’évolution de la norme