les éléments d'indexation dans la dtd-ead

40
Les éléments d'indexation dans la DTD-EAD (le standard d’encodage pour les descriptions archivistiques)

Upload: danis-habib

Post on 14-Jul-2015

162 views

Category:

Education


1 download

TRANSCRIPT

Les éléments d'indexation dans la

DTD-EAD (le standard d’encodage pour

les descriptions archivistiques)

Qu’est-ce que l’EAD ? • EAD: Encoded Archival Description• En français, Description Archivistique

Encodée• Pour créer, publier, conserver, diffuser

sur internet, des instruments de recherche (inventaires, catalogues…) en version électronique

Normes : objectifs

• Rédaction de descriptions pertinentes, explicites et compatibles

• Recherche et échange d’informations• Partage d’autorités communes• Intégration de fonds conservés dans

différents établissements

La description archivistique• repose sur le respect des fonds et la

structuration en fonction de la logique de production (à chaque niveau de classement correspond un niveau de description)

• peut avoir un grand nombre de niveaux (sans redondance des informations d’un niveau à l’autre)

• se fait du général au particulier en situant l’unité décrite dans sa hiérarchie

A cela s’ajoute la nécessité :• de pérennisation des instruments de

recherche électroniques qui maintiennent l’accès aux données (migration des données, traçabilité des mises à jour les plus importantes)

• de création partagée des descriptions• d’aide plus efficace au public

Les outils électroniques traditionnels pour les archives

• Traitement de texte Word ou assimilés, souvent sans feuille de style (pas de possibilité d’échange, de pérennisation, pas de traitement des données, pas de création partagée)

• PDF (forme figée, pas de traitement des données, pas de création partagée)

• Bases de données dont relationnelles (difficile d’appliquer les principes de contextualisation et de description à plusieurs niveaux d’ISAD(G), lourdes programmations et maintenances)

Nouvel environnement

• Contexte de développement de l’Internet, du Web sémantique, des réseaux, etc.

• Volonté de publier en ligne, rendre accessibles, partager les instruments de recherche

• Nécessité d'indexer les termes pour les portails, nécessité de faire le lien avec les documents originaux numérisés, etc.

EAD : historique• Créée en 1995, par un groupe de travail

indépendant puis rattaché à la SAA (Société des Archivistes Américains)

• 1998: 1re version officielle : EAD 1.0• 2002 : première mise à jour : EAD 2002

(prend mieux en compte ISAD(G))• 2014 ? : EAD 3 ? (prendra mieux en compte les

schémas)

XML(Extensible Markup Language)

• Langage de balisage étendu• Langage développé par le W3C destiné à

succéder au HTML sur le Web• Comme HTML, c’est un langage de balisage

(markup)=langage qui présente l’information encadrée par des balises

D’un texte classiqueà un texte encodé

Situées à Paris dans le Marais, les Archives nationales conservent et communiquent les archives de la France depuis les Mérovingiens jusqu'en 1958.

Extrait de la page de présentation du site des Archives nationales - site de Paris

Identifier et distinguerles données essentielles

Situées à Paris dans le Marais, les Archives nationales conservent et communiquent les archives de la France depuis les Mérovingiens jusqu'en 1958.

Le code HTML

Situées à <font color="#FF0000">Paris</font> dans le <font color="#FF0000">Marais</font>, les <font color="#990000">Archives nationales</font> conservent et communiquent les archives de la France <font color="#99CC00">depuis les Mérovingiens jusqu'en 1958</font>

Le langage HTML (hypertext markup language) se caractérise par l’utilisation de balises ou éléments qui définissent la mise en forme du document

Les éléments

Situées à <ville>Paris</ville> dans le <quartier>Marais</quartier>,les <organisme> Archives nationales</organisme> conservent et communiquent les archives de la France <dates_extremes> depuis les Mérovingiens jusqu'en 1958</dates_extremes>

Dans le langage XML, les éléments ne définissent plus la mise en forme mais un contenu sémantique

Les éléments englobants

Situées à <adresse><ville>Paris</ville> dans le <quartier>Marais</quartier></adresse>, le <organisme>Archives nationales</organisme> <mission><objet>conservent et communiquent les archives de la France</objet> <dates_extremes> depuis les Mérovingiens jusqu'en 1958 </dates_extremes></mission>

Les éléments peuvent contenir d’autres éléments. Il est ainsi possible de regrouper des informations de même nature

Du texte aux données<adresse>

<ville>Paris</ville> <quartier>Marais</quartier>

</adresse><organisme>les Archives nationales</organisme> <mission>

<objet>conservent et communiquent les archives de la France </objet>

<dates_extremes> depuis les Mérovingiens jusqu ’en 1958</dates_extremes> </mission>

Les attributs

<adresse><ville>Paris</ville> <quartier>Marais</quartier>

</adresse><organisme>les Archives nationales</organisme> <mission>

<objet>conservent et communiquent les archives de la France </objet>

<dates_extremes siecle="7e/20e"> depuis les Mérovingiens jusqu ’en 1958</dates_extremes> </mission>

Ils précisent la valeur de l’élément

Un document bien formé<?xml version="1.0" encoding="utf-8"?><institution>

<adresse>

<ville>Paris</ville>

<quartier>Marais</quartier>

</adresse>

<organisme>les Archives nationales</organisme>

<mission>

<objet>conservent et communiquent les archives de la France </objet>

<dates_extremes siecle="7e/20e"> depuis les Mérovingiens jusqu ’en 1958</dates_extremes>

</mission>

</institution>

Synthèse• L’auteur peut créer ses propres balises• Il inclut à l’intérieur d’une balise de

l’information textuelle• Chaque balise caractérise l’information• On ne tient pas compte de la mise en

forme mais du contenu

Mise en forme• Contrairement à HTML, XML ne prend

pas en compte la présentation graphique du document mais seulement la structure

• Cela nécessite des outils : feuilles de style (CSS) ou programmes de transformation (XSL-T)

L’intérêt du XMLLa mise en commun de données

• Le XML n’est lié ni à une plate-forme, ni à un système d’exploitation, ni à une famille de logiciels.

• En théorie il faciliterait l’échange des données…

• Mais comment échanger des données si la création des balises est libre ?

La solution : les DTDDTD : Document Type Definitionou Définition de Type de Document

Exemples :- Docbook (documentation technique ; http://www.docbook.org/), - Text Encoding Initiative (http://www.tei-c.org/ ; ouvrages littéraires, sciences humaines, sciences sociales), - DTD Biblio-ML développée pour les catalogues bibliographiques (http://90plan.ovh.net/~adnx/biblioml/doku.php?id=fr:introduction)- DTD des dossiers de l’inventaire développée pour la Direction de l’Architecture et du Patrimoine- MathML (http://www.w3.org/Math/ ; formules mathématiques)

La DTD des archivistes est laDTD EAD ou EAD

Objectifs d’une DTD• Définir les éléments permis dans les

documents• Définir la hiérarchie des éléments• Définir des attributs pouvant être

associés à des éléments• Définir quelles sont les valeurs

permises pour les attributs

Conclusion• La structure hiérarchisée d’un

document XML convient bien à la description des documents d’archives

• La DTD de la communauté des archivistes est l’EAD

• Elle est utilisée pour certains fonds dans les bibliothèques

Structure et balisesde l’EAD

Caractéristiques essentielles(1)• L’EAD est conçue pour être utilisée avec

des normes de description, en particulier ISAD(G)

• L’EAD facilite l’échange et la portabilité des instruments de recherche : il est possible d’utiliser le même document encodé pour des restitutions multiples

Caractéristiques essentielles(2)• Il est possible de choisir la finesse de

l’encodage en fonction des besoins et des moyens

• L’EAD comprend 146 éléments, dont un tout petit nombre obligatoires (en-tête EAD, description du fonds, niveaux hiérarchiques)

L’EAD : 146 éléments• Éléments génériques de texte et sa mise en

forme : 41• Éléments de métadonnées : 23• Éléments de structure : 18• Éléments d’information spécifiques : 36• Éléments points d’accès (d'indexation) : 12• Éléments de lien : 16 Seulement 8 éléments obligatoires pour avoir

un document valide du point de vue XML

Les attributs• Ils permettent de qualifier les éléments• Ils sont pour la plupart facultatifs• Deux attributs importants :

– LEVEL dans <archdesc> et <c> : il permet de définir le niveau de description

– NORMAL dans plusieurs éléments : il permet de saisir des formes normalisées pour l’indexation

Les trois éléments principauxd’un instrument de recherche EAD

Sous l’élément racine <ead> :

<eadheader>

<frontmatter>

<archdesc>

en-tête EAD (description bibliographique de l'IR) (obligatoire)

préliminaires (page de titre, introduction, préface…)

description archivistique (obligatoire)

Description archivistique <archdesc>

• Correspond à l’instrument de recherche lui-même

• Dans <archdesc>, on trouve les informations globales, concernant toute l'unité à décrire (fonds, groupe de documents, dossiers, etc.).

La description archivistiquecontenu de <archdesc>

• Des éléments d’identification• La présentation du contenu• Des éléments de contexte• Des éléments de gestion• Les sources complémentaires• Des éléments d’indexation• Des éléments de lien• Tous ces éléments sont classés

dans l’élément <archdesc>

<archdesc>

</archdesc>

Les éléments d’identification• Ces éléments permettent

d’identifier et de décrire le fonds aussi bien d’un point de vue intellectuel que matériel et se trouvent dans un élément <did> Description et identification

• Le fonds est identifié par sa cote (<unitid>), un intitulé (<unittitle>), ses dates extrêmes (<unitdate>)

<archdesc>

</archdesc>

<did><unitid/><unittitle/><unitdate/>

</did>

Les éléments d’identification

La description physique - nature, taille - se trouve dans l’élément <physdesc> qui peut être ou non structurés en d’autres éléments

<archdesc>

</archdesc>

<did><unitid/><unittitle/><unitdate/>

</did><physdesc/>

La présentation du contenu

Se fait dans l’élément <scopecontent> situé directement sous <archdesc>

<archdesc>

</archdesc>

<did><unitid/><unittitle/><unitdate/>

</did><physdesc/>

<scopecontent/>

Les éléments de contexteDirectement sous <archdesc>

nous saisirons les éléments concernant:

-l’histoire de la personne physique ou morale à l’origine du fonds <bioghist>,

-l’historique de la conservation <custodhist>

-les modalités d’acquisition <acqinfo>

<archdesc>

</archdesc>

<did><unitid/><unittitle/><unitdate/>

</did><physdesc/>

<custodhist/><bioghist/>

<scopecontent>

<acqinfo/>

Les éléments de gestion

• Les restrictions d’accès <accessrestrict> ou d’utilisation <userestrict>

• Ils sont situés directement sous <archdesc>

<archdesc>

</archdesc>

<did><unitid/><unittitle/><unitdate/>

</did><physdesc/>

<custodhist/><bioghist/><scopecontent/>

<accessrestrict/><userestrict/>

<acqinfo/>

Les sources complémentaires• Ces éléments permettent de

signaler l’existence de documents apportant des informations complémentaires

• Il peut s’agir de documents classés dans d’autres fonds <relatedmaterial>

• Ou de documents qui ont fait partie de ce fonds mais qui pour une raison quelconque en on été séparés <separatedmaterial>

<archdesc>

</archdesc>

<did><unitid/><unittitle/><unitdate/>

</did><physdesc/>

<custodhist/><bioghist/><scopecontent/>

<acqinfo/><accessrestrict/><userestrict/><relatedmaterial/><separatedmaterial/>

Les éléments d’indexation (1)Permettent d’indexer

- les collectivités <corpname>- les fonctions <occupation>- les noms géographiques <geogname>- les noms de personnes <persname>- les mot-matières <subject>

<archdesc>

</archdesc>

<did><unitid/><unittitle/><unitdate/>

</did><physdesc/>

<custodhist/><bioghist/>

<scopecontent/>

<acqinfo/><accessrestrict/><userestrict/><relatedmaterial/><separatedmaterial/>

Les éléments d’indexation (2)

Les éléments d’indexation peuvent être englobés dans un élément <controlaccess>…

…ou dans le corps du texte

<archdesc>

</archdesc>

<did><unitid/><unittitle/><unitdate/>

</did><physdesc/>

<custodhist/><bioghist/><scopecontent/>

<acqinfo/><accessrestrict/><userestrict/>

<relatedmaterial/><separatedmaterial/><controlaccess>

<subject/><persname/>

</controlaccess>

L’EAD et ISAD(G)• Développée ultérieurement, au départ sans

lien avec le groupe d’experts du CIA puis en collaboration avec lui, l’EAD est totalement compatible avec ISAD(G)

• L’EAD est fondée sur le même principe de description par niveaux

• A chaque élément défini dans ISAD(G) correspond un élément (ou un attribut) dans l’EAD