les enjeux éditoriaux et technologiques de la diffusion en ligne des sources historiques...
TRANSCRIPT
Les enjeux éditoriaux et technologiques de la diffusion en ligne des sources historiques
URFIST-Paris14 mars 2007
Gautier [email protected] nationale des chartes
14/03/2007 G. Poupeau 2
Plan du cours
Pourquoi diffuser ligne ?Tour d'horizon des projets en ligneParticularités du support électroniqueLes problèmes de la conservation du document numériquePrésentation théorique du modèle OAISDu producteur à l'utilisateur : les différentes étapes de la mise en ligne d'une source
14/03/2007 G. Poupeau 3
Les acteurs de l'édition scientifique (1)
Chaque acteur possède un marché spécifique et très peu de catalogues d'éditeurs rassemblent l'ensemble des types de publications
Acteurs privés Les PUF : monographies, revues, manuels Armand Collin : revues à fort tirage (Les Annales), Manuels
universitaires Gallimard : monographies (bibliothèque des idées) et vulgarisation
(collection découvertes) Le Seuil : manuels, synthèses, vulgarisation (revue l'Histoire) Brepols, spécialisé sur le Moyen Âge : manuels et éditions critiques Droz et champion, très spécialisés dans l'érudition : monographies et
éditions critiques Errance et Picard, spécialisées dans l'archéologie métropolitaine Klincksieck, de Boccard, spécialisés dans l'archéologie orientale
14/03/2007 G. Poupeau 4
Les acteurs de l'édition scientifique (2)
Acteurs publics Les presses universitaires : Monographies, revues, actes de
colloques, éditions critiques, instruments de références, par exemple• CNRS éditions (propose aussi des ouvrages de vulgarisation)• Presses de Paris Sorbonne (PUPS – Paris IV)• Les publications de la Sorbonne (PUS – Paris 1)• Presses universitaires de Rennes (PUR)• la Direction de l'architecture et du patrimoine au ministère de la
culture édite les Documents d'archéologie française Un cas particulier : le CTHS, comité des travaux historiques et
scientifiques. Institution rattachée administrativement à l'École des chartes chargée de la publication des sociétés savantes et de l'organisation du congrès annuel des sociétés savantes.
Post-scriptum : Un éditeur public n'est pas forcément le diffuseur de ses éditions...
14/03/2007 G. Poupeau 5
Les problèmes de l'édition scientifique
Augmentation du nombre de publications Augmentation du prix des périodiques Baisse du tirage (500 exemplaires en moyenne) Désintéressement du grand public pour des
publications scientifiques « pointues » Principaux voire uniques acheteurs : les
bibliothèques. Budgets consacrés à la publication de moins en
moins importants Les « colosses aux pieds d'argile » O. Guyotjeannin
14/03/2007 G. Poupeau 6
« Le paradoxe de la publication scientifique »
Concept développé par Jean-Michel Salaün et Ghislaine Chartron, mais mis en lumière par d'autres : Steven Harnard ou Robert Darnton
Affrontement de deux logiques : économie des biens et économies des idées
« Publish or perish » : Publier pour avancer dans la recherche, mais comment publier ??
Mise en place de critères d'évaluation souvent peu adaptés aux caractéristiques des SHS Le facteur d'impact La bibliométrie
14/03/2007 G. Poupeau 7
Avantages économiques ? logistiques ?
Une fausse idée : « l'édition électronique ne coûte rien » Le travail éditorial reste le même Coûts différents
Investissement en amont pour mettre au point plate-forme et applications
Pas de gestion des stocks, mais gestion des fichiers (serveurs, espaces disques, ingénieur systèmes)
Le coût d'une édition électronique n'est pas tenu de façon aussi stricte que le support papier à des contingences physiques
Un réel avantage financier ??
Avantage économique : possibilité d'un accès gratuit avec un financement en amont
14/03/2007 G. Poupeau 8
Les enjeux du libre accès
Enjeux économiques : résoudre le paradoxe de la publication scientifique
Enjeux politiques :Empêcher la confiscation des résultats de la recherche scientifique par des grands groupes commerciaux
Enjeux sociaux : Permettre au plus grand nombre l'accès aux résultats de la recherche, même dans les pays ne pouvant se payer les abonnements. Redistribution des recherches financées sur des fonds publics
14/03/2007 G. Poupeau 9
La souplesse éditoriale
Diffuser au fur et à mesure de la réalisation du projet Introduction de modifications avec un coût faible voire
nulProblème : Donner l'impression qu'une édition en ligne ne
constitue jamais un travail terminé Rendre légitime la publication électronique et la
publication « à étapes » Jouer sur la complémentarité entre le papier et
l'électronique Possibilité de multiplier les supports à partir de l'encodage
informatique de l'information
14/03/2007 G. Poupeau 10
Disponibilité et utilisabilité
Disponibilité des ouvrages Audience potentielle du Web Publication potentiellement plus rapide Des études ont montré que les recherches en libre
accès sont cités deux fois plus que les autres Traitement et exploitation de l'information Interopérabilité : présence dans les agrégateurs de
contenu (exemple : oaister ou in-extenso)
14/03/2007 G. Poupeau 11
Plan du cours
Pourquoi diffuser ligne ?Tour d'horizon des projets en ligneParticularités du support électroniqueLes problèmes de la conservation du document numériquePrésentation théorique du modèle OAISDu producteur à l'utilisateur : les différentes étapes de la mise en ligne d'une source
14/03/2007 G. Poupeau 12
Numérisation – édition électronique
Les mêmes matériaux, techniques, outils voire la même réflexion que l'édition électronique
Numériser, ce n'est pas éditer !! Éditer, ce n'est pas numériser !! Numérisation n'est pas de l'édition conçue comme la publication
d'une œuvre originale Numérisation = fac-similé numérique d'une œuvre existante Passage d'une information existante d'un support à un autre en
utilisant le support original Deux types de numérisation : mode texte/mode image Numérisation ne se limite pas à scanner un ouvrage !! Qu'est-ce-qu'une bibliothèque numérique ? Qu'est-ce-qu'une
collection d'ouvrages numériques ?
14/03/2007 G. Poupeau 13
Les archives ouvertes (1)
Les archives ouvertes sont des réservoirs d’articles scientifiques mis à disposition des internautes par les scientifiques eux-mêmes, le plus souvent gratuitement et répondant aux règles d’interopérabilité définies par l’Open Archive Initiative.
Les principaux enjeux associés aux archives ouvertes sont : un accès ouvert et simplifié aux publications scientifiques, une recherche d’information décuplée (interopérabilité possible entre les archives) et une mémoire scientifique commune.
14/03/2007 G. Poupeau 14
Les archives ouvertes (2)
Différents types d’archives ouvertes Au niveau du type d’article :
• De prépublications• De postpublications• Les deux
Au niveau du type d’archives• Par domaines : exple, en économie : http://econwpa.wustl.edu/ ou en sciences
de l’information : http://archivesic.ccsd.cnrs.fr/ • Par institutions : exple : Lyon 2 : http://eprints.univ-lyon2.fr:8050/, l’ens-lsh :
http://eprints.ens-lsh.fr/, l’institut Jean Nicod : http://jeannicod.ccsd.cnrs.fr/, le plus connu Escolarship de l’université de Californie : http://escholarship.cdlib.org/
Le cas français : l'accord CPU, CEMAGREF, CNRS, INRA, INRIA, INSERM, IRD, CIRAD, Institut Pasteur, Conférence des Grandes Ecoles pour une plate-forme nationale : HAL
14/03/2007 G. Poupeau 15
Les revues en ligne
Différents types de revues en ligne: Revues existant sur le papier et dont on développe une version
électronique en texte intégral souvent intégrée dans des portails
Revues existant exclusivement sur le Web Revues existant sur le papier pour lesquelles le Web est une
vitrine Différentes offres
Revue intégrée à un portail Revue isolée
Notion de barrière flottante Offre à l'étranger : Elsevier (Science direct), Jstor, Muse,
Erudit
14/03/2007 G. Poupeau 16
Les revues en ligne (2) : le cas français
Un acteur public : Revues.org Un acteur privé : CAIRN (Belin, De Boeck, La
Découverte, Erès : 4 éditeurs + BnF et soutien de Gesval et CNL)
Un portail pour la numérisation rétrospective des revues en SHS : Persée
14/03/2007 G. Poupeau 17
Les thèses en ligne
Un des chantiers les plus engagés avec les revues Volonté institutionnelle forte (cf. le rapport Jolly sur la diffusion
électronique des thèses)
Projet pilote mené à Lyon II : Cyberthèses avec mise au point d’une chaîne de traitement automatique
Pas une volonté d’édition mais de diffusion et d’archivage.
Serveur des thèses de Lyon II : http://theses.univ-lyon2.fr/
Les problèmes rencontrés : les changements en 2005 TEF. Norme AFNOR pour les métadonnées des revues
14/03/2007 G. Poupeau 18
Les instruments de recherche et les usuels
L’avènement du Web a permis la mise en ligne d’instruments de la recherche comme les bases de données, avant confinés dans les laboratoires de recherche
Elles permettent la mise en ligne de données brutes de la recherche non encore analysées mais classées
Par exemple, en histoire : Base de données bibliographiques : BEDE Base de données prosopographiques : PASE Inventaires, catalogues ou répertoires : Répertoire des cartulaires français
Quelques dictionnaires Le trésor de la langue française : http://atilf.atilf.fr/tlf.htm Une liste intéressante de dictionnaires :
http://www.admin.ch/ch/f/bk/sp/dicos/monol.html
14/03/2007 G. Poupeau 19
Manuels
Peu d'offres en ligne, car est plutôt du ressort des éditeurs privés
Une réflexion associant universités, éditeurs privés et labo de recherches : Manum
Universités se sont tournées vers l'enseignement à distance et les cours en ligne à destination de ses étudiants : cf la plate-forme Claroline
Exemple d'une expérience à l'École des chartes : Theleme
14/03/2007 G. Poupeau 20
Les sources historiques Projets menés par des institutions universitaires, des laboratoires de
recherche et par des éditeurs privés Edition de sources historiques, d’ouvrages de référence, d’ouvrages de
littérature sous forme hypertextuelle Sources de première main : Numérisation patrimoniale (par exemple : liber
floridus) Sources de seconde main numérisée dans le cadre d'une bibliothèque
numérique : Gallica Édition électronique d'édition critique de sources : le Cartulaire blanc Repérage et description de sources
Catalogue : Catalogue général des manuscrits Instruments de recherche : les instruments de recherche en ligne en
EAD
14/03/2007 G. Poupeau 21
Plan du cours
Pourquoi diffuser ligne ?Tour d'horizon des projets en ligneParticularités du support électroniqueLes problèmes de la conservation du document numériquePrésentation théorique du modèle OAISDu producteur à l'utilisateur : les différentes étapes de la mise en ligne d'une source
14/03/2007 G. Poupeau 22
Séparation du support et des données
Séparation entre l'information elle-même et le support de l'information : la dématérialisation
Mais : Besoin d'un artefact indépendant a-priori de l'information pour
accéder aux données L'information est stockée à un seul endroit
Pas de notion d'organisation physique de l'information L'information doit être traduite dans un format exploitable par
un ordinateur Mais :
Il faut conserver la structure logique de l'information Il faut pouvoir mettre en place des interfaces de visualisation de
l'information
14/03/2007 G. Poupeau 23
Les responsabilités
Nouvelle organisation de la chaîne auteur-éditeur-lecteur : concept de désintermédiation et la navigation du lecteur
Les responsabilités juridiques
14/03/2007 G. Poupeau 24
La visualisation, la navigation, la consultation
La lecture à l'écran Interface graphique : notion d'ergonomie et de graphisme
voire de « webDesign » Le feuilletage remplacé par la navigation ---> le principe
de l'hypertexte Multiplication des points d'accès à l'information : la
notion de parcours de lecture
14/03/2007 G. Poupeau 25
Plan du cours
Pourquoi diffuser ligne ?Tour d'horizon des projets en ligneParticularités du support électroniqueLes problèmes de la conservation du document numérique Présentation théorique du modèle OAISDu producteur à l'utilisateur : les différentes étapes de la mise en ligne d'une source
14/03/2007 G. Poupeau 26
Le problème de la conservation
Une fois les documents stockés, sont-il vraiment en sécurité ? Pour combien de temps ?
Identifier les risques Sauvegarder n’est pas archiver ! … le problème de la conservation
14/03/2007 G. Poupeau 27
Préserver les documents numériques : quel enjeu ?
Voici un document numérique que j’ai créé en 1998.
Je l’ai enregistré sur une disquette, est-elle toujours en bon état ?
Mon portable, acheté en 2004, n’a pas de lecteur de disquette. Où en trouver un ?
J’ai créé ce document avec Claris Works. Comment vais-je retrouver ce logiciel ?
J’ai trouvé le logiciel, mais puis-je l’installer et l’utiliser sous Windows XP ?
Ca marche ! Mais j’ai perdu toute ma mise en forme …
De quoi s’agit-il, déjà? Est-ce bien ce qui est indiqué sur la disquette ?
14/03/2007 G. Poupeau 28
Caractéristiques de l'édition scientifique sur le Web
Support unique de l'information sur le serveur de l'éditeur
Données doivent pouvoir être encore exploitées dans 50 ou 100 ans
Les données doivent être citables dans une bibliographie
Les références doivent rester accessibles
14/03/2007 G. Poupeau 29
La conservation : une problématique nouvelle
« la conservation de l'information sous forme numérique est beaucoup plus complexe que la conservation de l'information sur supports papier ou film. Ceci n’est pas seulement un problème pour les Archives traditionnelles, mais également pour de nombreux organismes qui, jusque-là, n’avaient jamais eu conscience d'assurer une fonction d'archivage ». p. 13 de la traduction française de la norme OAIS
14/03/2007 G. Poupeau 30
La mission de l'éditeur scientifique
Garantir l'accès à long terme aux ressources qu'il produit et met à disposition en ligne
Pérennisation des fichiers à l'origine de la ressource en ligne
QUESTION :Existe-t-il une différence entre le but poursuivi par un
éditeur et par un bibliothécaire ou un archiviste ?
14/03/2007 G. Poupeau 31
Un exemple dans le contexte de l'édition papier
La France au Moyen Âge, du Ve au XVe siècle
Claude GauvardPresses universitaires de France
14/03/2007 G. Poupeau 32
Quatre éditions
14/03/2007 G. Poupeau 33
Deux chartes graphiques différentes
Édition de 1997 Dernière édition : 2004
14/03/2007 G. Poupeau 34
L'évolution d'un document numérique
Le contenu La charte graphique Le format de description des données A garder en tête, le support n'existe qu'à un
seul endroit : le serveur
14/03/2007 G. Poupeau 35
Évolution du contenu de la ressource
Pour le papier : nouvelle édition Avantage de l'électronique : souplesse
éditoriale, changement immédiat et à n'importe quel moment
Question :Doit-on conserver les deux versions du fichier ?
14/03/2007 G. Poupeau 36
Modification de la charte graphique
Pour le papier : nouvelle édition Évolution de la charte graphique
Question :Dois-je donner un moyen de visualiser les deux
versions ?Est-ce-que cela entre dans le cadre de mes missions
d'éditeur électronique ?
14/03/2007 G. Poupeau 37
Changement du format
Migration des fichiers pour des raisons de cohérence éditoriale ou technique
Les deux fichiers sont encore lisibles car ils utilisent le même format mais ils n'utilisent pas le même formalisme
Question :Doit-on conserver les deux versions du fichier ?
14/03/2007 G. Poupeau 38
Quelques réponses
Question 1 : les différentes versions mais on donne accès à la dernière en indiquant la date de modification
Question 2 : Le dépôt légal du Web Question 3 : il faudrait le conserver, mais pas
l'éditeur. Qui ? l'IMEC ? les Archives nationales ?
14/03/2007 G. Poupeau 39
Une contrainte technique : la préservation
La conservation à long terme est un enjeu pour le document numérique : supports formats environnement matériel et logiciel
Stocker/sauvegarder ce n’est pas archiver !!!
La préservation doit être au cœur de la réflexion à toutes les étapes de réalisation d'un projet de diffusion en ligne
Un modèle d’archivage : l’OAIS (ISO 14721) les documents et leurs métadonnées le cycle de vie du document
14/03/2007 G. Poupeau 40
Plan du cours
Pourquoi diffuser ligne ?Tour d'horizon des projets en ligneParticularités du support électroniqueLes problèmes de la conservation du document numériquePrésentation théorique du modèle OAISDu producteur à l'utilisateur : les différentes étapes de la mise en ligne d'une source
14/03/2007 G. Poupeau 41
Le modèle OAIS : présentation (1)
Open Archival Information System Norme ISO (14721) mis au point par le CCSDS (Consultative
Comitee for Space Data Systems) Modèle conceptuel explicitant théoriquement la mise en place d'un
entrepôt de document numérique en vue de leur archivage sur le long terme Les fonctions Les responsabilités L'organisation du système Une terminologie commune
« Le Long terme est défini comme étant suffisamment long pour être soumis à l’impact des changements technologiques, y compris à la prise en compte de nouveaux supports et nouveaux formats de données ou à des changements de la communauté d’utilisateurs »
14/03/2007 G. Poupeau 42
Le modèle OAIS : présentation (2)
A quoi sert-il, concrètement ? À établir la responsabilité de la conservation : notion de mission, de
contrat À surveiller les documents avant que les dégradations ne se produisent
(en général, avec le numérique, « après »= trop tard) À garantir l’intégrité des documents, vérifier qu’ils ne sont pas altérés,
et s’ils le sont, expliquer pourquoi À organiser l’activité de conservation autour d’un référentiel commun
pour faciliter les évolutions
14/03/2007 G. Poupeau 43
Le modèle OAIS n'est pas...
il ne donne pas de formats, schémas, règles ou techniques pour préserver les documents numériques
il ne décrit pas les applications informatiques et techniques à mettre en œuvre, ni logicielles, ni matérielles
il ne donne pas de méthodologie concrète de réalisation d’un tel système (cahier des charges, workbook ou autre).
14/03/2007 G. Poupeau 44
Quels sont les intervenants dans la gestion de l'information numérique ? Les acteurs
Comment décrire mes objets en vue de leur préservation ? Le modèle d’information
Quelles sont les méthodes pour éviter l’obsolescence technologique ? Les stratégies de préservation
Quelle organisation mettre en place pour assurer cette activité de préservation ? Le modèle fonctionnel
Composantes du modèle OAIS
14/03/2007 G. Poupeau 45
Les acteurs de l'OAIS
Archive
Management
Producteur Utilisateur
14/03/2007 G. Poupeau 46
Objet données Information de pérennisationProvenance, contexte,
intégrité…
Paquet d’informations
Information de représentation
Format, langue…+ +
+ +
Monde réel :
Monde numérique :
Le modèle d'informations
14/03/2007 G. Poupeau 47
Les paquets d’information ont une forme différente suivant ce qu’on en fait
Paquet d’archivage (AIP)
Paquet de dissémination (DIP)
Paquet de versement (SIP)
Les paquets d'informations
14/03/2007 G. Poupeau 48
Le modèle fonctionnel
PR
OD
UC
TE
UR
UT
ILISA
TE
UR
MANAGEMENT
entrées
données
stockage
SIPAIP accès
DIP
ADMINISTRATION
PLANIFICATION DE LA PRESERVATION
14/03/2007 G. Poupeau 49
Principes pour la conservation du numérique
Séparer les données des applications les exploitant Modéliser l'information par rapport à son fonctionnement
intrinsèque, plutôt que par rapport à une application précise Surveiller et renouveler régulièrement les supports (de façon
préventive) Contrôler l’intégrité des documents (le « train de bits ») Collecter toutes les informations nécessaires pour maîtriser
le document (métadonnées) Transformer le document dans une forme plus facile à conserver
dans le temps (« migration »), c'est à dire utiliser des formats contrôlables
Collecter toutes les informations concernant ces transformations Collecter des environnements et des plateformes de références
pour l’avenir (« émulation »)
14/03/2007 G. Poupeau 50
Plan du cours
Pourquoi diffuser ligne ?Tour d'horizon des projets en ligneParticularités du support électroniqueLes problèmes de la conservation du document numériquePrésentation théorique du modèle OAISDu producteur à l'utilisateur : les différentes étapes de la mise en ligne d'une source
14/03/2007 G. Poupeau 51
Missions de TELMA
Mettre en place une plate-forme technique pour accueillir, gérer, conserver et diffuser les données accueillies par le centre.
Devenir un relais d'information et de soutien technique pour la communauté des chercheurs en histoire dans le domaine du traitement numérique de l'information scientifique
Devenir un intermédiaire entre la communauté des chercheurs et les institutions de conservation, en particulier leurs tutelles pour mener des actions de numérisation partagées
Assurer une veille technologique et représenter la communauté des chercheurs en histoire dans les organismes de normalisation comme le TEI consortium
14/03/2007 G. Poupeau 52
Notre exemple : deux actes du cartulaire de Nesle
Le but de la mise en ligne Donner à lire le texte transcrit de la source Offrir la numérisation de la source primaire Offrir des interfaces pour naviguer dans la source
éditée et numérisée Offrir des moyens de traiter la source
De quoi dispose le chercheur ? Un document Word contenant l'édition critique La source primaire à numériser
14/03/2007 G. Poupeau 53
1ère étape : négociation avec le management
Déterminer les buts poursuivis par le producteur Déterminer la communauté d'utilisateurs Déterminer la responsabilité et l'implication de
l'archive Responsabilité en terme de conservation Responsabilité de diffusion Responsabilité de réalisation Responsabilité juridique
Accord entre le producteur et le management sur les formats des fichiers conservés par l'archive en fonction des responsabilités demandés et des buts poursuivis
Déterminer les métadonnées nécessaires à la réalisation des buts et au respect des responsabilités
14/03/2007 G. Poupeau 54
2ème étape : encoder l'information
Rendre lisible l'information brute à un ordinateur L'information possède une structure et une cohérence
intrinsèque Structure hiérarchique de l'information Encoder un texte répond à différents objectifs :
publication, étude et analyse L'information possède des contextes
contexte morphologique contexte grammatical contexte documentaire contexte historique
14/03/2007 G. Poupeau 55
Le choix des formats utilisés
14/03/2007 G. Poupeau 56
Types d'encodage de l'information
La base de données Le format binaire Le format texte (ascii) Le format texte + systèmes d'étiquetages
14/03/2007 G. Poupeau 57
Les formats ouverts et libres
Pourquoi garantir indépendance de l'information par rapport à un logiciel OU à un éditeur ?
Critères auxquels doit répondre le format : Spécification du format accessibles gratuitement (format
libre) Spécification non soumise au paiement de royalties
(format ouvert) Assurer la stricte séparation entre la mise en forme et le
contenu : format indépendant de logiciels et/ou de plates-formes
Le format doit être un standard reconnu Doit permettre de mettre en lumière les différents
contextes
14/03/2007 G. Poupeau 58
le XML
Répond aux exigences précédentes Langage à balises héritier de SGML Mis au point au W3C Met en lumière la structure logique et hiérarchique d'un texte
au moyen de balises Langages à balises:<nom>Poupeau</nom><prenom>Gautier</prenom> les balises indiquent le rôle/la caractéristique de l'information
dans le contexte du document Schéma XML, une grammaire qui détermine le nom des
balises et leurs règles d'agencement. Différentes syntaxes pour décrire une grammaire : DTD,
XML schema, Relax NG
14/03/2007 G. Poupeau 59
La TEI : Text encoding initiative
Mise en place depuis 1987 (SGML) Maintenu par le TEI consortium 5ème version actuellement en développement Comprend 450 éléments pour encoder les textes en
SHS et en littérature La TEI est un guide composé de recommandations
et de la proposition de balises normalisées En fonction du texte encodé, choix de modules
dans la TEI pour créer une grammaire adaptée Très utilisée dans le monde anglo-saxon et de plus
en plus utilisée dans les pays européens
14/03/2007 G. Poupeau 60
Structure générale d'un fichier TEI
<TEI><teiHeader>
<fileDesc><titleStmt><title>Le titre</title></titleStmt><publicationStmt><p>Éditeur</p></publicationStmt><sourceDesc><p>Source du fichier numérique</p></sourceDesc>
</fileDesc></teiHeader><text>
<front></front><body>
<div></div> (la balise magique !!)<div type="partie"></div>
</body><back></back>
</text></TEI>
14/03/2007 G. Poupeau 61
Les éléments d'un texte
Les mises en valeur : <hi></hi> Les images :
<figure><figDesc></figDesc><graphic/></figure> Les citations : <q></q> ou <quote></quote> Les notes : <note></note> Les mots étrangers : <foreign></foreign> Les listes : <list><item></item></list> Les tableaux :
<table><row><cell></cell></row></table>
14/03/2007 G. Poupeau 62
14/03/2007 G. Poupeau 63
L'encodage des données
14/03/2007 G. Poupeau 64
Qu'est-ce-qu'on encode ? (1)
L'encodage XML reflète la structure logique et hiérarchique de l'information.
Il implique la séparation du contenu (une portion d'informations correspond à un titre d'ouvrage) et la mise en forme (le titre est en italique)
L'encodage XML ne sert pas à donner le sens du texte : il ne s'agit pas de sémantique !!
Extensibilité de XML est infinie : d'une partie à une lettre à l'intérieur d'un mot ---> Il est essentiel de faire des choix, car il est impossible de tout encoder. Penser aux possibilités de la grammaire utilisée
Questions essentielles : Pourquoi encoder ce document ? A quoi va servir l'encodage ? Quelles informations sont utiles par rapport au but poursuivi ? Quelle est la nature du document ? Comment fonctionne-t-il ?
14/03/2007 G. Poupeau 65
Qu'est-ce-qu'on encode ? (2)
Deux parties dans un document Les macro-structures (corps du texte, annexes, parties
liminaires, chapitre, partie, sous-partie, paragraphes, strophes, vers, acte, scène, répliques...).
Les micro-structures : tableaux, figures, notes, indexation, emphase....
<text xml:id="acte26" n="26"> <front> <titlePage> <docTitle> <titlePart n="26">Acte 26</titlePart> </docTitle> <docAuthor>Guillaume de Chassey, chevalier, bailli d’Auxois</docAuthor> <docDate> <date from="1264-03-01" to="1264-03-31">1264 n. st., mars.</date> </docDate> </titlePage> <div type="regeste"> <p> Guillaume de Chassey, chevalier, bailli d’Auxois, notifie qu’en sa présence Guillermin de Rugney, écuyer, a reconnu avoir vendu à Jean de Nesle, écuyer, ce qu’il avait des tierces de Nesle, soit le quart de ces tierces, pour dix l. t. Ancous d’Alerey s’est établi plège pour Guillermin à hauteur de 30 l. t. A la requête de Guillermin et d’Ancous, le bailli a scellé l’acte. </p> </div> </front>
<body> <div xml:lang="frm" type="acte"> <p> Nos, <persName corresp="#ip167">Guillaumes de Cheacey</persName>, chevaliers, bailliz de Aussois por noble honme <persName corresp="#ip103">Hugon</persName>, duc de Borgoigne, faisons savoir a touz cels qui verront cels presentes letres que, an nostre presence estaublis <persName corresp="#ip187">Guillermins de Ruygney</persName>, escuiers, at reconeu que il at vendu, quittei et delivrei a <persName corresp="#ip93">Jehant de Neelles</persName>, escuier, a tenir a touz jours, lui et ses hoirs, tout ce que il avoit as tierces de <placeName corresp="#il44">Neelles</placeName>, c’est a savoir lou quart des dites tierces por dix livres de tornois ; des queles li diz <persName corresp="#ip187" >Guillermins</persName> se est tenuz por paiez per devant nos an deniers nombrez. Et ceste dite vendue, ceste quittance et ceste delivrance lidis <persName corresp="#ip187">Guillermins</persName> at promis a tenir per son soirement fait corporelment per devant nos et a guarantir au dit <pb n="53v"/> <persName corresp="#ip93">Jehant</persName> et a ses hoirs contre toutes genz ; et se il defailloit del garantir <persName corresp="#ip31">Ancous de Alerey</persName> se est estaubliz per devant nos pleges et detres an la main au dit <persName corresp="#ip93">Jehant</persName> ou a ses hoirs de trente livres de tornois por lou defaut de la dite garantie ; et les porroit lever li diz <persName corresp="#ip93">Jehanz</persName> ou sui hoir del dit <persName corresp="#ip31">Ancous</persName> ou de ses hoirs por lou dit defaut ; et toutes ces dites choses li diz <persName corresp="#ip187">Guillermins</persName> et li diz <persName corresp="#ip31">Ancous</persName> ont promis a tenir li diz <persName corresp="#ip187">Guillermins</persName> per son seirement dessus dit et li diz Ancous an bone foi, senz aler ne faire a aler ancontre per aux ne per autrui ; et ont quittées toutes barres per quoi il porroient aler ou faire a aler ancontre ces dites choses ; et se il aloient ou faisoient a aler ancontre, il nos ont donei pooir de aux contreindre as dessus dites <pb n="54"/> choses tenir et de aux gaigier senz plait, senz fuyte, senz asloigne ausic cum de chose que ait estei jugié per nos an nostre cort. Et que ce soit plus ferme chose et plus estauble, per la requeste <del n="a" rend="gratté">del dit</del> del dit <persName corresp="#ip187" >Guillermin</persName> et del dit <persName corresp="#ip31" >Ancous</persName>, nos avons mis nostre seaul an cels presentes letres. Ce fu fait an l’an nostre Signour m. cc. sexante et trois, el mois de marz. </p> </div> </body></text>
14/03/2007 G. Poupeau 70
La numérisation de la source primaire
14/03/2007 G. Poupeau 71
La numérisation de la source
Format de l'image numérisée TIFF pour la conservation JPEG pour la diffusion
La numérisation « déconstruit » l'ouvrage
14/03/2007 G. Poupeau 72
La numérisation de la source
Reconstruire l'intégrité de la source grâce aux métadonnées, cad reconstruire la reliure
Faire correspondre la page originale au fichier informatique, cad procéder à un récollement
Faire correspondre structure logique et structure physique
<METS:structMap><METS:div ID="ouvrage" LABEL="CARTULAIRE DE NESLE" TYPE="MPV">
..........<METS:div LABEL="page 105" TYPE="acte">
<METS:fptr FILEID="nesle53"/><METS:fptr FILEID="nesletxt">
<METS:area FILEID="nesletxt" COORDS="53"/></METS:fptr>
</METS:div><METS:div LABEL="page 106" TYPE="acte">
<METS:fptr FILEID="nesle53v"/><METS:fptr FILEID="nesletxt">
<METS:area FILEID="nesletxt" COORDS="53v"/></METS:fptr>
</METS:div><METS:div LABEL="page 107" TYPE="acte">
<METS:fptr FILEID="nesle54"/><METS:fptr FILEID="nesletxt">
<METS:area FILEID="nesletxt" COORDS="54"/></METS:fptr>
</METS:div><METS:div LABEL="page 108" TYPE="acte">
<METS:fptr FILEID="nesle54v"/><METS:fptr FILEID="nesletxt">
<METS:area FILEID="nesletxt" COORDS="54v"/></METS:fptr>
</METS:div><METS:div LABEL="page 109" TYPE="acte">
<METS:fptr FILEID="nesle55"/><METS:fptr FILEID="nesletxt">
<METS:area FILEID="nesletxt" COORDS="55"/></METS:fptr>
</METS:div>.........
</METS:div></METS:structMap>
14/03/2007 G. Poupeau 74
3ème étape
Rendre accessible les données en XML
14/03/2007 G. Poupeau 75
Exploiter les fichiers XML
Communautés d'utilisateurs : chercheurs, curieux, un utilisateur du Web
Les données doivent être accessibles avec un navigateur Web
Transformer les données XML en HTML Feuilles de style XSLT (eXtensible styleSheet language
transformation Interroger le fichier XML : Xquery, équivalent de SQL
pour des fichiers XML Mise en forme du HTML : CSS, cascading stylesheets
14/03/2007 G. Poupeau 76
<xsl:template match="tei:body"> <xsl:if test="../tei:pb"> [fol. <xsl:value-of select="../tei:pb/@n"/>] </xsl:if> <xsl:apply-templates/> </xsl:template> <xsl:template match="//tei:title[@type='forge']"> <xsl:apply-templates/> </xsl:template> <xsl:template match="tei:msDescription/tei:msIdentifier"> <xsl:apply-templates select="//tei:idno"/> </xsl:template> <xsl:template match="tei:p"> <p> <xsl:apply-templates/> </p> </xsl:template> <xsl:template match="tei:p/tei:label"> <span class="label" id="{.}"> [<xsl:apply-templates/>] </span> </xsl:template> <xsl:template match="tei:head[@type]"> <xsl:apply-templates/> </xsl:template> <xsl:template match="tei:head[@n]"> <xsl:apply-templates/> </xsl:template>
Extrait d'un fichier XSLT
14/03/2007 G. Poupeau 77
Fichier Xquery
<resultats>{for $result in collection("/db/nesle")//group[@recueil]/textlet $title:=$result/front/titlePage/docTitle/titlewhere year-from-date(xs:date($result/front/titlePage/docDate/@notAfter))<=1300order by $resultreturn <resultat> <titre>{$title}</titre> <id>{data($result/@n)}</id></resultat>}</resultats>
14/03/2007 G. Poupeau 78
Extrait fichier CSS
h1 {text-align: center; font-family: Georgia, Arial, Verdana, sans-serif;font-size: 1.6em;color: #BF0000;letter-spacing: 0.1em;margin-bottom: 1em;margin-top: 0;
}
#document h1 {margin-top: -1em;
}
.soustitre {font-size: 0.8em;
}
14/03/2007 G. Poupeau 79
4ème étape
Construction du paquet de versement
14/03/2007 G. Poupeau 80
Les métadonnées
Toutes les informations sur le corpus qui vont permettre de gérer le corpus à long terme
Trois types de métadonnées : Métadonnées descriptives : titre, auteur, date de
publication... Métadonnées administratives : métadonnées
juridiques, métadonnées techniques, métadonnées du cycle de vie des informations
Métadonnées de structure : Structure du corpus, agencement des différents fichiers entre eux
Encodage en XML de ces différentes métadonnées
14/03/2007 G. Poupeau 81
Les métadonnées descriptives
Le Dublin core : http://dublincore.org Initiative internationale : Dublin core metadata initiative Norme ISO 15836-2003 15 éléments de base pour décrire des documents
(numériques ou non) : Dublin core simple Onix : http://www.editeur.org/onix.html Mis au point par EdiTeur, groupe international d'éditeurs
dont la vocation est de coordonner les initiatives et les standards pour le commerce électronique dans le domaine du livre
Schéma XML 26 parties permettant la gestion du livre à tous les
niveaux par un éditeur. A-priori pour le support papier, mais intègre les
publications électroniques
<dc:type>Edition de sources</dc:type><dc:title>Cartulaire de la seigneurie de Nesle</dc:title><dc:creator>Xavier Hélary</dc:creator><dc:creator>Institut de Recherche et d'Histoire des Textes</dc:creator><dc:publisher>Institut de Recherche et d'Histoire des Textes - Section de diplomatique</dc:publisher><dc:date>2006</dc:date><dc:description>Transcription du cartulaire de la seigneurie de Nesle, conservé au musée de Chantilly.</dc:description><dc:identifier>http://www.cn-telma.fr/nesle/</dc:identifier><dc:subject>Histoire politique et institutionnelle</dc:subject><dc:subject>Histoire sociale et culturelle</dc:subject><dc:subject>Histoire économique</dc:subject><dc:subject>Cartulaire</dc:subject><dc:coverage>France</dc:coverage><dc:coverage>Moyen Âge</dc:coverage><dc:coverage>Bourgogne</dc:coverage><dc:coverage>Latin</dc:coverage><dc:coverage>Langue d'oil</dc:coverage><dc:source>Chantilly, Musée Condé, série GB, XIV F 22</dc:source><dc:format>text/xtml TEI</dc:format><dc:language>fr</dc:language><dc:relation>Ædilis</dc:relation>
14/03/2007 G. Poupeau 83
Les métadonnées administratives
PREMIS : Preservation metadata : implementation strategies Mis au point par un groupe de travail soutenu par
OCLC et RLG Définit un jeu de métadonnées de préservation : « les
informations utiles à un entrepôt pour mener à bien le processus de conservation à long terme du document numérique »
Il suit les recommandations de l'OAIS, en particulier la notion de paquets
Très complet, trop ??
<premis:preservationLevel>full</premis:preservationLevel> <premis:format> <premis:formatDesignation> <premis:formatName>XML</premis:formatName> <premis:formatVersion>1.0</premis:formatVersion> </premis:formatDesignation> <formatRegistry> <formatRegistryName>PRONOM</formatRegistryName> <formatRegistryKey>fmt/101</formatRegistryKey> <formatRegistryRole>Indique le rôle du répertoire de format par rapport à l'objet</formatRegistryRole> </formatRegistry> <formatRegistry> <formatRegistryName>FRED</formatRegistryName> <formatRegistryKey>info:gdfr/fred/f/xml</formatRegistryKey> </formatRegistry> <formatRegistry> <formatRegistryName>http://www.digitalpreservation.gov/formats/fdd/</formatRegistryName> <formatRegistryKey>fdd000075</formatRegistryKey> </formatRegistry> </premis:format> <premis:creatingApplication> <premis:creatingApplicationName>oXygen</premis:creatingApplicationName> <premis:creatingApplicationVersion>7.2</premis:creatingApplicationVersion> <premis:dateCreatedByApplication>2006-07-19</premis:dateCreatedByApplication> </premis:creatingApplication> <premis:environment> <premis:dependency> <premis:dependencyName>TEI P5</premis:dependencyName> <premis:dependencyIdentifier> <premis:dependencyIdentifierType>Schéma Relax-NG</premis:dependencyIdentifierType> <premis:dependencyIdentifierValue>http://www.cn-telma.fr/irht/nesle/tei_complte_200406.rng</premis:dependencyIdentifierValue> </premis:dependencyIdentifier> </premis:dependency> </premis:environment>
14/03/2007 G. Poupeau 85
Rassembler ces différents jeux de métadonnées
Un format d'empaquetage : METS (Metadata encoding and transmission standard) http://www.loc.gov/standards/mets/ Initiative de la Digital library foundation et maintenu par la library of
congress Gestion les objets complexes en vue de leur description et de leur
échange Gestion des trois types de métadonnées (descriptives, administratives,
de structure) 7 sections :
METS header (metsHdr) Description Metadata Section (dmdsec) Administrative Metadata Section (amdSec) File Section (fileSec) Structural Map (structMap) Structural Map Linking (structLink) Behaviour section (behaviourSec)
<?xml version="1.0" encoding="UTF-8"?><METS:mets xmlns:METS="http://www.loc.gov/METS/" xmlns:xlink="http://www.w3.org/1999/xlink" xmlns:dc="http://purl.org/dc/elements/1.1/" xmlns:premis="http://www.loc.gov/standards/premis/v1" xmlns:onix="http://www.editeur.org/onix/2.1/reference" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="http://www.loc.gov/METS/ http://www.loc.gov/standards/mets/mets.xsd http://www.w3.org/1999/xlink http://www.loc.gov/standards/mets/xlink.xsd http://purl.org/dc/elements/1.1/ http://dublincore.org/schemas/xmls/qdc/2003/04/02/dc.xsd http://www.loc.gov/standards/premis/v1 http://www.loc.gov/standards/premis/v1/PREMIS-v1-1.xsd http://www.editeur.org http://www.editeur.org/onix/2.1/reference/ONIX_BookProduct_Release2.1_reference.xsd"> <METS:metsHdr> <METS:agent ROLE="CREATOR" TYPE="INDIVIDUAL"> <METS:name>Christophe JACOBS</METS:name> </METS:agent> <METS:agent ROLE="EDITOR" TYPE="ORGANIZATION"> <METS:name>Institut de Recherche et d'Histoire des Textes</METS:name> </METS:agent> </METS:metsHdr> <METS:dmdSec ID="nesle"> <METS:mdWrap MIMETYPE="text/xml" MDTYPE="DC" LABEL="Dublin Core Metadata"> <METS:xmlData> <dc:type>Edition de sources</dc:type> <dc:title>Cartulaire de la seigneurie de Nesle</dc:title> <dc:creator>Xavier Hélary</dc:creator> <dc:creator>Institut de Recherche et d'Histoire des Textes</dc:creator> <dc:publisher>Institut de Recherche et d'Histoire des Textes - Section de diplomatique</dc:publisher> <dc:date>2006</dc:date> <dc:description>Transcription du cartulaire de la seigneurie de Nesle, conservé au musée de Chantilly. </dc:description> <dc:identifier>http://www.cn-telma.fr/nesle/</dc:identifier> <dc:subject>Histoire politique et institutionnelle</dc:subject> <dc:subject>Histoire sociale et culturelle</dc:subject> <dc:subject>Histoire économique</dc:subject> <dc:subject>Cartulaire</dc:subject> <dc:coverage>France</dc:coverage> <dc:coverage>Moyen Âge</dc:coverage> <dc:coverage>Bourgogne</dc:coverage> <dc:coverage>Latin</dc:coverage> <dc:coverage>Langue d'oil</dc:coverage> <dc:source>Chantilly, Musée Condé, série GB, XIV F 22</dc:source> <dc:format>text/xtml TEI</dc:format> <dc:language>fr</dc:language> <dc:relation>Ædilis</dc:relation> </METS:xmlData> </METS:mdWrap> </METS:dmdSec>
<METS:amdSec>[....]
<METS:techMD ID="xml"> <METS:mdWrap MDTYPE="PREMIS"> <METS:xmlData> <premis:preservationLevel>full</premis:preservationLevel> <premis:format> <premis:formatDesignation> <premis:formatName>XML</premis:formatName> <premis:formatVersion>1.0</premis:formatVersion> </premis:formatDesignation> <formatRegistry> <formatRegistryName>PRONOM</formatRegistryName> <formatRegistryKey>fmt/101</formatRegistryKey> <formatRegistryRole>Indique le rôle du répertoire de format par rapport à l'objet</formatRegistryRole> </formatRegistry> <formatRegistry> <formatRegistryName>FRED</formatRegistryName> <formatRegistryKey>info:gdfr/fred/f/xml</formatRegistryKey> </formatRegistry> <formatRegistry> <formatRegistryName>http://www.digitalpreservation.gov/formats/fdd/</formatRegistryName> <formatRegistryKey>fdd000075</formatRegistryKey> </formatRegistry> </premis:format> <premis:creatingApplication> <premis:creatingApplicationName>oXygen</premis:creatingApplicationName> <premis:creatingApplicationVersion>7.2</premis:creatingApplicationVersion> <premis:dateCreatedByApplication>2006-07-19</premis:dateCreatedByApplication> </premis:creatingApplication> <premis:environment> <premis:dependency> <premis:dependencyName>TEI P5</premis:dependencyName> <premis:dependencyIdentifier> <premis:dependencyIdentifierType>Schéma Relax-NG</premis:dependencyIdentifierType> <premis:dependencyIdentifierValue>http://www.cn-telma.fr/irht/nesle/tei_complte_200406.rng</premis:dependencyIdentifierValue> </premis:dependencyIdentifier> </premis:dependency> </premis:environment> </METS:xmlData> </METS:mdWrap> </METS:techMD>
[.....]</METS:amdSec>
<METS:fileSec> <METS:fileGrp ADMID="xsl"> <METS:file ID="nesle-acte.xsl" MIMETYPE="text/xml"> <METS:FLocat LOCTYPE="URL" xlink:href="/var/www/telma/irht/nesle/xsl/nesle-acte.xsl"/> </METS:file> <METS:file ID="nesle-index.xsl" MIMETYPE="text/xml"> <METS:FLocat LOCTYPE="URL" xlink:href="/var/www/telma/irht/nesle/xsl/nesle-index.xsl"/> </METS:file>
<METS:file ID="nesle-table.xsl" MIMETYPE="text/xml"> <METS:FLocat LOCTYPE="URL" xlink:href="/var/www/telma/irht/nesle/xsl/nesle-table.xsl"/> </METS:file> <METS:file ID="nesle-censier.xsl" MIMETYPE="text/xml"> <METS:FLocat LOCTYPE="URL" xlink:href="/var/www/telma/irht/nesle/xsl/nesle-censier.xsl"/> </METS:file> <METS:file ID="nesle-sommaire.xsl" MIMETYPE="text/xml"> <METS:FLocat LOCTYPE="URL" xlink:href="/var/www/telma/irht/nesle/xsl/nesle-sommaire.xsl"/> </METS:file> <METS:file ID="nesle-intro.xsl" MIMETYPE="text/xml"> <METS:FLocat LOCTYPE="URL" xlink:href="/var/www/telma/irht/nesle/xsl/nesle-intro.xsl"/> </METS:file>
[....]</METS:fileGrp><METS:fileGrp ADMID="xml">
<METS:file ID="nesle.xml" MIMETYPE="text/xml"> <METS:FLocat LOCTYPE="URL" xlink:href="/var/www/telma/irht/nesle/nesle.xml"/> </METS:file> <METS:file ID="nesleimagesmets" MIMETYPE="text/xml"> <METS:FLocat LOCTYPE="URL" xlink:href="/var/www/telma/irht/nesle/nesleimagesmets.xml"/> </METS:file> </METS:fileGrp></METS:fileSec>
<METS:structMap> <METS:div TYPE="corpus" DMDID="nesle"> <METS:fptr ID="neslexml" FILEID="nesle.xml"/> <METS:fptr ID="nesleimagesmetsxml" FILEID="nesleimagesmets"/> <METS:div ID="index" LABEL="index" TYPE="unite"> <METS:fptr FILEID="nesle-index.xsl" CONTENTIDS="neslexml"/> </METS:div> <METS:div ID="acte" LABEL="acte" TYPE="unite"> <METS:fptr FILEID="nesle-acte.xsl" CONTENTIDS="neslexml"/> </METS:div> <METS:div ID="page" LABEL="page" TYPE="unite"> <METS:fptr FILEID="nesle-folio.xsl" CONTENTIDS="nesleimagesmetsxml"/> </METS:div> <METS:div ID="tables" LABEL="tables" TYPE="unite"> <METS:fptr FILEID="nesle-table.xsl" CONTENTIDS="neslexml"/> </METS:div> <METS:div ID="censier" LABEL="censier" TYPE="unite"> <METS:fptr FILEID="nesle-censier.xsl" CONTENTIDS="neslexml"/> </METS:div> <METS:div ID="introduction" LABEL="introduction" TYPE="unite"> <METS:fptr FILEID="nesle-intro.xsl" CONTENTIDS="neslexml"/> </METS:div> <METS:div ID="liminaires" LABEL="liminaires" TYPE="unite"> <METS:fptr FILEID="nesle-liminaires.xsl" CONTENTIDS="neslexml"/> </METS:div> <METS:div ID="sommaire" LABEL="sommaire" TYPE="unite"> <METS:fptr FILEID="nesle-sommaire.xsl" CONTENTIDS="neslexml"/> </METS:div> <METS:div ID="nominum" LABEL="nominum" TYPE="unite"> <METS:fptr FILEID="nesle-nominum.xsl" CONTENTIDS="neslexml"/> </METS:div> <METS:div ID="locorum" LABEL="locorum" TYPE="unite"> <METS:fptr FILEID="nesle-locorum.xsl" CONTENTIDS="neslexml"/> </METS:div> <METS:div ID="recherche" LABEL="recherche" TYPE="unite"> <METS:fptr FILEID="nesle-recherche.xsl" CONTENTIDS="neslexml"/> </METS:div> <METS:div ID="rechercher" LABEL="rechercher" TYPE="unite"> <METS:fptr FILEID="nesle-rechercher.xsl" CONTENTIDS="neslexml"/> </METS:div> <METS:div ID="mentions" LABEL="mentions" TYPE="unite"> <METS:fptr FILEID="nesle-mentions.xsl" CONTENTIDS="neslexml"/> </METS:div> <METS:div ID="colophon" LABEL="colophon" TYPE="unite"> <METS:fptr FILEID="nesle-colophon.xsl" CONTENTIDS="neslexml"/> </METS:div> </METS:div> </METS:structMap>
14/03/2007 G. Poupeau 90
Récapitulatif des fichiers
XML pour les données XSL, XSL-FO, Xquery pour le traitement CSS pour la mise en page HTML TIFF et JPG pour les images numérisées PNG ou JPG, éventuellement GIF pour les images du
graphisme Un fichier de métadonnées au format METS incluant
des métadonnées descriptives au format Dublin Core et ONIX et des métadonnées administratives au format PREMIS
14/03/2007 G. Poupeau 91
Le paquet de versement est maintenant terminé
14/03/2007 G. Poupeau 92
Le modèle fonctionnel
PR
OD
UC
TE
UR
MANAGEMENT
entrées
données
stockage
SIPAIP
ADMINISTRATION
PLANIFICATION DE LA PRESERVATION
14/03/2007 G. Poupeau 93
5ème étape
Stocker les fichiers et créer l'AIP
14/03/2007 G. Poupeau 94
Stockage des fichiers
Il n'existe aucun de support de stockage pérenne Stockage sur un serveur
Migration de support régulière : changement de serveurs
Temps d'accès trop long si simplement sauvegarde sur bandes magnétiques
Sauvegarde de secours journalière sur bande Virtualisation du stockage
14/03/2007 G. Poupeau 95
Indexation des données
Utilisation d'une base de données XML native Principe général identique à une base de données
relationnelles respecte le principe de XML Interrogation avec Xquery, format normalisé au W3C
Un fichier permet de centraliser les informations et de générer automatiquement les interrogations L'unité structurelle les critères spécifiques Les métadonnées permettant de contextualiser les
différents corpus Ce fichier forme la description de l'AIP
14/03/2007 G. Poupeau 96
Le modèle fonctionnel
PR
OD
UC
TE
UR
UT
ILISA
TE
UR
MANAGEMENT
entrées
données
stockage
SIPAIP accès
DIP
ADMINISTRATION
PLANIFICATION DE LA PRESERVATION
14/03/2007 G. Poupeau 97
6ème étape
Diffuser les donnéesPermettre à la communauté d'utilisateurs
d'y accéder
14/03/2007 G. Poupeau 98
Premier type de requête
Demande d'un utilisateur pour afficher tout ou partie d'un corpus dans les formats HTML, texte ou PDF
Deux arguments obligatoires Le nom du corpus le nom de la division de l'information demandée ou
unité structurelle Trois arguments optionnels
le nom de l'ouvrage si plusieurs ouvrages dans un corpus
L'identifiant de l'unité structurelle si plusieurs unités du même type dans l'ouvrage/corpus
Le format de sortie (si absent, HTML)
14/03/2007 G. Poupeau 99
Exemple
Demande de l'utilisateur : afficher en HTML l'acte 26 de l'édition du Cartulaire de Nesle corpus : nesle unité structurelle : acte identifiant : 26
http://www.cn-telma.fr/nesle/acte26/
14/03/2007 G. Poupeau 100
Dexuième type de requête
Interrogation de la base de données XML indexant l'ensemble des données conservées Interrogation par formulaire sur le site du centre Interrogation par Web services
Deux types de requêtes Interrogation en texte intégral Interrogation sur critères
14/03/2007 G. Poupeau 101
Le paquet de diffusion - DIP
Il se construit automatiquement en fonction de la requête et des informations du fichier METS
Le paquet diffère selon la nature de la requête un fichier XML conservé + un fichier XSL ou
XSL-FO + images Dans le cas d'une requête sur la base de données
XML : un fichier XML généré dynamiquement correspondant à la réponse + XSL + images
Les ressources générées ne sont pas conservées Indépendance du contenu de la mise en forme
finale
14/03/2007 G. Poupeau 102
Architecture logicielle
Serveur Web Apache Serveur d'applications Tomcat Framework Cocoon Base de données XML : eXist Une application développée en interne qui permet
de générer automatiquement les DIP à partir du METS et des requêtes de l'utilisateur
L'application n'est pas pérennisée et peut être changée à tout moment.
14/03/2007 G. Poupeau 103
Assurer l'accessibilité des informations
« mettre le Web et ses services à la disposition de tous les individus, quel que soit leur matériel ou logiciel, leur infrastructure réseau, leur langue maternelle, leur culture, leur localisation géographique, ou leurs aptitudes physiques ou mentales »Tim Berners-Lee, inventeur du Web
Pour assurer l'accessibilité, il faut suivre les standards du Web ne pas développer un site pour un navigateur penser aux personnes handicapés visuelles utilisant un lecteur
d'écran Dans le cadre des sites de service public, l'accessibilité est une exigence
légale : article 25 de la “loi pour l'égalité des droits et des chances, la participation à la citoyenneté des personnes handicapées” adopté par l'Assemblé le 3 février 2005
14/03/2007 G. Poupeau 104
Échanger l'information
L'utilisateur est une application
14/03/2007 G. Poupeau 105
La syndication de contenu Affichage synchronisé des informations d'un site A sur un
site B Connaître les mises à jour d'un site Web Un fichier XML dans un format précis (RSS ou ATOM) est
mis à disposition sur le serveur du site. Il est ensuite analysé pour l'afficher sur un autre site ou dans un agrégateur
14/03/2007 G. Poupeau 106
Le protocole OAI-PMH
OAI-PMH (Open Archive Initiative Protocol for metadata Harvesting) est un protocole d'échange des métadonnées
Utilisé par les archives ouvertes, réservoir d'articles alimenté par les chercheurs, exemple : http://halshs.ccsd.cnrs.fr/
Basé sur le procole HTTP et le langage XML Objectifs :
Découvrir, présenter et analyser le contenu d'une archive échanger des données asynchrones
14/03/2007 G. Poupeau 107
OAI- PMH : le data-provider
Data Provider
Les DP mettent en place une application informatique compatible OAI-PMH
Métadonnées en DC
Métadonnées autres
formats
Gestion des droits,
contrôle d’accès
Organisation de la
collection (sets)
identifiants
ListSetsListMetadataFormatsc
GetRecord
ListRecords
Identify
?
une base de données accessible via un serveur web
une application capable de répondre aux 6 requêtes OAI-PMH (verbs) ...
... et de renvoyer des documents XML valides
<record><dc:title>Titre du livre</<dc:title><dc:creator>Paul Pierre</dc:creator>
14/03/2007 G. Poupeau 108
OAI-PMH : le service provider
Les service providers (SP)...
Service Provider
Localisent les DP enregistrés
Collectent les métadonnées des DP avec un harvester (moissonneuse ) de manière automatique et incrémentale
Traitent les métadonnées en ajoutant des informations de <provenance>
Et ajoutent de la valeur sous la forme de services
recherche bibliographique
rapprochement, comptage de citations et de références
personnalisation, alerte
14/03/2007 G. Poupeau 109
Les Web services
Échanger de l'information structurée au format XML grâce au protocole HTTP
Protocole pour les Web services : SOAP, REST, XML-RPC
Croiser les sources d'informations de différents Web services : le mashup
Google Maps et Flick'r
14/03/2007 G. Poupeau 110
Merci à Emmanuelle Bermès, département de la bibliothèque numérique, BnF qui m'a
« prêté » quelques diapos
Merci à Christophe Jacobs pour son aide dans l'élaboration de cette formation
Merci à vous pour votre attention