les enjeux éditoriaux et technologiques de la diffusion en ligne des sources historiques...

110
Les enjeux éditoriaux et technologiques de la diffusion en ligne des sources historiques URFIST-Paris 14 mars 2007 Gautier Poupeau [email protected] Ecole nationale des chartes

Upload: yvette-bellanger

Post on 03-Apr-2015

108 views

Category:

Documents


3 download

TRANSCRIPT

Page 1: Les enjeux éditoriaux et technologiques de la diffusion en ligne des sources historiques URFIST-Paris 14 mars 2007 Gautier Poupeau gpoupeau@enc.sorbonne.fr

Les enjeux éditoriaux et technologiques de la diffusion en ligne des sources historiques

URFIST-Paris14 mars 2007

Gautier [email protected] nationale des chartes

Page 2: Les enjeux éditoriaux et technologiques de la diffusion en ligne des sources historiques URFIST-Paris 14 mars 2007 Gautier Poupeau gpoupeau@enc.sorbonne.fr

14/03/2007 G. Poupeau 2

Plan du cours

Pourquoi diffuser ligne ?Tour d'horizon des projets en ligneParticularités du support électroniqueLes problèmes de la conservation du document numériquePrésentation théorique du modèle OAISDu producteur à l'utilisateur : les différentes étapes de la mise en ligne d'une source

Page 3: Les enjeux éditoriaux et technologiques de la diffusion en ligne des sources historiques URFIST-Paris 14 mars 2007 Gautier Poupeau gpoupeau@enc.sorbonne.fr

14/03/2007 G. Poupeau 3

Les acteurs de l'édition scientifique (1)

Chaque acteur possède un marché spécifique et très peu de catalogues d'éditeurs rassemblent l'ensemble des types de publications

Acteurs privés Les PUF : monographies, revues, manuels Armand Collin : revues à fort tirage (Les Annales), Manuels

universitaires Gallimard : monographies (bibliothèque des idées) et vulgarisation

(collection découvertes) Le Seuil : manuels, synthèses, vulgarisation (revue l'Histoire) Brepols, spécialisé sur le Moyen Âge : manuels et éditions critiques Droz et champion, très spécialisés dans l'érudition : monographies et

éditions critiques Errance et Picard, spécialisées dans l'archéologie métropolitaine Klincksieck, de Boccard, spécialisés dans l'archéologie orientale

Page 4: Les enjeux éditoriaux et technologiques de la diffusion en ligne des sources historiques URFIST-Paris 14 mars 2007 Gautier Poupeau gpoupeau@enc.sorbonne.fr

14/03/2007 G. Poupeau 4

Les acteurs de l'édition scientifique (2)

Acteurs publics Les presses universitaires : Monographies, revues, actes de

colloques, éditions critiques, instruments de références, par exemple• CNRS éditions (propose aussi des ouvrages de vulgarisation)• Presses de Paris Sorbonne (PUPS – Paris IV)• Les publications de la Sorbonne (PUS – Paris 1)• Presses universitaires de Rennes (PUR)• la Direction de l'architecture et du patrimoine au ministère de la

culture édite les Documents d'archéologie française Un cas particulier : le CTHS, comité des travaux historiques et

scientifiques. Institution rattachée administrativement à l'École des chartes chargée de la publication des sociétés savantes et de l'organisation du congrès annuel des sociétés savantes.

Post-scriptum : Un éditeur public n'est pas forcément le diffuseur de ses éditions...

Page 5: Les enjeux éditoriaux et technologiques de la diffusion en ligne des sources historiques URFIST-Paris 14 mars 2007 Gautier Poupeau gpoupeau@enc.sorbonne.fr

14/03/2007 G. Poupeau 5

Les problèmes de l'édition scientifique

Augmentation du nombre de publications Augmentation du prix des périodiques Baisse du tirage (500 exemplaires en moyenne) Désintéressement du grand public pour des

publications scientifiques « pointues » Principaux voire uniques acheteurs : les

bibliothèques. Budgets consacrés à la publication de moins en

moins importants Les « colosses aux pieds d'argile » O. Guyotjeannin

Page 6: Les enjeux éditoriaux et technologiques de la diffusion en ligne des sources historiques URFIST-Paris 14 mars 2007 Gautier Poupeau gpoupeau@enc.sorbonne.fr

14/03/2007 G. Poupeau 6

« Le paradoxe de la publication scientifique »

Concept développé par Jean-Michel Salaün et Ghislaine Chartron, mais mis en lumière par d'autres : Steven Harnard ou Robert Darnton

Affrontement de deux logiques : économie des biens et économies des idées

« Publish or perish » : Publier pour avancer dans la recherche, mais comment publier ??

Mise en place de critères d'évaluation souvent peu adaptés aux caractéristiques des SHS Le facteur d'impact La bibliométrie

Page 7: Les enjeux éditoriaux et technologiques de la diffusion en ligne des sources historiques URFIST-Paris 14 mars 2007 Gautier Poupeau gpoupeau@enc.sorbonne.fr

14/03/2007 G. Poupeau 7

Avantages économiques ? logistiques ?

Une fausse idée : « l'édition électronique ne coûte rien » Le travail éditorial reste le même Coûts différents

Investissement en amont pour mettre au point plate-forme et applications

Pas de gestion des stocks, mais gestion des fichiers (serveurs, espaces disques, ingénieur systèmes)

Le coût d'une édition électronique n'est pas tenu de façon aussi stricte que le support papier à des contingences physiques

Un réel avantage financier ??

Avantage économique : possibilité d'un accès gratuit avec un financement en amont

Page 8: Les enjeux éditoriaux et technologiques de la diffusion en ligne des sources historiques URFIST-Paris 14 mars 2007 Gautier Poupeau gpoupeau@enc.sorbonne.fr

14/03/2007 G. Poupeau 8

Les enjeux du libre accès

Enjeux économiques : résoudre le paradoxe de la publication scientifique

Enjeux politiques :Empêcher la confiscation des résultats de la recherche scientifique par des grands groupes commerciaux

Enjeux sociaux : Permettre au plus grand nombre l'accès aux résultats de la recherche, même dans les pays ne pouvant se payer les abonnements. Redistribution des recherches financées sur des fonds publics

Page 9: Les enjeux éditoriaux et technologiques de la diffusion en ligne des sources historiques URFIST-Paris 14 mars 2007 Gautier Poupeau gpoupeau@enc.sorbonne.fr

14/03/2007 G. Poupeau 9

La souplesse éditoriale

Diffuser au fur et à mesure de la réalisation du projet Introduction de modifications avec un coût faible voire

nulProblème : Donner l'impression qu'une édition en ligne ne

constitue jamais un travail terminé Rendre légitime la publication électronique et la

publication « à étapes » Jouer sur la complémentarité entre le papier et

l'électronique Possibilité de multiplier les supports à partir de l'encodage

informatique de l'information

Page 10: Les enjeux éditoriaux et technologiques de la diffusion en ligne des sources historiques URFIST-Paris 14 mars 2007 Gautier Poupeau gpoupeau@enc.sorbonne.fr

14/03/2007 G. Poupeau 10

Disponibilité et utilisabilité

Disponibilité des ouvrages Audience potentielle du Web Publication potentiellement plus rapide Des études ont montré que les recherches en libre

accès sont cités deux fois plus que les autres Traitement et exploitation de l'information Interopérabilité : présence dans les agrégateurs de

contenu (exemple : oaister ou in-extenso)

Page 11: Les enjeux éditoriaux et technologiques de la diffusion en ligne des sources historiques URFIST-Paris 14 mars 2007 Gautier Poupeau gpoupeau@enc.sorbonne.fr

14/03/2007 G. Poupeau 11

Plan du cours

Pourquoi diffuser ligne ?Tour d'horizon des projets en ligneParticularités du support électroniqueLes problèmes de la conservation du document numériquePrésentation théorique du modèle OAISDu producteur à l'utilisateur : les différentes étapes de la mise en ligne d'une source

Page 12: Les enjeux éditoriaux et technologiques de la diffusion en ligne des sources historiques URFIST-Paris 14 mars 2007 Gautier Poupeau gpoupeau@enc.sorbonne.fr

14/03/2007 G. Poupeau 12

Numérisation – édition électronique

Les mêmes matériaux, techniques, outils voire la même réflexion que l'édition électronique

Numériser, ce n'est pas éditer !! Éditer, ce n'est pas numériser !! Numérisation n'est pas de l'édition conçue comme la publication

d'une œuvre originale Numérisation = fac-similé numérique d'une œuvre existante Passage d'une information existante d'un support à un autre en

utilisant le support original Deux types de numérisation : mode texte/mode image Numérisation ne se limite pas à scanner un ouvrage !! Qu'est-ce-qu'une bibliothèque numérique ? Qu'est-ce-qu'une

collection d'ouvrages numériques ?

Page 13: Les enjeux éditoriaux et technologiques de la diffusion en ligne des sources historiques URFIST-Paris 14 mars 2007 Gautier Poupeau gpoupeau@enc.sorbonne.fr

14/03/2007 G. Poupeau 13

Les archives ouvertes (1)

Les archives ouvertes sont des réservoirs d’articles scientifiques mis à disposition des internautes par les scientifiques eux-mêmes, le plus souvent gratuitement et répondant aux règles d’interopérabilité définies par l’Open Archive Initiative.

Les principaux enjeux associés aux archives ouvertes sont : un accès ouvert et simplifié aux publications scientifiques, une recherche d’information décuplée (interopérabilité possible entre les archives) et une mémoire scientifique commune.

Page 14: Les enjeux éditoriaux et technologiques de la diffusion en ligne des sources historiques URFIST-Paris 14 mars 2007 Gautier Poupeau gpoupeau@enc.sorbonne.fr

14/03/2007 G. Poupeau 14

Les archives ouvertes (2)

Différents types d’archives ouvertes Au niveau du type d’article :

• De prépublications• De postpublications• Les deux

Au niveau du type d’archives• Par domaines : exple, en économie : http://econwpa.wustl.edu/ ou en sciences

de l’information : http://archivesic.ccsd.cnrs.fr/ • Par institutions : exple : Lyon 2 : http://eprints.univ-lyon2.fr:8050/, l’ens-lsh :

http://eprints.ens-lsh.fr/, l’institut Jean Nicod : http://jeannicod.ccsd.cnrs.fr/, le plus connu Escolarship de l’université de Californie : http://escholarship.cdlib.org/

Le cas français : l'accord CPU, CEMAGREF, CNRS, INRA, INRIA, INSERM, IRD, CIRAD, Institut Pasteur, Conférence des Grandes Ecoles pour une plate-forme nationale : HAL

Page 15: Les enjeux éditoriaux et technologiques de la diffusion en ligne des sources historiques URFIST-Paris 14 mars 2007 Gautier Poupeau gpoupeau@enc.sorbonne.fr

14/03/2007 G. Poupeau 15

Les revues en ligne

Différents types de revues en ligne: Revues existant sur le papier et dont on développe une version

électronique en texte intégral souvent intégrée dans des portails

Revues existant exclusivement sur le Web Revues existant sur le papier pour lesquelles le Web est une

vitrine Différentes offres

Revue intégrée à un portail Revue isolée

Notion de barrière flottante Offre à l'étranger : Elsevier (Science direct), Jstor, Muse,

Erudit

Page 16: Les enjeux éditoriaux et technologiques de la diffusion en ligne des sources historiques URFIST-Paris 14 mars 2007 Gautier Poupeau gpoupeau@enc.sorbonne.fr

14/03/2007 G. Poupeau 16

Les revues en ligne (2) : le cas français

Un acteur public : Revues.org Un acteur privé : CAIRN (Belin, De Boeck, La

Découverte, Erès : 4 éditeurs + BnF et soutien de Gesval et CNL)

Un portail pour la numérisation rétrospective des revues en SHS : Persée

Page 17: Les enjeux éditoriaux et technologiques de la diffusion en ligne des sources historiques URFIST-Paris 14 mars 2007 Gautier Poupeau gpoupeau@enc.sorbonne.fr

14/03/2007 G. Poupeau 17

Les thèses en ligne

Un des chantiers les plus engagés avec les revues Volonté institutionnelle forte (cf. le rapport Jolly sur la diffusion

électronique des thèses)

Projet pilote mené à Lyon II : Cyberthèses avec mise au point d’une chaîne de traitement automatique

Pas une volonté d’édition mais de diffusion et d’archivage.

Serveur des thèses de Lyon II : http://theses.univ-lyon2.fr/

Les problèmes rencontrés : les changements en 2005 TEF. Norme AFNOR pour les métadonnées des revues

Page 18: Les enjeux éditoriaux et technologiques de la diffusion en ligne des sources historiques URFIST-Paris 14 mars 2007 Gautier Poupeau gpoupeau@enc.sorbonne.fr

14/03/2007 G. Poupeau 18

Les instruments de recherche et les usuels

L’avènement du Web a permis la mise en ligne d’instruments de la recherche comme les bases de données, avant confinés dans les laboratoires de recherche

Elles permettent la mise en ligne de données brutes de la recherche non encore analysées mais classées

Par exemple, en histoire : Base de données bibliographiques : BEDE Base de données prosopographiques : PASE Inventaires, catalogues ou répertoires : Répertoire des cartulaires français

Quelques dictionnaires Le trésor de la langue française : http://atilf.atilf.fr/tlf.htm Une liste intéressante de dictionnaires :

http://www.admin.ch/ch/f/bk/sp/dicos/monol.html

Page 19: Les enjeux éditoriaux et technologiques de la diffusion en ligne des sources historiques URFIST-Paris 14 mars 2007 Gautier Poupeau gpoupeau@enc.sorbonne.fr

14/03/2007 G. Poupeau 19

Manuels

Peu d'offres en ligne, car est plutôt du ressort des éditeurs privés

Une réflexion associant universités, éditeurs privés et labo de recherches : Manum

Universités se sont tournées vers l'enseignement à distance et les cours en ligne à destination de ses étudiants : cf la plate-forme Claroline

Exemple d'une expérience à l'École des chartes : Theleme

Page 20: Les enjeux éditoriaux et technologiques de la diffusion en ligne des sources historiques URFIST-Paris 14 mars 2007 Gautier Poupeau gpoupeau@enc.sorbonne.fr

14/03/2007 G. Poupeau 20

Les sources historiques Projets menés par des institutions universitaires, des laboratoires de

recherche et par des éditeurs privés Edition de sources historiques, d’ouvrages de référence, d’ouvrages de

littérature sous forme hypertextuelle Sources de première main : Numérisation patrimoniale (par exemple : liber

floridus) Sources de seconde main numérisée dans le cadre d'une bibliothèque

numérique : Gallica Édition électronique d'édition critique de sources : le Cartulaire blanc Repérage et description de sources

Catalogue : Catalogue général des manuscrits Instruments de recherche : les instruments de recherche en ligne en

EAD

Page 21: Les enjeux éditoriaux et technologiques de la diffusion en ligne des sources historiques URFIST-Paris 14 mars 2007 Gautier Poupeau gpoupeau@enc.sorbonne.fr

14/03/2007 G. Poupeau 21

Plan du cours

Pourquoi diffuser ligne ?Tour d'horizon des projets en ligneParticularités du support électroniqueLes problèmes de la conservation du document numériquePrésentation théorique du modèle OAISDu producteur à l'utilisateur : les différentes étapes de la mise en ligne d'une source

Page 22: Les enjeux éditoriaux et technologiques de la diffusion en ligne des sources historiques URFIST-Paris 14 mars 2007 Gautier Poupeau gpoupeau@enc.sorbonne.fr

14/03/2007 G. Poupeau 22

Séparation du support et des données

Séparation entre l'information elle-même et le support de l'information : la dématérialisation

Mais : Besoin d'un artefact indépendant a-priori de l'information pour

accéder aux données L'information est stockée à un seul endroit

Pas de notion d'organisation physique de l'information L'information doit être traduite dans un format exploitable par

un ordinateur Mais :

Il faut conserver la structure logique de l'information Il faut pouvoir mettre en place des interfaces de visualisation de

l'information

Page 23: Les enjeux éditoriaux et technologiques de la diffusion en ligne des sources historiques URFIST-Paris 14 mars 2007 Gautier Poupeau gpoupeau@enc.sorbonne.fr

14/03/2007 G. Poupeau 23

Les responsabilités

Nouvelle organisation de la chaîne auteur-éditeur-lecteur : concept de désintermédiation et la navigation du lecteur

Les responsabilités juridiques

Page 24: Les enjeux éditoriaux et technologiques de la diffusion en ligne des sources historiques URFIST-Paris 14 mars 2007 Gautier Poupeau gpoupeau@enc.sorbonne.fr

14/03/2007 G. Poupeau 24

La visualisation, la navigation, la consultation

La lecture à l'écran Interface graphique : notion d'ergonomie et de graphisme

voire de « webDesign » Le feuilletage remplacé par la navigation ---> le principe

de l'hypertexte Multiplication des points d'accès à l'information : la

notion de parcours de lecture

Page 25: Les enjeux éditoriaux et technologiques de la diffusion en ligne des sources historiques URFIST-Paris 14 mars 2007 Gautier Poupeau gpoupeau@enc.sorbonne.fr

14/03/2007 G. Poupeau 25

Plan du cours

Pourquoi diffuser ligne ?Tour d'horizon des projets en ligneParticularités du support électroniqueLes problèmes de la conservation du document numérique Présentation théorique du modèle OAISDu producteur à l'utilisateur : les différentes étapes de la mise en ligne d'une source

Page 26: Les enjeux éditoriaux et technologiques de la diffusion en ligne des sources historiques URFIST-Paris 14 mars 2007 Gautier Poupeau gpoupeau@enc.sorbonne.fr

14/03/2007 G. Poupeau 26

Le problème de la conservation

Une fois les documents stockés, sont-il vraiment en sécurité ? Pour combien de temps ?

Identifier les risques Sauvegarder n’est pas archiver ! … le problème de la conservation

Page 27: Les enjeux éditoriaux et technologiques de la diffusion en ligne des sources historiques URFIST-Paris 14 mars 2007 Gautier Poupeau gpoupeau@enc.sorbonne.fr

14/03/2007 G. Poupeau 27

Préserver les documents numériques : quel enjeu ?

Voici un document numérique que j’ai créé en 1998.

Je l’ai enregistré sur une disquette, est-elle toujours en bon état ?

Mon portable, acheté en 2004, n’a pas de lecteur de disquette. Où en trouver un ?

J’ai créé ce document avec Claris Works. Comment vais-je retrouver ce logiciel ?

J’ai trouvé le logiciel, mais puis-je l’installer et l’utiliser sous Windows XP ?

Ca marche ! Mais j’ai perdu toute ma mise en forme …

De quoi s’agit-il, déjà? Est-ce bien ce qui est indiqué sur la disquette ?

Page 28: Les enjeux éditoriaux et technologiques de la diffusion en ligne des sources historiques URFIST-Paris 14 mars 2007 Gautier Poupeau gpoupeau@enc.sorbonne.fr

14/03/2007 G. Poupeau 28

Caractéristiques de l'édition scientifique sur le Web

Support unique de l'information sur le serveur de l'éditeur

Données doivent pouvoir être encore exploitées dans 50 ou 100 ans

Les données doivent être citables dans une bibliographie

Les références doivent rester accessibles

Page 29: Les enjeux éditoriaux et technologiques de la diffusion en ligne des sources historiques URFIST-Paris 14 mars 2007 Gautier Poupeau gpoupeau@enc.sorbonne.fr

14/03/2007 G. Poupeau 29

La conservation : une problématique nouvelle

« la conservation de l'information sous forme numérique est beaucoup plus complexe que la conservation de l'information sur supports papier ou film. Ceci n’est pas seulement un problème pour les Archives traditionnelles, mais également pour de nombreux organismes qui, jusque-là, n’avaient jamais eu conscience d'assurer une fonction d'archivage ». p. 13 de la traduction française de la norme OAIS

Page 30: Les enjeux éditoriaux et technologiques de la diffusion en ligne des sources historiques URFIST-Paris 14 mars 2007 Gautier Poupeau gpoupeau@enc.sorbonne.fr

14/03/2007 G. Poupeau 30

La mission de l'éditeur scientifique

Garantir l'accès à long terme aux ressources qu'il produit et met à disposition en ligne

Pérennisation des fichiers à l'origine de la ressource en ligne

QUESTION :Existe-t-il une différence entre le but poursuivi par un

éditeur et par un bibliothécaire ou un archiviste ?

Page 31: Les enjeux éditoriaux et technologiques de la diffusion en ligne des sources historiques URFIST-Paris 14 mars 2007 Gautier Poupeau gpoupeau@enc.sorbonne.fr

14/03/2007 G. Poupeau 31

Un exemple dans le contexte de l'édition papier

La France au Moyen Âge, du Ve au XVe siècle

Claude GauvardPresses universitaires de France

Page 32: Les enjeux éditoriaux et technologiques de la diffusion en ligne des sources historiques URFIST-Paris 14 mars 2007 Gautier Poupeau gpoupeau@enc.sorbonne.fr

14/03/2007 G. Poupeau 32

Quatre éditions

Page 33: Les enjeux éditoriaux et technologiques de la diffusion en ligne des sources historiques URFIST-Paris 14 mars 2007 Gautier Poupeau gpoupeau@enc.sorbonne.fr

14/03/2007 G. Poupeau 33

Deux chartes graphiques différentes

Édition de 1997 Dernière édition : 2004

Page 34: Les enjeux éditoriaux et technologiques de la diffusion en ligne des sources historiques URFIST-Paris 14 mars 2007 Gautier Poupeau gpoupeau@enc.sorbonne.fr

14/03/2007 G. Poupeau 34

L'évolution d'un document numérique

Le contenu La charte graphique Le format de description des données A garder en tête, le support n'existe qu'à un

seul endroit : le serveur

Page 35: Les enjeux éditoriaux et technologiques de la diffusion en ligne des sources historiques URFIST-Paris 14 mars 2007 Gautier Poupeau gpoupeau@enc.sorbonne.fr

14/03/2007 G. Poupeau 35

Évolution du contenu de la ressource

Pour le papier : nouvelle édition Avantage de l'électronique : souplesse

éditoriale, changement immédiat et à n'importe quel moment

Question :Doit-on conserver les deux versions du fichier ?

Page 36: Les enjeux éditoriaux et technologiques de la diffusion en ligne des sources historiques URFIST-Paris 14 mars 2007 Gautier Poupeau gpoupeau@enc.sorbonne.fr

14/03/2007 G. Poupeau 36

Modification de la charte graphique

Pour le papier : nouvelle édition Évolution de la charte graphique

Question :Dois-je donner un moyen de visualiser les deux

versions ?Est-ce-que cela entre dans le cadre de mes missions

d'éditeur électronique ?

Page 37: Les enjeux éditoriaux et technologiques de la diffusion en ligne des sources historiques URFIST-Paris 14 mars 2007 Gautier Poupeau gpoupeau@enc.sorbonne.fr

14/03/2007 G. Poupeau 37

Changement du format

Migration des fichiers pour des raisons de cohérence éditoriale ou technique

Les deux fichiers sont encore lisibles car ils utilisent le même format mais ils n'utilisent pas le même formalisme

Question :Doit-on conserver les deux versions du fichier ?

Page 38: Les enjeux éditoriaux et technologiques de la diffusion en ligne des sources historiques URFIST-Paris 14 mars 2007 Gautier Poupeau gpoupeau@enc.sorbonne.fr

14/03/2007 G. Poupeau 38

Quelques réponses

Question 1 : les différentes versions mais on donne accès à la dernière en indiquant la date de modification

Question 2 : Le dépôt légal du Web Question 3 : il faudrait le conserver, mais pas

l'éditeur. Qui ? l'IMEC ? les Archives nationales ?

Page 39: Les enjeux éditoriaux et technologiques de la diffusion en ligne des sources historiques URFIST-Paris 14 mars 2007 Gautier Poupeau gpoupeau@enc.sorbonne.fr

14/03/2007 G. Poupeau 39

Une contrainte technique : la préservation

La conservation à long terme est un enjeu pour le document numérique : supports formats environnement matériel et logiciel

Stocker/sauvegarder ce n’est pas archiver !!!

La préservation doit être au cœur de la réflexion à toutes les étapes de réalisation d'un projet de diffusion en ligne

Un modèle d’archivage : l’OAIS (ISO 14721) les documents et leurs métadonnées le cycle de vie du document

Page 40: Les enjeux éditoriaux et technologiques de la diffusion en ligne des sources historiques URFIST-Paris 14 mars 2007 Gautier Poupeau gpoupeau@enc.sorbonne.fr

14/03/2007 G. Poupeau 40

Plan du cours

Pourquoi diffuser ligne ?Tour d'horizon des projets en ligneParticularités du support électroniqueLes problèmes de la conservation du document numériquePrésentation théorique du modèle OAISDu producteur à l'utilisateur : les différentes étapes de la mise en ligne d'une source

Page 41: Les enjeux éditoriaux et technologiques de la diffusion en ligne des sources historiques URFIST-Paris 14 mars 2007 Gautier Poupeau gpoupeau@enc.sorbonne.fr

14/03/2007 G. Poupeau 41

Le modèle OAIS : présentation (1)

Open Archival Information System Norme ISO (14721) mis au point par le CCSDS (Consultative

Comitee for Space Data Systems) Modèle conceptuel explicitant théoriquement la mise en place d'un

entrepôt de document numérique en vue de leur archivage sur le long terme Les fonctions Les responsabilités L'organisation du système Une terminologie commune

« Le Long terme est défini comme étant suffisamment long pour être soumis à l’impact des changements technologiques, y compris à la prise en compte de nouveaux supports et nouveaux formats de données ou à des changements de la communauté d’utilisateurs »

Page 42: Les enjeux éditoriaux et technologiques de la diffusion en ligne des sources historiques URFIST-Paris 14 mars 2007 Gautier Poupeau gpoupeau@enc.sorbonne.fr

14/03/2007 G. Poupeau 42

Le modèle OAIS : présentation (2)

A quoi sert-il, concrètement ? À établir la responsabilité de la conservation : notion de mission, de

contrat À surveiller les documents avant que les dégradations ne se produisent

(en général, avec le numérique, « après »= trop tard) À garantir l’intégrité des documents, vérifier qu’ils ne sont pas altérés,

et s’ils le sont, expliquer pourquoi À organiser l’activité de conservation autour d’un référentiel commun

pour faciliter les évolutions

Page 43: Les enjeux éditoriaux et technologiques de la diffusion en ligne des sources historiques URFIST-Paris 14 mars 2007 Gautier Poupeau gpoupeau@enc.sorbonne.fr

14/03/2007 G. Poupeau 43

Le modèle OAIS n'est pas...

il ne donne pas de formats, schémas, règles ou techniques pour préserver les documents numériques

il ne décrit pas les applications informatiques et techniques à mettre en œuvre, ni logicielles, ni matérielles

il ne donne pas de méthodologie concrète de réalisation d’un tel système (cahier des charges, workbook ou autre).

Page 44: Les enjeux éditoriaux et technologiques de la diffusion en ligne des sources historiques URFIST-Paris 14 mars 2007 Gautier Poupeau gpoupeau@enc.sorbonne.fr

14/03/2007 G. Poupeau 44

Quels sont les intervenants dans la gestion de l'information numérique ? Les acteurs

Comment décrire mes objets en vue de leur préservation ? Le modèle d’information

Quelles sont les méthodes pour éviter l’obsolescence technologique ? Les stratégies de préservation

Quelle organisation mettre en place pour assurer cette activité de préservation ? Le modèle fonctionnel

Composantes du modèle OAIS

Page 45: Les enjeux éditoriaux et technologiques de la diffusion en ligne des sources historiques URFIST-Paris 14 mars 2007 Gautier Poupeau gpoupeau@enc.sorbonne.fr

14/03/2007 G. Poupeau 45

Les acteurs de l'OAIS

Archive

Management

Producteur Utilisateur

Page 46: Les enjeux éditoriaux et technologiques de la diffusion en ligne des sources historiques URFIST-Paris 14 mars 2007 Gautier Poupeau gpoupeau@enc.sorbonne.fr

14/03/2007 G. Poupeau 46

Objet données Information de pérennisationProvenance, contexte,

intégrité…

Paquet d’informations

Information de représentation

Format, langue…+ +

+ +

Monde réel :

Monde numérique :

Le modèle d'informations

Page 47: Les enjeux éditoriaux et technologiques de la diffusion en ligne des sources historiques URFIST-Paris 14 mars 2007 Gautier Poupeau gpoupeau@enc.sorbonne.fr

14/03/2007 G. Poupeau 47

Les paquets d’information ont une forme différente suivant ce qu’on en fait

Paquet d’archivage (AIP)

Paquet de dissémination (DIP)

Paquet de versement (SIP)

Les paquets d'informations

Page 48: Les enjeux éditoriaux et technologiques de la diffusion en ligne des sources historiques URFIST-Paris 14 mars 2007 Gautier Poupeau gpoupeau@enc.sorbonne.fr

14/03/2007 G. Poupeau 48

Le modèle fonctionnel

PR

OD

UC

TE

UR

UT

ILISA

TE

UR

MANAGEMENT

entrées

données

stockage

SIPAIP accès

DIP

ADMINISTRATION

PLANIFICATION DE LA PRESERVATION

Page 49: Les enjeux éditoriaux et technologiques de la diffusion en ligne des sources historiques URFIST-Paris 14 mars 2007 Gautier Poupeau gpoupeau@enc.sorbonne.fr

14/03/2007 G. Poupeau 49

Principes pour la conservation du numérique

Séparer les données des applications les exploitant Modéliser l'information par rapport à son fonctionnement

intrinsèque, plutôt que par rapport à une application précise Surveiller et renouveler régulièrement les supports (de façon

préventive) Contrôler l’intégrité des documents (le « train de bits ») Collecter toutes les informations nécessaires pour maîtriser

le document (métadonnées) Transformer le document dans une forme plus facile à conserver

dans le temps (« migration »), c'est à dire utiliser des formats contrôlables

Collecter toutes les informations concernant ces transformations Collecter des environnements et des plateformes de références

pour l’avenir (« émulation »)

Page 50: Les enjeux éditoriaux et technologiques de la diffusion en ligne des sources historiques URFIST-Paris 14 mars 2007 Gautier Poupeau gpoupeau@enc.sorbonne.fr

14/03/2007 G. Poupeau 50

Plan du cours

Pourquoi diffuser ligne ?Tour d'horizon des projets en ligneParticularités du support électroniqueLes problèmes de la conservation du document numériquePrésentation théorique du modèle OAISDu producteur à l'utilisateur : les différentes étapes de la mise en ligne d'une source

Page 51: Les enjeux éditoriaux et technologiques de la diffusion en ligne des sources historiques URFIST-Paris 14 mars 2007 Gautier Poupeau gpoupeau@enc.sorbonne.fr

14/03/2007 G. Poupeau 51

Missions de TELMA

Mettre en place une plate-forme technique pour accueillir, gérer, conserver et diffuser les données accueillies par le centre.

Devenir un relais d'information et de soutien technique pour la communauté des chercheurs en histoire dans le domaine du traitement numérique de l'information scientifique

Devenir un intermédiaire entre la communauté des chercheurs et les institutions de conservation, en particulier leurs tutelles pour mener des actions de numérisation partagées

Assurer une veille technologique et représenter la communauté des chercheurs en histoire dans les organismes de normalisation comme le TEI consortium

Page 52: Les enjeux éditoriaux et technologiques de la diffusion en ligne des sources historiques URFIST-Paris 14 mars 2007 Gautier Poupeau gpoupeau@enc.sorbonne.fr

14/03/2007 G. Poupeau 52

Notre exemple : deux actes du cartulaire de Nesle

Le but de la mise en ligne Donner à lire le texte transcrit de la source Offrir la numérisation de la source primaire Offrir des interfaces pour naviguer dans la source

éditée et numérisée Offrir des moyens de traiter la source

De quoi dispose le chercheur ? Un document Word contenant l'édition critique La source primaire à numériser

Page 53: Les enjeux éditoriaux et technologiques de la diffusion en ligne des sources historiques URFIST-Paris 14 mars 2007 Gautier Poupeau gpoupeau@enc.sorbonne.fr

14/03/2007 G. Poupeau 53

1ère étape : négociation avec le management

Déterminer les buts poursuivis par le producteur Déterminer la communauté d'utilisateurs Déterminer la responsabilité et l'implication de

l'archive Responsabilité en terme de conservation Responsabilité de diffusion Responsabilité de réalisation Responsabilité juridique

Accord entre le producteur et le management sur les formats des fichiers conservés par l'archive en fonction des responsabilités demandés et des buts poursuivis

Déterminer les métadonnées nécessaires à la réalisation des buts et au respect des responsabilités

Page 54: Les enjeux éditoriaux et technologiques de la diffusion en ligne des sources historiques URFIST-Paris 14 mars 2007 Gautier Poupeau gpoupeau@enc.sorbonne.fr

14/03/2007 G. Poupeau 54

2ème étape : encoder l'information

Rendre lisible l'information brute à un ordinateur L'information possède une structure et une cohérence

intrinsèque Structure hiérarchique de l'information Encoder un texte répond à différents objectifs :

publication, étude et analyse L'information possède des contextes

contexte morphologique contexte grammatical contexte documentaire contexte historique

Page 55: Les enjeux éditoriaux et technologiques de la diffusion en ligne des sources historiques URFIST-Paris 14 mars 2007 Gautier Poupeau gpoupeau@enc.sorbonne.fr

14/03/2007 G. Poupeau 55

Le choix des formats utilisés

Page 56: Les enjeux éditoriaux et technologiques de la diffusion en ligne des sources historiques URFIST-Paris 14 mars 2007 Gautier Poupeau gpoupeau@enc.sorbonne.fr

14/03/2007 G. Poupeau 56

Types d'encodage de l'information

La base de données Le format binaire Le format texte (ascii) Le format texte + systèmes d'étiquetages

Page 57: Les enjeux éditoriaux et technologiques de la diffusion en ligne des sources historiques URFIST-Paris 14 mars 2007 Gautier Poupeau gpoupeau@enc.sorbonne.fr

14/03/2007 G. Poupeau 57

Les formats ouverts et libres

Pourquoi garantir indépendance de l'information par rapport à un logiciel OU à un éditeur ?

Critères auxquels doit répondre le format : Spécification du format accessibles gratuitement (format

libre) Spécification non soumise au paiement de royalties

(format ouvert) Assurer la stricte séparation entre la mise en forme et le

contenu : format indépendant de logiciels et/ou de plates-formes

Le format doit être un standard reconnu Doit permettre de mettre en lumière les différents

contextes

Page 58: Les enjeux éditoriaux et technologiques de la diffusion en ligne des sources historiques URFIST-Paris 14 mars 2007 Gautier Poupeau gpoupeau@enc.sorbonne.fr

14/03/2007 G. Poupeau 58

le XML

Répond aux exigences précédentes Langage à balises héritier de SGML Mis au point au W3C Met en lumière la structure logique et hiérarchique d'un texte

au moyen de balises Langages à balises:<nom>Poupeau</nom><prenom>Gautier</prenom> les balises indiquent le rôle/la caractéristique de l'information

dans le contexte du document Schéma XML, une grammaire qui détermine le nom des

balises et leurs règles d'agencement. Différentes syntaxes pour décrire une grammaire : DTD,

XML schema, Relax NG

Page 59: Les enjeux éditoriaux et technologiques de la diffusion en ligne des sources historiques URFIST-Paris 14 mars 2007 Gautier Poupeau gpoupeau@enc.sorbonne.fr

14/03/2007 G. Poupeau 59

La TEI : Text encoding initiative

Mise en place depuis 1987 (SGML) Maintenu par le TEI consortium 5ème version actuellement en développement Comprend 450 éléments pour encoder les textes en

SHS et en littérature La TEI est un guide composé de recommandations

et de la proposition de balises normalisées En fonction du texte encodé, choix de modules

dans la TEI pour créer une grammaire adaptée Très utilisée dans le monde anglo-saxon et de plus

en plus utilisée dans les pays européens

Page 60: Les enjeux éditoriaux et technologiques de la diffusion en ligne des sources historiques URFIST-Paris 14 mars 2007 Gautier Poupeau gpoupeau@enc.sorbonne.fr

14/03/2007 G. Poupeau 60

Structure générale d'un fichier TEI

<TEI><teiHeader>

<fileDesc><titleStmt><title>Le titre</title></titleStmt><publicationStmt><p>Éditeur</p></publicationStmt><sourceDesc><p>Source du fichier numérique</p></sourceDesc>

</fileDesc></teiHeader><text>

<front></front><body>

<div></div> (la balise magique !!)<div type="partie"></div>

</body><back></back>

</text></TEI>

Page 61: Les enjeux éditoriaux et technologiques de la diffusion en ligne des sources historiques URFIST-Paris 14 mars 2007 Gautier Poupeau gpoupeau@enc.sorbonne.fr

14/03/2007 G. Poupeau 61

Les éléments d'un texte

Les mises en valeur : <hi></hi> Les images :

<figure><figDesc></figDesc><graphic/></figure> Les citations : <q></q> ou <quote></quote> Les notes : <note></note> Les mots étrangers : <foreign></foreign> Les listes : <list><item></item></list> Les tableaux :

<table><row><cell></cell></row></table>

Page 62: Les enjeux éditoriaux et technologiques de la diffusion en ligne des sources historiques URFIST-Paris 14 mars 2007 Gautier Poupeau gpoupeau@enc.sorbonne.fr

14/03/2007 G. Poupeau 62

Page 63: Les enjeux éditoriaux et technologiques de la diffusion en ligne des sources historiques URFIST-Paris 14 mars 2007 Gautier Poupeau gpoupeau@enc.sorbonne.fr

14/03/2007 G. Poupeau 63

L'encodage des données

Page 64: Les enjeux éditoriaux et technologiques de la diffusion en ligne des sources historiques URFIST-Paris 14 mars 2007 Gautier Poupeau gpoupeau@enc.sorbonne.fr

14/03/2007 G. Poupeau 64

Qu'est-ce-qu'on encode ? (1)

L'encodage XML reflète la structure logique et hiérarchique de l'information.

Il implique la séparation du contenu (une portion d'informations correspond à un titre d'ouvrage) et la mise en forme (le titre est en italique)

L'encodage XML ne sert pas à donner le sens du texte : il ne s'agit pas de sémantique !!

Extensibilité de XML est infinie : d'une partie à une lettre à l'intérieur d'un mot ---> Il est essentiel de faire des choix, car il est impossible de tout encoder. Penser aux possibilités de la grammaire utilisée

Questions essentielles : Pourquoi encoder ce document ? A quoi va servir l'encodage ? Quelles informations sont utiles par rapport au but poursuivi ? Quelle est la nature du document ? Comment fonctionne-t-il ?

Page 65: Les enjeux éditoriaux et technologiques de la diffusion en ligne des sources historiques URFIST-Paris 14 mars 2007 Gautier Poupeau gpoupeau@enc.sorbonne.fr

14/03/2007 G. Poupeau 65

Qu'est-ce-qu'on encode ? (2)

Deux parties dans un document Les macro-structures (corps du texte, annexes, parties

liminaires, chapitre, partie, sous-partie, paragraphes, strophes, vers, acte, scène, répliques...).

Les micro-structures : tableaux, figures, notes, indexation, emphase....

Page 66: Les enjeux éditoriaux et technologiques de la diffusion en ligne des sources historiques URFIST-Paris 14 mars 2007 Gautier Poupeau gpoupeau@enc.sorbonne.fr
Page 67: Les enjeux éditoriaux et technologiques de la diffusion en ligne des sources historiques URFIST-Paris 14 mars 2007 Gautier Poupeau gpoupeau@enc.sorbonne.fr
Page 68: Les enjeux éditoriaux et technologiques de la diffusion en ligne des sources historiques URFIST-Paris 14 mars 2007 Gautier Poupeau gpoupeau@enc.sorbonne.fr

<text xml:id="acte26" n="26"> <front> <titlePage> <docTitle> <titlePart n="26">Acte 26</titlePart> </docTitle> <docAuthor>Guillaume de Chassey, chevalier, bailli d’Auxois</docAuthor> <docDate> <date from="1264-03-01" to="1264-03-31">1264 n. st., mars.</date> </docDate> </titlePage> <div type="regeste"> <p> Guillaume de Chassey, chevalier, bailli d’Auxois, notifie qu’en sa présence Guillermin de Rugney, écuyer, a reconnu avoir vendu à Jean de Nesle, écuyer, ce qu’il avait des tierces de Nesle, soit le quart de ces tierces, pour dix l. t. Ancous d’Alerey s’est établi plège pour Guillermin à hauteur de 30 l. t. A la requête de Guillermin et d’Ancous, le bailli a scellé l’acte. </p> </div> </front>

Page 69: Les enjeux éditoriaux et technologiques de la diffusion en ligne des sources historiques URFIST-Paris 14 mars 2007 Gautier Poupeau gpoupeau@enc.sorbonne.fr

<body> <div xml:lang="frm" type="acte"> <p> Nos, <persName corresp="#ip167">Guillaumes de Cheacey</persName>, chevaliers, bailliz de Aussois por noble honme <persName corresp="#ip103">Hugon</persName>, duc de Borgoigne, faisons savoir a touz cels qui verront cels presentes letres que, an nostre presence estaublis <persName corresp="#ip187">Guillermins de Ruygney</persName>, escuiers, at reconeu que il at vendu, quittei et delivrei a <persName corresp="#ip93">Jehant de Neelles</persName>, escuier, a tenir a touz jours, lui et ses hoirs, tout ce que il avoit as tierces de <placeName corresp="#il44">Neelles</placeName>, c’est a savoir lou quart des dites tierces por dix livres de tornois ; des queles li diz <persName corresp="#ip187" >Guillermins</persName> se est tenuz por paiez per devant nos an deniers nombrez. Et ceste dite vendue, ceste quittance et ceste delivrance lidis <persName corresp="#ip187">Guillermins</persName> at promis a tenir per son soirement fait corporelment per devant nos et a guarantir au dit <pb n="53v"/> <persName corresp="#ip93">Jehant</persName> et a ses hoirs contre toutes genz ; et se il defailloit del garantir <persName corresp="#ip31">Ancous de Alerey</persName> se est estaubliz per devant nos pleges et detres an la main au dit <persName corresp="#ip93">Jehant</persName> ou a ses hoirs de trente livres de tornois por lou defaut de la dite garantie ; et les porroit lever li diz <persName corresp="#ip93">Jehanz</persName> ou sui hoir del dit <persName corresp="#ip31">Ancous</persName> ou de ses hoirs por lou dit defaut ; et toutes ces dites choses li diz <persName corresp="#ip187">Guillermins</persName> et li diz <persName corresp="#ip31">Ancous</persName> ont promis a tenir li diz <persName corresp="#ip187">Guillermins</persName> per son seirement dessus dit et li diz Ancous an bone foi, senz aler ne faire a aler ancontre per aux ne per autrui ; et ont quittées toutes barres per quoi il porroient aler ou faire a aler ancontre ces dites choses ; et se il aloient ou faisoient a aler ancontre, il nos ont donei pooir de aux contreindre as dessus dites <pb n="54"/> choses tenir et de aux gaigier senz plait, senz fuyte, senz asloigne ausic cum de chose que ait estei jugié per nos an nostre cort. Et que ce soit plus ferme chose et plus estauble, per la requeste <del n="a" rend="gratté">del dit</del> del dit <persName corresp="#ip187" >Guillermin</persName> et del dit <persName corresp="#ip31" >Ancous</persName>, nos avons mis nostre seaul an cels presentes letres. Ce fu fait an l’an nostre Signour m. cc. sexante et trois, el mois de marz. </p> </div> </body></text>

Page 70: Les enjeux éditoriaux et technologiques de la diffusion en ligne des sources historiques URFIST-Paris 14 mars 2007 Gautier Poupeau gpoupeau@enc.sorbonne.fr

14/03/2007 G. Poupeau 70

La numérisation de la source primaire

Page 71: Les enjeux éditoriaux et technologiques de la diffusion en ligne des sources historiques URFIST-Paris 14 mars 2007 Gautier Poupeau gpoupeau@enc.sorbonne.fr

14/03/2007 G. Poupeau 71

La numérisation de la source

Format de l'image numérisée TIFF pour la conservation JPEG pour la diffusion

La numérisation « déconstruit » l'ouvrage

Page 72: Les enjeux éditoriaux et technologiques de la diffusion en ligne des sources historiques URFIST-Paris 14 mars 2007 Gautier Poupeau gpoupeau@enc.sorbonne.fr

14/03/2007 G. Poupeau 72

La numérisation de la source

Reconstruire l'intégrité de la source grâce aux métadonnées, cad reconstruire la reliure

Faire correspondre la page originale au fichier informatique, cad procéder à un récollement

Faire correspondre structure logique et structure physique

Page 73: Les enjeux éditoriaux et technologiques de la diffusion en ligne des sources historiques URFIST-Paris 14 mars 2007 Gautier Poupeau gpoupeau@enc.sorbonne.fr

<METS:structMap><METS:div ID="ouvrage" LABEL="CARTULAIRE DE NESLE" TYPE="MPV">

..........<METS:div LABEL="page 105" TYPE="acte">

<METS:fptr FILEID="nesle53"/><METS:fptr FILEID="nesletxt">

<METS:area FILEID="nesletxt" COORDS="53"/></METS:fptr>

</METS:div><METS:div LABEL="page 106" TYPE="acte">

<METS:fptr FILEID="nesle53v"/><METS:fptr FILEID="nesletxt">

<METS:area FILEID="nesletxt" COORDS="53v"/></METS:fptr>

</METS:div><METS:div LABEL="page 107" TYPE="acte">

<METS:fptr FILEID="nesle54"/><METS:fptr FILEID="nesletxt">

<METS:area FILEID="nesletxt" COORDS="54"/></METS:fptr>

</METS:div><METS:div LABEL="page 108" TYPE="acte">

<METS:fptr FILEID="nesle54v"/><METS:fptr FILEID="nesletxt">

<METS:area FILEID="nesletxt" COORDS="54v"/></METS:fptr>

</METS:div><METS:div LABEL="page 109" TYPE="acte">

<METS:fptr FILEID="nesle55"/><METS:fptr FILEID="nesletxt">

<METS:area FILEID="nesletxt" COORDS="55"/></METS:fptr>

</METS:div>.........

</METS:div></METS:structMap>

Page 74: Les enjeux éditoriaux et technologiques de la diffusion en ligne des sources historiques URFIST-Paris 14 mars 2007 Gautier Poupeau gpoupeau@enc.sorbonne.fr

14/03/2007 G. Poupeau 74

3ème étape

Rendre accessible les données en XML

Page 75: Les enjeux éditoriaux et technologiques de la diffusion en ligne des sources historiques URFIST-Paris 14 mars 2007 Gautier Poupeau gpoupeau@enc.sorbonne.fr

14/03/2007 G. Poupeau 75

Exploiter les fichiers XML

Communautés d'utilisateurs : chercheurs, curieux, un utilisateur du Web

Les données doivent être accessibles avec un navigateur Web

Transformer les données XML en HTML Feuilles de style XSLT (eXtensible styleSheet language

transformation Interroger le fichier XML : Xquery, équivalent de SQL

pour des fichiers XML Mise en forme du HTML : CSS, cascading stylesheets

Page 76: Les enjeux éditoriaux et technologiques de la diffusion en ligne des sources historiques URFIST-Paris 14 mars 2007 Gautier Poupeau gpoupeau@enc.sorbonne.fr

14/03/2007 G. Poupeau 76

<xsl:template match="tei:body"> <xsl:if test="../tei:pb"> [fol. <xsl:value-of select="../tei:pb/@n"/>] </xsl:if> <xsl:apply-templates/> </xsl:template> <xsl:template match="//tei:title[@type='forge']"> <xsl:apply-templates/> </xsl:template> <xsl:template match="tei:msDescription/tei:msIdentifier"> <xsl:apply-templates select="//tei:idno"/> </xsl:template> <xsl:template match="tei:p"> <p> <xsl:apply-templates/> </p> </xsl:template> <xsl:template match="tei:p/tei:label"> <span class="label" id="{.}"> [<xsl:apply-templates/>] </span> </xsl:template> <xsl:template match="tei:head[@type]"> <xsl:apply-templates/> </xsl:template> <xsl:template match="tei:head[@n]"> <xsl:apply-templates/> </xsl:template>

Extrait d'un fichier XSLT

Page 77: Les enjeux éditoriaux et technologiques de la diffusion en ligne des sources historiques URFIST-Paris 14 mars 2007 Gautier Poupeau gpoupeau@enc.sorbonne.fr

14/03/2007 G. Poupeau 77

Fichier Xquery

<resultats>{for $result in collection("/db/nesle")//group[@recueil]/textlet $title:=$result/front/titlePage/docTitle/titlewhere year-from-date(xs:date($result/front/titlePage/docDate/@notAfter))<=1300order by $resultreturn <resultat> <titre>{$title}</titre> <id>{data($result/@n)}</id></resultat>}</resultats>

Page 78: Les enjeux éditoriaux et technologiques de la diffusion en ligne des sources historiques URFIST-Paris 14 mars 2007 Gautier Poupeau gpoupeau@enc.sorbonne.fr

14/03/2007 G. Poupeau 78

Extrait fichier CSS

h1 {text-align: center; font-family: Georgia, Arial, Verdana, sans-serif;font-size: 1.6em;color: #BF0000;letter-spacing: 0.1em;margin-bottom: 1em;margin-top: 0;

}

#document h1 {margin-top: -1em;

}

.soustitre {font-size: 0.8em;

}

Page 79: Les enjeux éditoriaux et technologiques de la diffusion en ligne des sources historiques URFIST-Paris 14 mars 2007 Gautier Poupeau gpoupeau@enc.sorbonne.fr

14/03/2007 G. Poupeau 79

4ème étape

Construction du paquet de versement

Page 80: Les enjeux éditoriaux et technologiques de la diffusion en ligne des sources historiques URFIST-Paris 14 mars 2007 Gautier Poupeau gpoupeau@enc.sorbonne.fr

14/03/2007 G. Poupeau 80

Les métadonnées

Toutes les informations sur le corpus qui vont permettre de gérer le corpus à long terme

Trois types de métadonnées : Métadonnées descriptives : titre, auteur, date de

publication... Métadonnées administratives : métadonnées

juridiques, métadonnées techniques, métadonnées du cycle de vie des informations

Métadonnées de structure : Structure du corpus, agencement des différents fichiers entre eux

Encodage en XML de ces différentes métadonnées

Page 81: Les enjeux éditoriaux et technologiques de la diffusion en ligne des sources historiques URFIST-Paris 14 mars 2007 Gautier Poupeau gpoupeau@enc.sorbonne.fr

14/03/2007 G. Poupeau 81

Les métadonnées descriptives

Le Dublin core : http://dublincore.org Initiative internationale : Dublin core metadata initiative Norme ISO 15836-2003 15 éléments de base pour décrire des documents

(numériques ou non) : Dublin core simple Onix : http://www.editeur.org/onix.html Mis au point par EdiTeur, groupe international d'éditeurs

dont la vocation est de coordonner les initiatives et les standards pour le commerce électronique dans le domaine du livre

Schéma XML 26 parties permettant la gestion du livre à tous les

niveaux par un éditeur. A-priori pour le support papier, mais intègre les

publications électroniques

Page 82: Les enjeux éditoriaux et technologiques de la diffusion en ligne des sources historiques URFIST-Paris 14 mars 2007 Gautier Poupeau gpoupeau@enc.sorbonne.fr

<dc:type>Edition de sources</dc:type><dc:title>Cartulaire de la seigneurie de Nesle</dc:title><dc:creator>Xavier Hélary</dc:creator><dc:creator>Institut de Recherche et d'Histoire des Textes</dc:creator><dc:publisher>Institut de Recherche et d'Histoire des Textes - Section de diplomatique</dc:publisher><dc:date>2006</dc:date><dc:description>Transcription du cartulaire de la seigneurie de Nesle, conservé au musée de Chantilly.</dc:description><dc:identifier>http://www.cn-telma.fr/nesle/</dc:identifier><dc:subject>Histoire politique et institutionnelle</dc:subject><dc:subject>Histoire sociale et culturelle</dc:subject><dc:subject>Histoire économique</dc:subject><dc:subject>Cartulaire</dc:subject><dc:coverage>France</dc:coverage><dc:coverage>Moyen Âge</dc:coverage><dc:coverage>Bourgogne</dc:coverage><dc:coverage>Latin</dc:coverage><dc:coverage>Langue d'oil</dc:coverage><dc:source>Chantilly, Musée Condé, série GB, XIV F 22</dc:source><dc:format>text/xtml TEI</dc:format><dc:language>fr</dc:language><dc:relation>Ædilis</dc:relation>

Page 83: Les enjeux éditoriaux et technologiques de la diffusion en ligne des sources historiques URFIST-Paris 14 mars 2007 Gautier Poupeau gpoupeau@enc.sorbonne.fr

14/03/2007 G. Poupeau 83

Les métadonnées administratives

PREMIS : Preservation metadata : implementation strategies Mis au point par un groupe de travail soutenu par

OCLC et RLG Définit un jeu de métadonnées de préservation : « les

informations utiles à un entrepôt pour mener à bien le processus de conservation à long terme du document numérique »

Il suit les recommandations de l'OAIS, en particulier la notion de paquets

Très complet, trop ??

Page 84: Les enjeux éditoriaux et technologiques de la diffusion en ligne des sources historiques URFIST-Paris 14 mars 2007 Gautier Poupeau gpoupeau@enc.sorbonne.fr

<premis:preservationLevel>full</premis:preservationLevel> <premis:format> <premis:formatDesignation> <premis:formatName>XML</premis:formatName> <premis:formatVersion>1.0</premis:formatVersion> </premis:formatDesignation> <formatRegistry> <formatRegistryName>PRONOM</formatRegistryName> <formatRegistryKey>fmt/101</formatRegistryKey> <formatRegistryRole>Indique le rôle du répertoire de format par rapport à l'objet</formatRegistryRole> </formatRegistry> <formatRegistry> <formatRegistryName>FRED</formatRegistryName> <formatRegistryKey>info:gdfr/fred/f/xml</formatRegistryKey> </formatRegistry> <formatRegistry> <formatRegistryName>http://www.digitalpreservation.gov/formats/fdd/</formatRegistryName> <formatRegistryKey>fdd000075</formatRegistryKey> </formatRegistry> </premis:format> <premis:creatingApplication> <premis:creatingApplicationName>oXygen</premis:creatingApplicationName> <premis:creatingApplicationVersion>7.2</premis:creatingApplicationVersion> <premis:dateCreatedByApplication>2006-07-19</premis:dateCreatedByApplication> </premis:creatingApplication> <premis:environment> <premis:dependency> <premis:dependencyName>TEI P5</premis:dependencyName> <premis:dependencyIdentifier> <premis:dependencyIdentifierType>Schéma Relax-NG</premis:dependencyIdentifierType> <premis:dependencyIdentifierValue>http://www.cn-telma.fr/irht/nesle/tei_complte_200406.rng</premis:dependencyIdentifierValue> </premis:dependencyIdentifier> </premis:dependency> </premis:environment>

Page 85: Les enjeux éditoriaux et technologiques de la diffusion en ligne des sources historiques URFIST-Paris 14 mars 2007 Gautier Poupeau gpoupeau@enc.sorbonne.fr

14/03/2007 G. Poupeau 85

Rassembler ces différents jeux de métadonnées

Un format d'empaquetage : METS (Metadata encoding and transmission standard) http://www.loc.gov/standards/mets/ Initiative de la Digital library foundation et maintenu par la library of

congress Gestion les objets complexes en vue de leur description et de leur

échange Gestion des trois types de métadonnées (descriptives, administratives,

de structure) 7 sections :

METS header (metsHdr) Description Metadata Section (dmdsec) Administrative Metadata Section (amdSec) File Section (fileSec) Structural Map (structMap) Structural Map Linking (structLink) Behaviour section (behaviourSec)

Page 86: Les enjeux éditoriaux et technologiques de la diffusion en ligne des sources historiques URFIST-Paris 14 mars 2007 Gautier Poupeau gpoupeau@enc.sorbonne.fr

<?xml version="1.0" encoding="UTF-8"?><METS:mets xmlns:METS="http://www.loc.gov/METS/" xmlns:xlink="http://www.w3.org/1999/xlink" xmlns:dc="http://purl.org/dc/elements/1.1/" xmlns:premis="http://www.loc.gov/standards/premis/v1" xmlns:onix="http://www.editeur.org/onix/2.1/reference" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="http://www.loc.gov/METS/ http://www.loc.gov/standards/mets/mets.xsd http://www.w3.org/1999/xlink http://www.loc.gov/standards/mets/xlink.xsd http://purl.org/dc/elements/1.1/ http://dublincore.org/schemas/xmls/qdc/2003/04/02/dc.xsd http://www.loc.gov/standards/premis/v1 http://www.loc.gov/standards/premis/v1/PREMIS-v1-1.xsd http://www.editeur.org http://www.editeur.org/onix/2.1/reference/ONIX_BookProduct_Release2.1_reference.xsd"> <METS:metsHdr> <METS:agent ROLE="CREATOR" TYPE="INDIVIDUAL"> <METS:name>Christophe JACOBS</METS:name> </METS:agent> <METS:agent ROLE="EDITOR" TYPE="ORGANIZATION"> <METS:name>Institut de Recherche et d'Histoire des Textes</METS:name> </METS:agent> </METS:metsHdr> <METS:dmdSec ID="nesle"> <METS:mdWrap MIMETYPE="text/xml" MDTYPE="DC" LABEL="Dublin Core Metadata"> <METS:xmlData> <dc:type>Edition de sources</dc:type> <dc:title>Cartulaire de la seigneurie de Nesle</dc:title> <dc:creator>Xavier Hélary</dc:creator> <dc:creator>Institut de Recherche et d'Histoire des Textes</dc:creator> <dc:publisher>Institut de Recherche et d'Histoire des Textes - Section de diplomatique</dc:publisher> <dc:date>2006</dc:date> <dc:description>Transcription du cartulaire de la seigneurie de Nesle, conservé au musée de Chantilly. </dc:description> <dc:identifier>http://www.cn-telma.fr/nesle/</dc:identifier> <dc:subject>Histoire politique et institutionnelle</dc:subject> <dc:subject>Histoire sociale et culturelle</dc:subject> <dc:subject>Histoire économique</dc:subject> <dc:subject>Cartulaire</dc:subject> <dc:coverage>France</dc:coverage> <dc:coverage>Moyen Âge</dc:coverage> <dc:coverage>Bourgogne</dc:coverage> <dc:coverage>Latin</dc:coverage> <dc:coverage>Langue d'oil</dc:coverage> <dc:source>Chantilly, Musée Condé, série GB, XIV F 22</dc:source> <dc:format>text/xtml TEI</dc:format> <dc:language>fr</dc:language> <dc:relation>Ædilis</dc:relation> </METS:xmlData> </METS:mdWrap> </METS:dmdSec>

Page 87: Les enjeux éditoriaux et technologiques de la diffusion en ligne des sources historiques URFIST-Paris 14 mars 2007 Gautier Poupeau gpoupeau@enc.sorbonne.fr

<METS:amdSec>[....]

<METS:techMD ID="xml"> <METS:mdWrap MDTYPE="PREMIS"> <METS:xmlData> <premis:preservationLevel>full</premis:preservationLevel> <premis:format> <premis:formatDesignation> <premis:formatName>XML</premis:formatName> <premis:formatVersion>1.0</premis:formatVersion> </premis:formatDesignation> <formatRegistry> <formatRegistryName>PRONOM</formatRegistryName> <formatRegistryKey>fmt/101</formatRegistryKey> <formatRegistryRole>Indique le rôle du répertoire de format par rapport à l'objet</formatRegistryRole> </formatRegistry> <formatRegistry> <formatRegistryName>FRED</formatRegistryName> <formatRegistryKey>info:gdfr/fred/f/xml</formatRegistryKey> </formatRegistry> <formatRegistry> <formatRegistryName>http://www.digitalpreservation.gov/formats/fdd/</formatRegistryName> <formatRegistryKey>fdd000075</formatRegistryKey> </formatRegistry> </premis:format> <premis:creatingApplication> <premis:creatingApplicationName>oXygen</premis:creatingApplicationName> <premis:creatingApplicationVersion>7.2</premis:creatingApplicationVersion> <premis:dateCreatedByApplication>2006-07-19</premis:dateCreatedByApplication> </premis:creatingApplication> <premis:environment> <premis:dependency> <premis:dependencyName>TEI P5</premis:dependencyName> <premis:dependencyIdentifier> <premis:dependencyIdentifierType>Schéma Relax-NG</premis:dependencyIdentifierType> <premis:dependencyIdentifierValue>http://www.cn-telma.fr/irht/nesle/tei_complte_200406.rng</premis:dependencyIdentifierValue> </premis:dependencyIdentifier> </premis:dependency> </premis:environment> </METS:xmlData> </METS:mdWrap> </METS:techMD>

[.....]</METS:amdSec>

Page 88: Les enjeux éditoriaux et technologiques de la diffusion en ligne des sources historiques URFIST-Paris 14 mars 2007 Gautier Poupeau gpoupeau@enc.sorbonne.fr

<METS:fileSec> <METS:fileGrp ADMID="xsl"> <METS:file ID="nesle-acte.xsl" MIMETYPE="text/xml"> <METS:FLocat LOCTYPE="URL" xlink:href="/var/www/telma/irht/nesle/xsl/nesle-acte.xsl"/> </METS:file> <METS:file ID="nesle-index.xsl" MIMETYPE="text/xml"> <METS:FLocat LOCTYPE="URL" xlink:href="/var/www/telma/irht/nesle/xsl/nesle-index.xsl"/> </METS:file>

<METS:file ID="nesle-table.xsl" MIMETYPE="text/xml"> <METS:FLocat LOCTYPE="URL" xlink:href="/var/www/telma/irht/nesle/xsl/nesle-table.xsl"/> </METS:file> <METS:file ID="nesle-censier.xsl" MIMETYPE="text/xml"> <METS:FLocat LOCTYPE="URL" xlink:href="/var/www/telma/irht/nesle/xsl/nesle-censier.xsl"/> </METS:file> <METS:file ID="nesle-sommaire.xsl" MIMETYPE="text/xml"> <METS:FLocat LOCTYPE="URL" xlink:href="/var/www/telma/irht/nesle/xsl/nesle-sommaire.xsl"/> </METS:file> <METS:file ID="nesle-intro.xsl" MIMETYPE="text/xml"> <METS:FLocat LOCTYPE="URL" xlink:href="/var/www/telma/irht/nesle/xsl/nesle-intro.xsl"/> </METS:file>

[....]</METS:fileGrp><METS:fileGrp ADMID="xml">

<METS:file ID="nesle.xml" MIMETYPE="text/xml"> <METS:FLocat LOCTYPE="URL" xlink:href="/var/www/telma/irht/nesle/nesle.xml"/> </METS:file> <METS:file ID="nesleimagesmets" MIMETYPE="text/xml"> <METS:FLocat LOCTYPE="URL" xlink:href="/var/www/telma/irht/nesle/nesleimagesmets.xml"/> </METS:file> </METS:fileGrp></METS:fileSec>

Page 89: Les enjeux éditoriaux et technologiques de la diffusion en ligne des sources historiques URFIST-Paris 14 mars 2007 Gautier Poupeau gpoupeau@enc.sorbonne.fr

<METS:structMap> <METS:div TYPE="corpus" DMDID="nesle"> <METS:fptr ID="neslexml" FILEID="nesle.xml"/> <METS:fptr ID="nesleimagesmetsxml" FILEID="nesleimagesmets"/> <METS:div ID="index" LABEL="index" TYPE="unite"> <METS:fptr FILEID="nesle-index.xsl" CONTENTIDS="neslexml"/> </METS:div> <METS:div ID="acte" LABEL="acte" TYPE="unite"> <METS:fptr FILEID="nesle-acte.xsl" CONTENTIDS="neslexml"/> </METS:div> <METS:div ID="page" LABEL="page" TYPE="unite"> <METS:fptr FILEID="nesle-folio.xsl" CONTENTIDS="nesleimagesmetsxml"/> </METS:div> <METS:div ID="tables" LABEL="tables" TYPE="unite"> <METS:fptr FILEID="nesle-table.xsl" CONTENTIDS="neslexml"/> </METS:div> <METS:div ID="censier" LABEL="censier" TYPE="unite"> <METS:fptr FILEID="nesle-censier.xsl" CONTENTIDS="neslexml"/> </METS:div> <METS:div ID="introduction" LABEL="introduction" TYPE="unite"> <METS:fptr FILEID="nesle-intro.xsl" CONTENTIDS="neslexml"/> </METS:div> <METS:div ID="liminaires" LABEL="liminaires" TYPE="unite"> <METS:fptr FILEID="nesle-liminaires.xsl" CONTENTIDS="neslexml"/> </METS:div> <METS:div ID="sommaire" LABEL="sommaire" TYPE="unite"> <METS:fptr FILEID="nesle-sommaire.xsl" CONTENTIDS="neslexml"/> </METS:div> <METS:div ID="nominum" LABEL="nominum" TYPE="unite"> <METS:fptr FILEID="nesle-nominum.xsl" CONTENTIDS="neslexml"/> </METS:div> <METS:div ID="locorum" LABEL="locorum" TYPE="unite"> <METS:fptr FILEID="nesle-locorum.xsl" CONTENTIDS="neslexml"/> </METS:div> <METS:div ID="recherche" LABEL="recherche" TYPE="unite"> <METS:fptr FILEID="nesle-recherche.xsl" CONTENTIDS="neslexml"/> </METS:div> <METS:div ID="rechercher" LABEL="rechercher" TYPE="unite"> <METS:fptr FILEID="nesle-rechercher.xsl" CONTENTIDS="neslexml"/> </METS:div> <METS:div ID="mentions" LABEL="mentions" TYPE="unite"> <METS:fptr FILEID="nesle-mentions.xsl" CONTENTIDS="neslexml"/> </METS:div> <METS:div ID="colophon" LABEL="colophon" TYPE="unite"> <METS:fptr FILEID="nesle-colophon.xsl" CONTENTIDS="neslexml"/> </METS:div> </METS:div> </METS:structMap>

Page 90: Les enjeux éditoriaux et technologiques de la diffusion en ligne des sources historiques URFIST-Paris 14 mars 2007 Gautier Poupeau gpoupeau@enc.sorbonne.fr

14/03/2007 G. Poupeau 90

Récapitulatif des fichiers

XML pour les données XSL, XSL-FO, Xquery pour le traitement CSS pour la mise en page HTML TIFF et JPG pour les images numérisées PNG ou JPG, éventuellement GIF pour les images du

graphisme Un fichier de métadonnées au format METS incluant

des métadonnées descriptives au format Dublin Core et ONIX et des métadonnées administratives au format PREMIS

Page 91: Les enjeux éditoriaux et technologiques de la diffusion en ligne des sources historiques URFIST-Paris 14 mars 2007 Gautier Poupeau gpoupeau@enc.sorbonne.fr

14/03/2007 G. Poupeau 91

Le paquet de versement est maintenant terminé

Page 92: Les enjeux éditoriaux et technologiques de la diffusion en ligne des sources historiques URFIST-Paris 14 mars 2007 Gautier Poupeau gpoupeau@enc.sorbonne.fr

14/03/2007 G. Poupeau 92

Le modèle fonctionnel

PR

OD

UC

TE

UR

MANAGEMENT

entrées

données

stockage

SIPAIP

ADMINISTRATION

PLANIFICATION DE LA PRESERVATION

Page 93: Les enjeux éditoriaux et technologiques de la diffusion en ligne des sources historiques URFIST-Paris 14 mars 2007 Gautier Poupeau gpoupeau@enc.sorbonne.fr

14/03/2007 G. Poupeau 93

5ème étape

Stocker les fichiers et créer l'AIP

Page 94: Les enjeux éditoriaux et technologiques de la diffusion en ligne des sources historiques URFIST-Paris 14 mars 2007 Gautier Poupeau gpoupeau@enc.sorbonne.fr

14/03/2007 G. Poupeau 94

Stockage des fichiers

Il n'existe aucun de support de stockage pérenne Stockage sur un serveur

Migration de support régulière : changement de serveurs

Temps d'accès trop long si simplement sauvegarde sur bandes magnétiques

Sauvegarde de secours journalière sur bande Virtualisation du stockage

Page 95: Les enjeux éditoriaux et technologiques de la diffusion en ligne des sources historiques URFIST-Paris 14 mars 2007 Gautier Poupeau gpoupeau@enc.sorbonne.fr

14/03/2007 G. Poupeau 95

Indexation des données

Utilisation d'une base de données XML native Principe général identique à une base de données

relationnelles respecte le principe de XML Interrogation avec Xquery, format normalisé au W3C

Un fichier permet de centraliser les informations et de générer automatiquement les interrogations L'unité structurelle les critères spécifiques Les métadonnées permettant de contextualiser les

différents corpus Ce fichier forme la description de l'AIP

Page 96: Les enjeux éditoriaux et technologiques de la diffusion en ligne des sources historiques URFIST-Paris 14 mars 2007 Gautier Poupeau gpoupeau@enc.sorbonne.fr

14/03/2007 G. Poupeau 96

Le modèle fonctionnel

PR

OD

UC

TE

UR

UT

ILISA

TE

UR

MANAGEMENT

entrées

données

stockage

SIPAIP accès

DIP

ADMINISTRATION

PLANIFICATION DE LA PRESERVATION

Page 97: Les enjeux éditoriaux et technologiques de la diffusion en ligne des sources historiques URFIST-Paris 14 mars 2007 Gautier Poupeau gpoupeau@enc.sorbonne.fr

14/03/2007 G. Poupeau 97

6ème étape

Diffuser les donnéesPermettre à la communauté d'utilisateurs

d'y accéder

Page 98: Les enjeux éditoriaux et technologiques de la diffusion en ligne des sources historiques URFIST-Paris 14 mars 2007 Gautier Poupeau gpoupeau@enc.sorbonne.fr

14/03/2007 G. Poupeau 98

Premier type de requête

Demande d'un utilisateur pour afficher tout ou partie d'un corpus dans les formats HTML, texte ou PDF

Deux arguments obligatoires Le nom du corpus le nom de la division de l'information demandée ou

unité structurelle Trois arguments optionnels

le nom de l'ouvrage si plusieurs ouvrages dans un corpus

L'identifiant de l'unité structurelle si plusieurs unités du même type dans l'ouvrage/corpus

Le format de sortie (si absent, HTML)

Page 99: Les enjeux éditoriaux et technologiques de la diffusion en ligne des sources historiques URFIST-Paris 14 mars 2007 Gautier Poupeau gpoupeau@enc.sorbonne.fr

14/03/2007 G. Poupeau 99

Exemple

Demande de l'utilisateur : afficher en HTML l'acte 26 de l'édition du Cartulaire de Nesle corpus : nesle unité structurelle : acte identifiant : 26

http://www.cn-telma.fr/nesle/acte26/

Page 100: Les enjeux éditoriaux et technologiques de la diffusion en ligne des sources historiques URFIST-Paris 14 mars 2007 Gautier Poupeau gpoupeau@enc.sorbonne.fr

14/03/2007 G. Poupeau 100

Dexuième type de requête

Interrogation de la base de données XML indexant l'ensemble des données conservées Interrogation par formulaire sur le site du centre Interrogation par Web services

Deux types de requêtes Interrogation en texte intégral Interrogation sur critères

Page 101: Les enjeux éditoriaux et technologiques de la diffusion en ligne des sources historiques URFIST-Paris 14 mars 2007 Gautier Poupeau gpoupeau@enc.sorbonne.fr

14/03/2007 G. Poupeau 101

Le paquet de diffusion - DIP

Il se construit automatiquement en fonction de la requête et des informations du fichier METS

Le paquet diffère selon la nature de la requête un fichier XML conservé + un fichier XSL ou

XSL-FO + images Dans le cas d'une requête sur la base de données

XML : un fichier XML généré dynamiquement correspondant à la réponse + XSL + images

Les ressources générées ne sont pas conservées Indépendance du contenu de la mise en forme

finale

Page 102: Les enjeux éditoriaux et technologiques de la diffusion en ligne des sources historiques URFIST-Paris 14 mars 2007 Gautier Poupeau gpoupeau@enc.sorbonne.fr

14/03/2007 G. Poupeau 102

Architecture logicielle

Serveur Web Apache Serveur d'applications Tomcat Framework Cocoon Base de données XML : eXist Une application développée en interne qui permet

de générer automatiquement les DIP à partir du METS et des requêtes de l'utilisateur

L'application n'est pas pérennisée et peut être changée à tout moment.

Page 103: Les enjeux éditoriaux et technologiques de la diffusion en ligne des sources historiques URFIST-Paris 14 mars 2007 Gautier Poupeau gpoupeau@enc.sorbonne.fr

14/03/2007 G. Poupeau 103

Assurer l'accessibilité des informations

« mettre le Web et ses services à la disposition de tous les individus, quel que soit leur matériel ou logiciel, leur infrastructure réseau, leur langue maternelle, leur culture, leur localisation géographique, ou leurs aptitudes physiques ou mentales »Tim Berners-Lee, inventeur du Web

Pour assurer l'accessibilité, il faut suivre les standards du Web ne pas développer un site pour un navigateur penser aux personnes handicapés visuelles utilisant un lecteur

d'écran Dans le cadre des sites de service public, l'accessibilité est une exigence

légale : article 25 de la “loi pour l'égalité des droits et des chances, la participation à la citoyenneté des personnes handicapées” adopté par l'Assemblé le 3 février 2005

Page 104: Les enjeux éditoriaux et technologiques de la diffusion en ligne des sources historiques URFIST-Paris 14 mars 2007 Gautier Poupeau gpoupeau@enc.sorbonne.fr

14/03/2007 G. Poupeau 104

Échanger l'information

L'utilisateur est une application

Page 105: Les enjeux éditoriaux et technologiques de la diffusion en ligne des sources historiques URFIST-Paris 14 mars 2007 Gautier Poupeau gpoupeau@enc.sorbonne.fr

14/03/2007 G. Poupeau 105

La syndication de contenu Affichage synchronisé des informations d'un site A sur un

site B Connaître les mises à jour d'un site Web Un fichier XML dans un format précis (RSS ou ATOM) est

mis à disposition sur le serveur du site. Il est ensuite analysé pour l'afficher sur un autre site ou dans un agrégateur

Page 106: Les enjeux éditoriaux et technologiques de la diffusion en ligne des sources historiques URFIST-Paris 14 mars 2007 Gautier Poupeau gpoupeau@enc.sorbonne.fr

14/03/2007 G. Poupeau 106

Le protocole OAI-PMH

OAI-PMH (Open Archive Initiative Protocol for metadata Harvesting) est un protocole d'échange des métadonnées

Utilisé par les archives ouvertes, réservoir d'articles alimenté par les chercheurs, exemple : http://halshs.ccsd.cnrs.fr/

Basé sur le procole HTTP et le langage XML Objectifs :

Découvrir, présenter et analyser le contenu d'une archive échanger des données asynchrones

Page 107: Les enjeux éditoriaux et technologiques de la diffusion en ligne des sources historiques URFIST-Paris 14 mars 2007 Gautier Poupeau gpoupeau@enc.sorbonne.fr

14/03/2007 G. Poupeau 107

OAI- PMH : le data-provider

Data Provider

Les DP mettent en place une application informatique compatible OAI-PMH

Métadonnées en DC

Métadonnées autres

formats

Gestion des droits,

contrôle d’accès

Organisation de la

collection (sets)

identifiants

ListSetsListMetadataFormatsc

GetRecord

ListRecords

Identify

?

une base de données accessible via un serveur web

une application capable de répondre aux 6 requêtes OAI-PMH (verbs) ...

... et de renvoyer des documents XML valides

<record><dc:title>Titre du livre</<dc:title><dc:creator>Paul Pierre</dc:creator>

Page 108: Les enjeux éditoriaux et technologiques de la diffusion en ligne des sources historiques URFIST-Paris 14 mars 2007 Gautier Poupeau gpoupeau@enc.sorbonne.fr

14/03/2007 G. Poupeau 108

OAI-PMH : le service provider

Les service providers (SP)...

Service Provider

Localisent les DP enregistrés

Collectent les métadonnées des DP avec un harvester (moissonneuse ) de manière automatique et incrémentale

Traitent les métadonnées en ajoutant des informations de <provenance>

Et ajoutent de la valeur sous la forme de services

recherche bibliographique

rapprochement, comptage de citations et de références

personnalisation, alerte

Page 109: Les enjeux éditoriaux et technologiques de la diffusion en ligne des sources historiques URFIST-Paris 14 mars 2007 Gautier Poupeau gpoupeau@enc.sorbonne.fr

14/03/2007 G. Poupeau 109

Les Web services

Échanger de l'information structurée au format XML grâce au protocole HTTP

Protocole pour les Web services : SOAP, REST, XML-RPC

Croiser les sources d'informations de différents Web services : le mashup

Google Maps et Flick'r

Page 110: Les enjeux éditoriaux et technologiques de la diffusion en ligne des sources historiques URFIST-Paris 14 mars 2007 Gautier Poupeau gpoupeau@enc.sorbonne.fr

14/03/2007 G. Poupeau 110

Merci à Emmanuelle Bermès, département de la bibliothèque numérique, BnF qui m'a

« prêté » quelques diapos

Merci à Christophe Jacobs pour son aide dans l'élaboration de cette formation

Merci à vous pour votre attention