artefacts attestés et conservés, cotes historiques, factices, actuelles... pour la création...

36
Biblissima bénéficie dune aide de lEtat gérée par lANR au titre du programme « Investissements davenir », portant la référence ANR-11-EQPX-0007. Artefacts attestés et conservés, cotes historiques, factices, actuelles… pour la création d'un référentiel (et d’un ISMSN ? International Standard Manuscript Shelfmark Number) Eduard Frunzeanu, Bénédicte Giffard, Régis Robineau avec la collaboration d’Anne-Marie Turcan-Verkerk

Upload: equipex-biblissima

Post on 23-Jan-2018

240 views

Category:

Technology


0 download

TRANSCRIPT

Page 1: Artefacts attestés et conservés, cotes historiques, factices, actuelles... Pour la création d'un référentiel de cotes de manuscrits

Biblissima bénéficie d’une aide de l’Etat gérée par l’ANR au titre du programme « Investissements d’avenir », portant la référence ANR-11-EQPX-0007.

Artefacts attestés et conservés,

cotes historiques, factices, actuelles…

pour la création d'un référentiel(et d’un ISMSN ? International Standard Manuscript Shelfmark Number)

Eduard Frunzeanu, Bénédicte Giffard, Régis Robineau

avec la collaboration d’Anne-Marie Turcan-Verkerk

Page 2: Artefacts attestés et conservés, cotes historiques, factices, actuelles... Pour la création d'un référentiel de cotes de manuscrits

Objectifs :

Créer et alimenter des corpus qui font sens.

Les réunir autour d’une problématique commune pourparvenir à une masse de données significative.

Permettre leur interrogation conjointe,

et leur réutilisation.

Bibliotheca bibliothecarum novissimaéquipement de données sur la transmission

des textes anciens

Page 3: Artefacts attestés et conservés, cotes historiques, factices, actuelles... Pour la création d'un référentiel de cotes de manuscrits

– Campus Condorcet (coordinateur)

– Bibliothèque nationale de France

– CESR, Tours (UMR 7323)

– CIHAM, Lyon-Avignon (UMR 5648)

– CRAHAM, Caen (UMR 6273)

– Ecole nationale des chartes, CJM (EA 3624)

– Ecole Pratique des Hautes Etudes, SAPRAT (EA 4116)

– Institut de recherche et d’histoire des textes (UPR 841)

– Pôle document numérique de la MRSH de Caen (USR 3486)

– … et bientôt les Archives Nationales

les partenaires

Page 4: Artefacts attestés et conservés, cotes historiques, factices, actuelles... Pour la création d'un référentiel de cotes de manuscrits

• Un projet sur 7 ans (2012-2019)

• 100 chercheurs et ingénieurs

• environ 45 contrats / an

• une “équipe portail”: 5 personnes en 2017coord. : Régis Robineau (Biblissima / EPHE)

Biblissima c’est

Page 5: Artefacts attestés et conservés, cotes historiques, factices, actuelles... Pour la création d'un référentiel de cotes de manuscrits

une cinquantaine de projetsscientifiques et techniques

Engranger, créer, exposer des donnéesà une grande échelle et à différents niveaux,

selon des thématiques et des prioritésdéfinies par le projet.

Page 6: Artefacts attestés et conservés, cotes historiques, factices, actuelles... Pour la création d'un référentiel de cotes de manuscrits

une infrastructure numérique

créer un systèmede gestion et d’analyse des données historiques pour

donner un accès simpleà des données complexes et hétérogènes

Page 7: Artefacts attestés et conservés, cotes historiques, factices, actuelles... Pour la création d'un référentiel de cotes de manuscrits

Biblissima bénéficie d’une aide de l’Etat gérée par l’ANR au titre du programme « Investissements d’avenir », portant la référence ANR-11-EQPX-0007.

la mission de Biblissima :

fédérer les bibliothèques numériques

structurer les corpus et les communautés :

politique scientifique

former les communautés

faciliter l’accès aux ressources textuelles et documentaires

Page 8: Artefacts attestés et conservés, cotes historiques, factices, actuelles... Pour la création d'un référentiel de cotes de manuscrits

mission accomplie : le portail

Biblissima bénéficie d’une aide de l’Etat gérée par l’ANR au titre du programme « Investissements d’avenir », portant la référence ANR-11-EQPX-0007.

Page 9: Artefacts attestés et conservés, cotes historiques, factices, actuelles... Pour la création d'un référentiel de cotes de manuscrits

10 423 manuscrits

18 557 imprimés

anciens

6 659 éditions

5 249 œuvres

5 178 collections

7 094 personnes

1 642 collectivités

961 lieux

Page 10: Artefacts attestés et conservés, cotes historiques, factices, actuelles... Pour la création d'un référentiel de cotes de manuscrits

http://beta.biblissima.fr/

Biblissima bénéficie d’une aide de l’Etat gérée par l’ANR au titre du programme « Investissements d’avenir », portant la référence ANR-11-EQPX-0007.

Page 11: Artefacts attestés et conservés, cotes historiques, factices, actuelles... Pour la création d'un référentiel de cotes de manuscrits
Page 12: Artefacts attestés et conservés, cotes historiques, factices, actuelles... Pour la création d'un référentiel de cotes de manuscrits
Page 13: Artefacts attestés et conservés, cotes historiques, factices, actuelles... Pour la création d'un référentiel de cotes de manuscrits
Page 14: Artefacts attestés et conservés, cotes historiques, factices, actuelles... Pour la création d'un référentiel de cotes de manuscrits
Page 15: Artefacts attestés et conservés, cotes historiques, factices, actuelles... Pour la création d'un référentiel de cotes de manuscrits
Page 16: Artefacts attestés et conservés, cotes historiques, factices, actuelles... Pour la création d'un référentiel de cotes de manuscrits
Page 17: Artefacts attestés et conservés, cotes historiques, factices, actuelles... Pour la création d'un référentiel de cotes de manuscrits
Page 18: Artefacts attestés et conservés, cotes historiques, factices, actuelles... Pour la création d'un référentiel de cotes de manuscrits

Biblissima bénéficie d’une aide de l’Etat gérée par l’ANR au titre du programme « Investissements d’avenir », portant la référence ANR-11-EQPX-0007.

l’objectif opérationnel :

créer de facto un référentiel de manuscrits et d'imprimés, pour :

permettre la fusion des données d'un même manuscrit décrit dans

plusieurs bases

normaliser les différentes formes de cotes issues des bases, en

retenant une forme dite « canonique »

avoir des URI stables et uniques pour chaque manuscrit (en tant

qu'URL de la page web d'un manuscrit dans le portail, et en tant

qu'identifiant du manuscrit en tant que tel dans les données RDF)

Page 19: Artefacts attestés et conservés, cotes historiques, factices, actuelles... Pour la création d'un référentiel de cotes de manuscrits

Alimenter et maintenir via OpenRefine un fichier de

fusion et de normalisation de toutes les cotes

présentes dans les différentes bases à traiter (à

partir des exports xml fournis directement par les

partenaires ou générés par Biblissima à partir de

dumps).

Pour chaque manuscrit ou imprimé, il s'agit de :

aligner toutes les formes possibles des cotes et vérifier

qu’il s’agit bien d’un même manuscrit ou imprimé

récupérer la forme « canonique » de la cote (quand elle

existe) telle qu’elle est employée dans la bibliothèque

concernée

Etape 1

Page 20: Artefacts attestés et conservés, cotes historiques, factices, actuelles... Pour la création d'un référentiel de cotes de manuscrits
Page 21: Artefacts attestés et conservés, cotes historiques, factices, actuelles... Pour la création d'un référentiel de cotes de manuscrits
Page 22: Artefacts attestés et conservés, cotes historiques, factices, actuelles... Pour la création d'un référentiel de cotes de manuscrits

Alimenter et maintenir via OpenRefine un fichier de

fusion et de normalisation de toutes les cotes

présentes dans les différentes bases à traiter (à

partir des exports xml fournis directement par les

partenaires ou générés par Biblissima à partir de

dumps).

Pour chaque manuscrit ou imprimé, il s'agit de :

aligner toutes les formes possibles des cotes et vérifier

qu’il s’agit bien d’un même manuscrit ou imprimé

récupérer la forme « canonique » de la cote (quand elle

existe) telle qu’elle est employée dans la bibliothèque

concernée

générer pour chaque item un identifiant unique

alphanumérique sur la base de la concaténation de

l'identifiant unique de l'établissement de conservation et

de la chaîne de caractères de la cote « canonique ».

Etape 1

Page 23: Artefacts attestés et conservés, cotes historiques, factices, actuelles... Pour la création d'un référentiel de cotes de manuscrits

Ces formes canoniques et ces identifiants sont

ensuite injectés grâce à des scripts dans les exports

XML pivot de chaque base de données.

Exemple de la BnF : c'est à cette étape que l'on

récupère automatiquement les URL des

numérisations Gallica (si elles ne sont pas déjà

indiquées dans la base source)

ainsi que les identifiants ARK de BAM (qui

permettent de construire le lien pérenne vers la

notice BAM qui apparaîtra dans la section "Sources

des données" de la page du manuscrit).

Etape 2

Page 24: Artefacts attestés et conservés, cotes historiques, factices, actuelles... Pour la création d'un référentiel de cotes de manuscrits

Au moment de l'import des données dans le portail

Biblissima, Cubicweb se base sur ces identifiants

pour fusionner les informations et créer une seule

page web pour un même manuscrit.

Etape 3

Page 25: Artefacts attestés et conservés, cotes historiques, factices, actuelles... Pour la création d'un référentiel de cotes de manuscrits

Au moment de l'import des données dans le portail

Biblissima, Cubicweb se base sur ces identifiants

pour fusionner les informations et créer une seule

page web pour un même manuscrit.

Avantage : une solution pragmatique

applicable de manière unifiée à tous les cas présents

dans les données :

manuscrits attestés

Incunables sans cote

manuscrits ou incunables conservés

manuscrits ou incunables avec / sans URI pré-

existante (BAM ou Medium par ex.)

Manuscrits ou incunables avec plusieurs URI

potentielles (doublons BAM, BAM+Medium...)

et tous les cas imprévisibles…

Etape 3

Page 26: Artefacts attestés et conservés, cotes historiques, factices, actuelles... Pour la création d'un référentiel de cotes de manuscrits

Ce référentiel est accessible en bout de chaîne sur

le portail à travers le point d'entrée « Manuscrits et

imprimés anciens ».

A terme il sera aussi exploitable et requêtable par

des programmes informatiques à travers le Sparql

endpoint.

Il pourrait également être disponible sous la forme

d'un gros fichier à télécharger (CSV ou autre).Etape 4

Page 27: Artefacts attestés et conservés, cotes historiques, factices, actuelles... Pour la création d'un référentiel de cotes de manuscrits

Sous une forme structurée, ce référentiel pourrait se

composer des éléments suivants (quand la cote existe)

:

forme canonique de la cote (celle utilisée sur le portail et qui a

servi à créer l'identifiant Biblissima du manuscrit)

forme canonique de la cote complète (telle qu'affichée partout

sur le portail) : concaténation de "Pays / Ville / Etablissement

de conservation / [Département] / Cote / [Folios] »

URI Biblissima du manuscrit (ex.

http://beta.biblissima.fr/ark:/43093/

mdatad8066ee591c0b7ddc381b7072a0e4679fa32b34b)

forme retenue du nom de l'établissement de conservation

URI Biblissima de l'établissement de conservation (ex.

http://beta.biblissima.fr/fr/ark:/43093/cdatacb12511198k)

URI externes, avec le cas échéant : URI BAM

(ex. http://archivesetmanuscrits.bnf.fr/ark:/12148/cc73235f/cd0e

1607), URI Medium

(ex. http://medium.irht.cnrs.fr/ark:/63955/md5370796399)

Page 28: Artefacts attestés et conservés, cotes historiques, factices, actuelles... Pour la création d'un référentiel de cotes de manuscrits

Quelques chiffres :

— Medium (IRHT) : 80 000 cotes

(tous pays, diverses langues)

mapping avec les 258 000

citations de manuscrits

dans Scriptorium : ID Medium

— 100 000 cotes au minimum dans les ressources Biblissima

Accroissements à prévoir :

exemplaires imprimés

cotes d’archives

Page 29: Artefacts attestés et conservés, cotes historiques, factices, actuelles... Pour la création d'un référentiel de cotes de manuscrits

Step by step

1. Harmonisation et nettoyage au sein de Bibale et de Medium

(terminé)

liste des manuscrits sans ID Medium (attestés, perdus, en mains privées… :

1132 mss)

harmonisation du libellé des cotes entre les deux bases

nettoyage et « normalisation » du libellé des manuscrits attestés

vérification et correction des ID fautifs (ID Medium qui était fautivement

attribué à deux manuscrits différents ou à un manuscrit qui n’avait rien à

voir)

élimination des doublons éventuels

Export initial de Bibale + Medium = 6330 composants

une fois le nettoyage fini : 5113.

Page 30: Artefacts attestés et conservés, cotes historiques, factices, actuelles... Pour la création d'un référentiel de cotes de manuscrits

Step by step

2. Harmoniser Bibale / Pinakes / Jonas / Medium en ce qui

concerne les cotes BnF

(dans le but de lister toutes les cotes BnF présentes dans les bases

IRHT, afin de récupérer leur ID BnF pour ensuite leur attribuer un ID

Biblissima)

Travail par étapes (exports trop lourds pour être traités par Open Refine

d’un coup) :

Récupérer les manuscrits BnF pour Bibale et Jonas

Ajouter Medium et enfin Pinakes.

A chaque étape :

Repérer et éliminer les doublons, afin d’établir une seule liste des

composants BnF présents dans les 4 bases.

Comparer la forme de la cote dans la base étudiée et celle de BAM.

Ajouter à chaque manuscrit, la cote libellée selon la forme canonique

BnF.

Page 31: Artefacts attestés et conservés, cotes historiques, factices, actuelles... Pour la création d'un référentiel de cotes de manuscrits

Step by step

3. Poursuivre ce travail pour l’ensemble des ressources Biblissima

actuelles

Page 32: Artefacts attestés et conservés, cotes historiques, factices, actuelles... Pour la création d'un référentiel de cotes de manuscrits

Step by step

3. Poursuivre ce travail pour l’ensemble des ressources Biblissima

actuelles

4. Prévoir le même travail pour les ressources nouvelles

Page 33: Artefacts attestés et conservés, cotes historiques, factices, actuelles... Pour la création d'un référentiel de cotes de manuscrits

Step by step

3. Poursuivre ce travail pour l’ensemble des ressources Biblissima

actuelles

4. Prévoir le même travail pour les ressources nouvelles

5. Assurer la pérennisation du référentiel, et donc de Biblissima

Page 34: Artefacts attestés et conservés, cotes historiques, factices, actuelles... Pour la création d'un référentiel de cotes de manuscrits

Step by step

3. Poursuivre ce travail pour l’ensemble des ressources Biblissima

actuelles

4. Prévoir le même travail pour les ressources nouvelles

5. Assurer la pérennisation du référentiel, et donc de Biblissima

6. Pas de pérennisation sans gouvernance : fixer les règles de

maintien et développement du référentiel avec tous les partenaires

Page 35: Artefacts attestés et conservés, cotes historiques, factices, actuelles... Pour la création d'un référentiel de cotes de manuscrits

Step by step

3. Poursuivre ce travail pour l’ensemble des ressources Biblissima

actuelles

4. Prévoir le même travail pour les ressources nouvelles

5. Assurer la pérennisation du référentiel, et donc de Biblissima

6. Pas de pérennisation sans gouvernance : fixer les règles de

maintien et développement du référentiel avec tous les partenaires

Merci !

Page 36: Artefacts attestés et conservés, cotes historiques, factices, actuelles... Pour la création d'un référentiel de cotes de manuscrits

http://beta.biblissima.fr/http://www.biblissima-condorcet.fr/

merci à [email protected]

[email protected]@biblissima-condorcet.fr

[email protected]

[email protected]@biblissima-condorcet.fr

anciennes collaboratrices : Stefanie Gehrke, Anita Mazur, Marie Muffat