Le document numérique»Nature, accès et médiation des documents dans un contexte numérique
2 Luc Bellier 2013
Appréhender un document
» Le document comme objet, comme contenu, comme dispositif de lecture, comme support
Luc Bellier 2013
3 Luc Bellier 2013
Tablette d’argile : textes juridiques ou comptables Rouleau de papyrus :
textes sacrés
Qu’est-ce qu’un document ?
4 Luc Bellier 2013
Fiches
Films
Qu’est-ce qu’un document ?
5 Luc Bellier 2013
Qu’est-ce qu’un document ?
Contenu/contenantLecture et dispositif de lecture
6 Luc Bellier 2013
Qu’est-ce qu’un document ?
Contenu/contenantLecture et dispositif de lecture
7 Luc Bellier 2013
Qu’est-ce qu’un document ?
Un système de valeurs autour des documents, symboliques et économiques.
8 Luc Bellier 2013
Organiser les documents
Les ranger, les trouver, les décrire
9 Luc Bellier 2013
Produire les documents
10 Luc Bellier 2013
Introduction
» Nature et structure du document numérique La notion de document : d’une définition formelle à une approche par écosystème Les types de fichiers : Les formats textes, les formats images, les formats multimédia La granularité du document, structuration et déstructuration
» Produire et décrire le document numérique Le cas de la numérisation Le cas des de ePub Les identifiants
» Les métadonnées Les métadonnées pour la recherche
• Le cas des catalogues• Le cas des moteurs • Approche sémantique
Les métadonnées comme point d’accès• Accès centralisés (catalogue et/ou moteur)• Accès distribués fermés et ouverts (OAI, RSS et OPDS)• L’interopérabilité sémantique• Les nouvelles métadonnées (folksonomies)• Multiplier les accès et multiplier les documents
» Les enjeux des accès et de la médiation: Maitrise de la chaîne et des formats Longue traine et économie de l’attention Appréhender la collection numérique : le cas des bibliothèques La médiation autour des documents numériques
11 Luc Bellier 2013
Le document numérique
» Nature et structure du document numérique : La notion de document
12 Luc Bellier 2013
Nature et structure du document numérique
» Définition ISO (International Organisation for Standardization)• Ensemble formé par un support et une information généralement enregistré
de façon permanente et tel qu’il puisse être lu par l’homme ou la machine
» Vocabulaire de la documentation• Ensemble d’un support d’information, quel qu’il soit, des données
enregistrées sur ce support et de leur signification, servant à la consultation, l’étude, la preuve ou la trace etc. : livre, échantillon de parfum, tissus, film…Le tout constitue une unité autonome.
» La notion de document
13 Luc Bellier 2013
Nature et structure du document numérique
« Tout est document pourvu qu’il soit le témoin d’un savoir inscrit dans un système documentaire » Suzanne Briet 1951
Le vu, le lu, le su (Jean-Michel Salaün)• Le vu : la forme, le support• Le lu : le texte, le contenu, le fond• Le su : le medium, l’attention, le système d’échange
» http://lafeuille.blog.lemonde.fr/2011/09/13/les-trois-dimensions-de-leconomie-de-la-publication/
» http://blogues.ebsi.umontreal.ca/jms/index.php/
» La notion de document
14 Luc Bellier 2013
Nature et structure du document numérique
» Le document ne peut être dissocié de ses environnements : Fond, forme, destination font parti intégrante du document si celui-ci doit
s’inscrire dans un système (documentaire, d’échanges etc.) En ce sens le document doit toujours être interrogé pour ce qu’il est dans ces
trois dimensions, et traité en conséquence :• La diffusion (médium)• La forme (description, reproduction, déclinaisons de différents supports etc.)• Le fond (la pertinence du contenu au regard des deux autres dimensions)
14
» La notion de document
15 Luc Bellier 2013
Le document numérique
Nature et structure du document numérique : les formats de fichiers
16 Luc Bellier 2013
Nature et structure du document numérique
Les formats de fichiers
17 Luc Bellier 2013
Nature et structure du document numérique
17
Les formats de fichiers
18 Luc Bellier 2013
Nature et structure du document numérique
Les formats de fichiers
19 Luc Bellier 2013
Nature et structure du document numérique
» Formats des documents numériques
» Convention utilisée pour représenter des données sous forme binaire Image, texte, son... Peut contenir des métadonnées
» Un format peut avoir plusieurs versions PDF/A , PDF 1.4…
» Un format peut avoir différents profils d'application Plusieurs « couches » possibles (formats capsules ou enveloppes) Compression
» Formats propriétaires / ouverts / libres
Les formats de fichiers
20 Luc Bellier 2013
Nature et structure du document numérique
Métadonnées
Les formats de fichiers
21 Luc Bellier 2013
Nature et structure du document numérique
Métadonnées
Les formats de fichiers
22 Luc Bellier 2013
Nature et structure du document numérique
Métadonnées
Les formats de fichiers
23 Luc Bellier 2013
Le document numérique
» Nature et structure du document numérique : la granularité
24 Luc Bellier 2013
Nature et structure du document numérique
Collection Document(notice
bibliographique)Volume, tome,
fascicule... Page
Un document complexe peut avoir plusieurs niveaux d’accès ou niveaux de granularité
Document simple : pas de problème de structure en soi, mais peut tout de même avoir plusieurs niveaux d’accès
Vue de détail
(article)
Vue de détail
Image(légende)
Lot(notice
bibliographique)
Collection
La granularité des documents numériques
25 Luc Bellier 2013
Le document numérique
» Nature et structure du document numérique La notion de document : d’une définition formelle à une approche par écosystème Les types de fichiers : Les formats textes, les formats images, les formats multimédia La granularité du document, structuration et déstructuration
» Produire et décrire le document numérique Le cas de la numérisation Le cas des de ePub Les identifiants
» Les métadonnées Les métadonnées pour la recherche
• Le cas des catalogues• Le cas des moteurs • Approche sémantique
Les métadonnées comme point d’accès• Accès centralisés (catalogue et/ou moteur)• Accès distribués fermés et ouverts (OAI, RSS et OPDS)• L’interopérabilité sémantique• Les nouvelles métadonnées (folksonomies)• Multiplier les accès et multiplier les documents
» Les enjeux des accès et de la médiation: Maitrise de la chaîne et des formats Longue traine et économie de l’attention Appréhender la collection numérique : le cas des bibliothèques La médiation autour des documents numériques
26 Luc Bellier 2013
Le document numérique
» Produire et décrire le document numérique : le cas de la numérisation
27 Luc Bellier 2013
Produire et décrire le document numérique
» Le cas de la numérisation
Numérisation
En mode texte
Relecture encodage
Compétences bibliothéconomiques
Compétences techniques
Pas de compétences particulières
Sélection
Acquisition
Signalement
Mise en ligneIndexation
Prestataire
Prestataire
Prestataire
En mode image
structuration transformationContrôle
http://www.bnf.fr/fr/collections_et_services/bibliotheques_numeriques_gallica/a.numerisation_masse_bnf.html
28 Luc Bellier 2013
0010000000100000001000000011000100110010001100000010000000100000001000000010000000110101001110000010000000100000001101010010000000100000001000000011000100111001001110000011000100101101001100000011100100101101001100110011000001010100001100010011010000111010001100100011001000111010001100000011000100101110001101100011001000111001010110100010000000100000001000000011001100111000001110010011100000101110001101110011000000100000001000000010000000110010001100110011010100110010001011100011010000110101001000000010000000100000001000000010000000101101001100010010111000110110001101100010000000100000001000000010110100110111001011100110111001100100010000000100000001011010011000100111000001011100011011000110001001000000010000000101101001110000011000000101100011000000110000001000000010000000101101001110000011000000101110001100000011000000100000001000000010000000110001001000000010000000110100001100110010000000100000001000000011100100100000001000000010000000100000001110010011100000111001001011100011010000110010001000000010000000100000001000000010000000110001001101100010111000110000001100100010000000100000001000000010000000100000001101010011001100101110001110000011001100100000001000000010000000100000001000000011010100110110001011100011011000110010001000000010000000100000001000000010000000100000001101000010111000111000001100010010000000100000001000000010000000110111001110010011001100101110001101010011100000100000001000000010000000100000001000000010000000110011001011100011001100110100000010100010000000100000001000000011000100110010001100000010000000100000001000000010000000110101001110000010000000100000001101010010000000100000001000000011000100111001001110000011000100101101001100000011100100101101001100110011000001010100001100010011010000111010001100100011001000111010001100000011010100101110001101110011100000111000010110100010000000100000001000000011001100111000001110010011010000101110001101100011010000100000001000000010000000110010001101010011010000110110001011100011100000111000001000000010000000100000001000000010000001000000010110100111000001100000010
Produire et décrire le document numérique
» Sélection
» Acquisition
» Description : Catalogage
» Préparation à la
» consultation : Équipement
» Magasinage
» Conservation
» Communication
» Valorisation
Sélection
Collecte / production
Description : Métadonnées /
indexation
Préparation à la
consultation : Empaquetage
Gestion
Préservation
Accès
Valorisation
Co
nsu
ltat
ion
d’u
ne
co
lle
ctio
nG
esti
on
d’u
ne
coll
ecti
on
Ran
gem
en
t et
co
nse
rrva
top
nd
’un
e c
oll
ect
ion
Co
nst
itu
tio
n
d’u
ne
co
lle
ctio
n» Le cas de la numérisation
29 Luc Bellier 2013
Produire et décrire le document numérique» Le cas de la numérisation
La numérisation en mode image s’intéresse à la forme et donc à la structure physique
Avantages : un fac-similé
préserve l’intégrité de l’original
Inconvénients : un seul point d ’accès : la notice
bibliographique
pas de possibilités de manipulation du texte
poids des images > stockage, temps de téléchargement
mise en place de chaînes de numérisation complexes
Numériser en mode image
30 Luc Bellier 2013
Produire et décrire le document numérique
Pour produire
Pour visualiser
Pour archiver
» Le cas de la numérisation
31 Luc Bellier 2013
Produire et décrire le document numérique
Capture du document par un signal lumineuxanalyse de l’intensité lumineuse par un capteur CDD (charged-
coupled device) une seule analyse pour le noir et blancanalyse de 3 faisceaux lumineux séparés par un prisme et des filtres
rouges, verts et bleus (RVB) pour des documents en couleurconversion en signal électrique binaire selon une grille propre au
mode de codageProduction du fichier bitmap
» Le cas de la numérisation
32 Luc Bellier 2013
Produire et décrire le document numérique
» Processus • Passage d’un support physique à un état dit dématérialisé• Changement de mode de codage : passage d’un mode de codage
analogique à un codage numérique– Information analogique : le signal est continu => onde lumineuse– Information numérisée : représentée par un échantillon de valeurs du
signal analogique et codé à l’aide de numéraux (0 ou 1)
» Caractéristiques techniques• Ces changements se font par un processus technologique : la
numérisation et à l’aide d’un matériel spécifique : le numériseur (ou scanner)
• Le fichier résultant de la numérisation est un fichier bitmap32
Échelle 2 bitsÉchelle 16 bits
» Le cas de la numérisation
33 Luc Bellier 2013
Produire et décrire le document numérique
Luc Bellier2012
• NUMERISATION • RESTITUTION•0000000000•0001110000•0010001100•0100000100•1000000010•1111111111•1000000000•1000000000•0100000010•0010000100•0001111000
• In Mémoires optiques / Catherine Leloup. – Paris : EME, 1987.
Le nombre de points par pouce ou DPI (1 inch = 2,54 cm) détermine la résolution et donc la qualité de l’image mais aussi le poids du fichier
Le nombre d’information par point (noir et blanc, niveaux de gris ou couleurs)
Le mode de compression
La taille de l’image est fonction de ces trois paramètres
» Le cas de la numérisation
34 Luc Bellier 2013
Produire et décrire le document numérique
Type d’image Nbre de bits Valeurs codées Remarques
noir et blanc2 noir = 1
blanc = 0
utilisé pour le texte
avec des niveaux de gris
8 256 niveaux de gris
utilisé pour les documents iconographiques noir et blanc
couleur analyse RVB(*)
3 x 8 3 x 256 niveaux par couleur soit 16,4 millions de
couleurs
3 couleurs : rouge/vert/bleu(codage utilisé par les moniteurs
et les téléviseurs)
•(*) Les imprimantes couleur utilisent le modèle CMJN (cyan, magenta, jaune et noir) qui est celui de l’imprimerie en quadrichromie.
» Le cas de la numérisation
35 Luc Bellier 2013
Produire et décrire le document numérique
» Caractéristiques générales• reproduction à l’identique, fac-simile• volume des fichiers très important, ce qui a un impact sur :
- le choix des supports de stockage- les possibilités et les temps de transmission par réseau
• un seul point d’accès, la notice bibliographique• pas de manipulations du texte, document non modifiable (pas d’accès au
contenu)• mise en place de chaînes de numérisation complexes
» Qualité • La qualité et la lisibilité du document numérique restitué est variable selon :
- l’état initial du document- la résolution retenue- les performances du numériseur (scanner) et le niveau du réglage des
contrastes
» Le cas de la numérisation
36 Luc Bellier 2013
Produire et décrire le document numérique
» Images en noir et blanc 2 tons = 1 bit par point (8 bits = 1 octet) Format TIFF (1 image par page, 1 fichier par page) Résolution 300 à 600 dpi (300 à 600 points par pouce => définition) Image légère et lisible, adaptée à la lecture à l’écran des imprimés
36
Zoom 400% image noir et blanc 300 dpi
Zoom 100% image noir et blanc 300 dpi
» Le cas de la numérisation
37 Luc Bellier 2013
Produire et décrire le document numérique
» Images en niveaux de gris 256 tons = 8 bits par point Format TIFF V6 monopage (depuis 2006) Format JFIF compressé JPEG (avant 2006) Résolution 300 à 600 dpi Image fine et assez lourde (presse, ouvrages de mauvaise qualité)
Zoom 100% image niveau de gris 300 dpi
Zoom 400% image niveau de gris 300 dpi
» Le cas de la numérisation
38 Luc Bellier 2013
Produire et décrire le document numérique
» Images en couleur RVB 16,7 millions de tons = 24 bits par point ; profil colorimétrique Adobe 98 Format TIFF Résolution 300 à 600 dpi Format lourd utilisé pour garder la couleur des originaux si cela se justifie.
Zoom 400% image couleur 300 dpi
Zoom 100% image couleur 300 dpi
» Le cas de la numérisation
39 Luc Bellier 2013
Produire et décrire le document numérique
» La compression
» Plus une image est de bonne qualité plus elle est lourde. La compression peut permettre de diminuer fortement le poids d’une image sans abaisser dans les mêmes proportions la qualité.
» Elle permet de réduire la taille des fichiers en supprimant des pixels ou des couleurs Compression sans perte Compression avec perte
» Les formats engendrant des pertes de données irréversibles sont à éviter lorsque l’on veut assurer la sauvegarde à long terme des images
Zoom 400% image couleur 300 dpi
Zoom 100% image couleur 300 dpi agrandi dans la présentation
» Le cas de la numérisation
40 Luc Bellier 2013
Produire et décrire le document numérique
40
Bidirectionnelle(Read modifié)
Codage ligne par ligne puis corrélation des lignes entre elles
Les lignes qui se suivent se ressemblent, on va donc procéder à un codage relatif ou prédictif d’une ligne à l’autre
Taux les plus fréquents : 8 à 20
Format de compression IUT Groupe 4
» Le cas de la numérisation
41 Luc Bellier 2013
Format de compression JPEG
Paramétrage du taux de qualité (0 à 100%)
codage
compression
restitution
Pour un taux = 80%) la compression est comprise entre 5 et 10Utilisé pour les images 8 bits et 24 bits
» Le cas de la numérisation
42 Luc Bellier 2013
Kirtas APT 2400
Produire et décrire le document numérique» Le cas de la numérisation
43 Luc Bellier 2013
CopybookDigibook 2000LCSuprascan A0
Produire et décrire le document numérique» Le cas de la numérisation
44 Luc Bellier 2013
Microfiches
Microfilms
Produire et décrire le document numérique» Le cas de la numérisation
45 Luc Bellier 2013
Plus de 6000 pages/heure
Docuscan 6000
Produire et décrire le document numérique» Le cas de la numérisation
46 Luc Bellier 2013
Redressement
Binarisation (transformation des images de niveau de gris et couleur en noir et blanc)Filtrage des formes(redressement des blancs, des lignes, des caractères à l’intérieur d’une image)
Recadrage des pages
Illustrations
Produire et décrire le document numérique» Le cas de la numérisation
47 Luc Bellier 2013
Produire et décrire le document numérique
» Les formats d’image… ouverts et libres
• SVG• PNG• Jpeg2000
ouverts et propriétaires• TIFF
Format de diffusion dans Gallica
Formats de numérisation BnF
» Le cas de la numérisation
48 Luc Bellier 2013
Produire et décrire le document numérique
La numérisation en mode texte s’intéresse directement au contenu et donc à la structure logique
Avantages recherche plein texte et autres
manipulations
souplesse et portabilité
Accessibilité pour les personnes en situation de handicap visuel
Inconvénients lourdeur de réalisation
coût
» Le cas de la numérisation
49 Luc Bellier 2013
Produire et décrire le document numérique
» Les techniques de création du mode texte : reconnaissance automatique de caractères ou OCR
• fortement conditionnée par la qualité de numérisation• problèmes : caractères anciens, mal formés, caractères spéciaux, titres…• correction manuelle obligatoire
la saisie• saisie manuelle : problème de ressources humaines !• double saisie manuelle comparée
» Le cas de la numérisation
50 Luc Bellier 2013
L’OCR et le mode texte» L’OCR est un processus automatique
» La qualité comme la reconnaissance sont calculés par des machines
» C’est le nombre de caractères suspects divisés par le nombre total de caractères sur une page.
» Une page de dix caractères vaut autant qu’une page de 10000 caractères dans un même ouvrage.
» Le cas de la numérisation
Produire et décrire le document numérique
51 Luc Bellier 2013
Produire et décrire le document numérique
» Les formats d’encodage du texte (basés sur XML)…
Structure logique• TEI et tdmNum
Structure physique• ALTO
• HTML
51
Format de production
Formats de consultation
Format de production
» Le cas de la numérisation
L’OCR et le mode texte
52 Luc Bellier 2013
Produire et décrire le document numérique
(http://www.bium.univ-paris5.fr/histmed/medica.htm)Liste des
chapitres en mode texte
Pages en mode image
» Le cas de la numérisation
53 Luc Bellier 2013
» (http://www.persee.fr)
Mode image Mode texte (OCR de très bonne qualité, documents récents)
Produire et décrire le document numérique» Le cas de la numérisation
54 Luc Bellier 2013
(http://books.google.fr/)
Visualisation du mode image uniquement, mode texte issu d’OCR en sous-couche permettant la recherche plein texte et le surlignage des résultats de la recherche
Produire et décrire le document numérique» Le cas de la numérisation
55 Luc Bellier 2013
METADONNEES
Produire et décrire le document numérique» Le cas de la numérisation
56 Luc Bellier 2013
Produire et décrire le document numérique
?
Un document numérique / électronique, c’est une suite de fichiers sans lien entre eux
Métadonnées descriptives•rattacher le document à l’original / différentes versions d’un document
•donner accès à la copie numérique / électronique
Métadonnées administratives
•gérer la collection, c’est-à-dire
•gérer les droits d’accès
•préserver les informations techniques nécessaires à la lecture des fichiers
•garantir l ’intégrité des fichiers et le suivi de leurs éventuelles modifications
identifiant unique (localisation / identification)
Métadonnées de structure
•rattacher les fichiers entre eux
•reconstituer la structure du document
? ?
» Le cas de la numérisation
57 Luc Bellier 2013
Produire et décrire le document numérique» Le cas de la numérisation
58 Luc Bellier 2013
image
Texte Alto
Metadescriptives
et de structure
Table
000001.tif
000001.xml
ID.xml
TID.xml
•Une image par page donc deux fichiers par page•Un fichier xml de structure par document et éventuellement un fichier table des matière. •Le fichier de structure porte également des données descriptive pour le lien avec le catalogue
Produire et décrire le document numérique» Le cas de la numérisation
59 Luc Bellier 2013
Produire et décrire le document numérique
» Des données sur les données ... qui servent à organiser la connaissance et à utiliser et exploiter le document
• Métadonnées descriptives, contextuelles et structurelles- Ex. : Notice bibliographique, indexation- Ex. : Date et formats de numérisation- Ex. : Données sur les fichiers pour reconstituer l’ouvrage (Cf. plus loin)
• initiales et ajoutées tout au long du cycle de vie du document numérisé qui servent à le maintenir accessible dans le temps et à garantir et contrôler
cet accès• Métadonnées administratives et techniques
- Ex. : Droits de lecture en interne seulement ou droit sur Internet• initiales et ajoutées tout au long du cycle de vie du document numérisé
- Ex. : passage d’un document protégé dans le domaine public
» Le cas de la numérisation
60 Luc Bellier 2013
Produire et décrire le document numérique
• Les métadonnées descriptives : – appréhender le contenu d’un objet
• description bibliographique approfondie et détaillée
– identifier un objet ou un groupe d’objets• description bibliographique minimale• identifiant pérenne
– identifier les parties qui composent un objet• information de structure
– échanger des objets ou des descriptions d’objets• description bibliographique dans un format normalisé
» Le cas de la numérisation
61 Luc Bellier 2013
Produire et décrire le document numérique
• Du catalogage aux métadonnées– les métadonnées
• une description d’un objet matériel ou non, les métadonnées peuvent être dans le document lui-même
• multiplication des « points d’accès », information structurée• une localisation : URL / URN / URI
• De « nouveaux » formats– pour les notices : Dublin Core, EAD + formats dérivés de MARC
en XML (MarcXML, MODS, BiblioML)– nouveau : pour le contenu des documents eux-mêmes
• autrefois on n’entrait pas « dans » le document• nouveaux besoins : OCR, tables des matières en saisie, structure
du défilement des pages…• nouveau formats : TEI, METS, ALTO
» Le cas de la numérisation
62 Luc Bellier 2013
Produire et décrire le document numérique
• Une tradition dans les bibliothèques– Le catalogage : création d’information descriptive secondaire
(notice) qui caractérise une information primaire (document)– Les métadonnées : des données (secondaires) sur les données
(primaires)
• Caractéristiques du catalogage : – un contenu normalisé : ISBD, AACR...– Un format pour le traitement informatique : MARC (Machine
readable cataloguing)– une notice bibliographique c’est…
• une description d’un objet matériel• des « points d’accès » pour retrouver le document• une localisation pour se le procurer
» Le cas de la numérisation
63 Luc Bellier 2013
Produire et décrire le document numérique
Métadonnées descriptives
» Le cas de la numérisation
64 Luc Bellier 2013
Métadonnéesdescriptives
Produire et décrire le document numérique
Métadonnées de structure :
» Le cas de la numérisation
65 Luc Bellier 2013
Produire et décrire le document numérique
Métadonnées de structure :
http://www.loc.gov/standards/mets/METSOverview.v2_fr.htmlhttp://bibnum.bnf.fr/refNum/
» Le cas de la numérisation
66 Luc Bellier 2013
Métadonnées de structure : le fichier alto
http://www.loc.gov/standards/alto/
» Le cas de la numérisation
Produire et décrire le document numérique
67 Luc Bellier 2013
Métadonnéesdescriptives
Produire et décrire le document numérique
Métadonnées de structure :
» Le cas de la numérisation
68 Luc Bellier 2013
Produire et décrire le document numérique
Métadonnées descriptives :
Métadonnées de structure :
» Le cas de la numérisation
69 Luc Bellier 2013
Imprimés
Alto
Alto
Refnum
X Alto
TTiff
Tiff
Tiff
TDM
Tiff
header
refnumNotice Biblio
Altotdm
TiffAltoTdmrefnum
Serveur d’accès
ID
Produire et décrire le document numérique» Le cas de la numérisation
70 Luc Bellier 2013
Le document numérique
» Nature et structure du document numérique La notion de document : d’une définition formelle à une approche par écosystème Les types de fichiers : Les formats textes, les formats images, les formats multimédia La granularité du document, structuration et déstructuration
» Produire et décrire le document numérique Le cas de la numérisation Le cas des de ePub Les identifiants
» Les métadonnées Les métadonnées pour la recherche
• Le cas des catalogues• Le cas des moteurs • Approche sémantique
Les métadonnées comme point d’accès• Accès centralisés (catalogue et/ou moteur)• Accès distribués fermés et ouverts (OAI, RSS et OPDS)• L’interopérabilité sémantique• Les nouvelles métadonnées (folksonomies)• Multiplier les accès et multiplier les documents
» Les enjeux des accès et de la médiation: Maitrise de la chaîne et des formats Longue traine et économie de l’attention Appréhender la collection numérique : le cas des bibliothèques La médiation autour des documents numériques
71 Luc Bellier 2013
Le document numérique
Produire et décrire le document numérique : le cas des ePub et livres numériques
72 Luc Bellier 2013
Produire et décrire le document numérique
MétadonnéesDescriptives?
Métadonnées de structure ?
» Le cas des livres numériques ePub
73 Luc Bellier 2013
Produire et décrire le document numérique
MétadonnéesDescriptives?
Métadonnées de structure ?
» Le cas des livres numériques ePub
74 Luc Bellier 2013
Meta-infManifeste
Applications
XML
MIM
ETYP
E
OPS
OPF
CSS
XHTML
XHTML
XHTML
JPG
JPG
JPG
NC
X
Métadonnées du document
Table des matières
Imprimés
Alto
Alto
Refnum
X Alto
TTiff
Tiff
Tiff
TDM
NNNNNNN.ZIP ou TAR
le cas des livres numériques ePub
Produire et décrire le document numérique» Le cas des livres numériques ePub
75 Luc Bellier 2013
Produire et décrire le document numérique» Le cas des livres numériques ePub
MétadonnéesDescriptives?
Métadonnées de structure ?
OPF
XHTM
LJP
GN
CX
76 Luc Bellier 2013
Le document numérique
Les identifiants
77 Luc Bellier 2013
• Une référence stable :– nommer la ressource– trouver la ressource sur le réseau– « citabilité »
• Un identifiant :– reconnaître la ressource – de manière unique– sur le long terme
• Donc deux objectifs : – l’accès– la préservation
Produire et décrire le document numérique» Les identifiants
78 Luc Bellier 2013
» On dispose de standards pour identifier les documents sur le Web : URL : localisation URN : nom URI : identifiant
» L’identifiant (URI) peut être le nom (URN) de la ressource ou son adresse / emplacement (URL)
» Aujourd’hui, seules les URL sont interprétées directement par les navigateurs
URL
URN
URI
Produire et décrire le document numérique» Les identifiants
79 Luc Bellier 2013
ark:/12148/bpt6k2029102
Catalogue : visualiseur.bnf.frGallica : Gallica.bnf.fr
Produire et décrire le document numérique» Les identifiants
80 Luc Bellier 2013
Produire et décrire le documents numérique
» Un document numérique c'est Des fichiers + des métadonnées Une structure physique / logique Un environnement matériel / logiciel permettant d'interpréter le document
» >> construire les accès à la collection numérique
» >> préserver les documents numériques
» Conclusion
81 Luc Bellier 2013
0010000000100000001000000011000100110010001100000010000000100000001000000010000000110101001110000010000000100000001101010010000000100000001000000011000100111001001110000011000100101101001100000011100100101101001100110011000001010100001100010011010000111010001100100011001000111010001100000011000100101110001101100011001000111001010110100010000000100000001000000011001100111000001110010011100000101110001101110011000000100000001000000010000000110010001100110011010100110010001011100011010000110101001000000010000000100000001000000010000000101101001100010010111000110110001101100010000000100000001000000010110100110111001011100110111001100100010000000100000001011010011000100111000001011100011011000110001001000000010000000101101001110000011000000101100011000000110000001000000010000000101101001110000011000000101110001100000011000000100000001000000010000000110001001000000010000000110100001100110010000000100000001000000011100100100000001000000010000000100000001110010011100000111001001011100011010000110010001000000010000000100000001000000010000000110001001101100010111000110000001100100010000000100000001000000010000000100000001101010011001100101110001110000011001100100000001000000010000000100000001000000011010100110110001011100011011000110010001000000010000000100000001000000010000000100000001101000010111000111000001100010010000000100000001000000010000000110111001110010011001100101110001101010011100000100000001000000010000000100000001000000010000000110011001011100011001100110100000010100010000000100000001000000011000100110010001100000010000000100000001000000010000000110101001110000010000000100000001101010010000000100000001000000011000100111001001110000011000100101101001100000011100100101101001100110011000001010100001100010011010000111010001100100011001000111010001100000011010100101110001101110011100000111000010110100010000000100000001000000011001100111000001110010011010000101110001101100011010000100000001000000010000000110010001101010011010000110110001011100011100000111000001000000010000000100000001000000010000001000000010110100111000001100000010
Produire et décrire le document numérique
» Sélection
» Acquisition
» Description : Catalogage
» Préparation à la
» consultation : Équipement
» Magasinage
» Conservation
» Communication
» Valorisation
Sélection
Collecte / production
Description : Métadonnées /
indexation
Préparation à la
consultation : Empaquetage
Gestion
Préservation
Accès
Valorisation
Co
nsu
ltat
ion
d’u
ne
co
lle
ctio
nG
esti
on
d’u
ne
coll
ecti
on
Ran
gem
en
t et
co
nse
rrva
top
nd
’un
e c
oll
ect
ion
Co
nst
itu
tio
n
d’u
ne
co
lle
ctio
n
» Conclusion