le document numérique - cours iut métiers du livre de saint cloud - part1_2013

Post on 14-Nov-2014

3.377 Views

Category:

Education

1 Downloads

Preview:

Click to see full reader

DESCRIPTION

 

TRANSCRIPT

Le document numérique»Nature, accès et médiation des documents dans un contexte numérique

2 Luc Bellier 2013

Appréhender un document

» Le document comme objet, comme contenu, comme dispositif de lecture, comme support

Luc Bellier 2013

3 Luc Bellier 2013

Tablette d’argile : textes juridiques ou comptables Rouleau de papyrus :

textes sacrés

Qu’est-ce qu’un document ?

4 Luc Bellier 2013

Fiches

Films

Qu’est-ce qu’un document ?

5 Luc Bellier 2013

Qu’est-ce qu’un document ?

Contenu/contenantLecture et dispositif de lecture

10 Luc Bellier 2013

Introduction

» Nature et structure du document numérique La notion de document : d’une définition formelle à une approche par écosystème Les types de fichiers : Les formats textes, les formats images, les formats multimédia La granularité du document, structuration et déstructuration

» Produire et décrire le document numérique Le cas de la numérisation Le cas des de ePub Les identifiants

» Les métadonnées Les métadonnées pour la recherche

• Le cas des catalogues• Le cas des moteurs • Approche sémantique

Les métadonnées comme point d’accès• Accès centralisés (catalogue et/ou moteur)• Accès distribués fermés et ouverts (OAI, RSS et OPDS)• L’interopérabilité sémantique• Les nouvelles métadonnées (folksonomies)• Multiplier les accès et multiplier les documents

» Les enjeux des accès et de la médiation: Maitrise de la chaîne et des formats Longue traine et économie de l’attention Appréhender la collection numérique : le cas des bibliothèques La médiation autour des documents numériques

11 Luc Bellier 2013

Le document numérique

» Nature et structure du document numérique : La notion de document

12 Luc Bellier 2013

Nature et structure du document numérique

» Définition ISO (International Organisation for Standardization)• Ensemble formé par un support et une information généralement enregistré

de façon permanente et tel qu’il puisse être lu par l’homme ou la machine

» Vocabulaire de la documentation• Ensemble d’un support d’information, quel qu’il soit, des données

enregistrées sur ce support et de leur signification, servant à la consultation, l’étude, la preuve ou la trace etc. : livre, échantillon de parfum, tissus, film…Le tout constitue une unité autonome.

» La notion de document

13 Luc Bellier 2013

Nature et structure du document numérique

« Tout est document pourvu qu’il soit le témoin d’un savoir inscrit dans un système documentaire » Suzanne Briet 1951

Le vu, le lu, le su (Jean-Michel Salaün)• Le vu : la forme, le support• Le lu : le texte, le contenu, le fond• Le su : le medium, l’attention, le système d’échange

» http://lafeuille.blog.lemonde.fr/2011/09/13/les-trois-dimensions-de-leconomie-de-la-publication/

» http://blogues.ebsi.umontreal.ca/jms/index.php/

» La notion de document

14 Luc Bellier 2013

Nature et structure du document numérique

» Le document ne peut être dissocié de ses environnements : Fond, forme, destination font parti intégrante du document si celui-ci doit

s’inscrire dans un système (documentaire, d’échanges etc.) En ce sens le document doit toujours être interrogé pour ce qu’il est dans ces

trois dimensions, et traité en conséquence :• La diffusion (médium)• La forme (description, reproduction, déclinaisons de différents supports etc.)• Le fond (la pertinence du contenu au regard des deux autres dimensions)

14

» La notion de document

15 Luc Bellier 2013

Le document numérique

Nature et structure du document numérique : les formats de fichiers

16 Luc Bellier 2013

Nature et structure du document numérique

Les formats de fichiers

17 Luc Bellier 2013

Nature et structure du document numérique

17

Les formats de fichiers

18 Luc Bellier 2013

Nature et structure du document numérique

Les formats de fichiers

19 Luc Bellier 2013

Nature et structure du document numérique

» Formats des documents numériques

» Convention utilisée pour représenter des données sous forme binaire Image, texte, son... Peut contenir des métadonnées

» Un format peut avoir plusieurs versions PDF/A , PDF 1.4…

» Un format peut avoir différents profils d'application Plusieurs « couches » possibles (formats capsules ou enveloppes) Compression

» Formats propriétaires / ouverts / libres

Les formats de fichiers

20 Luc Bellier 2013

Nature et structure du document numérique

Métadonnées

Les formats de fichiers

21 Luc Bellier 2013

Nature et structure du document numérique

Métadonnées

Les formats de fichiers

22 Luc Bellier 2013

Nature et structure du document numérique

Métadonnées

Les formats de fichiers

23 Luc Bellier 2013

Le document numérique

» Nature et structure du document numérique : la granularité

24 Luc Bellier 2013

Nature et structure du document numérique

Collection Document(notice

bibliographique)Volume, tome,

fascicule... Page

Un document complexe peut avoir plusieurs niveaux d’accès ou niveaux de granularité

Document simple : pas de problème de structure en soi, mais peut tout de même avoir plusieurs niveaux d’accès

Vue de détail

(article)

Vue de détail

Image(légende)

Lot(notice

bibliographique)

Collection

La granularité des documents numériques

25 Luc Bellier 2013

Le document numérique

» Nature et structure du document numérique La notion de document : d’une définition formelle à une approche par écosystème Les types de fichiers : Les formats textes, les formats images, les formats multimédia La granularité du document, structuration et déstructuration

» Produire et décrire le document numérique Le cas de la numérisation Le cas des de ePub Les identifiants

» Les métadonnées Les métadonnées pour la recherche

• Le cas des catalogues• Le cas des moteurs • Approche sémantique

Les métadonnées comme point d’accès• Accès centralisés (catalogue et/ou moteur)• Accès distribués fermés et ouverts (OAI, RSS et OPDS)• L’interopérabilité sémantique• Les nouvelles métadonnées (folksonomies)• Multiplier les accès et multiplier les documents

» Les enjeux des accès et de la médiation: Maitrise de la chaîne et des formats Longue traine et économie de l’attention Appréhender la collection numérique : le cas des bibliothèques La médiation autour des documents numériques

26 Luc Bellier 2013

Le document numérique

» Produire et décrire le document numérique : le cas de la numérisation

27 Luc Bellier 2013

Produire et décrire le document numérique

» Le cas de la numérisation

Numérisation

En mode texte

Relecture encodage

Compétences bibliothéconomiques

Compétences techniques

Pas de compétences particulières

Sélection

Acquisition

Signalement

Mise en ligneIndexation

Prestataire

Prestataire

Prestataire

En mode image

structuration transformationContrôle

http://www.bnf.fr/fr/collections_et_services/bibliotheques_numeriques_gallica/a.numerisation_masse_bnf.html

28 Luc Bellier 2013

0010000000100000001000000011000100110010001100000010000000100000001000000010000000110101001110000010000000100000001101010010000000100000001000000011000100111001001110000011000100101101001100000011100100101101001100110011000001010100001100010011010000111010001100100011001000111010001100000011000100101110001101100011001000111001010110100010000000100000001000000011001100111000001110010011100000101110001101110011000000100000001000000010000000110010001100110011010100110010001011100011010000110101001000000010000000100000001000000010000000101101001100010010111000110110001101100010000000100000001000000010110100110111001011100110111001100100010000000100000001011010011000100111000001011100011011000110001001000000010000000101101001110000011000000101100011000000110000001000000010000000101101001110000011000000101110001100000011000000100000001000000010000000110001001000000010000000110100001100110010000000100000001000000011100100100000001000000010000000100000001110010011100000111001001011100011010000110010001000000010000000100000001000000010000000110001001101100010111000110000001100100010000000100000001000000010000000100000001101010011001100101110001110000011001100100000001000000010000000100000001000000011010100110110001011100011011000110010001000000010000000100000001000000010000000100000001101000010111000111000001100010010000000100000001000000010000000110111001110010011001100101110001101010011100000100000001000000010000000100000001000000010000000110011001011100011001100110100000010100010000000100000001000000011000100110010001100000010000000100000001000000010000000110101001110000010000000100000001101010010000000100000001000000011000100111001001110000011000100101101001100000011100100101101001100110011000001010100001100010011010000111010001100100011001000111010001100000011010100101110001101110011100000111000010110100010000000100000001000000011001100111000001110010011010000101110001101100011010000100000001000000010000000110010001101010011010000110110001011100011100000111000001000000010000000100000001000000010000001000000010110100111000001100000010

Produire et décrire le document numérique

» Sélection

» Acquisition

» Description : Catalogage

» Préparation à la

» consultation : Équipement

» Magasinage

» Conservation

» Communication

» Valorisation

Sélection

Collecte / production

Description : Métadonnées /

indexation

Préparation à la

consultation : Empaquetage

Gestion

Préservation

Accès

Valorisation

Co

nsu

ltat

ion

d’u

ne

co

lle

ctio

nG

esti

on

d’u

ne

coll

ecti

on

Ran

gem

en

t et

co

nse

rrva

top

nd

’un

e c

oll

ect

ion

Co

nst

itu

tio

n

d’u

ne

co

lle

ctio

n» Le cas de la numérisation

29 Luc Bellier 2013

Produire et décrire le document numérique» Le cas de la numérisation

La numérisation en mode image s’intéresse à la forme et donc à la structure physique

Avantages : un fac-similé

préserve l’intégrité de l’original

Inconvénients : un seul point d ’accès : la notice

bibliographique

pas de possibilités de manipulation du texte

poids des images > stockage, temps de téléchargement

mise en place de chaînes de numérisation complexes

Numériser en mode image

30 Luc Bellier 2013

Produire et décrire le document numérique

Pour produire

Pour visualiser

Pour archiver

» Le cas de la numérisation

31 Luc Bellier 2013

Produire et décrire le document numérique

Capture du document par un signal lumineuxanalyse de l’intensité lumineuse par un capteur CDD (charged-

coupled device) une seule analyse pour le noir et blancanalyse de 3 faisceaux lumineux séparés par un prisme et des filtres

rouges, verts et bleus (RVB) pour des documents en couleurconversion en signal électrique binaire selon une grille propre au

mode de codageProduction du fichier bitmap

» Le cas de la numérisation

32 Luc Bellier 2013

Produire et décrire le document numérique

» Processus • Passage d’un support physique à un état dit dématérialisé• Changement de mode de codage : passage d’un mode de codage

analogique à un codage numérique– Information analogique : le signal est continu => onde lumineuse– Information numérisée : représentée par un échantillon de valeurs du

signal analogique et codé à l’aide de numéraux (0 ou 1)

» Caractéristiques techniques• Ces changements se font par un processus technologique : la

numérisation et à l’aide d’un matériel spécifique : le numériseur (ou scanner)

• Le fichier résultant de la numérisation est un fichier bitmap32

Échelle 2 bitsÉchelle 16 bits

» Le cas de la numérisation

33 Luc Bellier 2013

Produire et décrire le document numérique

Luc Bellier2012

• NUMERISATION • RESTITUTION•0000000000•0001110000•0010001100•0100000100•1000000010•1111111111•1000000000•1000000000•0100000010•0010000100•0001111000

• In Mémoires optiques / Catherine Leloup. – Paris : EME, 1987.

Le nombre de points par pouce ou DPI (1 inch = 2,54 cm) détermine la résolution et donc la qualité de l’image mais aussi le poids du fichier

Le nombre d’information par point (noir et blanc, niveaux de gris ou couleurs)

Le mode de compression

La taille de l’image est fonction de ces trois paramètres

» Le cas de la numérisation

34 Luc Bellier 2013

Produire et décrire le document numérique

Type d’image Nbre de bits Valeurs codées Remarques

noir et blanc2 noir = 1

blanc = 0

utilisé pour le texte

avec des niveaux de gris

8 256 niveaux de gris

utilisé pour les documents iconographiques noir et blanc

couleur analyse RVB(*)

3 x 8 3 x 256 niveaux par couleur soit 16,4 millions de

couleurs

3 couleurs : rouge/vert/bleu(codage utilisé par les moniteurs

et les téléviseurs)

•(*) Les imprimantes couleur utilisent le modèle CMJN (cyan, magenta, jaune et noir) qui est celui de l’imprimerie en quadrichromie.

» Le cas de la numérisation

35 Luc Bellier 2013

Produire et décrire le document numérique

» Caractéristiques générales• reproduction à l’identique, fac-simile• volume des fichiers très important, ce qui a un impact sur :

- le choix des supports de stockage- les possibilités et les temps de transmission par réseau

• un seul point d’accès, la notice bibliographique• pas de manipulations du texte, document non modifiable (pas d’accès au

contenu)• mise en place de chaînes de numérisation complexes

» Qualité • La qualité et la lisibilité du document numérique restitué est variable selon :

- l’état initial du document- la résolution retenue- les performances du numériseur (scanner) et le niveau du réglage des

contrastes

» Le cas de la numérisation

36 Luc Bellier 2013

Produire et décrire le document numérique

» Images en noir et blanc 2 tons = 1 bit par point (8 bits = 1 octet) Format TIFF (1 image par page, 1 fichier par page) Résolution 300 à 600 dpi (300 à 600 points par pouce => définition) Image légère et lisible, adaptée à la lecture à l’écran des imprimés

36

Zoom 400% image noir et blanc 300 dpi

Zoom 100% image noir et blanc 300 dpi

» Le cas de la numérisation

37 Luc Bellier 2013

Produire et décrire le document numérique

» Images en niveaux de gris 256 tons = 8 bits par point Format TIFF V6 monopage (depuis 2006) Format JFIF compressé JPEG (avant 2006) Résolution 300 à 600 dpi Image fine et assez lourde (presse, ouvrages de mauvaise qualité)

Zoom 100% image niveau de gris 300 dpi

Zoom 400% image niveau de gris 300 dpi

» Le cas de la numérisation

38 Luc Bellier 2013

Produire et décrire le document numérique

» Images en couleur RVB 16,7 millions de tons = 24 bits par point ; profil colorimétrique Adobe 98 Format TIFF Résolution 300 à 600 dpi Format lourd utilisé pour garder la couleur des originaux si cela se justifie.

Zoom 400% image couleur 300 dpi

Zoom 100% image couleur 300 dpi

» Le cas de la numérisation

39 Luc Bellier 2013

Produire et décrire le document numérique

» La compression

» Plus une image est de bonne qualité plus elle est lourde. La compression peut permettre de diminuer fortement le poids d’une image sans abaisser dans les mêmes proportions la qualité.

» Elle permet de réduire la taille des fichiers en supprimant des pixels ou des couleurs Compression sans perte Compression avec perte

» Les formats engendrant des pertes de données irréversibles sont à éviter lorsque l’on veut assurer la sauvegarde à long terme des images

Zoom 400% image couleur 300 dpi

Zoom 100% image couleur 300 dpi agrandi dans la présentation

» Le cas de la numérisation

40 Luc Bellier 2013

Produire et décrire le document numérique

40

Bidirectionnelle(Read modifié)

Codage ligne par ligne puis corrélation des lignes entre elles

Les lignes qui se suivent se ressemblent, on va donc procéder à un codage relatif ou prédictif d’une ligne à l’autre

Taux les plus fréquents : 8 à 20

Format de compression IUT Groupe 4

» Le cas de la numérisation

41 Luc Bellier 2013

Format de compression JPEG

Paramétrage du taux de qualité (0 à 100%)

codage

compression

restitution

Pour un taux = 80%) la compression est comprise entre 5 et 10Utilisé pour les images 8 bits et 24 bits

» Le cas de la numérisation

42 Luc Bellier 2013

Kirtas APT 2400

Produire et décrire le document numérique» Le cas de la numérisation

43 Luc Bellier 2013

CopybookDigibook 2000LCSuprascan A0

Produire et décrire le document numérique» Le cas de la numérisation

44 Luc Bellier 2013

Microfiches

Microfilms

Produire et décrire le document numérique» Le cas de la numérisation

45 Luc Bellier 2013

Plus de 6000 pages/heure

Docuscan 6000

Produire et décrire le document numérique» Le cas de la numérisation

46 Luc Bellier 2013

Redressement

Binarisation (transformation des images de niveau de gris et couleur en noir et blanc)Filtrage des formes(redressement des blancs, des lignes, des caractères à l’intérieur d’une image)

Recadrage des pages

Illustrations

Produire et décrire le document numérique» Le cas de la numérisation

47 Luc Bellier 2013

Produire et décrire le document numérique

» Les formats d’image… ouverts et libres

• SVG• PNG• Jpeg2000

ouverts et propriétaires• TIFF

Format de diffusion dans Gallica

Formats de numérisation BnF

» Le cas de la numérisation

48 Luc Bellier 2013

Produire et décrire le document numérique

La numérisation en mode texte s’intéresse directement au contenu et donc à la structure logique

Avantages recherche plein texte et autres

manipulations

souplesse et portabilité

Accessibilité pour les personnes en situation de handicap visuel

Inconvénients lourdeur de réalisation

coût

» Le cas de la numérisation

49 Luc Bellier 2013

Produire et décrire le document numérique

» Les techniques de création du mode texte : reconnaissance automatique de caractères ou OCR

• fortement conditionnée par la qualité de numérisation• problèmes : caractères anciens, mal formés, caractères spéciaux, titres…• correction manuelle obligatoire

la saisie• saisie manuelle : problème de ressources humaines !• double saisie manuelle comparée

» Le cas de la numérisation

50 Luc Bellier 2013

L’OCR et le mode texte» L’OCR est un processus automatique

» La qualité comme la reconnaissance sont calculés par des machines

» C’est le nombre de caractères suspects divisés par le nombre total de caractères sur une page.

» Une page de dix caractères vaut autant qu’une page de 10000 caractères dans un même ouvrage.

» Le cas de la numérisation

Produire et décrire le document numérique

51 Luc Bellier 2013

Produire et décrire le document numérique

» Les formats d’encodage du texte (basés sur XML)…

Structure logique• TEI et tdmNum

Structure physique• ALTO

• HTML

51

Format de production

Formats de consultation

Format de production

» Le cas de la numérisation

L’OCR et le mode texte

52 Luc Bellier 2013

Produire et décrire le document numérique

(http://www.bium.univ-paris5.fr/histmed/medica.htm)Liste des

chapitres en mode texte

Pages en mode image

» Le cas de la numérisation

53 Luc Bellier 2013

» (http://www.persee.fr)

Mode image Mode texte (OCR de très bonne qualité, documents récents)

Produire et décrire le document numérique» Le cas de la numérisation

54 Luc Bellier 2013

(http://books.google.fr/)

Visualisation du mode image uniquement, mode texte issu d’OCR en sous-couche permettant la recherche plein texte et le surlignage des résultats de la recherche

Produire et décrire le document numérique» Le cas de la numérisation

55 Luc Bellier 2013

METADONNEES

Produire et décrire le document numérique» Le cas de la numérisation

56 Luc Bellier 2013

Produire et décrire le document numérique

?

Un document numérique / électronique, c’est une suite de fichiers sans lien entre eux

Métadonnées descriptives•rattacher le document à l’original / différentes versions d’un document

•donner accès à la copie numérique / électronique

Métadonnées administratives

•gérer la collection, c’est-à-dire

•gérer les droits d’accès

•préserver les informations techniques nécessaires à la lecture des fichiers

•garantir l ’intégrité des fichiers et le suivi de leurs éventuelles modifications

identifiant unique (localisation / identification)

Métadonnées de structure

•rattacher les fichiers entre eux

•reconstituer la structure du document

? ?

» Le cas de la numérisation

57 Luc Bellier 2013

Produire et décrire le document numérique» Le cas de la numérisation

58 Luc Bellier 2013

image

Texte Alto

Metadescriptives

et de structure

Table

000001.tif

000001.xml

ID.xml

TID.xml

•Une image par page donc deux fichiers par page•Un fichier xml de structure par document et éventuellement un fichier table des matière. •Le fichier de structure porte également des données descriptive pour le lien avec le catalogue

Produire et décrire le document numérique» Le cas de la numérisation

59 Luc Bellier 2013

Produire et décrire le document numérique

» Des données sur les données ... qui servent à organiser la connaissance et à utiliser et exploiter le document

• Métadonnées descriptives, contextuelles et structurelles- Ex. : Notice bibliographique, indexation- Ex. : Date et formats de numérisation- Ex. : Données sur les fichiers pour reconstituer l’ouvrage (Cf. plus loin)

• initiales et ajoutées tout au long du cycle de vie du document numérisé qui servent à le maintenir accessible dans le temps et à garantir et contrôler

cet accès• Métadonnées administratives et techniques

- Ex. : Droits de lecture en interne seulement ou droit sur Internet• initiales et ajoutées tout au long du cycle de vie du document numérisé

- Ex. : passage d’un document protégé dans le domaine public

» Le cas de la numérisation

60 Luc Bellier 2013

Produire et décrire le document numérique

• Les métadonnées descriptives : – appréhender le contenu d’un objet

• description bibliographique approfondie et détaillée

– identifier un objet ou un groupe d’objets• description bibliographique minimale• identifiant pérenne

– identifier les parties qui composent un objet• information de structure

– échanger des objets ou des descriptions d’objets• description bibliographique dans un format normalisé

» Le cas de la numérisation

61 Luc Bellier 2013

Produire et décrire le document numérique

• Du catalogage aux métadonnées– les métadonnées

• une description d’un objet matériel ou non, les métadonnées peuvent être dans le document lui-même

• multiplication des « points d’accès », information structurée• une localisation : URL / URN / URI

• De « nouveaux » formats– pour les notices : Dublin Core, EAD + formats dérivés de MARC

en XML (MarcXML, MODS, BiblioML)– nouveau : pour le contenu des documents eux-mêmes

• autrefois on n’entrait pas « dans » le document• nouveaux besoins : OCR, tables des matières en saisie, structure

du défilement des pages…• nouveau formats : TEI, METS, ALTO

» Le cas de la numérisation

62 Luc Bellier 2013

Produire et décrire le document numérique

• Une tradition dans les bibliothèques– Le catalogage : création d’information descriptive secondaire

(notice) qui caractérise une information primaire (document)– Les métadonnées : des données (secondaires) sur les données

(primaires)

• Caractéristiques du catalogage : – un contenu normalisé : ISBD, AACR...– Un format pour le traitement informatique : MARC (Machine

readable cataloguing)– une notice bibliographique c’est…

• une description d’un objet matériel• des « points d’accès » pour retrouver le document• une localisation pour se le procurer

» Le cas de la numérisation

63 Luc Bellier 2013

Produire et décrire le document numérique

Métadonnées descriptives

» Le cas de la numérisation

64 Luc Bellier 2013

Métadonnéesdescriptives

Produire et décrire le document numérique

Métadonnées de structure :

» Le cas de la numérisation

65 Luc Bellier 2013

Produire et décrire le document numérique

Métadonnées de structure :

http://www.loc.gov/standards/mets/METSOverview.v2_fr.htmlhttp://bibnum.bnf.fr/refNum/

» Le cas de la numérisation

66 Luc Bellier 2013

Métadonnées de structure : le fichier alto

http://www.loc.gov/standards/alto/

» Le cas de la numérisation

Produire et décrire le document numérique

67 Luc Bellier 2013

Métadonnéesdescriptives

Produire et décrire le document numérique

Métadonnées de structure :

» Le cas de la numérisation

68 Luc Bellier 2013

Produire et décrire le document numérique

Métadonnées descriptives :

Métadonnées de structure :

» Le cas de la numérisation

69 Luc Bellier 2013

Imprimés

Alto

Alto

Refnum

X Alto

TTiff

Tiff

Tiff

TDM

Tiff

header

refnumNotice Biblio

Altotdm

TiffAltoTdmrefnum

Serveur d’accès

ID

Produire et décrire le document numérique» Le cas de la numérisation

70 Luc Bellier 2013

Le document numérique

» Nature et structure du document numérique La notion de document : d’une définition formelle à une approche par écosystème Les types de fichiers : Les formats textes, les formats images, les formats multimédia La granularité du document, structuration et déstructuration

» Produire et décrire le document numérique Le cas de la numérisation Le cas des de ePub Les identifiants

» Les métadonnées Les métadonnées pour la recherche

• Le cas des catalogues• Le cas des moteurs • Approche sémantique

Les métadonnées comme point d’accès• Accès centralisés (catalogue et/ou moteur)• Accès distribués fermés et ouverts (OAI, RSS et OPDS)• L’interopérabilité sémantique• Les nouvelles métadonnées (folksonomies)• Multiplier les accès et multiplier les documents

» Les enjeux des accès et de la médiation: Maitrise de la chaîne et des formats Longue traine et économie de l’attention Appréhender la collection numérique : le cas des bibliothèques La médiation autour des documents numériques

71 Luc Bellier 2013

Le document numérique

Produire et décrire le document numérique : le cas des ePub et livres numériques

72 Luc Bellier 2013

Produire et décrire le document numérique

MétadonnéesDescriptives?

Métadonnées de structure ?

» Le cas des livres numériques ePub

73 Luc Bellier 2013

Produire et décrire le document numérique

MétadonnéesDescriptives?

Métadonnées de structure ?

» Le cas des livres numériques ePub

74 Luc Bellier 2013

Meta-infManifeste

Applications

XML

MIM

ETYP

E

OPS

OPF

CSS

XHTML

XHTML

XHTML

JPG

JPG

JPG

NC

X

Métadonnées du document

Table des matières

Imprimés

Alto

Alto

Refnum

X Alto

TTiff

Tiff

Tiff

TDM

NNNNNNN.ZIP ou TAR

le cas des livres numériques ePub

Produire et décrire le document numérique» Le cas des livres numériques ePub

75 Luc Bellier 2013

Produire et décrire le document numérique» Le cas des livres numériques ePub

MétadonnéesDescriptives?

Métadonnées de structure ?

OPF

XHTM

LJP

GN

CX

76 Luc Bellier 2013

Le document numérique

Les identifiants

77 Luc Bellier 2013

• Une référence stable :– nommer la ressource– trouver la ressource sur le réseau– « citabilité »

• Un identifiant :– reconnaître la ressource – de manière unique– sur le long terme

• Donc deux objectifs : – l’accès– la préservation

Produire et décrire le document numérique» Les identifiants

78 Luc Bellier 2013

» On dispose de standards pour identifier les documents sur le Web : URL : localisation URN : nom URI : identifiant

» L’identifiant (URI) peut être le nom (URN) de la ressource ou son adresse / emplacement (URL)

» Aujourd’hui, seules les URL sont interprétées directement par les navigateurs

URL

URN

URI

Produire et décrire le document numérique» Les identifiants

79 Luc Bellier 2013

ark:/12148/bpt6k2029102

Catalogue : visualiseur.bnf.frGallica : Gallica.bnf.fr

Produire et décrire le document numérique» Les identifiants

80 Luc Bellier 2013

Produire et décrire le documents numérique

» Un document numérique c'est Des fichiers + des métadonnées Une structure physique / logique Un environnement matériel / logiciel permettant d'interpréter le document

» >> construire les accès à la collection numérique

» >> préserver les documents numériques

» Conclusion

81 Luc Bellier 2013

0010000000100000001000000011000100110010001100000010000000100000001000000010000000110101001110000010000000100000001101010010000000100000001000000011000100111001001110000011000100101101001100000011100100101101001100110011000001010100001100010011010000111010001100100011001000111010001100000011000100101110001101100011001000111001010110100010000000100000001000000011001100111000001110010011100000101110001101110011000000100000001000000010000000110010001100110011010100110010001011100011010000110101001000000010000000100000001000000010000000101101001100010010111000110110001101100010000000100000001000000010110100110111001011100110111001100100010000000100000001011010011000100111000001011100011011000110001001000000010000000101101001110000011000000101100011000000110000001000000010000000101101001110000011000000101110001100000011000000100000001000000010000000110001001000000010000000110100001100110010000000100000001000000011100100100000001000000010000000100000001110010011100000111001001011100011010000110010001000000010000000100000001000000010000000110001001101100010111000110000001100100010000000100000001000000010000000100000001101010011001100101110001110000011001100100000001000000010000000100000001000000011010100110110001011100011011000110010001000000010000000100000001000000010000000100000001101000010111000111000001100010010000000100000001000000010000000110111001110010011001100101110001101010011100000100000001000000010000000100000001000000010000000110011001011100011001100110100000010100010000000100000001000000011000100110010001100000010000000100000001000000010000000110101001110000010000000100000001101010010000000100000001000000011000100111001001110000011000100101101001100000011100100101101001100110011000001010100001100010011010000111010001100100011001000111010001100000011010100101110001101110011100000111000010110100010000000100000001000000011001100111000001110010011010000101110001101100011010000100000001000000010000000110010001101010011010000110110001011100011100000111000001000000010000000100000001000000010000001000000010110100111000001100000010

Produire et décrire le document numérique

» Sélection

» Acquisition

» Description : Catalogage

» Préparation à la

» consultation : Équipement

» Magasinage

» Conservation

» Communication

» Valorisation

Sélection

Collecte / production

Description : Métadonnées /

indexation

Préparation à la

consultation : Empaquetage

Gestion

Préservation

Accès

Valorisation

Co

nsu

ltat

ion

d’u

ne

co

lle

ctio

nG

esti

on

d’u

ne

coll

ecti

on

Ran

gem

en

t et

co

nse

rrva

top

nd

’un

e c

oll

ect

ion

Co

nst

itu

tio

n

d’u

ne

co

lle

ctio

n

» Conclusion

top related