le document numérique - cours iut métiers du livre de saint cloud - part1_2013

81
Le document numérique » Nature, accès et médiation des documents dans un contexte numérique

Upload: luc-bellier

Post on 14-Nov-2014

3.377 views

Category:

Education


1 download

DESCRIPTION

 

TRANSCRIPT

Page 1: Le document numérique - cours IUT Métiers du livre de Saint Cloud - part1_2013

Le document numérique»Nature, accès et médiation des documents dans un contexte numérique

Page 2: Le document numérique - cours IUT Métiers du livre de Saint Cloud - part1_2013

2 Luc Bellier 2013

Appréhender un document

» Le document comme objet, comme contenu, comme dispositif de lecture, comme support

Luc Bellier 2013

Page 3: Le document numérique - cours IUT Métiers du livre de Saint Cloud - part1_2013

3 Luc Bellier 2013

Tablette d’argile : textes juridiques ou comptables Rouleau de papyrus :

textes sacrés

Qu’est-ce qu’un document ?

Page 4: Le document numérique - cours IUT Métiers du livre de Saint Cloud - part1_2013

4 Luc Bellier 2013

Fiches

Films

Qu’est-ce qu’un document ?

Page 5: Le document numérique - cours IUT Métiers du livre de Saint Cloud - part1_2013

5 Luc Bellier 2013

Qu’est-ce qu’un document ?

Contenu/contenantLecture et dispositif de lecture

Page 10: Le document numérique - cours IUT Métiers du livre de Saint Cloud - part1_2013

10 Luc Bellier 2013

Introduction

» Nature et structure du document numérique La notion de document : d’une définition formelle à une approche par écosystème Les types de fichiers : Les formats textes, les formats images, les formats multimédia La granularité du document, structuration et déstructuration

» Produire et décrire le document numérique Le cas de la numérisation Le cas des de ePub Les identifiants

» Les métadonnées Les métadonnées pour la recherche

• Le cas des catalogues• Le cas des moteurs • Approche sémantique

Les métadonnées comme point d’accès• Accès centralisés (catalogue et/ou moteur)• Accès distribués fermés et ouverts (OAI, RSS et OPDS)• L’interopérabilité sémantique• Les nouvelles métadonnées (folksonomies)• Multiplier les accès et multiplier les documents

» Les enjeux des accès et de la médiation: Maitrise de la chaîne et des formats Longue traine et économie de l’attention Appréhender la collection numérique : le cas des bibliothèques La médiation autour des documents numériques

Page 11: Le document numérique - cours IUT Métiers du livre de Saint Cloud - part1_2013

11 Luc Bellier 2013

Le document numérique

» Nature et structure du document numérique : La notion de document

Page 12: Le document numérique - cours IUT Métiers du livre de Saint Cloud - part1_2013

12 Luc Bellier 2013

Nature et structure du document numérique

» Définition ISO (International Organisation for Standardization)• Ensemble formé par un support et une information généralement enregistré

de façon permanente et tel qu’il puisse être lu par l’homme ou la machine

» Vocabulaire de la documentation• Ensemble d’un support d’information, quel qu’il soit, des données

enregistrées sur ce support et de leur signification, servant à la consultation, l’étude, la preuve ou la trace etc. : livre, échantillon de parfum, tissus, film…Le tout constitue une unité autonome.

» La notion de document

Page 13: Le document numérique - cours IUT Métiers du livre de Saint Cloud - part1_2013

13 Luc Bellier 2013

Nature et structure du document numérique

« Tout est document pourvu qu’il soit le témoin d’un savoir inscrit dans un système documentaire » Suzanne Briet 1951

Le vu, le lu, le su (Jean-Michel Salaün)• Le vu : la forme, le support• Le lu : le texte, le contenu, le fond• Le su : le medium, l’attention, le système d’échange

» http://lafeuille.blog.lemonde.fr/2011/09/13/les-trois-dimensions-de-leconomie-de-la-publication/

» http://blogues.ebsi.umontreal.ca/jms/index.php/

» La notion de document

Page 14: Le document numérique - cours IUT Métiers du livre de Saint Cloud - part1_2013

14 Luc Bellier 2013

Nature et structure du document numérique

» Le document ne peut être dissocié de ses environnements : Fond, forme, destination font parti intégrante du document si celui-ci doit

s’inscrire dans un système (documentaire, d’échanges etc.) En ce sens le document doit toujours être interrogé pour ce qu’il est dans ces

trois dimensions, et traité en conséquence :• La diffusion (médium)• La forme (description, reproduction, déclinaisons de différents supports etc.)• Le fond (la pertinence du contenu au regard des deux autres dimensions)

14

» La notion de document

Page 15: Le document numérique - cours IUT Métiers du livre de Saint Cloud - part1_2013

15 Luc Bellier 2013

Le document numérique

Nature et structure du document numérique : les formats de fichiers

Page 16: Le document numérique - cours IUT Métiers du livre de Saint Cloud - part1_2013

16 Luc Bellier 2013

Nature et structure du document numérique

Les formats de fichiers

Page 17: Le document numérique - cours IUT Métiers du livre de Saint Cloud - part1_2013

17 Luc Bellier 2013

Nature et structure du document numérique

17

Les formats de fichiers

Page 18: Le document numérique - cours IUT Métiers du livre de Saint Cloud - part1_2013

18 Luc Bellier 2013

Nature et structure du document numérique

Les formats de fichiers

Page 19: Le document numérique - cours IUT Métiers du livre de Saint Cloud - part1_2013

19 Luc Bellier 2013

Nature et structure du document numérique

» Formats des documents numériques

» Convention utilisée pour représenter des données sous forme binaire Image, texte, son... Peut contenir des métadonnées

» Un format peut avoir plusieurs versions PDF/A , PDF 1.4…

» Un format peut avoir différents profils d'application Plusieurs « couches » possibles (formats capsules ou enveloppes) Compression

» Formats propriétaires / ouverts / libres

Les formats de fichiers

Page 20: Le document numérique - cours IUT Métiers du livre de Saint Cloud - part1_2013

20 Luc Bellier 2013

Nature et structure du document numérique

Métadonnées

Les formats de fichiers

Page 21: Le document numérique - cours IUT Métiers du livre de Saint Cloud - part1_2013

21 Luc Bellier 2013

Nature et structure du document numérique

Métadonnées

Les formats de fichiers

Page 22: Le document numérique - cours IUT Métiers du livre de Saint Cloud - part1_2013

22 Luc Bellier 2013

Nature et structure du document numérique

Métadonnées

Les formats de fichiers

Page 23: Le document numérique - cours IUT Métiers du livre de Saint Cloud - part1_2013

23 Luc Bellier 2013

Le document numérique

» Nature et structure du document numérique : la granularité

Page 24: Le document numérique - cours IUT Métiers du livre de Saint Cloud - part1_2013

24 Luc Bellier 2013

Nature et structure du document numérique

Collection Document(notice

bibliographique)Volume, tome,

fascicule... Page

Un document complexe peut avoir plusieurs niveaux d’accès ou niveaux de granularité

Document simple : pas de problème de structure en soi, mais peut tout de même avoir plusieurs niveaux d’accès

Vue de détail

(article)

Vue de détail

Image(légende)

Lot(notice

bibliographique)

Collection

La granularité des documents numériques

Page 25: Le document numérique - cours IUT Métiers du livre de Saint Cloud - part1_2013

25 Luc Bellier 2013

Le document numérique

» Nature et structure du document numérique La notion de document : d’une définition formelle à une approche par écosystème Les types de fichiers : Les formats textes, les formats images, les formats multimédia La granularité du document, structuration et déstructuration

» Produire et décrire le document numérique Le cas de la numérisation Le cas des de ePub Les identifiants

» Les métadonnées Les métadonnées pour la recherche

• Le cas des catalogues• Le cas des moteurs • Approche sémantique

Les métadonnées comme point d’accès• Accès centralisés (catalogue et/ou moteur)• Accès distribués fermés et ouverts (OAI, RSS et OPDS)• L’interopérabilité sémantique• Les nouvelles métadonnées (folksonomies)• Multiplier les accès et multiplier les documents

» Les enjeux des accès et de la médiation: Maitrise de la chaîne et des formats Longue traine et économie de l’attention Appréhender la collection numérique : le cas des bibliothèques La médiation autour des documents numériques

Page 26: Le document numérique - cours IUT Métiers du livre de Saint Cloud - part1_2013

26 Luc Bellier 2013

Le document numérique

» Produire et décrire le document numérique : le cas de la numérisation

Page 27: Le document numérique - cours IUT Métiers du livre de Saint Cloud - part1_2013

27 Luc Bellier 2013

Produire et décrire le document numérique

» Le cas de la numérisation

Numérisation

En mode texte

Relecture encodage

Compétences bibliothéconomiques

Compétences techniques

Pas de compétences particulières

Sélection

Acquisition

Signalement

Mise en ligneIndexation

Prestataire

Prestataire

Prestataire

En mode image

structuration transformationContrôle

http://www.bnf.fr/fr/collections_et_services/bibliotheques_numeriques_gallica/a.numerisation_masse_bnf.html

Page 28: Le document numérique - cours IUT Métiers du livre de Saint Cloud - part1_2013

28 Luc Bellier 2013

0010000000100000001000000011000100110010001100000010000000100000001000000010000000110101001110000010000000100000001101010010000000100000001000000011000100111001001110000011000100101101001100000011100100101101001100110011000001010100001100010011010000111010001100100011001000111010001100000011000100101110001101100011001000111001010110100010000000100000001000000011001100111000001110010011100000101110001101110011000000100000001000000010000000110010001100110011010100110010001011100011010000110101001000000010000000100000001000000010000000101101001100010010111000110110001101100010000000100000001000000010110100110111001011100110111001100100010000000100000001011010011000100111000001011100011011000110001001000000010000000101101001110000011000000101100011000000110000001000000010000000101101001110000011000000101110001100000011000000100000001000000010000000110001001000000010000000110100001100110010000000100000001000000011100100100000001000000010000000100000001110010011100000111001001011100011010000110010001000000010000000100000001000000010000000110001001101100010111000110000001100100010000000100000001000000010000000100000001101010011001100101110001110000011001100100000001000000010000000100000001000000011010100110110001011100011011000110010001000000010000000100000001000000010000000100000001101000010111000111000001100010010000000100000001000000010000000110111001110010011001100101110001101010011100000100000001000000010000000100000001000000010000000110011001011100011001100110100000010100010000000100000001000000011000100110010001100000010000000100000001000000010000000110101001110000010000000100000001101010010000000100000001000000011000100111001001110000011000100101101001100000011100100101101001100110011000001010100001100010011010000111010001100100011001000111010001100000011010100101110001101110011100000111000010110100010000000100000001000000011001100111000001110010011010000101110001101100011010000100000001000000010000000110010001101010011010000110110001011100011100000111000001000000010000000100000001000000010000001000000010110100111000001100000010

Produire et décrire le document numérique

» Sélection

» Acquisition

» Description : Catalogage

» Préparation à la

» consultation : Équipement

» Magasinage

» Conservation

» Communication

» Valorisation

Sélection

Collecte / production

Description : Métadonnées /

indexation

Préparation à la

consultation : Empaquetage

Gestion

Préservation

Accès

Valorisation

Co

nsu

ltat

ion

d’u

ne

co

lle

ctio

nG

esti

on

d’u

ne

coll

ecti

on

Ran

gem

en

t et

co

nse

rrva

top

nd

’un

e c

oll

ect

ion

Co

nst

itu

tio

n

d’u

ne

co

lle

ctio

n» Le cas de la numérisation

Page 29: Le document numérique - cours IUT Métiers du livre de Saint Cloud - part1_2013

29 Luc Bellier 2013

Produire et décrire le document numérique» Le cas de la numérisation

La numérisation en mode image s’intéresse à la forme et donc à la structure physique

Avantages : un fac-similé

préserve l’intégrité de l’original

Inconvénients : un seul point d ’accès : la notice

bibliographique

pas de possibilités de manipulation du texte

poids des images > stockage, temps de téléchargement

mise en place de chaînes de numérisation complexes

Numériser en mode image

Page 30: Le document numérique - cours IUT Métiers du livre de Saint Cloud - part1_2013

30 Luc Bellier 2013

Produire et décrire le document numérique

Pour produire

Pour visualiser

Pour archiver

» Le cas de la numérisation

Page 31: Le document numérique - cours IUT Métiers du livre de Saint Cloud - part1_2013

31 Luc Bellier 2013

Produire et décrire le document numérique

Capture du document par un signal lumineuxanalyse de l’intensité lumineuse par un capteur CDD (charged-

coupled device) une seule analyse pour le noir et blancanalyse de 3 faisceaux lumineux séparés par un prisme et des filtres

rouges, verts et bleus (RVB) pour des documents en couleurconversion en signal électrique binaire selon une grille propre au

mode de codageProduction du fichier bitmap

» Le cas de la numérisation

Page 32: Le document numérique - cours IUT Métiers du livre de Saint Cloud - part1_2013

32 Luc Bellier 2013

Produire et décrire le document numérique

» Processus • Passage d’un support physique à un état dit dématérialisé• Changement de mode de codage : passage d’un mode de codage

analogique à un codage numérique– Information analogique : le signal est continu => onde lumineuse– Information numérisée : représentée par un échantillon de valeurs du

signal analogique et codé à l’aide de numéraux (0 ou 1)

» Caractéristiques techniques• Ces changements se font par un processus technologique : la

numérisation et à l’aide d’un matériel spécifique : le numériseur (ou scanner)

• Le fichier résultant de la numérisation est un fichier bitmap32

Échelle 2 bitsÉchelle 16 bits

» Le cas de la numérisation

Page 33: Le document numérique - cours IUT Métiers du livre de Saint Cloud - part1_2013

33 Luc Bellier 2013

Produire et décrire le document numérique

Luc Bellier2012

• NUMERISATION • RESTITUTION•0000000000•0001110000•0010001100•0100000100•1000000010•1111111111•1000000000•1000000000•0100000010•0010000100•0001111000

• In Mémoires optiques / Catherine Leloup. – Paris : EME, 1987.

Le nombre de points par pouce ou DPI (1 inch = 2,54 cm) détermine la résolution et donc la qualité de l’image mais aussi le poids du fichier

Le nombre d’information par point (noir et blanc, niveaux de gris ou couleurs)

Le mode de compression

La taille de l’image est fonction de ces trois paramètres

» Le cas de la numérisation

Page 34: Le document numérique - cours IUT Métiers du livre de Saint Cloud - part1_2013

34 Luc Bellier 2013

Produire et décrire le document numérique

Type d’image Nbre de bits Valeurs codées Remarques

noir et blanc2 noir = 1

blanc = 0

utilisé pour le texte

avec des niveaux de gris

8 256 niveaux de gris

utilisé pour les documents iconographiques noir et blanc

couleur analyse RVB(*)

3 x 8 3 x 256 niveaux par couleur soit 16,4 millions de

couleurs

3 couleurs : rouge/vert/bleu(codage utilisé par les moniteurs

et les téléviseurs)

•(*) Les imprimantes couleur utilisent le modèle CMJN (cyan, magenta, jaune et noir) qui est celui de l’imprimerie en quadrichromie.

» Le cas de la numérisation

Page 35: Le document numérique - cours IUT Métiers du livre de Saint Cloud - part1_2013

35 Luc Bellier 2013

Produire et décrire le document numérique

» Caractéristiques générales• reproduction à l’identique, fac-simile• volume des fichiers très important, ce qui a un impact sur :

- le choix des supports de stockage- les possibilités et les temps de transmission par réseau

• un seul point d’accès, la notice bibliographique• pas de manipulations du texte, document non modifiable (pas d’accès au

contenu)• mise en place de chaînes de numérisation complexes

» Qualité • La qualité et la lisibilité du document numérique restitué est variable selon :

- l’état initial du document- la résolution retenue- les performances du numériseur (scanner) et le niveau du réglage des

contrastes

» Le cas de la numérisation

Page 36: Le document numérique - cours IUT Métiers du livre de Saint Cloud - part1_2013

36 Luc Bellier 2013

Produire et décrire le document numérique

» Images en noir et blanc 2 tons = 1 bit par point (8 bits = 1 octet) Format TIFF (1 image par page, 1 fichier par page) Résolution 300 à 600 dpi (300 à 600 points par pouce => définition) Image légère et lisible, adaptée à la lecture à l’écran des imprimés

36

Zoom 400% image noir et blanc 300 dpi

Zoom 100% image noir et blanc 300 dpi

» Le cas de la numérisation

Page 37: Le document numérique - cours IUT Métiers du livre de Saint Cloud - part1_2013

37 Luc Bellier 2013

Produire et décrire le document numérique

» Images en niveaux de gris 256 tons = 8 bits par point Format TIFF V6 monopage (depuis 2006) Format JFIF compressé JPEG (avant 2006) Résolution 300 à 600 dpi Image fine et assez lourde (presse, ouvrages de mauvaise qualité)

Zoom 100% image niveau de gris 300 dpi

Zoom 400% image niveau de gris 300 dpi

» Le cas de la numérisation

Page 38: Le document numérique - cours IUT Métiers du livre de Saint Cloud - part1_2013

38 Luc Bellier 2013

Produire et décrire le document numérique

» Images en couleur RVB 16,7 millions de tons = 24 bits par point ; profil colorimétrique Adobe 98 Format TIFF Résolution 300 à 600 dpi Format lourd utilisé pour garder la couleur des originaux si cela se justifie.

Zoom 400% image couleur 300 dpi

Zoom 100% image couleur 300 dpi

» Le cas de la numérisation

Page 39: Le document numérique - cours IUT Métiers du livre de Saint Cloud - part1_2013

39 Luc Bellier 2013

Produire et décrire le document numérique

» La compression

» Plus une image est de bonne qualité plus elle est lourde. La compression peut permettre de diminuer fortement le poids d’une image sans abaisser dans les mêmes proportions la qualité.

» Elle permet de réduire la taille des fichiers en supprimant des pixels ou des couleurs Compression sans perte Compression avec perte

» Les formats engendrant des pertes de données irréversibles sont à éviter lorsque l’on veut assurer la sauvegarde à long terme des images

Zoom 400% image couleur 300 dpi

Zoom 100% image couleur 300 dpi agrandi dans la présentation

» Le cas de la numérisation

Page 40: Le document numérique - cours IUT Métiers du livre de Saint Cloud - part1_2013

40 Luc Bellier 2013

Produire et décrire le document numérique

40

Bidirectionnelle(Read modifié)

Codage ligne par ligne puis corrélation des lignes entre elles

Les lignes qui se suivent se ressemblent, on va donc procéder à un codage relatif ou prédictif d’une ligne à l’autre

Taux les plus fréquents : 8 à 20

Format de compression IUT Groupe 4

» Le cas de la numérisation

Page 41: Le document numérique - cours IUT Métiers du livre de Saint Cloud - part1_2013

41 Luc Bellier 2013

Format de compression JPEG

Paramétrage du taux de qualité (0 à 100%)

codage

compression

restitution

Pour un taux = 80%) la compression est comprise entre 5 et 10Utilisé pour les images 8 bits et 24 bits

» Le cas de la numérisation

Page 42: Le document numérique - cours IUT Métiers du livre de Saint Cloud - part1_2013

42 Luc Bellier 2013

Kirtas APT 2400

Produire et décrire le document numérique» Le cas de la numérisation

Page 43: Le document numérique - cours IUT Métiers du livre de Saint Cloud - part1_2013

43 Luc Bellier 2013

CopybookDigibook 2000LCSuprascan A0

Produire et décrire le document numérique» Le cas de la numérisation

Page 44: Le document numérique - cours IUT Métiers du livre de Saint Cloud - part1_2013

44 Luc Bellier 2013

Microfiches

Microfilms

Produire et décrire le document numérique» Le cas de la numérisation

Page 45: Le document numérique - cours IUT Métiers du livre de Saint Cloud - part1_2013

45 Luc Bellier 2013

Plus de 6000 pages/heure

Docuscan 6000

Produire et décrire le document numérique» Le cas de la numérisation

Page 46: Le document numérique - cours IUT Métiers du livre de Saint Cloud - part1_2013

46 Luc Bellier 2013

Redressement

Binarisation (transformation des images de niveau de gris et couleur en noir et blanc)Filtrage des formes(redressement des blancs, des lignes, des caractères à l’intérieur d’une image)

Recadrage des pages

Illustrations

Produire et décrire le document numérique» Le cas de la numérisation

Page 47: Le document numérique - cours IUT Métiers du livre de Saint Cloud - part1_2013

47 Luc Bellier 2013

Produire et décrire le document numérique

» Les formats d’image… ouverts et libres

• SVG• PNG• Jpeg2000

ouverts et propriétaires• TIFF

Format de diffusion dans Gallica

Formats de numérisation BnF

» Le cas de la numérisation

Page 48: Le document numérique - cours IUT Métiers du livre de Saint Cloud - part1_2013

48 Luc Bellier 2013

Produire et décrire le document numérique

La numérisation en mode texte s’intéresse directement au contenu et donc à la structure logique

Avantages recherche plein texte et autres

manipulations

souplesse et portabilité

Accessibilité pour les personnes en situation de handicap visuel

Inconvénients lourdeur de réalisation

coût

» Le cas de la numérisation

Page 49: Le document numérique - cours IUT Métiers du livre de Saint Cloud - part1_2013

49 Luc Bellier 2013

Produire et décrire le document numérique

» Les techniques de création du mode texte : reconnaissance automatique de caractères ou OCR

• fortement conditionnée par la qualité de numérisation• problèmes : caractères anciens, mal formés, caractères spéciaux, titres…• correction manuelle obligatoire

la saisie• saisie manuelle : problème de ressources humaines !• double saisie manuelle comparée

» Le cas de la numérisation

Page 50: Le document numérique - cours IUT Métiers du livre de Saint Cloud - part1_2013

50 Luc Bellier 2013

L’OCR et le mode texte» L’OCR est un processus automatique

» La qualité comme la reconnaissance sont calculés par des machines

» C’est le nombre de caractères suspects divisés par le nombre total de caractères sur une page.

» Une page de dix caractères vaut autant qu’une page de 10000 caractères dans un même ouvrage.

» Le cas de la numérisation

Produire et décrire le document numérique

Page 51: Le document numérique - cours IUT Métiers du livre de Saint Cloud - part1_2013

51 Luc Bellier 2013

Produire et décrire le document numérique

» Les formats d’encodage du texte (basés sur XML)…

Structure logique• TEI et tdmNum

Structure physique• ALTO

• HTML

51

Format de production

Formats de consultation

Format de production

» Le cas de la numérisation

L’OCR et le mode texte

Page 52: Le document numérique - cours IUT Métiers du livre de Saint Cloud - part1_2013

52 Luc Bellier 2013

Produire et décrire le document numérique

(http://www.bium.univ-paris5.fr/histmed/medica.htm)Liste des

chapitres en mode texte

Pages en mode image

» Le cas de la numérisation

Page 53: Le document numérique - cours IUT Métiers du livre de Saint Cloud - part1_2013

53 Luc Bellier 2013

» (http://www.persee.fr)

Mode image Mode texte (OCR de très bonne qualité, documents récents)

Produire et décrire le document numérique» Le cas de la numérisation

Page 54: Le document numérique - cours IUT Métiers du livre de Saint Cloud - part1_2013

54 Luc Bellier 2013

(http://books.google.fr/)

Visualisation du mode image uniquement, mode texte issu d’OCR en sous-couche permettant la recherche plein texte et le surlignage des résultats de la recherche

Produire et décrire le document numérique» Le cas de la numérisation

Page 55: Le document numérique - cours IUT Métiers du livre de Saint Cloud - part1_2013

55 Luc Bellier 2013

METADONNEES

Produire et décrire le document numérique» Le cas de la numérisation

Page 56: Le document numérique - cours IUT Métiers du livre de Saint Cloud - part1_2013

56 Luc Bellier 2013

Produire et décrire le document numérique

?

Un document numérique / électronique, c’est une suite de fichiers sans lien entre eux

Métadonnées descriptives•rattacher le document à l’original / différentes versions d’un document

•donner accès à la copie numérique / électronique

Métadonnées administratives

•gérer la collection, c’est-à-dire

•gérer les droits d’accès

•préserver les informations techniques nécessaires à la lecture des fichiers

•garantir l ’intégrité des fichiers et le suivi de leurs éventuelles modifications

identifiant unique (localisation / identification)

Métadonnées de structure

•rattacher les fichiers entre eux

•reconstituer la structure du document

? ?

» Le cas de la numérisation

Page 57: Le document numérique - cours IUT Métiers du livre de Saint Cloud - part1_2013

57 Luc Bellier 2013

Produire et décrire le document numérique» Le cas de la numérisation

Page 58: Le document numérique - cours IUT Métiers du livre de Saint Cloud - part1_2013

58 Luc Bellier 2013

image

Texte Alto

Metadescriptives

et de structure

Table

000001.tif

000001.xml

ID.xml

TID.xml

•Une image par page donc deux fichiers par page•Un fichier xml de structure par document et éventuellement un fichier table des matière. •Le fichier de structure porte également des données descriptive pour le lien avec le catalogue

Produire et décrire le document numérique» Le cas de la numérisation

Page 59: Le document numérique - cours IUT Métiers du livre de Saint Cloud - part1_2013

59 Luc Bellier 2013

Produire et décrire le document numérique

» Des données sur les données ... qui servent à organiser la connaissance et à utiliser et exploiter le document

• Métadonnées descriptives, contextuelles et structurelles- Ex. : Notice bibliographique, indexation- Ex. : Date et formats de numérisation- Ex. : Données sur les fichiers pour reconstituer l’ouvrage (Cf. plus loin)

• initiales et ajoutées tout au long du cycle de vie du document numérisé qui servent à le maintenir accessible dans le temps et à garantir et contrôler

cet accès• Métadonnées administratives et techniques

- Ex. : Droits de lecture en interne seulement ou droit sur Internet• initiales et ajoutées tout au long du cycle de vie du document numérisé

- Ex. : passage d’un document protégé dans le domaine public

» Le cas de la numérisation

Page 60: Le document numérique - cours IUT Métiers du livre de Saint Cloud - part1_2013

60 Luc Bellier 2013

Produire et décrire le document numérique

• Les métadonnées descriptives : – appréhender le contenu d’un objet

• description bibliographique approfondie et détaillée

– identifier un objet ou un groupe d’objets• description bibliographique minimale• identifiant pérenne

– identifier les parties qui composent un objet• information de structure

– échanger des objets ou des descriptions d’objets• description bibliographique dans un format normalisé

» Le cas de la numérisation

Page 61: Le document numérique - cours IUT Métiers du livre de Saint Cloud - part1_2013

61 Luc Bellier 2013

Produire et décrire le document numérique

• Du catalogage aux métadonnées– les métadonnées

• une description d’un objet matériel ou non, les métadonnées peuvent être dans le document lui-même

• multiplication des « points d’accès », information structurée• une localisation : URL / URN / URI

• De « nouveaux » formats– pour les notices : Dublin Core, EAD + formats dérivés de MARC

en XML (MarcXML, MODS, BiblioML)– nouveau : pour le contenu des documents eux-mêmes

• autrefois on n’entrait pas « dans » le document• nouveaux besoins : OCR, tables des matières en saisie, structure

du défilement des pages…• nouveau formats : TEI, METS, ALTO

» Le cas de la numérisation

Page 62: Le document numérique - cours IUT Métiers du livre de Saint Cloud - part1_2013

62 Luc Bellier 2013

Produire et décrire le document numérique

• Une tradition dans les bibliothèques– Le catalogage : création d’information descriptive secondaire

(notice) qui caractérise une information primaire (document)– Les métadonnées : des données (secondaires) sur les données

(primaires)

• Caractéristiques du catalogage : – un contenu normalisé : ISBD, AACR...– Un format pour le traitement informatique : MARC (Machine

readable cataloguing)– une notice bibliographique c’est…

• une description d’un objet matériel• des « points d’accès » pour retrouver le document• une localisation pour se le procurer

» Le cas de la numérisation

Page 63: Le document numérique - cours IUT Métiers du livre de Saint Cloud - part1_2013

63 Luc Bellier 2013

Produire et décrire le document numérique

Métadonnées descriptives

» Le cas de la numérisation

Page 64: Le document numérique - cours IUT Métiers du livre de Saint Cloud - part1_2013

64 Luc Bellier 2013

Métadonnéesdescriptives

Produire et décrire le document numérique

Métadonnées de structure :

» Le cas de la numérisation

Page 65: Le document numérique - cours IUT Métiers du livre de Saint Cloud - part1_2013

65 Luc Bellier 2013

Produire et décrire le document numérique

Métadonnées de structure :

http://www.loc.gov/standards/mets/METSOverview.v2_fr.htmlhttp://bibnum.bnf.fr/refNum/

» Le cas de la numérisation

Page 66: Le document numérique - cours IUT Métiers du livre de Saint Cloud - part1_2013

66 Luc Bellier 2013

Métadonnées de structure : le fichier alto

http://www.loc.gov/standards/alto/

» Le cas de la numérisation

Produire et décrire le document numérique

Page 67: Le document numérique - cours IUT Métiers du livre de Saint Cloud - part1_2013

67 Luc Bellier 2013

Métadonnéesdescriptives

Produire et décrire le document numérique

Métadonnées de structure :

» Le cas de la numérisation

Page 68: Le document numérique - cours IUT Métiers du livre de Saint Cloud - part1_2013

68 Luc Bellier 2013

Produire et décrire le document numérique

Métadonnées descriptives :

Métadonnées de structure :

» Le cas de la numérisation

Page 69: Le document numérique - cours IUT Métiers du livre de Saint Cloud - part1_2013

69 Luc Bellier 2013

Imprimés

Alto

Alto

Refnum

X Alto

TTiff

Tiff

Tiff

TDM

Tiff

header

refnumNotice Biblio

Altotdm

TiffAltoTdmrefnum

Serveur d’accès

ID

Produire et décrire le document numérique» Le cas de la numérisation

Page 70: Le document numérique - cours IUT Métiers du livre de Saint Cloud - part1_2013

70 Luc Bellier 2013

Le document numérique

» Nature et structure du document numérique La notion de document : d’une définition formelle à une approche par écosystème Les types de fichiers : Les formats textes, les formats images, les formats multimédia La granularité du document, structuration et déstructuration

» Produire et décrire le document numérique Le cas de la numérisation Le cas des de ePub Les identifiants

» Les métadonnées Les métadonnées pour la recherche

• Le cas des catalogues• Le cas des moteurs • Approche sémantique

Les métadonnées comme point d’accès• Accès centralisés (catalogue et/ou moteur)• Accès distribués fermés et ouverts (OAI, RSS et OPDS)• L’interopérabilité sémantique• Les nouvelles métadonnées (folksonomies)• Multiplier les accès et multiplier les documents

» Les enjeux des accès et de la médiation: Maitrise de la chaîne et des formats Longue traine et économie de l’attention Appréhender la collection numérique : le cas des bibliothèques La médiation autour des documents numériques

Page 71: Le document numérique - cours IUT Métiers du livre de Saint Cloud - part1_2013

71 Luc Bellier 2013

Le document numérique

Produire et décrire le document numérique : le cas des ePub et livres numériques

Page 72: Le document numérique - cours IUT Métiers du livre de Saint Cloud - part1_2013

72 Luc Bellier 2013

Produire et décrire le document numérique

MétadonnéesDescriptives?

Métadonnées de structure ?

» Le cas des livres numériques ePub

Page 73: Le document numérique - cours IUT Métiers du livre de Saint Cloud - part1_2013

73 Luc Bellier 2013

Produire et décrire le document numérique

MétadonnéesDescriptives?

Métadonnées de structure ?

» Le cas des livres numériques ePub

Page 74: Le document numérique - cours IUT Métiers du livre de Saint Cloud - part1_2013

74 Luc Bellier 2013

Meta-infManifeste

Applications

XML

MIM

ETYP

E

OPS

OPF

CSS

XHTML

XHTML

XHTML

JPG

JPG

JPG

NC

X

Métadonnées du document

Table des matières

Imprimés

Alto

Alto

Refnum

X Alto

TTiff

Tiff

Tiff

TDM

NNNNNNN.ZIP ou TAR

le cas des livres numériques ePub

Produire et décrire le document numérique» Le cas des livres numériques ePub

Page 75: Le document numérique - cours IUT Métiers du livre de Saint Cloud - part1_2013

75 Luc Bellier 2013

Produire et décrire le document numérique» Le cas des livres numériques ePub

MétadonnéesDescriptives?

Métadonnées de structure ?

OPF

XHTM

LJP

GN

CX

Page 76: Le document numérique - cours IUT Métiers du livre de Saint Cloud - part1_2013

76 Luc Bellier 2013

Le document numérique

Les identifiants

Page 77: Le document numérique - cours IUT Métiers du livre de Saint Cloud - part1_2013

77 Luc Bellier 2013

• Une référence stable :– nommer la ressource– trouver la ressource sur le réseau– « citabilité »

• Un identifiant :– reconnaître la ressource – de manière unique– sur le long terme

• Donc deux objectifs : – l’accès– la préservation

Produire et décrire le document numérique» Les identifiants

Page 78: Le document numérique - cours IUT Métiers du livre de Saint Cloud - part1_2013

78 Luc Bellier 2013

» On dispose de standards pour identifier les documents sur le Web : URL : localisation URN : nom URI : identifiant

» L’identifiant (URI) peut être le nom (URN) de la ressource ou son adresse / emplacement (URL)

» Aujourd’hui, seules les URL sont interprétées directement par les navigateurs

URL

URN

URI

Produire et décrire le document numérique» Les identifiants

Page 79: Le document numérique - cours IUT Métiers du livre de Saint Cloud - part1_2013

79 Luc Bellier 2013

ark:/12148/bpt6k2029102

Catalogue : visualiseur.bnf.frGallica : Gallica.bnf.fr

Produire et décrire le document numérique» Les identifiants

Page 80: Le document numérique - cours IUT Métiers du livre de Saint Cloud - part1_2013

80 Luc Bellier 2013

Produire et décrire le documents numérique

» Un document numérique c'est Des fichiers + des métadonnées Une structure physique / logique Un environnement matériel / logiciel permettant d'interpréter le document

» >> construire les accès à la collection numérique

» >> préserver les documents numériques

» Conclusion

Page 81: Le document numérique - cours IUT Métiers du livre de Saint Cloud - part1_2013

81 Luc Bellier 2013

0010000000100000001000000011000100110010001100000010000000100000001000000010000000110101001110000010000000100000001101010010000000100000001000000011000100111001001110000011000100101101001100000011100100101101001100110011000001010100001100010011010000111010001100100011001000111010001100000011000100101110001101100011001000111001010110100010000000100000001000000011001100111000001110010011100000101110001101110011000000100000001000000010000000110010001100110011010100110010001011100011010000110101001000000010000000100000001000000010000000101101001100010010111000110110001101100010000000100000001000000010110100110111001011100110111001100100010000000100000001011010011000100111000001011100011011000110001001000000010000000101101001110000011000000101100011000000110000001000000010000000101101001110000011000000101110001100000011000000100000001000000010000000110001001000000010000000110100001100110010000000100000001000000011100100100000001000000010000000100000001110010011100000111001001011100011010000110010001000000010000000100000001000000010000000110001001101100010111000110000001100100010000000100000001000000010000000100000001101010011001100101110001110000011001100100000001000000010000000100000001000000011010100110110001011100011011000110010001000000010000000100000001000000010000000100000001101000010111000111000001100010010000000100000001000000010000000110111001110010011001100101110001101010011100000100000001000000010000000100000001000000010000000110011001011100011001100110100000010100010000000100000001000000011000100110010001100000010000000100000001000000010000000110101001110000010000000100000001101010010000000100000001000000011000100111001001110000011000100101101001100000011100100101101001100110011000001010100001100010011010000111010001100100011001000111010001100000011010100101110001101110011100000111000010110100010000000100000001000000011001100111000001110010011010000101110001101100011010000100000001000000010000000110010001101010011010000110110001011100011100000111000001000000010000000100000001000000010000001000000010110100111000001100000010

Produire et décrire le document numérique

» Sélection

» Acquisition

» Description : Catalogage

» Préparation à la

» consultation : Équipement

» Magasinage

» Conservation

» Communication

» Valorisation

Sélection

Collecte / production

Description : Métadonnées /

indexation

Préparation à la

consultation : Empaquetage

Gestion

Préservation

Accès

Valorisation

Co

nsu

ltat

ion

d’u

ne

co

lle

ctio

nG

esti

on

d’u

ne

coll

ecti

on

Ran

gem

en

t et

co

nse

rrva

top

nd

’un

e c

oll

ect

ion

Co

nst

itu

tio

n

d’u

ne

co

lle

ctio

n

» Conclusion