des problématiques communes:

36
Photo numérique: nommage, description, indexation des fichiers Journée d ’étude du 6 novembre 2013 IconoRéseau MSH de Nantes IRHT-CNRS - Institut de Recherche et d’Histoire des textes - Service Images - Pôle numérique - Contact : Gilles Kagan- http://www.irht.cnrs.fr/

Upload: sema

Post on 04-Feb-2016

56 views

Category:

Documents


0 download

DESCRIPTION

Photo numérique: nommage, description, indexation des fichiers Journée d ’étude du 6 novembre 2013 IconoRéseau MSH de Nantes. IRHT-CNRS - Institut de Recherche et d’Histoire des textes - Service Images - Pôle numérique - Contact : Gilles Kagan- http://www.irht.cnrs.fr/. - PowerPoint PPT Presentation

TRANSCRIPT

Page 1: Des problématiques communes:

Photo numérique: nommage, description, indexation des fichiers

Journée d ’étude du 6 novembre 2013 IconoRéseauMSH de Nantes

IRHT-CNRS - Institut de Recherche et d’Histoire des textes - Service Images - Pôle numérique - Contact : Gilles Kagan- http://www.irht.cnrs.fr/

Page 2: Des problématiques communes:

Des problématiques communes:

Dans le domaine de la numérisation des documents patrimoniaux et de l’indexation des médias :

- une littérature abondante,

- des recommandations techniques (numérisation, formats),

- des standards (métadonnées),

- des protocoles (diffusion des ressources électroniques).

Mais l’harmonisation des pratiques reste encore à construire.

Il est donc prudent donc d’établir un mini cahier des charges.

Page 3: Des problématiques communes:

Pourquoi rédiger un cahier des charges ?- Pour élaborer une méthode de travail.

- Pour faire apparaitre clairement des choix techniques.

- Pour définir des règles de nommage et des processus techniques.

- Pour préciser les phases du traitement en fonction de vos projets.

- Pour définir les éléments du contrôle qualité des images:

• L’exposition • La résolution • L’étalonnage de l’éclairage• La colorimétrie:

- conformité des couleurs avec le document original- gestion des couleurs profil ICC de la source

- Pour choisir des métadonnées pertinentes.

- Pour mettre en place un workflow de traitement intelligent.

Page 4: Des problématiques communes:

Prise de vue numérique des documents

Les formats de fichier-Formats de fichier pour l’archivage (Raw, DNG, Tiff et Tiff HDR)

-Formats de fichier pour l’édition (EPS, PSD, Tiff)

-Formats de fichier pour la diffusion (JPG-JPG 2000- PNG- Gif - PDF)

Qu’est ce que le format Raw :-Format brut des appareils de prise de vue numérique (matriciel)-Ce n’est pas un format standard. -Compatible avec les métadonnées IPTC Core et Exif.-Conservation de toutes les données en 16 bits par couleurs primaires.

Page 5: Des problématiques communes:

Avantage du format Raw- Léger (39 Mo au lieu de 91 Mo en tif )- Pas de compression des données.- Meilleure gestion du bruit de la couleur.- Maîtrise complète du processus de traitement.- Contrôle total de la température de la couleur.- Plus de précisions dans la restitution des hautes lumières, des ombres et des couleurs saturées.

Page 6: Des problématiques communes:

Un format non standardisé mais ouvertCompatible avec de nombreux logiciels de traitements d’image:•Capture One •Photoshop / AdobeBridge /Module camera Raw•Nombreux logiciels gratuits disponibles sur le web.

Page 7: Des problématiques communes:

Un format qui convient à l’archivage- Véritable négatif numérique, vous ne pouvez pas modifier un format

Raw (notion de brut de scan sans traitement).- Le format Raw est un format brut non documenté, l’image n’est pas

encore créée.- Il se compose de deux fichiers encapsulés qui communiquent entre eux pour former une image visible.- Tous les autres formats peuvent être modifiés : Tiff, JPG, PDF.

Précisions sur le format DNG (Digital négative)Développé par Adobe ce format est totalement ouvert (licence ouverte), il

a pour but de standardiser les innombrables (et incompatibles) formats RAW précédemment utilisés.

Page 8: Des problématiques communes:

Structure du fichier Raw:•un court fichier d’en-tête qui définit l’organisation des bits,

•l’identification du fichier et le positionnement des données,

•les métadonnées du capteur photographique,

•les métadonnées de l’image,

•une prévisualisation rapide

•les données binaires du capteur.

Extension fabricant.3fr Hasselblad.arw Sony.crw Canon.dng Kodak.mrw Minolta.nef Nikon.ptx .pef Pentax.raf Fuji.IIQ Phase One

Page 9: Des problématiques communes:

Résolution, échantillonnage, quelques conseils..• Toujours conserver la haute résolution (Tiff et Jpeg)• Choisir une résolution (entrée et sortie en pixels)• Il convient dans un premier temps de distinguer :La résolution de l’image en entrée (scanner/prise de vue)La résolution de l’image à l’écran (moniteur)La résolution de sortie et la linéature (imprimante)

• Déterminer l’échantillonnage en fonction du document (bitmap-niveaux de gris-codage RVB)

Image codée sur 1 bit/pixel = Image noir et blanc(film au trait, phototcopie)

Image codée sur 8 bits/pixel = 256 niveaux de gris(image en demi-teinte)

Page 10: Des problématiques communes:

Echantillonnage, quelques conseils…

Image codée sur 8 bits/couleur primaire = image couleurs en RVB256 x 256 x 256 niveaux de couleurs

Taille = 4,24 Mo

Image codée sur 16 bits/couleur primaire = image couleurs en RVB4096 x 4096 x 4096 niveaux de couleurs

Taille = 8,47 Mo

Page 11: Des problématiques communes:

La résolution et la qualité d’une image va dépendre de la taille physique du capteur:

Canon Power Shoot G 15Capteur CMOS 12,1 Mpix / format 4/3Taille du capteur : 22,3 x 14,9 mm. Taille en pixels : 4000 x 3000 pixels

Canon 5 d Mark III ou le Canon 6 D Capteur CMOS 22,1 Mpix / 20, 2 Mpix Taille du capteur : 36 x 24 mm.Taille en pixels : 5472 pixels x 3648 pixels

Hasselblad H5 D 60 ou IQ 1 80Capteur très haute résolution de 60 à 80 MpixTaille du capteur : 53, 7 x 40, 4 mm Taille en pixels : 10328 pixels x 7760 pixels

Choisir un appareil, quelques conseils

Page 12: Des problématiques communes:

Privilégier les appareils de prise de vue full frame (capteur matriciel plein format)- Canon 6 D- Canon 5 D Mark III et 1 DX- Nikon D 600 D 800- Nikon D4- Sony Alpha 99 RX 1Le choix d’une optique n’est pas aléatoire pourquoi ?La qualité (netteté et contraste d’une photographie)résulte avant tout de la qualité optique de votre objectif, du pouvoir de séparation des lentilles (verre ED).

Quels matériels de prise de vue utiliser ?

Nikon objectif 60mm f/2.8G ED AF-S Micro Canon EF 24-70mm f/4L IS USM

EOS_5D_Mark_III

Nikon D800

Page 13: Des problématiques communes:

Tester les appareils à partir d’une mire de contraste

Capture réalisée avec un dos Phase One P 30 (matrice de 30 Mpx.)Taille de l’image : 6496 x 4872 pixels

Capture réalisée avec un dos phase one power phase FX (TRI CCD linéaire 10 258 photosites en RVB ) Taille de l’image : 9927 pixels x 7793 pixels).

Page 14: Des problématiques communes:

Prise de vue, quelques conseils:

- Travailler avec une chartre de couleur (référence un carton blanc ou un gris neutre).

- Faire le choix de la stabilité pour les sujets fixes

(travailler avec un pied et ou privilégier les vitesses rapides) Vitesse >125 secondes Profondeur de champ importante f 8-16.

- Réaliser l’exposition en mode manuel Vérifier l’histogramme pour contrôler l’exposition

La procédure de contrôle des couleurs est réaliséeen photographiant une charte de couleur de typeGretag Macbeth qui est vendue avec les références RVB de chaque couleur qu’elle comporte.

En réalisant un point gris sur cette plage,vous pourrez obtenir le codage RVB etcontrôler la neutralité du gris.

Page 15: Des problématiques communes:

- Le réglage de l’exposition en numérique est décisif quant à la qualité de votre image.

Image sous-exposée

Image surexposée

Bonne exposition

Page 16: Des problématiques communes:

Le traitement d’un fichier, prudence ! Un traitement inadéquat peut avoir des répercussions irréversibles sur la qualité des images:•Faire des tests (noter les processus dans Photoshop - historique).•Dupliquer systématiquement le fichier.•Ne jamais travailler à l’œil (pipette infos). •Privilégier les traitements par lots : un script dans Photoshop est le gage d’une homogénéité de votre travail.

Utilisation de la pipette pour mesurer les valeurs RVB (image brûlée avec du bruit dans les basses et les hautes lumières)

Page 17: Des problématiques communes:

Quels traitements ?Une bonne prise de vue ne nécessite pas d’importantes corrections :•au niveau de l’exposition et du contraste, •au niveau des couleurs et de la saturation.

Par contre il faut appliquer des traitements spécifiques et distincts pour l’édition des images destinées aux supports papier ou électronique :

•modifier la taille et/ou la résolution de sortie des images,•augmenter la netteté (filtre accentuation),•ajouter des métadonnées,•exporter dans des formats différents.

Page 18: Des problématiques communes:

Comment nommer et classer les images numériques ?Le nommage des fichiers est une vraie difficulté.

Il faut surtout avoir à l’esprit quelques règles de base:-Garantir l’unicité de la prise de vue au niveau de l’identifiant de votre ressource.-Permettre un classement alphanumérique des fichiers en vue de maitriser l’affichage des images et pour retrouver un fichier dans l’arborescence.-Ne pas utiliser des caractères spéciaux ou accentués.Le nom d'un fichier est une chaîne de caractères, parfois de taille limitée, dans laquelle certains caractères ont un sens pour le système d'exploitation.

-Sous Windows il est conseillé de ne pas utiliser les caractères suivants: / \ : * ? "> < I « » . On peut conserver les caractères suivants : ( ) Tiret haut et bas _ -

Page 19: Des problématiques communes:

Ils peuvent être opaques ou signifiants:

ARK : http://gallica.bnf.fr/ark:/12148/bpt6k2029102/f37.notice - utilisé pour Gallica HANDLE - DOI : http://dx.doi.org/10.1007/s00223-003-0070-0 - utilisé par l’INIST

Pour qu’un identifiant soit pérenne il faut une référence stable qui permette de nommer et de trouver la ressource en ligne (utile pour la bibliographie).

Identifiants ARK BNF Gallica : ARK (Archival Resource Key) est un système d'identifiants mis en place par la California Digital Library

•difficile à mettre en œuvre,•exige une infrastructure et des moyens informatiques très importants,•autorité « nommante » de l’institution qui attribue les identifiants

Une vraie solution car l’identifiant ARK permet de s’adapter à des modèles préexistants :•ISSN, ISBN•cotes•précédent système de nommage

Des identifiants normalisés et pérennes, (ressources numériques en lignes) :

Page 20: Des problématiques communes:

Les formats classiquesLe nommage séquentiel : Format classique des appareils de prises de vue numériques AAAAMMJJ_nnn

L’utilisation de la date de prise de vue : année, mois, jour, heure, minute, seconde, présente des inconvénients évidents. Sorti de votre ordinateur, cet identifiant ne peut pas être unique à moins de rajouter des suffixes ou des préfixes mais comment les définir ? Et quels sont les critères à retenir ?

Le nommage signifiant: Format qui utilise comme critère, un lieu, un auteur, un événement, une provenance, un titre etc. Il n’est pratiquement jamais utilisé par les institutions patrimoniales et il présente des difficultés pour l’affichage et le classement structuré des données.Différentes pratiques dans le classement et le stockageclassement manuel et classement chronologiqueclassement thématiqueclassement automatique (applications qui proposent des albums photos, etc.)Inconvénients : aucune maîtrise des arborescences générées

Page 21: Des problématiques communes:
Page 22: Des problématiques communes:

Plan de nommage de l’IRHT :

L'IRHT a adopté dès 2002 le plan de nommage préconisé par le Ministère de la Culture et l’ABES (Réseau du SUDDOC).

•Code RCR

Cet identifiant est de type alphanumérique et il est répertorié sur le site du CCfr.(IDPROD) » (http://www.culture.gouv.fr/mrt/numerisation/fr/gestion_fonds_images/idprodbi.htm)

Ce numéro est formé de plusieurs séquences :Exemple pour la bibliothèque municipale de Chartres

280856201_MS1038_0001•les 2 chiffres du département 28 •les 3 chiffres de la commune 085 •un code à deux chiffres indiquant le type de bibliothèque 62 •un numéro à 2 chiffres, séquentiel, allant de 01 à 99 •la cote du manuscrit ou identifiant du phototype MS1038 •une suite numérique si l’objet comporte 0001 Mais il n’est pas normalisé au niveau international.

Depuis 2012 l’IRHT met en place un système d’identifiant pérenne de type ARK dans le but d’avoir des URL pérennes et stables pour la diffusion des manuscrits à partir de la Bibliothèque Virtuelle des Manuscrits Médiévaux (BVMM).

Page 23: Des problématiques communes:

Qu’est-ce qu’une métadonnée ?Une métadonnée est littéralement une donnée sur une donnée, c’est un ensemble structuré d’informations décrivant une ressource quelconque.

Une métadonnée peut être utilisée à des fins diverses:•La description et la recherche de ressources•La gestion de collections de ressources (digitales)•La préservation des ressources

Aujourd’hui la plupart des recherches se font à travers le web.L’arrivée du web sémantique et notamment le format RDF ont permis:

- L’interopérabilité des données- L’indexation de la ressource par des moteurs de recherches ISIDORE, par les CMS etc.

Mais qu’en est-il des images ?

Page 24: Des problématiques communes:

Les métadonnées techniques et administratives peuvent, si elles sont correctement définies dans un modèle normalisé, désigner l’appartenance à une collection et fournir des informations sur l’auteur, le contenu, la datation, la provenance, etc.

Mais dans le cas des ressources visuelles les métadonnées internes n’offrent pas à ce jour un modèle complet, normalisé et surtout exploitable par les technologies web répondant au consortium du W3C.

Les métadonnées des images numériques peuvent être de trois types :

•Des métadonnées techniques Exif •Les métadonnées IPTC/IIM•Les métadonnées IPTC Core, un modèle basé sur XMP.

Comment lire et écrire des métadonnées d’une image :

Page 25: Des problématiques communes:

• Les métadonnées Exif (Exchangeable Image File) sont générées automatiquement par l’appareil de prise de vue.

Ce sont des métadonnées internes qui correspondent aux propriétés techniques des fichiers Tiff, Jpeg, Raw sont enregistrées dans l’entête des fichiers. Ce format a été créé en 1995 par la Jeida (Japon Electronic Industry Association).

• Ces métadonnées sont très utiles car elles permettent de connaitre toutes les propriétés techniques de la prise de vue y compris les données GPS.

• Sans ces métadonnées il est impossible d’ouvrir une image dans une application quelle que soit cette dernière.

Les métadonnées Exif :

Page 26: Des problématiques communes:

Ce sont des métadonnées plus informatives et administratives :

L’ IPTC (International Press and Telecommunications Council) est une organisation internationale créée en 1965 pour développer et promouvoir des standards d’échange de données à destination de la presse.

En association avec la NAA (Newspaper Association of America), l’IPTC a défini un modèle global de données appelé IPTC II-NAA Information Interchange Model.

Dès 1994, ce modèle a servi de base à la société Adobe pour définir dans son logiciel Photoshop les informations associées à une image (champs et informations qui sont présents dans l’en-tête ou headers).

Les métadonnées IPTC II M et IPTC CORE :

Page 27: Des problématiques communes:

Les informations IPTC/IIM sont constituées de 33 métadonnées de type interne, c'est-à-dire stockées à l'intérieur des fichiers images Raw, Jpeg, Tiff, Psd. Elles sont codées de façon numérique et certaines applications sont capables , par exemple, de les lire et ou de les importer (filtrer) dans leur système de gestion.

Les métadonnées IPTC II M

Voici quelques exemples parmi ces 33 champs :

Data Set (numéro du champ) Nom du champ Description Traduction5 Object Name non répétable, 64 caractères

maximum Nom de l'objet

25 Keywords répétable, 64 caractères maximum

Mots-clés

55 Date Created non répétable, 8 caractères, forme AAAAMMJJ

Date de création de l'objet

80 By-line répétable, 32 caractères maximum

Créateur de l'objet (auteur): nom du rédacteur, du photographe, etc.

90 City non répétable, 32 caractères maximum

Ville

95 Province/State non répétable, 32 caractères maximum

Province/État

101 Country/Primary Location Name non répétable, 64 caractères maximum

Libellé du pays

105 Headline non répétable, 256 caractères maximum

Titre

116 Copyright Notice non répétable, 128 caractères maximum

Copyright

Page 28: Des problématiques communes:

Liste de quelques applications compatibles IPTC

Kalimages PRO ArmadilloACDSee Pro 2Canto CumulusExtensis PorFolioFotoWareStationExifUtilsWin/Mac/LinuxExifToolexiv2 licence GPLIrfan View (avec son plugin IPTC), Win, gratuitXn View Win, Mac, Linux, Unix gratuitPhotoThumb

Adobe Bridge / Photoshop / Menu Fichier Information / Firefox / Xn View/ Window 7.

Page 29: Des problématiques communes:
Page 30: Des problématiques communes:

Les limites des métadonnées IPTC II MLes logiciels ne sont pas tous en mesure d’identifier les balises des métadonnées (vérifier l’interopérabilité des balises avant utilisation).

La structure est figée et très orientée pour la photographie de presse et pour la géolocalisation.

La longueur des champs et le nombre de caractères sont limités

Il n’existe pas de vocabulaire normalisé ou hiérarchique.

La nomenclature des champs IPTC illustre bien l'une des difficultés majeures de l’utilisation des métadonnées pour cataloguer et indexer des images :

la terminologie adoptée et la sémantique des champs sont adaptées pour la presse, les champs sont souvent inadéquats à d’autres domaines utilisant l’image comme support de recherche ou de travail (secteur de l’industrie, histoire de l’art, astronomie, histoire des sciences, etc.)

Page 31: Des problématiques communes:

Le modèle IPTC CORE ou XMPDepuis 2001 le modèle IPTC/IIM est considéré par l'IPTC comme un "standard obsolète, il a été remplacé par le nouveau schéma de métadonnées IPTC Core basé sur XMP et que l’on trouve à partir de la version Cs de Photoshop.

Beaucoup plus ouvert ce modèle utilise des balises XML et une version simplifiée du format RDF (Ressource Description Framework).

L’interopérabilité s’en est trouvée accrue notamment par la création de quatre champs avec des balises au format du Dublin Core (Espace de nom XML <DC>)

<x:xmpmeta xmlns:x="adobe:ns:meta/" x:xmptk="Adobe XMP Core 5.3-c011 66.145661, 2012/02/06-14:56:27 "> <rdf:RDF xmlns:rdf="http://www.w3.org/1999/02/22-rdf-syntax-ns#"><rdf:Description rdf:about=""xmlns:dc="http://purl.org/dc/elements/1.1/">

<dc:creator><rdf:Seq><rdf:li>IRHT-CNRS et ENSBA de Paris</rdf:li><dc:description><rdf:li>Bible d'Admont (fragment)</rdf:li><dc:title><rdf:li xml:lang="x-default">751062305_PC_22788</rdf:li><dc:rights><rdf:li xml:lang="x-default">Clichés : IRHT-CNRS_ENSBA de Paris</rdf:li>

Page 32: Des problématiques communes:
Page 33: Des problématiques communes:

Pourquoi choisir Dublin Core?L'intérêt du Dublin Core est de proposer une structure de métadonnées stable et appuyée sur un consensus terminologique et sémantique minimal.

Mais par contre dans le cas d’une indexation fine d’une ressource visuelle, le Dublin Core s’avère insuffisant, il est nécessaire de le compléter et d’introduire plus de finesse et de sémantique dans la structuration de l’information.Enfin l’utilisation des métadonnées IPTC Core

XMP pose un problème majeur car peu

d’applications proposent un export XML ou

Csv de l’ensemble de ces informations en vue

par exemple de structurer un nouveau

document ou d’alimenter une base.

Conclusion, ce modèle peut convenir à la localisation et à la préservation d’une ressource en ligne ou en « file système » pour classer, cataloguer, retrouver des fichiers.

Page 34: Des problématiques communes:
Page 35: Des problématiques communes:

Exemple d’un processus : les campagnes de l’IRHT

1. Préparation d’une campagne de reproduction

(base medium/extraction de la liste des cotes à reproduire)

2. La prise de vue et le traitement des images :

(trois applications/Phocus/Capture One/Photoshop CS et AdobeBridge)

1.Examen et préparation du document (ouverture de la reliure, contrôle des folios/pages)

2.Réglage du cadrage et de la mise au point

3.Réglage de l’éclairage (étalonnage de la lumière continue et ou flash électronique)

4.Contrôle de l’exposition (grey-scale) et histogramme

5.Contrôle des couleurs (charte de couleurs Macbeth et ou IT8) Pipette infos en mode RVB

6.Contrôle et ajustement balance des blancs (température de couleurs)

5500 k° lumière du jour

3400 k° lumière continue artificielle.

•Enregistrement des fichiers et création des dossiers avec l’arborescence suivante :

Ville/établissement/répertoire Raw/Tif/JPG/BVMM/code RCR + cote du manuscrit.

Page 36: Des problématiques communes:

3. Contrôle des vues dans AdobeBridge/affichage à 100%/

4. Création d’un modèle de métadonnées pour toutes les vues du

document.

5. Export DNG/Tif/JPG

6. Sauvegarde des répertoires sur un disque externe E sata (1/2T°)

7. Copie des répertoires JPG sur serveur/IRHT

8. Mise à jour de la table stockage dans Medium:

/fait/nb de vue/date de prise de vue/type de reproduction etc.

3. Traitement des répertoires par manuscrits HD pour alimenter la BVMM

4. Traitement par lot des vues à partir de Photoshop CS (scripts) :le script comprend la création de cinq niveaux de consultation :

Vignette : 200 x 150 pixels

Imagette : 450 x 330 pixels

Image plein écran : 800 x 600 pixels

Zoom niveau 1 : 1600 x 1200 pixels

Zoom niveau 2 : 5440 x 4200 pixels et enfin la taille réelle du document.IRHT-CNRS - Institut de Recherche et d’Histoire des textes - Service Images - Pôle numérique - Contact : Gilles Kagan- http://www.irht.cnrs.fr/