1/43
16e Journées des Archives Pérenniser l’éphémère. Archivage et médias sociaux
Louvain-la-Neuve, 9 et 10 mai 2016
http://dejavu.hypotheses.org/
Les métadonnées des images fixeset les médias sociaux
Patrick PeccatteInformaticien
Chercheur associé au Laboratoire d'histoire visuelle contemporaine(Lhivic/EHESS)
Twitter: @ppeccatte
Facebook: patrick.peccatte
Google+: Patrick PeccatteFlickr: patrickpeccatte et photosnormandie
Tumblr: dubruitausignal.tumblr.com
2/43
Au menu...
Rappel sur les métadonnées des images fixes Panorama du (non) traitement des métadonnées
des images fixes sur les médias sociaux Un exemple d'utilisation des métadonnées sur la
plate-forme Flickr:le projet PhotosNormandie
3/43
wenzday01/FlickrCreative Commons
Il était une fois...L'album de photos
Les métadonnéesdes images fixes ?Une histoireancienneet bien connue...
4/43
lizjones112/FlickrCreative Commons
on ajoutait des légendesaux photos...
5/43
Yume Photo/FlickrCreative Commons
mais attentionau déclassement...
6/43
Guanatos Gwyn/FlickrCreative Commons
la solution ?la légende au verso
7/43
Images numériques fixesOù sont les métadonnées ?
À l'extérieur des données elles-mêmes, dans un catalogue.Les métadonnées sont externes.~ écrire sur l'album de photos
Dans les données elles-mêmes.Les métadonnées sont internes, "embarquées" dans les ressources numériques.~ écrire au verso de la photo
8/43
Quelques techniques de métadonnées des images numériques fixes
Exif(EXchangeable Image File)
IPTC/IIM(International Press and Telecommunications Council / Information Interchange Model)
XMP(EXtensible Metadata Platform)
9/43
EXIF
EXIF est une abréviation de EXchangeable Image File.
Développé en octobre 1995 par le JEIDA(Japan Electronic Industry Development Association).
Ce n'est pas un standard, mais il est supporté par tous les fabricants d'appareils photographiques numériques (APN)
Définit les paramètres de prise de vue et les réglages de l'appareil au moment de la capture numérique.Ce sont des métadonnées de type interne.
✔ fabricant et modèle de l'appareil✔ hauteur et largeur de l'image✔ date et heure de la prise de vue✔ orientation✔ résolution, temps d'exposition, ouverture✔ présence d'un flash✔ coordonnées GPS✔ etc.
10/43
IPTC
L'IPTC (International Press and Telecommunications Council) est un consortium qui réunit les principales agences de presses du monde
L'IPTC développe des standards techniques d'échange de données pour la presse
Ces standards sont employés par la quasi-totalité des agences de presse du monde
11/43
IPTC/IIM (1/2)
L'IPTC et la NAA (Newspaper Association of America) ont créé en 1991 le modèle global de données appelé Information Interchange Model [IIM]
Sous-ensemble de l'IIM utilisé par Adobe en 1994 pour définir dans Photoshop les informations associées à une image
Standard considéré comme obsolète par l'IPTC et remplacé par XMP
12/43
Métadonnées internes = ensemble de champs textuels stockés dans le fichier image:Titre, Légende, Mots-clés, Copyright, etc.
Standard toujours très utilisé dans la presse et l'édition, bien qu'il soit considéré comme obsolète
IPTC/IIM (2/2)
13/43
XMP – Extensible Metadata Platform
Créé par Adobe en septembre 2001 Utilise une version simplifiée de RDF
(Resource Description Framework)● Standard développé par le W3C, base du Web sémantique
● Permet d'encoder, échanger et réutiliser des métadonnées structurées
● Images munies de métadonnées XMP:probablement la plus grande collection d'objets décrits en RDF sur le Web...
● N'est pas réservé aux images...
Utilise le schéma Dublin Core comme fondation Standard ISO depuis mars 2012: ISO 16684-1:2012
14/43
Fichier image numérique
Où sont les métadonnées ?
Exif IPTC/IIM
GPS
Autres informations...
XMP XMP
Vignetteintégrée
Catalogue(informations
externesexplicites)
exploitationcopie externe
contexte depublication
(sans métadonnées)
15/43
Avantages et inconvénientsdes métadonnées internes
Avantage des métadonnées internes :l'échange est facilité; la ressource numérique transporte avec elle ses propres métadonnées lorsqu'elle est téléchargée, copiée, renommée, compactée, etc.
Inconvénient des métadonnées internes :il est nécessaire d'extraire les métadonnées et les copier dans une base de données pour exploiter une grande collection de ressources numériques.~ retourner la photo pour lire la légende
16/43
Contexte de publicationl'exemple de Google Images (1/2)
● Google Images indexe le contexte de publication, c'est-à-dire le nom du fichier image et le texte qui encadre l'image dans la page où elle apparaît
✔ Pour un moteur de recherche généraliste, les images avec des métadonnées internes constituent une partie insignifiante des images du web
● Google Images n'indexe pas les métadonnées internes des images (IPTC/IIM ou XMP)
✔ Test en indexant une image avec un mot-clé "hapax" en IPTC/IIM et XMP
17/43
Contexte de publicationl'exemple de Google Images (2/2)
● Une Interrogation récurrente en SEO (Search Engine Optimization / Optimisation pour les moteurs de recherche):La présence de métadonnées internes aux images améliore-t-elle le positionnement dans les résultats de recherche de Google Images ?La réponse est non
● Mais Google a probablement des projets internes qui exploitent les métadonnées internes aux images
18/43
Le Manifeste"Embedded Metadata Manifesto"
Le Manifeste "Embedded Metadata" (métadonnées embarquées/intégrées) de l'IPTC définit cinq principes directeurs pour la création et le stockage des métadonnées, afin qu'elles soient transportées avec le fichier chaque fois que c'est possible
Le Manifeste affirme que les métadonnées associées à une image doivent être persistantes dans toutes les étapes du flux des informations (workflow)
Le Manifeste s'adresse à tous les organismes qui gèrent des métadonnées et aux fournisseurs de matériels et de logiciels dont les systèmes exploitent des flux de données
19/43
L'enquêteHow Social Media sites manage metadata ?
http://www.embeddedmetadata.org/social-media-test-results.php
20/43
MéthodeImage de test avec un jeu complet de métadonnées(Exif, IPTC/IIM, XMP) téléchargée sur différents sites
Détail du protocole ici:http://www.embeddedmetadata.org/social-media-test-procedure.php
21/43
Historique et objectifs
Deux séries de tests en 2013 et 2015✔ Prendre en compte les nouveaux réseaux sociaux✔ Observer les évolutions éventuelles
Analyser quelles sont les métadonnées embarquées qui s'affichent sur chaque plate-forme de réseau social
Vérifier les métadonnées préservées et celles qui sont supprimées
22/43
Quatre tests précis
Quelles sont les métadonnées embarquées qui s'affichent dans l'interface utilisateur ?
Les informations de crédit sont-elles correctement affichées ?Vérification des "4C" :Caption, Creator, Copyright Notice, Creditline
Quelles sont les métadonnées préservées lorsque l'on récupère l'image depuis un navigateur, à l'aide d'une commande du genre Save As ?
Quelles sont les métadonnées préservées lorsque le réseau social propose un téléchargement de l'image (bouton Download) ?
23/43
Résultats
Ce n'est pas très brillant! Les réseaux sociaux les plus connus altèrent les
métadonnées embarquées d'une manière ou d'une autre
La situation se détériore globalement; les résultats étaient un peu meilleurs en 2013
Quelques détails...
24/43
Dropbox
Aucune métadonnée n'est affichée Les métadonnées sont préservées uniquement lors
d'un download, elles ne sont pas préservées avec un Save As
Dégradation:en 2013, elles étaient préservées avec un Save As
25/43
Aucune métadonnée n'est affichée Seules les métadonnées Copyright Notice et
Creator de l'IPTC/IIM sont préservées avec un Save As. Toutes les autres sont supprimées.
Légère amélioration depuis 2013:toutes les métadonnées étaient alors supprimées avec un Save As
26/43
Facebook - une curiosité intrigante (1/2)Facebook ajoute systématiquement deux métadonnées IPTC/IIM
27/43
Facebook - une curiosité intrigante (2/2)
Il est extrêmement difficile de comprendre à quoi correspondent ces codes générés lors du téléchargement d'une image sur Facebook
Aucune communication de Facebook sur ce sujet et le reverse engineering a des limites
L’IPTC ignore tout de cette particularité des images ayant transité par Facebook
Grâce à ce dispositif, Facebook est peut-être capable d’effectuer un suivi élémentaire des images qui ont transité sur la plate-forme
28/43
Flickr
Quelques métadonnées sont affichées correctement, mais pas toutes les "4C"
Toutes les métadonnées sont préservées lors d'un download ou un Save As de l'image dans sa définition originale, mais elles sont supprimées dans les autres définitions
DégradationVers 2010, toutes les résolutions intermédiaires proposées par la plate-forme possédaient les métadonnées de l'image originale
29/43
Google Photos
Quelques métadonnées sont affichées correctement, mais pas toutes les "4C"
Les métadonnées sont préservées lors d'un download de l'image originale
Seules les métadonnées Exif sont préservées avec un Save As sur les images en résolution réduite
DégradationEn 2013, toutes les métadonnées étaient préservées avec un Save As sur les images en résolution réduite
30/43
Aucune métadonnée n'est affichée Aucune sauvegarde n'est possible En 2013, le Save As était possible mais supprimait
les métadonnées L'un des pires réseaux sociaux au regard des
métadonnées...
31/43
Aucune métadonnée n'est affichée Les métadonnées sont préservées avec un Save
As de l'image dans sa définition originale, mais pas lors d'un download
Non testé en 2013
32/43
Tumblr
Aucune métadonnée n'est affichée Seules les métadonnées Exif sont préservées avec
un Save As, toutes les autres sont supprimées Dégradation
En 2013, toutes les métadonnées embarquées étaient préservées avec un Save As
33/43
Aucune métadonnée n'est affichée Seules les images en résolution réduite sont
disponibles avec un Save As, sans aucune métadonnées
Inchangé depuis 2013 Lanterne rouge avec Instagram
34/43
Il est pourtant possible de concevoir des réseaux sociaux respectueux des métadonnées embarquées
L'exemple de Behance
Appartient à Adobewww.behance.net
Porte-folios d'artistes Toutes les métadonnées 4C sont correctement
affichées Plusieurs autres métadonnées (mais pas toutes)
sont également affichées Toutes les métadonnées sont préservées lors d'un
download et avec un Save As
35/43
Il est aussi possible de travailler avec les métadonnées embarquées sur un réseau social "médiocre"
Le projet PhotosNormandie sur Flickr
Améliorer la description documentaire d'un fonds de plus de 3400 photographies historiques sur labataille de Normandie
Actif sur la plate-forme grand public Flickr depuis janvier 2007
www.flickr.com/photos/photosnormandie/ Ouvert à tous.
Une soixantaine de contributeurs (une dizaine d'intervenants participent régulièrement au projet)
Crowdsourcing (contenus générés par les utilisateurs), indexation sociale, indexation collaborative, indexation contributive, redocumentarisation, etc.
36/43
Origine des photos
2760 photos proviennent du siteArchives Normandie 1939-1945 [n'existe plus]
✔ Service public du Conseil Régional de Basse-Normandie mis en place en 2004
✔ Photos libres de droit issues desArchives Nationales des États-Unis et du Canada
296 photos de The Allison Collection: photos transmises par radio en 1944
322 photos proviennent de la bibliothèque de la ville de Cherbourg-Octeville
163 photos proviennent de la Médiathèque de Lisieux
37/43
Les légendes des photos
Les légendes des photos sont écrites selon les standards de métadonnées IPTC/IIM et XMP
Ensemble de champs textuels (Titre, Légende, Mots-clés, Copyright, etc.) stockés dans le fichier image
S'appuie sur une fonctionnalité peu connue de la plate-forme Flickr
Renseignement automatique de champs Flickr à partir des champs IPTC lors du téléchargement d'une photo
38/43
Métadonnées dans Photoshop
Téléchargement de l'image sur Flickr
39/43
Photo
Commentairesdes utilisateurs
Rédactiond'une
description
Photo + métadonnéesIPTC
Photo sur Flickr
+ description, mots-clés
Rédactiond'une nouvelle
description
Photo +nouvelles métadonnées
Le processus documentaire et rédactionnel
40/43
Avantages des métadonnées embarquées dans les photos
La description textuelle de l'image esttoujours disponible avec l'image etfacilement réutilisable
L'utilisateur reste libre de la technologie de base de données utilisée pour l'exploitation de son corpus d'images
Comme les images, les métadonnées vous appartiennent, elles n'appartiennent pas à votre prestataire de service
41/43
La mise à jour d'une description est lourde.Nécessité de recharger la photo contenant la nouvelle description
Une URL Flickr pointant sur une photo ne peut être considérée comme stable; le numéro d'identification Flickr change lorsque l'on télécharge à nouveau l'image
Mais... Nous pouvons travailler avec les références (ID) des photos
www.flickr.com/photos/photosnormandie/3019172081/Numéro d'identification
Ruse....www.flickr.com/search/?
w=58897785@N00&q=p012516&m=textID PhotosNormandie ID Photo
Inconvénients de la méthode (avec Flickr)
42/43
Bilan documentaire Depuis fin janvier 2007, la galerie et les photos ont été vues
plus de 36 millions de fois (soit plus de 7700 visites par jour) Grande progression depuis quatre ans
(4500 visites quotidiennes en 2012) Le 6 juin 2014, près de 200 000 visites
9222 descriptions corrigées et mises à jour(certaines descriptions ont été corrigées plusieurs fois)
417 photos correspondent à des séquences filmées retrouvées (plus de 1 sur 10; il doit en exister davantage)
43/43
Merci de votre
attention