travailler avec des archives audiovisuels numériques. deuxième partie : digital humanities,...
DESCRIPTION
Les sujets traités dans cette conférence : 1) Les « digital humanities » et la question des archives numériques. 2) Evolution des archives numériques vers des plateformes de travail. 3) Les deux étapes centrales lorsqu'on travail avec des archives numériques: 3.1) L’étape de l’archivage numérique à proprement parler. 3.2) L’étape du « repurposing » des données archivées. 4) Le Studio ASA – une plateforme de travail pour archives audiovisuelles. 5) Le cœur du « Studio ASA » - un métalangage de description des données audiovisuelles.TRANSCRIPT
Travailler avec des archives audiovisuels numériques.
Deuxième partie : Digital humanities, archives numériques et plateformes de travail.
Un exemple concret: Le Studio ASA
Peter Stockinger, P.U.Fondation
Masion
des Sciences de l’Homme
(FMSH) -
ESCoMInstitut
National des Langues
et Civilisations
Orientales
(INALCO)
Université
de la Manouba
(UMA)
Institut Supérieur de Documentation de Tunis
Unité
de Recherche «
Bibliothèque numérique et patrimoine
»
Tunis, 25 Avril
2013
1.
Les
«
digital humanities
»
et la question des archives numériques
2.
Evolution des archives numériques vers des plateformes de travail.
3
.
Les deux étapes centrales
lorsqu'on travail avec des archives numériques:
1) L’étape de l’archivage numérique
à
proprement parler 2) L’étape du «
repurposing
»
des données archivées
4.
Le Studio ASA
–
une plateforme de travail pour archives audiovisuelles.
5.
Le cœur du «
Studio ASA
»
-
un métalangage de description
des données audiovisuelles.
Les principaux points
Les «
digital humanities
»
et la problématique des archives (numériques)
Un nouveau « courant » - les « digital humanities »:
1
.
…
collecte de, stockage de, accès à
des grandes masses de données numériques
2
.
…
pratiques numériques
dans la recherche
3
.
…
anciennes problématiques mieux abordées
à
l’aide du numérique
4.
…
nouvelles problématiques
liées à
culture numérique, à
la société
de l’information er des connaissances
5.
…
nouveaux paradigmes théoriques
(exemple: simulation, automatisation de processus symboliques, sociétés artificielles, …)
6.
…
remise en cause de la distinction entre « Geistes- » et «
Naturwissenschaften
»
Archives numériques et «
digital humanities
»
Dans le contexte des « digital humanities » (mais aussi au-delà: cf. les nouvelles pratiques numériques en communication des organisations) ….
La notion « archives numériques » recouvre deux problématiquescomplémentaires
1.
Archives au sens d’une banque de données
(ouvertes)
2
.
Archives au sens d’une ressource ou d’un ensemble de ressources (d’un centre de ressources)
La notion «
archives numériques
»
«
Archives numériques
»: deux
problématiques
complémentaires
1) Archives au sens d’une banque de données
(ouvertes, d’accès libre, …)
Fait partie d’un projet d’archivage spécifique,
est composé d’une collection (d’une série de collections) de données numériques (composant le fonds – fermé ou ouvert -d’une archive),
peut servir potentiellement à toute sorte d’exploitations pratiques
Bon exemple:
Archive pluridisciplinaire ouverte HAL-SHS du CNRS qui est un entrepôt pérenne d’articles scientifiques (publiés ou non).
La notion «
archives numériques
»
«
Archives numériques
»: deux problématiques complémentaires
2) Archives au sens d’une ressource, d’un ensemble de ressources
(d’un «
centre
de ressources
»)
réutilisation « active » avec transformation qualitative d’une donnée ou d’un ensemble de données archivées
L’archive au sens d’un « pool » de connaissances mobilisables dans des contextes et pour des usages spécifiques
La notion «
archives numériques
»
Transformation qualitative d’une donnée archivée/d’un corpus de données archivées en une ressource sui generis …
reclassification (de données archivées et déjà classées dans une archive),
re-description/re-indexation (de données archivées déjàindexées),
re-contextualisation (de données archivées et déjà mises en relation avec d’autres données),
re-découpage virtuel (de données audiovisuelles, visuelles, textuelles … archivées),
réécriture partielle (i.e. la modification même de la textualitéd’origine d’une donnée archivée),
republication (d’une donnée, d’un ensemble de données déjàpubliée(s) sous un certain format et selon un certain genre!),
etc.
La notion «
archives numériques
»
Evolution des archives numériques vers des plateformes de travail
Conséquence de notre discussion de la notion «
archives numériques
»:
La notion « archive numérique » …
au sens d’un centre de ressources mobilisables pour une pratique, un contexte d’usage spécifique, …
… réunit obligatoirement deux composants complémentairesnécessaires:
Evolution des archives numériques vers des plateformes de travail
1.
Une banque de données numériques (i.e. une collection ou des collections de données archivées)
2.
Un environnement de travail (un “Lab”) qui permet de «
traiter
»
une donnée ou un corpus de données archivées:
logiciels, ressources métalinguistiques (thesaurus, ontologies, graphes, …), guides, …
Exemple: Le projet allemand Text-GRID – « Virtual Research Environment for the Humanities »
1.
d’une part une « archive » «
stricto sensu
»
pour stocker et diffuser, par exemple, des œuvres littéraires dans un format xml/TEI
;
2.
et d’autre part un environnement de travail
pour traiter ces œuvres (décrire, indexer, relier avec d’autres œuvres, etc.).
= plateforme intégrée de travail
Comme précise les auteurs du projet TextGrid (cf. video de promotion) :
Une première étape:
= la numérisation et la mise à disposition des données textuelles= seulement une étape certes essentielle mais largement insuffisante –
Une deuxième étape:
= le travail, l’expertise du chercheur, enseignant qui transforme une donnée textuelle en une ressource à proprement parler (pour le chercheur, l’enseignant, …);= étape décisive !!
Evolution des archives numériques vers des plateformes de travail
TextGrid (capture de la page d’accueil)
Evolution des archives numériques vers des plateformes de travail
TextGrid (interface « documentation enligne » …)
Evolution des archives numériques vers des plateformes de travail
Le projet TextGrid se comprend comme une plateforme permettant à tout chercheur individuel, à toute « communauté » de chercheurs
de créer et de gérer sa propre « virtual reseach world ».Evolution des archives numériques vers des plateformes de travail
Autres exemples de plateformes pouvant intéresser la recherche dans les SHS
Studio ASA:
plateforme de constitution et de publication d’archives audiovisuelles , de description et d’indexation de ressources vidéos
est un projet de l’Equipe Sémiotique Cognitive et nouveaux Médias (ESCoM) _ Fondation Maison des Sciences de l’Homme (FMSH) àParis
OMEKA :
plateforme d’édition et de publication web pour créer et visualiser des collections de données (visuelles, textuelles, ...), d’archives numériques ou encore d’expositions autour d’un sujet, d’un thème
est un projet du Roy Rosenzweig Center for History and New Media, George Mason University
Evolution des archives numériques vers des plateformes de travail
Autres exemples …
NESSTAR :
plateforme pour la collecte, l’organisation, l’analyse et l’indexation, la visualisation et la publication de données (statistiques)
est un projet du Norwegian Social Science Data Services (NSD)
C-Kan:
première plateforme de collecte, de classement, de gestion, d’analyse, d’exploitation et de visualisation de données ouvertes
Plateforme utilisée par des collectivités territoriales, institutions publiques, entreprises, ...)
est une plateforme développée par l’Open Knowledge Foundation
Evolution des archives numériques vers des plateformes de travail
Les deux étapes centrales
dans le travail avec et autour des archives numériques:
1ère
étape: L’«
archivage numérique
»:
le
modèle organisationnel
Rappel:
Point de vue des auteurs du projet TextGrid (cf. video de promotion) … :
Une deuxième étape:
= le travail, l’expertise du chercheur, enseignant qui transforme une donnée textuelle en une ressource à proprement parler (pour le chercheur, l’enseignant, …);
étape décisive !!
Une première étape:
= la numérisation et la mise à disposition des données textuelles
= Project d’archivage numérique (électronique) stricto sensu (explicité par la norme OAIS)
L’archivage numérique
6 phases centrales caractérisant un projet « archivage numérique » au sens du Programme AAR …
1.
1ère
phase:
Activités préparatrices
en amont
de la documentation
d’un « terrain » (lato sensu)
2.
2ème
phase:
Activités d’enregistrement
du terrain
(lato sensu), de collecte
des données et de la constitution d’un corpus
de documentation du terrain
3.
3ème
phase:
Activités de préparation technique
et conceptuelle
(«
métadonnées de base
»!) des corpus à
verser dans les archives et versement
des corpus (=> les SIP
de l’OAIS)
4.
4ème
phase:
Classement, description
et indexation
des données à
archiver (=> les AIP
de l’OAIS)
5.
5ème
phase:
Edition
et diffusion
des corpus audiovisuels traités et analysés préalablement (= les DIP
de l’OAIS)
6.
6ème
phase:
Activités de clôture
du travail sur un corpus archivé
et diffusé
(dépôt légal; pérennisation; sauvegardes, …).
L’archivage numérique
Chaque phase …
1
.
…
se différencie en une série d’activités spécialisées;
2.
…
connaît des procédures
explicites et documentées;
3
.
…
est «
instrumentée
»
(= outils + métadonnées; cf. plus loin le Studio ASA)
Lien:
1)
Brochure AAR définissant les règles et procédures de collecte et de conservation de données.
L’archivage numérique
Remarque: ces six étapes …
forment le modèle de travail de l’archivage numérique au sens des AAR,
elles formalisent une expérience de 10 ans de travail et répondent au besoins spécifiques du projet AAR.
Néanmoins la mise en place de ce modèle et sa formalisation ont été réalisées –dans la mesure du possible – par rapport à et à l’aide des deux modèles/normes techniques de référence suivants:
OAIS (Open Archival Information System; norme ISO 14721):
Modèle conceptuel pour la production, gestion, diffusion et pérennisation de données numériques
PAIMAS (Producer-Archive Interface Methodology Abstract Standard) - PAIS
Guide identifiant le cadre général de la constitution d’une archive numérique: phases, activités, paquets d’information OAIS, …
Pour plus d’informations, cf. site Archives de France
L’archivage numérique
Modèle OAIS (Open Archival Information System; norme ISO 14 721)
Notion centrale: Paquet d’informations: composé de la donnée à conserver + les informations relatives à cette donnée (= métadonnées)
SIP : Submission Information Package (quelles infos à soumettre ?),AIP : Archival Information Package (quelles infos à archiver?),DIP : Dissemination Information Package (quelles infos à diffuser?)
L’archivage numérique
PAIMAS (Producer-Archive Interface Methodology Abstract Standard)Guide identifiant le cadre général de la constitution d’une archive numérique: phases, activités, paquets d’information OAIS, …
PAIS: standard de mise en œuvre de cette méthodologie …
L’archivage numérique
Les deux étapes centrales
lorsqu'on travail avec des archives numériques:
2ème
phase: L’étape du «
repurposing
»
(exploitation, appropriation, transformation qualitative, …)
d’une donnée archivée
Rappel:
Point de vue des auteurs du projet TextGrid (cf. video de promotion) … :
Une première étape:
= la numérisation et la mise à disposition des données textuelles= seulement une étape certes essentielle mais largement insuffisante –
Les exemples de visualisation différente relèvent de la deuxième étape !!
Une deuxième étape:
= le travail, l’expertise du chercheur, enseignant qui transforme une donnée textuelle en une ressource àproprement parler (pour le chercheur, l’enseignant, …);
étape décisive !!
Le «
repurposing
»
de données archivées
Rappel: « transformation qualitative » d’une donnée archivée/d’un corpus de données archivées en une ressource sui generis …
reclassification (de données archivées et déjà classées dans une archive),
re-description/re-indexation (de données archivées déjàindexées),
re-contextualisation (de données archivées et déjà mises en relation avec d’autres données),
re-découpage virtuel (de données audiovisuelles, visuelles, textuelles … archivées),
réécriture partielle (i.e. la modification même de la textualitéd’origine d’une donnée archivée),
republication (d’une donnée, d’un ensemble de données déjàpubliée(s) sous un certain format et selon un certain genre!),
etc.
Le «
repurposing
»
de données archivées
Remarque: Autrement dit …
Le modèle d’archivage numérique des AAR ainsi que les deux modèles de référence OAIS et PAIMAS …
… ne formalisent que la première étape (au sens des auteurs du projet TextGrid) du travail d’un « digital humanist » (ou d’un « digital knowledge professionnel », …),
c’est-à-dire: ils ne formalisent que le travail de la numérisation de données documentant un domaine et leur archivage
Mais ils ne tiennent pas réellement compte de la deuxième étape, de la « transformation qualitative » d’une donnée archivée par un acteur, de son appropriation par ce dernier …
Le «
repurposing
»
de données archivées
Une représentation plus complète des cycles de vie d’une donnée fournie par la DDI (Data Documentation Initiative) + CESSDA (Council of European Social Science Data Archives)
« combined life cycle model » Modèle intégré: « archivage + réutilisation »
« combined life cycle model » d’une donnée « ... incorporates either direct disseminationto users or dissemination through data archives and recognizes that data can be reprocessed at later points in its life cycle, creating an iterative process » (DDI 2009, p. 8)
« ... This means that the life cycle is no longer linear but has become circular. We viewed repurposing of data as being a secondary use of the data from a study.
Le «
repurposing
»
de données archivées
Vision schématique de deux ensembles centraux d’activités qui caractérisent cette deuxième étape …
Deuxième étape = Travail d’appropriation/d’exploitation
d’une donnée archivée
Ensemble d’activités I
«
Découverte et Analyse
»
Ensemble d’activités II
(Re)publication
Modélisation (Méta-langage:
thesaurus, modèles de description,
standards)
Localisation, Analyse
(résegmentation, rédescription, réindexation
Publications automatiques
(exploitant les résultats de la description-
indexation du
corpus)
Publications « auteur »
(selon un scénario auteur)
Le «
repurposing
»
de données archivées
Le Studio ASA
–
exemple d’un environnement de travail pour produire, diffuser et exploiter des archives audiovisuelles
numériques
(= instrumenter les deux étapes d’un projet d’archive)
Le Studio ASA – un environnement de travail (un « lab ») pour instrumenter:1.
un projet d’archivage numérique
stricto sensu (1ère
étape) 2.
et son appropriation/exploitation
par un «
digital humanist
», un «
digital knowledge
professionnel
»
(2ème
étape)
Studio ASA
Atelier de Modélisation
OntoEditeur
Atelier de Segmentation
Interview
Atelier de Description
Interview
Atelier de Publication
Semiosphere
Interface de travail « formulaires »)
Bibliothèque de modèles de description
(propre à
une archive)
Ontologie de l’univers du discours ASA
Ontologie du domaine d’une archive
Le Studio ASA –
quelques aspects
Le Studio ASA – une suite de logiciels pouvant être installée sur un PC …
Le Studio ASA –
quelques aspects
La rubrique « Studio ASA » sur le portail de Semiosphere permettant de télécharger et d’installer le Studio ASA …
Le Studio ASA –
quelques aspects
L’Atelier de segmentation virtuelle d’une ressource AV: Interview (INA-ESCoM)
Le Studio ASA –
quelques aspects
L’Atelier de description d’une ressource AV: Interview (INA-ESCoM)
Le Studio ASA –
quelques aspects
L’Atelier de Modélisation de l’univers du discours du domaine ASA/du domaine d’une archive particulière: OntoEditeur (ESCoM) – Interface (vue partielle)
Le Studio ASA –
quelques aspects
L’Atelier de publication Semiosphere: Interface de travail (suite – les archives …)
Le Studio ASA –
quelques aspects
Environnement et processus de travail (schéma F. Lemaitre, ESCoM)
Le Studio ASA –
quelques aspects
L’utilisation du Studio ASA …
1) …
aussi bien dans le cadre de la
constitution d’une banque de données audiovisuelles
= archives stricto sensu au sens de la norme OIAS
2) …
que dans le cadre de l’exploitation, de la
réutilisation de données archivées
= « repurposing » au sens du standard DDI
Le Studio ASA –
quelques aspects
Le cœur du Studio ASA –
un métalangage de description de données audiovisuelles numériques
Le « semiotic turn » dans les archives numériques
Trevor Owens:
“As a species of human-made artifact, we can think of data sets as having the same characteristics as texts. Data is created for an audience. Humanists can, and should interpret data as an authored work and the intentions of the author are worth consideration and exploration.”-Journal of Digital Humanities (1/1 2011).
=> « linguistic turn » dans les archives [numériques] (cf. Louise Craven (éd.), What are archives, 2008)
=> plutôt: « sémiotic turn »
est en jeu la textualité même de la donnée archivée, des données archivées et pas seulement sa « surface linguistique
Le métalangage ASA
Le « cœur » du Studio ASA:
… est composé d’un ensemble de modèles de description
… qui représentent « l’univers du discours » d’une archive au sens des AAR
Les modèles de description …
… sont élaborés à l’aide d’un métalangage de description (= métalangage ASA)
Le métalangage de description …
… repose sur une vision structurale du texte audiovisuel
Le métalangage de description est constitué d’un ensemble d’éléments et de règles dont notamment:
Le métalangage ASA
Les modèles de description du Studio ASA …
1
.
…
reposent sur une représentation structurale
de l’objet «
vidéo
»
(document vidéo)
2.
Cette représentation est utilisée pour élaborée le métalangage ASA.
Vidéo (objet,
ressource)
2) Dimension paratextuelle
(modèles d’identification, …)
3) Plan audiovisuel
(modèles du plan visuel; modèles du plan acoustique)
1) Dimension textuelle (modèles de segmentation)
4) Plan topique
(modèles du sujet: quoi? où? quand? comment? …)
5) Plan discursif
(modèles des genres utilisés: exposé, récit, débat, …)
6) Plan narratif
(modèles de l’enchainement des segments, pas développé)
7) Contexte d’origine
(modèles de la génétique textuelle, pas développés)
8) Contexte d’usage
(modèles d’exploitation, de «
mise en relation
»)
9) Contexte d’archivage et de pérennisation
(modèles de stockage et de conservation)
Le métalangage ASA
Cette représentation est elle-même fondée sur une conception structurale de l’objet « texte » en général (i.e. oral, écrit, graphique, pictoral, audiovisuel, gestuel, ...)
Le métalangage ASA
Dans le Studio ASA, pour chaque dimension, chaque plan est spécifié et mis à la disposition à l’utilisateur
1
.
soit une classe de modèles uniques
(i.e. valide pour toutes les archives
au sens AAR)
2
.
soit une classe de modèles multiples
(i.e. adaptés aux spécificités d’une archive particulière au sens AAR et pouvant varier d’une archive à
une autre)
Modèles multiples:
Pour le moment seulement les modèles pour la description du plan thématique(topique) d’une donnée audiovisuelle archivée
Un modèle de description « sert à …. »:
… définir la structure et le contenu des métadonnées relatives à une donnée audiovisuelle
Le métalangage ASA
Les métadonnées « servent » … :
… à classer les données audiovisuelles dans une archive (= AIP au sens de OAIS);
… à exporter les données (= SIP au sens de l’OAIS) vers d’autres archives
Exemples:
Dépôt légal – BnF; Dépôt pérenne – HAL du CNRS-CCSD; Agrégation et diffusion plus large - Européana, …)
… à les publier sur le portail de l’archive (= DIP) telle qu’AMSUR, FMSH-AAR, etc.
… à republier (« repurpose ») des données archivées (sous forme de dossiers thématiques, par exemple; cf. AMSUR)
Le métalangage ASA
Interface de l’Atelier de Description:
une partie du menu des modèles de description (d’une donnée audiovisuelle archivée)
Le métalangage ASA
Interface de l’Atelier de Description – accès à la bibliothèque des modèles de description thématique (portail AMSUR)
Le métalangage ASA
Interface de l’Atelier de Description – la première partie d’un modèle thématiqueappartenant aux archives AMSUR ….
Le métalangage ASA
Les éléments du métalangage composant les modèles de description
Le métalangage de description est constitué d’un ensemble d’éléments et de règles dont notamment:
Les principaux éléments du métalangage sont:
1.
…
une hiérarchie de concepts
relatifs aux objets d’analyse des archives au sens des AAR,
2.
…
une hiérarchie de concepts
relatifs aux procédures de description et d’indexation d’un texte audiovisuel,
3.
…
des relations entre les concepts
permettant d’associer les concepts entre eux pour en faire des …
=>
3.1. => schémas
et séquences
de description et d’indexation
qui forment à
leur tour …
=>
3.2 => …
les modèles de description
(composant l’interface de travail du logiciel Interview)
4.
…
un thesaurus à
facettes
permettant l’utilisation de valeurs prédéfinies
(des «
descripteurs
») dans des contextes sémantiques
variés.
Le métalangage ASA
L’outil OntoEditeur (= éditeur xml faisant partie du Studio ASA) permet …
1.
…
la gestion du métalangage ASA
(corrections, modifications, enrichissements, …),
2
.
…
l’élaboration des modèles de description
formant la bibliothèque des modèles
de description propres à
une archive audiovisuelle (exemple: AMSUR; FMSH-AAR; PCIA),
3
.
…
l’export du métalangage et des modèles de description en format rdf/owl
et, bientôt SKOS
(«
passerelle
»
entre ASA et OAI, Rameau, MODS, MARC 21, EAD, etc.; cf. Fabrice Papy).
Exemples: ci-après ….
Note: pas toutes les exigences conceptuelles du métalangage ASA sont aujourd’hui implémentées !!
Le métalangage ASA
SKOS (Simple Knowledge Organization System)
= « passerelle » entre ASA et des standards, normes, thesaurus, ontologies, etc. qui sont extérieurs à l’univers du métalangage ASA
Exemples:
OAI (=> ISIDORE, UOH, Canal U, …)
Rameau, MODS (=> BnF, Library of Congress, Europeana, …)
MARC 21 (=> SUDOC, …)
EAD (=> archives ouvertes)
LOM (=> environnement spédagogiques)
TEI (=> contextes du repurposing avancé)
Ontologies et thesaurus spécialisés: GOLD (linguistique), …
Travaux de recherche et de développement actuellement en cours sous la direction de Fabrice Papy, professeur des universités en sciences de l’information et auteur du Visual Catalog.
Le métalangage ASA
Eléments du métalangage ASA: La structure générale des deux hiérarchies de concepts (termes conceptuels):
1.
Objet d’analyse2.
Procédure d’analyse
Le métalangage ASA
Eléments du métalangage ASA: La structure du thesaurus ASA – thesaurus commun; thesaurus « utilisateurs »; ressources externes à ASA
1
.
A) le «
dictionnaire
»
des facettes
(«
axes sémantiques
»)2.
B) le «
dictionnaire
»
des valeurs
(descripteurs)
Le métalangage ASA
Eléments du métalangage ASA: bibliothèque des modèles de description thématique (topique) des archives FMSH-AAR …
Le métalangage ASA
Littérature et références
Série de monographies et d’ouvrages collectifs documentant ces résultats …
2012Peter Stockinger, Analyse des contenus audiovisuels. Métalangage et modèles
de description
; Londres, Hermes
Science Publishing
2012 (350 pages) –
English translation
: J. Wiley
& Sons (NY, 2012)
2011Ouvrage collectif: Les archives audiovisuelles
: description, indexation et publication. Londres, Editions Hermes Science Publishing 2011 (English translation
: John Wiley & Sons, NY 2011)
Ouvrage collectif: Nouveaux usages des archives audiovisuelles numériques. Londres, Editions Hermes Science Publishing 2011 (English translation
: John Wiley & Sons, NY 2011)
2003Peter Stockinger
Le document audiovisuel. Description et exploitations pratiques.
Paris, Hermes
Science Publications (240 p).
Ouvrage collectif: Portails et collaboratoires
pour l’enseignement et la recherche. Paris, Hermes
Science Publications (230 p).
Littérature et références