cocoon, une plateforme pour la conservation et la ... · bornées par des jalons temporels ......
TRANSCRIPT
Laboratoire ligérien de linguistique
Cocoon, une plateforme pour la Cocoon, une plateforme pour la conservation et la diffusion de ressources conservation et la diffusion de ressources orales en sciences humaines et socialesorales en sciences humaines et sociales
Michel Jacobson (LLL), Flora Badin (LLL) et Séverine Guillaume (LACITO)« 8es Journées Internationales de Linguistique de Corpus »Du 2 au 4 septembre 2015 à Orléans
Laboratoire ligérien de linguistique
PLANPLAN
Le périmètre des ressources prises en charge Critères
Quelques chiffres
Diversité des données déposées/collectées
Un exemple
La plateforme de gestion Cocoon Historique
Les choix de codage
Les fonctionnalités
Laboratoire ligérien de linguistique
Le périmètre des donnéesLe périmètre des données
Les ressources orales prises en charge Des enregistrements de parole
Collectés par des chercheurs en sciences humaines dans l'objectif d'étudier les langues et la parole, ou comme moyen d'enquête, ou comme technique de prise de notes, etc.
Principalement audio, mais aussi vidéo, mesures physiologiques... Enregistrements parfois accompagnés d'annotations (transcriptions, traductions…) Enregistrements documentés (métadonnées décrivant le contexte, le contenu, la
forme, les droits…)
Laboratoire ligérien de linguistique
Quelques chiffres sur les donnéesQuelques chiffres sur les données
Ressources orales dans Cocoon Plus de 10 000 enregistrements
principalement audio, vidéo (par ex : langues des signes ; interactions avec des enfants ; interactions au
travail) mesures physiologiques : électroglotogramme pour des études phonétiques
Plus de 3 000 transcriptions
Environ 5 000 heures
128 langues représentées (136 avec les ressources en préparation)
Laboratoire ligérien de linguistique
Quelques chiffresQuelques chiffres
Une grande diversité Des lieux d'enquête
Des langues
Des genres
Des disciplines
...
Laboratoire ligérien de linguistique
Diversité géographiqueDiversité géographique
Répartition géographique des lieux d'enquête
Laboratoire ligérien de linguistique
Diversité géographiqueDiversité géographique
Zoom
Laboratoire ligérien de linguistique
Diversité linguistiqueDiversité linguistique
Langues Environ 128 langues distinctes
Exemple des langues enregistrées en Nouvelle-Calédonie
Genres Récits, conversations, discours,
lecture, interviews, chansons…
Disciplines Phonétique/phonologie,
description des langues, syntaxe, histoire...
Laboratoire ligérien de linguistique
Situations d'enquêteSituations d'enquête
laboratoire, terrain, famille, milieu professionnel...
Laboratoire ligérien de linguistique
Un exemple de ressourceUn exemple de ressource
Un enregistrement de ESLO
Laboratoire ligérien de linguistique
La plateforme CocoonLa plateforme Cocoon
Laboratoire ligérien de linguistique
HistoriqueHistorique
De 2006 à aujourd'hui création par le CNRS de « Centres de ressources numériques »
CRN sur les données orales, les informations géographiques, l'écrit et les lexiques, les sources visuelles…
mise en place et alimentation d'un entrepôt pour les données orales en SHS (CRDO)
mise en place d'un circuit d'archivage pérenne avec le TGE-Adonis Groupe de travail du TGE-Adonis regroupant : les centres de calcul du CINES et de
l'IN2P3, le CRDO, la DAF
2012 CRDO-Paris = Cocoon (Collections de corpus oraux numériques)
Laboratoire ligérien de linguistique
La plateforme CocoonLa plateforme Cocoon
Utilisation de la grille de services d'Huma-Num L'infrastructure (celle du Centre de calcul de l'IN2P3) pour le stockage sécurisé et
l'hébergement des services La plateforme du CINES (PAC) pour la pérennisation des informations pendant une
période intermédiaire puis à terme celle des Archives nationales
Une offre de services pour les SHS Se veut compatible/complémentaire de l'Equipex Ortolang (échanges en cours) Stockage de données : mutualisation pour des volumes importants (en To) Sécurisation des données : Redondance, contrôle de l'intégrité, horodatage, contrôle
des accès, analyses qualité Identification des ressources : identifiant pérennes (OAI, ARK) et de permaliens
(HANDLE, PURL) Accès / diffusion : Entrepôt OAI, serveur Web, référencement Pérennisation à long-terme : PAC → Archives nationales
Laboratoire ligérien de linguistique
Les choix de codageLes choix de codage
Laboratoire ligérien de linguistique
Les enregistrementsLes enregistrements
Identification des formats et codages acceptables (liste établie dans le cadre d'une étude avec le CINES). Formats cibles : Audio : WAV/PCM ou FLAC
Vidéo : MPEG-4/H-264/AAC ou MKV/H-264/FLAC
Transcriptions : XML/UTF-8 validé par un schéma ou une DTD ou TEXT/UTF-8 ou PDF
Définition de qualité plancher : Par exemple pour l'audio : Fréquence d'échantillonnage ≥
44100Hz ; Taille de l'échantillon ≥ 16 bits
Laboratoire ligérien de linguistique
Les transcriptionsLes transcriptions
Utilisation de logiciels métier : Transcriber, CLAN, ELAN, Praat...
Point commun à ces formats : permettre de coder des annotations bornées par des jalons temporels
Les transcriptions utilisent des conventions diverses, guidées par des traditions, des écoles, des manuels établis dans le cadre de projets
Laboratoire ligérien de linguistique
Les métadonnéesLes métadonnées
Choix du format OLAC OLAC (Open Language Archives Community). Schéma XML basé
sur le Dublin-Core qualifié avec des ajouts de vocabulaires contrôlés (types de discours, types linguistiques, rôles, domaines linguistiques)
Dans la mesure du possible, nous avons encouragé l'utilisation de vocabulaires contrôlés (ceux de OLAC, les vocabulaires ISO pour les langues et les régions, le TGN).
Laboratoire ligérien de linguistique
Fonction de conservationFonction de conservation
Laboratoire ligérien de linguistique
La conservationLa conservation
Conservation des documents numériques Dans la plateforme Cocoon
Ne sont pris en charge que les documents numériques (enregistrements, annotations, documentation). Les données sont
➔ dans un premier temps stockées et sécurisées sur la plateforme➔ puis confiées à l'opérateur d'archivage de la TGIR Huma-Num (CINES) qui prend
la responsabilité de la conservation des informations pendant une période dite intermédiaire
➔ avant de la confier aux Archives nationales pour une conservation définitive
Laboratoire ligérien de linguistique
La conservationLa conservation
Conservation des supports d'origine Dans le cadre d'une collaboration avec la BnF
Les anciens supports analogiques ainsi que les autres documents papier constituant un fond d'archives peuvent être confiés à la BnF qui en fait un inventaire, une description et un signalement à travers son catalogue BAM « Bnf Archives et Manuscrits ». Les documents audio sont numérisés afin d'assurer la conservation des informations. La communication est assurée en salle chercheur et par Cocoon pour la communauté scientifique.
Laboratoire ligérien de linguistique
Fonction de diffusionFonction de diffusion
Laboratoire ligérien de linguistique
La diffusionLa diffusion
Diffusion par l'interface OAI Moissonné par des fournisseurs de service qui offrent ensuite un moteur de
recherche (OLAC, Isidore…), par des producteur pour récupérer les métadonnées dans leurs portails (IHTP/Koha, CRBC/Omeka…), par des portails thématiques (DGLFLF/langues de France; Région-Bretagne/Bretania.bzh…)
Laboratoire ligérien de linguistique
La diffusionLa diffusion
Diffusion par le portail web de Cocoon Moteur de recherche (par collection, par les métadonnées, par lieux, par termes) Affichage des métadonnées Consultation multimédia
Laboratoire ligérien de linguistique
La diffusionLa diffusion
Mashups par rapprochement avec des référentiels externes (VIAF, Rameau, Dbpedia, Geonames)
➔ VIAF + BnF + HAL + Abes➔ Dbpedia + Geonames
Laboratoire ligérien de linguistique
La diffusionLa diffusion
Re-exposition des métadonnées en RDF (en cours...)
Laboratoire ligérien de linguistique
LiensLiens
Cocoon http://cocoon.huma-num.fr