cas d'utilisation de la citation de données
TRANSCRIPT
I D E N T I F I C A T I O N D E S D O N N É E S C A S D ’ U T I L I S A T I O N
20/21 janvier 2015
Remarque préalable
The Power of PowerPoint | thepopp.com 3
P I D C L A S S I Q U E / P I D R D A ?
P I D C L A S S I Q U E PID correspondant à une requête dans le système de données
P I D R D A
PID correspondant à une version d’un jeu de données ou à une
collection de jeux de données
Les acteurs
L E S A C T E U R S
STEVEN CHRIS BRAD GEORGE Responsable de plusieurs centres
de données dans le domaine de la
paléontologie, Steven veut
pouvoir promouvoir leur
reconnaissance dans les articles.
PI chevronné, Chris produit de
nombreux jeux de données, qu’il
corrige de temps en temps.
Il aime que son travail soit utilisé
mais il souhaite savoir par qui
Scientifique accompli, Brad est
désireux d’accompagner ces
articles de références précises à
des jeux de données qu’il a
récupérés
Toujours méfiant du travail du
travail de Brad, George veut
vérifier les résultats obtenus par
celui-ci. Quoi d’autre ?
5
L E S A C T E U R S
MATT BEN Responsable informatique d’un
centre de données de Steven
Responsable informatique d’une
agence d’enregistrement
(Registration Agency) de PID
6
STEVEN
7
• Que la base de données de son centre puisse être référencée par des articles
scientifiques.
•Que les lecteurs de ces articles puissent arriver sur le portail de son centre de données
•Savoir combien d’articles citent sa base de données
OBJECTIFS
• Utilisation de PID classiques (on ne cite pas de données)
COMMENT PROCÉDER ?
Q U E L Q U E S É L É M E N T S …
8
• Solution simple à mettre en œuvre
• Solution également valable pour citer les larges collections et non les données qu’elles contiennent
•La landing page peut être la page d’accueil d’un portail de programme, la page d’accueil du portail de données,…
• Le PID peut être significatif
•Le préfixe du PID est celui du centre de données
• Le cycle de vie du PID peut être géré par un outil qui masque l’API Datacite
• Le seul engagement est de maintenir la landing page accessible tant que le PID est actif
• Le suivi de l’utilisation des PID dans des articles est-il possible ?
CHRIS
9
• Mettre à disposition de nouveaux jeux de données
• Corriger des jeux de données existants
• Mesurer l’utilisation de ses jeux de données
OBJECTIFS
• Documentation/modification de la fiche de métadonnées
• Intégration des données
• Si PID classique, génération et publication du PID correspondant à chacune des versions
publiables de son jeu de données
• Si PID RDA, cette génération est optionnelle
• La mesure de l’utilisation des jeux de données est effectuée de la même manière que
Steven
COMMENT PROCÉDER ?
Q U E L Q U E S É L É M E N T S …
10
• La fiche de métadonnées du jeux doit contenir les informations sur la version initiale et les différentes versions successives (corrections responsables des différentes versions, dates des versions…)
• Si PID classique,
•La landing page des différents PID est la fiche de métadonnées du jeu de données
• Le PID peut être significatif
• Un lien père/fils entre certains PID peut être mis en place
• La question de la granularité du jeu de données se pose
• Si PID RDA,
• La landing page du PID permet de consulter les différentes fiches de métadonnées
BRAD
11
• Citer facilement les jeux de données (horodatés) qu’il a récupérés et utilisés dans son
travail dans un objectif de reproductibilité
OBJECTIFS
• Si PID classique, Brad cite les PID qu’il trouve dans les fiches de métadonnées qui lui ont
permis de télécharger les données. En cas d’absence, il cite les PID des collections de haut
niveau.
• Si PID RDA, Brad obtient les PID correspondant à chaque requête lui ayant permis de
récupérer les données par le portail. Brad décide déclenche la publication.
COMMENT PROCÉDER ?
•Bien évidemment, physiquement, Brad et Chris peuvent être la même personne
REMARQUE
Q U E L Q U E S É L É M E N T S …
12
• Si PID classique,
• La citation potentiellement longue (composée de plusieurs PID) ou d’une collection de plus haut niveau
• La landing page de chaque PID est la fiche de métadonnée du jeu de données ou la collection de plus haut niveau
• Dans son article, Brad doit généralement indiquer de manière textuelle le filtre il a appliqué sur les données récupérées
• Brad peut demander à Matt de générer un extrait des données qu’il a utilisées afin de les préserver en l’état
• Si PID RDA,
• La citation est courte, voire réduite à un seul PID. Un filtre textuel n’est pas obligatoire.
• Le PID n’est pas significatif
• Deux PID différents pourrait porter sur les mêmes données
• La granularité du jeu de données est définie par son utilisation
• Si Brad veut citer des jeux de données venant de plusieurs centre de données
• Soit il cite plusieurs PID
• Soit il cite un PID de PID
GEORGE
13
• Récupérer les données et les métadonnées d’après un PID d’article
OBJECTIFS
• Si PID classique, re-exécution manuelle de l’extraction des données à partir des landing
pages des DOI. Filtrage manuel probable
• Si PID RDA, re-exécution automatique de l’extraction à partir de la landing page du DOI
COMMENT PROCÉDER ?
M A T T
• Mettre en place le système de gestion des données/métadonnées
• Mettre en place le mécanisme de citation
• Vérification régulière des PID
OBJECTIFS
• Met en place la politique de gestion des versions (élaborée avec les scientifiques)
•Si PID classique, certaines stratégies hybrides sont généralement mise en place :
• Créations de snapshots (et donc de PID pour ces snapshots)
• Créations d’extraits correspondants à des données publiées
• Utilisation de DOI fragments (solution hybride classique/RDA)
• Si PID RDA,
• Met en place le query-store
• Assure la pérennité du couple PID/requête ainsi que la pérennité de son exécution
COMMENT PROCEDER
14
Q U E L Q U E S É L É M E N T S …
15
• Si des snapshots ou des extraits sont mis en place, il faut pouvoir assurer leur téléchargement, leur migration technique, leur stockage
• En cas de PID RDA, la pérennité de l’exécution des requêtes en cas de migration physique des données est extrêmement compliquée (la migration aussi…).
BEN
16
• Assurer la pérennité du lien PID / Landing page.
• Proposer une gestion du cycle de vie des PID
•Proposer un service de suivi des PID
OBJECTIFS
• Pérennisation du lien PID/Landing page similaire à une pérennisation de données
• Accords avec les revues
•…
COMMENT PROCÉDER ?
Q U E L Q U E S É L É M E N T S …
17
• La pérennité du couple PID/landing page est beaucoup plus simple à mettre en place pour Ben que celle du couple PID/requête pour Matt.
Conclusion
1 2
3 4
D é t a i l l e r l e s c a s d ’ u t i l i s a t i o n
D é r a i l l e r l e s l i e n s a v e c l e s a u t r e s a s p e c t s d u c y c l e
d e v i e d e l a d o n n é e s / m é t a d o n n é e s
A v i s d e s s c i e n t i f i q u e s
I m p l é m e n t a t i o n s &
P r o t o t y p e s
C O M M E N T C O M M E N C E R ?
19
D é f i n i r u n e p o l i t i q u e d e c i t a t i o n c o m m u n e
M e r c i
www.aeris-data.fr
Modèle de présentation : ttp://thepopp.com/ - Jun Akizak