predon:(la(préserva1on(des(données( scienfiques · 2015-03-26 · le!cadre!de!recherche!ini; ......
TRANSCRIPT
PREDON: La préserva1on des données scien1fiques
une mine d’or pour la science de demain
C. Diaconu pour le groupe PREDON Centre de Physique des Par;cules de Marseille
CNRS et Aix Marseille Université (AMU)
predon.org
Préambule • Les données scien;fiques ont un poten;el qui dépasse le cadre de recherche ini;al et qui doit être exploité à long terme – Preserva;on <=> Accés ouvert
• La préserva;on de données scien;fique est économiquement avantageuse: – Recherche à bas cout
• Une technologies de fron;ère est nécessaire – Préserva;on de toute la chaine « grise » – Virtualisa;on, cloud compu;ng, workflows….
• La collabora;on mul;-‐disciplinaire est essen;elle – au niveaux na;onal et interna;onal – Projet PREDON: anima;on, R&D, architecture
Données Scien;fiques
• Publica;ons • Documenta;on • Donées (brutes+processées) • Meta-‐données • Workflows • So^ware • Diffuse knowledge ….more…
C.Diaconu 3 Co
mplexité
, cou
ts
U;lité
Techno
logie,
métho
dologie
Organisa
;on
Quel modèle de préserva;on pour les données scien;fiques?
Challenges • Préserver les « octets »
– Supports, centres de données – Couts?
• 2x taille ini;ale (1+1/2+1/4+….) • Préserver les procédures
– Algorithmes, workflows etc. – So^ware: complexe, fragile
• Préserver les connaissances – Indexa;on, metadata,
standards,…(OAIS) – Documenta;on, connaissances – Collabora;ons à long terme
C.Diaconu 4
Generic models for Data Preserva;on
• Technology preserva;on
– Freeze the hardware : limited capability, one day it will fall
apart however
• Technology emula;on
– Based on virtualisa;on – Prepare it once (?), migrate the “middleware”
• Con;nuous migra;on
– Follow technology changes (adjust, redesign, recompile etc….)
– Valida;on plays a central role
A la recherche des données perdues?
• Le plan de management des données doit prendre en compte le long terme
C.Diaconu 6
"That's not a pipe; it's an image of a pipe" according to a helpful member of the public. It turns out the image shows the power entry for the Big European Bubble Chamber (BEBC) (Image: CERN)
Quand faut-‐il commencer à préserver?
C.Diaconu 7
Projets
Temps
Prepara1on Prise de données Finalisa1on Projet A
Preserva;on des données
C.Diaconu 8
Projets
Temps
Prepara1on Prise de données Finalisa1on Projet A
Preserva;on des données
Quand faut-‐il commencer à préserver?
Preserva;on des données
« Data Management Plan » doit inclure la préserva1on et l’accès à long tèrme
Programme cohérent de la préserva;on de données
Structura;on dans la physique des par;cules
• DPHEP « Memorandum of understanding » signé par des agences de financement:
– Suisse(CERN), France, Japon, Finlande, Allemagne, Chine • CERN: portal « open data » pour les données du LHC
C.Diaconu 10
Formats, workflows et préserva;on
C.Diaconu 11
Formats de données: standards? Similarité entre les disciplines Approche théorique rigoureuse
Besoin et opportunité
Reconstruc*on+RAW+ Filtering+ESD+ Analysis+AOD+
HITS+
Simula*
on+
RDO+
Analysis+
ROOT+
ROOT+
Alice Experiment at LHC (CERN)
Meteo
=
Animation Partenariat (MASTODONS)
Harmonisation R&D
Architecture, Pilotage
C.Diaconu 12
• Projet dans le cadre « Mastodons/Big Data » de la MI/CNRS
PREDON
Volume données
Complexité Diversifica1on des sources
Structura1on au niveau interna1onal
Algorithmes et methodologies pour la preserva1on
IN2P3 HEP
+++ +++ + ++ +
INSU, IRD Astrophysics Earth Sciences
++ ++ ++ +++ ++
CINES INS2I IT, Algorithms, workflows
+ ++ +++ + +++
hZp://predon.org
Mul;disciplinarité, complémentarité
C.Diaconu 13
0 0.5 1
1.5 2
2.5 3
3.5 4
4.5 5
Quan;té/Infrastructure
Complexité
Diversité
Traitement Accès
Re-‐u;lisa;on
Préserva;on
Physique des Par-cules
Astrophysique
Ecologie
0
5
10
15
20
25
30
2011 2012 2013 2014
Personnes de contact PREDON
Exemple sur 3 domaines Domaines: physiques des par;cules, astrophysique, cristallographie, sciences de la terre, informa;que, écologie, sciences de l’informa;on, imagerie médicale, centres de calcul et stockage
Ac;vité PREDON 2014 • Une dizaine de téléconférences téléphoniques du groupe • Finalisa;on du document « Scien;fic Data Preserva;on 2014»
– interview dans « Lesre Informa;que de l ‘IN2P3 • Organisa;on du workshop satellite « Scien;fic Data Preserva;on » pour une demi-‐journée au sein
de la Conférence interna;onale « Interna;onal Conference in Data Engineering », Chicago, USA. • Par;cipa;on à des groupes de travail :
– DIALOG’IST : groupe de travail du réseau Mistral-‐Doc « Les bases de données de la recherche & les services de documenta;on », Atelier 2 : Les bases de données de la recherche et les services de la documenta;on : quelles interac;ons ? hsp://mistral.cnrs.fr/spip.php?ar;cle380
– Contribu;on au colloque « Innova;on et Gouvernance de l'IST » à Meudon les 18 et 19 mars 2014 • hsp://www.cnrs.fr/dist/z-‐ou;ls/documents/MEUDON/Actes_colloque_18_03_2014.pdf
– iCUBE : Workshop « Défis Big Data » le 7 Novembre 2014: • hsp://icube-‐web.unistra.fr/cssmd/index.php/Principaux_D%C3%A9fis
– GIS SPADON : Presenta;on le 16 Décembre 2014 • hsp://www.lne.fr/fr/r_et_d/gis-‐don/conserva;on-‐donnees-‐numeriques-‐gis-‐don.asp#exposes
• Organisa;on du workshop « PREDONx 2014 » à l’APC, Univ. Paris VII, 4-‐6 Novembre 2014 : hsps://indico.cern.ch/event/338461/
– Nouveaux contacts dans le domaine de l’imagerie médicale, centre de données de Strasbourg CDS, techniques de cloud pour la préserva;on de données, GIS SPADON).
• Démarrage d’un mini-‐projet d’interface de données de physique de haute énergie au sein d’un projet générique au CINES ainsi qu’une réflexion sur l’u;lisa;on des ou;ls d’analyse de l’astrophysique pour la physique des hautes énergies.
C.Diaconu 14
Document PREDON 2014
C.Diaconu 15
» hsp://informa;que.in2p3.fr/li/?page=lesre&numero=27
Scien;fic Case
Methodologies
Technologies
« PREDONx 2014 » à l’APC, Paris 5-‐6 Novembre 2014
• Revue des ac;vités en cours • Nouveaux contacts dans le domaine de l’imagerie médicale,
centre de données de Strasbourg CDS, techniques de cloud pour la préserva;on de données, GIS SPADON
• Plan de travail 2015 et au délà
C.Diaconu 16
SPADON
• Les supports pour l’archivage « passif » à long terme – Etudes de vieillissement et
préconisa;on des supports à longue durée de vie
– Caractérisa;on chimique du vieillissement!
– Rapport PSN des académies
C.Diaconu 17
Nouveau Contact 2014
"Life Imaging: between progress and freedoms » USPC project
• Anima;ng a mul;disciplinary network research bringing together colleagues and teams working on the genera;on / acquisi;on of biomedical images and their exploita;on;
• Crea;ng an environment dedicated to the exploita;on of large amounts of generated images (big data) for the development of new imaging biomarker;
• A reflec;on on the problems raised by ethical and legal image exploita;on in life imaging;
• About 190 persons are involved
C.Diaconu 18
PREDON : Par;cipa;on à la reflec;on
C. Cerin (LIPN)
IndexMED
• Organisa;on d’un workshop IndexMED-‐PREDON en mars 2015
C.Diaconu 19
Nouveau Contact 2014
Romain David Objec1f principal : Développer la culture des bases de données et leur u;lisa;on efficace dans le milieu de la recherche en écologie et biodiversité.
Imagerie Cellulaire et le Big Data
• Un poten;el important de coopéra;on: – Structura;on, méthodes, technologies
C.Diaconu 20
Nouveau Contact 2014
P. Bourdoncle
Préserva;on de données et virtualisa;on
C.Diaconu 21
C. Loomis hsp://indico2.lal.in2p3.fr/indico/getFile.py/access?contribId=0&resId= 0&materialId=slides&confId=1897
Préserva;on de données dans le « cloud »?
C.Diaconu 22
Exemple: StratusLab (hsp://stratuslab.eu/index.html) End-‐user client MarketPlace (OS collec1on) Persistent disk Web interface Ressource monitoring
C. Cavet « Cloud technology for algorithm preserva;on » PREDON workshop APC 4-‐6 Nov, 2014
Disk images have 6 months of validity OS update/upgrade for security. Virtualisa;on/cloud need to be tuned for long term
Open Archive Informa;on System OAIS
• OAIS = Modèle conceptuel et fonc;onnel des;né à la ges;on, l'archivage et à la préserva;on à long terme de documents numériques. – Définit les acteurs/responsabilités dans le SI :
• producteur/u;lisateur/manager – Définit les flux d'informa;ons
• → les paquets OAIS : SIP (en entrée), AIP (archives), DIP (diffusion) – Définit des normes/recommanda;ons « ouvertes »
• exemple : modalités de versements des données
C.Diaconu 23
Centre de données de Strasbourg
C.Diaconu 24
1,000,000 requetes/jour sur les services du CDS.
Nouveau Contact 2014
EUDAT • EUDAT will focus on building this generic data infrastructure layer and offer a
trusted domain for long term data preserva;on accompanied with related services to store, iden;fy, authen;cate and mine these data.
• Close collabora;on with the Communi;es. – Core services must match the requirements of the communi;es. – Community services can also be incorporated into the common data serviceinfrastructure
when they are of use to other communi;es.
C.Diaconu 26
Objec;fs 2015
• Pistes possibles pour la mise en place de plusieurs sujets de recherche : – Travail sur un système d’analyse de données intégré entre les ou;ls d’astrophysique et les données du LHC.
– Etude sur la mise à disposi;on sur un cloud scien1fique d’un système sécurisé de préserva1on de données.
– Coopéra;on renforcée avec le travail de prospec;ve de la DIST (hsp://www.cnrs.fr/dist/PAP3.html)
• 2-‐3 stages M2 pour ini;er ces sujets
C.Diaconu 27
Objec;fs 2015
• Par;cipa;on à l’organisa;on du workshop interna;onal HPDIC’2015. La coopéra;on est déjà in place avec un nouveau sujet sur la préserva;on des données.
C.Diaconu 29
Objec;fs 2015
« Scien;fic Data Preserva;on 2015 » – Edi;on 2014 très appréciée – Mise en perspec;ve unique sur le sujet – En cours d’édi;on, sor;e prévues mars 2015 – Evolu;on vers un « journal » ?
C.Diaconu 30
•"Scientific"Case"Préservation,de,données,en,imagérie,médicale,,Données,de,recherche,en,Physique,du,Globe,,OPEN,DATA,project,at,LHC,and,CERN,Préservation,de,données,dans,le,contexte,IndexMed,,A"provenance+based"approach"to"manage"long"term"preservation"of"scientific"data.(Proposal)",•"Methodologie"Pérennisation,des,données,au,CDS,(Centre,de,données,astronomiques,de,Strasbourg),
PDS4:"A"Model+Driven"Planetary"Science"Data"Architecture"for"Long+Term"(NASA"Proposition)."CrEDIBLE"+"fédération"de"données"et"de"ConnaissancEs"Distribuées"en"Imagerie"BiomédicaLE"(Proposition)"Strategies"around"Big"Research"Data"(Proposition)""•"Technologie"Cloud,technology,for,algorithms,preservation,,Le,pôle,de,recherche,sur,la,conservation,des,données,numériques,Le,projet,pluriLdisciplinaire,IDV,(Imagerie,du,vivant),de,l’Université,Sorbonne,Paris,Cité,et,quelques,réflexions,/,méthodologies,liées,aux,données,,
EUDAT,,,
Objec;fs 2015
• Coopéra;on avec des projets de type « Big Data », en par;culier au sein du GIP « Big Data » qui sera ini;é en 2015.
• Un workshop en coopéra;on avec les projet IndexMed en mars 2015
• Par;cipa;on à l’organisa;on du workshop interna;onal HPDIC’2015.
• PREDONx 2015 réunion annuelle fin 2015.
• Réflexion pour la cons;tu;on d’un « Observatoire des données scien;fiques » – consolider le patrimoine des données scien;fiques à long terme.
C.Diaconu 31
Perspec;ves
• Développer les connexions, réunions de travail • Document « SDP2015 » • Workshop PREDONx 2015 (automne 2015) • Sujets de recherche: formats • Observatoire de données scien;fiques
C.Diaconu 33
Physique des Par;cules Préserva;on d’un système d’accès et calcul à des données complexes Basé sur une ferme virtuelle (SLAC/Stanford USA)
Système de préserva;on et migra;on Virtualisa;on, valida1on intensive (DESY, Hambourg, Allemagne)
C.Diaconu 34
dphep.org
> Organisa1on interna1onale MoU signé en juillet 2014
hsp://dphep.org
Crystallography Open Databases and Preserva;on: a World-‐Wide Ini;a;ve
PCOD
sisters
Daniel Chateigner (for the COD Advisory Board)
0
50000
100000
150000
200000
250000
300000
mar
s-03
mar
s-05
mar
s-07
mar
s-09
mar
s-11
mar
s-13
…
Nb entries
“…there is not yet sufficient coherence of experimental metadata standards or na;onal policy to rely on instrumental facili;es to act as permanent archives; -‐there is not sufficient funding for exis;ng crystallographic database organisa;ons (which maintain curated archives of processed experimental data and derived structural data sets) to act as centralised stores of raw data, although they could effec;vely act as centralised metadata catalogues; -‐few ins1tu1onal data repositories yet have the exper;se or resources to store the large quan;;es of data involved with the appropriate level of discoverability and linking to derived publica;ons.”
C.Diaconu 35
Seismic Data Preserva;on
Conclusion Preserva1on of seismic data is essen1al, but usually not considered by scien1sts, because it takes resources to document metadata, to read and copy tapes, to convert formats, etc. These tasks should be addressed at na;onal and/or European level. Some European projects (Seiscan/Seiscanex, Geo-‐Seas) demonstrated that it is possible and useful. Repositories at na;onal level should pursue this task with geophysical skills.
Marc SCHAMING, Ins;tut de Physique du Globe (CNRS/UNISTRA), Strasbourg
C.Diaconu 36
Formats, workflows et préserva;on
C.Diaconu 37
Formats de données: standards? Similarité entre les disciplines Approche théorique rigoureuse
Besoin et opportunité
Reconstruc*on+RAW+ Filtering+ESD+ Analysis+AOD+
HITS+
Simula*
on+
RDO+
Analysis+
ROOT+
ROOT+
Alice Experiment at LHC (CERN)
Meteo
=
à Archivage de données scien;fiques pour des communautés européennes structurées
à Archivage à long terme de données scien;fiques, patrimoniales, administra;ves
à Archivage intermédiaire de données scien;fiques
Assurance qualité OAIS
Compétences archivis;ques Exper;se formats Processus mé;er Ges;on des risques
PAC
ISAAC EUDAT
Les services d’archivage au CINES
Exper;se au CINES
C.Diaconu 38
Données digitales explosent (les données scien;fiques aussi)
22/01/15 39
0 20 40 60 80 100 120 140 160 180 200
Facebook new content per year
Google index
Digital Health records
YouTube videos per year
LHC raw data per year
Clima;c Data Center database
Library of Congres Digital collec;on
Stock database
Tweeter
Cred
it: P. B
uncic, ECFA Worksho
p, 4 Oct. 2013
Pb
Les données digitales sont fragiles • En plus, la capacité de stockage est physiquement dépassée depuis longtemps
C.Diaconu 40
"Digital informa;on lasts forever -‐-‐ or five years, whichever comes first.” Jeff Rothenberg, RAND Corp.
« Big Scien;fic Data » • La recherche est « digitale »
– Augmenta;on drama;que de la quan;té/complexité des données
Telescope Collec;ng Area
BC72
E691 E665
E791 E831
NA48
ALEPH
RHIC
JLAB
ATLAS/CMS LHC 2012
Babar
H1
BELLE CDF D0
LHC Phase 1
LHC Phase 2
10
100
1000
10000
100000
1000000
10000000
100000000
1E+09
1E+10
1980 1990 2000 2010 2020 2030
C.Diaconu 41
Travail au sein de PREDON
HEP Data Mb
Est-‐ce que les données scien;fiques sont spéciales (« big » à part)?
• Riches en informa;on – structurées suivant un plan de recherche et une démarche scien;fique
• De plus en plus diverses – la plupart des disciplines produisent massivement des données
• Souvent produites avec des efforts financiers et humains significa;fs (voir gigantesques) – Plus ça coute cher, moins c’est reproduc;ble
• Englobent des connaissances uniques – « Time stamped »
• De plus en plus dans une logique « observatoire »: – Les données con;ennent plus que ce qu’on voulait au départ – Seulement l’informa;on décantée est publiée de suite
• PRESERVATION! C.Diaconu 42
Est-‐ce que ça vaut le coup de garder des données « anciennes »?
C.Diaconu 44
Fin acquisi;on
Fin collabora;on
« Scien1fic case »
Long Term Archiving and CCSDS standards Danièle Boucon, CNES
C.Diaconu 45
The primary objec;ve of the Producer-‐Archive Interface Specifica;on (PAIS) standard is to provide concrete XML files suppor;ng the descrip;on and the control of transfers from a Producer to an Archive.
Préserva;on, réu;lisa;on, libre-‐accès
à La préserva;on suppose la mise à disposi;on en accès libre à Maximiser le bénéfice
ß Le libre-‐accès facilite la préserva;on à long terme ß Elargir la communauté, mul;plier les connaissances
C.Diaconu 46
Préserva1on
La proprièté et les droits sur les données scien1fiques à long térme?