predon:(la(préserva1on(des(données( scienfiques · 2015-03-26 · le!cadre!de!recherche!ini; ......

48
PREDON: La préserva1on des données scien1fiques une mine d’or pour la science de demain C. Diaconu pour le groupe PREDON Centre de Physique des Par;cules de Marseille CNRS et Aix Marseille Université (AMU) predon.org

Upload: hoangnhu

Post on 15-Sep-2018

213 views

Category:

Documents


0 download

TRANSCRIPT

PREDON:  La  préserva1on  des  données  scien1fiques  

une  mine  d’or  pour  la  science  de  demain      

C.  Diaconu  pour  le  groupe  PREDON  Centre  de  Physique  des  Par;cules  de  Marseille    

CNRS  et  Aix  Marseille  Université  (AMU)  

predon.org  

Préambule  •  Les  données  scien;fiques  ont  un  poten;el  qui  dépasse  le  cadre  de  recherche  ini;al  et  qui  doit  être  exploité  à  long  terme  –  Preserva;on  <=>  Accés  ouvert  

•  La  préserva;on  de  données  scien;fique  est  économiquement  avantageuse:  –  Recherche  à  bas  cout  

•  Une  technologies  de  fron;ère  est  nécessaire  –  Préserva;on  de  toute  la  chaine  «  grise  »  –  Virtualisa;on,  cloud  compu;ng,  workflows….  

•  La  collabora;on  mul;-­‐disciplinaire  est  essen;elle  –  au  niveaux  na;onal  et  interna;onal  –  Projet  PREDON:  anima;on,  R&D,  architecture    

Données  Scien;fiques  

•  Publica;ons  •  Documenta;on  •  Donées  (brutes+processées)    •  Meta-­‐données  •  Workflows  •  So^ware  •  Diffuse  knowledge  ….more…  

C.Diaconu   3  Co

mplexité

,  cou

ts  

U;lité

 

Techno

logie,  

métho

dologie  

Organisa

;on  

Quel  modèle  de  préserva;on  pour  les  données  scien;fiques?  

Challenges  •  Préserver  les  «  octets  »    

–  Supports,  centres  de  données    –  Couts?    

•  2x  taille  ini;ale    (1+1/2+1/4+….)  •  Préserver  les  procédures  

–  Algorithmes,  workflows  etc.    –  So^ware:  complexe,  fragile  

•  Préserver  les  connaissances  –  Indexa;on,  metadata,  

standards,…(OAIS)  –  Documenta;on,  connaissances  –  Collabora;ons  à  long  terme    

 

C.Diaconu   4  

Generic  models  for  Data  Preserva;on  

•  Technology  preserva;on  

–  Freeze  the  hardware  :  limited  capability,  one  day  it  will  fall  

apart  however  

•   Technology  emula;on  

–  Based  on  virtualisa;on  –  Prepare  it  once  (?),  migrate  the  “middleware”  

•  Con;nuous  migra;on  

–  Follow  technology  changes  (adjust,  redesign,  recompile  etc….)  

–  Valida;on  plays  a  central  role    

 A  la  recherche  des  données  perdues?  

•  Le  plan  de  management  des  données  doit  prendre  en  compte  le  long  terme  

C.Diaconu   6  

"That's  not  a  pipe;  it's  an  image  of  a  pipe"  according  to  a  helpful  member  of  the  public.  It  turns  out  the  image  shows  the  power  entry  for  the  Big  European  Bubble  Chamber  (BEBC)  (Image:  CERN)  

Quand  faut-­‐il  commencer  à  préserver?  

C.Diaconu   7  

Projets  

Temps  

Prepara1on   Prise  de  données   Finalisa1on  Projet  A  

Preserva;on  des  données  

C.Diaconu   8  

Projets  

Temps  

Prepara1on   Prise  de  données   Finalisa1on  Projet  A  

Preserva;on  des  données  

Quand  faut-­‐il  commencer  à  préserver?  

Preserva;on  des  données  

«  Data  Management  Plan  »  doit  inclure  la  préserva1on  et  l’accès  à  long  tèrme  

Programme  cohérent  de  la  préserva;on  de  données  

Astrophysique:  Observatoires  Virtuels  

C.Diaconu   9  

hsp://www.ivoa.org  

Structura;on  dans  la  physique  des  par;cules  

•  DPHEP  «  Memorandum  of  understanding  »  signé  par  des  agences  de  financement:    

–  Suisse(CERN),  France,  Japon,  Finlande,  Allemagne,  Chine  •  CERN:  portal  «  open  data  »  pour  les  données  du  LHC  

C.Diaconu   10  

Formats,  workflows  et  préserva;on  

C.Diaconu   11  

Formats  de  données:  standards?    Similarité  entre  les  disciplines    Approche  théorique  rigoureuse  

 Besoin  et  opportunité  

Reconstruc*on+RAW+ Filtering+ESD+ Analysis+AOD+

HITS+

Simula*

on+

RDO+

Analysis+

ROOT+

ROOT+

Alice  Experiment  at  LHC  (CERN)  

Meteo  

=  

Animation Partenariat (MASTODONS)

Harmonisation R&D

Architecture, Pilotage

C.Diaconu   12  

•  Projet  dans  le  cadre  «  Mastodons/Big  Data  »  de  la  MI/CNRS  

PREDON  

Volume  données  

Complexité   Diversifica1on  des  sources  

Structura1on  au  niveau  interna1onal  

Algorithmes  et  methodologies  pour  la  preserva1on  

IN2P3  HEP  

+++   +++   +   ++   +  

INSU,  IRD  Astrophysics  Earth  Sciences  

++   ++   ++   +++   ++  

CINES  INS2I  IT,  Algorithms,  workflows  

+   ++   +++   +   +++  

hZp://predon.org    

Mul;disciplinarité,  complémentarité  

C.Diaconu   13  

0  0.5  1  

1.5  2  

2.5  3  

3.5  4  

4.5  5  

Quan;té/Infrastructure  

Complexité  

Diversité  

Traitement  Accès  

Re-­‐u;lisa;on  

Préserva;on  

Physique  des    Par-cules  

Astrophysique  

Ecologie  

0  

5  

10  

15  

20  

25  

30  

2011   2012   2013   2014  

Personnes  de  contact  PREDON  

Exemple  sur  3  domaines  Domaines:    physiques  des  par;cules,  astrophysique,  cristallographie,  sciences  de  la  terre,  informa;que,  écologie,  sciences  de  l’informa;on,  imagerie  médicale,  centres  de  calcul  et  stockage  

Ac;vité  PREDON  2014  •  Une  dizaine  de  téléconférences  téléphoniques  du  groupe    •  Finalisa;on  du  document  «  Scien;fic  Data  Preserva;on  2014»    

–  interview  dans  «  Lesre  Informa;que  de  l  ‘IN2P3    •  Organisa;on  du  workshop  satellite  «  Scien;fic  Data  Preserva;on  »  pour  une  demi-­‐journée  au  sein  

de  la  Conférence  interna;onale  «  Interna;onal  Conference  in  Data  Engineering  »,  Chicago,  USA.  •  Par;cipa;on  à  des  groupes  de  travail  :  

–  DIALOG’IST  :    groupe  de  travail  du  réseau  Mistral-­‐Doc  «  Les  bases  de  données  de  la  recherche  &  les  services  de  documenta;on  »,  Atelier  2  :  Les  bases  de  données  de  la  recherche  et  les  services  de  la  documenta;on  :  quelles  interac;ons  ?    hsp://mistral.cnrs.fr/spip.php?ar;cle380  

–  Contribu;on  au  colloque  «  Innova;on  et  Gouvernance  de  l'IST  »  à  Meudon  les  18  et  19  mars  2014    •  hsp://www.cnrs.fr/dist/z-­‐ou;ls/documents/MEUDON/Actes_colloque_18_03_2014.pdf    

–  iCUBE  :  Workshop  «  Défis  Big  Data  »    le  7  Novembre  2014:  •   hsp://icube-­‐web.unistra.fr/cssmd/index.php/Principaux_D%C3%A9fis  

–  GIS  SPADON  :  Presenta;on  le  16  Décembre  2014    •  hsp://www.lne.fr/fr/r_et_d/gis-­‐don/conserva;on-­‐donnees-­‐numeriques-­‐gis-­‐don.asp#exposes    

•  Organisa;on  du  workshop  «  PREDONx  2014  »  à  l’APC,  Univ.  Paris  VII,  4-­‐6  Novembre  2014  :  hsps://indico.cern.ch/event/338461/      

–  Nouveaux  contacts  dans  le  domaine  de  l’imagerie  médicale,  centre  de  données  de  Strasbourg  CDS,  techniques  de  cloud  pour  la  préserva;on  de  données,  GIS  SPADON).  

•  Démarrage  d’un  mini-­‐projet  d’interface  de  données  de  physique  de  haute  énergie  au  sein  d’un  projet  générique  au  CINES  ainsi  qu’une  réflexion  sur  l’u;lisa;on  des  ou;ls  d’analyse  de  l’astrophysique  pour  la  physique  des  hautes  énergies.    

C.Diaconu   14  

Document  PREDON  2014  

C.Diaconu   15  

»  hsp://informa;que.in2p3.fr/li/?page=lesre&numero=27    

Scien;fic  Case  

Methodologies  

Technologies  

«  PREDONx  2014  »  à  l’APC,  Paris    5-­‐6  Novembre  2014    

•  Revue  des  ac;vités  en  cours  •  Nouveaux  contacts  dans  le  domaine  de  l’imagerie  médicale,  

centre  de  données  de  Strasbourg  CDS,  techniques  de  cloud  pour  la  préserva;on  de  données,  GIS  SPADON  

•  Plan  de  travail  2015  et  au  délà  

C.Diaconu   16  

SPADON  

•  Les  supports  pour  l’archivage  «  passif  »  à  long  terme  –   Etudes  de  vieillissement  et  

préconisa;on  des  supports  à  longue  durée  de  vie  

–  Caractérisa;on  chimique  du  vieillissement!  

–  Rapport  PSN  des  académies  

C.Diaconu   17  

Nouveau    Contact    2014  

"Life  Imaging:  between  progress  and  freedoms  »    USPC  project  

•  Anima;ng  a  mul;disciplinary  network  research  bringing  together  colleagues  and  teams  working  on  the  genera;on  /  acquisi;on  of  biomedical  images  and  their  exploita;on;  

•  Crea;ng  an  environment  dedicated  to  the  exploita;on  of  large  amounts  of  generated  images  (big  data)  for  the  development  of  new  imaging  biomarker;  

•  A  reflec;on  on  the  problems  raised  by  ethical  and  legal  image  exploita;on  in  life  imaging;  

•  About  190  persons  are  involved  

C.Diaconu   18  

PREDON  :  Par;cipa;on    à  la  reflec;on  

C.  Cerin  (LIPN)  

IndexMED  

•  Organisa;on  d’un  workshop  IndexMED-­‐PREDON  en  mars  2015  

C.Diaconu   19  

Nouveau    Contact    2014  

Romain  David    Objec1f  principal  :    Développer  la  culture  des  bases  de  données  et  leur    u;lisa;on  efficace  dans  le  milieu  de  la  recherche  en  écologie  et  biodiversité.  

Imagerie  Cellulaire  et  le  Big  Data  

•  Un  poten;el  important  de  coopéra;on:  –  Structura;on,  méthodes,  technologies        

C.Diaconu   20  

Nouveau    Contact    2014  

P.  Bourdoncle  

Préserva;on  de  données  et  virtualisa;on  

C.Diaconu   21  

C.  Loomis  hsp://indico2.lal.in2p3.fr/indico/getFile.py/access?contribId=0&resId=  0&materialId=slides&confId=1897  

Préserva;on  de  données  dans  le  «  cloud  »?  

C.Diaconu   22  

Exemple:  StratusLab      (hsp://stratuslab.eu/index.html)  End-­‐user  client  MarketPlace  (OS  collec1on)  Persistent  disk  Web  interface  Ressource  monitoring  

C.  Cavet  «  Cloud  technology  for  algorithm  preserva;on  »  PREDON  workshop  APC  4-­‐6  Nov,  2014  

Disk  images  have  6  months  of  validity  OS    update/upgrade  for  security.    Virtualisa;on/cloud  need  to  be    tuned  for  long  term  

Open  Archive  Informa;on  System  OAIS  

•  OAIS  =  Modèle  conceptuel  et  fonc;onnel  des;né  à  la  ges;on,    l'archivage  et  à  la  préserva;on  à  long  terme  de  documents  numériques.  –  Définit  les  acteurs/responsabilités  dans  le  SI  :    

•  producteur/u;lisateur/manager  –  Définit  les  flux  d'informa;ons  

•  →  les  paquets  OAIS  :  SIP  (en  entrée),  AIP  (archives),  DIP  (diffusion)  –  Définit  des  normes/recommanda;ons  «  ouvertes  »  

•  exemple  :  modalités  de  versements  des  données  

C.Diaconu   23  

Centre  de  données  de  Strasbourg  

C.Diaconu   24  

1,000,000  requetes/jour    sur  les  services  du  CDS.  

Nouveau    Contact    2014  

Projets  CINES  

C.Diaconu   25  

EUDAT  •   EUDAT  will  focus  on  building  this  generic  data  infrastructure  layer  and  offer  a  

trusted  domain  for  long  term  data  preserva;on  accompanied  with  related  services  to  store,  iden;fy,  authen;cate  and  mine  these  data.    

•  Close  collabora;on  with  the  Communi;es.    –  Core  services  must  match  the  requirements  of  the  communi;es.      –  Community  services  can  also  be  incorporated  into  the  common  data  serviceinfrastructure  

when  they  are  of  use  to  other  communi;es.  

C.Diaconu   26  

Objec;fs  2015  

•  Pistes  possibles  pour  la  mise  en  place  de  plusieurs  sujets  de  recherche  :  –  Travail  sur  un  système  d’analyse  de  données  intégré  entre  les  ou;ls  d’astrophysique  et  les  données  du  LHC.    

–  Etude  sur  la  mise  à  disposi;on  sur  un  cloud  scien1fique  d’un  système  sécurisé  de  préserva1on  de  données.  

–  Coopéra;on  renforcée  avec  le  travail  de  prospec;ve  de  la  DIST  (hsp://www.cnrs.fr/dist/PAP3.html)  

•  2-­‐3  stages  M2  pour  ini;er  ces  sujets  

C.Diaconu   27  

Data  Format  «  Toy  »  

C.Diaconu   28  

Visualisa;on  ATLAS  

Texte  

Data  ATLAS  Visualisa;on  topcat  

                                 VOTABLE                  

Objec;fs  2015  

•  Par;cipa;on  à  l’organisa;on  du  workshop  interna;onal  HPDIC’2015.  La  coopéra;on  est  déjà  in  place  avec  un  nouveau  sujet  sur  la  préserva;on  des  données.  

C.Diaconu   29  

Objec;fs  2015    

«  Scien;fic  Data  Preserva;on  2015  »  –  Edi;on  2014  très  appréciée  –  Mise  en  perspec;ve  unique  sur  le  sujet  –  En  cours  d’édi;on,  sor;e  prévues  mars  2015  –  Evolu;on  vers  un  «  journal  »  ?  

C.Diaconu   30  

•"Scientific"Case"Préservation,de,données,en,imagérie,médicale,,Données,de,recherche,en,Physique,du,Globe,,OPEN,DATA,project,at,LHC,and,CERN,Préservation,de,données,dans,le,contexte,IndexMed,,A"provenance+based"approach"to"manage"long"term"preservation"of"scientific"data.(Proposal)",•"Methodologie"Pérennisation,des,données,au,CDS,(Centre,de,données,astronomiques,de,Strasbourg),

PDS4:"A"Model+Driven"Planetary"Science"Data"Architecture"for"Long+Term"(NASA"Proposition)."CrEDIBLE"+"fédération"de"données"et"de"ConnaissancEs"Distribuées"en"Imagerie"BiomédicaLE"(Proposition)"Strategies"around"Big"Research"Data"(Proposition)""•"Technologie"Cloud,technology,for,algorithms,preservation,,Le,pôle,de,recherche,sur,la,conservation,des,données,numériques,Le,projet,pluriLdisciplinaire,IDV,(Imagerie,du,vivant),de,l’Université,Sorbonne,Paris,Cité,et,quelques,réflexions,/,méthodologies,liées,aux,données,,

EUDAT,,,

Objec;fs  2015  

•  Coopéra;on  avec  des  projets  de  type  «  Big  Data  »,  en  par;culier  au  sein  du  GIP  «  Big  Data  »  qui  sera  ini;é  en  2015.    

•  Un  workshop  en  coopéra;on  avec  les  projet  IndexMed  en  mars  2015  

•  Par;cipa;on  à  l’organisa;on  du  workshop  interna;onal  HPDIC’2015.    

•  PREDONx  2015  réunion  annuelle  fin  2015.  

•  Réflexion  pour  la  cons;tu;on  d’un  «  Observatoire  des  données  scien;fiques  »    –  consolider  le  patrimoine  des  données  scien;fiques  à  long  terme.    

C.Diaconu   31  

C.Diaconu   32  

backup  

Perspec;ves  

•  Développer  les  connexions,  réunions  de  travail  •  Document  «  SDP2015  »  •  Workshop  PREDONx  2015  (automne  2015)  •  Sujets  de  recherche:  formats  •  Observatoire  de  données  scien;fiques    

C.Diaconu   33  

Physique  des  Par;cules  Préserva;on  d’un  système  d’accès    et  calcul  à  des  données  complexes  Basé  sur  une  ferme  virtuelle  (SLAC/Stanford  USA)  

Système  de  préserva;on  et  migra;on  Virtualisa;on,  valida1on  intensive    (DESY,  Hambourg,  Allemagne)  

   C.Diaconu   34  

dphep.org  

>  Organisa1on  interna1onale    MoU  signé  en  juillet  2014  

hsp://dphep.org  

Crystallography  Open  Databases  and  Preserva;on:  a  World-­‐Wide  Ini;a;ve  

 

PCOD  

 sisters  

Daniel  Chateigner  (for  the  COD  Advisory  Board)    

0

50000

100000

150000

200000

250000

300000

mar

s-03

mar

s-05

mar

s-07

mar

s-09

mar

s-11

mar

s-13

Nb entries

“…there  is  not  yet  sufficient  coherence  of  experimental  metadata  standards  or  na;onal  policy  to  rely  on  instrumental  facili;es  to  act  as  permanent  archives;    -­‐there  is  not  sufficient  funding  for  exis;ng  crystallographic  database  organisa;ons  (which  maintain  curated  archives  of  processed  experimental  data  and  derived  structural  data  sets)  to  act  as  centralised  stores  of  raw  data,  although  they  could  effec;vely  act  as  centralised  metadata  catalogues;    -­‐few  ins1tu1onal  data  repositories  yet  have  the  exper;se  or  resources  to  store  the  large  quan;;es  of  data  involved  with  the  appropriate  level  of  discoverability  and  linking  to  derived  publica;ons.”  

C.Diaconu   35  

Seismic  Data  Preserva;on    

Conclusion  Preserva1on  of  seismic  data  is  essen1al,  but  usually  not  considered  by  scien1sts,  because  it  takes  resources  to  document  metadata,  to  read  and  copy  tapes,  to  convert  formats,  etc.  These  tasks  should  be  addressed  at  na;onal  and/or  European  level.  Some  European  projects  (Seiscan/Seiscanex,  Geo-­‐Seas)  demonstrated  that  it  is  possible  and  useful.  Repositories  at  na;onal  level  should  pursue  this  task  with  geophysical  skills.  

Marc  SCHAMING,  Ins;tut  de  Physique  du  Globe  (CNRS/UNISTRA),  Strasbourg    

C.Diaconu   36  

Formats,  workflows  et  préserva;on  

C.Diaconu   37  

Formats  de  données:  standards?    Similarité  entre  les  disciplines    Approche  théorique  rigoureuse  

 Besoin  et  opportunité  

Reconstruc*on+RAW+ Filtering+ESD+ Analysis+AOD+

HITS+

Simula*

on+

RDO+

Analysis+

ROOT+

ROOT+

Alice  Experiment  at  LHC  (CERN)  

Meteo  

=  

à   Archivage  de  données          scien;fiques  pour    des  communautés  européennes  structurées  

à  Archivage  à  long  terme  de  données    scien;fiques,  patrimoniales,                administra;ves  

à   Archivage  intermédiaire  de                données  scien;fiques  

Assurance  qualité  OAIS  

Compétences  archivis;ques  Exper;se  formats  Processus  mé;er  Ges;on  des  risques  

     

PAC  

ISAAC   EUDAT  

Les  services  d’archivage  au  CINES  

Exper;se  au  CINES  

C.Diaconu   38  

Données  digitales  explosent    (les  données  scien;fiques  aussi)  

22/01/15   39  

0   20   40   60   80   100   120   140   160   180   200  

Facebook  new  content  per  year  

Google  index  

Digital  Health  records  

YouTube  videos  per  year  

LHC  raw  data  per  year  

Clima;c  Data  Center  database  

Library  of  Congres  Digital  collec;on  

Stock  database  

Tweeter  

Cred

it:  P.  B

uncic,  ECFA  Worksho

p,  4  Oct.  2013  

Pb  

Les  données  digitales  sont  fragiles  •  En  plus,  la  capacité  de  stockage  est  physiquement  dépassée  depuis  longtemps    

C.Diaconu   40  

"Digital  informa;on  lasts  forever  -­‐-­‐  or  five  years,  whichever  comes  first.”  Jeff  Rothenberg,  RAND  Corp.    

«  Big  Scien;fic  Data  »    •  La  recherche  est  «  digitale  »  

–  Augmenta;on  drama;que  de  la  quan;té/complexité  des  données  

Telescope  Collec;ng  Area  

BC72  

E691  E665  

E791  E831  

NA48  

ALEPH  

RHIC  

JLAB  

ATLAS/CMS    LHC  2012  

Babar  

H1  

BELLE  CDF  D0  

LHC  Phase  1  

LHC  Phase  2  

10  

100  

1000  

10000  

100000  

1000000  

10000000  

100000000  

1E+09  

1E+10  

1980   1990   2000   2010   2020   2030  

C.Diaconu   41  

Travail  au  sein  de  PREDON  

HEP  Data  Mb  

Est-­‐ce  que  les  données  scien;fiques  sont  spéciales  («  big  »  à  part)?  

•  Riches  en  informa;on  –  structurées  suivant  un  plan  de  recherche  et  une  démarche  scien;fique  

•  De  plus  en  plus  diverses  –  la  plupart  des  disciplines  produisent  massivement  des  données  

•  Souvent  produites  avec  des  efforts  financiers  et  humains  significa;fs  (voir  gigantesques)  –  Plus  ça  coute  cher,  moins  c’est  reproduc;ble  

•  Englobent  des  connaissances  uniques  –  «  Time  stamped  »      

•  De  plus  en  plus  dans  une  logique  «  observatoire  »:  –  Les  données  con;ennent  plus  que  ce  qu’on  voulait  au  départ  –  Seulement  l’informa;on  décantée  est  publiée  de  suite  

•  PRESERVATION!     C.Diaconu   42  

43  

Study  over  516  ecology  papers  published  between  1991  and  2011.  

Est-­‐ce  que  ça  vaut  le  coup  de  garder  des  données  «  anciennes  »?  

C.Diaconu   44  

Fin    acquisi;on  

Fin    collabora;on  

«  Scien1fic  case  »  

Long  Term  Archiving  and  CCSDS  standards                  Danièle  Boucon,  CNES    

C.Diaconu   45  

The  primary  objec;ve  of  the  Producer-­‐Archive  Interface  Specifica;on  (PAIS)  standard  is  to  provide  concrete  XML  files  suppor;ng  the  descrip;on  and  the  control  of  transfers  from  a  Producer  to  an  Archive.  

Préserva;on,  réu;lisa;on,  libre-­‐accès  

à  La  préserva;on  suppose  la  mise  à  disposi;on  en  accès  libre  à Maximiser  le  bénéfice  

ß  Le  libre-­‐accès  facilite  la  préserva;on  à  long  terme  ß Elargir  la  communauté,  mul;plier  les  connaissances  

C.Diaconu   46  

Préserva1on  

La  proprièté  et  les  droits  sur  les  données  scien1fiques  à  long  térme?  

Preserva;on  complexity  levels  and  access  rights  

Organisa;on  et  ressources  

Data  Archiviste  

The  specific  costs  around  1%  of  the  project  Scien;fic  outcome  around  10%  more  papers  

ORG

ANISAT

ION  

RESSOURC

ES