livre blanc sur les données au cnrs État des lieux et

81
Livre Blanc sur les Données au CNRS État des Lieux et Pratiques Mission Calcul et données (MiCaDo) Janvier 2018

Upload: others

Post on 20-Jun-2022

1 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Livre Blanc sur les Données au CNRS État des Lieux et

Livre Blanc sur les Donneacutees au CNRSEacutetat des Lieux et Pratiques

Mission Calcul et donneacutees (MiCaDo)

Janvier 2018

Livre Blanc sur les donneacutees au CNRS

Eacutetat des lieux et pratiques

Bilan perspectives et recommandations

Mission laquo Calcul Donneacutees raquo MICADO

Comiteacute dOrientation pour le Calcul INtensif (COCIN)Janvier 2018

Preacutesident du Comiteacute Directeur de la mission laquo Calcul Donneacutees raquo au CNRS Denis Veynante

Comiteacute de Pilotage de la mission MICADO Comiteacute dOrientation pour le Calcul INtensif (COCIN)

Membres du COCIN au 1er janvier 2018

Michel Bidoit (INS2I) Preacutesident du COCIN

Michel Daydeacute (INS2I) Directeur du COCIN

Pierre-Etienne Macchi (CC- IN2P3)

Denis Girou (IDRIS)

Daniel Borgis (INC)

Sylvain Lamare (INEE)

Laurent Lellouch (INP)

Claudine Meacutedigue (INSB)

Alexandre Gefen (INSHS)

Fabien Godeferd (INSIS)

Virginie Bonnaillie-Noeumll puis Christophe Berthon (INSMI) agrave compter de septembre 2017

Olivier Porte (DSI) jusqursquoagrave novembre 2017

Jean-Pierre Vilotte (INSU)

Volker Beckmann(IN2P3)

Relecture et mise en forme initiale Catherine Blanc (IRIT)

Mise en forme du document final Victor Haumesser-Savio (CNRS)

SOMMAIRE

LES DONNEacuteES AU CNRS SYNTHEgraveSE 7

RECOMMANDATIONS 11

1 INTRODUCTION 15

2 LES DONNEacuteES AU SEIN DES INSTITUTS DU CNRS

21 INSTITUT DE CHIMIE ( INC ) 18

22 INSTITUT ECOLOGIE ET ENVIRONNEMENT ( INEE ) 21

23 INSTITUT DE PHYSIQUE ( INP ) 26

24 INSTITUT DES SCIENCES BIOLOGIQUES ( INSB ) 35

25 INSTITUT DES SCIENCES HUMAINES ET SOCIALES ( INSHS ) 40

26 INSTITUT DES SCIENCES DE LrsquoINGENIERIE ET DES SYSTEMES ( INSIS ) 45

27 INSTITUT NATIONAL DES SCIENCES MATHEMATIQUES ET DE LEURS INTERACTIONS ( INSMI ) 49

28 INSTITUT DES SCIENCES DE LrsquoUNIVERS ( INSU ) 52

29 INSTITUT DES SCIENCES DE LrsquoINFORMATION ET DE LEURS INTERACTIONS ( INS2I ) 62

210 INSTITUT NATIONAL DE PHYSIQUE NUCLEAIRE ET DE PHYSIQUE DES PARTICULES ( IN2P3 ) 68

3 LES DONNEacuteES AU SEIN DES CENTRES NATIONAUX DU CNRS 72

31 LE CC-IN2P3 72

32 LrsquoIDRIS 76

4 LES DONNEacuteES AU SEIN DES STRUCTURES SOUTENUES PAR MICADO 81

41 INTRODUCTION 81

42 CALMIP 81

43 GRICAD 82

5 CONCLUSION 85

Livre Blanc sur les Donneacutees au CNRS Eacutetat des Lieux et Pratiques - 2018

1 Lrsquoorganisation la gestion et lrsquoexploitation scientifique des donneacutees1 dont les volumes les vitesses et la diversiteacute ne cessent de croitre sont devenues aujourdrsquohui un enjeu majeur pour la production de nouvelles connaissances et deacutecouvertes scientifiques Elles sont cruciales pour de nombreuses applications deacuteriveacutees agrave fort impact socieacutetal ( changements climatiques et environnementaux biologie santeacute villes et transports intelligentshellip ) eacuteconomique ( p ex nouvelles ressources eacutenergeacutetiques finance compeacutetitiviteacute industrielle ) et eacutethique ( santeacute biologie sciences humaines et socialeshellip ) Combineacute agrave lrsquoIntelligence Artificielle ( IA ) le Big Data est eacutegalement devenu un enjeu pour les systegravemes de surveillance et drsquoaide agrave la deacutecision ( preacutevision des aleacuteas naturels et preacutevention des risques associeacutes eacutepideacutemiologie deacuteveloppement durablehellip )

2 Le Big Data concerne aujourdrsquohui lrsquoensemble des instituts et des communauteacutes scientifiques du CNRS Sa prise en compte dans les pratiques de recherche et dans lrsquoorganisation des communauteacutes varie selon les instituts du CNRS avec

bull Des instituts dont les pratiques de recherche sont fortement structureacutees agrave lrsquoeacutechelle reacutegionale nationale et internationale autour de la production du traitement de lrsquoarchivage et de la curation de lrsquoanalyse et la valorisation scientifique de gros volumes de donneacutees avec des infrastructures feacutedeacutereacutees et via un stewardship des donneacutees bien eacutetabli ( IN2P3 INSU INSB INSHS )

bull Des instituts qui se structurent aujourdrsquohui afin de reacutepondre aux besoins eacutemergeants associeacutes agrave lrsquoaugmentation des volumes et de la diversiteacute de leurs donneacutees dans les pratiques de recherche ( INEE )

bull Des instituts pour qui en dehors de certaines TGIR par exemple la prise en compte de la probleacutematique des donneacutees reste encore embryonnaire mecircme si

1 Les donneacutees srsquoentendent ici comme toute information codeacutee numeacuteriquement qui peut ecirctre stockeacutee transmise comprise et trai-teacutee par des ordinateurs Elles incluent par exemple les donneacutees geacuteneacutereacutees par des grands instruments scientifiques des systegravemes drsquoobservation des faciliteacutes expeacuterimentales des laboratoires de diagnostic des reacuteseaux de capteurs distribueacutes ( en milieux naturels ou urbains ) des simulations numeacuteriques des reacuteseaux de com-munications et sociaux ainsi que des collections archiveacutees et organiseacutees de nouveaux objets digitaux associeacutes aux reacutesultats de la recherche et agrave la numeacuterisation de collections de bibliothegraveques et de museacutees

les choses devraient rapidement eacutevoluer dans un contexte de compeacutetitiviteacute internationale en raison de lrsquoimportance croissante des donneacutees dans leurs pratiques de recherche ( INC INP INSIS )

bull Des instituts pour lesquels la donneacutee et les meacutethodes drsquoanalyse de donneacutees sont en soi un objet de recherche ( INSMI et INS2I )

bull Des besoins et des pratiques relatifs aux donneacutees tregraves lieacutes aux communauteacutes scientifiques et pouvant mecircme varier drsquoun pays agrave lrsquoautre au sein drsquoune mecircme communauteacute scientifique ( pex base de donneacutees du CoE NOMAD ) La reacuteflexion sur les donneacutees est parfois loin drsquoecirctre mature dans certaines communauteacutes

3 Les flux de donneacutees ( volume veacutelociteacute diversiteacute ) explosent Ils sont engendreacutes aujourdrsquohui au sein

bull drsquoenvironnements centraliseacutes ( c-agrave-d HPC et Cloud ) qui concentrent des ressources de pointe ( stockage calcul communication ) au sein de grands ensembles de simulations numeacuteriques

bull et drsquoenvironnements peacuteripheacuteriques ou reculeacutes ougrave ces ressources sont rares par exemple les grands instruments ( collisionneurs et acceacuteleacuterateurs ) et reacuteseaux drsquoobservation ( sol mer air spatial ) les reacuteseaux de capteurs lrsquointernet des objets

4 La logistique des donneacutees la neacutecessiteacute de redistribuer de grands jeux de donneacutees depuis les environnements centraliseacutes vers la peacuteripheacuterie durant leur cycle de vie fait deacutesormais de la logistique des donneacutees ( c-agrave-d positionnement encodage agencement des donneacutees au cours du temps transmission archivage et distribution des ressources et des services disponibles ) un des principaux deacutefis La reacuteduction laquo intelligente raquo2 des donneacutees tout au long de leur mouvement de leur traitement et de leur analyse est commune agrave tous les environnements de production

2 Processus neacutecessitant de deacuteplacer laquo lrsquointelligence raquo au plus proche de leurs sources ( centraliseacutees ou peacuteripheacuteriques ) afin de traiter et reacuteduire ces flux en continu au cours de leur transport et de leur analyse au travers drsquoun reacuteseau ( statique ou dynamique ) de res-sources ( calcul stockage ) et de services distribueacutes caracteacuteriseacute par un continuum de bandes passantes heacuteteacuterogegravenes

LES DONNEacuteES AU CNRS SYNTHEgraveSE

4

Livre Blanc sur les Donneacutees au CNRS Eacutetat des Lieux et Pratiques - 2018

5 Stewardship des donneacutees un autre deacutefi critique est lrsquoorganisation des communauteacutes ( c-agrave-d stewardship ) et des ressources autour des donneacutees en phase avec leurs pratiques de recherche pour lrsquoarchivage et la curation des donneacutees Cela recouvre une varieacuteteacute drsquoactiviteacutes dont

bull Lrsquointeacutegration lrsquoagreacutegation le traitement et la calibration lrsquoarchivage et le reacutefeacuterencement la curation la documentation la publication des donneacutees ainsi que leur diffusion rapide eacuteventuellement apregraves une courte peacuteriode drsquoexclusiviteacute agrave lrsquoensemble de la communauteacute afin drsquoen maximiser le retour scientifique

bull La deacutefinition de standards reconnus et partageacutes de repreacutesentation et drsquoeacutechanges de donneacutees des services ( deacutecouverte accegraves manipulation visualisation ) ainsi que des protocoles de controcircle de qualiteacute et de veacuteraciteacute des donneacutees

bull Lrsquoexistence de plateformes drsquoarchivage et de curation des donneacutees mutualisant expertises ressources ( stockage calcul ) et services sur le cycle de vie des donneacutees qui pour certaines disciplines va bien au-delagrave de la dureacutee de vie des instruments systegravemes drsquoobservation et faciliteacutes expeacuterimentales

bull Et selon les communauteacutes la mise agrave disposition et la maintenance de logiciels et de librairies de reacutefeacuterence et de nouveaux objets associant donneacutees et reacutesultats de recherche ( annotations publications )

6 Interdisciplinariteacute et donneacutees multi-source la maicirctrise de tous les aspects du Big Data relegraveve drsquoune deacutemarche fondamentalement interdisciplinaire En effet un nombre croissant drsquoenjeux scientifiques impliquent aujourdrsquohui une compreacutehension preacutedictive drsquoun mecircme objet ou systegraveme ( p ex astronomie climat geacuteophysique surveillance des aleacuteas naturels et changements environnementaux physique des hautes eacutenergies sciences des mateacuteriaux bio-meacutedecine biologie sciences eacuteconomiques et sociales ) Ces approches interdisciplinaires requiegraverent des systegravemes drsquoinformation permettant la deacutecouverte et lrsquoaccegraves fluide agrave des donneacutees multi-types et multi-sources issues de domaines et de systegravemes drsquoacquisition diffeacuterents accompagneacutes drsquooutils laquo translationnels raquo pour les combiner les croiser et les syntheacutetiser au sein de chaicircnes de traitement et drsquoanalyse souvent coupleacutees agrave des simulations numeacuteriques Deacutecouvrir et acceacuteder agrave ces donneacutees ainsi qursquoaux ressources et services associeacutes demande une harmonisation ( agrave travers diffeacuterentes disciplines ) et une standardisation ( au sein des disciplines ) des modegraveles de donneacutees

7 Convergence HPC et HDA au-delagrave de la diversiteacute des applications scientifiques exploitant les donneacutees de nombreuses communauteacutes scientifiques combinent et orchestrent aujourdrsquohui des applications drsquoanalyse de pointe ( HDA pour High-end Data Analysis ) et de calcul haute performance ( HPC pour High-Performance Computing ) combineacutees de plus en plus agrave des meacutethodes drsquoapprentissage machine au sein de larges workflows piloteacutes par les donneacutees A chacune de leurs eacutetapes ces workflows requiegraverent souvent drsquoacceacuteder manipuler et combiner de maniegravere coordonneacutee de larges volumes et une grande diversiteacute de donneacutees multi-sources geacuteneacutereacutees par les observations les expeacuteriences et les simulations Ces workflows ne sont pas des outils logiciels ou des codes applicatifs isoleacutes mais des configurations complexes et variables de flux de donneacutees et de logiciels mobilisant des ressources de calcul hybrides ( HTC pour High-Throughput Computing et HPC avec une utilisation croissante des GPUs ) et de stockage ( bases de donneacutees systegravemes de fichiers parallegraveles stockage de type objet ) dans des environnements drsquoexeacutecution ( en flux et par lots ) supportant les nouvelles technologies de virtualisation ( conteneurisation )

8 Une nouvelle strateacutegie et architecture agrave mesure que le HDA et le HPC continueront agrave se deacutevelopper il semble clair que les systegravemes centraliseacutes ( c-agrave-d centres HPC et systegravemes Cloud ) et deacutecentraliseacutes ( plateformes distribueacutees de services ) doivent ecirctre inteacutegreacutesfeacutedeacutereacutes au sein drsquoun reacuteseau de ressources et de services adressant la complexiteacute et la diversiteacute de la logistique des donneacutees tout au long des chaicircnes de production et drsquoutilisation des donneacutees Cela requiert une nouvelle strateacutegie ( meacutethodologique technologique et culturelle ) et une nouvelle architecture avec de nouveaux enjeux logiciels afin drsquointerfacer et drsquointeropeacuterer une diversiteacute de plateformes technologiques incluant

bull Plateformes peacuteripheacuteriques de traitement et de reacuteduction des donneacutees ( c-agrave-d edge-infrastructures ) permettant le traitement lrsquoagreacutegation et la reacuteduction laquo intelligente raquo des flux ( volumes vitesses ) au plus proche de leurs sources ( grands instruments systegravemes drsquoobservations reacuteseaux de capteurshellip ) dans des environnements souvent reculeacutes ainsi que le pilotage adaptatif de leurs systegravemes drsquoacquisition

bull Plateformes de services de calcul et drsquoanalyse de donneacutees distribueacutees et feacutedeacutereacutees mutualisant dans des environnements multi-utilisateur et multi-application des services flexibles de communication de logiciel de stockage de calcul ( HDA HPC ) drsquoexeacutecution ( flux lots ) adapteacutes au

5

Livre Blanc sur les Donneacutees au CNRS Eacutetat des Lieux et Pratiques - 2018

Big Data ( p ex Spark Storm ) et aux nouvelles technologies de virtualisation ainsi qursquoagrave lrsquoutilisation croissante de meacutethodes de type statistique et apprentissage machine avec des flux de traitement et drsquoanalyse proches des vitesses drsquoaccegraves aux donneacutees

bull Plateformes centraliseacutees de type HPC et Cloud crsquoest-agrave-dire agrave lrsquoeacutechelle des grands centres nationaux et reacutegionaux Elles concentrent des ressources de tregraves haute performance dont lrsquoutilisation doit ecirctre maximiseacutee pour servir des communauteacutes multiples avec de nouveaux environnements ( p ex OpenHPC ) permettant de supporter les technologies de virtualisation et adapteacutes agrave des configurations complexes de workflows couplant HPC et HDA ainsi que lrsquoutilisation croissante des meacutethodes de type Intelligence Artificielle ( pour lrsquoanalyse de donneacutees la repreacutesentation des connaissances et lrsquoaide agrave la deacutecision ) grands ensembles de simulations numeacuteriques coupleacutees ingestion et assimilation de grands jeux de donneacutees multi-source

bull Plateformes feacutedeacutereacutees drsquoarchivage de curation et de distribution des donneacutees mutualisant ressources services et expertises pour le stockage la curation et la mise agrave disposition de donneacutees durant leur cycle de vie et dont les volumes et la diversiteacute impliquent aujourdrsquohui des capaciteacutes croissantes de stockage et de calcul

9 Efficience eacutenergeacutetique lrsquoefficience eacutenergeacutetique est aujourdrsquohui un deacutefi transversal majeur Le mouvement et le traitement des donneacutees et des informations ont un coucirct dont la reacuteduction passe notamment par ( i ) lrsquoutilisation de plateformes ( HPC calcul et analyse ) ( ii ) eacuteviter des reacutepeacutetitions inutiles de transferts ( cachingbufferisation ) et les optimiser ( pre-fetching compression ) ( iii ) reacuteduire les distances et mutualiser les environnements drsquoheacutebergement ( colocalisation des plateformes drsquoarchivage et de curation et des plateformes de calcul et drsquoanalyse des donneacutees ) ( iv ) faciliter la reacuteutilisation des calculs et des donneacutees au sein et entre domaines ( observations et reacutesultats de simulations meacutetadonneacutees catalogues )

10 Nouvelles expertises et activiteacutes maitriser les enjeux associeacutes aux donneacutees et accompagner toutes ces eacutevolutions requiert aujourdrsquohui drsquoassocier raisonnement scientifique et innovation technologique au travers de nouvelles expertises ( Chercheurs ITA ) et de collaborations interdisciplinaires entre les diffeacuterents domaines applicatifs les sciences des donneacutees la recherche informatique et les deacuteveloppeurs et fournisseurs drsquoinfrastructures Ces diffeacuterents enjeux

requiegraverent eacutegalement un ensemble drsquoactiviteacutes ainsi que des nouvelles plateformes technologiques ( stockage calcul communication ) complexes agrave geacuterer qui constituent des tacircches lourdes et coucircteuses en effort humain Le deacuteficit drsquoexpertise de moyens humains et de reconnaissance de ces nouvelles activiteacutes que lrsquoon constate dans de nombreux domaines freine lrsquoorganisation des communauteacutes scientifiques et le deacuteveloppement de nouvelles pratiques de recherche et in fine peacutenalise la production scientifique

11 Contexte interne au CNRS le CNRS et ses diffeacuterents Instituts constituent un contexte scientifique et technologique particuliegraverement favorable agrave une maicirctrise des probleacutematiques autour des donneacutees avec des instituts producteurs de donneacutees et des instituts pour lesquels les donneacutees sont des objets de recherche des pratiques interdisciplinaires bien eacutetablies ( coopeacuterations inter-instituts Mission pour lrsquoInterdisciplinariteacute avec en particulier le deacutefi MASTODONS3 lrsquoINIST et des initiatives comme Cat OpiDor4hellip ) ainsi que deux centres nationaux nationalement et internationalement reconnus dans les domaines du HPC ( IDRIS ) et de la gestion et de lrsquoanalyse de donneacutees massives ( CC-IN2P3 )

12 On constate dans tous les domaines des besoins eacutevidents en

bull Plateformes pour lrsquoanalyse de donneacutees agrave grande eacutechelle avec les probleacutematiques du stockage de la gestion et de la valorisation de ces donneacutees

bull Support pour les utilisateurs

bull Data scientists ( chercheurs ou ingeacutenieurs compeacute-tents en analyse de donneacutees )

bull Deacuteploiement de chaicircnes logicielles drsquoanalyse de donneacutees qui passent agrave lrsquoeacutechelle

3 Grandes masses de donneacutees scientifiques ( httpwwwcnrsfrmispipphparticle53 )4 Catalogue des services franccedilais deacutedieacutes aux donneacutees scientifiques ( httpscatopidorfr )

SYNTHESE

6

Livre Blanc sur les Donneacutees au CNRS Eacutetat des Lieux et Pratiques - 2018

bull Effort interdisciplinaire entre les communauteacutes produisant des donneacutees et les communauteacutes dont crsquoest lrsquoobjet de recherche

bull Valorisation et peacuterennisation des donneacutees beau-coup de donneacutees sont creacuteeacutees pour un besoin preacutecis puis in fine perdues alors qursquoelles pourraient parfois ecirctre reacuteutiliseacutees ( expeacuteriences comme simulations ) ce qui suppose la promotion des pratiques autour de lrsquoarchivage lrsquoindexation la mise agrave disposition etc

bull Deacutefinitions de plans de gestion des donneacutees ( DMP Data Management Plan ) loin drsquoecirctre geacuteneacuterali-seacutes aujourdrsquohui

13 Accompagner de maniegravere efficace toutes ces eacutevolutions requiert donc de multiples efforts dont

bull Le deacuteploiement de plateformes drsquoanalyse de donneacutees performantes le rapprochement entre les communauteacutes HTC et HPC le deacuteveloppement de lrsquoactiviteacute et des compeacutetences autour de lrsquoanalyse de donneacutees au sein des centres HPC nationaux et reacutegionaux en soulignant que les volumes sont tels que les donneacutees deviennent tregraves coucircteuses agrave deacuteplacerhellip

bull La conceptionexploitation efficace drsquoarchitectures et drsquoenvironnements orienteacutes donneacutees

bull Lrsquoanalyse de lrsquoimpact des technologies du type GPU Cloud computinghellip

bull La multiplication de lrsquousage des meacutethodes drsquoanalyse de donneacutees et drsquoaide agrave la deacutecision machine learning retour de lrsquoIntelligence Artificielle au premier planhellip

bull La maicirctrise du passage agrave lrsquoeacutechelle pour les outils drsquoanalyse de donneacutees ainsi que lrsquoeacutevolution des meacutethodes drsquoanalyse

bull Deacuteveloppement des recherches interdisciplinaires et des compeacutetences autour des donneacutees au sein du CNRS ainsi que celui du support aux utilisateurs

bull La sensibilisation au coucirct eacutenergeacutetique croissant induit par le traitement et la gestion des donneacutees au sein des communauteacutes pour aller vers une informatique durable et une minimisation de lrsquoempreinte carbone de nos activiteacutes

7

Livre Blanc sur les Donneacutees au CNRS Eacutetat des Lieux et Pratiques - 2018

A une peacuteriode ougrave la science est de plus en plus compeacutetitive interdisciplinaire et internationale les nouveaux enjeux associeacutes aux donneacutees requiegraverent une eacutevolution des pratiques de recherche et une nouvelle strateacutegie agrave lrsquoeacutechelle du CNRS

Fort de sa multidisciplinariteacute de ses deux centres nationaux avec une expertise internationalement reconnue en HPC ( IDRIS ) et en gestion et analyse de donneacutees massives ( CC-IN2P3 ) ainsi que de sa preacutesence dans un grand nombre de TGIRs et drsquoIRs le CNRS doit se doter aujourdrsquohui drsquoune strateacutegie plus active autour des nouvelles probleacutematiques lieacutees aux donneacutees

Cette strateacutegie doit ecirctre co-formuleacutee co-deacuteveloppeacutee et co-impleacutementeacutee avec les diffeacuterents instituts et les communauteacutes scientifiques en phase avec leurs pratiques de recherche et la diversiteacute de leurs chaicircnes de production drsquoutilisation et de valorisation des donneacutees Elle doit prendre en compte la logistique des donneacutees tout au long de ces chaicircnes afin drsquoacceacuteleacuterer lrsquoextraction de nouvelles connaissances Elle doit enfin faciliter et transformer les pratiques de recherche en mutualisant les expertises au sein des diffeacuterentes communauteacutes scientifiques et de leurs instituts ainsi que reacutepondre aux nouveaux enjeux de la recherche interdisciplinaire inteacutegrant des donneacutees multi-source

Sur la base de ce document un certain nombre de recommandations sont proposeacutees pour cette strateacutegie

bull R1 Politique et gestion des donneacutees Le CNRS doit promouvoir une laquo culture des donneacutees raquo dans et entre ses instituts et mieux valoriser toutes les donneacutees que ses eacutequipes de recherche produisent Cela implique une reacuteflexion en matiegravere de politique de donneacutees ( Open Data et FAIR Data5 ) tout au long du cycle de vie des donneacutees de gestion des donneacutees avec en particulier lrsquoeacutelaboration drsquoun Data Management Plan6 en collaboration avec les diffeacuterents instituts et possiblement lrsquoINIST et drsquoOpen science7 inteacutegrant la publication des donneacutees et de nouveaux objets interfaccedilant donneacutees et reacutesultats scientifiques Cette reacuteflexion doit srsquoappuyer sur et harmoniser les expertises acquises dans ce domaine par un certain nombre drsquoinstituts tant au niveau national qursquointernational ( p ex IN2P3 INSU INSB INSHS ) Dans ce contexte il doit jouer un rocircle moteur dans les initiatives europeacuteennes comme EOSC8 et GoFAIR9 dans un certain nombre drsquoactiviteacutes drsquoorganisation non gouvernementale comme RDA10 et drsquoinitiatives internationales comme le Belmont Forum11

bull R2 Accroitre les expertises interdisciplinaires pour lrsquoanalyse et lrsquoutilisation des donneacutees Le CNRS fort des acquis reacutealiseacutes au travers de la Mission pour lrsquoInterdisciplinariteacute ( p ex programme MASTODONS ) et de plusieurs Groupements de Recherche ( p ex MADICS ) devrait lancer une initiative transversale srsquoappuyant sur un certain nombre de TGIRs et IRs pour favoriser des collaborations interdisciplinaires au travers des instituts du CNRS rassemblant des experts des diffeacuterents domaines scientifiques des diffeacuterents domaines meacutethodologiques en sciences des donneacutees ( matheacutematiques statistiques informatiques ) et deacuteveloppeurs drsquoinfrastructures Ceci afin de creacuteer un veacuteritable hub scientifique et drsquoexpertise pour le deacuteveloppement de nouvelles meacutethodes de gestion de traitement et drsquoanalyse de donneacutees de nouveaux algorithmes et leur impleacutementation au travers de logiciels modulaires de librairies de services et drsquooutils partageacutes et pouvant servir les besoins de diffeacuterentes communauteacutes sur le modegravele du Berkeley Institute

5 Findable Accessible Interoperable Reusable data6 Voir par exemple dmpopidorfr7 Open Science in Europe8 European Open Science Cloud declaration et EOSC pilot9 GoFair Initiative10 Research Data Alliance11 Belmont Forum

RECOMMANDATIONS

8

Livre Blanc sur les Donneacutees au CNRS Eacutetat des Lieux et Pratiques - 2018

for Data Science12 ( BIDS ) du Data Science Institute de Imperial College ou de lrsquoUniversiteacute de Maastricht Le CNRS pourrait ainsi encourager la collaboration de scientifiques de diffeacuterents domaines autour de lrsquoameacutelioration des algorithmes utiliseacutes dans lrsquoanalyse de donneacutees par exemple pour les synchrotrons sur le modegravele de CAMERA ( httpwwwcameralblgov ) aux Eacutetats-Unis Un tel Hub pourrait eacutegalement constituer un instrument preacutecieux pour la prise en compte des probleacutematiques associeacutees aux donneacutees en amont lors de lrsquoeacutelaboration de grands projets internationaux de TGIRs et drsquoIRs et ainsi faciliter lrsquoorganisation et accroitre la visibiliteacute des contributions franccedilaises dans ces initiatives Dans ce contexte le CNRS pourrait financer des ETPTs chercheurs et ingeacutenieurs en appui agrave ces deacuteveloppements interdisciplinaires eacuteventuellement en collaboration avec des pocircles universitaires et drsquoautres organismes pour par exemple deacutevelopper des logiciels de traitement de donneacutees tels XSOCS ( httpssourceforgenetprojectsxsocs ) sur les synchrotrons

bull R3 Architecture et Infrastructures pour lrsquoanalyse des donneacutees Le CNRS devrait en srsquoappuyant sur les expertises de ses deux centres nationaux de France Grilles de certains meacuteso-centres TGIRs et IRs mener des expeacuteriences relatives agrave lrsquoarchitecture et agrave la feacutedeacuteration de plateformes distribueacutees de services de calcul et de stockage et de plateformes centraliseacutees ( HPC Cloud ) dans le cadre de chaicircnes pilotes de production et drsquoutilisation de donneacutees et de leur logistique des donneacutees refleacutetant la diversiteacute des utilisateurs et des pratiques de recherche Ces expeacuteriences permettraient de mieux eacutevaluer les performances des traitements en flux de type Cloud les protocoles de transferts et les configurations reacuteseaux ainsi qursquoameacuteliorer radicalement lrsquoexploitation des ressources HPC pour des workflows combinant HPC HDA et machine learning Le CNRS pourrait ainsi accroitre son rocircle au niveau europeacuteen agrave lrsquointerface entre EOSC et EDI ( European Data Infrastructure ) Il serait possible drsquoeacutetudier lrsquoaccegraves agrave des moyens informatiques de type Cloud aux TGIR du CNRS au travers par exemple drsquoun accord avec le CC-IN2P3 ou France Grilles

12 httpsbidsberkeleyeduabout

bull R4 Archivage curation et distribution des donneacutees Le CNRS pourrait eacutegalement en srsquoappuyant sur des expertises internationalement reconnues telles celles du Centre de Donneacutees de Strasbourg et ses contributions agrave lrsquoIVOA soutenir et mener des expeacuteriences pilotes pour lrsquoorganisation de plateformes distribueacutees drsquoarchivage drsquoindexation et de curation de donneacutees multi-source mutualisant des ressources ( stockage calcul ) ainsi que pour leur inteacutegration au sein de pocircles de donneacutees ( systegraveme drsquoinformation portail services ) facilitant la deacutecouverte et lrsquoaccegraves fluide agrave ces donneacutees issues de domaines diffeacuterents avec des outils laquo translationnels raquo pour les combiner les croiser et les syntheacutetiser Ces expeacuteriences permettraient au CNRS de mieux deacutefinir sa politique drsquoOpenData et de jouer un rocircle moteur pour la creacuteation drsquoarchives OpenData certifieacutees et de portail OpenScience inteacutegrant de nouveaux objets associant donneacutees et reacutesultats de recherche tel que le Centre de Donneacutees astronomiques de Strasbourg ( httpcdswebu-strasbgfr ) auxquelles les TGIR PaN pourraient participer

bull R5 Nouvelles expertises et moyens humains Le CNRS pour maicirctriser les nouveaux enjeux associeacutes aux donneacutees doit mettre en place une reacuteponse coordonneacutee face aux nouveaux besoins en termes drsquoexpertise de moyens humains et de reconnaissance de ces nouvelles activiteacutes interdisciplinaires Cette reacuteponse doit ecirctre attractive pour des recrutements ( chercheurs ITA ) pour les eacutevolutions de carriegravere et srsquoappuyer sur des actions de formation adapteacutees reacutepondant agrave ces nouvelles expertises Cette reacuteponse est essentielle afin de faciliter lrsquoorganisation des communauteacutes scientifiques et le deacuteveloppement de nouvelles pratiques de recherche permettant drsquoacceacuteleacuterer lrsquoextraction de nouvelles connaissances agrave partir des donneacutees et ainsi renforcer la visibiliteacute internationale du CNRS et des communauteacutes scientifiques franccedilaises

9

Livre Blanc sur les Donneacutees au CNRS Eacutetat des Lieux et Pratiques - 2018

Sur la base de ce rapport la mission Calcul et Donneacutees du CNRS ( MiCaDo ) pourrait se voir confier la mission drsquoouvrir une reacuteflexion inter-instituts associant eacutetroitement lrsquoIDRIS et le CC-IN2P3 en lien avec nos tutelles nos partenaires et les infrastructures de services concerneacutes pour la recherche ( GENCI RENATER ) afin de prolonger ce rapport avec des groupes de travail deacutefinis autour de trois axes permettant de preacuteciser cette strateacutegie

bull Lrsquoorganisation territoriale et la mutualisation de lrsquoheacutebergement des plateformes drsquoarchivage et de curation de donneacutees des plateformes de calcul et drsquoanalyse des donneacutees en liaison avec le processus de labellisation des datacentres nationaux et reacutegionaux organiseacute par la DGRI et les initiatives locales et reacutegionales soutenues par des IDEX ou drsquoautres organismes permettant de faire eacutemerger des sites de reacutefeacuterences en appui agrave des grands projets Cette reacuteflexion devra prendre en compte lrsquoorganisation des communauteacutes scientifiques pour le stewardship des donneacutees et des ressources ( calcul stockage services ) afin drsquoeacutevaluer les ressources humaines et les expertises neacutecessaires agrave cette nouvelle structuration territoriale et organisation des communauteacutes scientifiques

bull Lrsquoarchitecture et la feacutedeacuteration des plateformes distribueacutees de calcul et drsquoanalyse de donneacutees drsquoarchivage et de curation des donneacutees et des plateformes centraliseacutees ( HPC Cloud ) avec des services de donneacutees Cette reacuteflexion devra prendre en compte la diversiteacute et les caracteacuteristiques des chaicircnes de production et drsquoutilisation des donneacutees la logistique des donneacutees tout au long de ces chaicircnes ainsi que les pratiques de recherche des communauteacutes scientifiques au niveau national et international

bull Les architectures de ressources de calcul et de stockage adapteacutees aux diffeacuterentes phases des workflows combinant HPC et HDA ainsi que les environnements drsquoexploitation de ces ressources inteacutegrant les besoins de traitement et drsquoanalyse en flux de type Cloud En particulier cette reacuteflexion devra inteacutegrer les nouveaux besoins associeacutes au machine learning et plus largement agrave lrsquoIntelligence Artificielle qui joue un rocircle de plus en plus important dans le contexte du Big Data avec en particulier les nouveaux enjeux associeacutes aux meacutethodes de type Deep Neural Network ( DNN ) en termes de scalabiliteacute et drsquoarchitecture ( GPU meacutemoire non volatile NVRAM )

La mission Calcul et Donneacutees du CNRS ( MiCaDo ) pourrait avec des moyens suppleacutementaires contribuer agrave lrsquoeacutemergence de plateformes de gestion et drsquoanalyse de donneacutees en y positionnant des ingeacutenieurs et des data scientists capables drsquooffrir un service technique de haut niveau et drsquoaccompagner les chercheurs dans leurs expeacuterimentations Cette action pourrait contribuer agrave faire eacutemerger sur le territoire quelques sites de reacutefeacuterence autour desquels peuvent graviter plusieurs projets de recherche en sciences des donneacutees ou srsquointeacuteresser agrave des communauteacutes scientifiques speacutecifiques De telles initiatives peuvent et doivent ecirctre compleacutementaires des autres initiatives locales ou reacutegionales soutenues par des IDEX ou drsquoautres organismes de recherche par exemple

RECOMMANDATIONS

10

Livre Blanc sur les Donneacutees au CNRS Eacutetat des Lieux et Pratiques - 2018

Ce Livre Blanc a eacuteteacute reacutealiseacute agrave la suite drsquoune seacuterie de preacutesentations autour des donneacutees meneacutees au sein du COCIN entre 2014 et 2016 par ailleurs eacutetayeacutees par des informations compleacutementaires issues de divers documents rapports drsquoactiviteacutes et sites Web avec la contribution et la mise en forme des repreacutesentants des divers instituts et centres informatiques du CNRS

Ce Livre Blanc srsquoest notamment appuyeacute sur les preacutesentations suivantes ( par ordre chronologique )

bull Simulation et cycle de vie des donneacutees dans la communauteacute du climat J-L Dufresne et S Denvil 2 septembre 2014

bull Eleacutements de reacuteflexion sur le stockage des donneacutees O Porte ( DSI ) 4 deacutecembre 2014

bull Les donneacutees au CC-IN2P3 P-E Macchi 8 janvier 2015

bull Institut Franccedilais de Bioinformatique ( IFB ) mettre en place une infrastructure informatique deacutedieacutee aux sciences de la vie J-F Gibrat 5 feacutevrier 2015

bull Stockage et gestion des donneacutees agrave lrsquoIDRIS D Girou 5 mars 2015

bull Research Data Access F Genova 10 avril 2015

bull Gestion des donneacutees au CINES F Daumas et M Galez 5 mai 2015

bull Preacutesentation de CIMENT E Chaljub 2 juin 2015

bull Les donneacutees agrave lrsquoINEE C Callou 7 juillet 2015

bull Les donneacutees agrave lrsquoINC et lrsquoINP D Borgis et L Lellouch 7 juillet 2015

bull Preacutesentation du Belmont Forum J-P Vilotte 1er septembre 2015

bull GRICAD Grenoble Alpes Recherche - Infrastructure de Calcul Intensif et de Donneacutees V Louvet 1er deacutecembre 2015

bull Calcul et donneacutees agrave lrsquoINSU J-P Vilotte 5 janvier 2016 et 2 feacutevrier 2016

bull Les donneacutees et le calcul en bioinformatique G Perriegravere 1 mars 2016

bull Le meacutesocentre CALMIP un Tier2 au service des recherches acadeacutemique et priveacutee B Dintrans 5 avril 2016

bull Preacutesentation de la TGIR Huma-Num O Baude et S Pouyllau 3 mai 2016

bull Preacutesentation ESRF R Dimper et A Goetz 8 novembre 2016

bull Gestion des donneacutees agrave ILL J-F Perrin 5 deacutecembre 2016

bull Synchrotron SOLEIL Les Donneacutees Scientifiques B Gagey et P Martinez 10 janvier 2017

Ce rapport mecircme srsquoil est loin drsquoecirctre exhaustif vise agrave mieux cerner les pratiques et les besoins en matiegravere de donneacutees ainsi qursquoagrave identifier les voies de promotion drsquoune synergie transdisciplinaire autour des donneacutees au sein du CNRS

Lrsquoenquecircte a deacutemarreacute en 2014 agrave la demande de Michel Bidoit Preacutesident du COCIN avec agrave ce jour

1 INTRODUCTION

11

Livre Blanc sur les Donneacutees au CNRS Eacutetat des Lieux et Pratiques - 2018

bull Des preacutesentations lors de reacuteunions du COCIN de tous les instituts confronteacutes agrave la production et au traitement de donneacutees agrave grande eacutechelle ie tous les instituts excepteacutes INS2I INSMI et INSIS13

bull Des centres nationaux orienteacutes calcul et donneacutees du CNRS

- CC-IN2P3 - IDRIS

bull De certains meacutesocentres - CALMIP - GRICAD

bull Et drsquoun certain nombre drsquoinitiatives et de TGIR dont

- LrsquoInstitut Franccedilais de Bioinformatique ( IFB ) - RENABI

bull Les synchrotrons ESRF ILL et SOLEIL

Ce Livre Blanc aborde aussi la probleacutematique des infrastructures requises pour lrsquoexploitation des grands volumes de donneacutees issues de simulations numeacuteriques de grande taille de systegravemes drsquoobservations ou de plateformes expeacuterimentales neacutecessitant des traitements coucircteux pour en extraire de lrsquoinformation

Les enjeux lieacutes au Big Data sont colossaux et ne sont pas seulement scientifiques car ils ont aussi un impact socieacutetal consideacuterable ( santeacute environnement biologie ) eacuteconomique et financier ( p ex compeacutetitiviteacute industrielle ) et eacutethique ( p ex santeacute biologie ) Le Big Data est ainsi devenu un outil drsquoaide agrave la deacutecision incontournable pour un certain nombre de situations critiques ( preacutevision des catastrophes naturelles eacutepideacutemiologiehellip )

La maicirctrise de tous les aspects du Big Data relegraveve drsquoune deacutemarche fondamentalement interdisciplinaire

Les eacutechelles de volumes de donneacutees agrave traiter nrsquoont fait que croicirctre de faccedilon spectaculaire On parle drsquoExaoctets ( 10^18 octets ) pour eacutevoquer les besoins actuels pour se projeter vers des eacutechelles de lrsquoordre du Zettaoctets ( 10^21 ) drsquoici quelques anneacutees

Cette eacutevolution constante induit de multiples preacuteoccupations autour des besoins en puissance de traitement pour de tels volumes de donneacutees ce qui contribue agrave rapprocher les communauteacutes du Calcul Haute Performance et du High Throughput Computing ( autour de lrsquoIN2P3 p ex ) et explique lrsquointeacuterecirct susciteacute par les GPUs en particulier pour le machine learning

13 Les donneacutees sont plus un objet de recherche pour INS2I et INSMI et ils sont peu impliqueacutes dans la production de donneacutees alors que INSIS nrsquoa pas aujourdrsquohui drsquoaction drsquoenvergure dans le domaine

puisqursquoil existe un certain nombre de codes open source tregraves performants sur les GPU

On constate dans tous les domaines des besoins eacutevidents en

bull Plateformes pour lrsquoanalyse de donneacutees agrave grande eacutechelle avec les probleacutematiques du stockage de la gestion et de la valorisation de ces donneacutees

bull Support pour les utilisateurs

bull Data scientists ( chercheurs ou ingeacutenieurs compeacutetents en analyse de donneacutees )

bull Deacuteploiement de chaicircnes logicielles drsquoanalyse de donneacutees qui passent agrave lrsquoeacutechelle

bull Effort interdisciplinaire entre les communauteacutes produisant des donneacutees et les communauteacutes dont crsquoest lrsquoobjet de recherche ( essentiellement au sein drsquoINS2I et drsquoINSMI )

bull Valorisation et peacuterennisation des donneacutees beaucoup de donneacutees sont creacuteeacutees pour un besoin preacutecis puis in fine perdues alors qursquoelles pourraient parfois ecirctre reacuteutiliseacutees ( expeacuteriences comme simulations ) ce qui suppose de lrsquoarchivage indexation mise agrave disposition etc

bull Deacutefinition de plan de gestion des donneacutees ( DMP ) loin drsquoecirctre geacuteneacuteraliseacute aujourdrsquohui alors que les volumes explosent

bull hellip

Le traitement des donneacutees massives issues ou non de la simulation numeacuterique avec des sources eacuteventuellement multiples distribueacuteesreacuteparties agrave grande eacutechelle et heacuteteacuterogegravenes ( structures formats logiciels serveurshellip ) et une volumeacutetrie en donneacutees allant de centaines de teacuteraoctets agrave quelques dizaines de peacutetaoctets ( et agrave lrsquoExaoctets dans un futur proche ) est donc devenu fondamental Il en reacutesulte des probleacutematiques autour de la gestion de ces donneacutees ( indexation stockage local ou distant avec BD centraliseacutees ou distribueacutees entrepocircts de donneacutees virtualisation du stockagehellip ) de leur traitement avec de lrsquoextraction de connaissances sur des infrastructures souvent distribueacutees ( machine learning fouille de donneacutees classification assimilation de donneacutees ) et enfin du post-traitement permettant drsquoexploitervisualiser ces informations etou de lrsquoaide agrave la deacutecision par exemple

12

Livre Blanc sur les Donneacutees au CNRS Eacutetat des Lieux et Pratiques - 2018

INTRODUCTION

Tirer parti de maniegravere efficace de toutes ces eacutevolutions requiert donc des efforts sur ( entre autres )

bull Deacuteploiement de plateformes drsquoanalyse de donneacutees performantes et rapprochement entre les communauteacutes HTC et HPC deacuteveloppement de lrsquoactiviteacute et des compeacutetences autour de lrsquoanalyse de donneacutees au sein des centres HPC nationaux et reacutegionaux

bull Conceptionexploitation efficace drsquoarchitectures et drsquoenvironnements orienteacutes donneacutees

bull Impact des technologies du type GPU Cloud computinghellip

bull Meacutethodes drsquoanalyse de donneacutees et drsquoaide agrave la deacutecision machine learning retour de lrsquoIntelligence Artificielle au premier planhellip

bull Maicirctrise du passage agrave lrsquoeacutechelle des outils drsquoanalyse de donneacutees

bull Deacuteveloppement des recherches interdisciplinaires et des compeacutetences autour des donneacutees au sein du CNRS ainsi que du support aux utilisateurs

Les pratiques et les besoins autour des donneacutees font deacutejagrave lrsquoobjet drsquoune attention consideacuterable au sein du CNRS On peut citer par exemple le remarquable ouvrage laquo Les Big Data agrave deacutecouvert14 raquo eacutediteacute sous la direction de sous la direction de Mokrane Bouzeghoub et Reacutemy Mosseri agrave CNRS EDITIONS ainsi que les reacutesultats de lrsquoenquecircte de 2014 meneacutee par la Direction de lrsquoInformation Scientifique et Technique ( DIST ) aupregraves des uniteacutes15 qui corroborent certains des constats effectueacutes ici

Le CNRS a aussi deacuteveloppeacute de multiples programmes de recherche sur les donneacutees scientifique tant au sein de la Mission pour lrsquoInterdisciplinariteacute qursquoau sein des instituts INS2I et INSMI avec

bull Le Deacutefi Mastodons16 depuis 2012 ( plus de 60 projets )

bull Deacutefi ImagrsquoIn17 depuis 2015 ( plus de 40 projets )

bull Le PEPS FaScido en 2015 et 2016 ( plus de 20 projets )

bull Le PEPS AstroInformatique18 en 2018 ( une dizaine de projets )

Enfin un soutien significatif aux plateformes de recherche sur les donneacutees a eacuteteacute apporteacute par lrsquoINS2I agrave la fois en eacutequipement et en ingeacutenieur ( permanents ou CDD )

14 httpwwwcnrseditionsfrsociete7429-les-big-data-a-decou-verthtml15 httpwwwcnrsfrdistz-outilsdocumentsenquete-du_bro-chure-couverture_032015pdf16 httpwwwcnrsfrmispipphparticle5317 httpwwwcnrsfrmispipphparticle64518 httpwwwcnrsfrmispipphparticle1325

13

Livre Blanc sur les Donneacutees au CNRS Eacutetat des Lieux et Pratiques - 2018

21 INSTITUT DE CHIMIE ( INC )

211 Introduction

La deacutemarche de cette eacutetude a eacuteteacute drsquoeacutetudier les donneacutees agrave lrsquoINC agrave diffeacuterents niveaux de granulariteacute Nous commencerons par les grandes infrastructures de calcul ou expeacuterimentales puis nous nous inteacuteresserons agrave lrsquoeacutechelle typique drsquoun institut puis au grain fin du laboratoire Nous finirons agrave lrsquoautre extrecircme par la dimension europeacuteenne

212 La probleacutematique des donneacutees agrave lrsquoINC

Pour ce qui concerne le calcul sur les centres nationaux ( GENCI ) et le stockage de donneacutees affeacuterent les chercheurs de lrsquoInstitut de Chimie soumettent leurs demandes aux Comiteacutes Scientifiques Theacutematiques nationaux ( CT ) suivants

bull CT7 Dynamique moleacuteculaire appliqueacutee agrave la biologie avec une reacutepartition INC-NSB de 60 40

bull CT8 Chimie quantique et modeacutelisation moleacuteculaire ( majoritairement INC )

bull CT9 Physique chimie et proprieacuteteacutes des mateacuteriaux avec une reacutepartition INC-INP de 50 50

Il faut rappeler que ces 3 CT eacutetiqueteacutes laquo chimie raquo centreacutes majoritairement sur les simulations de dynamique moleacuteculaire et les calculs de structure eacutelectronique repreacutesentent une part importante des projets seacutelectionneacutes et du temps de calcul alloueacute sur les machines GENCI A lrsquoIDRIS par exemple la chimie au sens large compte pour ~40 des projets ~30 du temps CPU sur Ada et 7 sur Turing

Comme il apparaicirct sur les diagrammes de lrsquoIDRIS preacutesenteacutes agrave la section 322 lrsquoutilisation du stockage est beaucoup plus reacuteduite pour ces CT laquo chimie raquo par rapport agrave drsquoautres theacutematiques avec quelques dizaines de To sur Ada et quelques To seulement sur Turing pour environ 50 To sur cartouches On note une forte surestimation des besoins par les utilisateurs

Sur le TGCC lrsquoINC occupe pour lrsquoensemble des CTs qui le concerne de lrsquoordre de 450 To en cumulant tous les espaces de disques ( storedir scratch et workdir ) Cela repreacutesente une occupation relative de lrsquoordre du pour cent sur le stockage longue dureacutee ( storedir ) et de la dizaine de pour cent sur lrsquoespace de travail Les besoins sont cependant appeleacutes agrave augmenter fortement avec lrsquoaccroissement de la taille des systegravemes eacutetudieacutes ou de leur temps de simulation si lrsquoon se fixe aux niveaux correspondant actuellement agrave des grands challenges ou des projets PRACE En modeacutelisation biomoleacuteculaire par exemple la simulation dynamique drsquoun systegraveme biologique complet comportant plusieurs millions drsquoatomes comme un virus pendant quelques dizaines voire une centaine de nanosecondes ( actuellement un tour de force ) geacutenegravere facilement un film de quelques Po si lrsquoon veut garder la trajectoire pour exploitation ulteacuterieure

Lrsquooccupation en stockage de la chimie sur les quelques meacutesocentres qui ont eacuteteacute sondeacutes ( Unistra CRIANN CALMIP ) apparaicirct elle aussi relativement limiteacutee de lrsquoordre de la dizaine de To par centre

En ce qui concerne les Infrastructures de Recherche expeacuterimentale il faut noter que la chimie est tregraves impliqueacutee dans des TGIR relevant de lrsquoINP ( ESRF ILL SOLEILhellip ) pour lesquelles une politique des donneacutees massives est eacutetablie ou en cours drsquoeacutelaboration ( voir lrsquoanalyse de lrsquoINP ) Une analyse des besoins et des pratiques de stockage des Infrastructures de Recherche relevant de lrsquoINC a eacuteteacute effectueacutee cela implique la TGIR reacutesonance magneacutetique nucleacuteaire agrave tregraves hauts champs ( RMN-THC ) lrsquoIR RENARD ( REseau NAtional de Reacutesonance paramagneacutetique interDisciplinaire ) et

2 Les donneacutees au sein des instituts du CNRS

14

Livre Blanc sur les Donneacutees au CNRS Eacutetat des Lieux et Pratiques - 2018

le tregraves grand eacutequipement FT-ICR agrave haut champ Quelques points cleacutes en ressortent en matiegravere de politique de donneacutees

bull Gestion locale des donneacutees chaque laboratoire ou site achegravete ses disques durs

bull La politique des donneacutees ( partage ou non ) est laisseacutee aux utilisateurs

bull En utilisation laquo plateforme raquo les utilisateurs viennent et repartent avec leur cleacute USB

bull Frilositeacute vis-agrave-vis du partage de donneacutees ( maicirctrise de ses donneacutees confidentialiteacute )

bull Une mutualisation des donneacutees est envisageacutee en RMN et RPE

Pour ce qui concerne la nature et le volume des donneacutees

bull Spectres 1D ou 2D fichiers de 10-100 ko jusqursquoagrave 10-100 Goansite

bull Format proprieacutetaire ( Bruckerhellip ) eacuteventuellement transformable drsquoougrave des problegravemes drsquointeropeacuterabiliteacute et de temps de relecturesauvegarde

bull Des flux plus importants peuvent ecirctre envisageacutes avec des expeacuteriences drsquoimagerie deacutependant du temps mais les volumes ne sont pas encore vraiment anticipeacutes

On peut faire les mecircmes constats par exemple pour le reacuteseau METSA en laquo Microscopie Electronique et Sonde Atomique raquo

bull Pas de politique de stockage globale au niveau du reacuteseau

bull Sur le site parisien ( MPQ ) la quantiteacute de donneacutees produites est typiquement 64 Moimage soit 4 Toan stockeacutes sur des disques durs locaux avec en plus une passerelle sur lrsquouniversiteacute

bull Des expeacuteriences en temps reacuteel commencent agrave se monter engendrant 300 imagesseconde soit de lrsquoordre de 20 Goseconde

bull Il y aura donc un reacuteel besoin de compeacutetences solides agrave terme

Pour illustration nous descendons encore en granulariteacute dans les infrastructures de recherche et prenons le cas drsquoune feacutedeacuteration lrsquoInstitut pour les Sciences Moleacuteculaires drsquoOrsay ( ISMO ) pour lequel le

problegraveme des donneacutees srsquoest poseacute reacutecemment Cet institut regroupe trois laboratoires le Laboratoire de Photophysique Moleacuteculaire ( UPR3361 ) le Laboratoire des Collisions Atomiques et Moleacuteculaires ( UMR8625 ) et le Laboratoire drsquoInteraction du rayonnement X avec la Matiegravere ( UMR8624 ) Il est installeacute depuis peu dans un bacirctiment unique agrave Paris-Saclay Il dispose drsquoune grappe de calcul avec 1 ingeacutenieur drsquoeacutetudes et un technicien

bull Il y a un besoin de stockage pour des expeacuteriences ( en particulier en microscopie ) et en ressources de calcul

bull Le mateacuteriel est disparate et vieillissant sans systegraveme de sauvegarde global

bull Une enquecircte aupregraves des laboratoires de la feacutedeacuteration a reacuteveacuteleacute un besoin de lrsquoordre de 160 To

Drsquoougrave la recherche drsquoune solution eacuteconomique de stockage et baseacutee sur des logiciels libres chaque chercheur achetant ses propres disques On a convergeacute vers lrsquoachat de 2 racks de 40 disques avec un systegraveme ZFS plus la solution libre SUN Le coucirct total estimeacute de cette solution de stockage est de lrsquoordre de 40 keuro alors qursquoune solution cleacute en main serait de lrsquoordre de 100 keuro aupregraves des speacutecialistes des solutions de stockage

Enfin penchons-nous sur une granulariteacute encore plus fine celle drsquoun laboratoire Un exemple significatif est celui du laboratoire Physicochimie des Electrolytes et Systegravemes Interfaciaux ( PHENIX ) agrave lrsquoUPMC et plus speacutecifiquement de lrsquoeacutequipe modeacutelisation composeacutee de 5 permanents pour un total de 15 personnes qui calculent agrave la fois en local sur GENCI et PRACE

bull Le parc drsquoinformatique scientifique de 15-20 stations de travail est geacutereacute par les chercheurs

bull Le systegraveme de stockage est composeacute drsquoun server NFS ( 30 To ) plus un serveur LDAP

bull Les ressources de calcul sont constitueacutees de 4 machines PersonalHPC 64 cœurs agrave meacutemoire partageacutee ( 10 keuromachine )

bull Un stockage de sauvegarde de 150 To est effectueacute sur une machine deacutedieacutee PersonalHPC Sigma ( valeur environ 30 keuro )

On retrouve donc le mecircme ordre de grandeur de coucirct pour le mateacuteriel local de stockage avec des solutions laquo cousues main raquo ( quelques dizaines de keuro pour la centaine de To hors coucirct de personnel eacutevidemment et avec le niveau de seacutecuriteacute qursquoune gestion locale implique )

INC

15

Livre Blanc sur les Donneacutees au CNRS Eacutetat des Lieux et Pratiques - 2018

Enfin si lrsquoon remonte la granulariteacute agrave son autre extrecircme il faut signaler qursquoau niveau europeacuteen sur lrsquoappel H2020 Centre of Excellence for Computing Applications 3 CoE sur les 8 seacutelectionneacutes sont consacreacutes aux mateacuteriaux au cœur donc des theacutematiques des CT 7-9 Lrsquoun drsquoeux le CoE NoMad ( Novel Material Discovery httpsnomad-coeeu ) est un dispositif multigrille de deacutepocirct et de fouille de donneacutees Il est eacutetabli pour heacuteberger organiser et partager agrave lrsquoeacutechelle internationale les donneacutees et reacutesultats de calcul et de simulation en physique et chimie des mateacuteriaux

Alors que la France est bien repreacutesenteacutee dans plusieurs CoE par exemple EoCoE ( httpwwweocoeeu ) ou E-CAM ( httpswwwe-cam2020eu ) elle apparaicirct malheureusement tregraves peu dans NoMaD et encore trop peu dans ce genre de deacutemarche type collectionexploitation de donneacutees comme les initiatives Material Genomics ( httpswwwmgigov ) aux Etats-Unis ou AIIDA en Suisse ( Automated Interactive Infrastructure and Database for Computational Science httpwwwaiidanet )

213 Conclusion

LrsquoINC a actuellement plus des problegravemes drsquoorganisation interne des donneacutees que des problegravemes relevant vraiment du Big Data Il nrsquoen reste pas moins qursquoil y a un reacuteel besoin de compeacutetences et de politique drsquoeacutequipement Les besoins peuvent srsquoaccroicirctre rapidement dans les TGIR degraves que lrsquoon touche agrave de lrsquoacquisition massive drsquoimages ( p ex pour des processus en temps reacuteel ) Lrsquoacquisition des donneacutees de simulations numeacuteriques est ameneacutee agrave croicirctre aussi avec lrsquoaugmentation de la taille des systegravemes eacutetudieacutes et des deacutemarches collectives de type Material Genomics crsquoest-agrave-dire conservation et mutualisation des donneacutees de simulations et deacutemarche systeacutematique de fouille de donneacutees Des deacutemarches de ce type eacutemergent de plus en plus dans les appels drsquooffre

LrsquoINC a engageacute depuis deacutebut 2018 une reacuteflexion sur la politique des donneacutees au sein de ces trois TGIRIR ( RMN-THC RENARD FT-ICR ) avec comme objectif de se conformer rapidement aux directives europeacuteennes en termes de science ouverte et de partage des donneacutees et rejoindre ce qui se fait dans drsquoautres infrastructures de recherche comme SOLEIL

16

Livre Blanc sur les Donneacutees au CNRS Eacutetat des Lieux et Pratiques - 2018

22 INSTITUT ECOLOGIE ET ENVIRONNEMENT ( INEE )

221 Introduction

Degraves sa creacuteation consideacuterant drsquoune part lrsquoimportance des donneacutees dans le triptyque fondateur de lrsquoINEE ( Observation ndash Expeacuterimentation ndash Modeacutelisation ) et drsquoautre part une reacuteelle meacuteconnaissance du nombre de jeux de donneacutees existants dans le peacuterimegravetre de lrsquoInstitut ( sa creacuteation datant du 1er novembre 2009 ) deux enquecirctes autour des donneacutees en eacutecologie et environnement eacutetaient meneacutees sur le peacuterimegravetre scientifique de lrsquoINEE

bull La premiegravere adresseacutee agrave lrsquoensemble des instituts du CNRS sur le thegraveme laquo Etude de cas sur les systegravemes de donneacutees numeacuteriques de recherche raquo ( Ministegravere de lrsquoEnseignement supeacuterieur et de la Recherche 2009 )

bull La seconde meneacutee sous la responsabiliteacute de S Thieacutebault et Y Lagadeuc plus speacutecifique et exhaustive aupregraves des directeurs drsquouniteacutes

La synthegravese de ces deux enquecirctes mettait en exergue les points suivants

bull Des diffeacuterents projets de recherche collaboratifs meneacutes par la communauteacute scientifique de lrsquoINEE reacutesulte un accroissement tregraves important et tregraves rapide du nombre de bases de donneacutees deacuteveloppeacutees au sein des laboratoires Cependant ces bases de donneacutees restent tregraves heacuteteacuterogegravenes dans leur forme ( allant du fichier Word ou Excel pour certains agrave un systegraveme de gestion de base de donneacutees complexe pour drsquoautres ) et aussi dans leur fond

bull La communauteacute scientifique de lrsquoINEE se doit de faire un effort particulier pour coordonner et diversifier la collecte des donneacutees en eacutecologie en menant une reacuteflexion neacutecessaire pour deacutefinir dans quels cas la theacuteorie doit deacuteterminer lrsquoobjet et les outils de mesure Il srsquoagit degraves lors drsquoeacuteviter une collecte de donneacutees agrave des eacutechelles spatiales et temporelles prenant plus en consideacuteration des contingences techniques ou historiques qui les eacuteloignent parfois des exigences optimales neacutecessaires pour appreacutehender les pheacutenomegravenes eacutetudieacutes

Aujourdrsquohui la communauteacute scientifique du CNRS-INEE est en train de vivre une veacuteritable reacutevolution de

lrsquoinformation Si pendant tregraves longtemps une des limitations a eacuteteacute la quantiteacute de donneacutees disponibles pour tester des modegraveles preacutedictifs en quelques anneacutees les sciences de lrsquoenvironnement ont pu disposer des jeux de donneacutees de plus en plus importants inteacutegrant diffeacuterentes eacutechelles temporelles et spatiales pour des milliers drsquoorganismes ainsi que pour de nombreux gegravenes et eacutecosystegravemes Ces nouveaux jeux de donneacutees allieacutes agrave une puissance de calcul et agrave une sophistication des logiciels ( rendues possibles notamment par la mise en place de plateformes collaboratives comme le logiciel R ) permettent aujourdrsquohui une profondeur drsquoanalyse qui nrsquoeacutetait pas possible il y a encore dix ans

Toutefois des efforts doivent ecirctre maintenus afin de faire basculer lrsquoeacutecologie dans lrsquoegravere de lrsquoinformation en eacutevitant que ces diffeacuterentes sources drsquoinformations soient stockeacutees et codeacutees suivant des normes contingentes agrave chaque milieu scientifique sans souci drsquointerfaccedilage avec les autres disciplines

222 La probleacutematique des donneacutees agrave lrsquoINEE

La collecte des donneacutees neacutecessite des systegravemes drsquoobservation et drsquoexpeacuterimentation depuis le niveau geacuteneacutetique jusqursquoaux eacutecosystegravemes Il srsquoagit drsquoabord de disposer drsquoeacutequipements compleacutementaires organiseacutes le long de gradients de controcircle ou de confinement consideacuterant des complexiteacutes eacutecologiques diffeacuterentes

La communauteacute de lrsquoINEE dispose deacutesormais drsquoune infrastructure expeacuterimentale partageacutee et ouverte ( AnaEE pour Analyse et Expeacuterimentation sur les Ecosystegravemes ) qui rassemble des moyens expeacuterimentaux in situ en conditions semi-naturelles et en conditions controcircleacutees

En geacutenomique les programmes concernant le meacutetageacutenome humain ( httpwwwmetahiteu httpnihroadmapnihgov ) ou lrsquoeacutetude des sols ( httpwwwterragenomeorg httpwwwearthmicrobiomeorg ) promeuvent des approches collaboratives inteacutegreacutees

Drsquoautres approches exploratoires agrave large eacutechelle ont aussi montreacute toute leur richesse ( p ex Tara-Oceans ) en inteacutegrant des donneacutees de diffeacuterents champs disciplinaires

INEE

17

Livre Blanc sur les Donneacutees au CNRS Eacutetat des Lieux et Pratiques - 2018

Lrsquoeacutetude des maladies infectieuses beacuteneacuteficie eacutegalement au plan national drsquoun institut theacutematique multi-organismes ( Institut de Microbiologie et Maladies Infectieuses )

Enfin au niveau des eacutecosystegravemes il faut noter les travaux entrepris au sein des Zones Ateliers ou encore des services drsquoobservation que le CNRS coordonne

Ces diffeacuterentes initiatives sont agrave lrsquoorigine de la production drsquoune quantiteacute de donneacutees sans preacuteceacutedent dans nos disciplines Par contre une grande part de la collecte est encore conduite par des eacutequipes etou des chercheurs individuels travaillant sur des sites expeacuterimentaux ou drsquoobservation qui ne font actuellement lrsquoobjet drsquoaucune coordination particuliegravere ou drsquoune coordination probablement insuffisante

Le panorama des initiatives dans le domaine EcologieBiodiversiteacute est extrecircmement large comme le montre la figure suivante avec une multipliciteacute des acteurs et des interactions

Il est organiseacute autour de trois niveaux

bull des dispositifs de production et de collecte des donneacutees incluant par exemple les plateformes -omiques ( geacutenomiques transcriptomiques p roteacuteomiques meacutetabo lomiqueshellip ) des collections des systegravemes drsquoobservation etou drsquoexpeacuterimentation

bull des bases de donneacutees

bull des centres de synthegravese geacuteneacuteraux ou theacutematiques deacutedieacutes agrave la valorisation et agrave la diffusion des donneacutees

Aussi face agrave cette laquo datavalanche raquo il apparaissait neacutecessaire pour lrsquoinstitut de mener un effort important pour aider les entiteacutes productrices de donneacutees de lrsquoINEE agrave aller vers une normalisation du codage et de la mise en forme des donneacutees pour mieux les rendre interopeacuterables exploitables et visibles

18

Livre Blanc sur les Donneacutees au CNRS Eacutetat des Lieux et Pratiques - 2018

223 La mise en place de lrsquouniteacute mixte de services BBEES

La creacuteation de lrsquoUMS 3468 laquo Bases de donneacutees Biodiversiteacute Ecologie Environnements Socieacuteteacutes ( BBEES ) raquo souhaiteacutee par le CNRS-INEE et le Museacuteum national drsquoHistoire naturelle et acteacutee le 1er septembre 2011 a pour objectif de structurer et drsquooptimiser le travail autour des bases de donneacutees de recherche sur la Biodiversiteacute naturelle et culturelle actuelle et passeacutee

Elle constitue un soutien technique et scientifique aupregraves des uniteacutes et des chercheurs du CNRS-INEE et du MNHN souhaitant structurer peacuterenniser ou mutualiser leurs bases de donneacutees de recherche avec pour objectifs finaux

bull de faire interagir lrsquoensemble de ces bases diverses et heacuteteacuterogegravenes dans leur forme et dans leur fond

bull de preacutevoir leur sauvegarde agrave tregraves long terme prenant en compte lrsquoeacutevolution des supports

bull de participer agrave la mise en place drsquoontologies et de theacutesaurus concerteacutes

Ses interventions se traduisent par des conseils ou une intervention au sein des uniteacutes pour aider agrave concevoir relancer ou restructurer une base de donneacutees Installeacutee au Museacuteum elle beacuteneacuteficie de lrsquoenvironnement en place et de son expeacuterience dans le domaine des bases de donneacutees ( Service du Patrimoine Naturel Inventaire National du Patrimoine Naturel collections patrimoniales Pocircle application scientifique de la DSI etc ) Elle nrsquoa pas vocation agrave administrer les bases de donneacutees qui restent sous la responsabiliteacute des eacutequipes qui les produisent ni agrave leur fournir un heacutebergement Toutefois elle peut apporter des conseils sur ces points

Afin de faciliter lrsquoinsertion des bases de donneacutees dans des dispositifs nationaux et internationaux lrsquoUMS BBEES propose un certain nombre de recommandations sur

bull la constitution des corpus et le traitement des donneacutees

bull le choix des outils

bull la structuration des donneacutees

bull les meacutetadonneacutees

bull etc

Ces recommandations sont en lien avec les standards et les normes en vigueur comme la directive europeacuteenne INSPIRE ( 20072CE du 14 mars 2007 ) pour les informations geacuteographiques ou le choix drsquoun reacutefeacuterentiel taxonomique commun aux bases de donneacutees existantes sur la biodiversiteacute ( TaxRef ) et obeacuteissent aux reacuteglementations concernant la proprieacuteteacute intellectuelle dans le domaine particulier des bases de donneacutees

La question de lrsquoidentification et de lrsquoaccessibiliteacute des bases de donneacutees est eacutegalement au cœur des preacuteoccupations de lrsquoUMS BBEES En particulier pour ce qui concerne les bases inactives ( les bases de donneacutees deacuteveloppeacutees dans le cadre de programmes nationaux et stockeacutees sur des ordinateurs personnels p ex ) et les bases en veille ( bases de donneacutees accessibles mais qui ne sont plus alimenteacutees ni exploiteacutees ) Des enquecirctes sont reacuteguliegraverement meneacutees aupregraves des directeurs drsquouniteacutes de recherche dans le but drsquoidentifier lrsquoensemble des bases de donneacutees produites par les uniteacutes ( inactives en veille en deacuteveloppement et actives ) mais aussi pour anticiper et accompagner les demandes de deacuteveloppement de bases dans le cadre de programmes de recherche nationaux et internationaux

LrsquoUMS srsquoattache en outre agrave favoriser la diffusion des bases de donneacutees par leur administrateur au travers drsquoun portail deacutedieacute accessible agrave tous httpwwwbdd-ineecnrsfr Aujourdrsquohui ce portail a permis de recenser et rendre visibles environ 200 bases de donneacutees issues de lrsquoactiviteacute des laboratoires du CNRS-INEE

BBEES est aussi tregraves fortement impliqueacutee dans lrsquoanimation du reacuteseau meacutetier laquo bases de donneacutees raquo creacuteeacute en mai 2012 en collaboration avec la MRCT puis la Mission pour lrsquoInterdisciplinariteacute ( MI ) Lrsquoanimation de ce reacuteseau aujourdrsquohui composeacute de 170 personnes de diffeacuterentes origines institutionnelles ( CNRS-INEE et CNRS-INSHS principalement mais aussi MNHN INRA IRD CIRAD FRB ) permet

bull lrsquoorganisation de reacuteunions theacutematiques

bull lrsquoeacutechange et le partage via la mise en place drsquoune liste de diffusion

INEE

19

Livre Blanc sur les Donneacutees au CNRS Eacutetat des Lieux et Pratiques - 2018

bull la mise en place de formations

bull la reacutealisation de journeacutees de sensibilisation agrave la seacutecurisation et agrave la peacuterennisation des donneacutees

bull et enfin bien eacutevidemment une activiteacute de veille technologique

BBEES est aussi partenaire de plusieurs grands programmes sur le long terme ( description des meacutetadonneacutees des bases deacutejagrave opeacuterationnelles eacutetat des lieux technique creacuteation de nouvelles basesSI ) et participe aux reacuteseaux des Zones Ateliers ( RZA ) et des Observatoires Hommes-Milieux ( ROHM ) ainsi qursquoau projet drsquoinfrastructures nationales en biologie et santeacute AnaEE-France laquo Infrastructure Analyse et drsquoexpeacuterimentation sur les eacutecosystegravemes raquo en srsquoappuyant sur les Ecotrons et les Stations drsquoEcologie expeacuterimentale ( ReNSEE )

Enfin BBEES megravene une activiteacute drsquointervention et de conseil au sein de lrsquoinstitut et est membre du groupe de travail sur les standards de donneacutees du SINP et du groupe utilisateurs du GBIF France

224 La creacuteation drsquoun centre de donneacutees et drsquoexpertise sur la nature

Dans une optique de valorisation de certaines donneacutees le CNRS-INEE a aussi eacuteteacute partenaire de la creacuteation drsquoun centre de donneacutees et drsquoexpertise sur la nature Creacuteeacutee en janvier 2017 lrsquoUniteacute Mixte de Service 2006 Patrimoine naturel ( PatriNat ) assure des missions drsquoexpertise et de gestion des connaissances pour ses trois tutelles que sont le Museacuteum national drsquohistoire naturelle ( MNHN ) lrsquoAgence Franccedilaise de la Biodiversiteacute et le CNRS

Issue drsquoun renforcement des eacutequipes du Service du patrimoine naturel cette uniteacute implanteacutee dans plusieurs sites du MNHN a pour objectif de fournir une expertise scientifique et technique sur la biodiversiteacute et la geacuteodiversiteacute franccedilaise au profit des politiques de connaissance et de conservation Cette mission nationale concerne la meacutetropole et lrsquooutre-mer ainsi que les theacutematiques terrestres et marines Elle est conduite en lien eacutetroit avec les partenaires impliqueacutes sur les enjeux de conservation et de protection de la nature En srsquoappuyant sur les reacutesultats issus des activiteacutes de recherche elle doit contribuer agrave faire eacutemerger des questions scientifiques et des besoins de connaissances partageacutees pour favoriser la prise en compte de la nature dans la socieacuteteacute

Agrave travers ses missions elle srsquoengage agrave diffuser former et sensibiliser les diffeacuterents publics sur les enjeux de biodiversiteacute et de preacuteservation de la nature

Ses trois principales missions concernent

bull La consolidation et la valorisation des donneacutees de biodiversiteacute de geacuteodiversiteacute et des collections naturalistes

LrsquoUMS srsquoattache agrave travailler avec les reacuteseaux naturalistes gestionnaires et de recherche pour deacutevelopper le partage des donneacutees les techniques informatiques et les meacutethodologies neacutecessaires agrave lrsquointeropeacuterabiliteacute des eacutechanges de donneacutees au niveau national et international Elle gegravere ainsi les bases de donneacutees nationales concernant les espegraveces les eacutecosystegravemes les espaces proteacutegeacutes et la geacuteodiversiteacute Elle participe eacutegalement agrave lrsquoidentification des besoins de connaissances naturalistes sur les diffeacuterents territoires La diffusion de cette information brute ou eacutelaboreacutee se fait au niveau national via deux portails principaux que sont lrsquoInventaire National du Patrimoine Naturel ( INPN ) et le GBIF-France pour les liens internationaux

bull La production et la diffusion de reacutefeacuterentiels de meacutethodes de protocoles et drsquoindicateurs

LrsquoUMS pilote ou participe aux travaux scientifiques de construction des reacutefeacuterentiels et bases de connaissance sur les espegraveces et les habitats qui sont neacutecessaires agrave la construction et la diffusion drsquoun savoir structureacute Cette structuration permet agrave lrsquoUMS drsquoagreacuteger ces informations nationales sur la nature ( inventaires eacutevaluations statuts reacuteglementaires etc ) afin de les valoriser par la production de cartes de synthegraveses et drsquoindicateurs drsquoeacutetat de la biodiversiteacute

bull Lrsquoappui scientifique aux politiques publiques et priveacutees en matiegravere drsquoenvironnement

LrsquoUMS apporte dans le cadre de polit iques publiques nationales des directives europeacuteennes sur la biodiversiteacute et des rapportages un appui pour lrsquoanimation technique et scientifique aux services de lrsquoEacutetat aux collectiviteacutes territoriales et aux eacutetablissements publics chargeacutes de la biodiversiteacute et des espaces naturels Elle apporte eacutegalement son expertise scientifique aupregraves des acteurs socio-eacuteconomiques qui mettent en place des actions en faveur de la biodiversiteacute dans leur politique environnementale en particulier dans le cadre de deacutemarche drsquoengagement dans la Strateacutegie nationale pour la biodiversiteacute

20

Livre Blanc sur les Donneacutees au CNRS Eacutetat des Lieux et Pratiques - 2018

225 Conclusion

La probleacutematique des donneacutees est centrale au sein de lrsquoINEE et couvre un tregraves large spectre de probleacutematiques Si un premier effort de recensement et de structuration a pu ecirctre meneacute au cours des derniegraveres anneacutees beaucoup de travail reste cependant agrave faire lrsquoenjeu fondamental eacutetant de promouvoir une veacuteritable laquo culture de la donneacutee raquo de la part des acteurs de la recherche en eacutecologie

En effet le deacuteveloppement drsquoune eacutecologie preacutedictive neacutecessite aujourdrsquohui de pouvoir rassembler ces donneacutees heacuteteacuterogegravenes par nature en un ensemble coheacuterent qui puisse ecirctre analyseacute de faccedilon robuste et reacutepeacutetable Il srsquoagit donc encore drsquoameacuteliorer la pertinence de la collecte des donneacutees dans une deacutemarche drsquoaller et retour entre theacuteorie et donneacutees ( cohabitation entre une eacutecologie theory-driven et data-driven )

Lrsquointeacutegration des donneacutees aux diffeacuterentes eacutechelles drsquoorganisation en eacutecologie reste aussi un enjeu Il srsquoagit maintenant de favoriser le dialogue entre disciplines non seulement entre sciences de la nature et sciences humaines et sociales mais aussi entre sciences de la nature matheacutematiques et sciences de lrsquoinformation

INEE

21

Livre Blanc sur les Donneacutees au CNRS Eacutetat des Lieux et Pratiques - 2018

23 INSTITUT DE PHYSIQUE ( INP )

231 Introduction

La probleacutematique des donneacutees prend plusieurs formes agrave lrsquoINP Celles-ci deacutependent du volume et de la nature des donneacutees Ces derniegraveres vont de quelques dizaines de meacutegaoctets geacuteneacutereacutes par une expeacuterience de laboratoire aux peacutetaoctets produits annuellement dans les TGIR de lrsquoinstitut en passant par les teacuteraoctets issus de simulations dans les grands centres de calcul nationaux ou ceux geacuteneacutereacutes sur la toile et les reacuteseaux sociaux Dans ce qui suit nous eacutevoquerons les questions qui se posent autour des donneacutees agrave lrsquoINP et certaines des solutions envisageacutees dans ces diffeacuterents contextes Nous proceacutederons par ordre deacutecroissant en commenccedilant par les TGIR ougrave la probleacutematique des donneacutees est particuliegraverement aiguumle puis par les grands centres de calcul nationaux les meacutesocentres et les laboratoires Nous terminerons avec quelques mots sur lrsquoimplication de lrsquoINP dans des projets sur les donneacutees de la Commission europeacuteenne

23 2 Les donneacutees dans les infrastructures synchrotrons neutrons et laser agrave eacutelectrons libres de lrsquoINP

Aujourdrsquohui la probleacutematique des grands volumes de donneacutees agrave lrsquoINP se pose de faccedilon particuliegraverement aiguumle dans ses tregraves grands instruments Il srsquoagit drsquoinfrastructures synchrotron neutron et laser agrave eacutelectrons libres certaines ayant une dimension europeacuteenne ou mecircme mondiale Ces infrastructures portent collectivement le nom de PaN pour

le CNRS sont les synchrotrons SOLEIL ( httpwwwsynchrotron-SOLEILfr ) et ESRF ( httpwwwesrfeu ) les infrastructures de diffusion neutronique ILL ( httpwwwilleu ) et Orpheacutee ( httpwww-centre-saclayceafrfrReacteur-Orphee ) et dans le futur lrsquoESS ( httpseuropeanspallationsourcese ) ainsi que depuis peu le laser agrave eacutelectrons libres X-FEL ( httpswwwxfeleu )

Le degreacute drsquoimplication du CNRS dans ces infrastructures et leur statut national ou international sont deacutetailleacutes dans le tableau (p 24) Bien que ces instruments soient ouverts agrave toutes les communauteacutes scientifiques et le sont pour la plupart agrave lrsquointernational crsquoest lrsquoINP qui est leur interlocuteur pour le CNRS Par ailleurs cette diversiteacute drsquoutilisateurs et de pratiques scientifiques fait de ces infrastructures de tregraves inteacuteressants laboratoires pour la gestion et le traitement de donneacutees et des modegraveles pour ce qui pourrait ecirctre fait au niveau de lrsquoINP et plus geacuteneacuteralement du CNRS

SOLEIL

Instruments agrave lrsquoILL

ESRF

22

Livre Blanc sur les Donneacutees au CNRS Eacutetat des Lieux et Pratiques - 2018

Face au fort accroissement du volume des donneacutees geacuteneacutereacutees et la diversiteacute croissante des utilisateurs les infrastructures PaN ont mis en place entre 2008 et 2010 une collaboration europeacuteenne sur les donneacutees nommeacutee laquo PaNdata raquo Elle concerne treize instruments europeacuteens avec pour objectif drsquoeacutetablir une infrastructure commune aux installations PaN qui permet un accegraves commun aux donneacutees et agrave des outils drsquoanalyse et de partage de donneacutees

Sur 2010-2011 cette collaboration a eacuteteacute soutenue par une action de support de lrsquoUnion europeacuteenne laquo PaNdata Europe raquo comprenant des ateliers autour de la standardisation des formats de lrsquoeacutechange drsquoinformation sur les utilisateurs de lrsquointeropeacuterabiliteacute des logiciels drsquoanalyse du reacutefeacuterencement des reacutesultats et de la politique des donneacutees

Srsquoen est suivi un projet INFRA de la Commission PaNdata Open Data Infrastructure ( ODI ) Celui-ci a permis la mise en place drsquoun systegraveme drsquoidentification commun nommeacute laquo Umbrella raquo pour six des treize installations Il a eacutegalement meneacute au choix drsquoun format binaire commun des donneacutees NeXusHDF5 et drsquoun systegraveme de gestion des meacutetadonneacutees laquo ICAT raquo utiliseacute dans trois des infrastructures

INP

23

Livre Blanc sur les Donneacutees au CNRS Eacutetat des Lieux et Pratiques - 2018

Afin de consolider ces avanceacutees et de preacuteparer lrsquoavenir en 2015 le projet laquo PaNDaaS raquo ( data analysis as a service ) a eacuteteacute proposeacute dans le cadre de lrsquoappel INFRADEV-4 de la Commission Plus preacuteciseacutement ce projet de 12 millions drsquoeuros avec vingt partenaires et porteacute par lrsquoESRF avait pour but de proposer aux utilisateurs des infrastructures PaN une plateforme mateacuterielle et logicielle unifieacutee permettant lrsquoanalyse la visualisation et la navigation au travers des donneacutees geacuteneacutereacutees par les instruments sur site ou agrave distance La solution envisageacutee eacutetait de type laquo cloud raquo avec appel possible agrave des infrastructures commerciales Le projet nrsquoa pas eacuteteacute retenu Toutefois un certain nombre des activiteacutes preacutevues dans ce projet continuent agrave avancer sur fonds propres

Parmi celles-ci lrsquoILL megravene lrsquoeffort de mise en place drsquoune politique des donneacutees Une telle politique est devenue indispensable pour la visibiliteacute des TGIR En 2013 lrsquoILL a deacuteployeacute un ensemble complet de services des donneacutees accessible aux utilisateurs au travers drsquoune interface web

Ces services permettent la recherche lrsquoaccegraves lrsquoannotation lrsquoarchivage lrsquoidentification et la publication des donneacutees La mise en place de cette politique a pris cinq ans pour des raisons eacutevoqueacutees ci-dessous Elle est baseacutee sur le cadre donneacute par PaNData selon lequel lrsquoinfrastructure est responsable de la preacuteservation des donneacutees geacuteneacutereacutees sur ses instruments Drsquoautre part gracircce agrave une collaboration avec DataCite et lrsquoINIST les donneacutees brutes sont indexeacutees par un DOI ( Digital Object Identifier ) propre avec un lien sur les scientifiques qui les ont geacuteneacutereacutees au travers drsquoun Research ID drsquoORCID Les meacutetadonneacutees instrumentales sont automatiquement ajouteacutees aux donneacutees brutes par lrsquointerface De plus cette interface relie les projets aux donneacutees et fournit aux utilisateurs des e-logbooks qui permettent de preacuteciser les conditions de lrsquoexpeacuterience et drsquoannoter les donneacutees Le systegraveme fournit une archive centrale en ligne organiseacutee par projet instrument et dates avec un accegraves initialement controcircleacute Les utilisateurs peuvent rendre leurs donneacutees publiques agrave tout moment et doivent le faire dans les trois ans sauf exception accordeacutee par la direction de

Synthegravese des TGIR PaN de lrsquoINP du volume de donneacutees geacuteneacutereacute et de leur politique des donneacutees

24

Livre Blanc sur les Donneacutees au CNRS Eacutetat des Lieux et Pratiques - 2018

lrsquoinfrastructure Elles deviennent alors accessibles au travers drsquoun portail qui les relient aux meacutetadonneacutees logs DOIs etc Elles sont utilisables sous les conditions de la licence CC-BY 40 Toute publication baseacutee sur ces donneacutees doit en citer le DOI et devrait agrave terme figurer dans lrsquoarchive avec ces donneacutees

La mise en place de cette politique des donneacutees a ducirc faire face agrave plusieurs difficulteacutes La premiegravere et peut-ecirctre la plus importante sont les habitudes et mentaliteacutes des utilisateurs qui conccediloivent ces donneacutees fruit de leurs ideacutees et de leur travail comme leur appartenant dans le sens ougrave ils veulent pouvoir les exploiter scientifiquement agrave plein avant de les rendre publiques On peut les comprendre Une autre difficulteacute a eacuteteacute drsquoassocier et de recevoir le soutien des nombreux organismes de recherche associeacutes agrave lrsquoILL Drsquoun point de vue plus technique la collecte drsquoarticles utilisant les donneacutees geacuteneacutereacutees au sein de lrsquoinfrastructure est compliqueacutee du fait des reacutefeacuterencements incomplets ou difficiles agrave identifier dans des recherches automatiseacutees ( p ex DOI des donneacutees inclus dans une figure ) et par le manque drsquooutils de collecte De faccedilon plus geacuteneacuterale une politique des donneacutees est un processus long agrave mettre en place et qui est ralenti par le temps de la science Neacuteanmoins les progregraves sont mesurables comme dans la figure ci-apregraves

A son tour LrsquoESRF mettra en place une politique des donneacutees tregraves similaire agrave celle de lrsquoILL sur toutes ses lignes expeacuterimentales agrave partir de 2020 Cette mise en place a un coucirct non neacutegligeable Par exemple la preacuteservation sur dix ans des donneacutees brutes requiert 100 keuroan de lecteurs et de bandes magneacutetiques suppleacutementaires De plus son implantation occupera 25 ETPsan sur quatre ans

Entre temps le service IT de lrsquoESRF a attaqueacute de front la probleacutematique PaNDaaS du fait de la forte exposition de lrsquoESRF aux gros volumes de donneacutees qui ne fera qursquoaugmenter avec la seconde phase du programme de modernisation de ses lignes qui se terminera en 2022 En effet le volume des donneacutees geacuteneacutereacute par les nouveaux instruments sera tel qursquoil ne sera plus possible de retourner au laboratoire avec ses donneacutees sur un disque Les donneacutees et les outils drsquoanalyse devront donc ecirctre au mecircme endroit Il sera aussi important de preacuteserver et de coupler le workflow des analyses avec les donneacutees elles-mecircmes afin de rendre lrsquoextraction des reacutesultats reproductible

INP

25

Livre Blanc sur les Donneacutees au CNRS Eacutetat des Lieux et Pratiques - 2018

Le but que poursuivent lrsquoESRF et ses collaborateurs PaN est de proposer un service complet allant des donneacutees agrave lrsquoanalyse qui comprend des moyens de calcul des logiciels et de lrsquoexpertise IT tout cela accessible au travers drsquoune interface web Les avantages sont de donner agrave des utilisateurs pas neacutecessairement experts en meacutethodes numeacuteriques non seulement lrsquoaccegraves agrave une infrastructure performante mais aussi agrave des outils drsquoanalyse homogegravenes et certifieacutes Cela permettra drsquoacceacuteleacuterer le processus drsquoanalyse mais aussi de faciliter la collaboration lors de ce processus ainsi que la preacuteservation du workflow Le tout renforcera eacutegalement lrsquoattractiviteacute de lrsquoinfrastructure de recherche Pour mener cette vision agrave terme lrsquoESRF aura investi 3 millions drsquoeuros en ressources humaines entre 2015 et 2020

Lrsquoapproche suivie par lrsquoESRF est de recruter des ingeacutenieurs logiciels pour deacutevelopper une bibliothegraveque qui implante des fonctionnaliteacutes communes agrave de nombreux types drsquoanalyses et de construire les applications scientifiques au-dessus en Open Source sous licence GSL au sein de collaborations geacutereacutees agrave travers Github La vision du service DaaS de lrsquoESRF est illustreacutee par le graphique ci-dessous

Pour conclure sur les TGIR de lrsquoINP les scientifiques du CNRS geacutenegraverent ~800 Toan de donneacutees sur ces instruments un chiffre qui croicirct drsquoanneacutee en anneacutee et de faccedilon encore plus significative avec la modernisation en cours des lignes de SOLEIL et de lrsquoESRF et le deacutemarrage drsquoE-XFEL Malgreacute lrsquoeacutechec en 2015 de la demande INFRADEV-4 laquo PaNDaaS raquo et les nombreux challenges poseacutes par la quantiteacute de donneacutees geacuteneacutereacutees par la varieacuteteacute des instruments et par la diversiteacute des pratiques des communauteacutes qui les utilisent le travail neacutecessaire autour de la probleacutematique de lrsquoorganisation du stockage de la mise agrave disposition et de lrsquoanalyse des donneacutees des infrastructures PaN se poursuit avec succegraves sous lrsquoinitiative efficace de lrsquoESRF de lrsquoILL de SOLEIL et de leurs collaborateurs Ce travail demande des moyens humains et informatiques ainsi qursquoun soutien institutionnel en prioriteacute en ce qui concerne les aspects de proprieacuteteacute intellectuelle

Le CNRS fort de sa multidisciplinariteacute et de sa preacutesence dans ces TGIR pourrait contribuer de plusieurs faccedilons agrave cet effort Le CNRS au travers de projets type Mastodons de la Mission pour lrsquointerdisciplinariteacute etou de Groupements de recherche pourrait encourager la collaboration de scientifiques de diffeacuterents domaines autour de

26

Livre Blanc sur les Donneacutees au CNRS Eacutetat des Lieux et Pratiques - 2018

lrsquoameacutelioration des algorithmes utiliseacutes dans lrsquoanalyse de donneacutees synchrotron par exemple sur le modegravele de CAMERA ( httpwwwcameralblgov ) aux Eacutetats-Unis Plus concregravetement le CNRS pourrait financer des postes ou mois drsquoingeacutenieur pour deacutevelopper des logiciels de traitement de donneacutees synchrotron tels XSOCS ( httpssourceforgenetprojectsxsocs ) Il pourrait eacutegalement donner accegraves agrave des moyens informatiques de type cloud agrave ces TGIR au travers par exemple drsquoun accord avec le CC-IN2P3 ou France Grilles De surcroicirct agrave lrsquoavenir le CNRS pourrait ecirctre le moteur derriegravere la creacuteation drsquoune archive Open Data et le deacuteveloppement drsquoun portail Open Science tel que le Centre de Donneacutees astronomiques de Strasbourg ( httpcdswebu-strasbgfr ) auxquelles les TGIR PaN participeraient

Outre les retours en termes de science aupregraves des TGIR PaN ces expeacuteriences dans lrsquoorganisation le stockage la mise agrave disposition et lrsquoanalyse des donneacutees dans un environnement de diversiteacute drsquoutilisateurs et de

pratiques scientifiques qui restent neacuteanmoins limiteacutees aux probleacutematiques PaN pourraient servir de tremplin agrave la mise en place drsquoune politique de la conservation et de lrsquoexploitation des donneacutees au CNRS

234 Les donneacutees de lrsquoINP dans les centres de calcul nationaux

Si on se place au niveau des centres nationaux de calcul les projets de physique ( CT 5 et 9 ) geacutenegraverent et utilisent au moins temporairement beaucoup de donneacutees avec un total de lrsquoordre de 500 To eacutequivalent au climat hors CMIP6 ( CT1 ) et supeacuterieur agrave lrsquoastrophysique et agrave la geacuteophysique ( CT 4 ) cf figures ci-dessous qui rapportent la quantiteacute de donneacutees preacutesentes sur les disques de travail en feacutevrier 2015 sur les deux calculateurs de lrsquoIDRIS

Donneacutees non peacuterennes agrave lrsquoIDRIS ($WORKDIR)

INP

27

Livre Blanc sur les Donneacutees au CNRS Eacutetat des Lieux et Pratiques - 2018

Neacuteanmoins une grande partie de ces donneacutees ne sont neacutecessaires que dans des eacutetapes intermeacutediaires des calculs ou alors sont preacuteserveacutees ailleurs En effet si lrsquoon considegravere les donneacutees conserveacutees agrave long terme sur bandes magneacutetiques agrave lrsquoIDRIS les physiciens sont des utilisateurs moyens et se retrouvent loin derriegravere les climatologues avec plus de 300 To sur bandes comme lrsquoindique la figure suivante

Pour analyser cette situation de plus pregraves nous prenons comme exemple dans le CT 5 la QCD sur reacuteseau dont les objectifs sont

bull Deacuteterminer les proprieacuteteacutes fondamentales de ces constituants eacuteleacutementaires que sont les quarks

bull Calculer les nombreuses proprieacuteteacutes des protons neutrons et autres hadrons

bull Aider agrave reacuteveacuteler de nouvelles particules eacuteleacutementaires etou interactions fondamentales

bull Agrave plus long terme calculer les proprieacuteteacutes de noyaux atomiques ab initio

Lrsquoapproche consiste agrave reacutesoudre numeacuteriquement les eacutequations de la chromodynamique quantique ( QCD ) parfois coupleacutees agrave celles de lrsquoeacutelectrodynamique quantique ( QED ) dans leur reacutegime hautement non lineacuteaire Une telle approche induit de gros calculs massivement parallegraveles sur des infrastructures nationales et internationales En France 2 eacutequipes contribuent agrave cet effort mondial

bull La European Twisted Mass collaboration ( LPT Orsay LPC Clermont )

bull La Budapest-Marseille-Wuppertal collaboration ( CPT Marseille SPhN Saclay )

Donneacutees preacuteserveacutees sur bandes magneacutetiques agrave lrsquoIDRIS

28

Livre Blanc sur les Donneacutees au CNRS Eacutetat des Lieux et Pratiques - 2018

Du point de vue des donneacutees dans cette activiteacute de recherche ces collaborations repreacutesentent aujourdrsquohui

bull $WORKDIR

o Typiquement 10 To sur Turing

o ETMC pic agrave 23 Po en post-traitement au CC-IN2P3

bull Sauvegarde laquo peacuterenne raquo

o ETMC ~130 To au CC-IN2P3

o BMWc ~50 To au FZ Julich

Il est important de noter que dans ce domaine drsquoactiviteacute des donneacutees acircgeacutees de plus drsquoenviron cinq ans sont pour la plupart obsolegravetes et il devient plus facile de les recalculer si on en a vraiment besoin Bien sucircr il en va autrement pour les donneacutees expeacuterimentales obtenues aupregraves drsquoacceacuteleacuterateurs qui elles ne sont geacuteneacuteralement pas faciles agrave reproduire

Un certain nombre des donneacutees obtenues en QCD sur reacuteseau sont partageacutees au travers de lrsquoInternational Lattice Data Grid ( ILDG ) avec des formats et des meacutetadonneacutees standardiseacutes des protocoles et outils drsquoeacutechange entre grilles reacutegionales et enfin des catalogues sur les grilles reacutegionales Il srsquoagit principalement des configurations de jauge qui sont agrave la base de tout calcul en QCD sur reacuteseau et qui reacutesultent drsquoun processus markovien coucircteux numeacuteriquement

Dans ce domaine on peut eacutegalement faire une projection sur les besoins en matiegravere de donneacutees agrave lrsquoavenir

bull Pour les eacutetudes dont la vocation est la deacutetermination des proprieacuteteacutes fondamentales des quarks les calculs de proprieacuteteacutes de hadrons ou lrsquoaide agrave la reacuteveacutelation drsquoune nouvelle physique fondamentale on anticipe une croissance modeacutereacutee absorbeacutee par le renouvellement des infrastructures de calcul intensif

bull Par contre en ce qui concerne lrsquoeacutetude ab initio des noyaux atomiques qui nrsquoest actuellement qursquoau niveau de balbutiements la croissance du volume des donneacutees sera potentiellement exponentielle dans 5 agrave 10 ans

235 Les donneacutees dans les laboratoires de lrsquoINP

En mars 2015 la DIST a publieacute les reacutesultats drsquoune enquecircte aupregraves des Directrices et Directeurs drsquouniteacutes du CNRS concernant les usages et les besoins drsquoinformation scientifique et technique des laboratoires En srsquoappuyant sur cette enquecircte ainsi que sur des consultations au sein de lrsquoINP nous avons tireacute les conclusions suivantes concernant les donneacutees dans les laboratoires de lrsquoINP

bull Les eacutequipes dans les laboratoires de lrsquoINP engendrent des donneacutees drsquoexpeacuterience et de simulation avec des volumes geacuteneacuteralement geacuterables au niveau local

bull Les eacutequipes de lrsquoINP peuvent aussi contribuer agrave geacuterer des bases de donneacutees par exemple en physique atomique et moleacuteculaire ( typiquement sur un site web un serveur de laboratoire ou un serveur international )

bull Les donneacutees sont geacuteneacuteralement sous la responsabiliteacute des eacutequipes qui les produisent

bull Il y a peu de financements externes lieacutes agrave la gestion de ces donneacutees

bull Peu de demandes eacutemanent des laboratoires sur les donneacutees ( beaucoup plus sur le calcul )

bull Tregraves peu de laboratoires ont un plan de gestion de donneacutees

bull Sur certains sites geacuteographiques il y a une participation minoritaire agrave la mutualisation des infrastructures de donneacutees par exemple dans les salles informatiques du datacentre Virtual Data du LabEx P2IO ( Paris-Saclay ) et au Dark Energy Data Center du LabEx OCEVU ( MarseilleMontpellierToulouse )hellip

bull Il nrsquoy a pas encore de politique sur la gestion des donneacutees dans les laboratoires ni de mutualisation au niveau de lrsquoinstitut

INP

29

Livre Blanc sur les Donneacutees au CNRS Eacutetat des Lieux et Pratiques - 2018

Il y a neacuteanmoins des theacutematiques eacutemergentes dans les laboratoires de lrsquoINP qui pourraient ecirctre confronteacutees agrave la probleacutematique du Big Data telle qursquoelle apparaicirct en lien avec par exemple les reacuteseaux sociaux En effet de petites eacutequipes ( au CPT agrave Marseille ou agrave lrsquoIXXI de Lyon ) eacutetudient les donneacutees de reacuteseaux sociaux ( p ex Twitter ) avec pour but par exemple de comprendre diffeacuterents comportements humains agrave lrsquoaide drsquooutils de physique et de lrsquointelligence artificielle ( p ex analyse des dialectes espagnols ) Dans ce genre drsquoeacutetude on procegravede typiquement agrave lrsquoanalyse de 10-20 To de donneacutees de flux de reacuteseau social qui doivent ecirctre laquo filtreacutees raquo agrave lrsquoaide de fermes de PCs de type Hadoop Les quelques Go de donneacutees obtenues peuvent ensuite ecirctre analyseacutes en local

Dans ce domaine les volumes de donneacutees ont une croissance exponentielle qursquoil sera difficile de suivre Un besoin drsquoacceacuteder agrave des fermes de PCs de type Hadoop se manifeste ainsi qursquoun besoin de formation dans lrsquoutilisation de techniques de data mining et dans la gestion de systegravemes Hadoop La possibiliteacute drsquoutiliser des plateformes commerciales ( Amazon Numergy Cloudwatt ) est une possibiliteacute Ces theacutematiques de recherche sont plus reacutepandues dans drsquoautres instituts ( INS2I INSHS ) et il est souhaitable que les solutions agrave ces challenges soient envisageacutees avec ces instituts

236 Participation aux initiatives europeacuteennes sur les donneacutees

Au travers de lrsquoimplication de ses chercheurs dans les activiteacutes du Centre Europeacuteen de Calcul Atomique et Moleacuteculaire ( CECAM ) lrsquoINP participe au Centre of Excellence for Computing Applications ( CoE ) E-CECAM ( httpswwwe-cam2020eu ) qui a pour vocation la creacuteation de codes modulaires open source la formation de jeunes scientifiques et de personnels de lrsquoindustrie dans le deacuteveloppement et lrsquoutilisation de logiciels deacutedieacutes et le conseil au monde industriel dans les domaines de la structure eacutelectronique la dynamique quantique et moleacuteculaire et la modeacutelisation multi-eacutechelles Par contre il est regrettable que lrsquoimplication de ses chercheurs dans des initiatives telles que le CoE NoMad ( Novel Material Discovery httpsnomad-coeeu ) soit tregraves faible alors qursquoil srsquoagit de mettre en place un dispositif pour heacuteberger organiser et partager agrave lrsquoeacutechelle internationale les donneacutees et reacutesultats de calculs et de simulations en physique et chimie des mateacuteriaux

237 Conclusions

La probleacutematique des donneacutees agrave lrsquoINP se pose surtout au travers des TGIR PaN Geacutereacutees par lrsquoINP ces infrastructures servent des communauteacutes qui vont bien au-delagrave de lrsquoINP et de la France

De gros efforts drsquoharmonisation et de mise en place drsquoune politique des donneacutees et de mutualisation ont eacuteteacute effectueacutes ( PaNdata PaNDaaS ) mais nrsquoempecircchent pas drsquoecirctre confronteacutes agrave diverses difficulteacutes Devant lrsquoaccroissement des donneacutees ces efforts deviennent incontournables Ils pourraient aussi servir de base au deacuteveloppement drsquoune politique de la conservation et de lrsquoexploitation des donneacutees au niveau du CNRS

Drsquoun point de vue stockage de donneacutees sur disques dans les centres de calcul nationaux lrsquoINP occupe de lrsquoordre de 200 Toctets par site en scratch et en laquo peacuterenne raquo le rapport entre Toctets engendreacutes et volume de calcul eacutetant petit Dans les meacutesocentres le stockage des donneacutees INP ne semble pas ecirctre un problegraveme important Au niveau des laboratoires les donneacutees sont geacutereacutees par les eacutequipes qui les geacutenegraverent et qui les utilisent

Il nrsquoy a pas encore de politique des donneacutees de lrsquoINP vis-agrave-vis des donneacutees dans les laboratoires la demande nrsquoeacutetant pas particuliegraverement forte LrsquoINP participe au travers de petites eacutequipes agrave lrsquoexploitation de grandes masses de donneacutees sociales meacutedicales etc en appliquant des meacutethodes de modeacutelisation en partie issues de la physique mais pour lrsquoinstant de faccedilon minoritaire

Drsquoautre part LrsquoINP participe aux deacutefis de la Mission pour lrsquointerdisciplinariteacute sur les donneacutees ( p ex Mastodons ) et au GDR MaDICS mais cela reste marginal aussi

30

Livre Blanc sur les Donneacutees au CNRS Eacutetat des Lieux et Pratiques - 2018

24 INSTITUT DES SCIENCES BIOLOGIQUES ( INSB )

241 Introduction

Crsquoest lrsquoassociation de biologistes comme James Watson de chimistes et de physiciens comme R Franklin et F Crick qui a permis de comprendre en 1953 les bases du fonctionnement de lrsquoADN support de lrsquoinformation geacuteneacutetique entraicircnant une premiegravere reacutevolution celle de la biologie moleacuteculaire La deuxiegraveme reacutevolution celle de la geacutenomique a commenceacute au milieu des anneacutees 1990 et a eacuteteacute marqueacutee par le seacutequenccedilage du geacutenome humain un code de plus de 3 milliards de lettres Ce succegraves a neacutecessiteacute des deacuteveloppements technologiques consideacuterables dans les domaines de la physique de lrsquoeacutelectronique de lrsquoinformatique de la chimie et de la biologie

Pour reacutepondre aux besoins de stockage et drsquoanalyse des seacutequences biologiques ( composeacutees drsquoune succession de 4 nucleacuteotides A C G T pour les seacutequences nucleacuteiques et drsquoune succession de 20 acides amineacutes pour les seacutequences proteacuteiques ) les premiegraveres collections de donneacutees en biologie sont apparues sous la forme de livres ( Atlas of Protein Sequences de Dayhoff et al ( 1965-1978 ) Nucleic Acid Sequences Handbook de Gautier et al ( 1981 ) qui contenait 1095 seacutequences et 525506 nucleacuteotides ) puis de banques de donneacutees informatiseacutees au deacutebut des anneacutees 1980 Trois grands centres se chargent de la collecte des seacutequences nucleacuteiques aux Etats-Unis Los Alamos Sequence Database puis GenBank ( depuis 1979 ) au Japon DNA Data Bank of Japan - DDBJ ( depuis 1984 ) et en Europe European Molecular Biology Laboratory Sequence Database - EMBL-Bank ( depuis 1981 ) Ces banques de donneacutees ont un format de donneacutees qui leur est propre mais une collaboration internationale a eacuteteacute mise en place afin drsquoassurer que le contenu de ces ressources soit pratiquement identique Les seacutequences proteacuteiques quant agrave elles ont eacuteteacute reacutepertorieacutees au NCBI ( National Center for Biotechnology Information Etats-Unis ) dans la PIR ( Protein Information Resource - 1984-2004 ) Aujourdrsquohui une seule ressource est maintenue en Europe UniProt dont la fraction contenant des donneacutees laquocureacuteesraquo Swiss-Prot est prise en charge par lrsquoInstitut Suisse de Bioinformatique ( SIB )

La bioinformatique a eacutemergeacute avec la disponibiliteacute des premiegraveres seacutequences proteacuteiques Lrsquoarticle fondateur de Zukerkandl et Pauling ( 1965 ) preacutesente des analyses informatiques etou matheacutematiques et statistiques sur des seacutequences biologiques pour reconstituer lrsquohistoire eacutevolutive des ecirctres vivants Le terme laquobioinformatiqueraquo srsquoest populariseacute dans les anneacutees 1990 autour de la deacutefinition suivante informatique appliqueacutee agrave la biologie Il srsquoagit de lrsquoensemble des meacutethodes informatiques permettant de ( i ) geacuterer les donneacutees produites en masse par la biologie ( ii ) analyser ces donneacutees brutes pour en extraire de lrsquoinformation ( iii ) organiser et structurer cette information ( iv ) infeacuterer des connaissances biologiques ( agrave lrsquoaide de modegraveles et de theacuteories ) agrave partir des informations stockeacutees dans des collections et ( v ) eacutenoncer des hypothegraveses geacuteneacuteralisatrices et de formuler des preacutedictions En pratique les theacutematiques principales de la bioinformatique sont les suivantes

bull Lrsquoanalyse des seacutequences ( ADN ou proteacuteines ) annotation des geacutenomes phylogeacutenie et eacutevolution geacutenomique comparative analyse de variants dans le cadre de maladies geacuteneacutetiques geacutenomique du cancer

bull Les donneacutees drsquoexpression ( ARN et proteacuteines )

bull La structure des macromoleacutecules ( ARN et proteacuteines )

bull Les reacuteseaux de reacutegulation et lrsquoanalyse du meacutetabolisme

bull La meacutetageacutenomique et meacutetabarcoding

bull Lrsquoanalyse drsquoimages

On assiste agrave un changement drsquoeacutechelle en biologie depuis une dizaine drsquoanneacutees et la biologie est entreacutee avec lrsquoavegravenement des approches ndashomiques ( cf 242 ) dans lrsquoegravere du Big Data En effet le deacuteveloppement des technologies agrave haut deacutebit permet par exemple de collecter les donneacutees agrave lrsquoeacutechelle de la cellule entiegravere et drsquoenvisager une deacutemarche encyclopeacutedique en collectant tous les gegravenes tous les transcrits toutes les proteacuteines toutes les interactions tous les meacutetabolites et les flux etc Les conseacutequences sont consideacuterables tant pour notre compreacutehension du vivant que pour les applications

INSB

31

Livre Blanc sur les Donneacutees au CNRS Eacutetat des Lieux et Pratiques - 2018

Nous pouvons maintenant aborder la complexiteacute du vivant non plus uniquement de maniegravere analytique mais de maniegravere globale agrave lrsquoeacutechelle des dizaines de milliers de macromoleacutecules qui interagissent entre elles pour faire fonctionner une cellule un tissu un organisme entier une communauteacute drsquoorganismes La gestion et lrsquoanalyse de ces gros volumes de donneacutees geacuteneacutereacutees par la biologie est donc un enjeu majeur

242 La probleacutematique des donneacutees agrave lrsquoINSB

Lrsquoavegravenement des approches -omiques ( transcriptomique geacutenomique proteacuteomique et meacutetabolomique ) a tregraves largement contribueacute agrave lrsquoacquisition de connaissances sur les organismes vivants aussi bien modegraveles que non modegraveles Depuis 2007 nous assistons au deacuteveloppement de nouvelles technologies de seacutequenccedilage agrave tregraves haut deacutebit ( NGS Next Generation Sequencing ) qui permettent de produire drsquoimportantes quantiteacutes de seacutequences drsquoADN et ARN

De fait la taille des geacutenomes seacutequenceacutes est extrecircmement variable le plus petit geacutenome ( non viral ) connu est Carsonella ruddii 016 Mbp ( millions or mega of base pairs ) et le plus grand Amoeba dubia une amibe microscopique qui preacutesente un geacutenome 100 fois plus gros que le geacutenome humain ( 675 Giga base pairs )

Une eacutetape preacutealable au seacutequenccedilage des geacutenomes drsquoorganismes vivants consiste agrave deacutecouper ces derniers en millions de fragments ( shotgun sequencing ) La taille des lectures varie de 35 bp jusqursquoagrave 2 x 200 bp pour les seacutequenceurs de 2egraveme geacuteneacuteration ( seacutequences courtes mais de tregraves bonne qualiteacute ) et de 14 kbp agrave 47 kbp pour les seacutequenceurs de 3egraveme geacuteneacuteration ( seacutequences beaucoup plus longues mais contenant un taux drsquoerreur autour de 10 aujourdrsquohui ) Un run de seacutequenccedilage produit 3 milliards de lectures apparieacutees de 2 x 100 bp soit 600 Gbp qui repreacutesentent 48 To de donneacutees laquo brutes raquo et environ 10 To avec les meacutetadonneacutees Les coucircts de seacutequenccedilage sont passeacutes de 10 000 $ agrave 003 $ par million de nucleacuteotides seacutequenceacutes Alors que la croissance de la banque geacuteneacuteraliste EMBL a doubleacute sa taille tous les 187 mois La deacutecroissance du coucirct de seacutequenccedilage nrsquoest plus proportionnelle depuis 2007 agrave la deacutecroissance exponentielle des coucircts de stockage et drsquoanalyse informatique ( loi de Moore )

32

Livre Blanc sur les Donneacutees au CNRS Eacutetat des Lieux et Pratiques - 2018

Ces deux facteurs induisent de multiples problegravemes Des fichiers de donneacutees de plusieurs dizaines ( voire plusieurs centaines ) de Go contenant des dizaines de millions de seacutequences sont geacuteneacutereacutes et engendrent des problegravemes de transfert de stockage et des traitements gourmands en meacutemoire vive espace disque et temps de calcul Il y a donc de plus en plus une neacutecessiteacute impeacuterative drsquoutiliser des clusters de calcul ( meacutesocentres CC-IN2P3 IDRIS CCRT ) Drsquoautre part de moins en moins de seacutequences effectivement produites dans les laboratoires sont soumises aux banques de donneacutees publiques En conseacutequence les trois collections geacuteneacuteralistes ne sont plus exhaustives et lrsquoon assiste agrave un foisonnement de collections locales et de banques de donneacutees speacutecialiseacutees qui pose seacuterieusement la question de la dureacutee de validiteacute de ces systegravemes Au niveau europeacuteen la mise en place

drsquoELIXIR a eacuteteacute une reacuteponse aux difficulteacutes croissantes de lrsquoEBI ( European Bioinformatics Institute ) agrave geacuterer toutes ces donneacutees Il srsquoagit drsquoune initiative lanceacutee en 2007 dans le cadre du programme ESFRI ( infrastructures de recherche europeacuteennes ) lrsquoinfrastructure ELIXIR est constitueacutee drsquoun hub central et de nœuds associeacutes ( 23 pays partenaires aujourdrsquohui ) Les biologistes sont noyeacutes sous une avalanche de donneacutees On estime que lrsquoon passe aujourdrsquohui 25 du temps agrave engendrer les donneacutees et 75 du temps agrave les analyser Aux donneacutees de seacutequences geacutenomiques viennent tout naturellement srsquoajouter celles geacuteneacutereacutees par drsquoautres technologies -omiques transcriptomique proteacuteomique meacutetabolomique structuromique et les donneacutees drsquoimages qui geacutenegraverent des quantiteacutes eacutenormes de donneacutees agrave des niveaux biologiques multiples

INSB

33

Livre Blanc sur les Donneacutees au CNRS Eacutetat des Lieux et Pratiques - 2018

Au niveau national le ministegravere a lanceacute en 2010 les premiers appels agrave projets du Plan drsquoInvestissement drsquoAvenir ( PIA ) qui doit entre autres doter la France de plusieurs grandes infrastructures drsquoenvergure nationale et tregraves compeacutetitives internationalement Les mots-cleacutes derriegravere ces infrastructures distribueacutees recouvrent la mutualisation un service ouvert agrave la communauteacute et une expertise pointue dans une technologie du domaine en eacutemergence

bull France Geacutenomique ( FG ) est lrsquoinfrastructure de production de seacutequences geacutenomiques ( ADN ARN ) Les ordres de grandeur des technologies de seacutequenccedilage ont eacuteteacute donneacutes ci-dessus Les donneacutees des appels agrave grands projets de FG sont geacuteneacuteralement traiteacutees au CCRT ougrave lrsquoeacutecosystegraveme neacutecessaire aux traitements bio-informatiques a eacuteteacute mis en place ( cf ci-dessous )

bull ProFI produit des donneacutees de proteacuteomique la volumeacutetrie associeacutee agrave chaque eacutetude est de lrsquoordre de quelques centaines de Mo qui multiplieacutes par le nombre drsquoeacutetudes meneacutees simultaneacutement repreacutesente de lrsquoordre de 100 To mobiliseacutes

bull FRISBI est une infrastructure deacutedieacutee agrave la biologie structurale inteacutegrative dont les besoins informatiques relegravevent surtout du temps de calcul ( programmes de dynamique moleacuteculaire qui peuvent ecirctre exeacutecuteacutes dans les grands centres de calcul nationaux )

bull MetaboHUB produit des donneacutees de meacutetabolomique et de fluxomique chaque plateforme gegravere ses donneacutees ( environ 20 Toan ) de faccedilon diffeacuterente et opportuniste

bull France-BioImaging produit des donneacutees drsquoimages dans un large panel de modegraveles biologiques ( de la cellule unique au petit animal en condition pathologique ) Les diffeacuterents nœuds de lrsquoinfrastructure produisent annuellement 2 Peacutetaoctets de donneacutees avec des donneacutees par projet unitaire de 100 Go agrave 10 To Le flux de donneacutees neacutecessite de laisser les systegravemes de stockage au plus pregraves des systegravemes drsquoacquisition et des moyens de calcul Il est eacutegalement plus efficace de deacuteplacer les algorithmes et logiciels drsquoanalyse au plus pregraves des donneacutees France-BioImaging a deacuteveloppeacute une solution laquo pilote raquo open source de gestion des donneacutees images qui se precircte agrave cette infrastructure distribueacutee ( httpsstrandlsgithubioopenimadis )

Pour reacutepondre aux besoins bioinformatiques engendreacutes par ces quantiteacutes croissantes de donneacutees de nature tregraves diffeacuterente lrsquoInstitut Franccedilais de Bioinformatique ( IFB ) projet laureacuteat de la seconde vague des appels du PIA ( 2012-2019 ) a eacuteteacute mis en place en 2013 Il est

organiseacute en six centres reacutegionaux ( APLIBIO IFB-GO IFB-SO IFB-GS PRABI et IFB-NE ) qui sont des regroupements de plateformes et drsquoeacutequipes de recherche en bioinformatique et en un nœud national ( IFB-core ) qui a une structure de type UMS IFB-core est localiseacute aujourdrsquohui agrave lrsquoIDRIS ( Orsay ) qui heacuteberge aussi les moyens de calcul de lrsquoIFB Sa mission geacuteneacuterale est de fournir des ressources de base et des services en bio-informatique agrave la communauteacute des sciences de la vie autrement dit

bull Fournir un appui aux programmes de la communauteacute des sciences du vivant

bull Mettre agrave disposition une infrastructure informatique deacutedieacutee agrave la gestion et lrsquoanalyse des donneacutees biologiques

bull Agir comme un laquo intermeacutediaire raquo entre la communauteacute des sciences du vivant et celle de la recherche en ( bio )informatique

LrsquoIFB est le nœud franccedilais du reacuteseau europeacuteen ELIXIR et participe agrave de nombreuses actions et projets de cette infrastructure en termes de deacutefinition de standards et drsquoontologies de contribution agrave la FAIRication des donneacutees ( Findable Accessible Interoperable Reusable ) de mise en place de formation ( e-learning )

Dans sa nouvelle feuille de route lrsquoIFB a deacutecideacute de renforcer les liens avec les autres infrastructures ndashomiques ( c-agrave-d service agrave la communauteacute ) et de deacutevelopper un axe drsquoinnovation de laquo bioinformatique inteacutegrative raquo agrave travers la mise en place de projets pilotes transverses puis dans un second temps drsquoappels agrave deacutefis Le constat global est que le verrou majeur de la production scientifique et donc de sa compeacutetitiviteacute se situe largement du cocircteacute de la gestion de la diffusion et de lrsquointerpreacutetation des donneacutees geacuteneacutereacutees au sein de ces infrastructures LrsquoIFB a un rocircle majeur agrave jouer dans lrsquoaccompagnement de ces besoins en mettant au service de ces infrastructures ses ressources et savoir-faire dans le domaine des technologies du numeacuterique pour la biologie et la santeacute

LrsquoIFB va donc amplifier ces collaborations transversales au service des infrastructures productrices de donneacutees autour de trois axes

bull Mise en place de lrsquoinfrastructure de stockage distribueacute des donneacutees massives et leur mise agrave disposition

bull Mise en place de meacutethodes associeacutees de lrsquointeacutegration de ces donneacutees heacuteteacuterogegravenes et du data mining

34

Livre Blanc sur les Donneacutees au CNRS Eacutetat des Lieux et Pratiques - 2018

bull Deacuteveloppement drsquooutils drsquointerpreacutetation et de visualisation de donneacutees biologiques pour accroicirctre leur utiliteacute et faciliter leur interpreacutetation

Compareacute aux traitements des donneacutees en physique chimie sciences de la Terre etc le traitement des donneacutees biologiques ( notamment lrsquoanalyse des seacutequences ) revecirct plusieurs caracteacuteristiques tregraves diffeacuterentes qui expliquent lrsquoutilisation faible des grands centres de calcul nationaux par cette communauteacute ( i ) beaucoup drsquoanalyses de donneacutees sont distribuables ( paralleacutelisables au niveau les donneacutees ) ( ii ) elles neacutecessitent des enchaicircnements de traitements diffeacuterents ( pipelines workflows ) lrsquoutilisation de collections de donneacutees reacuteguliegraverement mises agrave jour et lrsquointeacutegration de donneacutees heacuteteacuterogegravenes ( iii ) dans la pratique une grande varieacuteteacute de langages est utiliseacutee ( Perl Python Java ) et les nombreux logiciels employeacutes ( c-agrave-d 98 logiciels drsquoalignement de lectures sur un geacutenome ) ont souvent beaucoup de deacutependances ( bibliothegraveques versions ) Typiquement une plateforme de bio-informatique met agrave disposition plusieurs centaines de logiciels diffeacuterents La mise en œuvre de ces logiciels neacutecessite le deacuteveloppement drsquointerfaces conviviales ( web GUI ) de suivre lrsquoeacutevolution tregraves rapide des technologies de production de donneacutees et de mettre agrave jour de faccedilon tregraves reacuteguliegravere de nombreuses collections de donneacutees

A titre drsquoillustration la premiegravere version de la banque de donneacutees de familles de domaines proteacuteiques ProDom a eacuteteacute distribueacutee en 1994 en utilisant comme source primaire de donneacutees celles de la banque UniProtKB ( Swiss-Prot + TrEMBL ) La construction de ProDom srsquoeffectue en deux temps geacuteneacuteration des familles proprement dites puis post-traitements et annotation des familles La construction des familles srsquoeffectue par clustering de segments homologues de proteacuteines Initialement les traitements reposaient sur MkDom2 un algorithme reacutecursif en O( n2 ) baseacute sur lrsquoutilisation du programme PSI-BLAST ProDom en 2002 neacutecessitait 2 mois de temps CPU puis 15 mois en 2006 pour passer agrave plus de 20 anneacutees de temps CPU en 2020 On voit bien ici la neacutecessiteacute de repenser la meacutethode en introduisant une paralleacutelisation des calculs et une compression des donneacutees A partir de lagrave un nouvel algorithme MPI-MkDom3 a eacuteteacute introduit avec diverses ameacuteliorations dont une paralleacutelisation agrave base de MPI La construction des familles de ProDom 2010 avec cette nouvelle version prend moins drsquoune semaine aujourdrsquohui au lieu de plus de 20 ans Les diverses optimisations reacutealiseacutees ont imposeacute entre autres de prendre en compte les probleacutematiques de lrsquoeacutequilibrage de charge entre les processeurs et ont conduit au deacuteveloppement de Paraload un outil drsquoeacutequilibrage de charge dynamique agrave base de modegravele client-serveur

Cette illustration constitue un exemple drsquoutilisation de donneacutees massives en biologie qui neacutecessite des temps de calcul tregraves importants et dont la valeur ajouteacutee provient des reacutesultats des calculs effectueacutes sur les donneacutees laquo brutes raquo que sont les seacutequences proteacuteiques

On peut ainsi constater que la bioinformatique a eu tendance par le passeacute agrave deacutevelopper ses propres infrastructures et affiche une faible utilisation des centres de calcul HPC ( excepteacute pour les simulations de dynamique moleacuteculaire ) De mecircme lrsquoutilisation des meacutesocentres reacutegionaux reste modeacutereacutee Cependant la communauteacute est consciente des difficulteacutes de passage agrave lrsquoeacutechelle des plateformes de bioinformatique et explore lrsquointeacuterecirct de lrsquoutilisation de la grille avec le projet GRISBI sur Grenoble et srsquoimplique dans le deacuteveloppement drsquoun Cloud acadeacutemique ( avec le soutien de lrsquoIBCP de GenOuest et de lrsquoIFB ) qui repose sur les infrastructures nationales de lrsquoIFB et les plateformes reacutegionales Ces plateformes de bioinformatique fournissent un accegraves gratuit agrave leurs infrastructures soit environ 10 000 cœurs et 1 Po de stockage ( sur 20 localisations diffeacuterentes ) alors que le nœud national de lrsquoIFB heacutebergeacute agrave lrsquoIDRIS apporte de lrsquoordre de 10 000 cœurs et 2 Po de stockage

243 Conclusion

Lrsquoensemble de la biologie est impacteacute par la disponibiliteacute des meacutethodes agrave haut deacutebit qui induisent des changements profonds dans les pratiques ( objectifs plans expeacuterimentaux ) Toute analyse neacutecessite deacutesormais de disposer de moyens de calcul conseacutequents ( validations statistiques ) qui doivent ecirctre disponibles aussi bien au niveau national que local

On assiste agrave un veacuteritable changement de paradigme au sein de la biologie avec un besoin deacutecroissant en techniciens sur les paillasses et croissant en analystes de donneacutees qui sont actuellement une denreacutee rare

Il y a obligation de deacutevelopper de nouvelles approches pour la gestion le partage et le traitement des donneacutees en franchissant le seuil de la paralleacutelisation des calculs et en travaillant sur la reacuteduction de la taille des jeux de donneacutees ( eacutechantillonnage compression clustering )

Du point de vue des infrastructures -omiques en compleacutement du rapprochement existant aupregraves de lrsquoinfrastructure national de lrsquoIFB il faudrait inciter les plateformes reacutegionales agrave srsquoappuyer plus fortement sur les meacutesocentres de calcul

INSB

35

Livre Blanc sur les Donneacutees au CNRS Eacutetat des Lieux et Pratiques - 2018

25 INSTITUT DES SCIENCES HUMAINES ET SOCIALES ( INSHS )

251 Introduction

Les donneacutees sont devenues au niveau international un facteur cleacute pour nombre de disciplines SHS ainsi qursquoun domaine en soi Les donneacutees sont une matiegravere convoiteacutee pour la recherche en SHS comme pour drsquoautres secteurs drsquoactiviteacute Produire diffuser tirer de la connaissance des donneacutees est donc une question strateacutegique pour lrsquoInSHS

LrsquoInSHS regroupe des disciplines dans lesquelles les analyses quantitatives baseacutees sur des jeux importants de donneacutees sont depuis longtemps fondamentales ( lrsquoeacuteconomie la sociologie la deacutemographie ) et drsquoautres qui sans ignorer lrsquousage des donneacutees ont vu de maniegravere plus reacutecente lrsquoeacutemergence de probleacutematiques propres au data driven ( litteacuterature histoire )

Une des caracteacuteristiques majeures de la donneacutee en SHS reacuteside dans la tregraves grande heacuteteacuterogeacuteneacuteiteacute des types de donneacutees utiliseacutes par les chercheurs qui vont des donneacutees agreacutegeacutees de la statistique publique jusqursquoagrave des corpus textuels ou drsquoimages en passant par les donneacutees individuelles et nominatives ou pour lrsquoarcheacuteologie par des donneacutees 3D

Cette heacuteteacuterogeacuteneacuteiteacute est renforceacutee par le fait que les chercheurs en SHS disposent de donneacutees de deux origines principales les donneacutees qursquoils ont produites par eux-mecircmes mais aussi de donneacutees produites par la socieacuteteacute comme les donneacutees fournies par la statistique publique ainsi que par le mouvement drsquoopen data ou les corpus fournis par les bibliothegraveques qui peuvent ecirctre interrogeacutes ou combineacutes de maniegravere novatrice

Lrsquoapparition de ces vastes corpus de sources par exemple archeacuteologiques artistiques ou textuelles ou la constitution de grandes bases de donneacutees donnant accegraves aux comportements personnels et sociaux des personnes dans une vaste gamme de domaines modifient en effet la maniegravere dont les chercheurs SHS abordent les objets scientifiques sur lesquels ils travaillent elles leur donnent accegraves agrave un ensemble drsquoinformations qui peuvent ecirctre fouilleacutees automatiquement et appareilleacutees les unes aux autres elles permettent de construire de nouvelles modaliteacutes de validation scientifique agrave cocircteacute des techniques fondeacutees sur lrsquoeacutechantillonnage lrsquoeacutetude de cas ou encore

la veacuterification drsquohypothegraveses ou de theacuteories construites indeacutependamment des donneacutees Ces nouvelles pratiques reacuteinterrogent les cateacutegorisations et grilles drsquoanalyse SHS en mecircme temps qursquoelles posent une seacuterie de questions de nature eacutethique degraves qursquoil srsquoagit de donneacutees individuelles

Cette datafication des sciences sociales et des humaniteacutes est un fait dont les implications ne sont pas toujours bien appreacutehendeacutees par les communauteacutes Elle impose des contraintes nouvelles reacuteflexion sur les standards plan de gestion des donneacutees promulgation de bonnes pratiques prise de recul meacutethodologique et eacutepisteacutemologique LrsquoInSHS agrave travers diffeacuterents dispositifs srsquoemploie agrave diffuser ces bonnes pratiques

Cela passe par un travail de diffusion des probleacutematiques des meacutethodologies lieacutees agrave lrsquousage des donneacutees au sein des diverses communauteacutes scientifiques Cela passe aussi par une articulation forte entre les dispositifs de production drsquoarchivage et de traitement des donneacutees et les communauteacutes scientifiques susceptibles de les utiliser en particulier par le biais de relais locaux sur les sites notamment par les MSH

252 Le dispositif des TGIR SHS

Pour reacutepondre agrave ces deacutefis eacuteviter la dispersion et lrsquoobsolescence des donneacutees produites accompagner les eacutequipes et les chercheurs lrsquoInSHS srsquoappuie sur les deux TGIR SHS dont le CNRS a eacuteteacute deacutesigneacute opeacuterateur par le MESRI la TGIR Huma-Num en charge des humaniteacutes numeacuteriques et la TGIR Progedo en charge de lrsquoaccegraves aux donneacutees de sciences sociales ( statistique publique donneacutees drsquoenquecirctes )

Les deux TGIR se situent agrave lrsquoarticulation des dispositifs europeacuteens de donneacutees en SHS et des dispositifs sur les sites destineacutes agrave favoriser et agrave promouvoir lrsquoaccegraves aux donneacutees de sciences sociales et aux humaniteacutes numeacuteriques

36

Livre Blanc sur les Donneacutees au CNRS Eacutetat des Lieux et Pratiques - 2018

INSHS

Huma-Num

Lrsquoaction de la TGIR Huma-Num ( UMS du CNRS ) est de faciliter le laquo tournant numeacuterique raquo de la recherche en sciences humaines et sociales dans la production et la reacuteutilisation de donneacutees numeacuteriques Il srsquoagit de

bull Deacutevelopper lrsquoappropriation par les communauteacutes scientifiques du cycle de vie des donneacutees numeacuteriques

bull Proposer des services pour les donneacutees au juste niveau et au bon moment

Huma-Num srsquoorganise autour drsquoun certain nombre drsquooutils et de services de projets de recherche de consortiums et de reacuteseaux europeacuteens comme indiqueacute dans la figure ci-dessous

LrsquoUMS Huma-Num est localiseacutee agrave Paris et agrave Lyon au CC-IN2P3 depuis 10 ans

Elle propose un ensemble de services pour les donneacutees numeacuteriques produites en SHS avec des partenariats avec le CC IN2P3 le CINES ( Centre Informatique National de lrsquoEnseignement Supeacuterieur ) et le CCSD ( Centre pour la Communication Scientifique Directe )

A chaque eacutetape du cycle de vie des donneacutees correspond un service deacutedieacute par exemple iRods pour le stockage en coopeacuteration avec le CC-IN2P3 des logiciels drsquoanalyse de donneacutees et de gestions de bases de donneacutees un ensemble drsquooutils de diffusion sur le Web ( p ex pack Nakalona et service de machines virtuelles ) un service drsquoarchivage agrave long terme avec le CINES un service de signalement des donneacutees avec ISIDORE et un service drsquoexposition de donneacutees NAKALA

A cocircteacute de cet ensemble de services Huma-Num seacutelectionne finance et accompagne des consortiums au nombre de 8 agrave 12 destineacutes agrave favoriser lrsquoeacutemergence ou lrsquoimpleacutementation drsquooutils au plus pregraves des besoins des communauteacutes disciplinaires Actuellement les 10 consortiums de Huma-Num repreacutesentent

bull 120 eacutequipes de recherche ( UMR EA )

bull Un reacuteseau de + de 300 chercheurs ingeacutenieurs etc

bull Plus de 50 actions publiques ( formations ateliers seacuteminaireshellip )

Entre 2011 et 2015 plus de 230 actions de coordination nationales dans 16 disciplines majeures des SHS ont eacuteteacute meneacutees plus de 350 fonds drsquoarchivescorpus mis aux normes mis agrave disposition etou signaleacutes 500000 documents issus drsquoarchives scientifiques ont eacuteteacute mis en open access

37

Livre Blanc sur les Donneacutees au CNRS Eacutetat des Lieux et Pratiques - 2018

Enfin Huma-Num constitue la brique franccedilaise de deux dispositifs drsquoinfrastructures europeacuteennes de recherche ( ERIC European Research Infrastructure Consortium ) lieacutees aux donneacutees

bull DARIAH-EU ( Digital Research Infrastructure for the Arts and Humanities )

bull CLARIN ( European Research Infrastructure for Language Resources and Technology )

Un certain nombre drsquooutils deacuteveloppeacutes par Huma-Num sont aujourdrsquohui impleacutementeacutes au niveau europeacuteen via diffeacuterents programmes H2020 en relation avec ces deux ERIC La TGIR dispose donc drsquoune reconnaissance internationale attesteacutee par de nombreuses demandes drsquoexpertise ou de coopeacuteration venues des ERIC et de diffeacuterents pays ( Queacutebec Argentine )

Progedo

La TGIR Progedo opeacutereacutee par lrsquoUMS Progedo ( CNRS-Ehess ) est lrsquoacteur central en matiegravere de production et de gestion de donneacutees en sciences sociales Lrsquoinfrastructure a pour mission de hausser le niveau de structuration nationale des communauteacutes de recherche en deacuteployant une strateacutegie de deacuteveloppement entre les organismes de recherche les grands eacutetablissements et les universiteacutes et de renforcer la position de la France dans lrsquoespace europeacuteen de la recherche

Pour ce faire Progedo organise lrsquoappui agrave la collecte agrave la documentation agrave la preacuteservation et agrave la promotion drsquoun vaste ensemble de donneacutees neacutecessaires aux disciplines des sciences humaines et sociales dans un cadre conforme agrave la leacutegislation et la regraveglementation en vigueur concernant la protection des donneacutees individuelles Elle favorise la diffusion de ces donneacutees pour la recherche soutient la reacutealisation de grandes enquecirctes et bases de donneacutees repreacutesentatives neacutecessaires agrave la recherche et participe agrave la mise en place des dispositifs seacutecuriseacutes drsquoaccegraves aux donneacutees individuelles

38

Livre Blanc sur les Donneacutees au CNRS Eacutetat des Lieux et Pratiques - 2018

Progedo constitue la tecircte de reacuteseau de diffusion nationale des donneacutees produites Elle srsquoappuie actuellement sur quatre entiteacutes

bull Deux eacutequipes lieacutees au CNRS

o lrsquoADISP qui met agrave disposition les donneacutees de la statistique publique agreacutegeacutees

o le CDSP avec Sciences Po Paris qui deacuteploie la mise agrave disposition des donneacutees produites par les chercheurs en sciences politiques principalement

bull Le service des enquecirctes de lrsquoINED

bull LrsquoEquipex CASD porteacute par le GENES ( INSEE ) pour lrsquoaccegraves seacutecuriseacute aux donneacutees en particulier aux donneacutees individuelles en les anonymisant

Progedo est la seule structure nationale de mise agrave disposition des donneacutees en sciences sociales Elle est construite comme une ombrelle destineacutee agrave couvrir tout le champ neacutecessaire autour des donneacutees drsquoenquecirctes pour la recherche Elle srsquoorganise en quatre deacutepartements qui correspondent agrave quatre grands types de donneacutees en sciences sociales

Ces quatre deacutepartements regroupent les activiteacutes correspondant agrave trois ERIC

bull CESSDA ( donneacutees de la recherche et de la statistique publique )

bull ESS ( donneacutees de sciences politiques et enquecirctes drsquoopinion )

bull SHARE ( donneacutees de santeacute )

et un ERIC en projet GGP ( relations familiales approches longitudinales des dynamiques familiales )

En tant que structure de coordination son peacuterimegravetre peut donc ecirctre appeleacute agrave srsquoeacutetendre agrave drsquoautres types de donneacutees de sciences sociales Cette position surplombante assure agrave terme la coheacuterence de lrsquoensemble des dispositifs franccedilais de mise agrave disposition des donneacutees et leur parfaite articulation avec un eacutechelon europeacuteen dont les contours sont encore agrave deacutefinir Progedo est donc destineacutee agrave ecirctre le relais franccedilais vis-agrave-vis de toutes les infrastructures europeacuteennes de donneacutees de sciences sociales existantes et agrave venir Cette organisation qui donne une visibiliteacute sur tous les dispositifs ERIC centres de compeacutetences et services nationaux ne se retrouve pas ailleurs en Europe et est un atout face agrave des modes drsquoorganisation nationaux geacuteneacuteralement plus cloisonneacutes geacuteneacuterateurs de coucircts suppleacutementaires et de doublons et un paysage europeacuteen des donneacutees non stabiliseacute

INSHS

PLATES-FORMES UNIVERSITAIRES DE DONNEacuteESavec le RnMSH les MSH et Universiteacutes de Lille Caen Lyon Nantes Strasbourg Dijon

ANIMATION SCIENTIFIQUE

PRODUCTIONENQUEcircTE

DEPARTEMENT GGP-FRANCE

DIFFUSION

ANIMATION SCIENTIFIQUE

DEPARTEMENT QUETELET PROGEDO DIFFUSION(Cessda - FranCe)

ANIMATION SCIENTIFIQUE

PRODUCTIONENQUEcircTE

DEPARTEMENT ESS-FRANCE

ANIMATION SCIENTIFIQUE

PRODUCTIONENQUEcircTE

DEPARTEMENT SHARE-FRANCE

UMS PROGEDO ANIMATION GEacuteNEacuteRALE

CONSEIL SCIENTIFIQUE

COMITEacute DE PILOTAGE

tutelles EHESSCNRS

39

Livre Blanc sur les Donneacutees au CNRS Eacutetat des Lieux et Pratiques - 2018

Implanteacutee en reacutegion gracircce agrave ses plateformes universitaires de donneacutees ( PUD ) Progedo est un acteur essentiel pour la formation agrave lrsquousage des donneacutees de la recherche Ces PUD sont des portes drsquoentreacutee dans le monde des donneacutees pour des publics parfois tregraves eacuteloigneacutes par leur parcours universitaire et leurs pratiques scientifiques des techniques statistiques Avec la mise en reacuteseau des PUD la TGIR srsquoattache agrave deacutevelopper conjointement lrsquoaccegraves aux ressources et agrave la compeacutetence collective des utilisateurs une double condition neacutecessaire pour permettre agrave la France drsquoecirctre au bon niveau international Les PUD installeacutees au sein des communauteacutes sur les sites universitaires dans les MSH lieu de deacutecloisonnement par excellence constituent un levier essentiel Lrsquoobjectif est drsquoouvrir 20 nouvelles PUD dans les trois ans 9 le sont actuellement

Articulation avec les autres producteursdiffuseur de donneacutees

Le dispositif de donneacutees SHS se construit autour de ces deux pocircles majeurs que sont Huma-Num et Progedo mais aussi en articulation avec une seacuterie drsquoautres infrastructures ou de dispositifs qui soit mettent agrave disposition des donneacutees soit assurent leur diffusion aupregraves des communauteacutes de recherche Les TGIR travaillent donc agrave favoriser la conservation agrave garantir lrsquointeropeacuterabiliteacute le moissonnage la diffusion de donneacutees ou de standards produits par drsquoautres infrastructures de nature speacutecifique telles que

bull Open Edition

bull Perseacutee

bull la chaicircne eacuteditoriale XML-TEI METOPES19

Les deux TGIR sont donc fortement articuleacutees autour de ces 3 IR inscrites sur la feuille de route nationale des infrastructures

Elles travaillent eacutegalement en eacutetroite collaboration avec les 23 MSH reacuteparties sur les sites ougrave elles trouvent des relais efficaces agrave la fois pour la mise agrave disposition des donneacutees la diffusion de la pratique des donneacutees et du numeacuterique dans les communauteacutes de chercheurs

19 httpwwwunicaenfrrecherchemrshdocument_numeriqueprojetsmetopes

253 Conclusion

Les enjeux pour lrsquoInSHS en matiegravere de donneacutees sont au moins au nombre de quatre

- Organiser des dispositifs de gestion des donneacutees qui assurent leur peacuterenniteacute leur interopeacuterabiliteacute et leur large diffusion et qui tiennent compte en mecircme temps de la tregraves grande varieacuteteacute des types de donneacutees SHS

- Encourager le tournant numeacuterique et conduire les chercheurs agrave prendre la mesure du tournant eacutepisteacutemologique que constitue le deacuteveloppement des donneacutees pour tous les champs disciplinaires SHS Il srsquoagit de deacutevelopper dans les communauteacutes une laquo culture de la donneacutee raquo propre agrave reacutesoudre ce paradoxe qui fait que la France est un des plus importants producteurs de donneacutees ( du fait notamment de lrsquoancienneteacute de sa statistique publique ) mais qursquoelles sont sous-utiliseacutees par ses chercheurs

- Contribuer agrave aider la socieacuteteacute agrave construire des reacuteponses adapteacutees aux deacutefis poseacutes par la constitution de grandes bases de donneacutees dont les possibiliteacutes de traitement automatique drsquoappariement et de croisement interrogent les dispositifs de protection des donneacutees personnelles les liberteacutes individuelles et le droit agrave la vie priveacutee Ce rocircle doit ecirctre mieux identifieacute par les speacutecialistes des autres sciences et par les deacutecideurs publics

- Contribuer au deacuteveloppement des initiatives autour de lrsquoopen data et agrave la reacuteflexion sur leurs impacts sur les sciences et sur la socieacuteteacute qui sont au cœur de la strateacutegie nationale de recherche ( Deacutefi 7 Socieacuteteacute de lrsquoinformation et de la communication - Orientation 25 Systegravemes sucircrs drsquoexploitation des grandes masses de donneacutees Deacutefi 8 Socieacuteteacutes innovantes inteacutegratives et adaptatives - Orientation 29 Seacutecurisation et optimisation de lrsquoextraction des donneacutees )

40

Livre Blanc sur les Donneacutees au CNRS Eacutetat des Lieux et Pratiques - 2018

26 INSTITUT DES SCIENCES DE LrsquoINGENIERIE ET DES SYSTEMES ( INSIS )

261 Introduction

LrsquoInstitut des Sciences de lrsquoIngeacutenierie et des Systegravemes ( INSIS ) rassemble environ 6000 chercheurs et enseignants-chercheurs ( dont 961 chercheurs CNRS et 5026 enseignants-chercheurs ) reacutepartis dans une centaine drsquouniteacutes de recherche Ses theacutematiques couvrent une partie des sections 4 ( fusion par confinement magneacutetique ITER ) 7 ( signal image automatique robotique ) 30 ( bio ingeacutenierie ) la totaliteacute des sections 8 ( micro et nano-technologies eacutelectronique photonique eacutelectromagneacutetisme eacutenergie eacutelectrique ) 9 ( ingeacutenierie des mateacuteriaux et des structures meacutecanique des solides acoustique ) et 10 ( milieux fluides et reacuteactifs transports transferts proceacutedeacutes de transformation ) du Comiteacute National

LrsquoInstitut est donc multi-theacutematiques et comporte de nombreuses disciplines qui utilisent agrave peu pregraves toutes lrsquooutil de simulation Cependant les ingeacutenieurs se sont lanceacutes tregraves tocirct dans la simulation avec des moyens et des deacuteveloppements algorithmiques propres adapteacutes aux laquo systegravemes raquo ce qui fait que les pratiques en matiegravere de simulation sont heacuteteacuterogegravenes Il y a notamment une asymeacutetrie entre la proportion de recherche impliquant la simulation en meacutecanique des fluides au sens large ( incluant la combustion ) et les autres disciplines

En ingeacutenierie des systegravemes la numeacuterisation entre en jeu non seulement pour la simulation mais pour les expeacuteriences ou les modegraveles ainsi les donneacutees numeacuteriques sont manipuleacutees dans de nombreux contextes En voilagrave quelques-uns agrave titre drsquoexemple

bull Capteurs en reacuteseau les eacutechanges drsquoinformation issus de mesures provenant de diffeacuterents capteurs notamment pour le controcircle des systegravemes neacutecessitent des techniques et algorithmes speacutecifiques de gestion de flots de donneacutees ainsi que pour le post-traitement des masses de donneacutees qursquoil srsquoagit aussi de stocker ou archiver

bull Reacuteseaux en geacutenie eacutelectrique des probleacutematiques similaires de mise en place de strateacutegies de gestion des donneacutees pour la production et la distribution de lrsquoeacutenergie eacutelectrique

bull Meacutecanique pour le vivant cela concerne lrsquoimagerie meacutedicale pour les tissus vivants avec de nombreuses questions pour les donneacutees concernant leur qualiteacute leur stockage leur confidentialiteacute Des volumes de donneacutees importants peuvent ecirctre produits notamment en eacutelastographie transitoire baseacutee sur le couplage drsquoun prototype drsquoimagerie eacutechographique capable drsquoatteindre des cadences eacutechographiques supeacuterieures agrave 5000 images par seconde

bull Acoustique il srsquoagit principalement des questions drsquoingeacutenierie des ondes acoustiques concernant leur propagation et transmission mais les donneacutees en aeacuteroacoustique ont un lien direct avec la meacutecanique des fluides et cette theacutematique est aussi relieacutee avec la meacutecanique des vibrations au travers de lrsquointeraction fluide-structure

bull Meacutecanique des solides structures et mateacuteriaux la prise en compte des non lineacuteariteacutes comportementales des mateacuteriaux dans les meacutethodes de changement drsquoeacutechelle est effectueacutee au moyen de modeacutelisations theacuteoriques associeacutees agrave des outils numeacuteriques innovants ( eacuteleacutements finis eacutetendus transformations de Fourier rapides ou FFT techniques de reacuteduction de modegraveles etc ) Pour les mateacuteriaux et les structures les mesures de deacuteplacement ou de champs sont de nos jours baseacutees sur de lrsquoimagerie 2D et 3D notamment en tomographie avec des techniques multiples utilisant la lumiegravere visible les infrarouges les rayons X etc Ceci est tout particuliegraverement utile pour le controcircle des deacutefauts ou de lrsquousure des mateacuteriaux

bull Meacutecanique des fluides la theacutematique couvre tous les pheacutenomegravenes fluides agrave toutes les eacutechelles allant de la microfluidique aux eacutechelles geacuteophysiques et astrophysiques Les simulations numeacuteriques directes notamment en turbulence qui y sont reacutealiseacutees sont parmi les plus consommatrices de temps de calcul et productrices de donneacutees comme illustreacute plus en deacutetail ci-apregraves

INSIS

41

Livre Blanc sur les Donneacutees au CNRS Eacutetat des Lieux et Pratiques - 2018

On se rend donc bien compte que les questions scientifiques agrave lrsquoINSIS portent sur des probleacutematiques multi-physiques qui sont reacutesolues numeacuteriquement par lrsquoapplication drsquoalgorithmes pour le calcul haute performance crsquoest-agrave-dire le calcul parallegravele mais aussi le Cloud computing Le passage agrave lrsquoeacutechelle pour des systegravemes complexes reacuteels en ingeacutenierie neacutecessite ainsi une hieacuterarchie drsquoapplications qui permet en outre drsquoaborder explicitement les aspects multi-eacutechelles Les systegravemes multi-physiques neacutecessitent notamment le couplage entre codes de nature diffeacuterente Crsquoest la probleacutematique geacuteneacuterique des intergiciels ( parmi lesquels les logiciels de couplage comme OpenPALM ) mais ceci introduit la difficulteacute suppleacutementaire poseacutee par lrsquoheacuteteacuterogeacuteneacuteiteacute des donneacutees agrave stocker et agrave analyser

Lrsquoinstitut est donc un des principaux utilisateurs du calcul haute performance au CNRS comme lrsquoattestent notamment les attributions drsquoheures de calcul par GENCI dans deux comiteacutes theacutematiques parmi dix concernant seacutepareacutement les eacutecoulements reacuteactifs drsquoune part et les eacutecoulements non reacuteactifs drsquoautre part

Ce poids de lrsquoINSIS cache en fait une tregraves grosse dispariteacute selon les theacutematiques plus de 90 des ressources sur les centres nationaux sont consommeacutees par la meacutecanique des fluides au sens large du terme deacutefinie ici comme reacutesolution des eacutequations de Navier-Stokes et des eacutequations associeacutees ( meacutecanique des fluides combustion eacutecoulements diphasiques transferts thermiques plasmas magneacutetohydrodynamique aeacuteroacoustique transport seacutedimentairehellip ) par un petit nombre de laboratoires ( moins drsquoune dizaine ) et de chercheurs rattacheacutes pour la plupart agrave la section 10 du Comiteacute National Les communauteacutes laquo meacutecanique des solides raquo et laquo mateacuteriaux et structures raquo bien que revendiquant une activiteacute calcul intensif sont absentes un seul projet tandis que les quelques projets interaction fluidestructure sont le fait de laboratoires nettement identifieacutes laquo meacutecanique des fluides raquo Les projets restants concernent lrsquoeacutelectromagneacutetisme lrsquointeraction lasermatiegravere et la chimie ( calculs ab-initio diagramme de phasehellip )

262 La probleacutematique des donneacutees agrave lrsquoINSIS

La probleacutematique des donneacutees agrave lrsquoINSIS est donc principalement lieacutee agrave la gestion des gros volumes de donneacutees qui sont produits dans le domaine de la simulation numeacuterique et a pour enjeux

bull La modeacutelisation de pheacutenomegravenes avec eacutevolution dans le temps ce qui implique quatre dimensions agrave traiter pour des pheacutenomegravenes spatiaux tridimensionnels ( 3D )

bull Le caractegravere aleacuteatoire de certains comportements qui neacutecessite donc une approche probabiliste La repreacutesentation fidegravele de ces pheacutenomegravenes dans toute leur variabiliteacute reacuteclame de nombreuses reacutealisations drsquoune mecircme expeacuterience ou simulation drsquoougrave la neacutecessiteacute drsquoun stockage et drsquoun traitement statistique a posteriori

bull La visualisation de pheacutenomegravenes complexes multidimensionnels passe par un rendu visuel pour une compreacutehension des pheacutenomegravenes instationnaires avec plus ou moins de reacutealisme dans le rendu spatial En revanche la simulation en temps reacuteel de pheacutenomegravenes rapides nrsquoest que tregraves rarement possible Ainsi le suivi de calculs instationnaires passe par la mise en place de techniques de visualisation agrave la voleacutee qui ne permettent qursquoune observation partielle de lrsquoinstationnariteacute

bull Lrsquoadaptation des codes aux nouveaux algorithmes lieacutes agrave lrsquoeacutevolution technologique et aux nouvelles architectures mateacuterielles notamment les acceacuteleacuterateurs de type GPU dont lrsquoutilisation requiert une adaptation des formats de repreacutesentation des donneacutees internes au calculateur afin de tirer parti de lrsquoarchitecture vectorielle du processeur

bull La creacuteation de formats drsquoenregistrement de donneacutees non seulement compatibles avec la nature de celles-ci selon les disciplines mais aussi lrsquoutilisation de formats compatibles avec des entreacutees-sorties adapteacutees agrave des transferts massifs de champs en simultaneacute par des dizaines voire des centaines de milliers de processeurs dans le cadre de systegravemes de fichiers paralleacuteliseacutes

42

Livre Blanc sur les Donneacutees au CNRS Eacutetat des Lieux et Pratiques - 2018

263 Illustration la question des donneacutees en meacutecanique des fluides

Comme mentionneacute en introduction la meacutecanique des fluides inertes et reacuteactifs repreacutesente une partie tregraves importante dans la production de donneacutees au travers drsquoune repreacutesentation majoritaire des heures de calcul sur les calculateurs nationaux au niveau Tier 1

La simulation produit ainsi des quantiteacutes importantes de donneacutees mais il en va de mecircme pour certaines expeacuteriences dans lesquelles la meacutetrologie a fait un tel progregraves qursquoelle aboutit agrave des volumes de donneacutees aussi importants que les plus grosses simulations Il srsquoagit par exemple de la technique de veacutelocimeacutetrie par imagerie de particules ( Digital Particle Image Velocimetry ou DPIV ) qui permet agrave preacutesent drsquoacqueacuterir agrave des freacutequences tregraves eacuteleveacutees des champs de vitesse reacutesolus spatialement et en temps Les expeacuteriences utilisent des cameacuteras rapides agrave haute reacutesolution et haute freacutequence qui enregistrent les donneacutees brutes directement sur des systegravemes de meacutemoires rapides ( disques de type SSD ) agrave la voleacutee Une seule expeacuterience est capable de produire en une journeacutee jusqursquoagrave 400 To de donneacutees

De mecircme les simulations numeacuteriques directes en turbulence utilisent des algorithmes pseudo-spectraux agrave mecircme de repreacutesenter toutes les eacutechelles drsquoun eacutecoulement Si la puissance actuelle des calculateurs ne permet pas encore de couvrir des gammes drsquoeacutechelles aussi larges que celles rencontreacutees dans les eacutecoulements geacuteophysiques mdash allant du centimegravetre agrave des centaines de kilomegravetres pour lrsquoatmosphegravere mdash les reacutesolutions les plus grandes possible sont rechercheacutees pour une bonne repreacutesentation des pheacutenomegravenes de transfert drsquoeacutenergie et de dispersion Des simulations utilisant des maillages de 40963 points produisent un volume drsquoenviron 15To par iteacuteration de calcul qui se comptent en milliers pour repreacutesenter correctement les fluctuations rapides temporelles Ceci deacutepasse la capaciteacute de stockage alloueacutee agrave un utilisateur sur les grands centres de calcul nationaux Cette difficulteacute impose un stockage drsquoun petit nombre de champs pour lrsquoanalyse exhaustive des indicateurs statistiques des signaux et seules des statistiques choisies en petit nombre sont calculeacutees agrave la voleacutee afin de ne pas impacter la performance du calcul

Par ailleurs les instabiliteacutes hydrodynamiques qui peuvent se produire dans des eacutecoulements complexes utilisent des meacutethodes de continuation selon de nombreux paramegravetres relatifs agrave lrsquoinstabiliteacute eacutetudieacutee Lrsquoalgorithme de suivi est efficace srsquoil utilise

une infrastructure de grille de calcul qui permet drsquoeffectuer un tregraves grand nombre de calculs de taille reacuteduite chacun pour un jeu de paramegravetres diffeacuterents Ceci se reacutealise par le biais de reacuteseaux drsquointerconnexion au travers desquels sont envoyeacutes le code et les paramegravetres sur chaque nœud de calcul qui renvoient les reacutesultats agrave lrsquoissue de la simulation Plusieurs milliers de nœuds peuvent ecirctre impliqueacutes Cette technique est notamment utiliseacutee pour la stabiliteacute drsquoeacutecoulements cisailleacutes eacutetudieacutee gracircce aux moyens du CC-IN2P3 ougrave un environnement de calcul tregraves favorable adapteacute au traitement des donneacutees des collisionneurs est mis en œuvre

Plusieurs questions se posent concernant le statut et le devenir des donneacutees produites

- Quelle est la dureacutee de vie des donneacutees Par exemple concernant leur reacutealisation au niveau technique des simulations agrave reacutesolution 10243 avaient un caractegravere exceptionnel il y a 7 ans mais peuvent ecirctre reproduites aiseacutement avec les moyens actuels Faut-il donc stocker des donneacutees au-delagrave drsquoune peacuteriode relativement courte apregraves laquelle les moyens de calcul permettront leur reproduction agrave un coucirct neacutegligeable

- De nombreuses eacutequipes produisent des bases de donneacutees importantes en quantiteacute et en qualiteacute qui sont sous-exploiteacutees mais qui peuvent ecirctre utiles agrave une eacutequipe srsquointeacuteressant agrave la dynamique du fluide sous un point de vue diffeacuterent Comment peut-on eacuteviter de dupliquer les mecircmes expeacuteriences ou simulations Et dans une logique eacutetendue comment peut-on mettre ces donneacutees agrave disposition de la communauteacute scientifique globale Quelle dureacutee drsquoembargo doit-on imposer avant diffusion geacuteneacuterale

- Quelles sont alors les modaliteacutes de stockage et drsquoeacutechange agrave adopter Ceci pose agrave la fois la question du format des fichiers mais aussi des meacutetadonneacutees agrave lui associer

- Faut-il archiver des donneacutees et pour quelle peacuteriode

Au niveau national au-delagrave des stockages temporaires deacutedieacutes agrave des projets attributaires drsquoheures de calcul sur les grands centres nationaux ou meacutesocentres il nrsquoexiste pas agrave notre connaissance drsquoinitiative globale pour la gestion des donneacutees en meacutecanique des fluides En outre sur les grands centres les politiques de reacutetention de donneacutees et les capaciteacutes des serveurs ne permettent pas le stockage sur des longues dureacutees ou le partage large des donneacutees massives

INSIS

43

Livre Blanc sur les Donneacutees au CNRS Eacutetat des Lieux et Pratiques - 2018

Au niveau europeacuteen on peut mentionner la base de donneacutees Turbase ( httpsturbasecinecait ) qui porte sur les donneacutees en turbulence Cette base utilise lrsquoinfrastructure italienne CINECA situeacutee agrave Bologne qui est un des grands centres europeacuteens participant agrave PRACE20 Des moyens ont eacuteteacute alloueacutes par EuHIT ( projet europeacuteen visant principalement agrave deacutevelopper lrsquoouverture des expeacuteriences de grande taille en turbulence mais avec aussi un volet laquo donneacutees raquo ) pour deacutevelopper Turbase

Agrave lrsquointernational on peut mentionner la base ouverte agrave lrsquouniversiteacute de Johns Hopkins ( Baltimore Etat du Maryland aux USA httpturbulencephajhuedu ) qui outre le stockage et le partage des donneacutees brutes offre une fonctionnaliteacute suppleacutementaire pour extraire une sous-partie de lrsquoinformation ou produire des statistiques associeacutees

On constate cependant lrsquoabsence de standard commun drsquoorganisation des donneacutees ( ( usage de HDF5 VTK donneacutees brutes ou compresseacuteeshellip ) ou des meacutetadonneacutees qui permettent drsquoidentifier exactement la nature et la qualiteacute des donneacutees

20 Partnership for Advanced Computing in Europe ( httpwwwprace-rieu )

264 Conclusion

Lrsquoingeacutenierie srsquoest empareacutee tregraves tocirct de lrsquooutil de simulation avec un modegravele de deacuteveloppement de meacutethodes au niveau de chaque laboratoire voire eacutequipe notamment en meacutecanique des fluides Gracircce agrave une monteacutee en compeacutetence importante due agrave lrsquoattribution de moyens aux laboratoires acadeacutemiques agrave la fois humains et mateacuteriels ce modegravele a eacuteteacute favorable au deacuteveloppement drsquoune reacuteelle expertise en simulation La gestion des donneacutees a susciteacute moins de reacuteflexion et drsquoorganisation en profondeur ce qui fait que lrsquoaugmentation des capaciteacutes de simulation mdash et agrave preacutesent des nouvelles meacutetrologies expeacuterimentales mdash nrsquoa pas eacuteteacute suivie drsquoune augmentation des capaciteacutes de stockage de traitement et drsquoarchivage des donneacutees On se trouve agrave preacutesent dans une situation dans laquelle on est en capaciteacute de reacutealiser des simulations agrave tregraves haute reacutesolution sans savoir complegravetement en traiter les reacutesultats ni ougrave les entreposer

Il srsquoagit donc agrave preacutesent de faire progresser les structures fonctionnelles et mateacuterielles pour geacuterer le patrimoine scientifique que constituent les donneacutees issues de simulations numeacuteriques mais aussi de reacutealisations expeacuterimentales qui sont confronteacutees aux mecircmes probleacutematiques

44

Livre Blanc sur les Donneacutees au CNRS Eacutetat des Lieux et Pratiques - 2018

27 INSTITUT NATIONAL DES SCIENCES MATHEMATIQUES ET DE LEURS INTERACTIONS ( INSMI )

271 Introduction

La mission de lrsquoInsmi est de deacutevelopper et de coordonner les recherches dans les diffeacuterentes branches des matheacutematiques allant des aspects fondamentaux aux applications LrsquoInsmi contribue agrave la structuration de la communauteacute matheacutematique franccedilaise et agrave son insertion dans la communauteacute internationale Elle rassemble 3600 chercheurs et enseignants-chercheurs dont plus de 400 chercheurs CNRS

Tout en soutenant les diffeacuterents domaines des matheacutematiques lrsquoInsmi cherche agrave promouvoir les recherches agrave lrsquointerface avec les autres disciplines scientifiques ainsi que les interactions avec la socieacuteteacute et le monde industriel Comme le souligne un reacutecent rapport ameacutericain ( The mathematical sciences in 2025 The National Academies Press Etats-Unis ) les possibiliteacutes drsquointeraction entre les matheacutematiques et le monde exteacuterieur sont consideacuterablement accrues drsquoune part par la geacuteneacuteralisation de simulations numeacuteriques baseacutees sur des concepts matheacutematiques et rendues possibles par des outils informatiques de plus en plus puissants drsquoautre part par lrsquoaccroissement exponentiel de donneacutees massives agrave traiter La communauteacute matheacutematique est donc fortement solliciteacutee et mobiliseacutee pour reacutepondre aux enjeux lieacutes aux traitements des donneacutees et au calcul scientifique

Comme lrsquoa souligneacute une eacutetude de lrsquoimpact socio-eacuteconomique des Matheacutematiques en France reacutealiseacutee en 2015 la contribution primordiale des matheacutematiques dans le deacuteveloppement de technologies cleacutes sera appeleacutee agrave se renforcer via la maicirctrise par les entreprises de plusieurs champs de compeacutetences strateacutegiques fondeacutes au moins partiellement sur les matheacutematiques

bull Traitement du signal et analyse drsquoimages

bull Data Mining ( statistiques analyse de donneacutees et apprentissage )

bull MSO ( Modeacutelisation - Simulation -Optimisation )

bull HPC ( High Performance Computing ou calcul haute performance )

bull Seacutecuriteacute des systegravemes drsquoinformations et Cryptographie

La maicirctrise de ces champs de compeacutetences par le tissu industriel national est vue comme essentielle pour permettre de relever les deacutefis socio-eacuteconomiques actuels et futurs speacutecifiques ou non aux secteurs drsquoactiviteacute des industries concerneacutees et rester compeacutetitif

Les matheacutematiciens se retrouvent freacutequemment confronteacutes au traitement des donneacutees lorsqursquoils travaillent sur des sujets interdisciplinaires Par exemple la simulation de modegraveles avec une reacutesolution extrecircmement fine amegravene agrave des problegravemes de gestion de grandes masses de donneacutees pouvant atteindre plusieurs To On peut notamment citer les interactions avec

bull La physique et la meacutecanique ( p ex avec les travaux sur les plasmas de tokamak )

bull Lrsquoautomatique et la robotique

bull Lrsquoinformatique notamment en ce qui concerne les recherches en imagerie traitement du signal fouille de donneacutees calcul haute performancehellip

bull Les sciences du vivant Sans ecirctre exhaustif les domaines concerneacutes par ces interactions sont la biologie cellulaire systeacutemique et du deacuteveloppement les neurosciences la geacuteneacutetique lrsquoeacutecologie la bio-informatique la meacutedecinehellip

bull Lrsquoeacuteconomie et les sciences humaines et sociales

Se posent eacutegalement les questions de paralleacuteliser les calculs de communiquer des volumes de donneacutees gigantesques entre les dizaines de milliers de processeurs drsquoun supercalculateur de compresser stocker ou exploiter les donneacuteeshellip Toutes ces questions neacutecessitent une recherche pluridisciplinaire entre ingeacutenieurs matheacutematiciens informaticiens et chercheurs de la discipline du sujet eacutetudieacute ( physiciens biologisteshellip )

Tous les domaines des matheacutematiques sont concerneacutes par les interfaces mentionneacutees preacuteceacutedemment Les plus visibles sont la statistique le calcul scientifique et haute performance les probabiliteacutes les systegravemes dynamiques les eacutequations diffeacuterentielles et aux deacuteriveacutees partielles lrsquooptimisation lrsquoimageriehellip

INSMI

45

Livre Blanc sur les Donneacutees au CNRS Eacutetat des Lieux et Pratiques - 2018

272 La probleacutematique des donneacutees agrave lrsquoINSMI

Le traitement des donneacutees a reacutecemment impacteacute la communauteacute matheacutematique Afin de reacutepondre aux probleacutematiques souleveacutees plusieurs champs de recherche se sont deacuteveloppeacutes dans diffeacuterentes branches des matheacutematiques allant de la recherche fondamentale aux applications21

Lrsquoanalyse

Mecircme si les lois de la physique matheacutematique sont deacutecrites par des eacutequations diffeacuterentielles et des eacutequations aux deacuteriveacutees partielles lrsquoanalyse matheacutematique aborde aujourdrsquohui des domaines moins structureacutes ougrave les lois sont absentes et ougrave il convient de traiter des masses de donneacutees en apparence incoheacuterentes Agrave titre drsquoexemple les problegravemes poseacutes par le changement climatique sont particuliegraverement ardus En conseacutequence une nouvelle analyse matheacutematique est neacutecessaire pour maicirctriser des domaines aussi varieacutes que le changement climatique la geacutenomique la meacutedecine computationnelle la recherche seacutecuritaire agrave lrsquointeacuterieur des donneacutees du webhellip

Les statistiques

Lrsquoeacutevolution actuelle de la discipline est fortement influenceacutee par le deacuteveloppement de lrsquoinformatique aussi bien en termes de moyens de calcul ou de capaciteacute meacutemoire des ordinateurs qursquoen termes drsquoavanceacutees dans le domaine de lrsquoalgorithmique de la theacuteorie de lrsquoinformation ou du codage Les nouvelles capaciteacutes de recueil et de stockage provoquent une veacuteritable avalanche de donneacutees dont le gigantisme rend obsolegravete lrsquoemploi des outils drsquoanalyse des donneacutees traditionnels et dont le traitement requiert de nouvelles compeacutetences pour les statisticiens Ceci est vrai dans plusieurs domaines drsquoapplications en geacutenomique tout autant qursquoen eacuteconomie ou en traitement du signal ou de lrsquoimage Dans le mecircme temps les outils de calcul de plus en plus puissants et performants stimulent lrsquoimagination car ils permettent de mettre en œuvre des strateacutegies drsquoinfeacuterence toujours plus sophistiqueacutees dont lrsquoutilisation aurait eacuteteacute impensable voire absurde au siegravecle dernier Les theacutematiques statistiques lieacutees agrave lrsquoanalyse des donneacutees de grande dimension se deacuteveloppent de faccedilon rapide au sein drsquoeacutequipes de recherche qui sont heacutebergeacutees tantocirct par des laboratoires de matheacutematiques tantocirct

21 Cf Rapport de prospective du Conseil Scientifique drsquoInstitut de lrsquoInsmi mandat 2010-2014

par des laboratoires drsquoinformatique ou les eacutequipes Inria et dont les leaders sont fort heureusement visibles dans les deux disciplines Ces dix derniegraveres anneacutees ont ainsi vu lrsquoeacutemergence drsquoune communauteacute machine learning ( ou laquo apprentissage statistique raquo ) agrave lrsquointerface entre statistique et informatique

Classer des donneacutees en grande dimension analyser des donneacutees massives et souvent heacuteteacuterogegravenes ( Big Data ) bacirctir des preacutevisions agrave partir de donneacutees fonctionnelles analyser des donneacutees structureacutees en grands reacuteseaux voici autant de deacutefis auxquels les statisticiens seront confronteacutes dans les anneacutees agrave venir

Que ce soit pour la conception lrsquoexpeacuterimentation ou lrsquoapplication des meacutethodes statistiques la reacuteflexion matheacutematique est aujourdrsquohui indissociable de la reacuteflexion sur les algorithmes permettant son expression et sa mise en application Lrsquoavenir de la discipline passe donc par le deacuteveloppement harmonieux et les eacutechanges entre les trois grandes branches drsquoactiviteacute que sont la statistique matheacutematique la statistique computationnelle et le traitement de donneacutees

La modeacutelisation et le calcul

Le calcul scientifique consiste agrave mettre en œuvre de la faccedilon la plus efficace possible les algorithmes de calcul sur ordinateur des solutions du modegravele La fameuse loi de Moore preacutedit un doublement de la capaciteacute mateacuterielle de calcul des ordinateurs tous les dix-huit mois Cette loi empirique est veacuterifieacutee depuis plus de quarante ans Si lrsquoon tient aussi compte de lrsquoameacutelioration des algorithmes matheacutematiques de calcul on observe en fait un doublement de la puissance de calcul tous les huit mois seulement Aujourdrsquohui le calcul scientifique est partout dans les teacuteleacutephones portables pour traiter des images ou des videacuteos dans les voitures pour optimiser le freinage ou encore chez les architectes qui doivent preacutevoir la soliditeacute des structures qursquoils dessinent Certains calculs neacutecessitent peu de puissance et peuvent ecirctre reacutealiseacutes sur un ordinateur personnel Mais dans de nombreux domaines de la science la reacutealisation drsquoune simulation impose lrsquousage drsquoun supercalculateur Elle est alors souvent le travail drsquoeacutequipes multidisciplinaires matheacutematiciens informaticiens speacutecialistes du domaine modeacuteliseacute Un deacutefi important attend les speacutecialistes du calcul dans les anneacutees agrave venir Pour faire face agrave la consommation eacutenergeacutetique on assiste agrave une eacutevolution de lrsquoarchitecture des superordinateurs vers des assemblages de centaines de milliers de processeurs relieacutes entre eux par des connexions de vitesses variables Cette eacutevolution neacutecessite de

46

Livre Blanc sur les Donneacutees au CNRS Eacutetat des Lieux et Pratiques - 2018

deacutevelopper de nouveaux algorithmes qui tiennent agrave la fois compte des opeacuterations agrave effectuer mais aussi des deacuteplacements des donneacutees neacutecessaires agrave ces opeacuterations

De plus les calculs peuvent geacuteneacuterer des donneacutees massives ( Big Data ) qursquoil faut ecirctre capable de stocker de compresser et drsquoanalyser En effet avec lrsquoaugmentation de la puissance de calcul les modegraveles sont reacutesolus sur des maillages drsquoune tregraves grande preacutecision Cela neacutecessite le traitement de tregraves grandes masses de donneacutees pour les preacute- et post-traitements des calculs Par exemple les entreacutees utiliseacutees pour lrsquoassimilation de donneacutees dans des modegraveles drsquooceacuteanographie et de meacuteteacuteorologie proviennent drsquoinstruments de mesure ( satellites sondeshellip ) fournissant des masses de donneacutees de plusieurs peacutetaoctets De mecircme lors des post-traitements des simulations la visualisation de donneacutees de tregraves grande taille soulegraveve de nombreuses difficulteacutes Lagrave aussi lrsquoinvention de nouveaux algorithmes est indispensable

Lrsquoimagerie

En deux deacutecennies lrsquoimagerie est devenue un domaine de recherche majeur Les applications sont multiples et la demande socieacutetale forte dans des domaines aussi varieacutes que les sciences du vivant dont les neurosciences la vision la conception assisteacutee par ordinateur la physique des ondes lrsquoastronomie lrsquoeacutelaboration de diagnostics automatiques la deacutetection de situations ou de comportements Les sciences de lrsquoimagerie posent de nouvelles questions matheacutematiques associeacutees aux problegravemes de formation drsquoacquisition de compression de transmission de modeacutelisation drsquoanalyse de traitement drsquointerpreacutetation de restauration drsquoarchivage des images

Les modes drsquoacquisition et de diffusion des images sont multiples et en constante eacutevolution ( teacuteleacutevision numeacuterique HD ou 3D p ex ) Des informations et signaux aussi varieacutes que le niveau de gris la couleur lrsquoinfrarouge proche ou thermique lrsquoimagerie agrave grande gamme dynamique ( high dynamic range ) lrsquoimagerie multispectrale lrsquoimagerie par reacutesonance magneacutetique de diffusion ( diffusion tensor image ) les signaux radarhellip forment des images pluriformes Modeacuteliser manipuler et traiter ces masses de donneacutees heacuteteacuterogegravenes et multidimensionnelles ( images videacuteos surfaces graphes ) est un enjeu scientifique et socio-eacuteconomique majeur Nombre de problegravemes en matheacutematiques de lrsquoimagerie neacutecessitent lrsquooptimisation de fonctionnelles tregraves complexes souvent non lisses parfois non convexes et toujours en tregraves grande dimension ( de

lrsquoordre de plusieurs millions de variables ) engendrant ainsi le traitement drsquoimportantes masses de donneacutees

Geacuteomeacutetrie et topologie

La gestion des donneacutees a eacutegalement impacteacute les matheacutematiques fondamentales telles que la geacuteomeacutetrie ou la topologie Gracircce aux performances accrues des moyens techniques certains problegravemes ont reacutecemment pris une ampleur diffeacuterente et profitent grandement de ces avanceacutees dans le traitement des donneacutees de tregraves grande taille Par exemple crsquoest le cas de lrsquoanalyse topologique des donneacutees En effet il srsquoagit drsquoextraire des informations geacuteomeacutetriques ( courbure ) et topologiques ( pattern ) drsquoun nuage de points dans un espace meacutetrique Lrsquoapproche consideacutereacutee repose sur les descripteurs homologiques persistants Lrsquoutilisation de nuages de points de tregraves grandes tailles en dimension eacuteleveacutee a mis en eacutevidence la pertinence de ces approches aux extensions et applications multiples systegravemes dynamiques astrophysique physique de mateacuteriaux nanomateacuteriaux

Un autre enjeu concerne les expeacuterimentations meneacutees sur des suites entiegraveres multi-indexeacutees correspondant agrave des quantiteacutes geacuteomeacutetriques associeacutees agrave certaines varieacuteteacutes ( algeacutebriques ou symplectiques ) Il srsquoagit dans un premier temps de calculer une eacutenorme quantiteacute de termes de la suite Cette importante masse de donneacutees permet alors pour les suites consideacutereacutees drsquoeacutetudier les proprieacuteteacutes remarquables de comprendre les relations entre ces nombres et drsquoextraire des relations avec drsquoautres proprieacuteteacutes geacuteomeacutetriques

273 Conclusion

Agrave lrsquoheure actuelle les chercheurs de lrsquoInsmi sont essentiellement des utilisateurs de donneacutees plutocirct que des producteurs de donneacutees mais cette tendance peut eacutevoluer tregraves rapidement Lrsquoaccessibiliteacute de donneacutees de plus en plus riches conduit les chercheurs en matheacutematiques agrave faire eacutemerger de nouvelles approches et agrave envisager des changements de paradigmes Cela ne peut ecirctre envisageable qursquoavec un accompagnement humain et mateacuteriel Cet accompagnement doit aussi permettre un accegraves agrave la formation et apporter un soutien agrave la transversaliteacute qui est un des fondements de la notion de laquo donneacutee raquo

LrsquoInsmi est un acteur essentiel dans lrsquoanalyse la modeacutelisation et lrsquointerpreacutetation des donneacutees

INSMI

47

Livre Blanc sur les Donneacutees au CNRS Eacutetat des Lieux et Pratiques - 2018

28 INSTITUT DES SCIENCES DE LrsquoUNIVERS ( INSU )

281 Introduction

LrsquoInstitut National des Sciences de lrsquoUnivers est un institut pluridisciplinaire regroupant les domaines drsquoastronomie et drsquoastrophysique de lrsquooceacutean de lrsquoatmosphegravere des sciences de la Terre des surfaces et interfaces continentales Comprendre et preacutevoir le fonctionnement et lrsquoeacutevolution de ces systegravemes dans leurs environnements est un enjeu scientifique fondamental avec de nombreuses applications socio-eacuteconomiques

Les disciplines de lrsquoINSU partagent une culture scientifique et des pratiques de recherche fondeacutees sur lrsquoobservation ( sol air mer spatial ) agrave long terme ( gt 30 ans ) des systegravemes naturels inteacutegrant un large spectre drsquoeacutechelles spatiales et temporelles et incluant une vaste palette drsquooutils drsquoanalyse in situ drsquoeacutechantillons issus des milieux naturels terrestres ou extraterrestres Ces disciplines integravegrent

bull La conception le deacuteveloppement et lrsquoopeacuteration de grands instruments et systegravemes drsquoobservation ( sol air mer spatial ) agrave lrsquoeacutechelle nationale et internationale

bull La simulation numeacuterique de lrsquoeacutevolution des systegravemes naturels permettant dans un cadre probabiliste drsquoeacutechantillonner des espaces de modegraveles complexes et de les mapper dans lrsquoespace des donneacutees ainsi que drsquoen quantifier les incertitudes et les eacuteveacutenements extrecircmes

bull Lrsquoarchivage la curation et la mise agrave disposition drsquoune grande diversiteacute de donneacutees ( observations simulations analyses ) et de modegraveles avec des standards de repreacutesentation et drsquoeacutechange de donneacutees de provenance de certification ( qualiteacute inteacutegriteacute veacuteraciteacute )

bull Le traitement et lrsquoanalyse de grands jeux de donneacutees multi-sources pour en extraire de nouvelles informations et les distiller sous des formes reacuteutilisables

bull La combinaison drsquoobservations et de simulations numeacuteriques dans un cadre probabiliste drsquoinfeacuterence et drsquoassimilation de donneacutees pour ameacuteliorer la description des modegraveles ainsi que leur capaciteacute preacutedictive

Les missions nationales drsquoobservation et de surveillance des aleacuteas naturels de lrsquoINSU srsquoappuient sur une organisation territoriale originale structureacutee autour des Observatoires des Sciences de lrsquoUnivers ( OSU ) qui deacuteploient des Services Nationaux drsquoObservation ( SNO ) A ces missions srsquoajoutent des missions programmatiques au travers de prospectives nationales pour deacutefinir une strateacutegie scientifique et drsquoobservation agrave long terme et identifier les eacutequipements nationaux et internationaux neacutecessaires agrave sa mise en œuvre

Les communauteacutes de lrsquoINSU sont inteacutegreacutees et organiseacutees aux niveaux national et international au travers de grandes missions spatiales de grands instruments et systegravemes drsquoobservation ainsi que drsquoinfrastructures distribueacutees et feacutedeacutereacutees drsquoarchivage et de distribution des donneacutees Lrsquoimportance des donneacutees a conduit les communauteacutes de lrsquoINSU agrave jouer un rocircle pionnier dans la promotion de donneacutees ouvertes partageacutees interopeacuterables et reacuteutilisables ainsi que du stewardship de ces donneacutees par les communauteacutes

Les pratiques de recherche reposent sur de larges workflows qui sont piloteacutes par les donneacutees et orchestrent leur analyse de pointe ( HDA pour High-end Data Analysis ) et calcul haute performance ( HPC pour High-Performance Computing ) Elles ont permis ces derniegraveres anneacutees des avanceacutees spectaculaires sur des problegravemes fondamentaux lieacutes agrave la compreacutehension de la formation des structures et de lrsquoeacutevolution des systegravemes Terre-Planegravetes-Univers ainsi que sur de grands enjeux socio-eacuteconomiques changements climatiques et environnementaux meacuteteacuteorologie spatiale surveillance et preacutevention des aleacuteas et risques naturels ( volcaniques sismiques ) exploration et gestion des nouvelles ressources eacutenergeacutetiques

48

Livre Blanc sur les Donneacutees au CNRS Eacutetat des Lieux et Pratiques - 2018

282 Contexte des donneacutees agrave lrsquoINSU

La probleacutematique des donneacutees agrave lrsquoINSU srsquoappuie sur un dispositif original

bull Les Observatoires des Sciences de lrsquoUnivers ( OSU )

Communs aux universiteacutes et au CNRS ils organisent reacutegionalement souvent en partenariat avec drsquoautres acteurs de la recherche ( p ex CEA CNES IFSTTAR IFREMER IPEV IRD IRSTEA Meacuteteacuteo-France ) les moyens neacutecessaires pour la reacutealisation et lrsquoopeacuteration drsquoinstruments et systegravemes drsquoobservation le traitement la curation et la mise agrave disposition de donneacutees ainsi que leur exploitation scientifique Ils feacutedegraverent des laboratoires mutualisent des ressources et des compeacutetences ( meacutethodologiques et technologiques ) et stimulent des recherches interdisciplinaires aux interfaces entre diffeacuterents domaines ( p ex astronomie sciences du climat geacuteophysique interne physique des particules eacutecologie sciences biologiques physique des mateacuteriaux santeacute ) A ces missions srsquoajoute le deacuteveloppement drsquoactions internationales

bull Les Services Nationaux drsquoObservations ( SNO )

Labeacuteliseacutes par lrsquoINSU ils sont deacuteployeacutes dans les OSU et deacuteclineacutes suivant les diffeacuterentes theacutematiques de lrsquoinstitut Ils couvrent diffeacuterents aspects des donneacutees meacutetrologie extrecircme de lrsquoespace et du temps instrumentation et opeacuteration de dispositifs drsquoobservation ( sol air mer espace ) et de sites instrumenteacutes archivage curation et distribution des donneacutees deacuteveloppement et distribution de codes et de bibliothegraveques numeacuteriques communautaires formation et diffusion des connaissances Leur peacuterimegravetre est celui sur lequel le Conseil National des Astronomes et Physiciens ( CNAP ) srsquoappuie pour eacutevaluer les missions drsquoobservation des personnels du corps des astronomes et physiciens

Les SNO sont rassembleacutes et structureacutes au sein drsquoActions Nationales pour lrsquoObservation ( ANO ) en lien avec des actions nationales et internationales du Ministegravere de lrsquoenseignement supeacuterieur de la recherche et de lrsquoinnovation ( SOERE IR TGIR ) notamment pour les infrastructures de recherche europeacuteennes ( inscrites sur la liste du forum ESFRI ) et les organisations internationales Les actions dans lesquelles lrsquoINSU est mobiliseacute reflegravetent la diversiteacute des dispositifs drsquoacquisition de donneacutees en sciences de lrsquoUnivers avec pour exemple

bull Infrastructures de Recherche

- En astronomie Centre de Donneacutees astronomiques de Strasbourg ( CDS ) contribution franccedilaise agrave lrsquoObservatoire Virtuel International en Astronomie ( IVOA ) instrumentation pour les grands teacutelescopes de lrsquoESO ( INSTRUM-ESO ) contribution franccedilaise au systegraveme de radioteacutelescope international LOw Frequency ARray ( LOFAR ) et son extension ( ENUFAR contribution au teacutelescope gamma High-Energy Stereoscopic System ( HESS en partenariat avec lrsquoIN2P3 )

- Pour les sciences de la planegravete Aerosols Clouds and Trace Gases Research Infrastructure ( ACTRIS en partenariat avec le CNES CEA IRD Meacuteteacuteo-Francehellip ) infrastructure nationale de modeacutelisation du systegraveme climatique de la Terre ( CLIMERI en partenariat avec le CEA Meacuteteacuteo-France IRD Cerfacs GENCI ) base antarctique franco-italienne ( CONCORDIA en partenariat avec IPEVhellip ) European Multidisciplinary Subsea Observatory ( EMSO en partenariat avec lrsquoIfremer ) In-service Aircraft for a Global Observing System ( IAGOS partenariat avec Meacuteteacuteo-France ) infrastructure de recherche littorale et cocirctiegravere ( ILICO en partenariat avec IFREMER IGN IRD et SHOM ) observatoire de la zone critique ( OZCAR en partenariat avec BRGM CNES IFSTTAR INRA IRD IRSTEA hellip ) reacuteseau sismologique et geacuteodeacutesique franccedilais ( RESIF partenariat avec BRGM CNES IRD IFSTTARhellip ) pocircle de donneacutees et services pour le systegraveme Terre ( en partenariat avec CNES IRD IFREMER IGN IRSTEA Meacuteteacuteo-Francehellip ) Service des Avions Franccedilais Instrumenteacutes pour la Recherche en Environnement ( SAFIRE en partenariat avec le CNES et Meacuteteacuteo-France ) les infrastructures analytiques comme la ligne FRAME de lrsquoESF et les instruments nationaux INSU qui seront coordonneacutes par le Reacuteseau Geacuteochimique et Expeacuterimental Franccedilais ( REGEF )

bull Tregraves Grandes Infrastructures de Recherche

Canada-France-Hawaiuml Teacutelescope ( CFHT ) Cherenkov Telescope Array ( CTA en partenariat IN2P3 et CEA ) Institut de radioastronomie millimeacutetrique ( IRAM ) European Gravitational Observatory ( EGO-Virgo en partenariat avec IN2P3 et INP ) reacuteseau de flotteurs profilants autonomes ( Euro-Argo ) contribution europeacuteenne au reacuteseau international Argo European Consortium for Drilling Research - Integrated Ocean Drilling Project ( ECORD-IODP ) Integrated Carbon Observation System ( ICOS ) Flotte oceacuteanographique franccedilaise ( avec Ifremer IPEV IRD )

INSU

49

Livre Blanc sur les Donneacutees au CNRS Eacutetat des Lieux et Pratiques - 2018

bull Organisations Internationales

laquo European Southern Observatory raquo ( ESO ) centre europeacuteen de preacutevision meacuteteacuteorologique-CPMMT ( ECWWF ) Intergovernmental Panel on Climate Change ( IPCC ) hellip

bull Insertion europeacuteenne

- Forum ESFRI European Research Infrastructure Consortium ( ERIC ) et clusters les infrastructures de lrsquoINSU sont pour la plupart inscrites sur la liste ESFRI soit comme projet soit comme landmark Crsquoest notamment le cas pour ACTRIS le projet ELT de lrsquoESO CTA EPOS IAGOS SKAhellip Euro-Argo EMSO ICOS et bientocirct EPOS ont le statut drsquoERIC

- Le cluster ASTERICS Astronomy ESFRI and Research Infrastructure Cluster a pour objectif la facilitation et la coordination de deacuteveloppements pour ELT SKA CTA et KM3NET tandis que le reacuteseau AENEAS est speacutecifiquement deacutedieacute au traitement des donneacutees issues du teacutelescope geacuteant Square Kilometer Array ( SKA )

Lrsquoimportance des observations spatiales dans les sciences de lrsquoUnivers se traduit par lrsquoimplication de lrsquoINSU dans de grands projets spatiaux deacutefinis et soutenus par le CNES en lien avec lrsquoAgence Spatiale Europeacuteenne ( ESA ) et drsquoautres agences internationales comme la NASA pour ( i ) la conception et le deacuteveloppement drsquoinstruments et de systegravemes drsquoacquisition embarqueacutes ( p ex satellites sondes interplaneacutetaires ballons ) ( ii ) des chaicircnes de traitement et de reacuteduction de donneacutees ( iii ) lrsquoexploitation scientifique de ces missions On peut citer par exemple ( i ) SOHO ( structure interne et atmosphegravere externe du SOLEIL vent solaire ) ( ii ) Solar Orbiter ( observation du SOLEIL ) iii ) Planck ( fond diffus cosmologique ) ( iv ) Gaia ( cartographie 3D de la Voie lacteacutee ) ( v ) RosettaPhilae ( eacutetude drsquoune comegravete et de son comportement agrave lrsquoapproche du SOLEIL ) ( vi ) CopernicusSentinel ( observation et surveillance de la Terre pour lrsquoenvironnement et la seacutecuriteacute ) ( vii ) et dans le futur Euclid ( caracteacuterisation de la nature de lrsquoeacutenergie noire ) ( viii ) Plato ( deacutetection et eacutetude de nouveaux systegravemes eacutetoiles-planegravetes ) ( ix ) InSight ( eacutetude de la structure interne de Mars )hellip

283 Probleacutematique des donneacutees agrave lrsquoINSU

Environnements de production de donneacutees

Les flux de donneacutees en sciences de lrsquoUnivers explosent Ils sont geacuteneacutereacutes aujourdrsquohui agrave la fois dans des edge-environments grands instruments et systegravemes drsquoobservation ( sol air mer espace ) ougrave les ressources ( eacutenergie communication stockage calcul ) sont rares et dans des centralised-environnements de type HPC grandes simulations numeacuteriques ougrave est concentreacute lrsquoessentiel des ressources de tregraves haute performance

Les principales caracteacuteristiques de ces flux ( continus sporadiques ) sont les volumes les vitesses ( geacuteneacuteration transmission preacutetraitement ) la varieacuteteacute ( structureacutee non-structureacutee mixte ) et la veacuteraciteacute des donneacutees

Ce double contexte creacutee aujourdrsquohui une collection de problegravemes dont le principal deacutefi est la logistique des donneacutees tout au long de leurs chaicircnes drsquoacquisition et drsquoutilisation gestion du positionnement et de lrsquoencodageagencement des donneacutees au cours du temps transmission distribution de ressources ( caching-bufferisation-stockage calcul ) et des services

Grands instruments et systegravemes drsquoobservation

Les flux agreacutegeacutes de donneacutees geacuteneacutereacutees par les dispositifs observationnels en sciences de lrsquoUnivers ont franchi aujourdrsquohui lrsquoeacutechelle de la dizaine de Poan ~30 Gojour pour les grands reacuteseaux de capteurs ( p ex RESIFEPOS ) ~ 50-100 Gojour pour les grandes missions spatiales ( p ex GAIA Euclid CopernicusSentinel ) gt 1 Tojour pour les grands teacutelescopes au sol actuels et futurs ( p ex ALMA ELThellip ) ~1 Pojour ( p ex LOFAR ) et prochainement ~100 Pojour ( p ex SKA ) nouvelle geacuteneacuteration de grands interfeacuteromegravetres dans le domaine des radio-freacutequences

La logistique des donneacutees varie en fonction des dispositifs de mesure ( sol air mer spatial in situ ) de plus en plus complexes ( multi-capteurs multi-freacutequences multi-pixels ) et de leur geacuteomeacutetrie centraliseacutee ( p ex teacutelescopes satellites ) ou distribueacutee globalement ou reacutegionalement ( reacuteseaux drsquoantennes et de capteurs ) Avec lrsquoexplosion des volumes et des vitesses des donneacutees associeacutees aux nouvelles geacuteneacuterations de grands instruments et systegravemes drsquoobservation il devient impossible de transfeacuterer et drsquoarchiver

50

Livre Blanc sur les Donneacutees au CNRS Eacutetat des Lieux et Pratiques - 2018

lrsquoensemble des donneacutees et la reacuteduction des donneacutees est devenue un enjeu critique ( particuliegraverement pour les observations spatiales ) La logistique des donneacutees implique de deacuteplacer lrsquointelligence vers la peacuteripheacuterie au plus proche de leurs sources souvent multiples afin de ( i ) preacutetraiter ( synchronisation agreacutegation combinaison ) et reacuteduire ces flux en continu au cours de leur transport au travers de reacuteseaux ( statiques ou dynamiques ) de bandes passantes heacuteteacuterogegravenes et une varieacuteteacute de edge-technologies ( cachingbufferisation calcul ) ( ii ) agreacuteger en bout de chaicircne ces flux dans des plateformes centraliseacutees de plus en plus proches des sources disposant de larges ressources ( stockage calcul communication ) afin de permettre des traitements locaux ( tels que calibration transformation extractionreconstruction ) des constructions et reacuteductions intelligentes de nouveaux objets de donneacutees ( p ex eacuteveacutenements sources imagesvisibiliteacutes faisceaux ) ainsi que leur archivage ( iii ) redistribuer de larges sous-ensembles de donneacutees vers des plateformes distribueacutees et feacutedeacutereacutees de ressources et de services pour leur exploitation scientifique par les communauteacutes

La reacuteduction et la logistique des donneacutees des tregraves grands instruments et systegravemes drsquoobservation sont deacutefinies dans le cadre drsquoorganisations internationales associant souvent au cocircteacute des partenaires eacutetrangers drsquoautres instituts du CNRS ( p ex IN2P3 ) et drsquoautres acteurs franccedilais de la recherche ( p ex CNES CEA Ifremer etc ) Un autre deacutefi ( plus proceacutedural que scientifique ou technologique ) est drsquoassurer la coheacuterence et drsquoidentifier les niveaux possibles de feacutedeacuteration et de mutualisation entre diffeacuterents projets en phase avec les applications et les pratiques de recherche des communauteacutes utilisatrices de ces donneacutees

Grandes simulations numeacuteriques

Les simulations numeacuteriques HPC sont aujourdrsquohui de grands instruments scientifiques agrave part entiegravere pour nombre de disciplines des sciences de lrsquoUnivers ( p ex climat oceacutean atmosphegravere cosmologie et astrophysique astrophysique des hautes eacutenergies geacuteophysique ) Elles permettent de deacuteduire lrsquoeacutevolution de systegravemes naturels complexes agrave partir de modegraveles multi-eacutechelles et multi-physiques souvent coupleacutes et au travers de reacutealisations drsquoensembles drsquoeacutechantillonner des espaces de modegraveles complexes et de les mapper dans lrsquoespace des donneacutees

Ces simulations geacutenegraverent des flux ( volumes vitesses ) tregraves importants de donneacutees au sein des environnements HPC centraliseacutes Les volumes de donneacutees produits ont deacutepasseacute aujourdrsquohui lrsquoeacutechelle de la dizaine de peacutetaoctets ( p ex modeacutelisation du climat cosmologie numeacuterique sismologie ) En retour ces simulations permettent la conception de grands instruments et systegravemes drsquoobservation de plus en plus complexes ainsi que de leurs chaicircnes de traitement et de reacuteduction de donneacutees via la modeacutelisation de leur fonctionnement dans les environnements drsquoacquisition

LrsquoINSU est aujourdrsquohui un des principaux utilisateurs des grands centres de calcul nationaux ( GENCI ) Pour lrsquoanneacutee 2017 les disciplines de lrsquoINSU repreacutesentaient ( hors exercice CMIP6 ) 25 des heures attribueacutees ( CT1 environnement et CT4 astrophysique-geacuteophysique ) ainsi que ~80 des ressources de stockage alloueacutees Certaines communauteacutes utilisent eacutegalement les grands centres de calcul europeacuteens ( Tiers-0 Prace ) et internationaux ( DOE-NSF aux Etats-Unis JAMSTEC au Japon )

La logistique des donneacutees au cours de ces simulations ( positionnement des donneacutees au travers de la hieacuterarchie de meacutemoire couplages entre modegraveles reacuteduction des entreacuteessorties agencement et repreacutesentation des donneacutees ) est devenue critique Lrsquoanalyse in situ des flux de donneacutees via des meacutethodes de type laquo apprentissage machine raquo et des environnements immersifs intelligents ( capteurs virtuels ) renforce les besoins drsquoune convergence entre HPC et HDA Elle doit ecirctre coupleacutee avec des systegravemes fins de provenance pour le controcircle dynamique de ces simulations le pilotage de workflows orchestrant des ensembles de simulations ainsi que pour lrsquooptimisation ( latence ) des mouvements des donneacutees la reacuteduction des entreacuteessorties et des volumes de donneacutees agrave stocker

Cette logistique est eacutegalement complexe en raison du cycle de vie des reacutesultats de ces simulations qui impliquent de les redistribuer et de les archiver avec leurs modegraveles vers la peacuteripheacuterie pour leur exploitation par les communauteacutes scientifiques agrave lrsquoeacutechelle nationale ou internationale intercomparaison de modegraveles analyse combineacutee avec les observations Un exemple type est fourni dans la communauteacute de modeacutelisation du climat ( p ex exercices de simulations CMIP Coupled Model Intercomparison Project ) Un autre exemple est fourni par la communauteacute de la cosmologie numeacuterique ( p ex consortium national DEUS Dark Energy Universe Simulation )

INSU

51

Livre Blanc sur les Donneacutees au CNRS Eacutetat des Lieux et Pratiques - 2018

Workflows et exploitation scientifique des donneacutees

Un autre aspect critique est la logistique des donneacutees tout au long de larges chaicircnes drsquoexploitation scientifique qui sont piloteacutees par les donneacutees elles-mecircmes et orchestrent des eacutetapes de calcul intensif et drsquoanalyse

Ces workflows ne sont pas des outils logiciels isoleacutes ou des codes applicatifs mais des configurations complexes et variables de logiciel de mateacuteriel et de flux de donneacutees qui traduisent des phases de processus drsquoinfeacuterence en sciences de lrsquoUnivers Lrsquoespace multidimensionnel de donneacutees que ces workflows deacutefinissent implique que chacune de ces eacutetapes doit acceacuteder manipuler et combiner de maniegravere coordonneacutee de larges volumes et une grande diversiteacute de donneacutees

Traiter et analyser de larges volumes de donneacutees ( observations simulations )

Ces workflows orchestrent typiquement des eacutetapes drsquoingestionagreacutegation de traitement et drsquoanalyse de donneacutees afin drsquoen extraire de nouvelles informations

La phase drsquoingestion implique le stockage temporaire ( p ex bufferisation caching ) de larges volumes de donneacutees multi-sources sur des dureacutees variables ( mois anneacutees ) en fonction du cycle drsquoutilisation des donneacutees ainsi que des services ( p ex indexation bases de donneacutees et de meacutetadonneacutees provenance ) et des systegravemes de documentation ( p ex donneacutees modegraveles ) Elle varie suivant la provenance des donneacutees en continu depuis la peacuteripheacuterie sur requecircte depuis des feacutedeacuterations drsquoarchives et en combinaison observations et reacutesultats de simulations

Les phases de traitement et drsquoanalyse concernent diffeacuterentes eacutetapes de complexiteacute variable le plus souvent ( i ) filtrage reacuteduction de bruit reconstruction bas niveau ( ii ) deacutetection ( p ex eacuteveacutenements transitoires anomalies ) ( iii ) segmentation ( iv ) extraction ( p ex objets caracteacuteristiques statistiques ) ( v ) classificationagreacutegation ( vi ) transformations complexes ( p ex images correacutelations croiseacutees steering functions ) Les phases drsquoanalyse mettent souvent en jeu des meacutethodes statistiques ( p ex Monte Carlo ) et drsquolaquo apprentissage machine raquo

La logistique des donneacutees et la diversiteacute de ces workflows exploitent des plateformes de services de calcul et drsquoanalyse disposant drsquoenvironnements flexibles et reacuteactifs qui feacutedegraverent et mutualisent des services ( stockage bufferisation caching calcul HTC calcul parallegravele hybride communication logiciel ) Elles assurent des flux de traitement proches des vitesses drsquoaccegraves aux donneacutees Elles supportent des modegraveles de langage et drsquoexeacutecution en streaming avec des systegravemes fins de provenance coupleacutes agrave des technologies de virtualisation ( conteneurs ) et adapteacutes au Big Data ( p ex Spark Storm ) Elles permettent eacutegalement la mutualisation et lrsquoutilisation de meacutethodes et drsquooutils logiciels de traitement adeacutequatement organiseacutes et modulables dans diffeacuterents contextes ( p ex librairies Python modules de traitements Jupyter Notebooks )

Ces plateformes sont heacutebergeacutees dans des infrastructures Tiers-2-Tiers-3 adosseacutees agrave des OSU ou des feacutedeacuterations de recherche ( p ex Observatoire de Paris OCA IPSL IPGP OSUG OMP ) souvent en lien avec des meacutesocentres reacutegionaux ( p ex IDRIS Gricad Calmip Meso-PSL ) Elles offrent des capaciteacutes de stockage de plusieurs peacutetaoctets et des puissances de calcul proches de la centaine de teacuteraflops Un exemple de feacutedeacuteration internationale est lrsquoESGF ( Earth System Grid Federation ) en modeacutelisation du climat avec le nœud national ( CICLAD-CLIMSERV-IDRIS ) de lrsquoIPSL ESGF permet de distribuer cataloguer des dizaines de peacutetaoctets de donneacutees geacuteneacutereacutees par les simulations CMIP drsquoy acceacuteder de maniegravere seacutecuriseacutee et de les analyser avec des observations multi sources

Infeacuterence et assimilation de donneacutees combinant observations et simulations

Ces workflows combinent preacutedictions ( simulations numeacuteriques ) et observations multi-sources au sein drsquoenvironnements centraliseacutes de type HPC Les approches de type infeacuterenceinversion ( p ex cosmologie et astrophysique sismologie geacuteodeacutesie gravimeacutetrie ) permettent dans un cadre probabiliste drsquoameacuteliorer la description des modegraveles de systegravemes naturels ainsi que la reconstruction de leurs eacutetats Les approches drsquoassimilation de donneacutees ( p ex climat et meacuteteacuteorologie champs magneacutetiques terrestres et planeacutetaires ) dans un cadre variationnel ou statistique permettent drsquoameacuteliorer les preacutevisions de lrsquoeacutevolution de ces modegraveles en reconstruisant un eacutetat initial aussi consistant que possible avec leur dynamique

52

Livre Blanc sur les Donneacutees au CNRS Eacutetat des Lieux et Pratiques - 2018

Infeacuterence et assimilation de donneacutees sont des workflows complexes orchestrant de multiples phases HPC ( simulation numeacuterique ) et HDA ( traitement et analyse de donneacutees ) Avec lrsquoeacutevolution rapide des capaciteacutes de calcul et des meacutethodes numeacuteriques ils exploitent aujourdrsquohui des approches probabilistes au travers drsquoensembles de simulations numeacuteriques permettant drsquoexplorer des espaces de modegraveles complexes et leurs conditions initiales ainsi que de quantifier les incertitudes directes et inverses Ils combinent souvent laquo apprentissage machine raquo optimisation stochastique theacuteorie de lrsquoinformation et transport optimal

Cette convergence entre HPC et HDA deacutefie les environnements de type HPC ( accegravescommunications stockage calcul et meacutemoire ) ainsi que leur exploitation ( c-agrave-d ordonnancement par lots ) Un aspect critique est la logistique des flux ( volumes vitesses ) de donneacutees transmis ( souvent en continu ) depuis des sources peacuteripheacuteriques et geacuteneacutereacutes au sein des environnements HPC au cours des eacutetapes de simulation et drsquoanalyse ( combinant observations et reacutesultats de simulation ) Par exemple pour chaque preacutevision meacuteteacuteorologique reacutegionale une grande diversiteacute et un grand volume de donneacutees doivent ecirctre collecteacutes depuis des sources peacuteripheacuteriques ( satellites catasondes stations au sol boueacutees observations actuelles et historiques ) et centraliseacutes ( simulations des caracteacuteristiques et des processus des modegraveles du systegraveme Terre ) Toutes ces informations sont assimileacutees dans des moteurs drsquoassimilation complexes et non-lineacuteaires pour preacutevoir des caracteacuteristiques meacuteteacuteorologiques et les distiller pour leur utilisation par diffeacuterents acteurs

Ces workflows requiegraverent les capaciteacutes haute-performance ( stockage calcul communication ) des grands centres europeacuteens et nationaux ( Tier-0 et Tier-1 ) voire reacutegionaux ( Tier-2 ) qui doivent offrir des politiques drsquoaccegraves et drsquoexploitation adapteacutees ( HPCHDA ) et ecirctre feacutedeacutereacutes avec des plateformes distribueacutees ( archivage edge-computing ) pour la transmission et le traitement en cours de transport des flux de donneacutees depuis des sources peacuteripheacuteriques

Archivage curation accegraves et geacuterance des donneacutees

Une mission importante de lrsquoINSU est de rendre publiques eacuteventuellement apregraves une courte peacuteriode drsquoexclusiviteacute les donneacutees issues des grands instruments et systegravemes drsquoobservation et des simulations numeacuteriques Cette diffusion rapide agrave lrsquoensemble de la communauteacute vise

agrave maximiser le retour scientifique drsquoinvestissements lourds Cela nrsquoa de sens que si les donneacutees peuvent ecirctre facilement deacutecouvertes acceacutedeacutees interopeacutereacutees et reacuteutiliseacutees dans une vision inteacutegreacutee des pheacutenomegravenes et des systegravemes observeacutes au cours du temps

Les missions essentielles des OSU des services nationaux drsquoobservation et des actions nationales drsquoobservation sont lrsquointeacutegrationagreacutegation la curation la documentation la publication et la diffusion de ces donneacutees ainsi que leur apporter de la valeur ajouteacutee au sein de structures deacutedieacutees qui mutualisent les expertises et les ressources neacutecessaires Cela recouvre un certain nombre drsquoactiviteacutes sur le cycle de vie des donneacutees qui va bien au-delagrave de la dureacutee de vie des instruments et systegravemes drsquoobservation

bull Le traitement et calibration des donneacutees recouvrent des chaicircnes de traitement systeacutematique et la production de donneacutees de haut niveau pour les communauteacutes

bull La curation des donneacutees recouvre lrsquoorganisation lrsquo inteacutegration lrsquoagreacutegation lrsquoannotation la documentation et le reacutefeacuterencement des donneacutees Elle integravegre des chaicircnes de controcircle et des protocoles de certification des qualiteacute inteacutegriteacute veacuteraciteacute et pertinence des donneacutees sur leur cycle de vie ainsi que des systegravemes permettant de tracer leur provenance et leurs changements

bull Lrsquoarchivage et le reacutefeacuterencement des donneacutees avec des services avanceacutes ( indexation bases de donneacutees et de meacutetadonneacutees provenance ) assurent la persistance des donneacutees et des meacutetadonneacutees sur leur cycle de vie

bull La diffusion et la publication des donneacutees reposent sur une description standardiseacutee des donneacutees ( observations reacutesultats de simulations ) et des modegraveles avec des standards de meacutetadonneacutees drsquoaccegraves et drsquoeacutechange des identificateurs agreacuteeacutes ainsi que des services avanceacutes pour en faciliter la deacutecouverte lrsquoaccegraves lrsquointeropeacuterabiliteacute et la manipulation via les observatoires virtuels les pocircles de donneacutees et leurs deacuteveloppements Ces standards sont deacutefinis au niveau des diffeacuterentes disciplines dans le cadre de structures internationales ( p ex IVOA FDSN UNAVCO GEOGEOSS ESGF )

Ces activiteacutes concernent eacutegalement agrave des degreacutes divers selon les communauteacutes ( astronomie amp astrophysique oceacutean-atmosphegraverehellip ) la mise agrave disposition le deacuteveloppement et la maintenance de codes numeacuteriques des bibliothegraveques de traitement et drsquoanalyse de reacutefeacuterence ou communautaires

INSU

53

Livre Blanc sur les Donneacutees au CNRS Eacutetat des Lieux et Pratiques - 2018

Plus reacutecemment elles concernent de nouveaux objets associeacutes agrave des identificateurs agreacuteeacutes ( projets ou publications ) qui permettent de laquo conteneuriser raquo donneacutees description des dispositifs expeacuterimentaux et chaicircnes de traitement et drsquoanalyse afin de preacuteserver lrsquoexpertise des donneacutees faciliter leur reacuteutilisation dans et en dehors du contexte de leur acquisition et permettre la reproductibiliteacute des reacutesultats scientifiques

Un nombre croissant drsquoenjeux scientifiques ( modeacutelisation du climat physique solaire et stellaire eacutetude du champ magneacutetique terrestre signatures des ondes gravitationnelles et des grands tremblements de terre surveillance des aleacuteas naturels changements environnementaux ) impliquent une compreacutehension preacutedictive drsquoun mecircme objet ou systegraveme Ces approches interdisciplinaires avec des meacutethodes de type multi-messagers requiegraverent un accegraves fluide agrave des donneacutees multi-sources issues de contextes scientifiques et de modaliteacutes observationnelles ( sol air mer spatial ) diffeacuterents ainsi que des outils translationnels pour les combiner les croiser et les syntheacutetiser au sein de chaicircnes de traitement et drsquoanalyse souvent coupleacutees agrave des simulations numeacuteriques Deacutecouvrir ces donneacutees ainsi que les ressources et services associeacutes demande une harmonisation ( agrave travers diffeacuterentes disciplines ) des modegraveles de donneacutees et une standardisation ( au sein des disciplines ) en particulier pour ( i ) les proceacutedures de controcircle de qualiteacute drsquointeacutegriteacute et de veacuteraciteacute des donneacutees ainsi que leur documentation ( ii ) les meacutetadonneacutees les systegravemes drsquoinformation et les registres

Les volumes et la diversiteacute des donneacutees ainsi que les pratiques de recherche de plus en plus interdisciplinaires ont conduit lrsquoINSU agrave reacuteorganiser les donneacutees autour de

bull Plateformes reacutegionales de ressources et de services Adosseacutees aux OSU elles feacutedegraverent et mutualisent des ressources ( stockage calcul ) des services ( bases de donneacutees et de meacutetadonneacutees web-services ) et une masse critique drsquoexpertises pour lrsquoarchivage la curation et la distribution des donneacutees Elles sont associeacutees agrave des programmes et instruments labeacuteliseacutes par lrsquoINSU et peuvent ecirctre multitheacutematiques Ces infrastructures Tier-3 souvent doteacutees drsquoune structure de pilotage heacutebergent des ressources de stockage ( de quelques centaines de teacuteraoctets agrave quelques peacutetaoctets ) et de calcul pour les phases de traitement systeacutematique et de curation Avec lrsquoaugmentation des volumes et de la diversiteacute des donneacutees ainsi que la complexiteacute

croissante des activiteacutes de traitement et de curation les besoins de stockage et de calcul croissent rapidement En synergie avec les plateformes de calcul et drsquoanalyse elles ont pour vocation de se rapprocher de Tier-2 reacutegionaux deacutesireux drsquoexplorer de nouveaux modegraveles drsquoarchitectures centreacutees sur les donneacutees de langage et drsquoexeacutecution de services et drsquoenvironnements drsquoaccegraves et drsquoutilisation

bull Pocircles theacutematiques de services et de donneacutees Ils ont pour vocation de fournir un portail unique au niveau national et des plateformes de services avanceacutes facilitant la deacutecouverte lrsquoaccegraves la combinaison et lrsquoutilisation scientifique drsquoensembles de donneacutees multi-types multi-sources issus drsquoexpeacuteriences et de dispositifs observationnels ( sol air mer spatial ) diffeacuterents Ils srsquoappuient sur les plateformes reacutegionales et les feacutedegraverent nationalement Ils sont doteacutes drsquoune structure de pilotage et drsquoutilisateurs et leur gestion associe souvent drsquoautres organismes ( p ex CNES CEA Ifremer IRD Meacuteteacuteo-France ) On peut citer ( i ) en astronomie et astrophysique les pocircles de physique des plasmas physique solaire et stellaire et de matiegravere interstellaire ( ii ) en oceacutean-atmosphegravere les pocircles Aeris et Odatis respectivement pour les donneacutees et services atmospheacuteriques et oceacuteaniques ( iii ) en sciences de la Terre le pocircle de donneacutees ForMTer ( avec RESIFEPOS ) pour les donneacutees drsquoobservation ( sol spatial ) de la terre solide ( iv ) en surfaces et interfaces continentales le pocircle Theia incluant notamment DINAMIS le dispositif de mise agrave disposition des images satellites haute deacutefinition

Un exemple phare est le centre de donneacutees de Strasbourg ( CDS ) en astronomie contribution franccedilaise agrave lrsquoIVOA ( International Virtual Observatory Alliance ) qui fournit des standards de web-services de repreacutesentation et drsquointeropeacuterabiliteacute de donneacutees et de meacutetadonneacutees avec drsquoautres standards pour le reacutefeacuterencement lrsquoaccegraves lrsquoeacutechange la provenance des donneacutees et leur publication ainsi que des outils drsquoexploration et de visualisation de ces donneacutees Le reacutesultat est que plus de 90 des donneacutees astronomiques mondiales sont accessibles et utilisables scientifiquement aujourdrsquohui avec des outils et des logiciels partageacutes internationalement et avec une tregraves forte visibiliteacute franccedilaise gracircce au CDS mais aussi agrave des projets comme VAMDC22 pour la distribution des donneacutees atomiques et moleacuteculaires

Pour les tregraves grands instruments et systegravemes drsquoobservation la strateacutegie drsquoarchivage et la politique drsquoaccegraves aux donneacutees sont deacutefinies dans le cadre

22 httpwwwvamdcorg

54

Livre Blanc sur les Donneacutees au CNRS Eacutetat des Lieux et Pratiques - 2018

des projets internationaux et des organisations internationales qui les portent Elles reposent sur des plateformes de ressources et de services distribueacutees et feacutedeacutereacutees agrave lrsquoeacutechelle internationale comme dans le cas ( i ) des grands projets spatiaux ( Euclid Gaia Planck Copernicus ) ( ii ) des tregraves grands teacutelescopes ( ESO CFHT IRAM SKA ) ( iii ) des grands systegravemes drsquoobservation ( RESIFEPOS Euro-Argo ICOS IAGOS ACTRIS OZCAR EmodNet ) ( iv ) des intercomparaisons de modegraveles coupleacutes ( CLIMERI ) en modeacutelisation du climat ( ESGF ) La vocation du pocircle de donneacutees et services pour le systegraveme Terre est notamment de faciliter lrsquoaccegraves et lrsquousage des donneacutees issues de ses diffeacuterents compartiments Ces strateacutegies srsquoappuient au niveau national sur des nœuds heacutebergeacutes geacuteneacuteralement dans de grands centres nationaux ( CC-IN2P3 IDRIS ) ou meacutesocentres reacutegionaux ( Meso-PSLObservatoire de Paris OCA IPSL IPGP GricadOSUP ) souvent en partenariat avec drsquoautres instituts du CNRS ( p ex IN2P3 ) et organismes de recherche ( CNES CEA Meacuteteacuteo France Ifremer )

283 Conclusions et eacuteleacutements de reacuteflexion

De nouvelles deacutecouvertes scientifiques en sciences de lrsquoUnivers ainsi que de grands enjeux sociaux et eacuteconomiques ( p ex changement climatique aleacuteas naturels et environnementaux ressources eacutenergeacutetiques et deacuteveloppement durable ) requiegraverent une grande diversiteacute de donneacutees dont les reacutesolutions integravegrent un tregraves large spectre drsquoeacutechelles ( temps espace freacutequence ) ainsi que des meacutethodes drsquoanalyse et de modeacutelisation pour en extraire et inteacutegrer de nouvelles informations sur la formation des structures et lrsquoeacutevolution des systegravemes Terre-planegravetes-univers ainsi que leurs eacuteveacutenements transitoires et extrecircmes

Avec les nouvelles geacuteneacuterations drsquoinstruments et de systegravemes drsquoobservation ( sol air mer spatial ) et de simulations numeacuteriques les flux de donneacutees explosent aujourdrsquohui agrave la fois dans des edge-environments globalement distribueacutes et des environnements centraliseacutes ( HPC Cloud ) Ce changement de paradigme constitue un deacutefi pour la logistique des donneacutees tout au long de workflows qui traversent la diversiteacute de ces systegravemes drsquoacquisition et un continuum de bandes passantes et de plateformes technologiques

Un enjeu concomitant commun agrave ces deux environnements est la reacuteduction laquo intelligente raquo des donneacutees en continu au cours de leur transport

La strateacutegie agrave suivre est incertaine dans un paysage national ( enseignement-recherche infrastructures ) et europeacuteen ( EOSC European Open Science Cloud ) et des technologies en pleine eacutevolution Elle tend agrave se formuler comme la co-conception drsquoun instrument scientifique piloteacutee par la logistique des donneacutees et les caracteacuteristiques des workflows qui au travers drsquoun modegravele drsquoarchitecture de type sablier ( c-agrave-d hourglass architecture ) permettrait drsquoaccommoder la grande diversiteacute de ces workflows et de leurs impleacutementations Avec lrsquoideacutee qursquoau centre de ce modegravele une interface commune ou spanning layer peut ecirctre eacutetroitement conccedilue et implanteacutee afin drsquoabstraire ces workflows et leur flux de donneacutees et les instancier ( via des technologies de virtualisation ) au travers drsquoune varieacuteteacute croissante et des configurations complexes de ressources ( stockage calcul communication ) de plateformes technologiques et drsquoenvironnements comprenant en particulier

bull Edge-infrastructures qui via une diversiteacute croissante de edge-technologies ( p ex cache buffer stockage calcul communication ) permettent de traiter agreacuteger reacuteduire les flux ( volumes vitesses ) de donneacutees geacuteneacutereacutees par les nouveaux grands instruments et systegravemes drsquoobservation de plus en plus complexes ( multi-capteurs multifreacutequences ) ainsi que de piloter leurs systegravemes drsquoacquisition ( antenne optique ) au plus proche et dans des environnements reculeacutes

bull Plateformes de services de calcul et drsquoanalyse de donneacutees qui feacutedegraverent et mutualisent des services flexibles de stockage de calcul ( HTC HPC ) de communication et de logiciel permettant des flux de traitement proches des vitesses drsquoaccegraves aux donneacutees Ces infrastructures de type edge-computing supportent des utilisateurs et des applications multiples ( p ex le service labelliseacute Terapix agrave lrsquoIAP pour lrsquoexploitation des donneacutees MegaCAM du CFHT ou encore lrsquoARC node ALMA agrave lrsquoIRAM pour la reacuteduction des donneacutees de lrsquointerfeacuteromegravetre millimeacutetrique ALMA de lrsquoESO ) dans un environnement collaboratif reacuteactif et reacutesilient qui integravegre des eacuteleacutements de HPC et HDA avec des services Cloud de traitement en flux des technologies de virtualisation ( conteneurs ) et drsquoexeacutecution adapteacutes au Big Data ( p ex Spark Storm ) Adosseacutees agrave des OSU ou feacutedeacuterations de recherche elles peuvent ecirctre feacutedeacutereacutees ( p ex ESGF )

INSU

55

Livre Blanc sur les Donneacutees au CNRS Eacutetat des Lieux et Pratiques - 2018

bull Plateformes centraliseacutees ( HPC ) qui concentrent des ressources de tregraves haute performance et par deacutefinition rares dont lrsquoutilisation est maximiseacutee pour servir des communauteacutes multiples Si lrsquooptimisation des applications en sciences de lrsquoUnivers pour lrsquoexploitation des nouvelles architectures hybrides et massivement parallegraveles demeure un enjeu important ces applications ( ensembles de simulations numeacuteriques infeacuterenceinversion assimilation de donneacutees ) ainsi que lrsquoutilisation croissante de meacutethodes type laquo apprentissage machine raquo requiegraverent une convergence toujours plus fine entre HPC et HDA avec de meilleurs support et interopeacuterabiliteacute de leurs modegraveles drsquoexploitation ( batch et streaming processing ) des technologies de virtualisation ainsi qursquoune gestion des ressources avec des systegravemes centraliseacutes intelligents piloteacutes par la provenance des flux de donneacutees permettant le controcircle de workflows complexes Lrsquoingestion drsquoeacutenormes flux de donneacutees depuis la peacuteripheacuterie reste un enjeu qui deacutefie leurs capaciteacutes

bull Plateformes drsquoarchivages curation et distribution des donneacutees Ces plateformes adosseacutees aux OSU feacutedegraverent et mutualisent les ressources services et expertises pour le stockage la curation et la mise agrave disposition drsquoune grande diversiteacute de donneacutees ( tels que eacuteveacutenements objets images seacuteries temporelles ) dont le cycle de vie en sciences de lrsquoUnivers est bien plus long que la dureacutee de vie des instruments et systegravemes drsquoobservation Les volumes et la diversiteacute de ces donneacutees impliquent des capaciteacutes croissantes de calcul pour leur traitement et leur curation

Le mouvement des donneacutees et des informations a un coucirct drsquoautant plus important que ces transferts doivent ecirctre rapides et traverser des frontiegraveres drsquoun site agrave lrsquoautre drsquoun systegraveme HPC vers des plateformes drsquoanalyse au sein drsquoun mecircme site entre nœuds drsquoun mecircme systegraveme drsquoun systegraveme de stockage agrave un autre

Un enjeu commun est lrsquoefficience eacutenergeacutetique la reacuteduction des coucircts de fonctionnement et la durabiliteacute ce qui passe entre autres par ( i ) utiliser des plateformes ( HPC calcul et analyse ) adapteacutees agrave chacune des eacutetapes de ces workflows ( ii ) eacuteviter des reacutepeacutetitions inutiles de transferts ( cachingbufferisation ) et reacuteduire leurs vitesses ( pre-fetching ) et leurs volumes ( compression ) ( iii ) reacuteduire les distances et mutualiser les environnements drsquoheacutebergement ( colocalisation des plateformes HPC et des services drsquoanalyse des plateformes drsquoarchivage et de curation de donneacutees et

des plateformes de calcul et drsquoanalyse ) ( iv ) faciliter la reacuteutilisation des calculs et des donneacutees au sein et entre domaines ( observations et reacutesultats de simulations meacutetadonneacutees catalogues )

Lrsquoorganisation territoriale de lrsquoINSU structureacutee autour des OSU et les ANO permet de reacutepondre aux points souleveacutes preacuteceacutedemment ( i ) centraliser logiquement lrsquoaccegraves et lrsquoutilisation de donneacutees via les observatoires virtuels et les pocircles de donneacutees associant plateformes de services et feacutedeacuteration de plateformes drsquoarchivage et de curation de donneacutees en liaison avec drsquoautres organismes ( CNES Ifremer Meacuteteacuteo-France CEAhellip ) ( ii ) rapprocher plateformes drsquoarchivage et de curation de donneacutees plateformes de calcul et drsquoanalyse et centres nationaux ( CC-IN2P3 IDRIS ) et meacutesocentres reacutegionaux ( Gricad Calmiphellip ) ( iii ) rapprocher plateformes HPC et services drsquoanalyse dans le cadre de GENCI ( p ex IDRIS TGCC CINES ) ( iv ) faciliter lrsquoaccegraves seacutecuriseacute le partage lrsquoexploitation de reacutesultats de simulations et drsquoobservations par une large communauteacute ( p ex CLIMERI IPGP )

Un autre aspect concerne les tregraves grands instruments et systegravemes drsquoobservation ( sol air mer spatial ) porteacutes par des projets et des organisations internationaux Dans ce cadre explorer avec drsquoautres instituts du CNRS ( p ex IN2P3 ) et organismes ( CNES CEAhellip ) les niveaux de feacutedeacuteration et de mutualisation possibles des plateformes scientifiques et drsquoarchivage en leur sein ( Euclid Gaiahellip ) et entre ces projets ( CTA SKAhellip ) est un nouvel enjeu

Une telle strateacutegie doit ecirctre en phase avec les pratiques et les applications scientifiques Elle srsquoaccompagne drsquoenjeux proceacuteduraux et humains associeacutes agrave lrsquoorganisation et la mutualisation des expertises scientifiques meacutethodologiques et technologiques neacutecessaires pour le stewardship des donneacutees et des plateformes de ressources et de services dans ce nouveau contexte Elle implique eacutegalement une eacutevolution des politiques drsquoaccegraves drsquoutilisation et drsquoexploitation des centres nationaux et reacutegionaux qui doivent offrir les services neacutecessaires agrave ces environnements data-centric

Il y a des limites agrave ce qui peut en ecirctre obtenu en sciences de lrsquoUnivers ougrave les efforts drsquoobservation sont fondamentalement globalement distribueacutes internationalement structureacutes et financeacutes par diffeacuterents projets et organisations

56

Livre Blanc sur les Donneacutees au CNRS Eacutetat des Lieux et Pratiques - 2018

Par exemple les instituts de recherche en charge de services de reacuteponse rapide de surveillance et drsquoeacutevaluation drsquoaleacuteas naturels ainsi que les grandes universiteacutes de recherche ont besoin de deacutemontrer des ressources qui leur permettent drsquoattirer des chercheurs et des ingeacutenieurs de premier plan ainsi que des contrats et des financements Il y a donc des pressions pour maintenir la visibiliteacute et une diversiteacute de ressources indeacutependantes Une strateacutegie recouvrant des ressources autonomes doit minimiser les coucircts tout en respectant ces problegravemes organisationnels et sociologiques

Pour relever ces nouveaux deacutefis le dispositif des OSU ANO et SNO ainsi que les expertises scientifiques meacutethodologiques et technologiques qursquoil feacutedegravere et mutualise constitue un atout original majeur Ces expertises de plus en plus interdisciplinaires doivent eacutevoluer en phase avec les technologies de plus en plus complexes des grands instruments et des systegravemes drsquoobservation de la logistique des donneacutees de nouvelles meacutethodes et technologies de calcul et drsquoanalyse de donneacutees Les communauteacutes de lrsquoINSU collaborent aujourdrsquohui activement agrave lrsquoeacutechelle nationale et internationale avec drsquoautres disciplines ( sciences des donneacutees matheacutematiques appliqueacutees statistiques physique des particules et physique statistique

eacutecologie biologie santeacute recherche informatique ) et avec les fournisseurs et les deacuteveloppeurs drsquoinfrastructures de communication de calcul et de donneacutees Ces collaborations sont favoriseacutees au sein du CNRS par la Mission pour lrsquoInterdisciplinariteacute et se traduisent aux niveaux national et europeacuteen par de nombreux projets ANR et H2020 Les communauteacutes de lrsquoINSU contribuent eacutegalement activement agrave des ONG en lien avec les donneacutees ( p ex RDA GEOGEOSS Belmont Forum )

En comparaison avec les pratiques internationales ( p ex aux Etats-Unis ) ougrave le deacuteveloppement de codes et de bibliothegraveques ( traitement analyse ) communautaires est structureacute sous forme de projets depuis plus drsquoune dizaine drsquoanneacutees avec un support ingeacutenieur important et speacutecialiseacute il reste des efforts importants agrave accomplir et agrave reconnaicirctre aux niveaux national et europeacuteen Un enjeu concomitant et important reste encore aujourdrsquohui une meilleure reconnaissance de ces expertises scientifiques meacutethodologiques et technologiques souvent interdisciplinaires et des nouvelles tacircches drsquoobservation au niveau des recrutements et des promotions des personnels chercheurs astronomes et physiciens du CNAP23 ingeacutenieurs et techniciens

23 httpwwwcnapobspmfr

INSU

57

Livre Blanc sur les Donneacutees au CNRS Eacutetat des Lieux et Pratiques - 2018

29 INSTITUT DES SCIENCES DE LrsquoINFORMATION ET DE LEURS INTERACTIONS ( INS2I )

Cette section a eacuteteacute reacutedigeacutee avec Mokrane Bouzeghoub DAS agrave INS2I

291 Introduction

LrsquoInstitut des Sciences de lrsquoInformation et de leurs Interactions ( INS2I ) rassemble environ 600 chercheurs CNRS sur un total de lrsquoordre de 4500 permanents dans une cinquantaine drsquouniteacutes de recherche Ses theacutematiques couvrent une partie des sections 6 ( fondements de lrsquoinformatique calculs algorithmes repreacutesentations exploitations ) et 7 ( signal image automatique robotique ) du Comiteacute National

Dans de nombreux domaines scientifiques et socio-eacuteconomiques la volumeacutetrie et la varieacuteteacute des donneacutees existantes ainsi que le coucirct et les contraintes de temps de traitement ont fait apparaicirctre de nouveaux deacutefis De multiples domaines sont concerneacutes les sciences fondamentales ( physique des hautes eacutenergies fusion sciences de la Terre et de lrsquoUnivers bio-informatique neurosciences ) les secteurs de lrsquoeacuteconomie numeacuterique ( business intelligence web e-commerce reacuteseaux sociaux e-gouvernement santeacute conception des meacutedicaments teacuteleacutecommunications et meacutedias transports terrestre et aeacuterien marcheacutes financiers ) lrsquoenvironnement ( climat risques naturels ressources eacutenergeacutetiques smart cities maison connecteacutee ) la seacutecuriteacute ( cyber-seacutecuriteacute seacutecuriteacute nationale ) ou lrsquoindustrie ( smart industry produits sur mesure chaicircne de conceptionreacutealisation des produits inteacutegreacutee de bout en bout )

Lrsquoextraction de connaissances agrave partir de grands volumes de donneacutees lrsquoapprentissage statistique lrsquoagreacutegation de donneacutees heacuteteacuterogegravenes la visualisation et la navigation dans de grands espaces de donneacutees et de connaissances sont de veacuteritables instruments numeacuteriques qui permettent agrave des meacutedecins des ingeacutenieurs des chercheurs etc drsquoobserver des pheacutenomegravenes de valider des hypothegraveses drsquoeacutelaborer de nouveaux modegraveles ou de prendre des deacutecisions en situation critique La maicirctrise de ces instruments au niveau des entreprises des collectiviteacutes ou du gouvernement devient un reacuteel enjeu de pouvoir eacuteconomique politique et socieacutetal Drsquoougrave lrsquoimportance du Big Data de lrsquoOpen Data et du Linked Data tant aux Eacutetats-Unis qursquoen Europe24

24 httpwwwnitrdgovSubcommitteebigdataaspx httpcom-monfundnihgovInnovationBrainstorm httpwwwaeranet

Internet et le Web jouent aussi un rocircle capital puisqursquoils concentrent une grande part des donneacutees et des connaissances et qursquoils concernent des centaines de millions drsquoutilisateurs

Le traitement des grands volumes de donneacutees est fortement connecteacute au calcul intensif lorsque les donneacutees sont issues de simulations de grande taille mais aussi lorsque provenant drsquoobservations ou drsquoexpeacuterimentations elles sont utiliseacutees pour la modeacutelisation de systegravemes complexes ( oceacutean meacuteteacuteo formation des galaxieshellip ) Les communications constituent elles aussi un aspect essentiel du traitement et de lrsquoacquisition des donneacutees massives Lrsquoanalyse de donneacutees massives induit des calculs intensifs souvent effectueacutes sur des infrastructures distribueacutees agrave grande eacutechelle ( clusters grilles ou cloud ) mais que lrsquoon trouve de plus en plus freacutequemment sur des plateformes du type HPC ( p ex en deep learning avec lrsquoexploitation de GPU )Le traitement des donneacutees eacutetant au cœur de la discipline il est donc tout naturel que les recherches en informatique aient investi le domaine des Big Data bien avant qursquoelles ne deviennent un enjeu et une preacuteoccupation pour les autres sciences et pour la socieacuteteacute Le stockage distribueacute et agrave grande eacutechelle lrsquooptimisation des accegraves la deacutefinition de langages de requecirctes de haut niveau la fouille de donneacutees la reacutesilience aux pannes et la protection des donneacutees sont des thegravemes de recherche reacutecurrents et reacuteguliegraverement revisiteacutes pour inteacutegrer les nouvelles technologies de stockage les nouvelles architectures de calcul et les nouveaux besoins de diversification des types de donneacutees et de passage agrave lrsquoeacutechelle des applications La fertilisation croiseacutee avec les matheacutematiques notamment en statistique en optimisation et en modeacutelisation a abouti agrave lrsquoeacutemergence des sciences de donneacutees comme un sous-domaine de recherche avec ses propres objets drsquoinvestigation La majoriteacute des uniteacutes de lrsquoINS2I ont des eacutequipes de recherche actives et visibles sur ce domaine

Les activiteacutes de recherche de INS2I autour des masses de donneacutees concernaient de lrsquoordre de 500 chercheursenseignants-chercheurs en 2012 lors du recensement effectueacute dans le Livre Blanc sur le Calcul Intensif

grantsprogramres_trainingres_grantsrgflyhtml

58

Livre Blanc sur les Donneacutees au CNRS Eacutetat des Lieux et Pratiques - 2018

292 La probleacutematique des donneacutees agrave IrsquoINS2I

Le traitement des donneacutees agrave grande eacutechelle avec des sources de donneacutees eacuteventuellement multiples distribueacuteesreacuteparties et heacuteteacuterogegravenes ( structures formats logiciels serveurshellip ) et une volumeacutetrie en donneacutees allant du teacuteraoctet au peacutetaoctet ( et agrave lrsquoExaoctet dans un futur proche ) est central agrave de multiples domaines allant du Web seacutemantique agrave la simulation numeacuterique avec des applications en biologiesanteacute sciences de lrsquounivers et ingeacutenierie etc

Les grandes tendances de la recherche en Big Data deacuteveloppeacutees agrave INS2I portent sur des meacutethodes innovantes de traitement et drsquoanalyse sur toute la chaicircne de valeur de la donneacutee collecte indexation stockage gestion exploitation valorisation accessibiliteacute et visualisation Les meacutecanismes de collecte drsquointeacutegration de donneacutees multi-sources de distribution des donneacutees et des calculs ( Spark25 MongoDB26 Hadoop27 implantation de MapReduce introduit par Google QServ systegraveme drsquointerrogation de base de donneacutees deacuteveloppeacute pour le LSST28hellip ) dans des environnements Cloud neacutecessitent le deacuteveloppement et lrsquooptimisation de nouvelles techniques ou le portage drsquoalgorithmes existants pour le traitement et lrsquoanalyse des donneacutees En particulier les travaux portent sur lrsquoextraction des connaissances des meacutetadonneacutees et des ontologies sur les bases de donneacutees NoSql ou graphes et sur la paralleacutelisation des algorithmes Le deacuteveloppement drsquoapplications verticales inteacutegreacutees accessibles sur tous supports mobiles et commercialisables deacuteployeacutees en mode SaaS par exemple sera sans doute dans lrsquoavenir un des principaux axes de valorisation Lrsquousine digitale permettant de deacuteployer des applications drsquooptimisation de la production industrielle et la transformation digitale sont drsquoautres points importants pour la recherche informatique tant dans la modeacutelisation des process industriels que dans lrsquooptimisation de ces process gracircce aux donneacutees eacutemises par des milliers de capteurs Lrsquoacceptabiliteacute des applications par les utilisateurs est un point crucial et de nombreux travaux srsquointeacuteressent aux modes drsquointeraction et aux meacutecanismes de protection de la vie priveacutee

25 httpssparkapacheorg26 httpswwwmongodbcom27 httphadoopapacheorg28 httpdmlsstorg

Les donneacutees massives sont souvent traiteacutees sur des infrastructures distribueacutees agrave grande eacutechelle ( p ex traitement des donneacutees du LHC ) Les stocker les indexer et effectuer un post-traitement pour extraire de lrsquoinformation ou en vue drsquoune aide agrave la deacutecision est la plupart du temps un challenge et neacutecessite des interactions entre les diverses communauteacutes qui produisent les donneacutees mais aussi speacutecialistes du cloudHPC de la visualisation des basesentrepocircts de donneacutees

Le High Performance Data Analytics ( HPDA ) est devenu central dans de multiples disciplines et constitue une prioriteacute dans les programmes nationaux de pays comme la Chine ougrave il repreacutesente une part importante des applications sur les supercalculateurs avec des applications en biologie meacutedecine personnaliseacutee preacutediction des catastrophes naturelles transports Le HPDA est drsquoailleurs devenu lrsquoun des moteurs importants de vente de supercalculateurs sur le marcheacute La meacutedecine personnaliseacutee par exemple induit de veacuteritables challenges en termes de volume de donneacutees agrave analyser avec des millions de patients

Les besoins en data analytics sont en train drsquoexploser renforccedilant la neacutecessiteacute de disposer de meacutethodes drsquoanalyse de donneacutees qui passent agrave lrsquoeacutechelle de chaines complegravetes de traitement et drsquooutils drsquoaide agrave la deacutecision le tout en srsquoappuyant sur des plateformes de calcul performantes du type HPC

Ce constat autour des masses de donneacutees agrave analyser et les multiples applications dans les secteurs socio-eacuteconomiques ( finance industrie santeacutehellip ) expliquent le retour au premier plan des meacutethodes drsquoIntelligence Artificielle que ce soit pour lrsquoanalyse de donneacutees ( apprentissage superviseacute ou non dont le Deep Learning classificationhellip ) la logique formelle lrsquoaide agrave la deacutecision le traitement du langage naturel et lrsquoargumentationhellip deacuteveloppeacutees dans les anneacutees 80 mais souvent trop coucircteuses qui deviennent des outils incontournables gracircce aux capaciteacutes de calcul disponibles Il nrsquoest qursquoagrave constater que les GAFAM mais aussi IBM et les marcheacutes financiers ont eacuteteacute parmi les premiers agrave reacuteafficher toute lrsquoimportance de lrsquoIA

INS2I

59

Livre Blanc sur les Donneacutees au CNRS Eacutetat des Lieux et Pratiques - 2018

Exemple de la plateforme Galactica utiliseacutee pour la cosmologie ( Prof F Toumani Universiteacute Clermont Auvergne Laboratoire LIMOS - UMR 6158 )

La plateforme Galactica ( httpsgalacticaisimafr ) mise en place en septembre 2015 dans le cadre du programme PlaSciDo de lrsquoINS2I vise le deacuteveloppement et la mise agrave disposition de services drsquoingeacutenierie et drsquoexpeacuterimentation agrave grande eacutechelle pour les chercheurs dans le domaine des grandes masses de donneacutees Galactica est un cluster composeacute de nœuds de calcul et de nœuds de stockage preacutesentant une puissance de calcul totale de 128 cœurs ( 256 vCPU ) agrave 240 GHz 38 To de RAM et une capaciteacute de stockage de 143 To reposant sur le logiciel Ceph Les nœuds du cluster sont interconnecteacutes gracircce agrave un reacuteseau agrave 10 et 40 Gos Lrsquoeacutequipement de la plateforme a beacuteneacuteficieacute drsquoun financement de lrsquoINS2I et du Contrat Plan Etat Reacutegion ( CPER ) de la reacutegion Auvergne Un objectif important de la plateforme Galactica est de mettre agrave la disposition des chercheurs en informatique une infrastructure de stockage et de calcul drsquoenvergure suffisante qui reste flexible et facile agrave configurer pour srsquoadapter aux besoins speacutecifiques des expeacuterimentations dans ce domaine Galactica offre pour cela trois niveaux de services Un premier niveau concerne lrsquoinfrastructure en tant que service deacuteployeacutee gracircce agrave la suite logicielle OpenStack qui permet agrave un chercheur de creacuteer de maniegravere aiseacutee au sein drsquoun environnement virtualiseacute les ressources informatiques ( calcul stockage reacuteseau etc ) adapteacutees agrave ses besoins Le deuxiegraveme niveau de service concerne la possibiliteacute pour un chercheur de creacuteer un cluster de traitement de donneacutees gracircce agrave lrsquoutilisation de modegraveles preacutedeacutefinis ( templates ) Les modegraveles disponibles actuellement sur la plateforme concernent les principales technologies modernes drsquoanalyse et de gestion de donneacutees massives comme par exemple Apache Hive ( httpshiveapacheorg ) Apache Hadoop ( httphadoopapacheorg ) Hortonworks Data Platform ( httpsfrhortonworkscom ) Cloudera ( httpswwwclouderacom ) et Apache Spark ( httpssparkapacheorg ) De plus gracircce au service Elastic Data Processing ( EDP ) il est possible pour un chercheur de creacuteer et drsquoexeacutecuter des jobs sur des clusters de traitement de donneacutees deacuteployeacutes au sein de la plateforme Enfin le dernier niveau de service concerne la mise agrave disposition de jeux de donneacutees soit sous forme brute par exemple les jeux de donneacutees astronomiques LSST ( 2 To et 35 To ) GAIA DR1 ( 730 Go compresseacutes httpswwwcosmosesaintwebgaiadr1 ) et SDSS DR9 ( 8 To httpwwwsdss3orgdr9 ) ou bien sous forme de laquo source de donneacutees raquo Une source de donneacutees est deacutefinie comme eacutetant une collection de donneacutees associeacutee agrave une infrastructure logicielle permettant drsquoexploiter ces donneacutees Un exemple de source de donneacutees est une machine virtuelle heacutebergeant MySQL et une base de

donneacutees MySQL contenant le catalogue associeacute au jeu de donneacutees SDSS DR9 Une source de donneacutees peut ecirctre reacutepliqueacutee facilement pour ecirctre exploiteacutee par des utilisateurs diffeacuterents dans des contextes diffeacuterents Srsquoinscrivant degraves sa creacuteation dans une dynamique de mutualisation des moyens et des compeacutetences Galactica se veut comme une plateforme ouverte aux chercheurs dans le domaine de lrsquoanalyse et de la gestion des grandes masses de donneacutees Preacutevue dans un premier temps en appui aux travaux du projet PetaSky ( httpcomisimafrPetasky ) la plateforme a eacuteteacute ouverte ensuite agrave la communauteacute de recherche en Science des Donneacutees pour accueillir actuellement 19 projets impliquant plus drsquoune soixantaine drsquoutilisateurs provenant de 12 laboratoires de recherche

Exemple de plateforme autour de la recherche drsquoinformation installeacutee agrave lrsquoInstitut de Recherche en Informatique de Toulouse ( IRIT ) OSIRIM

OSIRIM est une plateforme de stockage de forte volumeacutetrie ( 1 Po ) conccedilue pour lrsquoheacutebergement de projets scientifiques abordant les probleacutematiques lieacutees aux laquo meacutegadonneacutees raquo Cette plateforme administreacutee par lrsquoIRIT a eacuteteacute financeacutee par le gouvernement franccedilais la reacutegion Midi-Pyreacuteneacutees le Centre National de la Recherche Scientifique et le Fonds Europeacuteen de Deacuteveloppement Reacutegional dans le cadre drsquoun Contrat-Plan EtatReacutegion Elle est opeacuterationnelle depuis septembre 2013 et propose des ressources de stockage et de calcul pour la recherche sur lrsquoindexation et la recherche drsquoinformation dans des contenus multimeacutedias

La plateforme permet lrsquoheacutebergement de projets scientifiques neacutecessitant le stockage et le partage de plusieurs teacuteraoctets de donneacutees pour la reacutealisation drsquoexpeacuterimentations sur de grands volumes le partage de corpus de donneacutees issues par exemple de reacuteseaux sociaux donneacutees drsquoobservations donneacutees meacutedicales anonymiseacutees donneacutees audio ou videacuteohellip et partage drsquooutils logiciels par exemple pour lrsquoeacutevaluation de technologies Hadoop Sparkhellip OSIRIM est ouverte agrave la communauteacute informatique et autres domaines scientifiques souhaitant utiliser ses moyens mateacuteriels ou logiciels Lrsquoaccegraves agrave la plateforme srsquoeffectue directement agrave partir drsquoInternet Lrsquoheacutebergement des projets est gratuit Elle dispose drsquoun cluster Hadoop de Spark et drsquoun certain nombre drsquoautres logiciels ainsi que MongoDB en compleacutement du gestionnaire de tacircches SLURM seule offre initialement disponible sur la plateforme OSIRIM a eacutegalement eacuteteacute utiliseacutee en 2016 en soutien pour lrsquoinitiation agrave la recherche dans certaines

60

Livre Blanc sur les Donneacutees au CNRS Eacutetat des Lieux et Pratiques - 2018

formations de master toulousaines essentiellement autour de lrsquoapprentissage des technologies Hadoop En matiegravere de corpus il est agrave noter que la plateforme OSIRIM heacuteberge depuis septembre 2015 1 des tweets mondiaux ( via un flux temps reacuteel ) qursquoelle met agrave disposition des eacutequipes inteacuteresseacutees par lrsquoanalyse et lrsquoexploitation de ce corpus

Lrsquoarchitecture drsquoOSIRIM srsquoarticule autour

bull Drsquoun cluster de calcul de 640 cœurs comprenant des nœuds deacutedieacutes agrave la gestion de la plateforme agrave lrsquoheacutebergement des composants pilotant les architectures logicielles deacuteployeacutees ( gestionnaire de tacircches SLURM distribution Hadoop Spark Mongodbhellip ) ainsi que les nœuds permettant aux utilisateurs de se connecter sur la plateforme pour geacuterer leurs donneacutees et lancer lrsquoexeacutecution de leurs traitements et des nœuds deacutedieacutes aux calculs Il srsquoagit de 10 serveurs IBM X3755 M3 comprenant chacun 4 processeurs AMD Opteron 6262HE de 16 cœurs agrave 16Ghz 512 Go de RAM 2 disques de 300 Go en RAID1 et 2 liaisons agrave 10Gbs Le lancement des traitements srsquoeffectue via le gestionnaire de tacircches SLURM ( Simple Linux Utility for Resource Management ) ou par le gestionnaire de ressources Hadoop YARN

bull Drsquoune zone de stockage drsquoune capaciteacute utile drsquoenviron 1 Po Ce stockage est assureacute par une baie EMC Isilon Les donneacutees sont acceacutedeacutees en NFS et HDFS La baie est composeacutee de 12 nœuds X 400 de 36 disques SATA de 3 To chacun raccordeacutes au reacuteseau via 2 liens de 10Gbs

OSIRIM a permis cette anneacutee de reacutepondre agrave diverses demandes drsquoheacutebergement de projets tant au sein du laboratoire qursquoagrave lrsquoexteacuterieur dont

bull Grid5000 mise agrave disposition drsquoun espace de stockage de 100 To suite au raccordement drsquoOSIRIM au reacuteseau de grille de calcul Grid5000

bull Polemic avec lrsquoUAM Mexico analyse du comportement des utilisateurs dans les reacuteseaux sociaux

bull CompuBioMed avec lrsquoINSERM metamining pour la recommandation en bio-santeacute

bull Petasky avec le LIRIS techniques de partitionnement de donneacutees dans le domaine de la cosmologie

bull Musk avec lrsquouniversiteacute Paris Est ndash LISIS traitement de grands corpus textuels ( publications scientifiques tweets et actualiteacutes videacuteo )

bull SemDis avec le CLLE-ERSS creacuteation et eacutevaluation de bases distributionnelles du franccedilais

bull CAIR avec le LIRIS recherche agreacutegative de donneacutees

bull Tweet Contextualization avec lrsquouniversiteacute drsquoAvignon contextualisation de tweets autour drsquoeacuteveacutenements

Lrsquooffre logicielle proposeacutee sur la plateforme permet drsquoaccueillir depuis le deacutebut de lrsquoanneacutee 2017 de nouveaux projets dont certains neacutecessitent un heacutebergement de type cloud se traduisant par le deacuteploiement drsquoenvironnements speacutecifiques deacutedieacutes sous forme de machines virtuelles et exploitant des corpus de donneacutees heacutebergeacutes sur la plateforme OSIRIM

Enfin OSIRIM offre aussi un espace drsquoheacutebergement pour les travaux de recherche drsquoeacutequipes locales de lrsquoIRIT avec des activiteacutes lieacutees agrave

bull Lrsquoindexation de grandes masses de donneacutees heacuteteacuterogegravenes pour notamment concourir agrave des benchmarks internationaux en recherche drsquoinformation TREC29 CLEF30

bull Lrsquoeacutevaluation drsquooutils drsquoindexation de contenus musicaux indexation de grands volumes drsquoenregistrements drsquoeacutemissions de teacuteleacutevision internationales

bull Lrsquoindexation et recherche drsquoinformations dans de grandes masses de textes

bull Lrsquoanalyse de corpora textuels et ontologies

bull Le traitement complexe drsquoimages

29 Text REtrieval Conference30 Conference and Labs of the Evaluation Forum

INS2I

61

Livre Blanc sur les Donneacutees au CNRS Eacutetat des Lieux et Pratiques - 2018

293 Conclusion

La Science des Donneacutees est au cœur des pratiques de la recherche meneacutee agrave INS2I LrsquoIntelligence Artificielle quant agrave elle est revenue en force ( entre autres chez Google Microsoft IBM Amazonhellip ) avec des approches souvent deacuteveloppeacutees par les chercheurs informaticiens dans les anneacutees 80 ( mais trop coucircteuses agrave lrsquoeacutepoque ) car elle permet drsquoanalyser ces masses de donneacutees produites dans de multiples domaines et drsquoen tirer des informations eacuteventuellement pour de lrsquoaide agrave la deacutecision Dans ce domaine la France affiche un potentiel qui peut en faire lrsquoun des acteurs majeurs au niveau mondial

On peut srsquoattendre agrave des eacutevolutions rapides sur plusieurs points dont ( i ) lrsquoautomatisation des processus drsquoextraction ( meacutetadonneacutees connaissances ontologies ) et drsquointeacutegration des donneacutees et de gestion de la qualiteacute le deacuteveloppement de nouvelles meacutethodes drsquoanalyse de donneacutees multi-sources ( textes reacuteseaux sociaux audio videacuteo geacuteolocalisationhellip ) et lrsquoameacutelioration des performances ( passage agrave lrsquoeacutechelle ) ( ii ) une meilleure exploitation drsquoarchitectures adapteacutees au Big Data ( iii ) lrsquoameacutelioration de la seacutecuriteacute des infrastructures mateacuterielles et logicielles des collectes et des analyses ( iv ) lrsquooptimisation des meacutecanismes drsquoanonymisation et de cryptage garantissant la protection de la vie priveacutee ( v ) lrsquointeacutegration des donneacutees et des analyses pour la seacutecuriteacute ( cyber-seacutecuriteacute gestion de crises controcircle aux frontiegraveres ) ( vi ) lrsquointeacutegration et lrsquoexploitation des open data ( e-gouvernement santeacute impocircts )

Il reste cependant de multiples deacutefis agrave relever pour la recherche tels que

bull La maicirctrise de lrsquoheacuteteacuterogeacuteneacuteiteacute des donneacutees lors de leur inteacutegration et de leur agreacutegation en les confrontant agrave des donneacutees de reacutefeacuterences ou agrave des ontologies de domaines La deacutefinition notamment de meacutethodes de raisonnement sur des donneacutees incertaines ou incomplegravetes constitue un preacutealable fort agrave lrsquointeacutegration seacutemantique des donneacutees

bull Aller vers une theacuteorie de la deacutecision qualitative les systegravemes deacutecisionnels exploitent ces connaissances et offrent aux experts une palette drsquooutils qui ameacuteliorent non seulement leurs connaissances et leurs productiviteacutes mais leur offrent eacutegalement les meacuteta-connaissances neacutecessaires agrave une meilleure interpreacutetation des pheacutenomegravenes qursquoils observent ou surveillent De faccedilon plus geacuteneacuterale lrsquoaide agrave la deacutecision doit tenir compte autant des connaissances produites par les processus meacutetiers que des

informations qualitatives qui doivent accompagner cette connaissance Lrsquoorigine des informations la confiance en leurs producteurs leur coheacuterence leur compleacutetude leur exactitude leur fraicirccheur ainsi que la chaicircne de transformations qursquoelles ont subies sont autant drsquoeacuteleacutements indispensables agrave connaicirctre avant toute prise de deacutecision rationnelle

bull Lrsquoaide agrave la deacutecision pour les systegravemes complexes le terme Policy Analytics est utiliseacute depuis quelques anneacutees pour deacutesigner les activiteacutes drsquoexploration de tregraves grandes masses de donneacutees ( fouille extraction de connaissances ) pour la construction drsquoindicateurs syntheacutetiques et de modegraveles drsquoaide agrave la deacutecision utiliseacutes en support de pilotage de systegravemes complexes ( particuliegraverement des entreprises ou des organismes publics ) Les processus de deacutecision publique sont souvent soumis agrave drsquoimportantes exigences de leacutegitimiteacute et de sens Lrsquoaspect meacutethodologique en deacutecision est donc un problegraveme majeur ougrave la multipliciteacute des acteurs et lrsquoheacuteteacuterogeacuteneacuteiteacute seacutemantique sont des verrous agrave lever Les deacuteveloppements de systegravemes drsquoexplication ou de recommandations argumenteacutees sont des pistes agrave explorer

bull Lrsquoaide agrave la deacutecision dans un environnement ambiant ou ubiquitaire les reacuteseaux de capteurs lrsquoInternet des objets les eacutequipements mobiles produisent quantiteacute drsquoinformations correspondant agrave des releveacutes drsquoobservation ( meacuteteacuteo trafic crowdsourcing ) des donneacutees de surveillance ( santeacute ville ) des eacuteveacutenements environnementaux ( pollution tsunami ) Ces informations dites ambiantes sont pleacutethoriques heacuteteacuterogegravenes et parcellaires Elles doivent ecirctre rapprocheacutees avec des reacutefeacuterentiels pour les compleacuteter ou en deacuteterminer la seacutemantique Elles neacutecessitent souvent un traitement agrave la voleacutee pour produire des indicateurs qui serviront agrave la prise de deacutecision ou agrave la supervision agrave distance de tacircches ou de controcircle drsquoeacutequipements Ces travaux doivent tenir compte du contexte de lrsquoutilisateur de son activiteacute passeacutee de ses preacutefeacuterences et des interactions qursquoil a avec drsquoautres utilisateurs ou des communauteacutes drsquoutilisateurs

bull La preacuteservation des connaissances pour les geacuteneacuterations futures souligne lrsquoimportance de la peacuterenniteacute du stockage et le problegraveme drsquointerpreacutetation des contenus Les problegravemes souleveacutes sont agrave la fois drsquoordre technologique ( migration drsquoune technologie agrave une autre ) eacuteconomique ( coucircts de la migration et coucircts drsquoarchivage ) et seacutemantique ( eacutevolution des modegraveles de repreacutesentation de connaissances nouveaux standards de meacutetadonneacutees )

62

Livre Blanc sur les Donneacutees au CNRS Eacutetat des Lieux et Pratiques - 2018

Les sciences de lrsquoinformation irriguent et feacutecondent tout le champ scientifique gracircce agrave de nouveaux outils de modeacutelisation et de simulation de nouveaux modegraveles de calcul intensif la gestion et lrsquoanalyse de donneacutees massives le traitement du signal et de lrsquoimage la robotique les objets communicants et lrsquointeraction Lrsquoactiviteacute scientifique subit un bouleversement eacutepisteacutemologique qui conduit agrave de nouvelles formes de production de la connaissance et agrave lrsquoeacutemergence de plusieurs sous-disciplines Ainsi de nouveaux champs drsquoinvestigation sont neacutes aux interfaces des sciences de lrsquoinformation comme la bioinformatique les neurosciences computationnelles la cyber-seacutecuriteacute les humaniteacutes numeacuteriques la geacuteoinformatique lrsquoe-santeacute Lrsquoastroinformatique en est une parfaite illustration Elle integravegre lrsquoastronomie lrsquoastrophysique les statistiques lrsquoinformatique et le traitement du signal

A lrsquoimage de la bioinformatique elle est sur la voie de deacutefinir ses propres objets de recherche ses propres meacutethodes et ses propres innovations Lrsquoastrophysique a eacutemergeacute agrave la fin des anneacutees 2000 en eacutecho aux travaux de Jim Gray sur lrsquousage intensif des donneacutees en sciences Lors drsquoune confeacuterence en 2007 lrsquoinformaticien Jim Gray Prix Turing en 1998 eacutenonccedila lrsquoideacutee drsquoun nouveau paradigme de la science construit autour du traitement intensif et de lrsquoanalyse agrave grande eacutechelle des donneacutees ( data-intensive science )31 Lrsquoideacutee a depuis fait son chemin srsquoinspirant souvent du succegraves de la bioinformatique et srsquoacceacutelegravere reacutecemment sous la pression de projets drsquoenvergure comme SDSS GAIA et LSST encourageacutee aussi par les reacutecents progregraves en science des donneacutees ( requecirctes complexes apprentissage calcul distribueacute optimisation et passage agrave lrsquoeacutechelle )

31 [4] eScience -- A Transformed Scientific Method Jim Gray eScience Talk at NRC-CSTB meeting Mountain View CA 11 January 2007

INS2I

63

Livre Blanc sur les Donneacutees au CNRS Eacutetat des Lieux et Pratiques - 2018

210 INSTITUT NATIONAL DE PHYSIQUE NUCLEAIRE ET DE PHYSIQUE DES PARTICULES ( IN2P3 )

2101 Introduction

Creacuteeacute en 1971 lrsquoInstitut National de Physique Nucleacuteaire et de Physique des Particules ( IN2P3 ) du CNRS exerce les missions nationales drsquoanimation et de coordination dans les domaines de la physique nucleacuteaire de la physique des particules et des astroparticules des deacuteveloppements technologiques et des applications associeacutees Il conccediloit coordonne et anime les programmes de recherche nationaux et internationaux dans ces domaines Ses missions incluent eacutegalement la coordination de la mise en place de systegravemes drsquoinformation permettant le stockage la mise agrave disposition aupregraves de la communauteacute scientifique le traitement et la valorisation de lrsquoensemble des donneacutees scientifiques concerneacutees ainsi que leur archivage

Ces recherches ont pour but drsquoexplorer la physique des particules eacuteleacutementaires leurs interactions fondamentales ainsi que leurs assemblages en noyaux atomiques drsquoeacutetudier les proprieacuteteacutes de ces noyaux et drsquoexplorer les connexions entre lrsquoinfiniment petit et lrsquoinfiniment grand

Que ce soit avec la physique des particules aupregraves des grands acceacuteleacuterateurs la physique des astroparticules avec les expeacuteriences embarqueacutees sur satellites les teacutelescopes et autres deacutetecteurs terrestres ou encore dans une moindre mesure la physique nucleacuteaire les eacutequipes de lrsquoIN2P3 et du CEAIrfu doivent faire face agrave des masses de donneacutees consideacuterables qursquoil faut stocker distribuer et analyser Bien qursquohistoriquement lrsquoinformatique agrave lrsquoIN2P3 ait eacuteteacute fortement domineacutee par les besoins de la communauteacute de la physique des particules de nouveaux deacutefis sont apparus Des expeacuteriences de physique des astroparticules sont actuellement en cours avec des exigences qui atteindront une fraction significative de celle des expeacuteriences du Large Hadron Collider ( LHC ) au CERN dans les 5 prochaines anneacutees Un changement de paradigme est eacutegalement en cours en calcul pour la physique nucleacuteaire Compte tenu des grandes expeacuteriences agrave venir par exemple au GANIL la communauteacute veut centraliser le calcul et le stockage des donneacutees

Lrsquoensemble des expeacuteriences neacutecessite eacutegalement des modeacutelisations par technique de Monte-Carlo qui sont elles-mecircmes geacuteneacuteratrices de grandes quantiteacutes de donneacutees Lrsquoaspect donneacutees et traitement statistique est donc la caracteacuteristique principale de lrsquoinformatique pour la physique corpusculaire

Le traitement statistique global sur une multitude de jeux de donneacutees indeacutependants mdash une collision de particules correspond agrave un jeu de donneacutees mdash srsquoadapte tregraves bien agrave des architectures informatiques constitueacutees de ferme de calculateurs Drsquoune maniegravere geacuteneacuterale en dehors des calculs de chromodynamique quantique sur reacuteseau ( QCD ) la physique subatomique a tregraves peu besoin de calculateurs parallegraveles Cette caracteacuteristique lrsquoa distingueacutee de bon nombre drsquoautres disciplines scientifiques pour lesquelles le HPC est une neacutecessiteacute La principale complexiteacute du calcul pour la physique corpusculaire provient des masses de donneacutees consideacuterables qursquoil faut geacuterer et distribuer sur le reacuteseau mondial puis traiter au niveau local

Lrsquoensemble des laboratoires de lrsquoIN2P3 utilise les ressources informatiques du CC-IN2P3 ( Section 31 ) et des grilles WLCG et EGI

2102 La probleacutematique des donneacutees agrave lrsquoIN2P3

Depuis la creacuteation de lrsquoIN2P3 le plus grand deacutefi en termes de traitement de donneacutees a eacuteteacute le calcul et le stockage des donneacutees de la physique des particules issues des expeacuteriences du CERN

Dans le grand collisionneur de hadrons ( LHC ) des particules entrent en collision environ 600 millions de fois par seconde Chaque collision produit des particules qui se deacutecomposent souvent de faccedilon tregraves complexe en formant des particules plus nombreuses

64

Livre Blanc sur les Donneacutees au CNRS Eacutetat des Lieux et Pratiques - 2018

Pour chaque eacuteveacutenement qui passe par la proceacutedure de filtrage rigoureuse des deacutetecteurs du LHC il faut en moyenne simuler 1 agrave 15 eacuteveacutenement afin de pouvoir calibrer et finalement comprendre les donneacutees des expeacuteriences

Le traitement des donneacutees agrave lrsquoIN2P3 est aujourdrsquohui eacutetroitement lieacute et influenceacute par le modegravele de calcul du LHC et aligneacute sur la grille de calcul mondiale du LHC ( WLCG ) Le deacutefi consiste agrave passer au crible les 50 peacutetaoctets de donneacutees produites chaque anneacutee pour deacuteterminer si les collisions ont souleveacute une physique inteacuteressante Le WLCG est une infrastructure informatique distribueacutee organiseacutee en plusieurs niveaux ( tiers ) et offre agrave une communauteacute de plus de 8000 physiciens un accegraves en temps reacuteel aux donneacutees du LHC

Ainsi la plus grande partie de lrsquoinfrastructure de calcul drsquoIN2P3 est organiseacutee par LCG-France32 selon une structuration par Tier33 avec CC-IN2P3 eacutetant le Tier-1 franccedilais accompagneacute de 7 Tier-2 drsquoIN2P3 Cela inclut le centre Tier-2 GRIF34 ( Grille au service de la Recherche en Icircle-de-France ) avec une forte participation du CEAIrfu

Pour donner une ideacutee du deacutefi de la gestion des donneacutees en 2017 LCG-France a une capaciteacute de stockage sur disque de 17 Po au niveau Tier-1 ( crsquoest-agrave-dire agrave CC-IN2P3 ) et 14 Po au niveau Tier-2 et une capaciteacute de stockage sur bande de 40 Po au CC-IN2P3 Pour le traitement en France environ 18 000 cœurs sont reacuteserveacutes au Tier-1 et encore environ 18000 cœurs dans les centres Tier-2

32 httplcgin2p3fr33 ldquoThe Grid A system of tiersrdquo httpshomecernaboutcompu-tinggrid-system-tiers34 httpsgriffr

IN2P3

Infrastructure principale pour le calcul IN2P3

65

Livre Blanc sur les Donneacutees au CNRS Eacutetat des Lieux et Pratiques - 2018

Bien que le traitement des donneacutees pour LCG-France soit de loin le plus grand utilisateur de lrsquoinfrastructure de calcul de lrsquoIN2P3 drsquoautres communauteacutes au sein drsquoIN2P3 progressent rapidement

Par exemple en 2016 le CC-IN2P3 a fourni en moyenne 2 800 cœurs de calcul 12 To drsquoespace disque et 25 To de stockage sur bande agrave des expeacuteriences astrophysiques spatiales ( AMS-2 Planck Fermi ) Toute la communauteacute des astroparticules a utiliseacute en 2016 environ 3 Po de disque et 8 Po de bande au CC-IN2P3 Nous beacuteneacuteficions indeacuteniablement drsquoune culture et drsquoune sensibilisation aux deacutefis du traitement des donneacutees dans la communauteacute de la physique des particules et de lrsquoastrophysique Dans ce contexte les expeacuteriences du LHC filtrent leurs donneacutees autant que possible deacutejagrave au niveau du deacutetecteur De plus le nombre de copies de donneacutees est maintenu au minimum absolu neacutecessaire et les donneacutees intermeacutediaires sont effaceacutees autant que possible Dans lrsquoastrophysique spatiale le flux de donneacutees est principalement limiteacute par la largeur de bande de teacuteleacutemeacutetrie des satellites ce qui signifie qursquoun effort important est entrepris pour reacuteduire les donneacutees deacutejagrave agrave bord du satellite

Dans les anneacutees agrave venir un grand nombre de projets importants stockeront leurs donneacutees dans lrsquoinfrastructure de lrsquoIN2P3 En physique des particules lrsquoinstitut participe agrave lrsquoexpeacuterience Belle-235 de lrsquoacceacuteleacuterateur japonais SuperKEKB En physique des astroparticules agrave tregraves haute eacutenergie le Cherenkov Telescope Array ( CTA ) produira environ 8 Po de donneacutees par an dont 4 Po sont des donneacutees brutes et 2 Po sont des donneacutees simuleacutees neacutecessaires agrave lrsquoeacutetalonnage En cosmologie nous verrons le deacutemarrage de lrsquoexploitation de deux projets majeurs au deacutebut des anneacutees 2020 la mission Euclid de lrsquoESA et le Large Synoptic Survey Telescope ( LSST ) Les deux sont extrecircmement difficiles en matiegravere de quantiteacute et de qualiteacute des donneacutees Alors que pour Euclid lrsquoIN2P3 est responsable de 30 du traitement des donneacutees pour LSST nous fournirons 50 de la puissance de calcul et conserverons une archive complegravete de toutes les donneacutees LSST ( brutes et reacuteduites ) au CC-IN2P3 Les deux LSST et Euclid produiront chacun environ 100 Po de donneacutees

Dans le domaine de la physique nucleacuteaire le traitement des donneacutees a eacuteteacute jusqursquoici deacutecentraliseacute principalement au sein des groupes chargeacutes des expeacuteriences Dans le contexte de la mise en service du nouvel acceacuteleacuterateur Spiral-2 au Ganil et de lrsquoeacutevolution simultaneacutee de deacutetecteurs tels que S3 une approche plus centraliseacutee est eacutegalement neacutecessaire pour cette communauteacute

35 httpswwwbelle2org

Un groupe de travail eacutetudie les possibiliteacutes de centraliser le stockage des donneacutees et eacuteventuellement le traitement des donneacutees pour les expeacuteriences existantes et futures dans ce domaine

LrsquoIN2P3 est le principal et de loin le plus gros contributeur de France Grilles la NGI ( National Grid Infrastructure ) franccedilaise qui fait partie de lrsquoinfrastructure de reacuteseau europeacuteen ( EGI36 ) Lrsquoactiviteacute srsquoorganise autour de trois axes pour reacutealiser la strateacutegie geacuteneacuterale de France Grilles

bull Le deacuteploiement et lrsquoopeacuteration drsquoune infrastructure distribueacutee de grille et de cloud au niveau national

bull Lrsquoapplication drsquoune politique drsquoaccegraves permettant de rendre cette infrastructure disponible aux utilisateurs de toutes les disciplines

bull Lrsquointeacutegration de cette infrastructure dans EGI

France Grilles est organiseacute en un Groupement drsquoInteacuterecirct Scientifique ( GIS ) avec un grand nombre de partenaires ( CNRS MENESR CEA CPU INRA INRIA INSERM et RENATER ) et devrait jouer un rocircle de premier plan au sein de la structure laquo FR-T2 raquo actuellement en gestation et qui devrait coordonner les e-infrastructures franccedilaises de maniegravere distribueacutee et nationale

Pour permettre une utilisation efficace des donneacutees distribueacutees en plusieurs endroits ( p ex dans les diffeacuterents centres Tier en France ) France Grilles et lrsquoIN2P3 srsquoappuient notamment sur iRODS iRODS37 pour Integrated Rule-Oriented Data System est un outil de distribution de donneacutees permettant lrsquoaccegraves agrave des donneacutees se trouvant reacuteparties sur diffeacuterents sites et sur des supports heacuteteacuterogegravenes ( systegraveme de fichiers sur disques bases de donneacutees bandes magneacutetiques etc )

En outre lrsquoIN2P3 est engageacute dans le principe FAIR38pour les donneacutees Cela signifie que les donneacutees de notre recherche doivent ecirctre trouvables accessibles interopeacuterables et reacuteutilisables Dans ce contexte nous entreprenons plusieurs actions Par exemple un modegravele de plan de gestion de donneacutees commun a eacuteteacute creacuteeacute et nous avons lrsquointention drsquoen rendre obligatoire la fourniture pour tous les projets IN2P3

36 httpswwwegieu37 httpsirodsorg iRODS IN2P3 service httpsirodsin2p3fr38 par exemple Mons et al 2017

66

Livre Blanc sur les Donneacutees au CNRS Eacutetat des Lieux et Pratiques - 2018

Concernant lrsquoaspect de trouvabiliteacute des donneacutees nous recommandons lrsquoutilisation de Digital Object Identifiers39 ce qui permet drsquoeacutetablir un lien exploitable interopeacuterable et persistant vers des donneacutees par exemple dans le contexte drsquoune publication scientifique Afin drsquoassurer la reacuteutilisabiliteacute des donneacutees un projet a eacuteteacute mis en place agrave lrsquoIN2P3 en 2016 pour eacutetudier les possibiliteacutes de preacuteservation des logiciels et la valeur ajouteacutee drsquoun plan geacuteneacuteral de gestion des logiciels

Dans le contexte europeacuteen lrsquoIN2P3 suit une approche similaire agrave travers sa participation agrave des projets lieacutes agrave lrsquoEuropean Open Science Cloud ( EOSC ) LrsquoEOSC vise agrave donner aux scientifiques en Europe un accegraves transparent au calcul au stockage et aux services agrave travers les frontiegraveres et les communauteacutes Dans le cadre du projet EOSC-Pilot lrsquoIN2P3 dirige lrsquoeffort drsquointeropeacuterabiliteacute des donneacutees et des e-infrastructures crsquoest-agrave-dire que nous essayons de trouver et de proposer des solutions qui permettront agrave lrsquoEOSC drsquoatteindre ses objectifs

Lrsquoinstitut est eacutegalement impliqueacute dans deux projets europeacuteens qui eacutetudient les possibiliteacutes offertes par le cloud et les infrastructures distribueacutees Au sein drsquoHelix Nebula Science Cloud ( HNSciCloud ) nous eacutetudions une plateforme de cloud hybride rassemblant des fournisseurs de services de cloud computing des e-infrastructures financeacutees par des fonds publics et des ressources internes Et dans le projet eXtreme DataCloud ( XDC ) des systegravemes de donneacutees distribueacutees sont exploreacutes y compris des fournisseurs priveacutes et publics et eacutetudient des aspects de la gestion des donneacutees pour la physique des astroparticules et des hautes eacutenergies

2103 Conclusion

LrsquoIN2P3 a une longue histoire dans la gestion de grands flux de donneacutees ainsi que dans lrsquoorganisation et la distribution du stockage Neacuteanmoins les deacutefis agrave venir dans les 5-10 prochaines anneacutees sont importants Nous nrsquoy verrons pas seulement un grand nombre de nouveaux projets avec des volumes de donneacutees tregraves importants ( de lrsquoordre de la dizaine de peacutetaoctets par an ) entrer dans le jeu mais la deacuteferlante de donneacutees qui reacutesultera de la mise agrave niveau du LHC et de ses expeacuteriences sera encore plus significative

39 httpswwwdoiorg

En raison de lrsquointensiteacute plus eacuteleveacutee du faisceau au LHC et des deacutetecteurs ayant une reacutesolution spatiale et temporelle plus eacuteleveacutee le volume de donneacutees au LHC devrait augmenter drsquoun facteur 100 drsquoici 2025 Diffeacuterentes solutions concernant le modegravele de calcul pour le LHC sont actuellement discuteacutees Il demeure cependant eacutevident que lrsquoIN2P3 fera encore face agrave une augmentation significative des exigences de traitement des donneacutees

Pour poursuivre son approche reacuteussie de la gestion des donneacutees lrsquoinstitut poursuit plusieurs approches

bull Etudier de nouvelles approches afin drsquooptimiser les flux de donneacutees Ceci inclut lrsquoutilisation de systegravemes comme iRODS mais aussi le deacuteveloppement de nouveaux systegravemes de gestion de ressources comme DIRAC

bull Travailler sur des systegravemes de calcul en ligne qui reacuteduisent la quantiteacute de donneacutees agrave traiter en reacuteduisant les donneacutees directement sur le site drsquoexpeacuterimentation Ceci est appliqueacute par exemple dans lrsquoinfrastructure de calcul O2 pour lrsquoexpeacuterience Alice au LHC ou dans lrsquoapproche de reacuteduction de donneacutees sur site de Cherenkov Telescope Array ( CTA )

bull Continuer agrave promouvoir des systegravemes de stockage de donneacutees qui permettent lrsquoutilisation transparente de diffeacuterentes ressources

bull Coordonner lrsquoapproche pour un accegraves transparent aux donneacutees avec les initiatives au niveau franccedilais ( p ex MiCaDo COCIN FR-T2 ) et dans le contexte europeacuteen ( p ex EOSC EDI EGI EUDAT )

bull Poursuivre la centralisation de lrsquoinfrastructure informatique de lrsquoIN2P3 ce qui permet un investissement plus efficace tout en maintenant le haut niveau drsquoexpertise distribueacutee dans les laboratoires

bull Poursuivre lrsquoapproche de formation continue agrave travers des programmes de formation pour le personnel IN2P3 former la prochaine geacuteneacuteration de scientifiques de donneacutees et maintenir lrsquoIN2P3 en tant qursquoinstitut attractif pour lrsquoensemble de la communauteacute du calcul scientifique et des infrastructures associeacutees

IN2P3

67

Livre Blanc sur les Donneacutees au CNRS Eacutetat des Lieux et Pratiques - 2018

31 LE CC-IN2P3

311 Mission du CC-IN2P3

LrsquoIN2P3 srsquoappuie sur lrsquoinfrastructure de recherche Centre de Calcul de lrsquoIN2P3 ( CC-IN2P3 ) pour accomplir sa mission de mise en place de systegravemes drsquoinformation permettant le stockage la mise agrave disposition aupregraves de la communauteacute scientifique le traitement et la valorisation de lrsquoensemble des donneacutees scientifiques concerneacutees ainsi que leur archivage

Le CC-IN2P3 dispose pour cela drsquoun datacenter abritant les services informatiques neacutecessaires agrave lrsquoanalyse et agrave lrsquointerpreacutetation des processus fondamentaux de la physique subatomique Du fait de la rareteacute de ces processus ce travail requiert lrsquoanalyse statistique de millions voire de milliards drsquointeractions entre particules Cette analyse neacutecessite le transport le stockage et le traitement drsquoeacutenormes quantiteacutes de donneacutees Les analyses physiques sont meneacutees par un grand nombre de chercheurs reacutepartis dans le monde entier

Le CC-IN2P3 fournit des ressources non seulement pour la physique nucleacuteaire et la physique des particules mais aussi pour lrsquoastrophysique et les astroparticules Parmi les collaborations scientifiques majeures qui utilisent ses services on trouve le LHC40 GANILSpiral 241 LSST42 CTA43 KM3NeT44 tous figurant sur la feuille de route des TGIRIR45 ou celle de lrsquoESFRI46 Par ailleurs les technologies informatiques deacuteployeacutees pour ces besoins ont deacutemontreacute une totale adeacutequation avec les besoins drsquoautres domaines ( sciences humaines

40 Large Hadron Collider ( httphomecerntopicslarge-hadron-collider )41 Grand Acceacuteleacuterateur National drsquoIons Lourds ( httpswwwganil-spiral2eu )42 Large Synoptic Survey Telescope ( httpwwwlsstorg )43 Cherenkov Telescope Array ( httpwwwcta-observatoryorg )44 Neutrino telescopes ( httpwwwkm3netorg )45 Tregraves grandes infrastructures de recherche Infrastructures de recherche46 European Strategy Forum on Research Infrastructures ( httpseceuropaeuresearchinfrastructurespdfesfriesfri_roadmapesfri_roadmap_2016_fullpdf )

bio-informatique eacutecologiehellip ) domaines qui utilisent aujourdrsquohui modestement les services du CC-IN2P3

En premiegravere approche le calcul scientifique reacutealiseacute par les collaborations de recherche auxquelles participe lrsquoIN2P3 correspond agrave un traitement statistique global sur une multitude de jeux de donneacutees indeacutependants ( une collision de particules correspond agrave un jeu de donneacutees ) traitement qui srsquoadapte tregraves bien agrave des architectures informatiques constitueacutees de ferme de calculateurs Drsquoune maniegravere geacuteneacuterale en dehors des calculs de chromodynamique quantique sur reacuteseau ( QCD ) la physique corpusculaire a tregraves peu besoin de calculateurs parallegraveles Cette caracteacuteristique lrsquoa distingueacutee de bon nombre drsquoautres disciplines scientifiques pour lesquelles le HPC est une neacutecessiteacute

La principale complexiteacute du calcul pour la physique corpusculaire provient des masses de donneacutees consideacuterables qursquoil faut geacuterer et distribuer sur le reacuteseau mondial puis traiter au niveau local Crsquoest pourquoi le CC-IN2P3 opegravere des moyens de calcul haut deacutebit ( ou HTC pour High Throughput Computing ) en constante eacutevolution

312 Eacutequipements du CC-IN2P3 ( oct 2017 )

Ces moyens de traitement de donneacutees agrave haut deacutebit sont scheacutematiseacutes ci-contre Ils sont constitueacutes de

bull Une ferme de calcul de 16 000 cœurs physiques fonctionnant avec le gestionnaire de tacircches Univa Grid Engine

bull Un systegraveme de stockage sur disques de 15 Peacutetaoctets deacutedieacute agrave 80 aux expeacuteriences LHC Ce stockage est accessible au travers de divers logiciels ou systegravemes de fichiers

o GPFS ( IBM General Parallel File System ) fournit aux utilisateurs un espace de travail en mode

3 LES DONNEacuteES AU SEIN DES CENTRES NATIONAUX DU CNRS CC-IN2P3 ET IDRIS

68

Livre Blanc sur les Donneacutees au CNRS Eacutetat des Lieux et Pratiques - 2018

fichier flexible et accessible depuis les machines interactives ou le systegraveme de traitement par lot drsquoune capaciteacute de 2 peacutetaoctets

o AFS ( Andrew File System ) drsquoune capaciteacute de 40 teacuteraoctets permet de partager les espaces home et lrsquoessentiel des distributions de logiciels

o Le systegraveme de stockage hieacuterarchique HPSS ( High Performance Storage System ) dispose drsquoun cache sur disques permettant de geacuterer la reacutecupeacuteration et les migrations de donneacutees depuis et vers le systegraveme de stockage de masse ( cartouches magneacutetiques ) Ce systegraveme drsquoune capaciteacute de stockage actuelle totale de 340 peacutetaoctets contient agrave ce jour 59 peacutetaoctets de donneacutees scientifiques

o SRMdCache et Xrootd sont des systegravemes speacutecifiques de gestion de donneacutees deacuteveloppeacutes par la communauteacute de la physique des hautes eacutenergies et capables drsquoabsorber des charges tregraves importantes en termes drsquoentreacuteessorties Ils constituent lrsquoessentiel du stockage au CC-IN2P3

o iRods est un systegraveme de gestion de donneacutees distribueacute flexible et capable de geacuterer facilement

des meacutetadonneacutees La faciliteacute de mise en œuvre notamment pour des donneacutees distribueacutees geacuteographiquement a rendu iRods populaire et a contribueacute agrave son deacuteveloppement

bull Un ensemble de 4 silos robotiseacutes STKOracle SL8500 pour le stockage sur cartouches magneacutetiques Drsquoune capaciteacute totale de 4 times 10 000 cartouches ces silos peuvent heacuteberger jusqursquoagrave 340 peacutetaoctets avec la derniegravere technologie de lecteurs T10kD ( 85 Tocartouche )

bull Un ensemble de systegravemes de bases de donneacutees sous diverses technologies ( mySQL PostgreSQL et Oracle ) Le CC-IN2P3 a deacuteveloppeacute une expertise consideacuterable dans ce domaine et met en œuvre des architectures de clusters de bases de donneacutees particuliegraverement complexes

Lrsquoensemble des ressources informatiques est interconnecteacute sur un reacuteseau dont lrsquoeacutepine dorsale supporte une bande passante de 400 Gbs Les serveurs individuels sont connecteacutes en Ethernet agrave 1 Gbs ou 10 Gbs selon les applications Une partie du stockage exploite aussi la technologie de reacuteseau de donneacutees Fibre Channel

CENTRES NATIONAUX

69

Livre Blanc sur les Donneacutees au CNRS Eacutetat des Lieux et Pratiques - 2018

Lrsquoeacutevolution de ces ressources au cours des 6 derniegraveres anneacutees est reacutesumeacutee par les graphes suivants

313 Usages du CC-IN2P3

En 2016 lrsquousage des ressources se reacutepartit selon le graphique suivant

Bien que repreacutesentant en nombre une proportion significative de lrsquoensemble des groupes utilisant le CC-IN2P3 la part du CPU utiliseacutee par des activiteacutes de recherche ne deacutependant pas de la politique scientifique

de lrsquoIN2P3 ne repreacutesente que 2 du CPU consommeacute en 2016 ( qui srsquoeacutelegraveve agrave 17 milliard de HS06h ) et moins de 1 des capaciteacutes de stockage utiliseacutees ( qui eacutetaient de 619 Po )

70

Livre Blanc sur les Donneacutees au CNRS Eacutetat des Lieux et Pratiques - 2018

314 Preacutevisions

Depuis 2011 le CC-IN2P3 a mis en service une seconde salle machine drsquoune superficie de 850 m2 et capable agrave terme de fournir une puissance eacutelectrique de 34 MW pour le mateacuteriel informatique hors refroidissement Cette puissance vient en compleacutement des 1 MW de la premiegravere salle La conception tregraves moderne de la nouvelle salle ( pas de faux plancher organisation des serveurs en alleacutees avec confinement de la chaleur et traitement de celle-ci par la technique dite InRow double alimentation EDF redondante etc ) en fait un eacutequipement de tout premier plan capable drsquoaccueillir les moyens de calcul et de traitement des donneacutees des futures grandes expeacuteriences de physique corpusculaire

En 2017 la production de donneacutees des 4 deacutetecteurs installeacutes sur le Large Hadron Collider ( LHC ) au CERN repreacutesente un volume de 50 Peacutetaoctets par an malgreacute un filtrage eacuteliminant 99 des eacuteveacutenements observeacutes Crsquoest trois fois plus que les donneacutees produites chaque anneacutee lors de la premiegravere anneacutee drsquoexploitation Le traitement global de ces donneacutees repose sur lrsquoutilisation de la grille mondiale W-LCG composeacutee de 250 centres de calcul avec 1 Tier 0 ( au CERN ) 12 Tier 1 ( dont le CC-IN2P3 ) et plus de 200 Tier 2 Dans ce contexte lrsquoobjectif du CC-IN2P3 est de fournir 10 des ressources de calcul pour LHC Il est agrave noter que les accegraves reacuteseau du CC-IN2P3 pour lrsquoeacutechange des donneacutees de ces seules expeacuteriences repreacutesentent pregraves de 46 du trafic RENATERLe CCndashIN2P3 heacuteberge eacutegalement les donneacutees issues drsquoautres expeacuteriences HESS47 AMS48 Planck49 ANTARES50 Auger51

47 Observatoire des tregraves hautes eacutenergies ( httpswwwobspmfrhess-ii-observatoire-des-treshtml ) 48 Spectromegravetre magneacutetique alpha ( httpshomecernfraboutexperimentsams )49 Satellite drsquoobservation du fond cosmologique de la voucircte ceacuteleste ( httpsplanckcnesfr )50 Deacutetecteur sous-marin de neutrinos ( httpantaresin2p3fr ) 51 Deacutetection de rayons cosmiques de tregraves haute eacutenergie ( httpwwwin2p3frrechercheactualites19991999_augerdetecteurshtm )

VIRGO52 Supernovae53hellip qui comme celles du LHC ont chacune leur politique de gestion de donneacutees Un point commun toutefois est que les donneacutees drsquoune expeacuterience doivent pouvoir ecirctre exploiteacutees sur des dureacutees tregraves significatives avec donc des probleacutematiques de stockage peacuterenne de ces donneacutees Des processus dit de stockage intermeacutediaire sont ainsi mis en œuvre

Les besoins futurs en matiegravere de stockage de donneacutees sont agrave la hauteur de lrsquoambition des expeacuteriences qursquoheacuteberge le CC-IN2P3 En particulier les futurs deacuteveloppements du LHC ( HL-LHC ) vont provoquer une explosion du volume de donneacutees produites Parallegravelement lrsquoIN2P3 est engageacute dans les expeacuteriences majeures drsquoastroparticules et cosmologie que sont EUCLID54 LSST et CTA

La projection de ces besoins agrave lrsquoeacutecheacuteance de 2030 va ecirctre synonyme de deacuteploiement drsquoinfrastructures de dimensions tregraves significatives

A lrsquohorizon 2030 le CC-IN2P3 stockera plus de 1 200 Po de donneacutees et offrira une capaciteacute de calcul de lrsquoordre de 6 millions de HEPSpec0655 ( MHS06 )

52 Deacutetection des ondes gravitationnelles ( httpwwwvirgo-gweu )53 httpssnovaein2p3fr54 Teacutelescope spatial pour lrsquoanalyse de lrsquoeacutenergie noire ( httpwwweuclid-ecorg )55 httpswikiegieuwikiFAQ_HEP_SPEC06 1 HEPSpec06 ~= 1 GFlops

CENTRES NATIONAUX

71

Livre Blanc sur les Donneacutees au CNRS Eacutetat des Lieux et Pratiques - 2018

32 LrsquoIDRIS

321 Introduction

LrsquoIDRIS est le centre majeur du CNRS pour le calcul numeacuterique intensif de tregraves haute performance Agrave la fois centre de ressources informatiques et pocircle de compeacutetences en calcul de haute performance lrsquoIDRIS est une uniteacute propre de service du CNRS deacutependant de la Mission Calcul-Donneacutees ( MiCaDo ) du CNRS et rattacheacutee administrativement agrave lrsquoInstitut des sciences de lrsquoinformation et de leurs interactions ( INS2I ) mais dont la vocation agrave lrsquointeacuterieur du CNRS est pluridisciplinaire

Les supercalculateurs opeacutereacutes par lrsquoIDRIS proprieacuteteacute de la socieacuteteacute GENCI ( Grand Equipement National de Calcul Intensif httpwwwgencifr ) ont geacuteneacuteralement une dureacutee de vie de cinq agrave six ans Ils sont donc renouveleacutes freacutequemment avec leurs moyens de stockage associeacutes en entraicircnant agrave chaque fois des frais drsquoinstallation et parfois des frais de fonctionnement en hausse ( essentiellement dus aux consommations eacutelectriques de ces eacutequipements )

Lrsquoutilisation des ressources opeacutereacutees par lrsquoIDRIS srsquoeffectue au travers des allocations effectueacutees par GENCI soit pregraves de trois cents projets scientifiques dans tous les domaines utilisant la simulation numeacuterique dans leurs theacutematiques de recherche respectives

Suite agrave lrsquoappel drsquooffres lanceacute agrave lrsquoautomne 2011 par GENCI en partenariat avec lrsquoIDRIS deux nouveaux supercalculateurs drsquoarchitectures compleacutementaires ont eacuteteacute acquis aupregraves de la socieacuteteacute IBM en mai 2012 Lrsquoun eacutetait une machine dite massivement parallegravele de type Blue GeneQ composeacutee de quatre cabinets de chacun 16 384 cœurs pour un total de 65 536 cœurs avec 65 To de meacutemoire globale et qui deacutelivrait une puissance crecircte cumuleacutee de 839 TFlops placcedilant cette machine au 30e rang mondial en novembre 2012 Cette configuration a eacuteteacute eacutetendue en novembre 2014 par lrsquoajout de deux cabinets suppleacutementaires portant la configuration complegravete agrave 98 304 cœurs pour une capaciteacute meacutemoire totale atteignant doreacutenavant 98 To et une puissance crecircte cumuleacutee porteacutee maintenant agrave 126 PFlops ce qui a replaceacute cette machine au 42e rang mondial en novembre 2014 En novembre 2017 cette machine occupait encore le 146e rang Lrsquoautre supercalculateur est une machine dite agrave nœuds larges composeacutee de 332 nœuds de 32 cœurs pour un total de 10 624 cœurs avec 46 To de meacutemoire globale et qui

deacutelivre une puissance crecircte cumuleacutee de 230 TFlops lrsquoayant placeacute au 123e rang mondial en novembre 2012 Agrave cette configuration srsquoadjoint quatre nœuds de preacute et post-traitements de chacun 32 cœurs et 1 To de meacutemoire partageacutee ainsi qursquoun espace disques partageacute

Par ailleurs lrsquoextension des capaciteacutes de stockage a eacuteteacute reacutealiseacutee en 2014 en deux phases Drsquoune part le serveur drsquoarchives acquis en 2009 et arriveacute en fin de vie a eacuteteacute remplaceacute sur financement CNRS ce qui permettra agrave lrsquoIDRIS de faire face agrave un fort accroissement de la capaciteacute drsquoarchivage sur cartouches magneacutetiques en preacutevision de la croissance attendue de ces besoins dans les prochaines anneacutees Drsquoautre part la capaciteacute de stockage de donneacutees actives sur disques magneacutetiques agrave tregraves forte bande passante a eacuteteacute fortement accrue en 2015 avec une extension de 3 Po ( deux financeacutes par le CNRS et un par GENCI ) ajouteacutes aux 22 Po initiaux

Le remplacement de la geacuteneacuteration actuelle des supercalculateurs est maintenant preacutevu fin 2018 pour une mise en production au deacutebut de 2019 Agrave cet effet GENCI a lanceacute un appel drsquooffres en novembre 2017

LrsquoIDRIS heacuteberge en plus un certain nombre de calculateurs pour des acteurs locaux du Plateau de Saclay tel le calculateur de la Maison de la Simulation et celui du meacutesocentre CentraleSupeacutelecENS-Paris Saclay ainsi que la machine nationale de lrsquoIFB ( Institut Franccedilais de la Bioinformatique )

322 Configuration actuelle agrave lrsquoIDRIS

En janvier 2018 les moyens de calcul de GENCI heacutebergeacutes agrave lrsquoIDRIS sont constitueacutes de

bull Turing un IBM Blue GeneQ avec 98 306 cœurs PowerPC A2 agrave 16 Ghz ( soit 1644 nœuds ayant chacun 16 cœurs ) La machine est constitueacutee de 6 racks avec au total 96 Toctets de meacutemoire et une performance de crecircte de 1258 PFlops

bull Ada un IBM X3750M4 avec 10 624 cœurs SandyBridge agrave 27 Ghz ( soit 332 nœuds de 32 cœurs chacun ) La machine possegravede 49 Toctets de meacutemoire et affiche une performance de crecircte de 233 TFlops

72

Livre Blanc sur les Donneacutees au CNRS Eacutetat des Lieux et Pratiques - 2018

CENTRES NATIONAUX

Lrsquoespace disque est organiseacute en

bull Home

o Volumeacutetrie tregraves faible ( essentiellement fichiers drsquoenvironnement et sources des applications )

o Performance sans impact

o Fonctionnaliteacutes

Dureacutee de vie non limiteacutee

Soumis agrave quotas

Sauvegardeacute automatiquement ( chaque nuit )

bull Scratch

o Volumeacutetrie tregraves importante ( fonction de la puissance des calculateurs )

o Performance la plus grande possible

o Fonctionnaliteacutes

Dureacutee de vie limiteacutee agrave lrsquoexeacutecution de chaque travail ou soumis agrave des purges sur des dates drsquoancienneteacute

bull Work

o Volumeacutetrie tregraves importante ( fonction de la puissance des calculateurs )

o Performance grande

o Fonctionnaliteacutes

Dureacutee de vie non limiteacutee

Soumis agrave quotas

Pas sauvegardeacute aujourdrsquohui ( mais snapshots possibles )

73

Livre Blanc sur les Donneacutees au CNRS Eacutetat des Lieux et Pratiques - 2018

Evolution des espaces sur disques

bull De 2008 agrave 2012 12 Po agrave 6 Gos

bull Configuration acheteacutee en 2012

o 22 Po agrave 50 Gos ( deacutebit soutenu maximum )

o Compromis financier agrave lrsquoachat entre puissance de calcul et capaciteacutes de stockage

o Agrave la fois HomeScratchWork

bull A partir de 2015

o 52 Po

- Les 22 Po preacuteceacutedents

- 1 Po drsquoextension disques lieacutee agrave lrsquoextension BGQ ( 32 000 cœurs ajouteacutes en novembre 2014 )

- 2 Po extension disques

o 3 Po agrave 90 Gos

o Le scratch a eacuteteacute transfeacutereacute sur les disques de nouvelle geacuteneacuteration

o Conservation possible de versions de fichiers dans lrsquoespace Work ( snapshots )

bull Technologie GPFS drsquoIBM

bull Tous ces espaces seront redeacutefinis avec des augmentations significatives agrave la fois en volumeacutetrie et en performance pour servir la nouvelle configuration de calcul qui sera installeacutee au second semestre 2018

Au 25 aoucirct 2017 il y avait 55 millions de fichiers sur le Work 70 millions sur le Scratch et 35 millions Home + systegraveme

Les espaces sur cartouches

bull Piloteacutes par une machine drsquoarchives

o Remplaceacutee mi-2014

o Technologie TSMHSM drsquoIBM ( preacuteceacutedemment DMF de SGI )

o 11 serveurs

- 3 frontales

- 6 serveurs GPFS ( 4 pour les donneacutees 2 pour les meacutetadonneacutees )

- 2 serveurs TSMHSM ( gestion migration et robotique )

o Disques cache

- transparent pour les utilisateurs

- 2 Po agrave 24 Gos

- laquo petits raquo fichiers ( jusqursquoagrave 39 Ko ) jamais migreacutes sur cartouches

- cache pour les fichiers rechargeacutes depuis les cartouches

- purges reacuteguliegraveres en fonction de lrsquoacircge et de la taille des fichiers

o Format des donneacutees proprieacutetaire

o 4 Po migreacutes entre lrsquoancien format et le nouveau agrave lrsquoissue de 6 mois de recopies au second semestre 2014 en parallegravele avec lrsquoexploitation du nouveau serveur

bull Robot StorageTek SL8500 ( Oracle )

Il est instructif de mener un examen de lrsquoespace disque occupeacute par les diverses communauteacutes regroupeacutees en Comiteacutes theacutematiques La liste des Comiteacutes scientifiques theacutematiques nationaux est la suivante

1 Environnement

2a Eacutecoulements non reacuteactifs

2b Eacutecoulements reacuteactifs ouet multiphasiques

3 Biologie et santeacute

4 Astrophysique et geacuteophysique

5 Physique theacuteorique et physique des plasmas

6 Informatique algorithmique et matheacutematiques

7 Dynamique moleacuteculaire appliqueacutee agrave la biologie

8 Chimie quantique et modeacutelisation moleacuteculaire

9 Physique chimie et proprieacuteteacute des mateacuteriaux

10 Nouvelles applications et applications transversales du calcul

En termes de stockage sur Ada et dans une moindre mesure Turing on constate la preacutedominance des comiteacutes theacutematiques CT-1 ( Environnement hors projet CMIP6 ) CT-4 ( Astrophysique et geacuteophysique ) et CT-5 ( Physique theacuteorique et physique des plasmas ) ce qui ne reflegravete pas toujours les allocations drsquoheures de calcul par exemple sur Turing ougrave le volume drsquoheures alloueacute agrave lrsquoenvironnement est relativement faible ( 32 en 2017 )

74

Livre Blanc sur les Donneacutees au CNRS Eacutetat des Lieux et Pratiques - 2018

CENTRES NATIONAUX

75

Livre Blanc sur les Donneacutees au CNRS Eacutetat des Lieux et Pratiques - 2018

Lrsquoeacutevolution du stockage sur cartouches est en croissance reacuteguliegravere ainsi que le montre la figure ci-dessous Lrsquoessentiel du stockage sur cartouches est utiliseacute par le CT-1 avec de lrsquoordre de 80 du total ( 51 des 64 Poctets de donneacutees utilisateurs en deacutecembre 2017 )

LrsquoIDRIS est aussi impliqueacute dans la mise agrave disposition des donneacutees pour la communauteacute du climat avec le service DODS ( Distributed Oceanographic Data System ) opeacuterationnel depuis 2003 Ce serveur effectue la publication ( mondiale ) des donneacutees stockeacutees sur le serveur drsquoarchives ( potentiellement migreacutees ) avec un accegraves en lecture seule ( sauf eacutevidemment par les fournisseurs de donneacutees ) Deux espaces cohabitent sur ce serveur un espace priveacute reacuteserveacute agrave une communauteacute identifieacutee et un espace public

Il heacuteberge actuellement 25 millions de fichiers pour 407 Toctets de donneacutees stockeacutees

Depuis 2017 ce service est inteacutegreacute au sein des services du projet ESGF56 ( Earth System Grid Federation ) dans le cadre des projets CMIP57 ( Coupled Model Intercomparison Project ) pour environ 600 To fin 2017 De plus lrsquoIDRIS opeacuterera agrave partir du deacutebut de lrsquoanneacutee 2018 une archive multi-modegraveles des donneacutees les plus utiliseacutees du projet CMIP6 ( provenant drsquoenviron 50 modegraveles ) drsquoune volumeacutetrie de 4 Po afin drsquoen faciliter lrsquoexploitation et drsquooffrir un service national drsquoaccegraves agrave ces donneacutees

56 httpsesgfllnlgov57 httpswwwwcrp-climateorgwgcm-cmip

76

Livre Blanc sur les Donneacutees au CNRS Eacutetat des Lieux et Pratiques - 2018

41 INTRODUCTION

La Mission Calcul Donneacutees du CNRS (MiCaDo) soutient un certain nombre drsquoinitiatives et drsquoinfrastructures reacutegionales ou nationales au travers de lrsquoaffectation de personnels (ingeacutenieurs drsquoeacutetudes ou de recherche) dont le Centre de Calcul de lrsquoIN2P3 le Centre National de Calcul Intensif du CNRS (IDRIS) la Maison de la Simulation sur le Plateau de Saclay et les deux Uniteacutes Mixtes de Recherche CALMIP et GRICAD respectivement meacutesocentres de Toulouse et Grenoble Ces deux meacutesocentres ont des actions lieacutees agrave la fois au calcul et aux donneacutees drsquoougrave leur preacutesence dans ce Livre Blanc

42 CALMIP

Cette section a eacuteteacute eacutecrite avec Jean-Luc Estivalegravezes Directeur de lrsquoUMS CALMIP

421 Introduction

Le meacutesocentre toulousain CALMIP (CALcul en MIdi Pyreacuteneacutees) a eacuteteacute creacuteeacute en 1994 sous la forme drsquoun groupement scientifique et son premier calculateur a eacuteteacute installeacute en 1999 Depuis 2014 CALMIP est devenu une Uniteacute Mixte de Service du CNRS (UMS CNRS 3667) heacutebergeacutee actuellement agrave lrsquoEspace Cleacutement Ader dans une salle de calcul partageacutee avec le calculateur de Meacuteteacuteo-France Il beacuteneacuteficie ainsi drsquoun environnement technologique de haut niveau avec une seacutecurisation des accegraves et de lrsquoalimentation eacutelectrique et un reacuteseau de reacutecupeacuteration de chaleur

Le meacutesocentre CALMIP est ouvert agrave lrsquoensemble de la communauteacute scientifique membre de lrsquoUniversiteacute Feacutedeacuterale de Toulouse Midi-Pyreacuteneacutees ou des EPST En 2016 CALMIP a permis agrave environ 500 chercheurs dont 130 doctorants venant de 30 laboratoires de reacutealiser plus de 200 projets de recherche repreacutesentant 70 millions drsquoheures de calcul 8 grandes theacutematiques scientifiques utilisent ces moyens de calcul physico-chimie des mateacuteriaux meacutecanique des fluides sciences de lrsquoUnivers chimie quantique physique theacuteorique et moleacuteculaire bioinformatique et meacutethodes numeacuteriques

Depuis 2008 le meacutesocentre CALMIP est ouvert aux entreprises (TPE PME et ETI) pour leurs activiteacutes

innovantes et 10 des ressources du systegraveme de calcul de CALMIP sont reacuteserveacutees agrave cette activiteacuteUne eacutequipe de 6 ingeacutenieurs assure actuellement lrsquoexploitation du calculateur et le support technique et scientifique aux utilisateurs

422 Description

Les moyens de calcul sont renouveleacutes tous les 4 ans environ Le prochain renouvellement est preacutevu agrave lrsquoeacuteteacute 2018 Eos la machine actuellement en production a eacuteteacute classeacutee 183e au TOP 500 lors de sa mise en service en juin 2014 Ses caracteacuteristiques sont les suivantes

- 612 nœuds avec 2 processeurs Intel IVYBRIDGE 28 Ghz 10-cores soit un total de 12240 cœurs

- Meacutemoire 64 Go par nœud soit 39 To de RAM au total

- Puissance crecircte theacuteorique totale 274 TF

- Stockage disque 891 To de disque + 7 Po additionnels de stockage de grande capaciteacute

- Pour la partie visualisation 4 GPU (Nvidia Quadro 6000)

4 LES DONNEacuteES AU SEIN DES STRUCTURES MUTUALISEacuteES SOUTENUES PAR MICADO

STRUCTURES MUTUALISEacuteES

77

Livre Blanc sur les Donneacutees au CNRS Eacutetat des Lieux et Pratiques - 2018

CALMIP a installeacute en 2016 une infrastructure de stockage appeleacutee ATLAS pour reacutepondre agrave la convergence des besoins en calcul intensif et en traitement massif de donneacutees Un poste IR CNRS a eacuteteacute afficheacute en soutien agrave cette infrastructure Elle se compose

bull Drsquoun espace de stockage de 3 Po utiles sur systegraveme de fichiers parallegravele GPFS sur lequel les utilisateurs vont pouvoir deacuteposer agrave la fois les donneacutees de simulation produites par le supercalculateur Eacuteos mais aussi le cas eacutecheacuteant les donneacutees drsquoentreacutee neacutecessaires agrave ces simulations (fonctionnaliteacute de type workdir)

bull Drsquoun espace de stockage objet drsquoun volume utile de 4 Po ayant pour principale fonction de seacutecuriser lrsquoespace de stockage preacuteceacutedent

Le prochain renouvellement est preacutevu agrave lrsquoeacuteteacute 2018 Dans le cadre du projet CADAMIP (CPER 2015-2020 financement Etat Reacutegion Occitanie Toulouse Meacutetropole IDEX) CALMIP a choisi son nouveau supercalculateur pour la peacuteriode 2018-2022 Ce nouveau systegraveme de calcul Atos-BULL baptiseacute OLYMPE propose une puissance de 1365 Peacutetaflops

bull Un supercalculateur massivement parallegravele formeacute de 13 464 cores Intel(r) SKYLAKE 6140 interconnecteacutes via un reacuteseau Infiniband EDR (100 Gbs) dont la puissance de calcul et de traitement est 5 fois supeacuterieure agrave celle du supercalculateur actuel EOS pour la mecircme enveloppe eacutenergeacutetique

bull Un espace disque de travail drsquoune capaciteacute de 15 Po dont les performances (40 Gos) sont multiplieacutees par 4 par rapport agrave EOS afin de reacutepondre aux besoins lieacutes au traitement massif de donneacutees drsquoentreacutee et de sortie Cet espace est relieacute aux nœuds de calcul du supercalculateur

bull 2 nœuds de calcul SMP de 15 To de meacutemoire vive inteacutegreacutes au supercalculateur

bull Une connexion au systegraveme de stockage capacitif et seacutecuriseacute ATLAS afin drsquooffrir aux porteurs de projets un espace permettant de seacutecuriser leurs donneacutees sur la continuiteacute

bull Une partition GPU significative associeacutee au supercalculateur en vue drsquoapplications sur le traitement massif de la donneacutee

La mise en production est preacutevue pour septembre 2018

43 GRICAD

Cette section a eacuteteacute eacutecrite avec Violaine Louvet Directrice de lrsquoUMS GRICAD

431 Contexte

La rationalisation des infrastructures (immobiliegraveres et plateformes) pour reacuteduire les coucircts augmenter le niveau de service et gagner en fiabiliteacute et seacutecuriteacute dans une deacutemarche de deacuteveloppement durable et soutenable neacutecessite de repenser lrsquourbanisation des infrastructures de calcul et de donneacutees ainsi que lrsquoorganisation des moyens humains en synergie avec les laboratoires de recherche et les services communs Ces enjeux srsquoinscrivent agrave Grenoble dans un contexte de mutation forte du paysage de la recherche fusion des universiteacutes obtention drsquoun IdeX mais srsquoappuient eacutegalement sur un terreau de collaborations historiques entre les acteurs du numeacuterique (DSI des eacutetablissements structure interuniversitaire laboratoires) tregraves fertile

432 LrsquoUMS GRICAD

LrsquoUniteacute mixte de services GRICAD (Grenoble Alpes Recherche - Infrastructure de CAlcul intensif et de Donneacutees) a eacuteteacute creacuteeacutee dans ce contexte en 2016 comme une structure transversale mutualiseacutee autour du calcul et des donneacutees au service des personnels de lrsquoensemble des pocircles de recherche du site grenoblois Sous la tutelle du CNRS de lrsquoUGA de Grenoble-INP et drsquoINRIA elle regroupe des compeacutetences en interne autour de lrsquoadministration systegraveme speacutecifique des machines de calcul et des plateformes lieacutees aux donneacutees du calcul scientifique et intensif et du Big Data Elle feacutedegravere eacutegalement les forces du site dans une deacutemarche plus globale en srsquoappuyant sur les expertises preacutesentes dans les laboratoires les DSI et les structures drsquoenseignement

Cette mutualisation de moyens humains externes autour drsquoinfrastructures de site a lrsquoeacutenorme avantage de favoriser la proximiteacute avec les eacutequipes de recherche et donc drsquoecirctre au plus pregraves des besoins des communauteacutes

78

Livre Blanc sur les Donneacutees au CNRS Eacutetat des Lieux et Pratiques - 2018

Les missions de GRICAD recouvrent

bull Lrsquoaccompagnement et le conseil aux communauteacutes scientifiques identification et aide agrave la speacutecification du besoin autour du calcul et des donneacutees support agrave lrsquoutilisation des plateformes soutien au montage de projet sur la partie technique

bull Le calcul intensif avec un accegraves agrave diffeacuterents types de calculateurs

bull Le traitement la valorisation la diffusion le stockage des donneacutees de la recherche avec un accegraves agrave plusieurs plateformes (stockage cloudhellip)

bull Lrsquoheacutebergement sec de serveurs avec la coordination de la gestion des datacentres mutualiseacutes du site grenoblois

bull Lrsquoanimation la formation et le reacuteseautage en collaboration avec les autres acteurs du site (en particulier la maison de la modeacutelisation MaiMoSiNE le reacuteseau des informaticiens SARI et le Data Institute de Grenoble)

433 Les services autour de la donneacutee

La creacuteation de GRICAD srsquoest appuyeacutee sur un existant solide et historique autour du calcul intensif le meacutesocentre CIMENT Les services autour de la donneacutee ont eacuteteacute construits ex nihilo agrave partir des besoins exprimeacutes par les communauteacutes scientifiques

Les caracteacuteristiques principales sont une tregraves grande diversiteacute des donneacutees et un rapprochement important avec le calcul intensif sous la forme de besoins en traitement tregraves varieacutes Les difficulteacutes rencontreacutees concernent drsquoune part une connaissance et une appropriation technique tregraves heacuteteacuterogegravenes des technologies et des infrastructures drsquoune communauteacute agrave lrsquoautre voire drsquoun individu agrave lrsquoautre et drsquoautre part un accompagnement interne (dans les laboratoires) tregraves diffeacuterent drsquoune structure agrave lrsquoautre neacutecessitant la mise en place drsquoun support laquo agrave la carte raquo Le deacuteploiement des services autour de la donneacutee doit aussi srsquointeacutegrer dans un environnement existant de structures de recherche drsquoaccompagnement de projets aux niveaux local national et europeacuteen

GRICAD participe ainsi au projet europeacuteen EOSCPilot par exemple

Lrsquooffre de service proposeacutee par GRICAD inclut lrsquoaccegraves agrave diffeacuterents environnements de stockage drsquoinfrastructures de cloud de Big Data de traitements de donneacutees et piles logicielles lieacutees agrave la manipulation de la donneacutee LrsquoUMS collabore eacutetroitement avec la recherche en informatique en particulier lrsquoinfrastructure nationale Gridrsquo5000 avec laquelle elle partage une nouvelle machine de calcul notamment deacutedieacutee aux Data Analytics Les services et plateformes proposeacutes sont dynamiques et eacutevolutifs en fonction des demandes des scientifiques

GRICAD accompagne tout particuliegraverement certaines communauteacutes Drsquoune part pour les aider agrave aborder le tournant du numeacuterique et drsquoautre part pour faire monter en compeacutetences ses eacutequipes propres sur les technologies agrave la pointe LrsquoUMS est ainsi tregraves active dans le projet drsquoentrepocirct de donneacutees du CHU de Grenoble et dans plusieurs projets avec la communauteacute SHS (collecte de donneacutees du web deep learning)

434 Description des ressources de calcul et de stockage

GRICAD offre une diversiteacute de plateformes deacuteployeacutees en fonction des besoins exprimeacutes par les communauteacutes scientifiques

bull Froggy calcul intensif (reacuteseau Infiniband) constitueacute de 3236 coeurs de calcul et drsquoun stockage Lustre de 90 To Froggy integravegre quelques nœuds GPU

bull Luke traitement massif de donneacutees 906 coeurs de calcul

bull Dahu machine de convergence HPC - Data Analytics mutualiseacutee avec Gridrsquo5000 2560 coeurs de calcul reacuteseau Omnipath avec nœuds burst buffers (NVMe) et scratch SSD

bull Stockage IRODS drsquoenviron 1 Po mutualiseacute distribueacute et accessible depuis lrsquoensemble des plateformes

bull Bettik Stockage BeeGFS de 292 To utiles fournissant aux machines Luke et Dahu un scratch distribueacute et performant

STRUCTURES MUTUALISEacuteES

79

Livre Blanc sur les Donneacutees au CNRS Eacutetat des Lieux et Pratiques - 2018

bull SUMMER Stockage NetApp de plus de 3 Po de volumeacutetrie brute proposant diffeacuterents niveaux de seacutecurisation (sauvegarde reacuteplication) et diffeacuterents niveaux de performance (stockage capacitif ou performant)

bull WINTER Plateforme VMWare de virtualisation

bull Cloud openstack sur stockage CEPH

bull Plateforme JupyterHub de notebooks

bull Plateforme Big Data Hadoop

435 Interactions et cross-fertilisation

La transversaliteacute intrinsegraveque des infrastructures de calcul et de donneacutees fait de lrsquoUMS GRICAD un lieu naturel de lrsquointerdisciplinariteacute et de rencontres des diffeacuterentes communauteacutes scientifiques Lrsquoobjectif afficheacute est de deacutepasser les speacutecificiteacutes disciplinaires afin de pouvoir offrir des solutions mateacuterielles et technologiques partageacutees et co-construites

GRICAD srsquoefforce de deacutevelopper une logique de mutualisation drsquoexpeacuteriences autour de la deacutefinition et lrsquoappropriation des services numeacuteriques proposeacutes en diffusant les pratiques existantes dans les disciplines les plus avanceacutees dans le domaine et en incitant au transfert de technologie drsquoune communauteacute agrave lrsquoautre Les missions autour de lrsquoanimation et de la formation sont en cela particuliegraverement critiques

Le deacuteveloppement de liens entre les chercheurs autour de theacutematiques neacutecessairement communes est essentiel Ainsi des groupes de travail interdisciplinaires ont eacuteteacute formeacutes pour reacutepondre au questionnement autour du cycle de vie de la donneacutee et de la nouvelle reacuteglementation europeacuteenne sur les donneacutees personnelles (RGPD) par exemple

La valeur ajouteacutee drsquoune uniteacute de services agrave lrsquoeacutechelle drsquoun site comme Grenoble est fondamentalement la proximiteacute avec les eacutequipes de recherche et la souplesse pour reacutepondre aux besoins des scientifiques

80

Livre Blanc sur les Donneacutees au CNRS Eacutetat des Lieux et Pratiques - 2018

Le traitement des donneacutees agrave grande eacutechelle (Big Data) est un reacuteel enjeu strateacutegique pour le CNRS et concerne tous les instituts mecircme si les pratiques au sein de chaque institut sont tregraves variables en fonction de lrsquohistorique de chaque discipline en matiegravere de donneacutees La maicirctrise de tous les aspects du Big Data relegraveve drsquoune deacutemarche fondamentalement interdisciplinaire dans laquelle le CNRS se doit drsquoexceller

Lrsquoenjeu fondamental pour le CNRS est de promouvoir une veacuteritable laquo culture de la donneacutee raquo au sein du CNRS Le CNRS doit mieux valoriser toutes les donneacutees que ses eacutequipes de recherches produisent se doter drsquoune strateacutegie en matiegravere de donneacutees et afficher son rocircle moteur dans des initiatives comme EOSC58 ou lieacutees agrave lrsquoOpen Science lrsquoOpen Data et agrave RDA59 et agrave des principes comme le FAIR Data60 Le CNRS se doit de mettre en place une reacuteponse coordonneacutee face aux besoins eacutemergeants en termes de donneacutees drsquoecirctre plus attractif pour des recrutements drsquoanalystes de donneacutees et drsquointensifier ses actions de formation au niveau des outils dans le domaine Il doit aussi ecirctre attentif agrave lrsquoeacutevolution de carriegravere des personnels ITA (ingeacutenieurs essentiellement) impliqueacutes dans ces actions interdisciplinaires Il est aussi souhaitable de mener une reacuteflexion sur une politique des donneacutees au sein du CNRS relative agrave leur cycle de vie utilisation creacuteation collection preacuteservation partage reacuteutilisation et publication interopeacuterabiliteacute deacutefinition de Data Management Plan61 proprieacuteteacute ouverture adoption des principes FAIR consommation eacutenergeacutetique et empreinte carbonehellip

Lrsquoavalanche de donneacutees qui ne fait que se confirmer dans de multiples domaines doit inciter le CNRS agrave se doter drsquoune strateacutegie forte agrave la hauteur des enjeux scientifiques en

bull Reacutepondant aux besoins des communauteacutes en matiegravere de plateformes pour lrsquoanalyse de donneacutees agrave grande eacutechelle le cas eacutecheacuteant en lien

58 The European Open Science Cloud (httpseoscpiloteu)59 Research Data Alliance (wwwrd-allianceorg)60 Findable Accessible Interoperable Reusable data61 Voir par exemple dmpopidorfr

avec les systegravemes drsquoobservation les plateformes expeacuterimentales ou les grandes simulations numeacuteriques qui les produisent avec les probleacutematiques du stockage de la gestion et de la valorisation de ces donneacutees du support pour les utilisateurs de la formation de Data scientists (chercheurs ou ingeacutenieurs compeacutetents en analyse de donneacutees) et du deacuteploiement de chaicircnes logicielles drsquoanalyse de donneacutees passant agrave lrsquoeacutechelle

bull Favorisant lrsquointerdisciplinaire entre les communauteacutes produisant des donneacutees et les communauteacutes dont crsquoest lrsquoobjet de recherche en particulier en capitalisant sur les multiples compeacutetences en apprentissage et Intelligence Artificielle au CNRS

bull Mettant en place une politique de gestion de valorisation et de peacuterennisation des donneacutees au sein du CNRS

Le CNRS pourrait srsquoappuyer sur la mission Calcul et Donneacutees du CNRS (MICADO) pour deacutefinir et mettre en œuvre une telle strateacutegie autour de lrsquoorganisation de la gestion de lrsquoexploitation des donneacutees scientifiques et avec des moyens suppleacutementaires contribuer agrave lrsquoeacutemergence de plateformes de gestion et drsquoanalyse de donneacutees en y positionnant des ingeacutenieurs et des data scientists capables drsquooffrir un service technique de haut niveau et drsquoaccompagner les chercheurs dans leurs expeacuterimentations Cette action pourrait contribuer agrave faire eacutemerger sur le territoire quelques sites de reacutefeacuterences autour desquels peuvent graviter plusieurs projets de recherche en sciences des donneacutees ou srsquointeacuteresser agrave des communauteacutes scientifiques speacutecifiques De telles initiatives peuvent et doivent ecirctre compleacutementaires des autres initiatives locales ou reacutegionales soutenues par des IDEX ou drsquoautres organismes de recherche par exemple

5 CONCLUSION

81

Page 2: Livre Blanc sur les Données au CNRS État des Lieux et

Livre Blanc sur les donneacutees au CNRS

Eacutetat des lieux et pratiques

Bilan perspectives et recommandations

Mission laquo Calcul Donneacutees raquo MICADO

Comiteacute dOrientation pour le Calcul INtensif (COCIN)Janvier 2018

Preacutesident du Comiteacute Directeur de la mission laquo Calcul Donneacutees raquo au CNRS Denis Veynante

Comiteacute de Pilotage de la mission MICADO Comiteacute dOrientation pour le Calcul INtensif (COCIN)

Membres du COCIN au 1er janvier 2018

Michel Bidoit (INS2I) Preacutesident du COCIN

Michel Daydeacute (INS2I) Directeur du COCIN

Pierre-Etienne Macchi (CC- IN2P3)

Denis Girou (IDRIS)

Daniel Borgis (INC)

Sylvain Lamare (INEE)

Laurent Lellouch (INP)

Claudine Meacutedigue (INSB)

Alexandre Gefen (INSHS)

Fabien Godeferd (INSIS)

Virginie Bonnaillie-Noeumll puis Christophe Berthon (INSMI) agrave compter de septembre 2017

Olivier Porte (DSI) jusqursquoagrave novembre 2017

Jean-Pierre Vilotte (INSU)

Volker Beckmann(IN2P3)

Relecture et mise en forme initiale Catherine Blanc (IRIT)

Mise en forme du document final Victor Haumesser-Savio (CNRS)

SOMMAIRE

LES DONNEacuteES AU CNRS SYNTHEgraveSE 7

RECOMMANDATIONS 11

1 INTRODUCTION 15

2 LES DONNEacuteES AU SEIN DES INSTITUTS DU CNRS

21 INSTITUT DE CHIMIE ( INC ) 18

22 INSTITUT ECOLOGIE ET ENVIRONNEMENT ( INEE ) 21

23 INSTITUT DE PHYSIQUE ( INP ) 26

24 INSTITUT DES SCIENCES BIOLOGIQUES ( INSB ) 35

25 INSTITUT DES SCIENCES HUMAINES ET SOCIALES ( INSHS ) 40

26 INSTITUT DES SCIENCES DE LrsquoINGENIERIE ET DES SYSTEMES ( INSIS ) 45

27 INSTITUT NATIONAL DES SCIENCES MATHEMATIQUES ET DE LEURS INTERACTIONS ( INSMI ) 49

28 INSTITUT DES SCIENCES DE LrsquoUNIVERS ( INSU ) 52

29 INSTITUT DES SCIENCES DE LrsquoINFORMATION ET DE LEURS INTERACTIONS ( INS2I ) 62

210 INSTITUT NATIONAL DE PHYSIQUE NUCLEAIRE ET DE PHYSIQUE DES PARTICULES ( IN2P3 ) 68

3 LES DONNEacuteES AU SEIN DES CENTRES NATIONAUX DU CNRS 72

31 LE CC-IN2P3 72

32 LrsquoIDRIS 76

4 LES DONNEacuteES AU SEIN DES STRUCTURES SOUTENUES PAR MICADO 81

41 INTRODUCTION 81

42 CALMIP 81

43 GRICAD 82

5 CONCLUSION 85

Livre Blanc sur les Donneacutees au CNRS Eacutetat des Lieux et Pratiques - 2018

1 Lrsquoorganisation la gestion et lrsquoexploitation scientifique des donneacutees1 dont les volumes les vitesses et la diversiteacute ne cessent de croitre sont devenues aujourdrsquohui un enjeu majeur pour la production de nouvelles connaissances et deacutecouvertes scientifiques Elles sont cruciales pour de nombreuses applications deacuteriveacutees agrave fort impact socieacutetal ( changements climatiques et environnementaux biologie santeacute villes et transports intelligentshellip ) eacuteconomique ( p ex nouvelles ressources eacutenergeacutetiques finance compeacutetitiviteacute industrielle ) et eacutethique ( santeacute biologie sciences humaines et socialeshellip ) Combineacute agrave lrsquoIntelligence Artificielle ( IA ) le Big Data est eacutegalement devenu un enjeu pour les systegravemes de surveillance et drsquoaide agrave la deacutecision ( preacutevision des aleacuteas naturels et preacutevention des risques associeacutes eacutepideacutemiologie deacuteveloppement durablehellip )

2 Le Big Data concerne aujourdrsquohui lrsquoensemble des instituts et des communauteacutes scientifiques du CNRS Sa prise en compte dans les pratiques de recherche et dans lrsquoorganisation des communauteacutes varie selon les instituts du CNRS avec

bull Des instituts dont les pratiques de recherche sont fortement structureacutees agrave lrsquoeacutechelle reacutegionale nationale et internationale autour de la production du traitement de lrsquoarchivage et de la curation de lrsquoanalyse et la valorisation scientifique de gros volumes de donneacutees avec des infrastructures feacutedeacutereacutees et via un stewardship des donneacutees bien eacutetabli ( IN2P3 INSU INSB INSHS )

bull Des instituts qui se structurent aujourdrsquohui afin de reacutepondre aux besoins eacutemergeants associeacutes agrave lrsquoaugmentation des volumes et de la diversiteacute de leurs donneacutees dans les pratiques de recherche ( INEE )

bull Des instituts pour qui en dehors de certaines TGIR par exemple la prise en compte de la probleacutematique des donneacutees reste encore embryonnaire mecircme si

1 Les donneacutees srsquoentendent ici comme toute information codeacutee numeacuteriquement qui peut ecirctre stockeacutee transmise comprise et trai-teacutee par des ordinateurs Elles incluent par exemple les donneacutees geacuteneacutereacutees par des grands instruments scientifiques des systegravemes drsquoobservation des faciliteacutes expeacuterimentales des laboratoires de diagnostic des reacuteseaux de capteurs distribueacutes ( en milieux naturels ou urbains ) des simulations numeacuteriques des reacuteseaux de com-munications et sociaux ainsi que des collections archiveacutees et organiseacutees de nouveaux objets digitaux associeacutes aux reacutesultats de la recherche et agrave la numeacuterisation de collections de bibliothegraveques et de museacutees

les choses devraient rapidement eacutevoluer dans un contexte de compeacutetitiviteacute internationale en raison de lrsquoimportance croissante des donneacutees dans leurs pratiques de recherche ( INC INP INSIS )

bull Des instituts pour lesquels la donneacutee et les meacutethodes drsquoanalyse de donneacutees sont en soi un objet de recherche ( INSMI et INS2I )

bull Des besoins et des pratiques relatifs aux donneacutees tregraves lieacutes aux communauteacutes scientifiques et pouvant mecircme varier drsquoun pays agrave lrsquoautre au sein drsquoune mecircme communauteacute scientifique ( pex base de donneacutees du CoE NOMAD ) La reacuteflexion sur les donneacutees est parfois loin drsquoecirctre mature dans certaines communauteacutes

3 Les flux de donneacutees ( volume veacutelociteacute diversiteacute ) explosent Ils sont engendreacutes aujourdrsquohui au sein

bull drsquoenvironnements centraliseacutes ( c-agrave-d HPC et Cloud ) qui concentrent des ressources de pointe ( stockage calcul communication ) au sein de grands ensembles de simulations numeacuteriques

bull et drsquoenvironnements peacuteripheacuteriques ou reculeacutes ougrave ces ressources sont rares par exemple les grands instruments ( collisionneurs et acceacuteleacuterateurs ) et reacuteseaux drsquoobservation ( sol mer air spatial ) les reacuteseaux de capteurs lrsquointernet des objets

4 La logistique des donneacutees la neacutecessiteacute de redistribuer de grands jeux de donneacutees depuis les environnements centraliseacutes vers la peacuteripheacuterie durant leur cycle de vie fait deacutesormais de la logistique des donneacutees ( c-agrave-d positionnement encodage agencement des donneacutees au cours du temps transmission archivage et distribution des ressources et des services disponibles ) un des principaux deacutefis La reacuteduction laquo intelligente raquo2 des donneacutees tout au long de leur mouvement de leur traitement et de leur analyse est commune agrave tous les environnements de production

2 Processus neacutecessitant de deacuteplacer laquo lrsquointelligence raquo au plus proche de leurs sources ( centraliseacutees ou peacuteripheacuteriques ) afin de traiter et reacuteduire ces flux en continu au cours de leur transport et de leur analyse au travers drsquoun reacuteseau ( statique ou dynamique ) de res-sources ( calcul stockage ) et de services distribueacutes caracteacuteriseacute par un continuum de bandes passantes heacuteteacuterogegravenes

LES DONNEacuteES AU CNRS SYNTHEgraveSE

4

Livre Blanc sur les Donneacutees au CNRS Eacutetat des Lieux et Pratiques - 2018

5 Stewardship des donneacutees un autre deacutefi critique est lrsquoorganisation des communauteacutes ( c-agrave-d stewardship ) et des ressources autour des donneacutees en phase avec leurs pratiques de recherche pour lrsquoarchivage et la curation des donneacutees Cela recouvre une varieacuteteacute drsquoactiviteacutes dont

bull Lrsquointeacutegration lrsquoagreacutegation le traitement et la calibration lrsquoarchivage et le reacutefeacuterencement la curation la documentation la publication des donneacutees ainsi que leur diffusion rapide eacuteventuellement apregraves une courte peacuteriode drsquoexclusiviteacute agrave lrsquoensemble de la communauteacute afin drsquoen maximiser le retour scientifique

bull La deacutefinition de standards reconnus et partageacutes de repreacutesentation et drsquoeacutechanges de donneacutees des services ( deacutecouverte accegraves manipulation visualisation ) ainsi que des protocoles de controcircle de qualiteacute et de veacuteraciteacute des donneacutees

bull Lrsquoexistence de plateformes drsquoarchivage et de curation des donneacutees mutualisant expertises ressources ( stockage calcul ) et services sur le cycle de vie des donneacutees qui pour certaines disciplines va bien au-delagrave de la dureacutee de vie des instruments systegravemes drsquoobservation et faciliteacutes expeacuterimentales

bull Et selon les communauteacutes la mise agrave disposition et la maintenance de logiciels et de librairies de reacutefeacuterence et de nouveaux objets associant donneacutees et reacutesultats de recherche ( annotations publications )

6 Interdisciplinariteacute et donneacutees multi-source la maicirctrise de tous les aspects du Big Data relegraveve drsquoune deacutemarche fondamentalement interdisciplinaire En effet un nombre croissant drsquoenjeux scientifiques impliquent aujourdrsquohui une compreacutehension preacutedictive drsquoun mecircme objet ou systegraveme ( p ex astronomie climat geacuteophysique surveillance des aleacuteas naturels et changements environnementaux physique des hautes eacutenergies sciences des mateacuteriaux bio-meacutedecine biologie sciences eacuteconomiques et sociales ) Ces approches interdisciplinaires requiegraverent des systegravemes drsquoinformation permettant la deacutecouverte et lrsquoaccegraves fluide agrave des donneacutees multi-types et multi-sources issues de domaines et de systegravemes drsquoacquisition diffeacuterents accompagneacutes drsquooutils laquo translationnels raquo pour les combiner les croiser et les syntheacutetiser au sein de chaicircnes de traitement et drsquoanalyse souvent coupleacutees agrave des simulations numeacuteriques Deacutecouvrir et acceacuteder agrave ces donneacutees ainsi qursquoaux ressources et services associeacutes demande une harmonisation ( agrave travers diffeacuterentes disciplines ) et une standardisation ( au sein des disciplines ) des modegraveles de donneacutees

7 Convergence HPC et HDA au-delagrave de la diversiteacute des applications scientifiques exploitant les donneacutees de nombreuses communauteacutes scientifiques combinent et orchestrent aujourdrsquohui des applications drsquoanalyse de pointe ( HDA pour High-end Data Analysis ) et de calcul haute performance ( HPC pour High-Performance Computing ) combineacutees de plus en plus agrave des meacutethodes drsquoapprentissage machine au sein de larges workflows piloteacutes par les donneacutees A chacune de leurs eacutetapes ces workflows requiegraverent souvent drsquoacceacuteder manipuler et combiner de maniegravere coordonneacutee de larges volumes et une grande diversiteacute de donneacutees multi-sources geacuteneacutereacutees par les observations les expeacuteriences et les simulations Ces workflows ne sont pas des outils logiciels ou des codes applicatifs isoleacutes mais des configurations complexes et variables de flux de donneacutees et de logiciels mobilisant des ressources de calcul hybrides ( HTC pour High-Throughput Computing et HPC avec une utilisation croissante des GPUs ) et de stockage ( bases de donneacutees systegravemes de fichiers parallegraveles stockage de type objet ) dans des environnements drsquoexeacutecution ( en flux et par lots ) supportant les nouvelles technologies de virtualisation ( conteneurisation )

8 Une nouvelle strateacutegie et architecture agrave mesure que le HDA et le HPC continueront agrave se deacutevelopper il semble clair que les systegravemes centraliseacutes ( c-agrave-d centres HPC et systegravemes Cloud ) et deacutecentraliseacutes ( plateformes distribueacutees de services ) doivent ecirctre inteacutegreacutesfeacutedeacutereacutes au sein drsquoun reacuteseau de ressources et de services adressant la complexiteacute et la diversiteacute de la logistique des donneacutees tout au long des chaicircnes de production et drsquoutilisation des donneacutees Cela requiert une nouvelle strateacutegie ( meacutethodologique technologique et culturelle ) et une nouvelle architecture avec de nouveaux enjeux logiciels afin drsquointerfacer et drsquointeropeacuterer une diversiteacute de plateformes technologiques incluant

bull Plateformes peacuteripheacuteriques de traitement et de reacuteduction des donneacutees ( c-agrave-d edge-infrastructures ) permettant le traitement lrsquoagreacutegation et la reacuteduction laquo intelligente raquo des flux ( volumes vitesses ) au plus proche de leurs sources ( grands instruments systegravemes drsquoobservations reacuteseaux de capteurshellip ) dans des environnements souvent reculeacutes ainsi que le pilotage adaptatif de leurs systegravemes drsquoacquisition

bull Plateformes de services de calcul et drsquoanalyse de donneacutees distribueacutees et feacutedeacutereacutees mutualisant dans des environnements multi-utilisateur et multi-application des services flexibles de communication de logiciel de stockage de calcul ( HDA HPC ) drsquoexeacutecution ( flux lots ) adapteacutes au

5

Livre Blanc sur les Donneacutees au CNRS Eacutetat des Lieux et Pratiques - 2018

Big Data ( p ex Spark Storm ) et aux nouvelles technologies de virtualisation ainsi qursquoagrave lrsquoutilisation croissante de meacutethodes de type statistique et apprentissage machine avec des flux de traitement et drsquoanalyse proches des vitesses drsquoaccegraves aux donneacutees

bull Plateformes centraliseacutees de type HPC et Cloud crsquoest-agrave-dire agrave lrsquoeacutechelle des grands centres nationaux et reacutegionaux Elles concentrent des ressources de tregraves haute performance dont lrsquoutilisation doit ecirctre maximiseacutee pour servir des communauteacutes multiples avec de nouveaux environnements ( p ex OpenHPC ) permettant de supporter les technologies de virtualisation et adapteacutes agrave des configurations complexes de workflows couplant HPC et HDA ainsi que lrsquoutilisation croissante des meacutethodes de type Intelligence Artificielle ( pour lrsquoanalyse de donneacutees la repreacutesentation des connaissances et lrsquoaide agrave la deacutecision ) grands ensembles de simulations numeacuteriques coupleacutees ingestion et assimilation de grands jeux de donneacutees multi-source

bull Plateformes feacutedeacutereacutees drsquoarchivage de curation et de distribution des donneacutees mutualisant ressources services et expertises pour le stockage la curation et la mise agrave disposition de donneacutees durant leur cycle de vie et dont les volumes et la diversiteacute impliquent aujourdrsquohui des capaciteacutes croissantes de stockage et de calcul

9 Efficience eacutenergeacutetique lrsquoefficience eacutenergeacutetique est aujourdrsquohui un deacutefi transversal majeur Le mouvement et le traitement des donneacutees et des informations ont un coucirct dont la reacuteduction passe notamment par ( i ) lrsquoutilisation de plateformes ( HPC calcul et analyse ) ( ii ) eacuteviter des reacutepeacutetitions inutiles de transferts ( cachingbufferisation ) et les optimiser ( pre-fetching compression ) ( iii ) reacuteduire les distances et mutualiser les environnements drsquoheacutebergement ( colocalisation des plateformes drsquoarchivage et de curation et des plateformes de calcul et drsquoanalyse des donneacutees ) ( iv ) faciliter la reacuteutilisation des calculs et des donneacutees au sein et entre domaines ( observations et reacutesultats de simulations meacutetadonneacutees catalogues )

10 Nouvelles expertises et activiteacutes maitriser les enjeux associeacutes aux donneacutees et accompagner toutes ces eacutevolutions requiert aujourdrsquohui drsquoassocier raisonnement scientifique et innovation technologique au travers de nouvelles expertises ( Chercheurs ITA ) et de collaborations interdisciplinaires entre les diffeacuterents domaines applicatifs les sciences des donneacutees la recherche informatique et les deacuteveloppeurs et fournisseurs drsquoinfrastructures Ces diffeacuterents enjeux

requiegraverent eacutegalement un ensemble drsquoactiviteacutes ainsi que des nouvelles plateformes technologiques ( stockage calcul communication ) complexes agrave geacuterer qui constituent des tacircches lourdes et coucircteuses en effort humain Le deacuteficit drsquoexpertise de moyens humains et de reconnaissance de ces nouvelles activiteacutes que lrsquoon constate dans de nombreux domaines freine lrsquoorganisation des communauteacutes scientifiques et le deacuteveloppement de nouvelles pratiques de recherche et in fine peacutenalise la production scientifique

11 Contexte interne au CNRS le CNRS et ses diffeacuterents Instituts constituent un contexte scientifique et technologique particuliegraverement favorable agrave une maicirctrise des probleacutematiques autour des donneacutees avec des instituts producteurs de donneacutees et des instituts pour lesquels les donneacutees sont des objets de recherche des pratiques interdisciplinaires bien eacutetablies ( coopeacuterations inter-instituts Mission pour lrsquoInterdisciplinariteacute avec en particulier le deacutefi MASTODONS3 lrsquoINIST et des initiatives comme Cat OpiDor4hellip ) ainsi que deux centres nationaux nationalement et internationalement reconnus dans les domaines du HPC ( IDRIS ) et de la gestion et de lrsquoanalyse de donneacutees massives ( CC-IN2P3 )

12 On constate dans tous les domaines des besoins eacutevidents en

bull Plateformes pour lrsquoanalyse de donneacutees agrave grande eacutechelle avec les probleacutematiques du stockage de la gestion et de la valorisation de ces donneacutees

bull Support pour les utilisateurs

bull Data scientists ( chercheurs ou ingeacutenieurs compeacute-tents en analyse de donneacutees )

bull Deacuteploiement de chaicircnes logicielles drsquoanalyse de donneacutees qui passent agrave lrsquoeacutechelle

3 Grandes masses de donneacutees scientifiques ( httpwwwcnrsfrmispipphparticle53 )4 Catalogue des services franccedilais deacutedieacutes aux donneacutees scientifiques ( httpscatopidorfr )

SYNTHESE

6

Livre Blanc sur les Donneacutees au CNRS Eacutetat des Lieux et Pratiques - 2018

bull Effort interdisciplinaire entre les communauteacutes produisant des donneacutees et les communauteacutes dont crsquoest lrsquoobjet de recherche

bull Valorisation et peacuterennisation des donneacutees beau-coup de donneacutees sont creacuteeacutees pour un besoin preacutecis puis in fine perdues alors qursquoelles pourraient parfois ecirctre reacuteutiliseacutees ( expeacuteriences comme simulations ) ce qui suppose la promotion des pratiques autour de lrsquoarchivage lrsquoindexation la mise agrave disposition etc

bull Deacutefinitions de plans de gestion des donneacutees ( DMP Data Management Plan ) loin drsquoecirctre geacuteneacuterali-seacutes aujourdrsquohui

13 Accompagner de maniegravere efficace toutes ces eacutevolutions requiert donc de multiples efforts dont

bull Le deacuteploiement de plateformes drsquoanalyse de donneacutees performantes le rapprochement entre les communauteacutes HTC et HPC le deacuteveloppement de lrsquoactiviteacute et des compeacutetences autour de lrsquoanalyse de donneacutees au sein des centres HPC nationaux et reacutegionaux en soulignant que les volumes sont tels que les donneacutees deviennent tregraves coucircteuses agrave deacuteplacerhellip

bull La conceptionexploitation efficace drsquoarchitectures et drsquoenvironnements orienteacutes donneacutees

bull Lrsquoanalyse de lrsquoimpact des technologies du type GPU Cloud computinghellip

bull La multiplication de lrsquousage des meacutethodes drsquoanalyse de donneacutees et drsquoaide agrave la deacutecision machine learning retour de lrsquoIntelligence Artificielle au premier planhellip

bull La maicirctrise du passage agrave lrsquoeacutechelle pour les outils drsquoanalyse de donneacutees ainsi que lrsquoeacutevolution des meacutethodes drsquoanalyse

bull Deacuteveloppement des recherches interdisciplinaires et des compeacutetences autour des donneacutees au sein du CNRS ainsi que celui du support aux utilisateurs

bull La sensibilisation au coucirct eacutenergeacutetique croissant induit par le traitement et la gestion des donneacutees au sein des communauteacutes pour aller vers une informatique durable et une minimisation de lrsquoempreinte carbone de nos activiteacutes

7

Livre Blanc sur les Donneacutees au CNRS Eacutetat des Lieux et Pratiques - 2018

A une peacuteriode ougrave la science est de plus en plus compeacutetitive interdisciplinaire et internationale les nouveaux enjeux associeacutes aux donneacutees requiegraverent une eacutevolution des pratiques de recherche et une nouvelle strateacutegie agrave lrsquoeacutechelle du CNRS

Fort de sa multidisciplinariteacute de ses deux centres nationaux avec une expertise internationalement reconnue en HPC ( IDRIS ) et en gestion et analyse de donneacutees massives ( CC-IN2P3 ) ainsi que de sa preacutesence dans un grand nombre de TGIRs et drsquoIRs le CNRS doit se doter aujourdrsquohui drsquoune strateacutegie plus active autour des nouvelles probleacutematiques lieacutees aux donneacutees

Cette strateacutegie doit ecirctre co-formuleacutee co-deacuteveloppeacutee et co-impleacutementeacutee avec les diffeacuterents instituts et les communauteacutes scientifiques en phase avec leurs pratiques de recherche et la diversiteacute de leurs chaicircnes de production drsquoutilisation et de valorisation des donneacutees Elle doit prendre en compte la logistique des donneacutees tout au long de ces chaicircnes afin drsquoacceacuteleacuterer lrsquoextraction de nouvelles connaissances Elle doit enfin faciliter et transformer les pratiques de recherche en mutualisant les expertises au sein des diffeacuterentes communauteacutes scientifiques et de leurs instituts ainsi que reacutepondre aux nouveaux enjeux de la recherche interdisciplinaire inteacutegrant des donneacutees multi-source

Sur la base de ce document un certain nombre de recommandations sont proposeacutees pour cette strateacutegie

bull R1 Politique et gestion des donneacutees Le CNRS doit promouvoir une laquo culture des donneacutees raquo dans et entre ses instituts et mieux valoriser toutes les donneacutees que ses eacutequipes de recherche produisent Cela implique une reacuteflexion en matiegravere de politique de donneacutees ( Open Data et FAIR Data5 ) tout au long du cycle de vie des donneacutees de gestion des donneacutees avec en particulier lrsquoeacutelaboration drsquoun Data Management Plan6 en collaboration avec les diffeacuterents instituts et possiblement lrsquoINIST et drsquoOpen science7 inteacutegrant la publication des donneacutees et de nouveaux objets interfaccedilant donneacutees et reacutesultats scientifiques Cette reacuteflexion doit srsquoappuyer sur et harmoniser les expertises acquises dans ce domaine par un certain nombre drsquoinstituts tant au niveau national qursquointernational ( p ex IN2P3 INSU INSB INSHS ) Dans ce contexte il doit jouer un rocircle moteur dans les initiatives europeacuteennes comme EOSC8 et GoFAIR9 dans un certain nombre drsquoactiviteacutes drsquoorganisation non gouvernementale comme RDA10 et drsquoinitiatives internationales comme le Belmont Forum11

bull R2 Accroitre les expertises interdisciplinaires pour lrsquoanalyse et lrsquoutilisation des donneacutees Le CNRS fort des acquis reacutealiseacutes au travers de la Mission pour lrsquoInterdisciplinariteacute ( p ex programme MASTODONS ) et de plusieurs Groupements de Recherche ( p ex MADICS ) devrait lancer une initiative transversale srsquoappuyant sur un certain nombre de TGIRs et IRs pour favoriser des collaborations interdisciplinaires au travers des instituts du CNRS rassemblant des experts des diffeacuterents domaines scientifiques des diffeacuterents domaines meacutethodologiques en sciences des donneacutees ( matheacutematiques statistiques informatiques ) et deacuteveloppeurs drsquoinfrastructures Ceci afin de creacuteer un veacuteritable hub scientifique et drsquoexpertise pour le deacuteveloppement de nouvelles meacutethodes de gestion de traitement et drsquoanalyse de donneacutees de nouveaux algorithmes et leur impleacutementation au travers de logiciels modulaires de librairies de services et drsquooutils partageacutes et pouvant servir les besoins de diffeacuterentes communauteacutes sur le modegravele du Berkeley Institute

5 Findable Accessible Interoperable Reusable data6 Voir par exemple dmpopidorfr7 Open Science in Europe8 European Open Science Cloud declaration et EOSC pilot9 GoFair Initiative10 Research Data Alliance11 Belmont Forum

RECOMMANDATIONS

8

Livre Blanc sur les Donneacutees au CNRS Eacutetat des Lieux et Pratiques - 2018

for Data Science12 ( BIDS ) du Data Science Institute de Imperial College ou de lrsquoUniversiteacute de Maastricht Le CNRS pourrait ainsi encourager la collaboration de scientifiques de diffeacuterents domaines autour de lrsquoameacutelioration des algorithmes utiliseacutes dans lrsquoanalyse de donneacutees par exemple pour les synchrotrons sur le modegravele de CAMERA ( httpwwwcameralblgov ) aux Eacutetats-Unis Un tel Hub pourrait eacutegalement constituer un instrument preacutecieux pour la prise en compte des probleacutematiques associeacutees aux donneacutees en amont lors de lrsquoeacutelaboration de grands projets internationaux de TGIRs et drsquoIRs et ainsi faciliter lrsquoorganisation et accroitre la visibiliteacute des contributions franccedilaises dans ces initiatives Dans ce contexte le CNRS pourrait financer des ETPTs chercheurs et ingeacutenieurs en appui agrave ces deacuteveloppements interdisciplinaires eacuteventuellement en collaboration avec des pocircles universitaires et drsquoautres organismes pour par exemple deacutevelopper des logiciels de traitement de donneacutees tels XSOCS ( httpssourceforgenetprojectsxsocs ) sur les synchrotrons

bull R3 Architecture et Infrastructures pour lrsquoanalyse des donneacutees Le CNRS devrait en srsquoappuyant sur les expertises de ses deux centres nationaux de France Grilles de certains meacuteso-centres TGIRs et IRs mener des expeacuteriences relatives agrave lrsquoarchitecture et agrave la feacutedeacuteration de plateformes distribueacutees de services de calcul et de stockage et de plateformes centraliseacutees ( HPC Cloud ) dans le cadre de chaicircnes pilotes de production et drsquoutilisation de donneacutees et de leur logistique des donneacutees refleacutetant la diversiteacute des utilisateurs et des pratiques de recherche Ces expeacuteriences permettraient de mieux eacutevaluer les performances des traitements en flux de type Cloud les protocoles de transferts et les configurations reacuteseaux ainsi qursquoameacuteliorer radicalement lrsquoexploitation des ressources HPC pour des workflows combinant HPC HDA et machine learning Le CNRS pourrait ainsi accroitre son rocircle au niveau europeacuteen agrave lrsquointerface entre EOSC et EDI ( European Data Infrastructure ) Il serait possible drsquoeacutetudier lrsquoaccegraves agrave des moyens informatiques de type Cloud aux TGIR du CNRS au travers par exemple drsquoun accord avec le CC-IN2P3 ou France Grilles

12 httpsbidsberkeleyeduabout

bull R4 Archivage curation et distribution des donneacutees Le CNRS pourrait eacutegalement en srsquoappuyant sur des expertises internationalement reconnues telles celles du Centre de Donneacutees de Strasbourg et ses contributions agrave lrsquoIVOA soutenir et mener des expeacuteriences pilotes pour lrsquoorganisation de plateformes distribueacutees drsquoarchivage drsquoindexation et de curation de donneacutees multi-source mutualisant des ressources ( stockage calcul ) ainsi que pour leur inteacutegration au sein de pocircles de donneacutees ( systegraveme drsquoinformation portail services ) facilitant la deacutecouverte et lrsquoaccegraves fluide agrave ces donneacutees issues de domaines diffeacuterents avec des outils laquo translationnels raquo pour les combiner les croiser et les syntheacutetiser Ces expeacuteriences permettraient au CNRS de mieux deacutefinir sa politique drsquoOpenData et de jouer un rocircle moteur pour la creacuteation drsquoarchives OpenData certifieacutees et de portail OpenScience inteacutegrant de nouveaux objets associant donneacutees et reacutesultats de recherche tel que le Centre de Donneacutees astronomiques de Strasbourg ( httpcdswebu-strasbgfr ) auxquelles les TGIR PaN pourraient participer

bull R5 Nouvelles expertises et moyens humains Le CNRS pour maicirctriser les nouveaux enjeux associeacutes aux donneacutees doit mettre en place une reacuteponse coordonneacutee face aux nouveaux besoins en termes drsquoexpertise de moyens humains et de reconnaissance de ces nouvelles activiteacutes interdisciplinaires Cette reacuteponse doit ecirctre attractive pour des recrutements ( chercheurs ITA ) pour les eacutevolutions de carriegravere et srsquoappuyer sur des actions de formation adapteacutees reacutepondant agrave ces nouvelles expertises Cette reacuteponse est essentielle afin de faciliter lrsquoorganisation des communauteacutes scientifiques et le deacuteveloppement de nouvelles pratiques de recherche permettant drsquoacceacuteleacuterer lrsquoextraction de nouvelles connaissances agrave partir des donneacutees et ainsi renforcer la visibiliteacute internationale du CNRS et des communauteacutes scientifiques franccedilaises

9

Livre Blanc sur les Donneacutees au CNRS Eacutetat des Lieux et Pratiques - 2018

Sur la base de ce rapport la mission Calcul et Donneacutees du CNRS ( MiCaDo ) pourrait se voir confier la mission drsquoouvrir une reacuteflexion inter-instituts associant eacutetroitement lrsquoIDRIS et le CC-IN2P3 en lien avec nos tutelles nos partenaires et les infrastructures de services concerneacutes pour la recherche ( GENCI RENATER ) afin de prolonger ce rapport avec des groupes de travail deacutefinis autour de trois axes permettant de preacuteciser cette strateacutegie

bull Lrsquoorganisation territoriale et la mutualisation de lrsquoheacutebergement des plateformes drsquoarchivage et de curation de donneacutees des plateformes de calcul et drsquoanalyse des donneacutees en liaison avec le processus de labellisation des datacentres nationaux et reacutegionaux organiseacute par la DGRI et les initiatives locales et reacutegionales soutenues par des IDEX ou drsquoautres organismes permettant de faire eacutemerger des sites de reacutefeacuterences en appui agrave des grands projets Cette reacuteflexion devra prendre en compte lrsquoorganisation des communauteacutes scientifiques pour le stewardship des donneacutees et des ressources ( calcul stockage services ) afin drsquoeacutevaluer les ressources humaines et les expertises neacutecessaires agrave cette nouvelle structuration territoriale et organisation des communauteacutes scientifiques

bull Lrsquoarchitecture et la feacutedeacuteration des plateformes distribueacutees de calcul et drsquoanalyse de donneacutees drsquoarchivage et de curation des donneacutees et des plateformes centraliseacutees ( HPC Cloud ) avec des services de donneacutees Cette reacuteflexion devra prendre en compte la diversiteacute et les caracteacuteristiques des chaicircnes de production et drsquoutilisation des donneacutees la logistique des donneacutees tout au long de ces chaicircnes ainsi que les pratiques de recherche des communauteacutes scientifiques au niveau national et international

bull Les architectures de ressources de calcul et de stockage adapteacutees aux diffeacuterentes phases des workflows combinant HPC et HDA ainsi que les environnements drsquoexploitation de ces ressources inteacutegrant les besoins de traitement et drsquoanalyse en flux de type Cloud En particulier cette reacuteflexion devra inteacutegrer les nouveaux besoins associeacutes au machine learning et plus largement agrave lrsquoIntelligence Artificielle qui joue un rocircle de plus en plus important dans le contexte du Big Data avec en particulier les nouveaux enjeux associeacutes aux meacutethodes de type Deep Neural Network ( DNN ) en termes de scalabiliteacute et drsquoarchitecture ( GPU meacutemoire non volatile NVRAM )

La mission Calcul et Donneacutees du CNRS ( MiCaDo ) pourrait avec des moyens suppleacutementaires contribuer agrave lrsquoeacutemergence de plateformes de gestion et drsquoanalyse de donneacutees en y positionnant des ingeacutenieurs et des data scientists capables drsquooffrir un service technique de haut niveau et drsquoaccompagner les chercheurs dans leurs expeacuterimentations Cette action pourrait contribuer agrave faire eacutemerger sur le territoire quelques sites de reacutefeacuterence autour desquels peuvent graviter plusieurs projets de recherche en sciences des donneacutees ou srsquointeacuteresser agrave des communauteacutes scientifiques speacutecifiques De telles initiatives peuvent et doivent ecirctre compleacutementaires des autres initiatives locales ou reacutegionales soutenues par des IDEX ou drsquoautres organismes de recherche par exemple

RECOMMANDATIONS

10

Livre Blanc sur les Donneacutees au CNRS Eacutetat des Lieux et Pratiques - 2018

Ce Livre Blanc a eacuteteacute reacutealiseacute agrave la suite drsquoune seacuterie de preacutesentations autour des donneacutees meneacutees au sein du COCIN entre 2014 et 2016 par ailleurs eacutetayeacutees par des informations compleacutementaires issues de divers documents rapports drsquoactiviteacutes et sites Web avec la contribution et la mise en forme des repreacutesentants des divers instituts et centres informatiques du CNRS

Ce Livre Blanc srsquoest notamment appuyeacute sur les preacutesentations suivantes ( par ordre chronologique )

bull Simulation et cycle de vie des donneacutees dans la communauteacute du climat J-L Dufresne et S Denvil 2 septembre 2014

bull Eleacutements de reacuteflexion sur le stockage des donneacutees O Porte ( DSI ) 4 deacutecembre 2014

bull Les donneacutees au CC-IN2P3 P-E Macchi 8 janvier 2015

bull Institut Franccedilais de Bioinformatique ( IFB ) mettre en place une infrastructure informatique deacutedieacutee aux sciences de la vie J-F Gibrat 5 feacutevrier 2015

bull Stockage et gestion des donneacutees agrave lrsquoIDRIS D Girou 5 mars 2015

bull Research Data Access F Genova 10 avril 2015

bull Gestion des donneacutees au CINES F Daumas et M Galez 5 mai 2015

bull Preacutesentation de CIMENT E Chaljub 2 juin 2015

bull Les donneacutees agrave lrsquoINEE C Callou 7 juillet 2015

bull Les donneacutees agrave lrsquoINC et lrsquoINP D Borgis et L Lellouch 7 juillet 2015

bull Preacutesentation du Belmont Forum J-P Vilotte 1er septembre 2015

bull GRICAD Grenoble Alpes Recherche - Infrastructure de Calcul Intensif et de Donneacutees V Louvet 1er deacutecembre 2015

bull Calcul et donneacutees agrave lrsquoINSU J-P Vilotte 5 janvier 2016 et 2 feacutevrier 2016

bull Les donneacutees et le calcul en bioinformatique G Perriegravere 1 mars 2016

bull Le meacutesocentre CALMIP un Tier2 au service des recherches acadeacutemique et priveacutee B Dintrans 5 avril 2016

bull Preacutesentation de la TGIR Huma-Num O Baude et S Pouyllau 3 mai 2016

bull Preacutesentation ESRF R Dimper et A Goetz 8 novembre 2016

bull Gestion des donneacutees agrave ILL J-F Perrin 5 deacutecembre 2016

bull Synchrotron SOLEIL Les Donneacutees Scientifiques B Gagey et P Martinez 10 janvier 2017

Ce rapport mecircme srsquoil est loin drsquoecirctre exhaustif vise agrave mieux cerner les pratiques et les besoins en matiegravere de donneacutees ainsi qursquoagrave identifier les voies de promotion drsquoune synergie transdisciplinaire autour des donneacutees au sein du CNRS

Lrsquoenquecircte a deacutemarreacute en 2014 agrave la demande de Michel Bidoit Preacutesident du COCIN avec agrave ce jour

1 INTRODUCTION

11

Livre Blanc sur les Donneacutees au CNRS Eacutetat des Lieux et Pratiques - 2018

bull Des preacutesentations lors de reacuteunions du COCIN de tous les instituts confronteacutes agrave la production et au traitement de donneacutees agrave grande eacutechelle ie tous les instituts excepteacutes INS2I INSMI et INSIS13

bull Des centres nationaux orienteacutes calcul et donneacutees du CNRS

- CC-IN2P3 - IDRIS

bull De certains meacutesocentres - CALMIP - GRICAD

bull Et drsquoun certain nombre drsquoinitiatives et de TGIR dont

- LrsquoInstitut Franccedilais de Bioinformatique ( IFB ) - RENABI

bull Les synchrotrons ESRF ILL et SOLEIL

Ce Livre Blanc aborde aussi la probleacutematique des infrastructures requises pour lrsquoexploitation des grands volumes de donneacutees issues de simulations numeacuteriques de grande taille de systegravemes drsquoobservations ou de plateformes expeacuterimentales neacutecessitant des traitements coucircteux pour en extraire de lrsquoinformation

Les enjeux lieacutes au Big Data sont colossaux et ne sont pas seulement scientifiques car ils ont aussi un impact socieacutetal consideacuterable ( santeacute environnement biologie ) eacuteconomique et financier ( p ex compeacutetitiviteacute industrielle ) et eacutethique ( p ex santeacute biologie ) Le Big Data est ainsi devenu un outil drsquoaide agrave la deacutecision incontournable pour un certain nombre de situations critiques ( preacutevision des catastrophes naturelles eacutepideacutemiologiehellip )

La maicirctrise de tous les aspects du Big Data relegraveve drsquoune deacutemarche fondamentalement interdisciplinaire

Les eacutechelles de volumes de donneacutees agrave traiter nrsquoont fait que croicirctre de faccedilon spectaculaire On parle drsquoExaoctets ( 10^18 octets ) pour eacutevoquer les besoins actuels pour se projeter vers des eacutechelles de lrsquoordre du Zettaoctets ( 10^21 ) drsquoici quelques anneacutees

Cette eacutevolution constante induit de multiples preacuteoccupations autour des besoins en puissance de traitement pour de tels volumes de donneacutees ce qui contribue agrave rapprocher les communauteacutes du Calcul Haute Performance et du High Throughput Computing ( autour de lrsquoIN2P3 p ex ) et explique lrsquointeacuterecirct susciteacute par les GPUs en particulier pour le machine learning

13 Les donneacutees sont plus un objet de recherche pour INS2I et INSMI et ils sont peu impliqueacutes dans la production de donneacutees alors que INSIS nrsquoa pas aujourdrsquohui drsquoaction drsquoenvergure dans le domaine

puisqursquoil existe un certain nombre de codes open source tregraves performants sur les GPU

On constate dans tous les domaines des besoins eacutevidents en

bull Plateformes pour lrsquoanalyse de donneacutees agrave grande eacutechelle avec les probleacutematiques du stockage de la gestion et de la valorisation de ces donneacutees

bull Support pour les utilisateurs

bull Data scientists ( chercheurs ou ingeacutenieurs compeacutetents en analyse de donneacutees )

bull Deacuteploiement de chaicircnes logicielles drsquoanalyse de donneacutees qui passent agrave lrsquoeacutechelle

bull Effort interdisciplinaire entre les communauteacutes produisant des donneacutees et les communauteacutes dont crsquoest lrsquoobjet de recherche ( essentiellement au sein drsquoINS2I et drsquoINSMI )

bull Valorisation et peacuterennisation des donneacutees beaucoup de donneacutees sont creacuteeacutees pour un besoin preacutecis puis in fine perdues alors qursquoelles pourraient parfois ecirctre reacuteutiliseacutees ( expeacuteriences comme simulations ) ce qui suppose de lrsquoarchivage indexation mise agrave disposition etc

bull Deacutefinition de plan de gestion des donneacutees ( DMP ) loin drsquoecirctre geacuteneacuteraliseacute aujourdrsquohui alors que les volumes explosent

bull hellip

Le traitement des donneacutees massives issues ou non de la simulation numeacuterique avec des sources eacuteventuellement multiples distribueacuteesreacuteparties agrave grande eacutechelle et heacuteteacuterogegravenes ( structures formats logiciels serveurshellip ) et une volumeacutetrie en donneacutees allant de centaines de teacuteraoctets agrave quelques dizaines de peacutetaoctets ( et agrave lrsquoExaoctets dans un futur proche ) est donc devenu fondamental Il en reacutesulte des probleacutematiques autour de la gestion de ces donneacutees ( indexation stockage local ou distant avec BD centraliseacutees ou distribueacutees entrepocircts de donneacutees virtualisation du stockagehellip ) de leur traitement avec de lrsquoextraction de connaissances sur des infrastructures souvent distribueacutees ( machine learning fouille de donneacutees classification assimilation de donneacutees ) et enfin du post-traitement permettant drsquoexploitervisualiser ces informations etou de lrsquoaide agrave la deacutecision par exemple

12

Livre Blanc sur les Donneacutees au CNRS Eacutetat des Lieux et Pratiques - 2018

INTRODUCTION

Tirer parti de maniegravere efficace de toutes ces eacutevolutions requiert donc des efforts sur ( entre autres )

bull Deacuteploiement de plateformes drsquoanalyse de donneacutees performantes et rapprochement entre les communauteacutes HTC et HPC deacuteveloppement de lrsquoactiviteacute et des compeacutetences autour de lrsquoanalyse de donneacutees au sein des centres HPC nationaux et reacutegionaux

bull Conceptionexploitation efficace drsquoarchitectures et drsquoenvironnements orienteacutes donneacutees

bull Impact des technologies du type GPU Cloud computinghellip

bull Meacutethodes drsquoanalyse de donneacutees et drsquoaide agrave la deacutecision machine learning retour de lrsquoIntelligence Artificielle au premier planhellip

bull Maicirctrise du passage agrave lrsquoeacutechelle des outils drsquoanalyse de donneacutees

bull Deacuteveloppement des recherches interdisciplinaires et des compeacutetences autour des donneacutees au sein du CNRS ainsi que du support aux utilisateurs

Les pratiques et les besoins autour des donneacutees font deacutejagrave lrsquoobjet drsquoune attention consideacuterable au sein du CNRS On peut citer par exemple le remarquable ouvrage laquo Les Big Data agrave deacutecouvert14 raquo eacutediteacute sous la direction de sous la direction de Mokrane Bouzeghoub et Reacutemy Mosseri agrave CNRS EDITIONS ainsi que les reacutesultats de lrsquoenquecircte de 2014 meneacutee par la Direction de lrsquoInformation Scientifique et Technique ( DIST ) aupregraves des uniteacutes15 qui corroborent certains des constats effectueacutes ici

Le CNRS a aussi deacuteveloppeacute de multiples programmes de recherche sur les donneacutees scientifique tant au sein de la Mission pour lrsquoInterdisciplinariteacute qursquoau sein des instituts INS2I et INSMI avec

bull Le Deacutefi Mastodons16 depuis 2012 ( plus de 60 projets )

bull Deacutefi ImagrsquoIn17 depuis 2015 ( plus de 40 projets )

bull Le PEPS FaScido en 2015 et 2016 ( plus de 20 projets )

bull Le PEPS AstroInformatique18 en 2018 ( une dizaine de projets )

Enfin un soutien significatif aux plateformes de recherche sur les donneacutees a eacuteteacute apporteacute par lrsquoINS2I agrave la fois en eacutequipement et en ingeacutenieur ( permanents ou CDD )

14 httpwwwcnrseditionsfrsociete7429-les-big-data-a-decou-verthtml15 httpwwwcnrsfrdistz-outilsdocumentsenquete-du_bro-chure-couverture_032015pdf16 httpwwwcnrsfrmispipphparticle5317 httpwwwcnrsfrmispipphparticle64518 httpwwwcnrsfrmispipphparticle1325

13

Livre Blanc sur les Donneacutees au CNRS Eacutetat des Lieux et Pratiques - 2018

21 INSTITUT DE CHIMIE ( INC )

211 Introduction

La deacutemarche de cette eacutetude a eacuteteacute drsquoeacutetudier les donneacutees agrave lrsquoINC agrave diffeacuterents niveaux de granulariteacute Nous commencerons par les grandes infrastructures de calcul ou expeacuterimentales puis nous nous inteacuteresserons agrave lrsquoeacutechelle typique drsquoun institut puis au grain fin du laboratoire Nous finirons agrave lrsquoautre extrecircme par la dimension europeacuteenne

212 La probleacutematique des donneacutees agrave lrsquoINC

Pour ce qui concerne le calcul sur les centres nationaux ( GENCI ) et le stockage de donneacutees affeacuterent les chercheurs de lrsquoInstitut de Chimie soumettent leurs demandes aux Comiteacutes Scientifiques Theacutematiques nationaux ( CT ) suivants

bull CT7 Dynamique moleacuteculaire appliqueacutee agrave la biologie avec une reacutepartition INC-NSB de 60 40

bull CT8 Chimie quantique et modeacutelisation moleacuteculaire ( majoritairement INC )

bull CT9 Physique chimie et proprieacuteteacutes des mateacuteriaux avec une reacutepartition INC-INP de 50 50

Il faut rappeler que ces 3 CT eacutetiqueteacutes laquo chimie raquo centreacutes majoritairement sur les simulations de dynamique moleacuteculaire et les calculs de structure eacutelectronique repreacutesentent une part importante des projets seacutelectionneacutes et du temps de calcul alloueacute sur les machines GENCI A lrsquoIDRIS par exemple la chimie au sens large compte pour ~40 des projets ~30 du temps CPU sur Ada et 7 sur Turing

Comme il apparaicirct sur les diagrammes de lrsquoIDRIS preacutesenteacutes agrave la section 322 lrsquoutilisation du stockage est beaucoup plus reacuteduite pour ces CT laquo chimie raquo par rapport agrave drsquoautres theacutematiques avec quelques dizaines de To sur Ada et quelques To seulement sur Turing pour environ 50 To sur cartouches On note une forte surestimation des besoins par les utilisateurs

Sur le TGCC lrsquoINC occupe pour lrsquoensemble des CTs qui le concerne de lrsquoordre de 450 To en cumulant tous les espaces de disques ( storedir scratch et workdir ) Cela repreacutesente une occupation relative de lrsquoordre du pour cent sur le stockage longue dureacutee ( storedir ) et de la dizaine de pour cent sur lrsquoespace de travail Les besoins sont cependant appeleacutes agrave augmenter fortement avec lrsquoaccroissement de la taille des systegravemes eacutetudieacutes ou de leur temps de simulation si lrsquoon se fixe aux niveaux correspondant actuellement agrave des grands challenges ou des projets PRACE En modeacutelisation biomoleacuteculaire par exemple la simulation dynamique drsquoun systegraveme biologique complet comportant plusieurs millions drsquoatomes comme un virus pendant quelques dizaines voire une centaine de nanosecondes ( actuellement un tour de force ) geacutenegravere facilement un film de quelques Po si lrsquoon veut garder la trajectoire pour exploitation ulteacuterieure

Lrsquooccupation en stockage de la chimie sur les quelques meacutesocentres qui ont eacuteteacute sondeacutes ( Unistra CRIANN CALMIP ) apparaicirct elle aussi relativement limiteacutee de lrsquoordre de la dizaine de To par centre

En ce qui concerne les Infrastructures de Recherche expeacuterimentale il faut noter que la chimie est tregraves impliqueacutee dans des TGIR relevant de lrsquoINP ( ESRF ILL SOLEILhellip ) pour lesquelles une politique des donneacutees massives est eacutetablie ou en cours drsquoeacutelaboration ( voir lrsquoanalyse de lrsquoINP ) Une analyse des besoins et des pratiques de stockage des Infrastructures de Recherche relevant de lrsquoINC a eacuteteacute effectueacutee cela implique la TGIR reacutesonance magneacutetique nucleacuteaire agrave tregraves hauts champs ( RMN-THC ) lrsquoIR RENARD ( REseau NAtional de Reacutesonance paramagneacutetique interDisciplinaire ) et

2 Les donneacutees au sein des instituts du CNRS

14

Livre Blanc sur les Donneacutees au CNRS Eacutetat des Lieux et Pratiques - 2018

le tregraves grand eacutequipement FT-ICR agrave haut champ Quelques points cleacutes en ressortent en matiegravere de politique de donneacutees

bull Gestion locale des donneacutees chaque laboratoire ou site achegravete ses disques durs

bull La politique des donneacutees ( partage ou non ) est laisseacutee aux utilisateurs

bull En utilisation laquo plateforme raquo les utilisateurs viennent et repartent avec leur cleacute USB

bull Frilositeacute vis-agrave-vis du partage de donneacutees ( maicirctrise de ses donneacutees confidentialiteacute )

bull Une mutualisation des donneacutees est envisageacutee en RMN et RPE

Pour ce qui concerne la nature et le volume des donneacutees

bull Spectres 1D ou 2D fichiers de 10-100 ko jusqursquoagrave 10-100 Goansite

bull Format proprieacutetaire ( Bruckerhellip ) eacuteventuellement transformable drsquoougrave des problegravemes drsquointeropeacuterabiliteacute et de temps de relecturesauvegarde

bull Des flux plus importants peuvent ecirctre envisageacutes avec des expeacuteriences drsquoimagerie deacutependant du temps mais les volumes ne sont pas encore vraiment anticipeacutes

On peut faire les mecircmes constats par exemple pour le reacuteseau METSA en laquo Microscopie Electronique et Sonde Atomique raquo

bull Pas de politique de stockage globale au niveau du reacuteseau

bull Sur le site parisien ( MPQ ) la quantiteacute de donneacutees produites est typiquement 64 Moimage soit 4 Toan stockeacutes sur des disques durs locaux avec en plus une passerelle sur lrsquouniversiteacute

bull Des expeacuteriences en temps reacuteel commencent agrave se monter engendrant 300 imagesseconde soit de lrsquoordre de 20 Goseconde

bull Il y aura donc un reacuteel besoin de compeacutetences solides agrave terme

Pour illustration nous descendons encore en granulariteacute dans les infrastructures de recherche et prenons le cas drsquoune feacutedeacuteration lrsquoInstitut pour les Sciences Moleacuteculaires drsquoOrsay ( ISMO ) pour lequel le

problegraveme des donneacutees srsquoest poseacute reacutecemment Cet institut regroupe trois laboratoires le Laboratoire de Photophysique Moleacuteculaire ( UPR3361 ) le Laboratoire des Collisions Atomiques et Moleacuteculaires ( UMR8625 ) et le Laboratoire drsquoInteraction du rayonnement X avec la Matiegravere ( UMR8624 ) Il est installeacute depuis peu dans un bacirctiment unique agrave Paris-Saclay Il dispose drsquoune grappe de calcul avec 1 ingeacutenieur drsquoeacutetudes et un technicien

bull Il y a un besoin de stockage pour des expeacuteriences ( en particulier en microscopie ) et en ressources de calcul

bull Le mateacuteriel est disparate et vieillissant sans systegraveme de sauvegarde global

bull Une enquecircte aupregraves des laboratoires de la feacutedeacuteration a reacuteveacuteleacute un besoin de lrsquoordre de 160 To

Drsquoougrave la recherche drsquoune solution eacuteconomique de stockage et baseacutee sur des logiciels libres chaque chercheur achetant ses propres disques On a convergeacute vers lrsquoachat de 2 racks de 40 disques avec un systegraveme ZFS plus la solution libre SUN Le coucirct total estimeacute de cette solution de stockage est de lrsquoordre de 40 keuro alors qursquoune solution cleacute en main serait de lrsquoordre de 100 keuro aupregraves des speacutecialistes des solutions de stockage

Enfin penchons-nous sur une granulariteacute encore plus fine celle drsquoun laboratoire Un exemple significatif est celui du laboratoire Physicochimie des Electrolytes et Systegravemes Interfaciaux ( PHENIX ) agrave lrsquoUPMC et plus speacutecifiquement de lrsquoeacutequipe modeacutelisation composeacutee de 5 permanents pour un total de 15 personnes qui calculent agrave la fois en local sur GENCI et PRACE

bull Le parc drsquoinformatique scientifique de 15-20 stations de travail est geacutereacute par les chercheurs

bull Le systegraveme de stockage est composeacute drsquoun server NFS ( 30 To ) plus un serveur LDAP

bull Les ressources de calcul sont constitueacutees de 4 machines PersonalHPC 64 cœurs agrave meacutemoire partageacutee ( 10 keuromachine )

bull Un stockage de sauvegarde de 150 To est effectueacute sur une machine deacutedieacutee PersonalHPC Sigma ( valeur environ 30 keuro )

On retrouve donc le mecircme ordre de grandeur de coucirct pour le mateacuteriel local de stockage avec des solutions laquo cousues main raquo ( quelques dizaines de keuro pour la centaine de To hors coucirct de personnel eacutevidemment et avec le niveau de seacutecuriteacute qursquoune gestion locale implique )

INC

15

Livre Blanc sur les Donneacutees au CNRS Eacutetat des Lieux et Pratiques - 2018

Enfin si lrsquoon remonte la granulariteacute agrave son autre extrecircme il faut signaler qursquoau niveau europeacuteen sur lrsquoappel H2020 Centre of Excellence for Computing Applications 3 CoE sur les 8 seacutelectionneacutes sont consacreacutes aux mateacuteriaux au cœur donc des theacutematiques des CT 7-9 Lrsquoun drsquoeux le CoE NoMad ( Novel Material Discovery httpsnomad-coeeu ) est un dispositif multigrille de deacutepocirct et de fouille de donneacutees Il est eacutetabli pour heacuteberger organiser et partager agrave lrsquoeacutechelle internationale les donneacutees et reacutesultats de calcul et de simulation en physique et chimie des mateacuteriaux

Alors que la France est bien repreacutesenteacutee dans plusieurs CoE par exemple EoCoE ( httpwwweocoeeu ) ou E-CAM ( httpswwwe-cam2020eu ) elle apparaicirct malheureusement tregraves peu dans NoMaD et encore trop peu dans ce genre de deacutemarche type collectionexploitation de donneacutees comme les initiatives Material Genomics ( httpswwwmgigov ) aux Etats-Unis ou AIIDA en Suisse ( Automated Interactive Infrastructure and Database for Computational Science httpwwwaiidanet )

213 Conclusion

LrsquoINC a actuellement plus des problegravemes drsquoorganisation interne des donneacutees que des problegravemes relevant vraiment du Big Data Il nrsquoen reste pas moins qursquoil y a un reacuteel besoin de compeacutetences et de politique drsquoeacutequipement Les besoins peuvent srsquoaccroicirctre rapidement dans les TGIR degraves que lrsquoon touche agrave de lrsquoacquisition massive drsquoimages ( p ex pour des processus en temps reacuteel ) Lrsquoacquisition des donneacutees de simulations numeacuteriques est ameneacutee agrave croicirctre aussi avec lrsquoaugmentation de la taille des systegravemes eacutetudieacutes et des deacutemarches collectives de type Material Genomics crsquoest-agrave-dire conservation et mutualisation des donneacutees de simulations et deacutemarche systeacutematique de fouille de donneacutees Des deacutemarches de ce type eacutemergent de plus en plus dans les appels drsquooffre

LrsquoINC a engageacute depuis deacutebut 2018 une reacuteflexion sur la politique des donneacutees au sein de ces trois TGIRIR ( RMN-THC RENARD FT-ICR ) avec comme objectif de se conformer rapidement aux directives europeacuteennes en termes de science ouverte et de partage des donneacutees et rejoindre ce qui se fait dans drsquoautres infrastructures de recherche comme SOLEIL

16

Livre Blanc sur les Donneacutees au CNRS Eacutetat des Lieux et Pratiques - 2018

22 INSTITUT ECOLOGIE ET ENVIRONNEMENT ( INEE )

221 Introduction

Degraves sa creacuteation consideacuterant drsquoune part lrsquoimportance des donneacutees dans le triptyque fondateur de lrsquoINEE ( Observation ndash Expeacuterimentation ndash Modeacutelisation ) et drsquoautre part une reacuteelle meacuteconnaissance du nombre de jeux de donneacutees existants dans le peacuterimegravetre de lrsquoInstitut ( sa creacuteation datant du 1er novembre 2009 ) deux enquecirctes autour des donneacutees en eacutecologie et environnement eacutetaient meneacutees sur le peacuterimegravetre scientifique de lrsquoINEE

bull La premiegravere adresseacutee agrave lrsquoensemble des instituts du CNRS sur le thegraveme laquo Etude de cas sur les systegravemes de donneacutees numeacuteriques de recherche raquo ( Ministegravere de lrsquoEnseignement supeacuterieur et de la Recherche 2009 )

bull La seconde meneacutee sous la responsabiliteacute de S Thieacutebault et Y Lagadeuc plus speacutecifique et exhaustive aupregraves des directeurs drsquouniteacutes

La synthegravese de ces deux enquecirctes mettait en exergue les points suivants

bull Des diffeacuterents projets de recherche collaboratifs meneacutes par la communauteacute scientifique de lrsquoINEE reacutesulte un accroissement tregraves important et tregraves rapide du nombre de bases de donneacutees deacuteveloppeacutees au sein des laboratoires Cependant ces bases de donneacutees restent tregraves heacuteteacuterogegravenes dans leur forme ( allant du fichier Word ou Excel pour certains agrave un systegraveme de gestion de base de donneacutees complexe pour drsquoautres ) et aussi dans leur fond

bull La communauteacute scientifique de lrsquoINEE se doit de faire un effort particulier pour coordonner et diversifier la collecte des donneacutees en eacutecologie en menant une reacuteflexion neacutecessaire pour deacutefinir dans quels cas la theacuteorie doit deacuteterminer lrsquoobjet et les outils de mesure Il srsquoagit degraves lors drsquoeacuteviter une collecte de donneacutees agrave des eacutechelles spatiales et temporelles prenant plus en consideacuteration des contingences techniques ou historiques qui les eacuteloignent parfois des exigences optimales neacutecessaires pour appreacutehender les pheacutenomegravenes eacutetudieacutes

Aujourdrsquohui la communauteacute scientifique du CNRS-INEE est en train de vivre une veacuteritable reacutevolution de

lrsquoinformation Si pendant tregraves longtemps une des limitations a eacuteteacute la quantiteacute de donneacutees disponibles pour tester des modegraveles preacutedictifs en quelques anneacutees les sciences de lrsquoenvironnement ont pu disposer des jeux de donneacutees de plus en plus importants inteacutegrant diffeacuterentes eacutechelles temporelles et spatiales pour des milliers drsquoorganismes ainsi que pour de nombreux gegravenes et eacutecosystegravemes Ces nouveaux jeux de donneacutees allieacutes agrave une puissance de calcul et agrave une sophistication des logiciels ( rendues possibles notamment par la mise en place de plateformes collaboratives comme le logiciel R ) permettent aujourdrsquohui une profondeur drsquoanalyse qui nrsquoeacutetait pas possible il y a encore dix ans

Toutefois des efforts doivent ecirctre maintenus afin de faire basculer lrsquoeacutecologie dans lrsquoegravere de lrsquoinformation en eacutevitant que ces diffeacuterentes sources drsquoinformations soient stockeacutees et codeacutees suivant des normes contingentes agrave chaque milieu scientifique sans souci drsquointerfaccedilage avec les autres disciplines

222 La probleacutematique des donneacutees agrave lrsquoINEE

La collecte des donneacutees neacutecessite des systegravemes drsquoobservation et drsquoexpeacuterimentation depuis le niveau geacuteneacutetique jusqursquoaux eacutecosystegravemes Il srsquoagit drsquoabord de disposer drsquoeacutequipements compleacutementaires organiseacutes le long de gradients de controcircle ou de confinement consideacuterant des complexiteacutes eacutecologiques diffeacuterentes

La communauteacute de lrsquoINEE dispose deacutesormais drsquoune infrastructure expeacuterimentale partageacutee et ouverte ( AnaEE pour Analyse et Expeacuterimentation sur les Ecosystegravemes ) qui rassemble des moyens expeacuterimentaux in situ en conditions semi-naturelles et en conditions controcircleacutees

En geacutenomique les programmes concernant le meacutetageacutenome humain ( httpwwwmetahiteu httpnihroadmapnihgov ) ou lrsquoeacutetude des sols ( httpwwwterragenomeorg httpwwwearthmicrobiomeorg ) promeuvent des approches collaboratives inteacutegreacutees

Drsquoautres approches exploratoires agrave large eacutechelle ont aussi montreacute toute leur richesse ( p ex Tara-Oceans ) en inteacutegrant des donneacutees de diffeacuterents champs disciplinaires

INEE

17

Livre Blanc sur les Donneacutees au CNRS Eacutetat des Lieux et Pratiques - 2018

Lrsquoeacutetude des maladies infectieuses beacuteneacuteficie eacutegalement au plan national drsquoun institut theacutematique multi-organismes ( Institut de Microbiologie et Maladies Infectieuses )

Enfin au niveau des eacutecosystegravemes il faut noter les travaux entrepris au sein des Zones Ateliers ou encore des services drsquoobservation que le CNRS coordonne

Ces diffeacuterentes initiatives sont agrave lrsquoorigine de la production drsquoune quantiteacute de donneacutees sans preacuteceacutedent dans nos disciplines Par contre une grande part de la collecte est encore conduite par des eacutequipes etou des chercheurs individuels travaillant sur des sites expeacuterimentaux ou drsquoobservation qui ne font actuellement lrsquoobjet drsquoaucune coordination particuliegravere ou drsquoune coordination probablement insuffisante

Le panorama des initiatives dans le domaine EcologieBiodiversiteacute est extrecircmement large comme le montre la figure suivante avec une multipliciteacute des acteurs et des interactions

Il est organiseacute autour de trois niveaux

bull des dispositifs de production et de collecte des donneacutees incluant par exemple les plateformes -omiques ( geacutenomiques transcriptomiques p roteacuteomiques meacutetabo lomiqueshellip ) des collections des systegravemes drsquoobservation etou drsquoexpeacuterimentation

bull des bases de donneacutees

bull des centres de synthegravese geacuteneacuteraux ou theacutematiques deacutedieacutes agrave la valorisation et agrave la diffusion des donneacutees

Aussi face agrave cette laquo datavalanche raquo il apparaissait neacutecessaire pour lrsquoinstitut de mener un effort important pour aider les entiteacutes productrices de donneacutees de lrsquoINEE agrave aller vers une normalisation du codage et de la mise en forme des donneacutees pour mieux les rendre interopeacuterables exploitables et visibles

18

Livre Blanc sur les Donneacutees au CNRS Eacutetat des Lieux et Pratiques - 2018

223 La mise en place de lrsquouniteacute mixte de services BBEES

La creacuteation de lrsquoUMS 3468 laquo Bases de donneacutees Biodiversiteacute Ecologie Environnements Socieacuteteacutes ( BBEES ) raquo souhaiteacutee par le CNRS-INEE et le Museacuteum national drsquoHistoire naturelle et acteacutee le 1er septembre 2011 a pour objectif de structurer et drsquooptimiser le travail autour des bases de donneacutees de recherche sur la Biodiversiteacute naturelle et culturelle actuelle et passeacutee

Elle constitue un soutien technique et scientifique aupregraves des uniteacutes et des chercheurs du CNRS-INEE et du MNHN souhaitant structurer peacuterenniser ou mutualiser leurs bases de donneacutees de recherche avec pour objectifs finaux

bull de faire interagir lrsquoensemble de ces bases diverses et heacuteteacuterogegravenes dans leur forme et dans leur fond

bull de preacutevoir leur sauvegarde agrave tregraves long terme prenant en compte lrsquoeacutevolution des supports

bull de participer agrave la mise en place drsquoontologies et de theacutesaurus concerteacutes

Ses interventions se traduisent par des conseils ou une intervention au sein des uniteacutes pour aider agrave concevoir relancer ou restructurer une base de donneacutees Installeacutee au Museacuteum elle beacuteneacuteficie de lrsquoenvironnement en place et de son expeacuterience dans le domaine des bases de donneacutees ( Service du Patrimoine Naturel Inventaire National du Patrimoine Naturel collections patrimoniales Pocircle application scientifique de la DSI etc ) Elle nrsquoa pas vocation agrave administrer les bases de donneacutees qui restent sous la responsabiliteacute des eacutequipes qui les produisent ni agrave leur fournir un heacutebergement Toutefois elle peut apporter des conseils sur ces points

Afin de faciliter lrsquoinsertion des bases de donneacutees dans des dispositifs nationaux et internationaux lrsquoUMS BBEES propose un certain nombre de recommandations sur

bull la constitution des corpus et le traitement des donneacutees

bull le choix des outils

bull la structuration des donneacutees

bull les meacutetadonneacutees

bull etc

Ces recommandations sont en lien avec les standards et les normes en vigueur comme la directive europeacuteenne INSPIRE ( 20072CE du 14 mars 2007 ) pour les informations geacuteographiques ou le choix drsquoun reacutefeacuterentiel taxonomique commun aux bases de donneacutees existantes sur la biodiversiteacute ( TaxRef ) et obeacuteissent aux reacuteglementations concernant la proprieacuteteacute intellectuelle dans le domaine particulier des bases de donneacutees

La question de lrsquoidentification et de lrsquoaccessibiliteacute des bases de donneacutees est eacutegalement au cœur des preacuteoccupations de lrsquoUMS BBEES En particulier pour ce qui concerne les bases inactives ( les bases de donneacutees deacuteveloppeacutees dans le cadre de programmes nationaux et stockeacutees sur des ordinateurs personnels p ex ) et les bases en veille ( bases de donneacutees accessibles mais qui ne sont plus alimenteacutees ni exploiteacutees ) Des enquecirctes sont reacuteguliegraverement meneacutees aupregraves des directeurs drsquouniteacutes de recherche dans le but drsquoidentifier lrsquoensemble des bases de donneacutees produites par les uniteacutes ( inactives en veille en deacuteveloppement et actives ) mais aussi pour anticiper et accompagner les demandes de deacuteveloppement de bases dans le cadre de programmes de recherche nationaux et internationaux

LrsquoUMS srsquoattache en outre agrave favoriser la diffusion des bases de donneacutees par leur administrateur au travers drsquoun portail deacutedieacute accessible agrave tous httpwwwbdd-ineecnrsfr Aujourdrsquohui ce portail a permis de recenser et rendre visibles environ 200 bases de donneacutees issues de lrsquoactiviteacute des laboratoires du CNRS-INEE

BBEES est aussi tregraves fortement impliqueacutee dans lrsquoanimation du reacuteseau meacutetier laquo bases de donneacutees raquo creacuteeacute en mai 2012 en collaboration avec la MRCT puis la Mission pour lrsquoInterdisciplinariteacute ( MI ) Lrsquoanimation de ce reacuteseau aujourdrsquohui composeacute de 170 personnes de diffeacuterentes origines institutionnelles ( CNRS-INEE et CNRS-INSHS principalement mais aussi MNHN INRA IRD CIRAD FRB ) permet

bull lrsquoorganisation de reacuteunions theacutematiques

bull lrsquoeacutechange et le partage via la mise en place drsquoune liste de diffusion

INEE

19

Livre Blanc sur les Donneacutees au CNRS Eacutetat des Lieux et Pratiques - 2018

bull la mise en place de formations

bull la reacutealisation de journeacutees de sensibilisation agrave la seacutecurisation et agrave la peacuterennisation des donneacutees

bull et enfin bien eacutevidemment une activiteacute de veille technologique

BBEES est aussi partenaire de plusieurs grands programmes sur le long terme ( description des meacutetadonneacutees des bases deacutejagrave opeacuterationnelles eacutetat des lieux technique creacuteation de nouvelles basesSI ) et participe aux reacuteseaux des Zones Ateliers ( RZA ) et des Observatoires Hommes-Milieux ( ROHM ) ainsi qursquoau projet drsquoinfrastructures nationales en biologie et santeacute AnaEE-France laquo Infrastructure Analyse et drsquoexpeacuterimentation sur les eacutecosystegravemes raquo en srsquoappuyant sur les Ecotrons et les Stations drsquoEcologie expeacuterimentale ( ReNSEE )

Enfin BBEES megravene une activiteacute drsquointervention et de conseil au sein de lrsquoinstitut et est membre du groupe de travail sur les standards de donneacutees du SINP et du groupe utilisateurs du GBIF France

224 La creacuteation drsquoun centre de donneacutees et drsquoexpertise sur la nature

Dans une optique de valorisation de certaines donneacutees le CNRS-INEE a aussi eacuteteacute partenaire de la creacuteation drsquoun centre de donneacutees et drsquoexpertise sur la nature Creacuteeacutee en janvier 2017 lrsquoUniteacute Mixte de Service 2006 Patrimoine naturel ( PatriNat ) assure des missions drsquoexpertise et de gestion des connaissances pour ses trois tutelles que sont le Museacuteum national drsquohistoire naturelle ( MNHN ) lrsquoAgence Franccedilaise de la Biodiversiteacute et le CNRS

Issue drsquoun renforcement des eacutequipes du Service du patrimoine naturel cette uniteacute implanteacutee dans plusieurs sites du MNHN a pour objectif de fournir une expertise scientifique et technique sur la biodiversiteacute et la geacuteodiversiteacute franccedilaise au profit des politiques de connaissance et de conservation Cette mission nationale concerne la meacutetropole et lrsquooutre-mer ainsi que les theacutematiques terrestres et marines Elle est conduite en lien eacutetroit avec les partenaires impliqueacutes sur les enjeux de conservation et de protection de la nature En srsquoappuyant sur les reacutesultats issus des activiteacutes de recherche elle doit contribuer agrave faire eacutemerger des questions scientifiques et des besoins de connaissances partageacutees pour favoriser la prise en compte de la nature dans la socieacuteteacute

Agrave travers ses missions elle srsquoengage agrave diffuser former et sensibiliser les diffeacuterents publics sur les enjeux de biodiversiteacute et de preacuteservation de la nature

Ses trois principales missions concernent

bull La consolidation et la valorisation des donneacutees de biodiversiteacute de geacuteodiversiteacute et des collections naturalistes

LrsquoUMS srsquoattache agrave travailler avec les reacuteseaux naturalistes gestionnaires et de recherche pour deacutevelopper le partage des donneacutees les techniques informatiques et les meacutethodologies neacutecessaires agrave lrsquointeropeacuterabiliteacute des eacutechanges de donneacutees au niveau national et international Elle gegravere ainsi les bases de donneacutees nationales concernant les espegraveces les eacutecosystegravemes les espaces proteacutegeacutes et la geacuteodiversiteacute Elle participe eacutegalement agrave lrsquoidentification des besoins de connaissances naturalistes sur les diffeacuterents territoires La diffusion de cette information brute ou eacutelaboreacutee se fait au niveau national via deux portails principaux que sont lrsquoInventaire National du Patrimoine Naturel ( INPN ) et le GBIF-France pour les liens internationaux

bull La production et la diffusion de reacutefeacuterentiels de meacutethodes de protocoles et drsquoindicateurs

LrsquoUMS pilote ou participe aux travaux scientifiques de construction des reacutefeacuterentiels et bases de connaissance sur les espegraveces et les habitats qui sont neacutecessaires agrave la construction et la diffusion drsquoun savoir structureacute Cette structuration permet agrave lrsquoUMS drsquoagreacuteger ces informations nationales sur la nature ( inventaires eacutevaluations statuts reacuteglementaires etc ) afin de les valoriser par la production de cartes de synthegraveses et drsquoindicateurs drsquoeacutetat de la biodiversiteacute

bull Lrsquoappui scientifique aux politiques publiques et priveacutees en matiegravere drsquoenvironnement

LrsquoUMS apporte dans le cadre de polit iques publiques nationales des directives europeacuteennes sur la biodiversiteacute et des rapportages un appui pour lrsquoanimation technique et scientifique aux services de lrsquoEacutetat aux collectiviteacutes territoriales et aux eacutetablissements publics chargeacutes de la biodiversiteacute et des espaces naturels Elle apporte eacutegalement son expertise scientifique aupregraves des acteurs socio-eacuteconomiques qui mettent en place des actions en faveur de la biodiversiteacute dans leur politique environnementale en particulier dans le cadre de deacutemarche drsquoengagement dans la Strateacutegie nationale pour la biodiversiteacute

20

Livre Blanc sur les Donneacutees au CNRS Eacutetat des Lieux et Pratiques - 2018

225 Conclusion

La probleacutematique des donneacutees est centrale au sein de lrsquoINEE et couvre un tregraves large spectre de probleacutematiques Si un premier effort de recensement et de structuration a pu ecirctre meneacute au cours des derniegraveres anneacutees beaucoup de travail reste cependant agrave faire lrsquoenjeu fondamental eacutetant de promouvoir une veacuteritable laquo culture de la donneacutee raquo de la part des acteurs de la recherche en eacutecologie

En effet le deacuteveloppement drsquoune eacutecologie preacutedictive neacutecessite aujourdrsquohui de pouvoir rassembler ces donneacutees heacuteteacuterogegravenes par nature en un ensemble coheacuterent qui puisse ecirctre analyseacute de faccedilon robuste et reacutepeacutetable Il srsquoagit donc encore drsquoameacuteliorer la pertinence de la collecte des donneacutees dans une deacutemarche drsquoaller et retour entre theacuteorie et donneacutees ( cohabitation entre une eacutecologie theory-driven et data-driven )

Lrsquointeacutegration des donneacutees aux diffeacuterentes eacutechelles drsquoorganisation en eacutecologie reste aussi un enjeu Il srsquoagit maintenant de favoriser le dialogue entre disciplines non seulement entre sciences de la nature et sciences humaines et sociales mais aussi entre sciences de la nature matheacutematiques et sciences de lrsquoinformation

INEE

21

Livre Blanc sur les Donneacutees au CNRS Eacutetat des Lieux et Pratiques - 2018

23 INSTITUT DE PHYSIQUE ( INP )

231 Introduction

La probleacutematique des donneacutees prend plusieurs formes agrave lrsquoINP Celles-ci deacutependent du volume et de la nature des donneacutees Ces derniegraveres vont de quelques dizaines de meacutegaoctets geacuteneacutereacutes par une expeacuterience de laboratoire aux peacutetaoctets produits annuellement dans les TGIR de lrsquoinstitut en passant par les teacuteraoctets issus de simulations dans les grands centres de calcul nationaux ou ceux geacuteneacutereacutes sur la toile et les reacuteseaux sociaux Dans ce qui suit nous eacutevoquerons les questions qui se posent autour des donneacutees agrave lrsquoINP et certaines des solutions envisageacutees dans ces diffeacuterents contextes Nous proceacutederons par ordre deacutecroissant en commenccedilant par les TGIR ougrave la probleacutematique des donneacutees est particuliegraverement aiguumle puis par les grands centres de calcul nationaux les meacutesocentres et les laboratoires Nous terminerons avec quelques mots sur lrsquoimplication de lrsquoINP dans des projets sur les donneacutees de la Commission europeacuteenne

23 2 Les donneacutees dans les infrastructures synchrotrons neutrons et laser agrave eacutelectrons libres de lrsquoINP

Aujourdrsquohui la probleacutematique des grands volumes de donneacutees agrave lrsquoINP se pose de faccedilon particuliegraverement aiguumle dans ses tregraves grands instruments Il srsquoagit drsquoinfrastructures synchrotron neutron et laser agrave eacutelectrons libres certaines ayant une dimension europeacuteenne ou mecircme mondiale Ces infrastructures portent collectivement le nom de PaN pour

le CNRS sont les synchrotrons SOLEIL ( httpwwwsynchrotron-SOLEILfr ) et ESRF ( httpwwwesrfeu ) les infrastructures de diffusion neutronique ILL ( httpwwwilleu ) et Orpheacutee ( httpwww-centre-saclayceafrfrReacteur-Orphee ) et dans le futur lrsquoESS ( httpseuropeanspallationsourcese ) ainsi que depuis peu le laser agrave eacutelectrons libres X-FEL ( httpswwwxfeleu )

Le degreacute drsquoimplication du CNRS dans ces infrastructures et leur statut national ou international sont deacutetailleacutes dans le tableau (p 24) Bien que ces instruments soient ouverts agrave toutes les communauteacutes scientifiques et le sont pour la plupart agrave lrsquointernational crsquoest lrsquoINP qui est leur interlocuteur pour le CNRS Par ailleurs cette diversiteacute drsquoutilisateurs et de pratiques scientifiques fait de ces infrastructures de tregraves inteacuteressants laboratoires pour la gestion et le traitement de donneacutees et des modegraveles pour ce qui pourrait ecirctre fait au niveau de lrsquoINP et plus geacuteneacuteralement du CNRS

SOLEIL

Instruments agrave lrsquoILL

ESRF

22

Livre Blanc sur les Donneacutees au CNRS Eacutetat des Lieux et Pratiques - 2018

Face au fort accroissement du volume des donneacutees geacuteneacutereacutees et la diversiteacute croissante des utilisateurs les infrastructures PaN ont mis en place entre 2008 et 2010 une collaboration europeacuteenne sur les donneacutees nommeacutee laquo PaNdata raquo Elle concerne treize instruments europeacuteens avec pour objectif drsquoeacutetablir une infrastructure commune aux installations PaN qui permet un accegraves commun aux donneacutees et agrave des outils drsquoanalyse et de partage de donneacutees

Sur 2010-2011 cette collaboration a eacuteteacute soutenue par une action de support de lrsquoUnion europeacuteenne laquo PaNdata Europe raquo comprenant des ateliers autour de la standardisation des formats de lrsquoeacutechange drsquoinformation sur les utilisateurs de lrsquointeropeacuterabiliteacute des logiciels drsquoanalyse du reacutefeacuterencement des reacutesultats et de la politique des donneacutees

Srsquoen est suivi un projet INFRA de la Commission PaNdata Open Data Infrastructure ( ODI ) Celui-ci a permis la mise en place drsquoun systegraveme drsquoidentification commun nommeacute laquo Umbrella raquo pour six des treize installations Il a eacutegalement meneacute au choix drsquoun format binaire commun des donneacutees NeXusHDF5 et drsquoun systegraveme de gestion des meacutetadonneacutees laquo ICAT raquo utiliseacute dans trois des infrastructures

INP

23

Livre Blanc sur les Donneacutees au CNRS Eacutetat des Lieux et Pratiques - 2018

Afin de consolider ces avanceacutees et de preacuteparer lrsquoavenir en 2015 le projet laquo PaNDaaS raquo ( data analysis as a service ) a eacuteteacute proposeacute dans le cadre de lrsquoappel INFRADEV-4 de la Commission Plus preacuteciseacutement ce projet de 12 millions drsquoeuros avec vingt partenaires et porteacute par lrsquoESRF avait pour but de proposer aux utilisateurs des infrastructures PaN une plateforme mateacuterielle et logicielle unifieacutee permettant lrsquoanalyse la visualisation et la navigation au travers des donneacutees geacuteneacutereacutees par les instruments sur site ou agrave distance La solution envisageacutee eacutetait de type laquo cloud raquo avec appel possible agrave des infrastructures commerciales Le projet nrsquoa pas eacuteteacute retenu Toutefois un certain nombre des activiteacutes preacutevues dans ce projet continuent agrave avancer sur fonds propres

Parmi celles-ci lrsquoILL megravene lrsquoeffort de mise en place drsquoune politique des donneacutees Une telle politique est devenue indispensable pour la visibiliteacute des TGIR En 2013 lrsquoILL a deacuteployeacute un ensemble complet de services des donneacutees accessible aux utilisateurs au travers drsquoune interface web

Ces services permettent la recherche lrsquoaccegraves lrsquoannotation lrsquoarchivage lrsquoidentification et la publication des donneacutees La mise en place de cette politique a pris cinq ans pour des raisons eacutevoqueacutees ci-dessous Elle est baseacutee sur le cadre donneacute par PaNData selon lequel lrsquoinfrastructure est responsable de la preacuteservation des donneacutees geacuteneacutereacutees sur ses instruments Drsquoautre part gracircce agrave une collaboration avec DataCite et lrsquoINIST les donneacutees brutes sont indexeacutees par un DOI ( Digital Object Identifier ) propre avec un lien sur les scientifiques qui les ont geacuteneacutereacutees au travers drsquoun Research ID drsquoORCID Les meacutetadonneacutees instrumentales sont automatiquement ajouteacutees aux donneacutees brutes par lrsquointerface De plus cette interface relie les projets aux donneacutees et fournit aux utilisateurs des e-logbooks qui permettent de preacuteciser les conditions de lrsquoexpeacuterience et drsquoannoter les donneacutees Le systegraveme fournit une archive centrale en ligne organiseacutee par projet instrument et dates avec un accegraves initialement controcircleacute Les utilisateurs peuvent rendre leurs donneacutees publiques agrave tout moment et doivent le faire dans les trois ans sauf exception accordeacutee par la direction de

Synthegravese des TGIR PaN de lrsquoINP du volume de donneacutees geacuteneacutereacute et de leur politique des donneacutees

24

Livre Blanc sur les Donneacutees au CNRS Eacutetat des Lieux et Pratiques - 2018

lrsquoinfrastructure Elles deviennent alors accessibles au travers drsquoun portail qui les relient aux meacutetadonneacutees logs DOIs etc Elles sont utilisables sous les conditions de la licence CC-BY 40 Toute publication baseacutee sur ces donneacutees doit en citer le DOI et devrait agrave terme figurer dans lrsquoarchive avec ces donneacutees

La mise en place de cette politique des donneacutees a ducirc faire face agrave plusieurs difficulteacutes La premiegravere et peut-ecirctre la plus importante sont les habitudes et mentaliteacutes des utilisateurs qui conccediloivent ces donneacutees fruit de leurs ideacutees et de leur travail comme leur appartenant dans le sens ougrave ils veulent pouvoir les exploiter scientifiquement agrave plein avant de les rendre publiques On peut les comprendre Une autre difficulteacute a eacuteteacute drsquoassocier et de recevoir le soutien des nombreux organismes de recherche associeacutes agrave lrsquoILL Drsquoun point de vue plus technique la collecte drsquoarticles utilisant les donneacutees geacuteneacutereacutees au sein de lrsquoinfrastructure est compliqueacutee du fait des reacutefeacuterencements incomplets ou difficiles agrave identifier dans des recherches automatiseacutees ( p ex DOI des donneacutees inclus dans une figure ) et par le manque drsquooutils de collecte De faccedilon plus geacuteneacuterale une politique des donneacutees est un processus long agrave mettre en place et qui est ralenti par le temps de la science Neacuteanmoins les progregraves sont mesurables comme dans la figure ci-apregraves

A son tour LrsquoESRF mettra en place une politique des donneacutees tregraves similaire agrave celle de lrsquoILL sur toutes ses lignes expeacuterimentales agrave partir de 2020 Cette mise en place a un coucirct non neacutegligeable Par exemple la preacuteservation sur dix ans des donneacutees brutes requiert 100 keuroan de lecteurs et de bandes magneacutetiques suppleacutementaires De plus son implantation occupera 25 ETPsan sur quatre ans

Entre temps le service IT de lrsquoESRF a attaqueacute de front la probleacutematique PaNDaaS du fait de la forte exposition de lrsquoESRF aux gros volumes de donneacutees qui ne fera qursquoaugmenter avec la seconde phase du programme de modernisation de ses lignes qui se terminera en 2022 En effet le volume des donneacutees geacuteneacutereacute par les nouveaux instruments sera tel qursquoil ne sera plus possible de retourner au laboratoire avec ses donneacutees sur un disque Les donneacutees et les outils drsquoanalyse devront donc ecirctre au mecircme endroit Il sera aussi important de preacuteserver et de coupler le workflow des analyses avec les donneacutees elles-mecircmes afin de rendre lrsquoextraction des reacutesultats reproductible

INP

25

Livre Blanc sur les Donneacutees au CNRS Eacutetat des Lieux et Pratiques - 2018

Le but que poursuivent lrsquoESRF et ses collaborateurs PaN est de proposer un service complet allant des donneacutees agrave lrsquoanalyse qui comprend des moyens de calcul des logiciels et de lrsquoexpertise IT tout cela accessible au travers drsquoune interface web Les avantages sont de donner agrave des utilisateurs pas neacutecessairement experts en meacutethodes numeacuteriques non seulement lrsquoaccegraves agrave une infrastructure performante mais aussi agrave des outils drsquoanalyse homogegravenes et certifieacutes Cela permettra drsquoacceacuteleacuterer le processus drsquoanalyse mais aussi de faciliter la collaboration lors de ce processus ainsi que la preacuteservation du workflow Le tout renforcera eacutegalement lrsquoattractiviteacute de lrsquoinfrastructure de recherche Pour mener cette vision agrave terme lrsquoESRF aura investi 3 millions drsquoeuros en ressources humaines entre 2015 et 2020

Lrsquoapproche suivie par lrsquoESRF est de recruter des ingeacutenieurs logiciels pour deacutevelopper une bibliothegraveque qui implante des fonctionnaliteacutes communes agrave de nombreux types drsquoanalyses et de construire les applications scientifiques au-dessus en Open Source sous licence GSL au sein de collaborations geacutereacutees agrave travers Github La vision du service DaaS de lrsquoESRF est illustreacutee par le graphique ci-dessous

Pour conclure sur les TGIR de lrsquoINP les scientifiques du CNRS geacutenegraverent ~800 Toan de donneacutees sur ces instruments un chiffre qui croicirct drsquoanneacutee en anneacutee et de faccedilon encore plus significative avec la modernisation en cours des lignes de SOLEIL et de lrsquoESRF et le deacutemarrage drsquoE-XFEL Malgreacute lrsquoeacutechec en 2015 de la demande INFRADEV-4 laquo PaNDaaS raquo et les nombreux challenges poseacutes par la quantiteacute de donneacutees geacuteneacutereacutees par la varieacuteteacute des instruments et par la diversiteacute des pratiques des communauteacutes qui les utilisent le travail neacutecessaire autour de la probleacutematique de lrsquoorganisation du stockage de la mise agrave disposition et de lrsquoanalyse des donneacutees des infrastructures PaN se poursuit avec succegraves sous lrsquoinitiative efficace de lrsquoESRF de lrsquoILL de SOLEIL et de leurs collaborateurs Ce travail demande des moyens humains et informatiques ainsi qursquoun soutien institutionnel en prioriteacute en ce qui concerne les aspects de proprieacuteteacute intellectuelle

Le CNRS fort de sa multidisciplinariteacute et de sa preacutesence dans ces TGIR pourrait contribuer de plusieurs faccedilons agrave cet effort Le CNRS au travers de projets type Mastodons de la Mission pour lrsquointerdisciplinariteacute etou de Groupements de recherche pourrait encourager la collaboration de scientifiques de diffeacuterents domaines autour de

26

Livre Blanc sur les Donneacutees au CNRS Eacutetat des Lieux et Pratiques - 2018

lrsquoameacutelioration des algorithmes utiliseacutes dans lrsquoanalyse de donneacutees synchrotron par exemple sur le modegravele de CAMERA ( httpwwwcameralblgov ) aux Eacutetats-Unis Plus concregravetement le CNRS pourrait financer des postes ou mois drsquoingeacutenieur pour deacutevelopper des logiciels de traitement de donneacutees synchrotron tels XSOCS ( httpssourceforgenetprojectsxsocs ) Il pourrait eacutegalement donner accegraves agrave des moyens informatiques de type cloud agrave ces TGIR au travers par exemple drsquoun accord avec le CC-IN2P3 ou France Grilles De surcroicirct agrave lrsquoavenir le CNRS pourrait ecirctre le moteur derriegravere la creacuteation drsquoune archive Open Data et le deacuteveloppement drsquoun portail Open Science tel que le Centre de Donneacutees astronomiques de Strasbourg ( httpcdswebu-strasbgfr ) auxquelles les TGIR PaN participeraient

Outre les retours en termes de science aupregraves des TGIR PaN ces expeacuteriences dans lrsquoorganisation le stockage la mise agrave disposition et lrsquoanalyse des donneacutees dans un environnement de diversiteacute drsquoutilisateurs et de

pratiques scientifiques qui restent neacuteanmoins limiteacutees aux probleacutematiques PaN pourraient servir de tremplin agrave la mise en place drsquoune politique de la conservation et de lrsquoexploitation des donneacutees au CNRS

234 Les donneacutees de lrsquoINP dans les centres de calcul nationaux

Si on se place au niveau des centres nationaux de calcul les projets de physique ( CT 5 et 9 ) geacutenegraverent et utilisent au moins temporairement beaucoup de donneacutees avec un total de lrsquoordre de 500 To eacutequivalent au climat hors CMIP6 ( CT1 ) et supeacuterieur agrave lrsquoastrophysique et agrave la geacuteophysique ( CT 4 ) cf figures ci-dessous qui rapportent la quantiteacute de donneacutees preacutesentes sur les disques de travail en feacutevrier 2015 sur les deux calculateurs de lrsquoIDRIS

Donneacutees non peacuterennes agrave lrsquoIDRIS ($WORKDIR)

INP

27

Livre Blanc sur les Donneacutees au CNRS Eacutetat des Lieux et Pratiques - 2018

Neacuteanmoins une grande partie de ces donneacutees ne sont neacutecessaires que dans des eacutetapes intermeacutediaires des calculs ou alors sont preacuteserveacutees ailleurs En effet si lrsquoon considegravere les donneacutees conserveacutees agrave long terme sur bandes magneacutetiques agrave lrsquoIDRIS les physiciens sont des utilisateurs moyens et se retrouvent loin derriegravere les climatologues avec plus de 300 To sur bandes comme lrsquoindique la figure suivante

Pour analyser cette situation de plus pregraves nous prenons comme exemple dans le CT 5 la QCD sur reacuteseau dont les objectifs sont

bull Deacuteterminer les proprieacuteteacutes fondamentales de ces constituants eacuteleacutementaires que sont les quarks

bull Calculer les nombreuses proprieacuteteacutes des protons neutrons et autres hadrons

bull Aider agrave reacuteveacuteler de nouvelles particules eacuteleacutementaires etou interactions fondamentales

bull Agrave plus long terme calculer les proprieacuteteacutes de noyaux atomiques ab initio

Lrsquoapproche consiste agrave reacutesoudre numeacuteriquement les eacutequations de la chromodynamique quantique ( QCD ) parfois coupleacutees agrave celles de lrsquoeacutelectrodynamique quantique ( QED ) dans leur reacutegime hautement non lineacuteaire Une telle approche induit de gros calculs massivement parallegraveles sur des infrastructures nationales et internationales En France 2 eacutequipes contribuent agrave cet effort mondial

bull La European Twisted Mass collaboration ( LPT Orsay LPC Clermont )

bull La Budapest-Marseille-Wuppertal collaboration ( CPT Marseille SPhN Saclay )

Donneacutees preacuteserveacutees sur bandes magneacutetiques agrave lrsquoIDRIS

28

Livre Blanc sur les Donneacutees au CNRS Eacutetat des Lieux et Pratiques - 2018

Du point de vue des donneacutees dans cette activiteacute de recherche ces collaborations repreacutesentent aujourdrsquohui

bull $WORKDIR

o Typiquement 10 To sur Turing

o ETMC pic agrave 23 Po en post-traitement au CC-IN2P3

bull Sauvegarde laquo peacuterenne raquo

o ETMC ~130 To au CC-IN2P3

o BMWc ~50 To au FZ Julich

Il est important de noter que dans ce domaine drsquoactiviteacute des donneacutees acircgeacutees de plus drsquoenviron cinq ans sont pour la plupart obsolegravetes et il devient plus facile de les recalculer si on en a vraiment besoin Bien sucircr il en va autrement pour les donneacutees expeacuterimentales obtenues aupregraves drsquoacceacuteleacuterateurs qui elles ne sont geacuteneacuteralement pas faciles agrave reproduire

Un certain nombre des donneacutees obtenues en QCD sur reacuteseau sont partageacutees au travers de lrsquoInternational Lattice Data Grid ( ILDG ) avec des formats et des meacutetadonneacutees standardiseacutes des protocoles et outils drsquoeacutechange entre grilles reacutegionales et enfin des catalogues sur les grilles reacutegionales Il srsquoagit principalement des configurations de jauge qui sont agrave la base de tout calcul en QCD sur reacuteseau et qui reacutesultent drsquoun processus markovien coucircteux numeacuteriquement

Dans ce domaine on peut eacutegalement faire une projection sur les besoins en matiegravere de donneacutees agrave lrsquoavenir

bull Pour les eacutetudes dont la vocation est la deacutetermination des proprieacuteteacutes fondamentales des quarks les calculs de proprieacuteteacutes de hadrons ou lrsquoaide agrave la reacuteveacutelation drsquoune nouvelle physique fondamentale on anticipe une croissance modeacutereacutee absorbeacutee par le renouvellement des infrastructures de calcul intensif

bull Par contre en ce qui concerne lrsquoeacutetude ab initio des noyaux atomiques qui nrsquoest actuellement qursquoau niveau de balbutiements la croissance du volume des donneacutees sera potentiellement exponentielle dans 5 agrave 10 ans

235 Les donneacutees dans les laboratoires de lrsquoINP

En mars 2015 la DIST a publieacute les reacutesultats drsquoune enquecircte aupregraves des Directrices et Directeurs drsquouniteacutes du CNRS concernant les usages et les besoins drsquoinformation scientifique et technique des laboratoires En srsquoappuyant sur cette enquecircte ainsi que sur des consultations au sein de lrsquoINP nous avons tireacute les conclusions suivantes concernant les donneacutees dans les laboratoires de lrsquoINP

bull Les eacutequipes dans les laboratoires de lrsquoINP engendrent des donneacutees drsquoexpeacuterience et de simulation avec des volumes geacuteneacuteralement geacuterables au niveau local

bull Les eacutequipes de lrsquoINP peuvent aussi contribuer agrave geacuterer des bases de donneacutees par exemple en physique atomique et moleacuteculaire ( typiquement sur un site web un serveur de laboratoire ou un serveur international )

bull Les donneacutees sont geacuteneacuteralement sous la responsabiliteacute des eacutequipes qui les produisent

bull Il y a peu de financements externes lieacutes agrave la gestion de ces donneacutees

bull Peu de demandes eacutemanent des laboratoires sur les donneacutees ( beaucoup plus sur le calcul )

bull Tregraves peu de laboratoires ont un plan de gestion de donneacutees

bull Sur certains sites geacuteographiques il y a une participation minoritaire agrave la mutualisation des infrastructures de donneacutees par exemple dans les salles informatiques du datacentre Virtual Data du LabEx P2IO ( Paris-Saclay ) et au Dark Energy Data Center du LabEx OCEVU ( MarseilleMontpellierToulouse )hellip

bull Il nrsquoy a pas encore de politique sur la gestion des donneacutees dans les laboratoires ni de mutualisation au niveau de lrsquoinstitut

INP

29

Livre Blanc sur les Donneacutees au CNRS Eacutetat des Lieux et Pratiques - 2018

Il y a neacuteanmoins des theacutematiques eacutemergentes dans les laboratoires de lrsquoINP qui pourraient ecirctre confronteacutees agrave la probleacutematique du Big Data telle qursquoelle apparaicirct en lien avec par exemple les reacuteseaux sociaux En effet de petites eacutequipes ( au CPT agrave Marseille ou agrave lrsquoIXXI de Lyon ) eacutetudient les donneacutees de reacuteseaux sociaux ( p ex Twitter ) avec pour but par exemple de comprendre diffeacuterents comportements humains agrave lrsquoaide drsquooutils de physique et de lrsquointelligence artificielle ( p ex analyse des dialectes espagnols ) Dans ce genre drsquoeacutetude on procegravede typiquement agrave lrsquoanalyse de 10-20 To de donneacutees de flux de reacuteseau social qui doivent ecirctre laquo filtreacutees raquo agrave lrsquoaide de fermes de PCs de type Hadoop Les quelques Go de donneacutees obtenues peuvent ensuite ecirctre analyseacutes en local

Dans ce domaine les volumes de donneacutees ont une croissance exponentielle qursquoil sera difficile de suivre Un besoin drsquoacceacuteder agrave des fermes de PCs de type Hadoop se manifeste ainsi qursquoun besoin de formation dans lrsquoutilisation de techniques de data mining et dans la gestion de systegravemes Hadoop La possibiliteacute drsquoutiliser des plateformes commerciales ( Amazon Numergy Cloudwatt ) est une possibiliteacute Ces theacutematiques de recherche sont plus reacutepandues dans drsquoautres instituts ( INS2I INSHS ) et il est souhaitable que les solutions agrave ces challenges soient envisageacutees avec ces instituts

236 Participation aux initiatives europeacuteennes sur les donneacutees

Au travers de lrsquoimplication de ses chercheurs dans les activiteacutes du Centre Europeacuteen de Calcul Atomique et Moleacuteculaire ( CECAM ) lrsquoINP participe au Centre of Excellence for Computing Applications ( CoE ) E-CECAM ( httpswwwe-cam2020eu ) qui a pour vocation la creacuteation de codes modulaires open source la formation de jeunes scientifiques et de personnels de lrsquoindustrie dans le deacuteveloppement et lrsquoutilisation de logiciels deacutedieacutes et le conseil au monde industriel dans les domaines de la structure eacutelectronique la dynamique quantique et moleacuteculaire et la modeacutelisation multi-eacutechelles Par contre il est regrettable que lrsquoimplication de ses chercheurs dans des initiatives telles que le CoE NoMad ( Novel Material Discovery httpsnomad-coeeu ) soit tregraves faible alors qursquoil srsquoagit de mettre en place un dispositif pour heacuteberger organiser et partager agrave lrsquoeacutechelle internationale les donneacutees et reacutesultats de calculs et de simulations en physique et chimie des mateacuteriaux

237 Conclusions

La probleacutematique des donneacutees agrave lrsquoINP se pose surtout au travers des TGIR PaN Geacutereacutees par lrsquoINP ces infrastructures servent des communauteacutes qui vont bien au-delagrave de lrsquoINP et de la France

De gros efforts drsquoharmonisation et de mise en place drsquoune politique des donneacutees et de mutualisation ont eacuteteacute effectueacutes ( PaNdata PaNDaaS ) mais nrsquoempecircchent pas drsquoecirctre confronteacutes agrave diverses difficulteacutes Devant lrsquoaccroissement des donneacutees ces efforts deviennent incontournables Ils pourraient aussi servir de base au deacuteveloppement drsquoune politique de la conservation et de lrsquoexploitation des donneacutees au niveau du CNRS

Drsquoun point de vue stockage de donneacutees sur disques dans les centres de calcul nationaux lrsquoINP occupe de lrsquoordre de 200 Toctets par site en scratch et en laquo peacuterenne raquo le rapport entre Toctets engendreacutes et volume de calcul eacutetant petit Dans les meacutesocentres le stockage des donneacutees INP ne semble pas ecirctre un problegraveme important Au niveau des laboratoires les donneacutees sont geacutereacutees par les eacutequipes qui les geacutenegraverent et qui les utilisent

Il nrsquoy a pas encore de politique des donneacutees de lrsquoINP vis-agrave-vis des donneacutees dans les laboratoires la demande nrsquoeacutetant pas particuliegraverement forte LrsquoINP participe au travers de petites eacutequipes agrave lrsquoexploitation de grandes masses de donneacutees sociales meacutedicales etc en appliquant des meacutethodes de modeacutelisation en partie issues de la physique mais pour lrsquoinstant de faccedilon minoritaire

Drsquoautre part LrsquoINP participe aux deacutefis de la Mission pour lrsquointerdisciplinariteacute sur les donneacutees ( p ex Mastodons ) et au GDR MaDICS mais cela reste marginal aussi

30

Livre Blanc sur les Donneacutees au CNRS Eacutetat des Lieux et Pratiques - 2018

24 INSTITUT DES SCIENCES BIOLOGIQUES ( INSB )

241 Introduction

Crsquoest lrsquoassociation de biologistes comme James Watson de chimistes et de physiciens comme R Franklin et F Crick qui a permis de comprendre en 1953 les bases du fonctionnement de lrsquoADN support de lrsquoinformation geacuteneacutetique entraicircnant une premiegravere reacutevolution celle de la biologie moleacuteculaire La deuxiegraveme reacutevolution celle de la geacutenomique a commenceacute au milieu des anneacutees 1990 et a eacuteteacute marqueacutee par le seacutequenccedilage du geacutenome humain un code de plus de 3 milliards de lettres Ce succegraves a neacutecessiteacute des deacuteveloppements technologiques consideacuterables dans les domaines de la physique de lrsquoeacutelectronique de lrsquoinformatique de la chimie et de la biologie

Pour reacutepondre aux besoins de stockage et drsquoanalyse des seacutequences biologiques ( composeacutees drsquoune succession de 4 nucleacuteotides A C G T pour les seacutequences nucleacuteiques et drsquoune succession de 20 acides amineacutes pour les seacutequences proteacuteiques ) les premiegraveres collections de donneacutees en biologie sont apparues sous la forme de livres ( Atlas of Protein Sequences de Dayhoff et al ( 1965-1978 ) Nucleic Acid Sequences Handbook de Gautier et al ( 1981 ) qui contenait 1095 seacutequences et 525506 nucleacuteotides ) puis de banques de donneacutees informatiseacutees au deacutebut des anneacutees 1980 Trois grands centres se chargent de la collecte des seacutequences nucleacuteiques aux Etats-Unis Los Alamos Sequence Database puis GenBank ( depuis 1979 ) au Japon DNA Data Bank of Japan - DDBJ ( depuis 1984 ) et en Europe European Molecular Biology Laboratory Sequence Database - EMBL-Bank ( depuis 1981 ) Ces banques de donneacutees ont un format de donneacutees qui leur est propre mais une collaboration internationale a eacuteteacute mise en place afin drsquoassurer que le contenu de ces ressources soit pratiquement identique Les seacutequences proteacuteiques quant agrave elles ont eacuteteacute reacutepertorieacutees au NCBI ( National Center for Biotechnology Information Etats-Unis ) dans la PIR ( Protein Information Resource - 1984-2004 ) Aujourdrsquohui une seule ressource est maintenue en Europe UniProt dont la fraction contenant des donneacutees laquocureacuteesraquo Swiss-Prot est prise en charge par lrsquoInstitut Suisse de Bioinformatique ( SIB )

La bioinformatique a eacutemergeacute avec la disponibiliteacute des premiegraveres seacutequences proteacuteiques Lrsquoarticle fondateur de Zukerkandl et Pauling ( 1965 ) preacutesente des analyses informatiques etou matheacutematiques et statistiques sur des seacutequences biologiques pour reconstituer lrsquohistoire eacutevolutive des ecirctres vivants Le terme laquobioinformatiqueraquo srsquoest populariseacute dans les anneacutees 1990 autour de la deacutefinition suivante informatique appliqueacutee agrave la biologie Il srsquoagit de lrsquoensemble des meacutethodes informatiques permettant de ( i ) geacuterer les donneacutees produites en masse par la biologie ( ii ) analyser ces donneacutees brutes pour en extraire de lrsquoinformation ( iii ) organiser et structurer cette information ( iv ) infeacuterer des connaissances biologiques ( agrave lrsquoaide de modegraveles et de theacuteories ) agrave partir des informations stockeacutees dans des collections et ( v ) eacutenoncer des hypothegraveses geacuteneacuteralisatrices et de formuler des preacutedictions En pratique les theacutematiques principales de la bioinformatique sont les suivantes

bull Lrsquoanalyse des seacutequences ( ADN ou proteacuteines ) annotation des geacutenomes phylogeacutenie et eacutevolution geacutenomique comparative analyse de variants dans le cadre de maladies geacuteneacutetiques geacutenomique du cancer

bull Les donneacutees drsquoexpression ( ARN et proteacuteines )

bull La structure des macromoleacutecules ( ARN et proteacuteines )

bull Les reacuteseaux de reacutegulation et lrsquoanalyse du meacutetabolisme

bull La meacutetageacutenomique et meacutetabarcoding

bull Lrsquoanalyse drsquoimages

On assiste agrave un changement drsquoeacutechelle en biologie depuis une dizaine drsquoanneacutees et la biologie est entreacutee avec lrsquoavegravenement des approches ndashomiques ( cf 242 ) dans lrsquoegravere du Big Data En effet le deacuteveloppement des technologies agrave haut deacutebit permet par exemple de collecter les donneacutees agrave lrsquoeacutechelle de la cellule entiegravere et drsquoenvisager une deacutemarche encyclopeacutedique en collectant tous les gegravenes tous les transcrits toutes les proteacuteines toutes les interactions tous les meacutetabolites et les flux etc Les conseacutequences sont consideacuterables tant pour notre compreacutehension du vivant que pour les applications

INSB

31

Livre Blanc sur les Donneacutees au CNRS Eacutetat des Lieux et Pratiques - 2018

Nous pouvons maintenant aborder la complexiteacute du vivant non plus uniquement de maniegravere analytique mais de maniegravere globale agrave lrsquoeacutechelle des dizaines de milliers de macromoleacutecules qui interagissent entre elles pour faire fonctionner une cellule un tissu un organisme entier une communauteacute drsquoorganismes La gestion et lrsquoanalyse de ces gros volumes de donneacutees geacuteneacutereacutees par la biologie est donc un enjeu majeur

242 La probleacutematique des donneacutees agrave lrsquoINSB

Lrsquoavegravenement des approches -omiques ( transcriptomique geacutenomique proteacuteomique et meacutetabolomique ) a tregraves largement contribueacute agrave lrsquoacquisition de connaissances sur les organismes vivants aussi bien modegraveles que non modegraveles Depuis 2007 nous assistons au deacuteveloppement de nouvelles technologies de seacutequenccedilage agrave tregraves haut deacutebit ( NGS Next Generation Sequencing ) qui permettent de produire drsquoimportantes quantiteacutes de seacutequences drsquoADN et ARN

De fait la taille des geacutenomes seacutequenceacutes est extrecircmement variable le plus petit geacutenome ( non viral ) connu est Carsonella ruddii 016 Mbp ( millions or mega of base pairs ) et le plus grand Amoeba dubia une amibe microscopique qui preacutesente un geacutenome 100 fois plus gros que le geacutenome humain ( 675 Giga base pairs )

Une eacutetape preacutealable au seacutequenccedilage des geacutenomes drsquoorganismes vivants consiste agrave deacutecouper ces derniers en millions de fragments ( shotgun sequencing ) La taille des lectures varie de 35 bp jusqursquoagrave 2 x 200 bp pour les seacutequenceurs de 2egraveme geacuteneacuteration ( seacutequences courtes mais de tregraves bonne qualiteacute ) et de 14 kbp agrave 47 kbp pour les seacutequenceurs de 3egraveme geacuteneacuteration ( seacutequences beaucoup plus longues mais contenant un taux drsquoerreur autour de 10 aujourdrsquohui ) Un run de seacutequenccedilage produit 3 milliards de lectures apparieacutees de 2 x 100 bp soit 600 Gbp qui repreacutesentent 48 To de donneacutees laquo brutes raquo et environ 10 To avec les meacutetadonneacutees Les coucircts de seacutequenccedilage sont passeacutes de 10 000 $ agrave 003 $ par million de nucleacuteotides seacutequenceacutes Alors que la croissance de la banque geacuteneacuteraliste EMBL a doubleacute sa taille tous les 187 mois La deacutecroissance du coucirct de seacutequenccedilage nrsquoest plus proportionnelle depuis 2007 agrave la deacutecroissance exponentielle des coucircts de stockage et drsquoanalyse informatique ( loi de Moore )

32

Livre Blanc sur les Donneacutees au CNRS Eacutetat des Lieux et Pratiques - 2018

Ces deux facteurs induisent de multiples problegravemes Des fichiers de donneacutees de plusieurs dizaines ( voire plusieurs centaines ) de Go contenant des dizaines de millions de seacutequences sont geacuteneacutereacutes et engendrent des problegravemes de transfert de stockage et des traitements gourmands en meacutemoire vive espace disque et temps de calcul Il y a donc de plus en plus une neacutecessiteacute impeacuterative drsquoutiliser des clusters de calcul ( meacutesocentres CC-IN2P3 IDRIS CCRT ) Drsquoautre part de moins en moins de seacutequences effectivement produites dans les laboratoires sont soumises aux banques de donneacutees publiques En conseacutequence les trois collections geacuteneacuteralistes ne sont plus exhaustives et lrsquoon assiste agrave un foisonnement de collections locales et de banques de donneacutees speacutecialiseacutees qui pose seacuterieusement la question de la dureacutee de validiteacute de ces systegravemes Au niveau europeacuteen la mise en place

drsquoELIXIR a eacuteteacute une reacuteponse aux difficulteacutes croissantes de lrsquoEBI ( European Bioinformatics Institute ) agrave geacuterer toutes ces donneacutees Il srsquoagit drsquoune initiative lanceacutee en 2007 dans le cadre du programme ESFRI ( infrastructures de recherche europeacuteennes ) lrsquoinfrastructure ELIXIR est constitueacutee drsquoun hub central et de nœuds associeacutes ( 23 pays partenaires aujourdrsquohui ) Les biologistes sont noyeacutes sous une avalanche de donneacutees On estime que lrsquoon passe aujourdrsquohui 25 du temps agrave engendrer les donneacutees et 75 du temps agrave les analyser Aux donneacutees de seacutequences geacutenomiques viennent tout naturellement srsquoajouter celles geacuteneacutereacutees par drsquoautres technologies -omiques transcriptomique proteacuteomique meacutetabolomique structuromique et les donneacutees drsquoimages qui geacutenegraverent des quantiteacutes eacutenormes de donneacutees agrave des niveaux biologiques multiples

INSB

33

Livre Blanc sur les Donneacutees au CNRS Eacutetat des Lieux et Pratiques - 2018

Au niveau national le ministegravere a lanceacute en 2010 les premiers appels agrave projets du Plan drsquoInvestissement drsquoAvenir ( PIA ) qui doit entre autres doter la France de plusieurs grandes infrastructures drsquoenvergure nationale et tregraves compeacutetitives internationalement Les mots-cleacutes derriegravere ces infrastructures distribueacutees recouvrent la mutualisation un service ouvert agrave la communauteacute et une expertise pointue dans une technologie du domaine en eacutemergence

bull France Geacutenomique ( FG ) est lrsquoinfrastructure de production de seacutequences geacutenomiques ( ADN ARN ) Les ordres de grandeur des technologies de seacutequenccedilage ont eacuteteacute donneacutes ci-dessus Les donneacutees des appels agrave grands projets de FG sont geacuteneacuteralement traiteacutees au CCRT ougrave lrsquoeacutecosystegraveme neacutecessaire aux traitements bio-informatiques a eacuteteacute mis en place ( cf ci-dessous )

bull ProFI produit des donneacutees de proteacuteomique la volumeacutetrie associeacutee agrave chaque eacutetude est de lrsquoordre de quelques centaines de Mo qui multiplieacutes par le nombre drsquoeacutetudes meneacutees simultaneacutement repreacutesente de lrsquoordre de 100 To mobiliseacutes

bull FRISBI est une infrastructure deacutedieacutee agrave la biologie structurale inteacutegrative dont les besoins informatiques relegravevent surtout du temps de calcul ( programmes de dynamique moleacuteculaire qui peuvent ecirctre exeacutecuteacutes dans les grands centres de calcul nationaux )

bull MetaboHUB produit des donneacutees de meacutetabolomique et de fluxomique chaque plateforme gegravere ses donneacutees ( environ 20 Toan ) de faccedilon diffeacuterente et opportuniste

bull France-BioImaging produit des donneacutees drsquoimages dans un large panel de modegraveles biologiques ( de la cellule unique au petit animal en condition pathologique ) Les diffeacuterents nœuds de lrsquoinfrastructure produisent annuellement 2 Peacutetaoctets de donneacutees avec des donneacutees par projet unitaire de 100 Go agrave 10 To Le flux de donneacutees neacutecessite de laisser les systegravemes de stockage au plus pregraves des systegravemes drsquoacquisition et des moyens de calcul Il est eacutegalement plus efficace de deacuteplacer les algorithmes et logiciels drsquoanalyse au plus pregraves des donneacutees France-BioImaging a deacuteveloppeacute une solution laquo pilote raquo open source de gestion des donneacutees images qui se precircte agrave cette infrastructure distribueacutee ( httpsstrandlsgithubioopenimadis )

Pour reacutepondre aux besoins bioinformatiques engendreacutes par ces quantiteacutes croissantes de donneacutees de nature tregraves diffeacuterente lrsquoInstitut Franccedilais de Bioinformatique ( IFB ) projet laureacuteat de la seconde vague des appels du PIA ( 2012-2019 ) a eacuteteacute mis en place en 2013 Il est

organiseacute en six centres reacutegionaux ( APLIBIO IFB-GO IFB-SO IFB-GS PRABI et IFB-NE ) qui sont des regroupements de plateformes et drsquoeacutequipes de recherche en bioinformatique et en un nœud national ( IFB-core ) qui a une structure de type UMS IFB-core est localiseacute aujourdrsquohui agrave lrsquoIDRIS ( Orsay ) qui heacuteberge aussi les moyens de calcul de lrsquoIFB Sa mission geacuteneacuterale est de fournir des ressources de base et des services en bio-informatique agrave la communauteacute des sciences de la vie autrement dit

bull Fournir un appui aux programmes de la communauteacute des sciences du vivant

bull Mettre agrave disposition une infrastructure informatique deacutedieacutee agrave la gestion et lrsquoanalyse des donneacutees biologiques

bull Agir comme un laquo intermeacutediaire raquo entre la communauteacute des sciences du vivant et celle de la recherche en ( bio )informatique

LrsquoIFB est le nœud franccedilais du reacuteseau europeacuteen ELIXIR et participe agrave de nombreuses actions et projets de cette infrastructure en termes de deacutefinition de standards et drsquoontologies de contribution agrave la FAIRication des donneacutees ( Findable Accessible Interoperable Reusable ) de mise en place de formation ( e-learning )

Dans sa nouvelle feuille de route lrsquoIFB a deacutecideacute de renforcer les liens avec les autres infrastructures ndashomiques ( c-agrave-d service agrave la communauteacute ) et de deacutevelopper un axe drsquoinnovation de laquo bioinformatique inteacutegrative raquo agrave travers la mise en place de projets pilotes transverses puis dans un second temps drsquoappels agrave deacutefis Le constat global est que le verrou majeur de la production scientifique et donc de sa compeacutetitiviteacute se situe largement du cocircteacute de la gestion de la diffusion et de lrsquointerpreacutetation des donneacutees geacuteneacutereacutees au sein de ces infrastructures LrsquoIFB a un rocircle majeur agrave jouer dans lrsquoaccompagnement de ces besoins en mettant au service de ces infrastructures ses ressources et savoir-faire dans le domaine des technologies du numeacuterique pour la biologie et la santeacute

LrsquoIFB va donc amplifier ces collaborations transversales au service des infrastructures productrices de donneacutees autour de trois axes

bull Mise en place de lrsquoinfrastructure de stockage distribueacute des donneacutees massives et leur mise agrave disposition

bull Mise en place de meacutethodes associeacutees de lrsquointeacutegration de ces donneacutees heacuteteacuterogegravenes et du data mining

34

Livre Blanc sur les Donneacutees au CNRS Eacutetat des Lieux et Pratiques - 2018

bull Deacuteveloppement drsquooutils drsquointerpreacutetation et de visualisation de donneacutees biologiques pour accroicirctre leur utiliteacute et faciliter leur interpreacutetation

Compareacute aux traitements des donneacutees en physique chimie sciences de la Terre etc le traitement des donneacutees biologiques ( notamment lrsquoanalyse des seacutequences ) revecirct plusieurs caracteacuteristiques tregraves diffeacuterentes qui expliquent lrsquoutilisation faible des grands centres de calcul nationaux par cette communauteacute ( i ) beaucoup drsquoanalyses de donneacutees sont distribuables ( paralleacutelisables au niveau les donneacutees ) ( ii ) elles neacutecessitent des enchaicircnements de traitements diffeacuterents ( pipelines workflows ) lrsquoutilisation de collections de donneacutees reacuteguliegraverement mises agrave jour et lrsquointeacutegration de donneacutees heacuteteacuterogegravenes ( iii ) dans la pratique une grande varieacuteteacute de langages est utiliseacutee ( Perl Python Java ) et les nombreux logiciels employeacutes ( c-agrave-d 98 logiciels drsquoalignement de lectures sur un geacutenome ) ont souvent beaucoup de deacutependances ( bibliothegraveques versions ) Typiquement une plateforme de bio-informatique met agrave disposition plusieurs centaines de logiciels diffeacuterents La mise en œuvre de ces logiciels neacutecessite le deacuteveloppement drsquointerfaces conviviales ( web GUI ) de suivre lrsquoeacutevolution tregraves rapide des technologies de production de donneacutees et de mettre agrave jour de faccedilon tregraves reacuteguliegravere de nombreuses collections de donneacutees

A titre drsquoillustration la premiegravere version de la banque de donneacutees de familles de domaines proteacuteiques ProDom a eacuteteacute distribueacutee en 1994 en utilisant comme source primaire de donneacutees celles de la banque UniProtKB ( Swiss-Prot + TrEMBL ) La construction de ProDom srsquoeffectue en deux temps geacuteneacuteration des familles proprement dites puis post-traitements et annotation des familles La construction des familles srsquoeffectue par clustering de segments homologues de proteacuteines Initialement les traitements reposaient sur MkDom2 un algorithme reacutecursif en O( n2 ) baseacute sur lrsquoutilisation du programme PSI-BLAST ProDom en 2002 neacutecessitait 2 mois de temps CPU puis 15 mois en 2006 pour passer agrave plus de 20 anneacutees de temps CPU en 2020 On voit bien ici la neacutecessiteacute de repenser la meacutethode en introduisant une paralleacutelisation des calculs et une compression des donneacutees A partir de lagrave un nouvel algorithme MPI-MkDom3 a eacuteteacute introduit avec diverses ameacuteliorations dont une paralleacutelisation agrave base de MPI La construction des familles de ProDom 2010 avec cette nouvelle version prend moins drsquoune semaine aujourdrsquohui au lieu de plus de 20 ans Les diverses optimisations reacutealiseacutees ont imposeacute entre autres de prendre en compte les probleacutematiques de lrsquoeacutequilibrage de charge entre les processeurs et ont conduit au deacuteveloppement de Paraload un outil drsquoeacutequilibrage de charge dynamique agrave base de modegravele client-serveur

Cette illustration constitue un exemple drsquoutilisation de donneacutees massives en biologie qui neacutecessite des temps de calcul tregraves importants et dont la valeur ajouteacutee provient des reacutesultats des calculs effectueacutes sur les donneacutees laquo brutes raquo que sont les seacutequences proteacuteiques

On peut ainsi constater que la bioinformatique a eu tendance par le passeacute agrave deacutevelopper ses propres infrastructures et affiche une faible utilisation des centres de calcul HPC ( excepteacute pour les simulations de dynamique moleacuteculaire ) De mecircme lrsquoutilisation des meacutesocentres reacutegionaux reste modeacutereacutee Cependant la communauteacute est consciente des difficulteacutes de passage agrave lrsquoeacutechelle des plateformes de bioinformatique et explore lrsquointeacuterecirct de lrsquoutilisation de la grille avec le projet GRISBI sur Grenoble et srsquoimplique dans le deacuteveloppement drsquoun Cloud acadeacutemique ( avec le soutien de lrsquoIBCP de GenOuest et de lrsquoIFB ) qui repose sur les infrastructures nationales de lrsquoIFB et les plateformes reacutegionales Ces plateformes de bioinformatique fournissent un accegraves gratuit agrave leurs infrastructures soit environ 10 000 cœurs et 1 Po de stockage ( sur 20 localisations diffeacuterentes ) alors que le nœud national de lrsquoIFB heacutebergeacute agrave lrsquoIDRIS apporte de lrsquoordre de 10 000 cœurs et 2 Po de stockage

243 Conclusion

Lrsquoensemble de la biologie est impacteacute par la disponibiliteacute des meacutethodes agrave haut deacutebit qui induisent des changements profonds dans les pratiques ( objectifs plans expeacuterimentaux ) Toute analyse neacutecessite deacutesormais de disposer de moyens de calcul conseacutequents ( validations statistiques ) qui doivent ecirctre disponibles aussi bien au niveau national que local

On assiste agrave un veacuteritable changement de paradigme au sein de la biologie avec un besoin deacutecroissant en techniciens sur les paillasses et croissant en analystes de donneacutees qui sont actuellement une denreacutee rare

Il y a obligation de deacutevelopper de nouvelles approches pour la gestion le partage et le traitement des donneacutees en franchissant le seuil de la paralleacutelisation des calculs et en travaillant sur la reacuteduction de la taille des jeux de donneacutees ( eacutechantillonnage compression clustering )

Du point de vue des infrastructures -omiques en compleacutement du rapprochement existant aupregraves de lrsquoinfrastructure national de lrsquoIFB il faudrait inciter les plateformes reacutegionales agrave srsquoappuyer plus fortement sur les meacutesocentres de calcul

INSB

35

Livre Blanc sur les Donneacutees au CNRS Eacutetat des Lieux et Pratiques - 2018

25 INSTITUT DES SCIENCES HUMAINES ET SOCIALES ( INSHS )

251 Introduction

Les donneacutees sont devenues au niveau international un facteur cleacute pour nombre de disciplines SHS ainsi qursquoun domaine en soi Les donneacutees sont une matiegravere convoiteacutee pour la recherche en SHS comme pour drsquoautres secteurs drsquoactiviteacute Produire diffuser tirer de la connaissance des donneacutees est donc une question strateacutegique pour lrsquoInSHS

LrsquoInSHS regroupe des disciplines dans lesquelles les analyses quantitatives baseacutees sur des jeux importants de donneacutees sont depuis longtemps fondamentales ( lrsquoeacuteconomie la sociologie la deacutemographie ) et drsquoautres qui sans ignorer lrsquousage des donneacutees ont vu de maniegravere plus reacutecente lrsquoeacutemergence de probleacutematiques propres au data driven ( litteacuterature histoire )

Une des caracteacuteristiques majeures de la donneacutee en SHS reacuteside dans la tregraves grande heacuteteacuterogeacuteneacuteiteacute des types de donneacutees utiliseacutes par les chercheurs qui vont des donneacutees agreacutegeacutees de la statistique publique jusqursquoagrave des corpus textuels ou drsquoimages en passant par les donneacutees individuelles et nominatives ou pour lrsquoarcheacuteologie par des donneacutees 3D

Cette heacuteteacuterogeacuteneacuteiteacute est renforceacutee par le fait que les chercheurs en SHS disposent de donneacutees de deux origines principales les donneacutees qursquoils ont produites par eux-mecircmes mais aussi de donneacutees produites par la socieacuteteacute comme les donneacutees fournies par la statistique publique ainsi que par le mouvement drsquoopen data ou les corpus fournis par les bibliothegraveques qui peuvent ecirctre interrogeacutes ou combineacutes de maniegravere novatrice

Lrsquoapparition de ces vastes corpus de sources par exemple archeacuteologiques artistiques ou textuelles ou la constitution de grandes bases de donneacutees donnant accegraves aux comportements personnels et sociaux des personnes dans une vaste gamme de domaines modifient en effet la maniegravere dont les chercheurs SHS abordent les objets scientifiques sur lesquels ils travaillent elles leur donnent accegraves agrave un ensemble drsquoinformations qui peuvent ecirctre fouilleacutees automatiquement et appareilleacutees les unes aux autres elles permettent de construire de nouvelles modaliteacutes de validation scientifique agrave cocircteacute des techniques fondeacutees sur lrsquoeacutechantillonnage lrsquoeacutetude de cas ou encore

la veacuterification drsquohypothegraveses ou de theacuteories construites indeacutependamment des donneacutees Ces nouvelles pratiques reacuteinterrogent les cateacutegorisations et grilles drsquoanalyse SHS en mecircme temps qursquoelles posent une seacuterie de questions de nature eacutethique degraves qursquoil srsquoagit de donneacutees individuelles

Cette datafication des sciences sociales et des humaniteacutes est un fait dont les implications ne sont pas toujours bien appreacutehendeacutees par les communauteacutes Elle impose des contraintes nouvelles reacuteflexion sur les standards plan de gestion des donneacutees promulgation de bonnes pratiques prise de recul meacutethodologique et eacutepisteacutemologique LrsquoInSHS agrave travers diffeacuterents dispositifs srsquoemploie agrave diffuser ces bonnes pratiques

Cela passe par un travail de diffusion des probleacutematiques des meacutethodologies lieacutees agrave lrsquousage des donneacutees au sein des diverses communauteacutes scientifiques Cela passe aussi par une articulation forte entre les dispositifs de production drsquoarchivage et de traitement des donneacutees et les communauteacutes scientifiques susceptibles de les utiliser en particulier par le biais de relais locaux sur les sites notamment par les MSH

252 Le dispositif des TGIR SHS

Pour reacutepondre agrave ces deacutefis eacuteviter la dispersion et lrsquoobsolescence des donneacutees produites accompagner les eacutequipes et les chercheurs lrsquoInSHS srsquoappuie sur les deux TGIR SHS dont le CNRS a eacuteteacute deacutesigneacute opeacuterateur par le MESRI la TGIR Huma-Num en charge des humaniteacutes numeacuteriques et la TGIR Progedo en charge de lrsquoaccegraves aux donneacutees de sciences sociales ( statistique publique donneacutees drsquoenquecirctes )

Les deux TGIR se situent agrave lrsquoarticulation des dispositifs europeacuteens de donneacutees en SHS et des dispositifs sur les sites destineacutes agrave favoriser et agrave promouvoir lrsquoaccegraves aux donneacutees de sciences sociales et aux humaniteacutes numeacuteriques

36

Livre Blanc sur les Donneacutees au CNRS Eacutetat des Lieux et Pratiques - 2018

INSHS

Huma-Num

Lrsquoaction de la TGIR Huma-Num ( UMS du CNRS ) est de faciliter le laquo tournant numeacuterique raquo de la recherche en sciences humaines et sociales dans la production et la reacuteutilisation de donneacutees numeacuteriques Il srsquoagit de

bull Deacutevelopper lrsquoappropriation par les communauteacutes scientifiques du cycle de vie des donneacutees numeacuteriques

bull Proposer des services pour les donneacutees au juste niveau et au bon moment

Huma-Num srsquoorganise autour drsquoun certain nombre drsquooutils et de services de projets de recherche de consortiums et de reacuteseaux europeacuteens comme indiqueacute dans la figure ci-dessous

LrsquoUMS Huma-Num est localiseacutee agrave Paris et agrave Lyon au CC-IN2P3 depuis 10 ans

Elle propose un ensemble de services pour les donneacutees numeacuteriques produites en SHS avec des partenariats avec le CC IN2P3 le CINES ( Centre Informatique National de lrsquoEnseignement Supeacuterieur ) et le CCSD ( Centre pour la Communication Scientifique Directe )

A chaque eacutetape du cycle de vie des donneacutees correspond un service deacutedieacute par exemple iRods pour le stockage en coopeacuteration avec le CC-IN2P3 des logiciels drsquoanalyse de donneacutees et de gestions de bases de donneacutees un ensemble drsquooutils de diffusion sur le Web ( p ex pack Nakalona et service de machines virtuelles ) un service drsquoarchivage agrave long terme avec le CINES un service de signalement des donneacutees avec ISIDORE et un service drsquoexposition de donneacutees NAKALA

A cocircteacute de cet ensemble de services Huma-Num seacutelectionne finance et accompagne des consortiums au nombre de 8 agrave 12 destineacutes agrave favoriser lrsquoeacutemergence ou lrsquoimpleacutementation drsquooutils au plus pregraves des besoins des communauteacutes disciplinaires Actuellement les 10 consortiums de Huma-Num repreacutesentent

bull 120 eacutequipes de recherche ( UMR EA )

bull Un reacuteseau de + de 300 chercheurs ingeacutenieurs etc

bull Plus de 50 actions publiques ( formations ateliers seacuteminaireshellip )

Entre 2011 et 2015 plus de 230 actions de coordination nationales dans 16 disciplines majeures des SHS ont eacuteteacute meneacutees plus de 350 fonds drsquoarchivescorpus mis aux normes mis agrave disposition etou signaleacutes 500000 documents issus drsquoarchives scientifiques ont eacuteteacute mis en open access

37

Livre Blanc sur les Donneacutees au CNRS Eacutetat des Lieux et Pratiques - 2018

Enfin Huma-Num constitue la brique franccedilaise de deux dispositifs drsquoinfrastructures europeacuteennes de recherche ( ERIC European Research Infrastructure Consortium ) lieacutees aux donneacutees

bull DARIAH-EU ( Digital Research Infrastructure for the Arts and Humanities )

bull CLARIN ( European Research Infrastructure for Language Resources and Technology )

Un certain nombre drsquooutils deacuteveloppeacutes par Huma-Num sont aujourdrsquohui impleacutementeacutes au niveau europeacuteen via diffeacuterents programmes H2020 en relation avec ces deux ERIC La TGIR dispose donc drsquoune reconnaissance internationale attesteacutee par de nombreuses demandes drsquoexpertise ou de coopeacuteration venues des ERIC et de diffeacuterents pays ( Queacutebec Argentine )

Progedo

La TGIR Progedo opeacutereacutee par lrsquoUMS Progedo ( CNRS-Ehess ) est lrsquoacteur central en matiegravere de production et de gestion de donneacutees en sciences sociales Lrsquoinfrastructure a pour mission de hausser le niveau de structuration nationale des communauteacutes de recherche en deacuteployant une strateacutegie de deacuteveloppement entre les organismes de recherche les grands eacutetablissements et les universiteacutes et de renforcer la position de la France dans lrsquoespace europeacuteen de la recherche

Pour ce faire Progedo organise lrsquoappui agrave la collecte agrave la documentation agrave la preacuteservation et agrave la promotion drsquoun vaste ensemble de donneacutees neacutecessaires aux disciplines des sciences humaines et sociales dans un cadre conforme agrave la leacutegislation et la regraveglementation en vigueur concernant la protection des donneacutees individuelles Elle favorise la diffusion de ces donneacutees pour la recherche soutient la reacutealisation de grandes enquecirctes et bases de donneacutees repreacutesentatives neacutecessaires agrave la recherche et participe agrave la mise en place des dispositifs seacutecuriseacutes drsquoaccegraves aux donneacutees individuelles

38

Livre Blanc sur les Donneacutees au CNRS Eacutetat des Lieux et Pratiques - 2018

Progedo constitue la tecircte de reacuteseau de diffusion nationale des donneacutees produites Elle srsquoappuie actuellement sur quatre entiteacutes

bull Deux eacutequipes lieacutees au CNRS

o lrsquoADISP qui met agrave disposition les donneacutees de la statistique publique agreacutegeacutees

o le CDSP avec Sciences Po Paris qui deacuteploie la mise agrave disposition des donneacutees produites par les chercheurs en sciences politiques principalement

bull Le service des enquecirctes de lrsquoINED

bull LrsquoEquipex CASD porteacute par le GENES ( INSEE ) pour lrsquoaccegraves seacutecuriseacute aux donneacutees en particulier aux donneacutees individuelles en les anonymisant

Progedo est la seule structure nationale de mise agrave disposition des donneacutees en sciences sociales Elle est construite comme une ombrelle destineacutee agrave couvrir tout le champ neacutecessaire autour des donneacutees drsquoenquecirctes pour la recherche Elle srsquoorganise en quatre deacutepartements qui correspondent agrave quatre grands types de donneacutees en sciences sociales

Ces quatre deacutepartements regroupent les activiteacutes correspondant agrave trois ERIC

bull CESSDA ( donneacutees de la recherche et de la statistique publique )

bull ESS ( donneacutees de sciences politiques et enquecirctes drsquoopinion )

bull SHARE ( donneacutees de santeacute )

et un ERIC en projet GGP ( relations familiales approches longitudinales des dynamiques familiales )

En tant que structure de coordination son peacuterimegravetre peut donc ecirctre appeleacute agrave srsquoeacutetendre agrave drsquoautres types de donneacutees de sciences sociales Cette position surplombante assure agrave terme la coheacuterence de lrsquoensemble des dispositifs franccedilais de mise agrave disposition des donneacutees et leur parfaite articulation avec un eacutechelon europeacuteen dont les contours sont encore agrave deacutefinir Progedo est donc destineacutee agrave ecirctre le relais franccedilais vis-agrave-vis de toutes les infrastructures europeacuteennes de donneacutees de sciences sociales existantes et agrave venir Cette organisation qui donne une visibiliteacute sur tous les dispositifs ERIC centres de compeacutetences et services nationaux ne se retrouve pas ailleurs en Europe et est un atout face agrave des modes drsquoorganisation nationaux geacuteneacuteralement plus cloisonneacutes geacuteneacuterateurs de coucircts suppleacutementaires et de doublons et un paysage europeacuteen des donneacutees non stabiliseacute

INSHS

PLATES-FORMES UNIVERSITAIRES DE DONNEacuteESavec le RnMSH les MSH et Universiteacutes de Lille Caen Lyon Nantes Strasbourg Dijon

ANIMATION SCIENTIFIQUE

PRODUCTIONENQUEcircTE

DEPARTEMENT GGP-FRANCE

DIFFUSION

ANIMATION SCIENTIFIQUE

DEPARTEMENT QUETELET PROGEDO DIFFUSION(Cessda - FranCe)

ANIMATION SCIENTIFIQUE

PRODUCTIONENQUEcircTE

DEPARTEMENT ESS-FRANCE

ANIMATION SCIENTIFIQUE

PRODUCTIONENQUEcircTE

DEPARTEMENT SHARE-FRANCE

UMS PROGEDO ANIMATION GEacuteNEacuteRALE

CONSEIL SCIENTIFIQUE

COMITEacute DE PILOTAGE

tutelles EHESSCNRS

39

Livre Blanc sur les Donneacutees au CNRS Eacutetat des Lieux et Pratiques - 2018

Implanteacutee en reacutegion gracircce agrave ses plateformes universitaires de donneacutees ( PUD ) Progedo est un acteur essentiel pour la formation agrave lrsquousage des donneacutees de la recherche Ces PUD sont des portes drsquoentreacutee dans le monde des donneacutees pour des publics parfois tregraves eacuteloigneacutes par leur parcours universitaire et leurs pratiques scientifiques des techniques statistiques Avec la mise en reacuteseau des PUD la TGIR srsquoattache agrave deacutevelopper conjointement lrsquoaccegraves aux ressources et agrave la compeacutetence collective des utilisateurs une double condition neacutecessaire pour permettre agrave la France drsquoecirctre au bon niveau international Les PUD installeacutees au sein des communauteacutes sur les sites universitaires dans les MSH lieu de deacutecloisonnement par excellence constituent un levier essentiel Lrsquoobjectif est drsquoouvrir 20 nouvelles PUD dans les trois ans 9 le sont actuellement

Articulation avec les autres producteursdiffuseur de donneacutees

Le dispositif de donneacutees SHS se construit autour de ces deux pocircles majeurs que sont Huma-Num et Progedo mais aussi en articulation avec une seacuterie drsquoautres infrastructures ou de dispositifs qui soit mettent agrave disposition des donneacutees soit assurent leur diffusion aupregraves des communauteacutes de recherche Les TGIR travaillent donc agrave favoriser la conservation agrave garantir lrsquointeropeacuterabiliteacute le moissonnage la diffusion de donneacutees ou de standards produits par drsquoautres infrastructures de nature speacutecifique telles que

bull Open Edition

bull Perseacutee

bull la chaicircne eacuteditoriale XML-TEI METOPES19

Les deux TGIR sont donc fortement articuleacutees autour de ces 3 IR inscrites sur la feuille de route nationale des infrastructures

Elles travaillent eacutegalement en eacutetroite collaboration avec les 23 MSH reacuteparties sur les sites ougrave elles trouvent des relais efficaces agrave la fois pour la mise agrave disposition des donneacutees la diffusion de la pratique des donneacutees et du numeacuterique dans les communauteacutes de chercheurs

19 httpwwwunicaenfrrecherchemrshdocument_numeriqueprojetsmetopes

253 Conclusion

Les enjeux pour lrsquoInSHS en matiegravere de donneacutees sont au moins au nombre de quatre

- Organiser des dispositifs de gestion des donneacutees qui assurent leur peacuterenniteacute leur interopeacuterabiliteacute et leur large diffusion et qui tiennent compte en mecircme temps de la tregraves grande varieacuteteacute des types de donneacutees SHS

- Encourager le tournant numeacuterique et conduire les chercheurs agrave prendre la mesure du tournant eacutepisteacutemologique que constitue le deacuteveloppement des donneacutees pour tous les champs disciplinaires SHS Il srsquoagit de deacutevelopper dans les communauteacutes une laquo culture de la donneacutee raquo propre agrave reacutesoudre ce paradoxe qui fait que la France est un des plus importants producteurs de donneacutees ( du fait notamment de lrsquoancienneteacute de sa statistique publique ) mais qursquoelles sont sous-utiliseacutees par ses chercheurs

- Contribuer agrave aider la socieacuteteacute agrave construire des reacuteponses adapteacutees aux deacutefis poseacutes par la constitution de grandes bases de donneacutees dont les possibiliteacutes de traitement automatique drsquoappariement et de croisement interrogent les dispositifs de protection des donneacutees personnelles les liberteacutes individuelles et le droit agrave la vie priveacutee Ce rocircle doit ecirctre mieux identifieacute par les speacutecialistes des autres sciences et par les deacutecideurs publics

- Contribuer au deacuteveloppement des initiatives autour de lrsquoopen data et agrave la reacuteflexion sur leurs impacts sur les sciences et sur la socieacuteteacute qui sont au cœur de la strateacutegie nationale de recherche ( Deacutefi 7 Socieacuteteacute de lrsquoinformation et de la communication - Orientation 25 Systegravemes sucircrs drsquoexploitation des grandes masses de donneacutees Deacutefi 8 Socieacuteteacutes innovantes inteacutegratives et adaptatives - Orientation 29 Seacutecurisation et optimisation de lrsquoextraction des donneacutees )

40

Livre Blanc sur les Donneacutees au CNRS Eacutetat des Lieux et Pratiques - 2018

26 INSTITUT DES SCIENCES DE LrsquoINGENIERIE ET DES SYSTEMES ( INSIS )

261 Introduction

LrsquoInstitut des Sciences de lrsquoIngeacutenierie et des Systegravemes ( INSIS ) rassemble environ 6000 chercheurs et enseignants-chercheurs ( dont 961 chercheurs CNRS et 5026 enseignants-chercheurs ) reacutepartis dans une centaine drsquouniteacutes de recherche Ses theacutematiques couvrent une partie des sections 4 ( fusion par confinement magneacutetique ITER ) 7 ( signal image automatique robotique ) 30 ( bio ingeacutenierie ) la totaliteacute des sections 8 ( micro et nano-technologies eacutelectronique photonique eacutelectromagneacutetisme eacutenergie eacutelectrique ) 9 ( ingeacutenierie des mateacuteriaux et des structures meacutecanique des solides acoustique ) et 10 ( milieux fluides et reacuteactifs transports transferts proceacutedeacutes de transformation ) du Comiteacute National

LrsquoInstitut est donc multi-theacutematiques et comporte de nombreuses disciplines qui utilisent agrave peu pregraves toutes lrsquooutil de simulation Cependant les ingeacutenieurs se sont lanceacutes tregraves tocirct dans la simulation avec des moyens et des deacuteveloppements algorithmiques propres adapteacutes aux laquo systegravemes raquo ce qui fait que les pratiques en matiegravere de simulation sont heacuteteacuterogegravenes Il y a notamment une asymeacutetrie entre la proportion de recherche impliquant la simulation en meacutecanique des fluides au sens large ( incluant la combustion ) et les autres disciplines

En ingeacutenierie des systegravemes la numeacuterisation entre en jeu non seulement pour la simulation mais pour les expeacuteriences ou les modegraveles ainsi les donneacutees numeacuteriques sont manipuleacutees dans de nombreux contextes En voilagrave quelques-uns agrave titre drsquoexemple

bull Capteurs en reacuteseau les eacutechanges drsquoinformation issus de mesures provenant de diffeacuterents capteurs notamment pour le controcircle des systegravemes neacutecessitent des techniques et algorithmes speacutecifiques de gestion de flots de donneacutees ainsi que pour le post-traitement des masses de donneacutees qursquoil srsquoagit aussi de stocker ou archiver

bull Reacuteseaux en geacutenie eacutelectrique des probleacutematiques similaires de mise en place de strateacutegies de gestion des donneacutees pour la production et la distribution de lrsquoeacutenergie eacutelectrique

bull Meacutecanique pour le vivant cela concerne lrsquoimagerie meacutedicale pour les tissus vivants avec de nombreuses questions pour les donneacutees concernant leur qualiteacute leur stockage leur confidentialiteacute Des volumes de donneacutees importants peuvent ecirctre produits notamment en eacutelastographie transitoire baseacutee sur le couplage drsquoun prototype drsquoimagerie eacutechographique capable drsquoatteindre des cadences eacutechographiques supeacuterieures agrave 5000 images par seconde

bull Acoustique il srsquoagit principalement des questions drsquoingeacutenierie des ondes acoustiques concernant leur propagation et transmission mais les donneacutees en aeacuteroacoustique ont un lien direct avec la meacutecanique des fluides et cette theacutematique est aussi relieacutee avec la meacutecanique des vibrations au travers de lrsquointeraction fluide-structure

bull Meacutecanique des solides structures et mateacuteriaux la prise en compte des non lineacuteariteacutes comportementales des mateacuteriaux dans les meacutethodes de changement drsquoeacutechelle est effectueacutee au moyen de modeacutelisations theacuteoriques associeacutees agrave des outils numeacuteriques innovants ( eacuteleacutements finis eacutetendus transformations de Fourier rapides ou FFT techniques de reacuteduction de modegraveles etc ) Pour les mateacuteriaux et les structures les mesures de deacuteplacement ou de champs sont de nos jours baseacutees sur de lrsquoimagerie 2D et 3D notamment en tomographie avec des techniques multiples utilisant la lumiegravere visible les infrarouges les rayons X etc Ceci est tout particuliegraverement utile pour le controcircle des deacutefauts ou de lrsquousure des mateacuteriaux

bull Meacutecanique des fluides la theacutematique couvre tous les pheacutenomegravenes fluides agrave toutes les eacutechelles allant de la microfluidique aux eacutechelles geacuteophysiques et astrophysiques Les simulations numeacuteriques directes notamment en turbulence qui y sont reacutealiseacutees sont parmi les plus consommatrices de temps de calcul et productrices de donneacutees comme illustreacute plus en deacutetail ci-apregraves

INSIS

41

Livre Blanc sur les Donneacutees au CNRS Eacutetat des Lieux et Pratiques - 2018

On se rend donc bien compte que les questions scientifiques agrave lrsquoINSIS portent sur des probleacutematiques multi-physiques qui sont reacutesolues numeacuteriquement par lrsquoapplication drsquoalgorithmes pour le calcul haute performance crsquoest-agrave-dire le calcul parallegravele mais aussi le Cloud computing Le passage agrave lrsquoeacutechelle pour des systegravemes complexes reacuteels en ingeacutenierie neacutecessite ainsi une hieacuterarchie drsquoapplications qui permet en outre drsquoaborder explicitement les aspects multi-eacutechelles Les systegravemes multi-physiques neacutecessitent notamment le couplage entre codes de nature diffeacuterente Crsquoest la probleacutematique geacuteneacuterique des intergiciels ( parmi lesquels les logiciels de couplage comme OpenPALM ) mais ceci introduit la difficulteacute suppleacutementaire poseacutee par lrsquoheacuteteacuterogeacuteneacuteiteacute des donneacutees agrave stocker et agrave analyser

Lrsquoinstitut est donc un des principaux utilisateurs du calcul haute performance au CNRS comme lrsquoattestent notamment les attributions drsquoheures de calcul par GENCI dans deux comiteacutes theacutematiques parmi dix concernant seacutepareacutement les eacutecoulements reacuteactifs drsquoune part et les eacutecoulements non reacuteactifs drsquoautre part

Ce poids de lrsquoINSIS cache en fait une tregraves grosse dispariteacute selon les theacutematiques plus de 90 des ressources sur les centres nationaux sont consommeacutees par la meacutecanique des fluides au sens large du terme deacutefinie ici comme reacutesolution des eacutequations de Navier-Stokes et des eacutequations associeacutees ( meacutecanique des fluides combustion eacutecoulements diphasiques transferts thermiques plasmas magneacutetohydrodynamique aeacuteroacoustique transport seacutedimentairehellip ) par un petit nombre de laboratoires ( moins drsquoune dizaine ) et de chercheurs rattacheacutes pour la plupart agrave la section 10 du Comiteacute National Les communauteacutes laquo meacutecanique des solides raquo et laquo mateacuteriaux et structures raquo bien que revendiquant une activiteacute calcul intensif sont absentes un seul projet tandis que les quelques projets interaction fluidestructure sont le fait de laboratoires nettement identifieacutes laquo meacutecanique des fluides raquo Les projets restants concernent lrsquoeacutelectromagneacutetisme lrsquointeraction lasermatiegravere et la chimie ( calculs ab-initio diagramme de phasehellip )

262 La probleacutematique des donneacutees agrave lrsquoINSIS

La probleacutematique des donneacutees agrave lrsquoINSIS est donc principalement lieacutee agrave la gestion des gros volumes de donneacutees qui sont produits dans le domaine de la simulation numeacuterique et a pour enjeux

bull La modeacutelisation de pheacutenomegravenes avec eacutevolution dans le temps ce qui implique quatre dimensions agrave traiter pour des pheacutenomegravenes spatiaux tridimensionnels ( 3D )

bull Le caractegravere aleacuteatoire de certains comportements qui neacutecessite donc une approche probabiliste La repreacutesentation fidegravele de ces pheacutenomegravenes dans toute leur variabiliteacute reacuteclame de nombreuses reacutealisations drsquoune mecircme expeacuterience ou simulation drsquoougrave la neacutecessiteacute drsquoun stockage et drsquoun traitement statistique a posteriori

bull La visualisation de pheacutenomegravenes complexes multidimensionnels passe par un rendu visuel pour une compreacutehension des pheacutenomegravenes instationnaires avec plus ou moins de reacutealisme dans le rendu spatial En revanche la simulation en temps reacuteel de pheacutenomegravenes rapides nrsquoest que tregraves rarement possible Ainsi le suivi de calculs instationnaires passe par la mise en place de techniques de visualisation agrave la voleacutee qui ne permettent qursquoune observation partielle de lrsquoinstationnariteacute

bull Lrsquoadaptation des codes aux nouveaux algorithmes lieacutes agrave lrsquoeacutevolution technologique et aux nouvelles architectures mateacuterielles notamment les acceacuteleacuterateurs de type GPU dont lrsquoutilisation requiert une adaptation des formats de repreacutesentation des donneacutees internes au calculateur afin de tirer parti de lrsquoarchitecture vectorielle du processeur

bull La creacuteation de formats drsquoenregistrement de donneacutees non seulement compatibles avec la nature de celles-ci selon les disciplines mais aussi lrsquoutilisation de formats compatibles avec des entreacutees-sorties adapteacutees agrave des transferts massifs de champs en simultaneacute par des dizaines voire des centaines de milliers de processeurs dans le cadre de systegravemes de fichiers paralleacuteliseacutes

42

Livre Blanc sur les Donneacutees au CNRS Eacutetat des Lieux et Pratiques - 2018

263 Illustration la question des donneacutees en meacutecanique des fluides

Comme mentionneacute en introduction la meacutecanique des fluides inertes et reacuteactifs repreacutesente une partie tregraves importante dans la production de donneacutees au travers drsquoune repreacutesentation majoritaire des heures de calcul sur les calculateurs nationaux au niveau Tier 1

La simulation produit ainsi des quantiteacutes importantes de donneacutees mais il en va de mecircme pour certaines expeacuteriences dans lesquelles la meacutetrologie a fait un tel progregraves qursquoelle aboutit agrave des volumes de donneacutees aussi importants que les plus grosses simulations Il srsquoagit par exemple de la technique de veacutelocimeacutetrie par imagerie de particules ( Digital Particle Image Velocimetry ou DPIV ) qui permet agrave preacutesent drsquoacqueacuterir agrave des freacutequences tregraves eacuteleveacutees des champs de vitesse reacutesolus spatialement et en temps Les expeacuteriences utilisent des cameacuteras rapides agrave haute reacutesolution et haute freacutequence qui enregistrent les donneacutees brutes directement sur des systegravemes de meacutemoires rapides ( disques de type SSD ) agrave la voleacutee Une seule expeacuterience est capable de produire en une journeacutee jusqursquoagrave 400 To de donneacutees

De mecircme les simulations numeacuteriques directes en turbulence utilisent des algorithmes pseudo-spectraux agrave mecircme de repreacutesenter toutes les eacutechelles drsquoun eacutecoulement Si la puissance actuelle des calculateurs ne permet pas encore de couvrir des gammes drsquoeacutechelles aussi larges que celles rencontreacutees dans les eacutecoulements geacuteophysiques mdash allant du centimegravetre agrave des centaines de kilomegravetres pour lrsquoatmosphegravere mdash les reacutesolutions les plus grandes possible sont rechercheacutees pour une bonne repreacutesentation des pheacutenomegravenes de transfert drsquoeacutenergie et de dispersion Des simulations utilisant des maillages de 40963 points produisent un volume drsquoenviron 15To par iteacuteration de calcul qui se comptent en milliers pour repreacutesenter correctement les fluctuations rapides temporelles Ceci deacutepasse la capaciteacute de stockage alloueacutee agrave un utilisateur sur les grands centres de calcul nationaux Cette difficulteacute impose un stockage drsquoun petit nombre de champs pour lrsquoanalyse exhaustive des indicateurs statistiques des signaux et seules des statistiques choisies en petit nombre sont calculeacutees agrave la voleacutee afin de ne pas impacter la performance du calcul

Par ailleurs les instabiliteacutes hydrodynamiques qui peuvent se produire dans des eacutecoulements complexes utilisent des meacutethodes de continuation selon de nombreux paramegravetres relatifs agrave lrsquoinstabiliteacute eacutetudieacutee Lrsquoalgorithme de suivi est efficace srsquoil utilise

une infrastructure de grille de calcul qui permet drsquoeffectuer un tregraves grand nombre de calculs de taille reacuteduite chacun pour un jeu de paramegravetres diffeacuterents Ceci se reacutealise par le biais de reacuteseaux drsquointerconnexion au travers desquels sont envoyeacutes le code et les paramegravetres sur chaque nœud de calcul qui renvoient les reacutesultats agrave lrsquoissue de la simulation Plusieurs milliers de nœuds peuvent ecirctre impliqueacutes Cette technique est notamment utiliseacutee pour la stabiliteacute drsquoeacutecoulements cisailleacutes eacutetudieacutee gracircce aux moyens du CC-IN2P3 ougrave un environnement de calcul tregraves favorable adapteacute au traitement des donneacutees des collisionneurs est mis en œuvre

Plusieurs questions se posent concernant le statut et le devenir des donneacutees produites

- Quelle est la dureacutee de vie des donneacutees Par exemple concernant leur reacutealisation au niveau technique des simulations agrave reacutesolution 10243 avaient un caractegravere exceptionnel il y a 7 ans mais peuvent ecirctre reproduites aiseacutement avec les moyens actuels Faut-il donc stocker des donneacutees au-delagrave drsquoune peacuteriode relativement courte apregraves laquelle les moyens de calcul permettront leur reproduction agrave un coucirct neacutegligeable

- De nombreuses eacutequipes produisent des bases de donneacutees importantes en quantiteacute et en qualiteacute qui sont sous-exploiteacutees mais qui peuvent ecirctre utiles agrave une eacutequipe srsquointeacuteressant agrave la dynamique du fluide sous un point de vue diffeacuterent Comment peut-on eacuteviter de dupliquer les mecircmes expeacuteriences ou simulations Et dans une logique eacutetendue comment peut-on mettre ces donneacutees agrave disposition de la communauteacute scientifique globale Quelle dureacutee drsquoembargo doit-on imposer avant diffusion geacuteneacuterale

- Quelles sont alors les modaliteacutes de stockage et drsquoeacutechange agrave adopter Ceci pose agrave la fois la question du format des fichiers mais aussi des meacutetadonneacutees agrave lui associer

- Faut-il archiver des donneacutees et pour quelle peacuteriode

Au niveau national au-delagrave des stockages temporaires deacutedieacutes agrave des projets attributaires drsquoheures de calcul sur les grands centres nationaux ou meacutesocentres il nrsquoexiste pas agrave notre connaissance drsquoinitiative globale pour la gestion des donneacutees en meacutecanique des fluides En outre sur les grands centres les politiques de reacutetention de donneacutees et les capaciteacutes des serveurs ne permettent pas le stockage sur des longues dureacutees ou le partage large des donneacutees massives

INSIS

43

Livre Blanc sur les Donneacutees au CNRS Eacutetat des Lieux et Pratiques - 2018

Au niveau europeacuteen on peut mentionner la base de donneacutees Turbase ( httpsturbasecinecait ) qui porte sur les donneacutees en turbulence Cette base utilise lrsquoinfrastructure italienne CINECA situeacutee agrave Bologne qui est un des grands centres europeacuteens participant agrave PRACE20 Des moyens ont eacuteteacute alloueacutes par EuHIT ( projet europeacuteen visant principalement agrave deacutevelopper lrsquoouverture des expeacuteriences de grande taille en turbulence mais avec aussi un volet laquo donneacutees raquo ) pour deacutevelopper Turbase

Agrave lrsquointernational on peut mentionner la base ouverte agrave lrsquouniversiteacute de Johns Hopkins ( Baltimore Etat du Maryland aux USA httpturbulencephajhuedu ) qui outre le stockage et le partage des donneacutees brutes offre une fonctionnaliteacute suppleacutementaire pour extraire une sous-partie de lrsquoinformation ou produire des statistiques associeacutees

On constate cependant lrsquoabsence de standard commun drsquoorganisation des donneacutees ( ( usage de HDF5 VTK donneacutees brutes ou compresseacuteeshellip ) ou des meacutetadonneacutees qui permettent drsquoidentifier exactement la nature et la qualiteacute des donneacutees

20 Partnership for Advanced Computing in Europe ( httpwwwprace-rieu )

264 Conclusion

Lrsquoingeacutenierie srsquoest empareacutee tregraves tocirct de lrsquooutil de simulation avec un modegravele de deacuteveloppement de meacutethodes au niveau de chaque laboratoire voire eacutequipe notamment en meacutecanique des fluides Gracircce agrave une monteacutee en compeacutetence importante due agrave lrsquoattribution de moyens aux laboratoires acadeacutemiques agrave la fois humains et mateacuteriels ce modegravele a eacuteteacute favorable au deacuteveloppement drsquoune reacuteelle expertise en simulation La gestion des donneacutees a susciteacute moins de reacuteflexion et drsquoorganisation en profondeur ce qui fait que lrsquoaugmentation des capaciteacutes de simulation mdash et agrave preacutesent des nouvelles meacutetrologies expeacuterimentales mdash nrsquoa pas eacuteteacute suivie drsquoune augmentation des capaciteacutes de stockage de traitement et drsquoarchivage des donneacutees On se trouve agrave preacutesent dans une situation dans laquelle on est en capaciteacute de reacutealiser des simulations agrave tregraves haute reacutesolution sans savoir complegravetement en traiter les reacutesultats ni ougrave les entreposer

Il srsquoagit donc agrave preacutesent de faire progresser les structures fonctionnelles et mateacuterielles pour geacuterer le patrimoine scientifique que constituent les donneacutees issues de simulations numeacuteriques mais aussi de reacutealisations expeacuterimentales qui sont confronteacutees aux mecircmes probleacutematiques

44

Livre Blanc sur les Donneacutees au CNRS Eacutetat des Lieux et Pratiques - 2018

27 INSTITUT NATIONAL DES SCIENCES MATHEMATIQUES ET DE LEURS INTERACTIONS ( INSMI )

271 Introduction

La mission de lrsquoInsmi est de deacutevelopper et de coordonner les recherches dans les diffeacuterentes branches des matheacutematiques allant des aspects fondamentaux aux applications LrsquoInsmi contribue agrave la structuration de la communauteacute matheacutematique franccedilaise et agrave son insertion dans la communauteacute internationale Elle rassemble 3600 chercheurs et enseignants-chercheurs dont plus de 400 chercheurs CNRS

Tout en soutenant les diffeacuterents domaines des matheacutematiques lrsquoInsmi cherche agrave promouvoir les recherches agrave lrsquointerface avec les autres disciplines scientifiques ainsi que les interactions avec la socieacuteteacute et le monde industriel Comme le souligne un reacutecent rapport ameacutericain ( The mathematical sciences in 2025 The National Academies Press Etats-Unis ) les possibiliteacutes drsquointeraction entre les matheacutematiques et le monde exteacuterieur sont consideacuterablement accrues drsquoune part par la geacuteneacuteralisation de simulations numeacuteriques baseacutees sur des concepts matheacutematiques et rendues possibles par des outils informatiques de plus en plus puissants drsquoautre part par lrsquoaccroissement exponentiel de donneacutees massives agrave traiter La communauteacute matheacutematique est donc fortement solliciteacutee et mobiliseacutee pour reacutepondre aux enjeux lieacutes aux traitements des donneacutees et au calcul scientifique

Comme lrsquoa souligneacute une eacutetude de lrsquoimpact socio-eacuteconomique des Matheacutematiques en France reacutealiseacutee en 2015 la contribution primordiale des matheacutematiques dans le deacuteveloppement de technologies cleacutes sera appeleacutee agrave se renforcer via la maicirctrise par les entreprises de plusieurs champs de compeacutetences strateacutegiques fondeacutes au moins partiellement sur les matheacutematiques

bull Traitement du signal et analyse drsquoimages

bull Data Mining ( statistiques analyse de donneacutees et apprentissage )

bull MSO ( Modeacutelisation - Simulation -Optimisation )

bull HPC ( High Performance Computing ou calcul haute performance )

bull Seacutecuriteacute des systegravemes drsquoinformations et Cryptographie

La maicirctrise de ces champs de compeacutetences par le tissu industriel national est vue comme essentielle pour permettre de relever les deacutefis socio-eacuteconomiques actuels et futurs speacutecifiques ou non aux secteurs drsquoactiviteacute des industries concerneacutees et rester compeacutetitif

Les matheacutematiciens se retrouvent freacutequemment confronteacutes au traitement des donneacutees lorsqursquoils travaillent sur des sujets interdisciplinaires Par exemple la simulation de modegraveles avec une reacutesolution extrecircmement fine amegravene agrave des problegravemes de gestion de grandes masses de donneacutees pouvant atteindre plusieurs To On peut notamment citer les interactions avec

bull La physique et la meacutecanique ( p ex avec les travaux sur les plasmas de tokamak )

bull Lrsquoautomatique et la robotique

bull Lrsquoinformatique notamment en ce qui concerne les recherches en imagerie traitement du signal fouille de donneacutees calcul haute performancehellip

bull Les sciences du vivant Sans ecirctre exhaustif les domaines concerneacutes par ces interactions sont la biologie cellulaire systeacutemique et du deacuteveloppement les neurosciences la geacuteneacutetique lrsquoeacutecologie la bio-informatique la meacutedecinehellip

bull Lrsquoeacuteconomie et les sciences humaines et sociales

Se posent eacutegalement les questions de paralleacuteliser les calculs de communiquer des volumes de donneacutees gigantesques entre les dizaines de milliers de processeurs drsquoun supercalculateur de compresser stocker ou exploiter les donneacuteeshellip Toutes ces questions neacutecessitent une recherche pluridisciplinaire entre ingeacutenieurs matheacutematiciens informaticiens et chercheurs de la discipline du sujet eacutetudieacute ( physiciens biologisteshellip )

Tous les domaines des matheacutematiques sont concerneacutes par les interfaces mentionneacutees preacuteceacutedemment Les plus visibles sont la statistique le calcul scientifique et haute performance les probabiliteacutes les systegravemes dynamiques les eacutequations diffeacuterentielles et aux deacuteriveacutees partielles lrsquooptimisation lrsquoimageriehellip

INSMI

45

Livre Blanc sur les Donneacutees au CNRS Eacutetat des Lieux et Pratiques - 2018

272 La probleacutematique des donneacutees agrave lrsquoINSMI

Le traitement des donneacutees a reacutecemment impacteacute la communauteacute matheacutematique Afin de reacutepondre aux probleacutematiques souleveacutees plusieurs champs de recherche se sont deacuteveloppeacutes dans diffeacuterentes branches des matheacutematiques allant de la recherche fondamentale aux applications21

Lrsquoanalyse

Mecircme si les lois de la physique matheacutematique sont deacutecrites par des eacutequations diffeacuterentielles et des eacutequations aux deacuteriveacutees partielles lrsquoanalyse matheacutematique aborde aujourdrsquohui des domaines moins structureacutes ougrave les lois sont absentes et ougrave il convient de traiter des masses de donneacutees en apparence incoheacuterentes Agrave titre drsquoexemple les problegravemes poseacutes par le changement climatique sont particuliegraverement ardus En conseacutequence une nouvelle analyse matheacutematique est neacutecessaire pour maicirctriser des domaines aussi varieacutes que le changement climatique la geacutenomique la meacutedecine computationnelle la recherche seacutecuritaire agrave lrsquointeacuterieur des donneacutees du webhellip

Les statistiques

Lrsquoeacutevolution actuelle de la discipline est fortement influenceacutee par le deacuteveloppement de lrsquoinformatique aussi bien en termes de moyens de calcul ou de capaciteacute meacutemoire des ordinateurs qursquoen termes drsquoavanceacutees dans le domaine de lrsquoalgorithmique de la theacuteorie de lrsquoinformation ou du codage Les nouvelles capaciteacutes de recueil et de stockage provoquent une veacuteritable avalanche de donneacutees dont le gigantisme rend obsolegravete lrsquoemploi des outils drsquoanalyse des donneacutees traditionnels et dont le traitement requiert de nouvelles compeacutetences pour les statisticiens Ceci est vrai dans plusieurs domaines drsquoapplications en geacutenomique tout autant qursquoen eacuteconomie ou en traitement du signal ou de lrsquoimage Dans le mecircme temps les outils de calcul de plus en plus puissants et performants stimulent lrsquoimagination car ils permettent de mettre en œuvre des strateacutegies drsquoinfeacuterence toujours plus sophistiqueacutees dont lrsquoutilisation aurait eacuteteacute impensable voire absurde au siegravecle dernier Les theacutematiques statistiques lieacutees agrave lrsquoanalyse des donneacutees de grande dimension se deacuteveloppent de faccedilon rapide au sein drsquoeacutequipes de recherche qui sont heacutebergeacutees tantocirct par des laboratoires de matheacutematiques tantocirct

21 Cf Rapport de prospective du Conseil Scientifique drsquoInstitut de lrsquoInsmi mandat 2010-2014

par des laboratoires drsquoinformatique ou les eacutequipes Inria et dont les leaders sont fort heureusement visibles dans les deux disciplines Ces dix derniegraveres anneacutees ont ainsi vu lrsquoeacutemergence drsquoune communauteacute machine learning ( ou laquo apprentissage statistique raquo ) agrave lrsquointerface entre statistique et informatique

Classer des donneacutees en grande dimension analyser des donneacutees massives et souvent heacuteteacuterogegravenes ( Big Data ) bacirctir des preacutevisions agrave partir de donneacutees fonctionnelles analyser des donneacutees structureacutees en grands reacuteseaux voici autant de deacutefis auxquels les statisticiens seront confronteacutes dans les anneacutees agrave venir

Que ce soit pour la conception lrsquoexpeacuterimentation ou lrsquoapplication des meacutethodes statistiques la reacuteflexion matheacutematique est aujourdrsquohui indissociable de la reacuteflexion sur les algorithmes permettant son expression et sa mise en application Lrsquoavenir de la discipline passe donc par le deacuteveloppement harmonieux et les eacutechanges entre les trois grandes branches drsquoactiviteacute que sont la statistique matheacutematique la statistique computationnelle et le traitement de donneacutees

La modeacutelisation et le calcul

Le calcul scientifique consiste agrave mettre en œuvre de la faccedilon la plus efficace possible les algorithmes de calcul sur ordinateur des solutions du modegravele La fameuse loi de Moore preacutedit un doublement de la capaciteacute mateacuterielle de calcul des ordinateurs tous les dix-huit mois Cette loi empirique est veacuterifieacutee depuis plus de quarante ans Si lrsquoon tient aussi compte de lrsquoameacutelioration des algorithmes matheacutematiques de calcul on observe en fait un doublement de la puissance de calcul tous les huit mois seulement Aujourdrsquohui le calcul scientifique est partout dans les teacuteleacutephones portables pour traiter des images ou des videacuteos dans les voitures pour optimiser le freinage ou encore chez les architectes qui doivent preacutevoir la soliditeacute des structures qursquoils dessinent Certains calculs neacutecessitent peu de puissance et peuvent ecirctre reacutealiseacutes sur un ordinateur personnel Mais dans de nombreux domaines de la science la reacutealisation drsquoune simulation impose lrsquousage drsquoun supercalculateur Elle est alors souvent le travail drsquoeacutequipes multidisciplinaires matheacutematiciens informaticiens speacutecialistes du domaine modeacuteliseacute Un deacutefi important attend les speacutecialistes du calcul dans les anneacutees agrave venir Pour faire face agrave la consommation eacutenergeacutetique on assiste agrave une eacutevolution de lrsquoarchitecture des superordinateurs vers des assemblages de centaines de milliers de processeurs relieacutes entre eux par des connexions de vitesses variables Cette eacutevolution neacutecessite de

46

Livre Blanc sur les Donneacutees au CNRS Eacutetat des Lieux et Pratiques - 2018

deacutevelopper de nouveaux algorithmes qui tiennent agrave la fois compte des opeacuterations agrave effectuer mais aussi des deacuteplacements des donneacutees neacutecessaires agrave ces opeacuterations

De plus les calculs peuvent geacuteneacuterer des donneacutees massives ( Big Data ) qursquoil faut ecirctre capable de stocker de compresser et drsquoanalyser En effet avec lrsquoaugmentation de la puissance de calcul les modegraveles sont reacutesolus sur des maillages drsquoune tregraves grande preacutecision Cela neacutecessite le traitement de tregraves grandes masses de donneacutees pour les preacute- et post-traitements des calculs Par exemple les entreacutees utiliseacutees pour lrsquoassimilation de donneacutees dans des modegraveles drsquooceacuteanographie et de meacuteteacuteorologie proviennent drsquoinstruments de mesure ( satellites sondeshellip ) fournissant des masses de donneacutees de plusieurs peacutetaoctets De mecircme lors des post-traitements des simulations la visualisation de donneacutees de tregraves grande taille soulegraveve de nombreuses difficulteacutes Lagrave aussi lrsquoinvention de nouveaux algorithmes est indispensable

Lrsquoimagerie

En deux deacutecennies lrsquoimagerie est devenue un domaine de recherche majeur Les applications sont multiples et la demande socieacutetale forte dans des domaines aussi varieacutes que les sciences du vivant dont les neurosciences la vision la conception assisteacutee par ordinateur la physique des ondes lrsquoastronomie lrsquoeacutelaboration de diagnostics automatiques la deacutetection de situations ou de comportements Les sciences de lrsquoimagerie posent de nouvelles questions matheacutematiques associeacutees aux problegravemes de formation drsquoacquisition de compression de transmission de modeacutelisation drsquoanalyse de traitement drsquointerpreacutetation de restauration drsquoarchivage des images

Les modes drsquoacquisition et de diffusion des images sont multiples et en constante eacutevolution ( teacuteleacutevision numeacuterique HD ou 3D p ex ) Des informations et signaux aussi varieacutes que le niveau de gris la couleur lrsquoinfrarouge proche ou thermique lrsquoimagerie agrave grande gamme dynamique ( high dynamic range ) lrsquoimagerie multispectrale lrsquoimagerie par reacutesonance magneacutetique de diffusion ( diffusion tensor image ) les signaux radarhellip forment des images pluriformes Modeacuteliser manipuler et traiter ces masses de donneacutees heacuteteacuterogegravenes et multidimensionnelles ( images videacuteos surfaces graphes ) est un enjeu scientifique et socio-eacuteconomique majeur Nombre de problegravemes en matheacutematiques de lrsquoimagerie neacutecessitent lrsquooptimisation de fonctionnelles tregraves complexes souvent non lisses parfois non convexes et toujours en tregraves grande dimension ( de

lrsquoordre de plusieurs millions de variables ) engendrant ainsi le traitement drsquoimportantes masses de donneacutees

Geacuteomeacutetrie et topologie

La gestion des donneacutees a eacutegalement impacteacute les matheacutematiques fondamentales telles que la geacuteomeacutetrie ou la topologie Gracircce aux performances accrues des moyens techniques certains problegravemes ont reacutecemment pris une ampleur diffeacuterente et profitent grandement de ces avanceacutees dans le traitement des donneacutees de tregraves grande taille Par exemple crsquoest le cas de lrsquoanalyse topologique des donneacutees En effet il srsquoagit drsquoextraire des informations geacuteomeacutetriques ( courbure ) et topologiques ( pattern ) drsquoun nuage de points dans un espace meacutetrique Lrsquoapproche consideacutereacutee repose sur les descripteurs homologiques persistants Lrsquoutilisation de nuages de points de tregraves grandes tailles en dimension eacuteleveacutee a mis en eacutevidence la pertinence de ces approches aux extensions et applications multiples systegravemes dynamiques astrophysique physique de mateacuteriaux nanomateacuteriaux

Un autre enjeu concerne les expeacuterimentations meneacutees sur des suites entiegraveres multi-indexeacutees correspondant agrave des quantiteacutes geacuteomeacutetriques associeacutees agrave certaines varieacuteteacutes ( algeacutebriques ou symplectiques ) Il srsquoagit dans un premier temps de calculer une eacutenorme quantiteacute de termes de la suite Cette importante masse de donneacutees permet alors pour les suites consideacutereacutees drsquoeacutetudier les proprieacuteteacutes remarquables de comprendre les relations entre ces nombres et drsquoextraire des relations avec drsquoautres proprieacuteteacutes geacuteomeacutetriques

273 Conclusion

Agrave lrsquoheure actuelle les chercheurs de lrsquoInsmi sont essentiellement des utilisateurs de donneacutees plutocirct que des producteurs de donneacutees mais cette tendance peut eacutevoluer tregraves rapidement Lrsquoaccessibiliteacute de donneacutees de plus en plus riches conduit les chercheurs en matheacutematiques agrave faire eacutemerger de nouvelles approches et agrave envisager des changements de paradigmes Cela ne peut ecirctre envisageable qursquoavec un accompagnement humain et mateacuteriel Cet accompagnement doit aussi permettre un accegraves agrave la formation et apporter un soutien agrave la transversaliteacute qui est un des fondements de la notion de laquo donneacutee raquo

LrsquoInsmi est un acteur essentiel dans lrsquoanalyse la modeacutelisation et lrsquointerpreacutetation des donneacutees

INSMI

47

Livre Blanc sur les Donneacutees au CNRS Eacutetat des Lieux et Pratiques - 2018

28 INSTITUT DES SCIENCES DE LrsquoUNIVERS ( INSU )

281 Introduction

LrsquoInstitut National des Sciences de lrsquoUnivers est un institut pluridisciplinaire regroupant les domaines drsquoastronomie et drsquoastrophysique de lrsquooceacutean de lrsquoatmosphegravere des sciences de la Terre des surfaces et interfaces continentales Comprendre et preacutevoir le fonctionnement et lrsquoeacutevolution de ces systegravemes dans leurs environnements est un enjeu scientifique fondamental avec de nombreuses applications socio-eacuteconomiques

Les disciplines de lrsquoINSU partagent une culture scientifique et des pratiques de recherche fondeacutees sur lrsquoobservation ( sol air mer spatial ) agrave long terme ( gt 30 ans ) des systegravemes naturels inteacutegrant un large spectre drsquoeacutechelles spatiales et temporelles et incluant une vaste palette drsquooutils drsquoanalyse in situ drsquoeacutechantillons issus des milieux naturels terrestres ou extraterrestres Ces disciplines integravegrent

bull La conception le deacuteveloppement et lrsquoopeacuteration de grands instruments et systegravemes drsquoobservation ( sol air mer spatial ) agrave lrsquoeacutechelle nationale et internationale

bull La simulation numeacuterique de lrsquoeacutevolution des systegravemes naturels permettant dans un cadre probabiliste drsquoeacutechantillonner des espaces de modegraveles complexes et de les mapper dans lrsquoespace des donneacutees ainsi que drsquoen quantifier les incertitudes et les eacuteveacutenements extrecircmes

bull Lrsquoarchivage la curation et la mise agrave disposition drsquoune grande diversiteacute de donneacutees ( observations simulations analyses ) et de modegraveles avec des standards de repreacutesentation et drsquoeacutechange de donneacutees de provenance de certification ( qualiteacute inteacutegriteacute veacuteraciteacute )

bull Le traitement et lrsquoanalyse de grands jeux de donneacutees multi-sources pour en extraire de nouvelles informations et les distiller sous des formes reacuteutilisables

bull La combinaison drsquoobservations et de simulations numeacuteriques dans un cadre probabiliste drsquoinfeacuterence et drsquoassimilation de donneacutees pour ameacuteliorer la description des modegraveles ainsi que leur capaciteacute preacutedictive

Les missions nationales drsquoobservation et de surveillance des aleacuteas naturels de lrsquoINSU srsquoappuient sur une organisation territoriale originale structureacutee autour des Observatoires des Sciences de lrsquoUnivers ( OSU ) qui deacuteploient des Services Nationaux drsquoObservation ( SNO ) A ces missions srsquoajoutent des missions programmatiques au travers de prospectives nationales pour deacutefinir une strateacutegie scientifique et drsquoobservation agrave long terme et identifier les eacutequipements nationaux et internationaux neacutecessaires agrave sa mise en œuvre

Les communauteacutes de lrsquoINSU sont inteacutegreacutees et organiseacutees aux niveaux national et international au travers de grandes missions spatiales de grands instruments et systegravemes drsquoobservation ainsi que drsquoinfrastructures distribueacutees et feacutedeacutereacutees drsquoarchivage et de distribution des donneacutees Lrsquoimportance des donneacutees a conduit les communauteacutes de lrsquoINSU agrave jouer un rocircle pionnier dans la promotion de donneacutees ouvertes partageacutees interopeacuterables et reacuteutilisables ainsi que du stewardship de ces donneacutees par les communauteacutes

Les pratiques de recherche reposent sur de larges workflows qui sont piloteacutes par les donneacutees et orchestrent leur analyse de pointe ( HDA pour High-end Data Analysis ) et calcul haute performance ( HPC pour High-Performance Computing ) Elles ont permis ces derniegraveres anneacutees des avanceacutees spectaculaires sur des problegravemes fondamentaux lieacutes agrave la compreacutehension de la formation des structures et de lrsquoeacutevolution des systegravemes Terre-Planegravetes-Univers ainsi que sur de grands enjeux socio-eacuteconomiques changements climatiques et environnementaux meacuteteacuteorologie spatiale surveillance et preacutevention des aleacuteas et risques naturels ( volcaniques sismiques ) exploration et gestion des nouvelles ressources eacutenergeacutetiques

48

Livre Blanc sur les Donneacutees au CNRS Eacutetat des Lieux et Pratiques - 2018

282 Contexte des donneacutees agrave lrsquoINSU

La probleacutematique des donneacutees agrave lrsquoINSU srsquoappuie sur un dispositif original

bull Les Observatoires des Sciences de lrsquoUnivers ( OSU )

Communs aux universiteacutes et au CNRS ils organisent reacutegionalement souvent en partenariat avec drsquoautres acteurs de la recherche ( p ex CEA CNES IFSTTAR IFREMER IPEV IRD IRSTEA Meacuteteacuteo-France ) les moyens neacutecessaires pour la reacutealisation et lrsquoopeacuteration drsquoinstruments et systegravemes drsquoobservation le traitement la curation et la mise agrave disposition de donneacutees ainsi que leur exploitation scientifique Ils feacutedegraverent des laboratoires mutualisent des ressources et des compeacutetences ( meacutethodologiques et technologiques ) et stimulent des recherches interdisciplinaires aux interfaces entre diffeacuterents domaines ( p ex astronomie sciences du climat geacuteophysique interne physique des particules eacutecologie sciences biologiques physique des mateacuteriaux santeacute ) A ces missions srsquoajoute le deacuteveloppement drsquoactions internationales

bull Les Services Nationaux drsquoObservations ( SNO )

Labeacuteliseacutes par lrsquoINSU ils sont deacuteployeacutes dans les OSU et deacuteclineacutes suivant les diffeacuterentes theacutematiques de lrsquoinstitut Ils couvrent diffeacuterents aspects des donneacutees meacutetrologie extrecircme de lrsquoespace et du temps instrumentation et opeacuteration de dispositifs drsquoobservation ( sol air mer espace ) et de sites instrumenteacutes archivage curation et distribution des donneacutees deacuteveloppement et distribution de codes et de bibliothegraveques numeacuteriques communautaires formation et diffusion des connaissances Leur peacuterimegravetre est celui sur lequel le Conseil National des Astronomes et Physiciens ( CNAP ) srsquoappuie pour eacutevaluer les missions drsquoobservation des personnels du corps des astronomes et physiciens

Les SNO sont rassembleacutes et structureacutes au sein drsquoActions Nationales pour lrsquoObservation ( ANO ) en lien avec des actions nationales et internationales du Ministegravere de lrsquoenseignement supeacuterieur de la recherche et de lrsquoinnovation ( SOERE IR TGIR ) notamment pour les infrastructures de recherche europeacuteennes ( inscrites sur la liste du forum ESFRI ) et les organisations internationales Les actions dans lesquelles lrsquoINSU est mobiliseacute reflegravetent la diversiteacute des dispositifs drsquoacquisition de donneacutees en sciences de lrsquoUnivers avec pour exemple

bull Infrastructures de Recherche

- En astronomie Centre de Donneacutees astronomiques de Strasbourg ( CDS ) contribution franccedilaise agrave lrsquoObservatoire Virtuel International en Astronomie ( IVOA ) instrumentation pour les grands teacutelescopes de lrsquoESO ( INSTRUM-ESO ) contribution franccedilaise au systegraveme de radioteacutelescope international LOw Frequency ARray ( LOFAR ) et son extension ( ENUFAR contribution au teacutelescope gamma High-Energy Stereoscopic System ( HESS en partenariat avec lrsquoIN2P3 )

- Pour les sciences de la planegravete Aerosols Clouds and Trace Gases Research Infrastructure ( ACTRIS en partenariat avec le CNES CEA IRD Meacuteteacuteo-Francehellip ) infrastructure nationale de modeacutelisation du systegraveme climatique de la Terre ( CLIMERI en partenariat avec le CEA Meacuteteacuteo-France IRD Cerfacs GENCI ) base antarctique franco-italienne ( CONCORDIA en partenariat avec IPEVhellip ) European Multidisciplinary Subsea Observatory ( EMSO en partenariat avec lrsquoIfremer ) In-service Aircraft for a Global Observing System ( IAGOS partenariat avec Meacuteteacuteo-France ) infrastructure de recherche littorale et cocirctiegravere ( ILICO en partenariat avec IFREMER IGN IRD et SHOM ) observatoire de la zone critique ( OZCAR en partenariat avec BRGM CNES IFSTTAR INRA IRD IRSTEA hellip ) reacuteseau sismologique et geacuteodeacutesique franccedilais ( RESIF partenariat avec BRGM CNES IRD IFSTTARhellip ) pocircle de donneacutees et services pour le systegraveme Terre ( en partenariat avec CNES IRD IFREMER IGN IRSTEA Meacuteteacuteo-Francehellip ) Service des Avions Franccedilais Instrumenteacutes pour la Recherche en Environnement ( SAFIRE en partenariat avec le CNES et Meacuteteacuteo-France ) les infrastructures analytiques comme la ligne FRAME de lrsquoESF et les instruments nationaux INSU qui seront coordonneacutes par le Reacuteseau Geacuteochimique et Expeacuterimental Franccedilais ( REGEF )

bull Tregraves Grandes Infrastructures de Recherche

Canada-France-Hawaiuml Teacutelescope ( CFHT ) Cherenkov Telescope Array ( CTA en partenariat IN2P3 et CEA ) Institut de radioastronomie millimeacutetrique ( IRAM ) European Gravitational Observatory ( EGO-Virgo en partenariat avec IN2P3 et INP ) reacuteseau de flotteurs profilants autonomes ( Euro-Argo ) contribution europeacuteenne au reacuteseau international Argo European Consortium for Drilling Research - Integrated Ocean Drilling Project ( ECORD-IODP ) Integrated Carbon Observation System ( ICOS ) Flotte oceacuteanographique franccedilaise ( avec Ifremer IPEV IRD )

INSU

49

Livre Blanc sur les Donneacutees au CNRS Eacutetat des Lieux et Pratiques - 2018

bull Organisations Internationales

laquo European Southern Observatory raquo ( ESO ) centre europeacuteen de preacutevision meacuteteacuteorologique-CPMMT ( ECWWF ) Intergovernmental Panel on Climate Change ( IPCC ) hellip

bull Insertion europeacuteenne

- Forum ESFRI European Research Infrastructure Consortium ( ERIC ) et clusters les infrastructures de lrsquoINSU sont pour la plupart inscrites sur la liste ESFRI soit comme projet soit comme landmark Crsquoest notamment le cas pour ACTRIS le projet ELT de lrsquoESO CTA EPOS IAGOS SKAhellip Euro-Argo EMSO ICOS et bientocirct EPOS ont le statut drsquoERIC

- Le cluster ASTERICS Astronomy ESFRI and Research Infrastructure Cluster a pour objectif la facilitation et la coordination de deacuteveloppements pour ELT SKA CTA et KM3NET tandis que le reacuteseau AENEAS est speacutecifiquement deacutedieacute au traitement des donneacutees issues du teacutelescope geacuteant Square Kilometer Array ( SKA )

Lrsquoimportance des observations spatiales dans les sciences de lrsquoUnivers se traduit par lrsquoimplication de lrsquoINSU dans de grands projets spatiaux deacutefinis et soutenus par le CNES en lien avec lrsquoAgence Spatiale Europeacuteenne ( ESA ) et drsquoautres agences internationales comme la NASA pour ( i ) la conception et le deacuteveloppement drsquoinstruments et de systegravemes drsquoacquisition embarqueacutes ( p ex satellites sondes interplaneacutetaires ballons ) ( ii ) des chaicircnes de traitement et de reacuteduction de donneacutees ( iii ) lrsquoexploitation scientifique de ces missions On peut citer par exemple ( i ) SOHO ( structure interne et atmosphegravere externe du SOLEIL vent solaire ) ( ii ) Solar Orbiter ( observation du SOLEIL ) iii ) Planck ( fond diffus cosmologique ) ( iv ) Gaia ( cartographie 3D de la Voie lacteacutee ) ( v ) RosettaPhilae ( eacutetude drsquoune comegravete et de son comportement agrave lrsquoapproche du SOLEIL ) ( vi ) CopernicusSentinel ( observation et surveillance de la Terre pour lrsquoenvironnement et la seacutecuriteacute ) ( vii ) et dans le futur Euclid ( caracteacuterisation de la nature de lrsquoeacutenergie noire ) ( viii ) Plato ( deacutetection et eacutetude de nouveaux systegravemes eacutetoiles-planegravetes ) ( ix ) InSight ( eacutetude de la structure interne de Mars )hellip

283 Probleacutematique des donneacutees agrave lrsquoINSU

Environnements de production de donneacutees

Les flux de donneacutees en sciences de lrsquoUnivers explosent Ils sont geacuteneacutereacutes aujourdrsquohui agrave la fois dans des edge-environments grands instruments et systegravemes drsquoobservation ( sol air mer espace ) ougrave les ressources ( eacutenergie communication stockage calcul ) sont rares et dans des centralised-environnements de type HPC grandes simulations numeacuteriques ougrave est concentreacute lrsquoessentiel des ressources de tregraves haute performance

Les principales caracteacuteristiques de ces flux ( continus sporadiques ) sont les volumes les vitesses ( geacuteneacuteration transmission preacutetraitement ) la varieacuteteacute ( structureacutee non-structureacutee mixte ) et la veacuteraciteacute des donneacutees

Ce double contexte creacutee aujourdrsquohui une collection de problegravemes dont le principal deacutefi est la logistique des donneacutees tout au long de leurs chaicircnes drsquoacquisition et drsquoutilisation gestion du positionnement et de lrsquoencodageagencement des donneacutees au cours du temps transmission distribution de ressources ( caching-bufferisation-stockage calcul ) et des services

Grands instruments et systegravemes drsquoobservation

Les flux agreacutegeacutes de donneacutees geacuteneacutereacutees par les dispositifs observationnels en sciences de lrsquoUnivers ont franchi aujourdrsquohui lrsquoeacutechelle de la dizaine de Poan ~30 Gojour pour les grands reacuteseaux de capteurs ( p ex RESIFEPOS ) ~ 50-100 Gojour pour les grandes missions spatiales ( p ex GAIA Euclid CopernicusSentinel ) gt 1 Tojour pour les grands teacutelescopes au sol actuels et futurs ( p ex ALMA ELThellip ) ~1 Pojour ( p ex LOFAR ) et prochainement ~100 Pojour ( p ex SKA ) nouvelle geacuteneacuteration de grands interfeacuteromegravetres dans le domaine des radio-freacutequences

La logistique des donneacutees varie en fonction des dispositifs de mesure ( sol air mer spatial in situ ) de plus en plus complexes ( multi-capteurs multi-freacutequences multi-pixels ) et de leur geacuteomeacutetrie centraliseacutee ( p ex teacutelescopes satellites ) ou distribueacutee globalement ou reacutegionalement ( reacuteseaux drsquoantennes et de capteurs ) Avec lrsquoexplosion des volumes et des vitesses des donneacutees associeacutees aux nouvelles geacuteneacuterations de grands instruments et systegravemes drsquoobservation il devient impossible de transfeacuterer et drsquoarchiver

50

Livre Blanc sur les Donneacutees au CNRS Eacutetat des Lieux et Pratiques - 2018

lrsquoensemble des donneacutees et la reacuteduction des donneacutees est devenue un enjeu critique ( particuliegraverement pour les observations spatiales ) La logistique des donneacutees implique de deacuteplacer lrsquointelligence vers la peacuteripheacuterie au plus proche de leurs sources souvent multiples afin de ( i ) preacutetraiter ( synchronisation agreacutegation combinaison ) et reacuteduire ces flux en continu au cours de leur transport au travers de reacuteseaux ( statiques ou dynamiques ) de bandes passantes heacuteteacuterogegravenes et une varieacuteteacute de edge-technologies ( cachingbufferisation calcul ) ( ii ) agreacuteger en bout de chaicircne ces flux dans des plateformes centraliseacutees de plus en plus proches des sources disposant de larges ressources ( stockage calcul communication ) afin de permettre des traitements locaux ( tels que calibration transformation extractionreconstruction ) des constructions et reacuteductions intelligentes de nouveaux objets de donneacutees ( p ex eacuteveacutenements sources imagesvisibiliteacutes faisceaux ) ainsi que leur archivage ( iii ) redistribuer de larges sous-ensembles de donneacutees vers des plateformes distribueacutees et feacutedeacutereacutees de ressources et de services pour leur exploitation scientifique par les communauteacutes

La reacuteduction et la logistique des donneacutees des tregraves grands instruments et systegravemes drsquoobservation sont deacutefinies dans le cadre drsquoorganisations internationales associant souvent au cocircteacute des partenaires eacutetrangers drsquoautres instituts du CNRS ( p ex IN2P3 ) et drsquoautres acteurs franccedilais de la recherche ( p ex CNES CEA Ifremer etc ) Un autre deacutefi ( plus proceacutedural que scientifique ou technologique ) est drsquoassurer la coheacuterence et drsquoidentifier les niveaux possibles de feacutedeacuteration et de mutualisation entre diffeacuterents projets en phase avec les applications et les pratiques de recherche des communauteacutes utilisatrices de ces donneacutees

Grandes simulations numeacuteriques

Les simulations numeacuteriques HPC sont aujourdrsquohui de grands instruments scientifiques agrave part entiegravere pour nombre de disciplines des sciences de lrsquoUnivers ( p ex climat oceacutean atmosphegravere cosmologie et astrophysique astrophysique des hautes eacutenergies geacuteophysique ) Elles permettent de deacuteduire lrsquoeacutevolution de systegravemes naturels complexes agrave partir de modegraveles multi-eacutechelles et multi-physiques souvent coupleacutes et au travers de reacutealisations drsquoensembles drsquoeacutechantillonner des espaces de modegraveles complexes et de les mapper dans lrsquoespace des donneacutees

Ces simulations geacutenegraverent des flux ( volumes vitesses ) tregraves importants de donneacutees au sein des environnements HPC centraliseacutes Les volumes de donneacutees produits ont deacutepasseacute aujourdrsquohui lrsquoeacutechelle de la dizaine de peacutetaoctets ( p ex modeacutelisation du climat cosmologie numeacuterique sismologie ) En retour ces simulations permettent la conception de grands instruments et systegravemes drsquoobservation de plus en plus complexes ainsi que de leurs chaicircnes de traitement et de reacuteduction de donneacutees via la modeacutelisation de leur fonctionnement dans les environnements drsquoacquisition

LrsquoINSU est aujourdrsquohui un des principaux utilisateurs des grands centres de calcul nationaux ( GENCI ) Pour lrsquoanneacutee 2017 les disciplines de lrsquoINSU repreacutesentaient ( hors exercice CMIP6 ) 25 des heures attribueacutees ( CT1 environnement et CT4 astrophysique-geacuteophysique ) ainsi que ~80 des ressources de stockage alloueacutees Certaines communauteacutes utilisent eacutegalement les grands centres de calcul europeacuteens ( Tiers-0 Prace ) et internationaux ( DOE-NSF aux Etats-Unis JAMSTEC au Japon )

La logistique des donneacutees au cours de ces simulations ( positionnement des donneacutees au travers de la hieacuterarchie de meacutemoire couplages entre modegraveles reacuteduction des entreacuteessorties agencement et repreacutesentation des donneacutees ) est devenue critique Lrsquoanalyse in situ des flux de donneacutees via des meacutethodes de type laquo apprentissage machine raquo et des environnements immersifs intelligents ( capteurs virtuels ) renforce les besoins drsquoune convergence entre HPC et HDA Elle doit ecirctre coupleacutee avec des systegravemes fins de provenance pour le controcircle dynamique de ces simulations le pilotage de workflows orchestrant des ensembles de simulations ainsi que pour lrsquooptimisation ( latence ) des mouvements des donneacutees la reacuteduction des entreacuteessorties et des volumes de donneacutees agrave stocker

Cette logistique est eacutegalement complexe en raison du cycle de vie des reacutesultats de ces simulations qui impliquent de les redistribuer et de les archiver avec leurs modegraveles vers la peacuteripheacuterie pour leur exploitation par les communauteacutes scientifiques agrave lrsquoeacutechelle nationale ou internationale intercomparaison de modegraveles analyse combineacutee avec les observations Un exemple type est fourni dans la communauteacute de modeacutelisation du climat ( p ex exercices de simulations CMIP Coupled Model Intercomparison Project ) Un autre exemple est fourni par la communauteacute de la cosmologie numeacuterique ( p ex consortium national DEUS Dark Energy Universe Simulation )

INSU

51

Livre Blanc sur les Donneacutees au CNRS Eacutetat des Lieux et Pratiques - 2018

Workflows et exploitation scientifique des donneacutees

Un autre aspect critique est la logistique des donneacutees tout au long de larges chaicircnes drsquoexploitation scientifique qui sont piloteacutees par les donneacutees elles-mecircmes et orchestrent des eacutetapes de calcul intensif et drsquoanalyse

Ces workflows ne sont pas des outils logiciels isoleacutes ou des codes applicatifs mais des configurations complexes et variables de logiciel de mateacuteriel et de flux de donneacutees qui traduisent des phases de processus drsquoinfeacuterence en sciences de lrsquoUnivers Lrsquoespace multidimensionnel de donneacutees que ces workflows deacutefinissent implique que chacune de ces eacutetapes doit acceacuteder manipuler et combiner de maniegravere coordonneacutee de larges volumes et une grande diversiteacute de donneacutees

Traiter et analyser de larges volumes de donneacutees ( observations simulations )

Ces workflows orchestrent typiquement des eacutetapes drsquoingestionagreacutegation de traitement et drsquoanalyse de donneacutees afin drsquoen extraire de nouvelles informations

La phase drsquoingestion implique le stockage temporaire ( p ex bufferisation caching ) de larges volumes de donneacutees multi-sources sur des dureacutees variables ( mois anneacutees ) en fonction du cycle drsquoutilisation des donneacutees ainsi que des services ( p ex indexation bases de donneacutees et de meacutetadonneacutees provenance ) et des systegravemes de documentation ( p ex donneacutees modegraveles ) Elle varie suivant la provenance des donneacutees en continu depuis la peacuteripheacuterie sur requecircte depuis des feacutedeacuterations drsquoarchives et en combinaison observations et reacutesultats de simulations

Les phases de traitement et drsquoanalyse concernent diffeacuterentes eacutetapes de complexiteacute variable le plus souvent ( i ) filtrage reacuteduction de bruit reconstruction bas niveau ( ii ) deacutetection ( p ex eacuteveacutenements transitoires anomalies ) ( iii ) segmentation ( iv ) extraction ( p ex objets caracteacuteristiques statistiques ) ( v ) classificationagreacutegation ( vi ) transformations complexes ( p ex images correacutelations croiseacutees steering functions ) Les phases drsquoanalyse mettent souvent en jeu des meacutethodes statistiques ( p ex Monte Carlo ) et drsquolaquo apprentissage machine raquo

La logistique des donneacutees et la diversiteacute de ces workflows exploitent des plateformes de services de calcul et drsquoanalyse disposant drsquoenvironnements flexibles et reacuteactifs qui feacutedegraverent et mutualisent des services ( stockage bufferisation caching calcul HTC calcul parallegravele hybride communication logiciel ) Elles assurent des flux de traitement proches des vitesses drsquoaccegraves aux donneacutees Elles supportent des modegraveles de langage et drsquoexeacutecution en streaming avec des systegravemes fins de provenance coupleacutes agrave des technologies de virtualisation ( conteneurs ) et adapteacutes au Big Data ( p ex Spark Storm ) Elles permettent eacutegalement la mutualisation et lrsquoutilisation de meacutethodes et drsquooutils logiciels de traitement adeacutequatement organiseacutes et modulables dans diffeacuterents contextes ( p ex librairies Python modules de traitements Jupyter Notebooks )

Ces plateformes sont heacutebergeacutees dans des infrastructures Tiers-2-Tiers-3 adosseacutees agrave des OSU ou des feacutedeacuterations de recherche ( p ex Observatoire de Paris OCA IPSL IPGP OSUG OMP ) souvent en lien avec des meacutesocentres reacutegionaux ( p ex IDRIS Gricad Calmip Meso-PSL ) Elles offrent des capaciteacutes de stockage de plusieurs peacutetaoctets et des puissances de calcul proches de la centaine de teacuteraflops Un exemple de feacutedeacuteration internationale est lrsquoESGF ( Earth System Grid Federation ) en modeacutelisation du climat avec le nœud national ( CICLAD-CLIMSERV-IDRIS ) de lrsquoIPSL ESGF permet de distribuer cataloguer des dizaines de peacutetaoctets de donneacutees geacuteneacutereacutees par les simulations CMIP drsquoy acceacuteder de maniegravere seacutecuriseacutee et de les analyser avec des observations multi sources

Infeacuterence et assimilation de donneacutees combinant observations et simulations

Ces workflows combinent preacutedictions ( simulations numeacuteriques ) et observations multi-sources au sein drsquoenvironnements centraliseacutes de type HPC Les approches de type infeacuterenceinversion ( p ex cosmologie et astrophysique sismologie geacuteodeacutesie gravimeacutetrie ) permettent dans un cadre probabiliste drsquoameacuteliorer la description des modegraveles de systegravemes naturels ainsi que la reconstruction de leurs eacutetats Les approches drsquoassimilation de donneacutees ( p ex climat et meacuteteacuteorologie champs magneacutetiques terrestres et planeacutetaires ) dans un cadre variationnel ou statistique permettent drsquoameacuteliorer les preacutevisions de lrsquoeacutevolution de ces modegraveles en reconstruisant un eacutetat initial aussi consistant que possible avec leur dynamique

52

Livre Blanc sur les Donneacutees au CNRS Eacutetat des Lieux et Pratiques - 2018

Infeacuterence et assimilation de donneacutees sont des workflows complexes orchestrant de multiples phases HPC ( simulation numeacuterique ) et HDA ( traitement et analyse de donneacutees ) Avec lrsquoeacutevolution rapide des capaciteacutes de calcul et des meacutethodes numeacuteriques ils exploitent aujourdrsquohui des approches probabilistes au travers drsquoensembles de simulations numeacuteriques permettant drsquoexplorer des espaces de modegraveles complexes et leurs conditions initiales ainsi que de quantifier les incertitudes directes et inverses Ils combinent souvent laquo apprentissage machine raquo optimisation stochastique theacuteorie de lrsquoinformation et transport optimal

Cette convergence entre HPC et HDA deacutefie les environnements de type HPC ( accegravescommunications stockage calcul et meacutemoire ) ainsi que leur exploitation ( c-agrave-d ordonnancement par lots ) Un aspect critique est la logistique des flux ( volumes vitesses ) de donneacutees transmis ( souvent en continu ) depuis des sources peacuteripheacuteriques et geacuteneacutereacutes au sein des environnements HPC au cours des eacutetapes de simulation et drsquoanalyse ( combinant observations et reacutesultats de simulation ) Par exemple pour chaque preacutevision meacuteteacuteorologique reacutegionale une grande diversiteacute et un grand volume de donneacutees doivent ecirctre collecteacutes depuis des sources peacuteripheacuteriques ( satellites catasondes stations au sol boueacutees observations actuelles et historiques ) et centraliseacutes ( simulations des caracteacuteristiques et des processus des modegraveles du systegraveme Terre ) Toutes ces informations sont assimileacutees dans des moteurs drsquoassimilation complexes et non-lineacuteaires pour preacutevoir des caracteacuteristiques meacuteteacuteorologiques et les distiller pour leur utilisation par diffeacuterents acteurs

Ces workflows requiegraverent les capaciteacutes haute-performance ( stockage calcul communication ) des grands centres europeacuteens et nationaux ( Tier-0 et Tier-1 ) voire reacutegionaux ( Tier-2 ) qui doivent offrir des politiques drsquoaccegraves et drsquoexploitation adapteacutees ( HPCHDA ) et ecirctre feacutedeacutereacutes avec des plateformes distribueacutees ( archivage edge-computing ) pour la transmission et le traitement en cours de transport des flux de donneacutees depuis des sources peacuteripheacuteriques

Archivage curation accegraves et geacuterance des donneacutees

Une mission importante de lrsquoINSU est de rendre publiques eacuteventuellement apregraves une courte peacuteriode drsquoexclusiviteacute les donneacutees issues des grands instruments et systegravemes drsquoobservation et des simulations numeacuteriques Cette diffusion rapide agrave lrsquoensemble de la communauteacute vise

agrave maximiser le retour scientifique drsquoinvestissements lourds Cela nrsquoa de sens que si les donneacutees peuvent ecirctre facilement deacutecouvertes acceacutedeacutees interopeacutereacutees et reacuteutiliseacutees dans une vision inteacutegreacutee des pheacutenomegravenes et des systegravemes observeacutes au cours du temps

Les missions essentielles des OSU des services nationaux drsquoobservation et des actions nationales drsquoobservation sont lrsquointeacutegrationagreacutegation la curation la documentation la publication et la diffusion de ces donneacutees ainsi que leur apporter de la valeur ajouteacutee au sein de structures deacutedieacutees qui mutualisent les expertises et les ressources neacutecessaires Cela recouvre un certain nombre drsquoactiviteacutes sur le cycle de vie des donneacutees qui va bien au-delagrave de la dureacutee de vie des instruments et systegravemes drsquoobservation

bull Le traitement et calibration des donneacutees recouvrent des chaicircnes de traitement systeacutematique et la production de donneacutees de haut niveau pour les communauteacutes

bull La curation des donneacutees recouvre lrsquoorganisation lrsquo inteacutegration lrsquoagreacutegation lrsquoannotation la documentation et le reacutefeacuterencement des donneacutees Elle integravegre des chaicircnes de controcircle et des protocoles de certification des qualiteacute inteacutegriteacute veacuteraciteacute et pertinence des donneacutees sur leur cycle de vie ainsi que des systegravemes permettant de tracer leur provenance et leurs changements

bull Lrsquoarchivage et le reacutefeacuterencement des donneacutees avec des services avanceacutes ( indexation bases de donneacutees et de meacutetadonneacutees provenance ) assurent la persistance des donneacutees et des meacutetadonneacutees sur leur cycle de vie

bull La diffusion et la publication des donneacutees reposent sur une description standardiseacutee des donneacutees ( observations reacutesultats de simulations ) et des modegraveles avec des standards de meacutetadonneacutees drsquoaccegraves et drsquoeacutechange des identificateurs agreacuteeacutes ainsi que des services avanceacutes pour en faciliter la deacutecouverte lrsquoaccegraves lrsquointeropeacuterabiliteacute et la manipulation via les observatoires virtuels les pocircles de donneacutees et leurs deacuteveloppements Ces standards sont deacutefinis au niveau des diffeacuterentes disciplines dans le cadre de structures internationales ( p ex IVOA FDSN UNAVCO GEOGEOSS ESGF )

Ces activiteacutes concernent eacutegalement agrave des degreacutes divers selon les communauteacutes ( astronomie amp astrophysique oceacutean-atmosphegraverehellip ) la mise agrave disposition le deacuteveloppement et la maintenance de codes numeacuteriques des bibliothegraveques de traitement et drsquoanalyse de reacutefeacuterence ou communautaires

INSU

53

Livre Blanc sur les Donneacutees au CNRS Eacutetat des Lieux et Pratiques - 2018

Plus reacutecemment elles concernent de nouveaux objets associeacutes agrave des identificateurs agreacuteeacutes ( projets ou publications ) qui permettent de laquo conteneuriser raquo donneacutees description des dispositifs expeacuterimentaux et chaicircnes de traitement et drsquoanalyse afin de preacuteserver lrsquoexpertise des donneacutees faciliter leur reacuteutilisation dans et en dehors du contexte de leur acquisition et permettre la reproductibiliteacute des reacutesultats scientifiques

Un nombre croissant drsquoenjeux scientifiques ( modeacutelisation du climat physique solaire et stellaire eacutetude du champ magneacutetique terrestre signatures des ondes gravitationnelles et des grands tremblements de terre surveillance des aleacuteas naturels changements environnementaux ) impliquent une compreacutehension preacutedictive drsquoun mecircme objet ou systegraveme Ces approches interdisciplinaires avec des meacutethodes de type multi-messagers requiegraverent un accegraves fluide agrave des donneacutees multi-sources issues de contextes scientifiques et de modaliteacutes observationnelles ( sol air mer spatial ) diffeacuterents ainsi que des outils translationnels pour les combiner les croiser et les syntheacutetiser au sein de chaicircnes de traitement et drsquoanalyse souvent coupleacutees agrave des simulations numeacuteriques Deacutecouvrir ces donneacutees ainsi que les ressources et services associeacutes demande une harmonisation ( agrave travers diffeacuterentes disciplines ) des modegraveles de donneacutees et une standardisation ( au sein des disciplines ) en particulier pour ( i ) les proceacutedures de controcircle de qualiteacute drsquointeacutegriteacute et de veacuteraciteacute des donneacutees ainsi que leur documentation ( ii ) les meacutetadonneacutees les systegravemes drsquoinformation et les registres

Les volumes et la diversiteacute des donneacutees ainsi que les pratiques de recherche de plus en plus interdisciplinaires ont conduit lrsquoINSU agrave reacuteorganiser les donneacutees autour de

bull Plateformes reacutegionales de ressources et de services Adosseacutees aux OSU elles feacutedegraverent et mutualisent des ressources ( stockage calcul ) des services ( bases de donneacutees et de meacutetadonneacutees web-services ) et une masse critique drsquoexpertises pour lrsquoarchivage la curation et la distribution des donneacutees Elles sont associeacutees agrave des programmes et instruments labeacuteliseacutes par lrsquoINSU et peuvent ecirctre multitheacutematiques Ces infrastructures Tier-3 souvent doteacutees drsquoune structure de pilotage heacutebergent des ressources de stockage ( de quelques centaines de teacuteraoctets agrave quelques peacutetaoctets ) et de calcul pour les phases de traitement systeacutematique et de curation Avec lrsquoaugmentation des volumes et de la diversiteacute des donneacutees ainsi que la complexiteacute

croissante des activiteacutes de traitement et de curation les besoins de stockage et de calcul croissent rapidement En synergie avec les plateformes de calcul et drsquoanalyse elles ont pour vocation de se rapprocher de Tier-2 reacutegionaux deacutesireux drsquoexplorer de nouveaux modegraveles drsquoarchitectures centreacutees sur les donneacutees de langage et drsquoexeacutecution de services et drsquoenvironnements drsquoaccegraves et drsquoutilisation

bull Pocircles theacutematiques de services et de donneacutees Ils ont pour vocation de fournir un portail unique au niveau national et des plateformes de services avanceacutes facilitant la deacutecouverte lrsquoaccegraves la combinaison et lrsquoutilisation scientifique drsquoensembles de donneacutees multi-types multi-sources issus drsquoexpeacuteriences et de dispositifs observationnels ( sol air mer spatial ) diffeacuterents Ils srsquoappuient sur les plateformes reacutegionales et les feacutedegraverent nationalement Ils sont doteacutes drsquoune structure de pilotage et drsquoutilisateurs et leur gestion associe souvent drsquoautres organismes ( p ex CNES CEA Ifremer IRD Meacuteteacuteo-France ) On peut citer ( i ) en astronomie et astrophysique les pocircles de physique des plasmas physique solaire et stellaire et de matiegravere interstellaire ( ii ) en oceacutean-atmosphegravere les pocircles Aeris et Odatis respectivement pour les donneacutees et services atmospheacuteriques et oceacuteaniques ( iii ) en sciences de la Terre le pocircle de donneacutees ForMTer ( avec RESIFEPOS ) pour les donneacutees drsquoobservation ( sol spatial ) de la terre solide ( iv ) en surfaces et interfaces continentales le pocircle Theia incluant notamment DINAMIS le dispositif de mise agrave disposition des images satellites haute deacutefinition

Un exemple phare est le centre de donneacutees de Strasbourg ( CDS ) en astronomie contribution franccedilaise agrave lrsquoIVOA ( International Virtual Observatory Alliance ) qui fournit des standards de web-services de repreacutesentation et drsquointeropeacuterabiliteacute de donneacutees et de meacutetadonneacutees avec drsquoautres standards pour le reacutefeacuterencement lrsquoaccegraves lrsquoeacutechange la provenance des donneacutees et leur publication ainsi que des outils drsquoexploration et de visualisation de ces donneacutees Le reacutesultat est que plus de 90 des donneacutees astronomiques mondiales sont accessibles et utilisables scientifiquement aujourdrsquohui avec des outils et des logiciels partageacutes internationalement et avec une tregraves forte visibiliteacute franccedilaise gracircce au CDS mais aussi agrave des projets comme VAMDC22 pour la distribution des donneacutees atomiques et moleacuteculaires

Pour les tregraves grands instruments et systegravemes drsquoobservation la strateacutegie drsquoarchivage et la politique drsquoaccegraves aux donneacutees sont deacutefinies dans le cadre

22 httpwwwvamdcorg

54

Livre Blanc sur les Donneacutees au CNRS Eacutetat des Lieux et Pratiques - 2018

des projets internationaux et des organisations internationales qui les portent Elles reposent sur des plateformes de ressources et de services distribueacutees et feacutedeacutereacutees agrave lrsquoeacutechelle internationale comme dans le cas ( i ) des grands projets spatiaux ( Euclid Gaia Planck Copernicus ) ( ii ) des tregraves grands teacutelescopes ( ESO CFHT IRAM SKA ) ( iii ) des grands systegravemes drsquoobservation ( RESIFEPOS Euro-Argo ICOS IAGOS ACTRIS OZCAR EmodNet ) ( iv ) des intercomparaisons de modegraveles coupleacutes ( CLIMERI ) en modeacutelisation du climat ( ESGF ) La vocation du pocircle de donneacutees et services pour le systegraveme Terre est notamment de faciliter lrsquoaccegraves et lrsquousage des donneacutees issues de ses diffeacuterents compartiments Ces strateacutegies srsquoappuient au niveau national sur des nœuds heacutebergeacutes geacuteneacuteralement dans de grands centres nationaux ( CC-IN2P3 IDRIS ) ou meacutesocentres reacutegionaux ( Meso-PSLObservatoire de Paris OCA IPSL IPGP GricadOSUP ) souvent en partenariat avec drsquoautres instituts du CNRS ( p ex IN2P3 ) et organismes de recherche ( CNES CEA Meacuteteacuteo France Ifremer )

283 Conclusions et eacuteleacutements de reacuteflexion

De nouvelles deacutecouvertes scientifiques en sciences de lrsquoUnivers ainsi que de grands enjeux sociaux et eacuteconomiques ( p ex changement climatique aleacuteas naturels et environnementaux ressources eacutenergeacutetiques et deacuteveloppement durable ) requiegraverent une grande diversiteacute de donneacutees dont les reacutesolutions integravegrent un tregraves large spectre drsquoeacutechelles ( temps espace freacutequence ) ainsi que des meacutethodes drsquoanalyse et de modeacutelisation pour en extraire et inteacutegrer de nouvelles informations sur la formation des structures et lrsquoeacutevolution des systegravemes Terre-planegravetes-univers ainsi que leurs eacuteveacutenements transitoires et extrecircmes

Avec les nouvelles geacuteneacuterations drsquoinstruments et de systegravemes drsquoobservation ( sol air mer spatial ) et de simulations numeacuteriques les flux de donneacutees explosent aujourdrsquohui agrave la fois dans des edge-environments globalement distribueacutes et des environnements centraliseacutes ( HPC Cloud ) Ce changement de paradigme constitue un deacutefi pour la logistique des donneacutees tout au long de workflows qui traversent la diversiteacute de ces systegravemes drsquoacquisition et un continuum de bandes passantes et de plateformes technologiques

Un enjeu concomitant commun agrave ces deux environnements est la reacuteduction laquo intelligente raquo des donneacutees en continu au cours de leur transport

La strateacutegie agrave suivre est incertaine dans un paysage national ( enseignement-recherche infrastructures ) et europeacuteen ( EOSC European Open Science Cloud ) et des technologies en pleine eacutevolution Elle tend agrave se formuler comme la co-conception drsquoun instrument scientifique piloteacutee par la logistique des donneacutees et les caracteacuteristiques des workflows qui au travers drsquoun modegravele drsquoarchitecture de type sablier ( c-agrave-d hourglass architecture ) permettrait drsquoaccommoder la grande diversiteacute de ces workflows et de leurs impleacutementations Avec lrsquoideacutee qursquoau centre de ce modegravele une interface commune ou spanning layer peut ecirctre eacutetroitement conccedilue et implanteacutee afin drsquoabstraire ces workflows et leur flux de donneacutees et les instancier ( via des technologies de virtualisation ) au travers drsquoune varieacuteteacute croissante et des configurations complexes de ressources ( stockage calcul communication ) de plateformes technologiques et drsquoenvironnements comprenant en particulier

bull Edge-infrastructures qui via une diversiteacute croissante de edge-technologies ( p ex cache buffer stockage calcul communication ) permettent de traiter agreacuteger reacuteduire les flux ( volumes vitesses ) de donneacutees geacuteneacutereacutees par les nouveaux grands instruments et systegravemes drsquoobservation de plus en plus complexes ( multi-capteurs multifreacutequences ) ainsi que de piloter leurs systegravemes drsquoacquisition ( antenne optique ) au plus proche et dans des environnements reculeacutes

bull Plateformes de services de calcul et drsquoanalyse de donneacutees qui feacutedegraverent et mutualisent des services flexibles de stockage de calcul ( HTC HPC ) de communication et de logiciel permettant des flux de traitement proches des vitesses drsquoaccegraves aux donneacutees Ces infrastructures de type edge-computing supportent des utilisateurs et des applications multiples ( p ex le service labelliseacute Terapix agrave lrsquoIAP pour lrsquoexploitation des donneacutees MegaCAM du CFHT ou encore lrsquoARC node ALMA agrave lrsquoIRAM pour la reacuteduction des donneacutees de lrsquointerfeacuteromegravetre millimeacutetrique ALMA de lrsquoESO ) dans un environnement collaboratif reacuteactif et reacutesilient qui integravegre des eacuteleacutements de HPC et HDA avec des services Cloud de traitement en flux des technologies de virtualisation ( conteneurs ) et drsquoexeacutecution adapteacutes au Big Data ( p ex Spark Storm ) Adosseacutees agrave des OSU ou feacutedeacuterations de recherche elles peuvent ecirctre feacutedeacutereacutees ( p ex ESGF )

INSU

55

Livre Blanc sur les Donneacutees au CNRS Eacutetat des Lieux et Pratiques - 2018

bull Plateformes centraliseacutees ( HPC ) qui concentrent des ressources de tregraves haute performance et par deacutefinition rares dont lrsquoutilisation est maximiseacutee pour servir des communauteacutes multiples Si lrsquooptimisation des applications en sciences de lrsquoUnivers pour lrsquoexploitation des nouvelles architectures hybrides et massivement parallegraveles demeure un enjeu important ces applications ( ensembles de simulations numeacuteriques infeacuterenceinversion assimilation de donneacutees ) ainsi que lrsquoutilisation croissante de meacutethodes type laquo apprentissage machine raquo requiegraverent une convergence toujours plus fine entre HPC et HDA avec de meilleurs support et interopeacuterabiliteacute de leurs modegraveles drsquoexploitation ( batch et streaming processing ) des technologies de virtualisation ainsi qursquoune gestion des ressources avec des systegravemes centraliseacutes intelligents piloteacutes par la provenance des flux de donneacutees permettant le controcircle de workflows complexes Lrsquoingestion drsquoeacutenormes flux de donneacutees depuis la peacuteripheacuterie reste un enjeu qui deacutefie leurs capaciteacutes

bull Plateformes drsquoarchivages curation et distribution des donneacutees Ces plateformes adosseacutees aux OSU feacutedegraverent et mutualisent les ressources services et expertises pour le stockage la curation et la mise agrave disposition drsquoune grande diversiteacute de donneacutees ( tels que eacuteveacutenements objets images seacuteries temporelles ) dont le cycle de vie en sciences de lrsquoUnivers est bien plus long que la dureacutee de vie des instruments et systegravemes drsquoobservation Les volumes et la diversiteacute de ces donneacutees impliquent des capaciteacutes croissantes de calcul pour leur traitement et leur curation

Le mouvement des donneacutees et des informations a un coucirct drsquoautant plus important que ces transferts doivent ecirctre rapides et traverser des frontiegraveres drsquoun site agrave lrsquoautre drsquoun systegraveme HPC vers des plateformes drsquoanalyse au sein drsquoun mecircme site entre nœuds drsquoun mecircme systegraveme drsquoun systegraveme de stockage agrave un autre

Un enjeu commun est lrsquoefficience eacutenergeacutetique la reacuteduction des coucircts de fonctionnement et la durabiliteacute ce qui passe entre autres par ( i ) utiliser des plateformes ( HPC calcul et analyse ) adapteacutees agrave chacune des eacutetapes de ces workflows ( ii ) eacuteviter des reacutepeacutetitions inutiles de transferts ( cachingbufferisation ) et reacuteduire leurs vitesses ( pre-fetching ) et leurs volumes ( compression ) ( iii ) reacuteduire les distances et mutualiser les environnements drsquoheacutebergement ( colocalisation des plateformes HPC et des services drsquoanalyse des plateformes drsquoarchivage et de curation de donneacutees et

des plateformes de calcul et drsquoanalyse ) ( iv ) faciliter la reacuteutilisation des calculs et des donneacutees au sein et entre domaines ( observations et reacutesultats de simulations meacutetadonneacutees catalogues )

Lrsquoorganisation territoriale de lrsquoINSU structureacutee autour des OSU et les ANO permet de reacutepondre aux points souleveacutes preacuteceacutedemment ( i ) centraliser logiquement lrsquoaccegraves et lrsquoutilisation de donneacutees via les observatoires virtuels et les pocircles de donneacutees associant plateformes de services et feacutedeacuteration de plateformes drsquoarchivage et de curation de donneacutees en liaison avec drsquoautres organismes ( CNES Ifremer Meacuteteacuteo-France CEAhellip ) ( ii ) rapprocher plateformes drsquoarchivage et de curation de donneacutees plateformes de calcul et drsquoanalyse et centres nationaux ( CC-IN2P3 IDRIS ) et meacutesocentres reacutegionaux ( Gricad Calmiphellip ) ( iii ) rapprocher plateformes HPC et services drsquoanalyse dans le cadre de GENCI ( p ex IDRIS TGCC CINES ) ( iv ) faciliter lrsquoaccegraves seacutecuriseacute le partage lrsquoexploitation de reacutesultats de simulations et drsquoobservations par une large communauteacute ( p ex CLIMERI IPGP )

Un autre aspect concerne les tregraves grands instruments et systegravemes drsquoobservation ( sol air mer spatial ) porteacutes par des projets et des organisations internationaux Dans ce cadre explorer avec drsquoautres instituts du CNRS ( p ex IN2P3 ) et organismes ( CNES CEAhellip ) les niveaux de feacutedeacuteration et de mutualisation possibles des plateformes scientifiques et drsquoarchivage en leur sein ( Euclid Gaiahellip ) et entre ces projets ( CTA SKAhellip ) est un nouvel enjeu

Une telle strateacutegie doit ecirctre en phase avec les pratiques et les applications scientifiques Elle srsquoaccompagne drsquoenjeux proceacuteduraux et humains associeacutes agrave lrsquoorganisation et la mutualisation des expertises scientifiques meacutethodologiques et technologiques neacutecessaires pour le stewardship des donneacutees et des plateformes de ressources et de services dans ce nouveau contexte Elle implique eacutegalement une eacutevolution des politiques drsquoaccegraves drsquoutilisation et drsquoexploitation des centres nationaux et reacutegionaux qui doivent offrir les services neacutecessaires agrave ces environnements data-centric

Il y a des limites agrave ce qui peut en ecirctre obtenu en sciences de lrsquoUnivers ougrave les efforts drsquoobservation sont fondamentalement globalement distribueacutes internationalement structureacutes et financeacutes par diffeacuterents projets et organisations

56

Livre Blanc sur les Donneacutees au CNRS Eacutetat des Lieux et Pratiques - 2018

Par exemple les instituts de recherche en charge de services de reacuteponse rapide de surveillance et drsquoeacutevaluation drsquoaleacuteas naturels ainsi que les grandes universiteacutes de recherche ont besoin de deacutemontrer des ressources qui leur permettent drsquoattirer des chercheurs et des ingeacutenieurs de premier plan ainsi que des contrats et des financements Il y a donc des pressions pour maintenir la visibiliteacute et une diversiteacute de ressources indeacutependantes Une strateacutegie recouvrant des ressources autonomes doit minimiser les coucircts tout en respectant ces problegravemes organisationnels et sociologiques

Pour relever ces nouveaux deacutefis le dispositif des OSU ANO et SNO ainsi que les expertises scientifiques meacutethodologiques et technologiques qursquoil feacutedegravere et mutualise constitue un atout original majeur Ces expertises de plus en plus interdisciplinaires doivent eacutevoluer en phase avec les technologies de plus en plus complexes des grands instruments et des systegravemes drsquoobservation de la logistique des donneacutees de nouvelles meacutethodes et technologies de calcul et drsquoanalyse de donneacutees Les communauteacutes de lrsquoINSU collaborent aujourdrsquohui activement agrave lrsquoeacutechelle nationale et internationale avec drsquoautres disciplines ( sciences des donneacutees matheacutematiques appliqueacutees statistiques physique des particules et physique statistique

eacutecologie biologie santeacute recherche informatique ) et avec les fournisseurs et les deacuteveloppeurs drsquoinfrastructures de communication de calcul et de donneacutees Ces collaborations sont favoriseacutees au sein du CNRS par la Mission pour lrsquoInterdisciplinariteacute et se traduisent aux niveaux national et europeacuteen par de nombreux projets ANR et H2020 Les communauteacutes de lrsquoINSU contribuent eacutegalement activement agrave des ONG en lien avec les donneacutees ( p ex RDA GEOGEOSS Belmont Forum )

En comparaison avec les pratiques internationales ( p ex aux Etats-Unis ) ougrave le deacuteveloppement de codes et de bibliothegraveques ( traitement analyse ) communautaires est structureacute sous forme de projets depuis plus drsquoune dizaine drsquoanneacutees avec un support ingeacutenieur important et speacutecialiseacute il reste des efforts importants agrave accomplir et agrave reconnaicirctre aux niveaux national et europeacuteen Un enjeu concomitant et important reste encore aujourdrsquohui une meilleure reconnaissance de ces expertises scientifiques meacutethodologiques et technologiques souvent interdisciplinaires et des nouvelles tacircches drsquoobservation au niveau des recrutements et des promotions des personnels chercheurs astronomes et physiciens du CNAP23 ingeacutenieurs et techniciens

23 httpwwwcnapobspmfr

INSU

57

Livre Blanc sur les Donneacutees au CNRS Eacutetat des Lieux et Pratiques - 2018

29 INSTITUT DES SCIENCES DE LrsquoINFORMATION ET DE LEURS INTERACTIONS ( INS2I )

Cette section a eacuteteacute reacutedigeacutee avec Mokrane Bouzeghoub DAS agrave INS2I

291 Introduction

LrsquoInstitut des Sciences de lrsquoInformation et de leurs Interactions ( INS2I ) rassemble environ 600 chercheurs CNRS sur un total de lrsquoordre de 4500 permanents dans une cinquantaine drsquouniteacutes de recherche Ses theacutematiques couvrent une partie des sections 6 ( fondements de lrsquoinformatique calculs algorithmes repreacutesentations exploitations ) et 7 ( signal image automatique robotique ) du Comiteacute National

Dans de nombreux domaines scientifiques et socio-eacuteconomiques la volumeacutetrie et la varieacuteteacute des donneacutees existantes ainsi que le coucirct et les contraintes de temps de traitement ont fait apparaicirctre de nouveaux deacutefis De multiples domaines sont concerneacutes les sciences fondamentales ( physique des hautes eacutenergies fusion sciences de la Terre et de lrsquoUnivers bio-informatique neurosciences ) les secteurs de lrsquoeacuteconomie numeacuterique ( business intelligence web e-commerce reacuteseaux sociaux e-gouvernement santeacute conception des meacutedicaments teacuteleacutecommunications et meacutedias transports terrestre et aeacuterien marcheacutes financiers ) lrsquoenvironnement ( climat risques naturels ressources eacutenergeacutetiques smart cities maison connecteacutee ) la seacutecuriteacute ( cyber-seacutecuriteacute seacutecuriteacute nationale ) ou lrsquoindustrie ( smart industry produits sur mesure chaicircne de conceptionreacutealisation des produits inteacutegreacutee de bout en bout )

Lrsquoextraction de connaissances agrave partir de grands volumes de donneacutees lrsquoapprentissage statistique lrsquoagreacutegation de donneacutees heacuteteacuterogegravenes la visualisation et la navigation dans de grands espaces de donneacutees et de connaissances sont de veacuteritables instruments numeacuteriques qui permettent agrave des meacutedecins des ingeacutenieurs des chercheurs etc drsquoobserver des pheacutenomegravenes de valider des hypothegraveses drsquoeacutelaborer de nouveaux modegraveles ou de prendre des deacutecisions en situation critique La maicirctrise de ces instruments au niveau des entreprises des collectiviteacutes ou du gouvernement devient un reacuteel enjeu de pouvoir eacuteconomique politique et socieacutetal Drsquoougrave lrsquoimportance du Big Data de lrsquoOpen Data et du Linked Data tant aux Eacutetats-Unis qursquoen Europe24

24 httpwwwnitrdgovSubcommitteebigdataaspx httpcom-monfundnihgovInnovationBrainstorm httpwwwaeranet

Internet et le Web jouent aussi un rocircle capital puisqursquoils concentrent une grande part des donneacutees et des connaissances et qursquoils concernent des centaines de millions drsquoutilisateurs

Le traitement des grands volumes de donneacutees est fortement connecteacute au calcul intensif lorsque les donneacutees sont issues de simulations de grande taille mais aussi lorsque provenant drsquoobservations ou drsquoexpeacuterimentations elles sont utiliseacutees pour la modeacutelisation de systegravemes complexes ( oceacutean meacuteteacuteo formation des galaxieshellip ) Les communications constituent elles aussi un aspect essentiel du traitement et de lrsquoacquisition des donneacutees massives Lrsquoanalyse de donneacutees massives induit des calculs intensifs souvent effectueacutes sur des infrastructures distribueacutees agrave grande eacutechelle ( clusters grilles ou cloud ) mais que lrsquoon trouve de plus en plus freacutequemment sur des plateformes du type HPC ( p ex en deep learning avec lrsquoexploitation de GPU )Le traitement des donneacutees eacutetant au cœur de la discipline il est donc tout naturel que les recherches en informatique aient investi le domaine des Big Data bien avant qursquoelles ne deviennent un enjeu et une preacuteoccupation pour les autres sciences et pour la socieacuteteacute Le stockage distribueacute et agrave grande eacutechelle lrsquooptimisation des accegraves la deacutefinition de langages de requecirctes de haut niveau la fouille de donneacutees la reacutesilience aux pannes et la protection des donneacutees sont des thegravemes de recherche reacutecurrents et reacuteguliegraverement revisiteacutes pour inteacutegrer les nouvelles technologies de stockage les nouvelles architectures de calcul et les nouveaux besoins de diversification des types de donneacutees et de passage agrave lrsquoeacutechelle des applications La fertilisation croiseacutee avec les matheacutematiques notamment en statistique en optimisation et en modeacutelisation a abouti agrave lrsquoeacutemergence des sciences de donneacutees comme un sous-domaine de recherche avec ses propres objets drsquoinvestigation La majoriteacute des uniteacutes de lrsquoINS2I ont des eacutequipes de recherche actives et visibles sur ce domaine

Les activiteacutes de recherche de INS2I autour des masses de donneacutees concernaient de lrsquoordre de 500 chercheursenseignants-chercheurs en 2012 lors du recensement effectueacute dans le Livre Blanc sur le Calcul Intensif

grantsprogramres_trainingres_grantsrgflyhtml

58

Livre Blanc sur les Donneacutees au CNRS Eacutetat des Lieux et Pratiques - 2018

292 La probleacutematique des donneacutees agrave IrsquoINS2I

Le traitement des donneacutees agrave grande eacutechelle avec des sources de donneacutees eacuteventuellement multiples distribueacuteesreacuteparties et heacuteteacuterogegravenes ( structures formats logiciels serveurshellip ) et une volumeacutetrie en donneacutees allant du teacuteraoctet au peacutetaoctet ( et agrave lrsquoExaoctet dans un futur proche ) est central agrave de multiples domaines allant du Web seacutemantique agrave la simulation numeacuterique avec des applications en biologiesanteacute sciences de lrsquounivers et ingeacutenierie etc

Les grandes tendances de la recherche en Big Data deacuteveloppeacutees agrave INS2I portent sur des meacutethodes innovantes de traitement et drsquoanalyse sur toute la chaicircne de valeur de la donneacutee collecte indexation stockage gestion exploitation valorisation accessibiliteacute et visualisation Les meacutecanismes de collecte drsquointeacutegration de donneacutees multi-sources de distribution des donneacutees et des calculs ( Spark25 MongoDB26 Hadoop27 implantation de MapReduce introduit par Google QServ systegraveme drsquointerrogation de base de donneacutees deacuteveloppeacute pour le LSST28hellip ) dans des environnements Cloud neacutecessitent le deacuteveloppement et lrsquooptimisation de nouvelles techniques ou le portage drsquoalgorithmes existants pour le traitement et lrsquoanalyse des donneacutees En particulier les travaux portent sur lrsquoextraction des connaissances des meacutetadonneacutees et des ontologies sur les bases de donneacutees NoSql ou graphes et sur la paralleacutelisation des algorithmes Le deacuteveloppement drsquoapplications verticales inteacutegreacutees accessibles sur tous supports mobiles et commercialisables deacuteployeacutees en mode SaaS par exemple sera sans doute dans lrsquoavenir un des principaux axes de valorisation Lrsquousine digitale permettant de deacuteployer des applications drsquooptimisation de la production industrielle et la transformation digitale sont drsquoautres points importants pour la recherche informatique tant dans la modeacutelisation des process industriels que dans lrsquooptimisation de ces process gracircce aux donneacutees eacutemises par des milliers de capteurs Lrsquoacceptabiliteacute des applications par les utilisateurs est un point crucial et de nombreux travaux srsquointeacuteressent aux modes drsquointeraction et aux meacutecanismes de protection de la vie priveacutee

25 httpssparkapacheorg26 httpswwwmongodbcom27 httphadoopapacheorg28 httpdmlsstorg

Les donneacutees massives sont souvent traiteacutees sur des infrastructures distribueacutees agrave grande eacutechelle ( p ex traitement des donneacutees du LHC ) Les stocker les indexer et effectuer un post-traitement pour extraire de lrsquoinformation ou en vue drsquoune aide agrave la deacutecision est la plupart du temps un challenge et neacutecessite des interactions entre les diverses communauteacutes qui produisent les donneacutees mais aussi speacutecialistes du cloudHPC de la visualisation des basesentrepocircts de donneacutees

Le High Performance Data Analytics ( HPDA ) est devenu central dans de multiples disciplines et constitue une prioriteacute dans les programmes nationaux de pays comme la Chine ougrave il repreacutesente une part importante des applications sur les supercalculateurs avec des applications en biologie meacutedecine personnaliseacutee preacutediction des catastrophes naturelles transports Le HPDA est drsquoailleurs devenu lrsquoun des moteurs importants de vente de supercalculateurs sur le marcheacute La meacutedecine personnaliseacutee par exemple induit de veacuteritables challenges en termes de volume de donneacutees agrave analyser avec des millions de patients

Les besoins en data analytics sont en train drsquoexploser renforccedilant la neacutecessiteacute de disposer de meacutethodes drsquoanalyse de donneacutees qui passent agrave lrsquoeacutechelle de chaines complegravetes de traitement et drsquooutils drsquoaide agrave la deacutecision le tout en srsquoappuyant sur des plateformes de calcul performantes du type HPC

Ce constat autour des masses de donneacutees agrave analyser et les multiples applications dans les secteurs socio-eacuteconomiques ( finance industrie santeacutehellip ) expliquent le retour au premier plan des meacutethodes drsquoIntelligence Artificielle que ce soit pour lrsquoanalyse de donneacutees ( apprentissage superviseacute ou non dont le Deep Learning classificationhellip ) la logique formelle lrsquoaide agrave la deacutecision le traitement du langage naturel et lrsquoargumentationhellip deacuteveloppeacutees dans les anneacutees 80 mais souvent trop coucircteuses qui deviennent des outils incontournables gracircce aux capaciteacutes de calcul disponibles Il nrsquoest qursquoagrave constater que les GAFAM mais aussi IBM et les marcheacutes financiers ont eacuteteacute parmi les premiers agrave reacuteafficher toute lrsquoimportance de lrsquoIA

INS2I

59

Livre Blanc sur les Donneacutees au CNRS Eacutetat des Lieux et Pratiques - 2018

Exemple de la plateforme Galactica utiliseacutee pour la cosmologie ( Prof F Toumani Universiteacute Clermont Auvergne Laboratoire LIMOS - UMR 6158 )

La plateforme Galactica ( httpsgalacticaisimafr ) mise en place en septembre 2015 dans le cadre du programme PlaSciDo de lrsquoINS2I vise le deacuteveloppement et la mise agrave disposition de services drsquoingeacutenierie et drsquoexpeacuterimentation agrave grande eacutechelle pour les chercheurs dans le domaine des grandes masses de donneacutees Galactica est un cluster composeacute de nœuds de calcul et de nœuds de stockage preacutesentant une puissance de calcul totale de 128 cœurs ( 256 vCPU ) agrave 240 GHz 38 To de RAM et une capaciteacute de stockage de 143 To reposant sur le logiciel Ceph Les nœuds du cluster sont interconnecteacutes gracircce agrave un reacuteseau agrave 10 et 40 Gos Lrsquoeacutequipement de la plateforme a beacuteneacuteficieacute drsquoun financement de lrsquoINS2I et du Contrat Plan Etat Reacutegion ( CPER ) de la reacutegion Auvergne Un objectif important de la plateforme Galactica est de mettre agrave la disposition des chercheurs en informatique une infrastructure de stockage et de calcul drsquoenvergure suffisante qui reste flexible et facile agrave configurer pour srsquoadapter aux besoins speacutecifiques des expeacuterimentations dans ce domaine Galactica offre pour cela trois niveaux de services Un premier niveau concerne lrsquoinfrastructure en tant que service deacuteployeacutee gracircce agrave la suite logicielle OpenStack qui permet agrave un chercheur de creacuteer de maniegravere aiseacutee au sein drsquoun environnement virtualiseacute les ressources informatiques ( calcul stockage reacuteseau etc ) adapteacutees agrave ses besoins Le deuxiegraveme niveau de service concerne la possibiliteacute pour un chercheur de creacuteer un cluster de traitement de donneacutees gracircce agrave lrsquoutilisation de modegraveles preacutedeacutefinis ( templates ) Les modegraveles disponibles actuellement sur la plateforme concernent les principales technologies modernes drsquoanalyse et de gestion de donneacutees massives comme par exemple Apache Hive ( httpshiveapacheorg ) Apache Hadoop ( httphadoopapacheorg ) Hortonworks Data Platform ( httpsfrhortonworkscom ) Cloudera ( httpswwwclouderacom ) et Apache Spark ( httpssparkapacheorg ) De plus gracircce au service Elastic Data Processing ( EDP ) il est possible pour un chercheur de creacuteer et drsquoexeacutecuter des jobs sur des clusters de traitement de donneacutees deacuteployeacutes au sein de la plateforme Enfin le dernier niveau de service concerne la mise agrave disposition de jeux de donneacutees soit sous forme brute par exemple les jeux de donneacutees astronomiques LSST ( 2 To et 35 To ) GAIA DR1 ( 730 Go compresseacutes httpswwwcosmosesaintwebgaiadr1 ) et SDSS DR9 ( 8 To httpwwwsdss3orgdr9 ) ou bien sous forme de laquo source de donneacutees raquo Une source de donneacutees est deacutefinie comme eacutetant une collection de donneacutees associeacutee agrave une infrastructure logicielle permettant drsquoexploiter ces donneacutees Un exemple de source de donneacutees est une machine virtuelle heacutebergeant MySQL et une base de

donneacutees MySQL contenant le catalogue associeacute au jeu de donneacutees SDSS DR9 Une source de donneacutees peut ecirctre reacutepliqueacutee facilement pour ecirctre exploiteacutee par des utilisateurs diffeacuterents dans des contextes diffeacuterents Srsquoinscrivant degraves sa creacuteation dans une dynamique de mutualisation des moyens et des compeacutetences Galactica se veut comme une plateforme ouverte aux chercheurs dans le domaine de lrsquoanalyse et de la gestion des grandes masses de donneacutees Preacutevue dans un premier temps en appui aux travaux du projet PetaSky ( httpcomisimafrPetasky ) la plateforme a eacuteteacute ouverte ensuite agrave la communauteacute de recherche en Science des Donneacutees pour accueillir actuellement 19 projets impliquant plus drsquoune soixantaine drsquoutilisateurs provenant de 12 laboratoires de recherche

Exemple de plateforme autour de la recherche drsquoinformation installeacutee agrave lrsquoInstitut de Recherche en Informatique de Toulouse ( IRIT ) OSIRIM

OSIRIM est une plateforme de stockage de forte volumeacutetrie ( 1 Po ) conccedilue pour lrsquoheacutebergement de projets scientifiques abordant les probleacutematiques lieacutees aux laquo meacutegadonneacutees raquo Cette plateforme administreacutee par lrsquoIRIT a eacuteteacute financeacutee par le gouvernement franccedilais la reacutegion Midi-Pyreacuteneacutees le Centre National de la Recherche Scientifique et le Fonds Europeacuteen de Deacuteveloppement Reacutegional dans le cadre drsquoun Contrat-Plan EtatReacutegion Elle est opeacuterationnelle depuis septembre 2013 et propose des ressources de stockage et de calcul pour la recherche sur lrsquoindexation et la recherche drsquoinformation dans des contenus multimeacutedias

La plateforme permet lrsquoheacutebergement de projets scientifiques neacutecessitant le stockage et le partage de plusieurs teacuteraoctets de donneacutees pour la reacutealisation drsquoexpeacuterimentations sur de grands volumes le partage de corpus de donneacutees issues par exemple de reacuteseaux sociaux donneacutees drsquoobservations donneacutees meacutedicales anonymiseacutees donneacutees audio ou videacuteohellip et partage drsquooutils logiciels par exemple pour lrsquoeacutevaluation de technologies Hadoop Sparkhellip OSIRIM est ouverte agrave la communauteacute informatique et autres domaines scientifiques souhaitant utiliser ses moyens mateacuteriels ou logiciels Lrsquoaccegraves agrave la plateforme srsquoeffectue directement agrave partir drsquoInternet Lrsquoheacutebergement des projets est gratuit Elle dispose drsquoun cluster Hadoop de Spark et drsquoun certain nombre drsquoautres logiciels ainsi que MongoDB en compleacutement du gestionnaire de tacircches SLURM seule offre initialement disponible sur la plateforme OSIRIM a eacutegalement eacuteteacute utiliseacutee en 2016 en soutien pour lrsquoinitiation agrave la recherche dans certaines

60

Livre Blanc sur les Donneacutees au CNRS Eacutetat des Lieux et Pratiques - 2018

formations de master toulousaines essentiellement autour de lrsquoapprentissage des technologies Hadoop En matiegravere de corpus il est agrave noter que la plateforme OSIRIM heacuteberge depuis septembre 2015 1 des tweets mondiaux ( via un flux temps reacuteel ) qursquoelle met agrave disposition des eacutequipes inteacuteresseacutees par lrsquoanalyse et lrsquoexploitation de ce corpus

Lrsquoarchitecture drsquoOSIRIM srsquoarticule autour

bull Drsquoun cluster de calcul de 640 cœurs comprenant des nœuds deacutedieacutes agrave la gestion de la plateforme agrave lrsquoheacutebergement des composants pilotant les architectures logicielles deacuteployeacutees ( gestionnaire de tacircches SLURM distribution Hadoop Spark Mongodbhellip ) ainsi que les nœuds permettant aux utilisateurs de se connecter sur la plateforme pour geacuterer leurs donneacutees et lancer lrsquoexeacutecution de leurs traitements et des nœuds deacutedieacutes aux calculs Il srsquoagit de 10 serveurs IBM X3755 M3 comprenant chacun 4 processeurs AMD Opteron 6262HE de 16 cœurs agrave 16Ghz 512 Go de RAM 2 disques de 300 Go en RAID1 et 2 liaisons agrave 10Gbs Le lancement des traitements srsquoeffectue via le gestionnaire de tacircches SLURM ( Simple Linux Utility for Resource Management ) ou par le gestionnaire de ressources Hadoop YARN

bull Drsquoune zone de stockage drsquoune capaciteacute utile drsquoenviron 1 Po Ce stockage est assureacute par une baie EMC Isilon Les donneacutees sont acceacutedeacutees en NFS et HDFS La baie est composeacutee de 12 nœuds X 400 de 36 disques SATA de 3 To chacun raccordeacutes au reacuteseau via 2 liens de 10Gbs

OSIRIM a permis cette anneacutee de reacutepondre agrave diverses demandes drsquoheacutebergement de projets tant au sein du laboratoire qursquoagrave lrsquoexteacuterieur dont

bull Grid5000 mise agrave disposition drsquoun espace de stockage de 100 To suite au raccordement drsquoOSIRIM au reacuteseau de grille de calcul Grid5000

bull Polemic avec lrsquoUAM Mexico analyse du comportement des utilisateurs dans les reacuteseaux sociaux

bull CompuBioMed avec lrsquoINSERM metamining pour la recommandation en bio-santeacute

bull Petasky avec le LIRIS techniques de partitionnement de donneacutees dans le domaine de la cosmologie

bull Musk avec lrsquouniversiteacute Paris Est ndash LISIS traitement de grands corpus textuels ( publications scientifiques tweets et actualiteacutes videacuteo )

bull SemDis avec le CLLE-ERSS creacuteation et eacutevaluation de bases distributionnelles du franccedilais

bull CAIR avec le LIRIS recherche agreacutegative de donneacutees

bull Tweet Contextualization avec lrsquouniversiteacute drsquoAvignon contextualisation de tweets autour drsquoeacuteveacutenements

Lrsquooffre logicielle proposeacutee sur la plateforme permet drsquoaccueillir depuis le deacutebut de lrsquoanneacutee 2017 de nouveaux projets dont certains neacutecessitent un heacutebergement de type cloud se traduisant par le deacuteploiement drsquoenvironnements speacutecifiques deacutedieacutes sous forme de machines virtuelles et exploitant des corpus de donneacutees heacutebergeacutes sur la plateforme OSIRIM

Enfin OSIRIM offre aussi un espace drsquoheacutebergement pour les travaux de recherche drsquoeacutequipes locales de lrsquoIRIT avec des activiteacutes lieacutees agrave

bull Lrsquoindexation de grandes masses de donneacutees heacuteteacuterogegravenes pour notamment concourir agrave des benchmarks internationaux en recherche drsquoinformation TREC29 CLEF30

bull Lrsquoeacutevaluation drsquooutils drsquoindexation de contenus musicaux indexation de grands volumes drsquoenregistrements drsquoeacutemissions de teacuteleacutevision internationales

bull Lrsquoindexation et recherche drsquoinformations dans de grandes masses de textes

bull Lrsquoanalyse de corpora textuels et ontologies

bull Le traitement complexe drsquoimages

29 Text REtrieval Conference30 Conference and Labs of the Evaluation Forum

INS2I

61

Livre Blanc sur les Donneacutees au CNRS Eacutetat des Lieux et Pratiques - 2018

293 Conclusion

La Science des Donneacutees est au cœur des pratiques de la recherche meneacutee agrave INS2I LrsquoIntelligence Artificielle quant agrave elle est revenue en force ( entre autres chez Google Microsoft IBM Amazonhellip ) avec des approches souvent deacuteveloppeacutees par les chercheurs informaticiens dans les anneacutees 80 ( mais trop coucircteuses agrave lrsquoeacutepoque ) car elle permet drsquoanalyser ces masses de donneacutees produites dans de multiples domaines et drsquoen tirer des informations eacuteventuellement pour de lrsquoaide agrave la deacutecision Dans ce domaine la France affiche un potentiel qui peut en faire lrsquoun des acteurs majeurs au niveau mondial

On peut srsquoattendre agrave des eacutevolutions rapides sur plusieurs points dont ( i ) lrsquoautomatisation des processus drsquoextraction ( meacutetadonneacutees connaissances ontologies ) et drsquointeacutegration des donneacutees et de gestion de la qualiteacute le deacuteveloppement de nouvelles meacutethodes drsquoanalyse de donneacutees multi-sources ( textes reacuteseaux sociaux audio videacuteo geacuteolocalisationhellip ) et lrsquoameacutelioration des performances ( passage agrave lrsquoeacutechelle ) ( ii ) une meilleure exploitation drsquoarchitectures adapteacutees au Big Data ( iii ) lrsquoameacutelioration de la seacutecuriteacute des infrastructures mateacuterielles et logicielles des collectes et des analyses ( iv ) lrsquooptimisation des meacutecanismes drsquoanonymisation et de cryptage garantissant la protection de la vie priveacutee ( v ) lrsquointeacutegration des donneacutees et des analyses pour la seacutecuriteacute ( cyber-seacutecuriteacute gestion de crises controcircle aux frontiegraveres ) ( vi ) lrsquointeacutegration et lrsquoexploitation des open data ( e-gouvernement santeacute impocircts )

Il reste cependant de multiples deacutefis agrave relever pour la recherche tels que

bull La maicirctrise de lrsquoheacuteteacuterogeacuteneacuteiteacute des donneacutees lors de leur inteacutegration et de leur agreacutegation en les confrontant agrave des donneacutees de reacutefeacuterences ou agrave des ontologies de domaines La deacutefinition notamment de meacutethodes de raisonnement sur des donneacutees incertaines ou incomplegravetes constitue un preacutealable fort agrave lrsquointeacutegration seacutemantique des donneacutees

bull Aller vers une theacuteorie de la deacutecision qualitative les systegravemes deacutecisionnels exploitent ces connaissances et offrent aux experts une palette drsquooutils qui ameacuteliorent non seulement leurs connaissances et leurs productiviteacutes mais leur offrent eacutegalement les meacuteta-connaissances neacutecessaires agrave une meilleure interpreacutetation des pheacutenomegravenes qursquoils observent ou surveillent De faccedilon plus geacuteneacuterale lrsquoaide agrave la deacutecision doit tenir compte autant des connaissances produites par les processus meacutetiers que des

informations qualitatives qui doivent accompagner cette connaissance Lrsquoorigine des informations la confiance en leurs producteurs leur coheacuterence leur compleacutetude leur exactitude leur fraicirccheur ainsi que la chaicircne de transformations qursquoelles ont subies sont autant drsquoeacuteleacutements indispensables agrave connaicirctre avant toute prise de deacutecision rationnelle

bull Lrsquoaide agrave la deacutecision pour les systegravemes complexes le terme Policy Analytics est utiliseacute depuis quelques anneacutees pour deacutesigner les activiteacutes drsquoexploration de tregraves grandes masses de donneacutees ( fouille extraction de connaissances ) pour la construction drsquoindicateurs syntheacutetiques et de modegraveles drsquoaide agrave la deacutecision utiliseacutes en support de pilotage de systegravemes complexes ( particuliegraverement des entreprises ou des organismes publics ) Les processus de deacutecision publique sont souvent soumis agrave drsquoimportantes exigences de leacutegitimiteacute et de sens Lrsquoaspect meacutethodologique en deacutecision est donc un problegraveme majeur ougrave la multipliciteacute des acteurs et lrsquoheacuteteacuterogeacuteneacuteiteacute seacutemantique sont des verrous agrave lever Les deacuteveloppements de systegravemes drsquoexplication ou de recommandations argumenteacutees sont des pistes agrave explorer

bull Lrsquoaide agrave la deacutecision dans un environnement ambiant ou ubiquitaire les reacuteseaux de capteurs lrsquoInternet des objets les eacutequipements mobiles produisent quantiteacute drsquoinformations correspondant agrave des releveacutes drsquoobservation ( meacuteteacuteo trafic crowdsourcing ) des donneacutees de surveillance ( santeacute ville ) des eacuteveacutenements environnementaux ( pollution tsunami ) Ces informations dites ambiantes sont pleacutethoriques heacuteteacuterogegravenes et parcellaires Elles doivent ecirctre rapprocheacutees avec des reacutefeacuterentiels pour les compleacuteter ou en deacuteterminer la seacutemantique Elles neacutecessitent souvent un traitement agrave la voleacutee pour produire des indicateurs qui serviront agrave la prise de deacutecision ou agrave la supervision agrave distance de tacircches ou de controcircle drsquoeacutequipements Ces travaux doivent tenir compte du contexte de lrsquoutilisateur de son activiteacute passeacutee de ses preacutefeacuterences et des interactions qursquoil a avec drsquoautres utilisateurs ou des communauteacutes drsquoutilisateurs

bull La preacuteservation des connaissances pour les geacuteneacuterations futures souligne lrsquoimportance de la peacuterenniteacute du stockage et le problegraveme drsquointerpreacutetation des contenus Les problegravemes souleveacutes sont agrave la fois drsquoordre technologique ( migration drsquoune technologie agrave une autre ) eacuteconomique ( coucircts de la migration et coucircts drsquoarchivage ) et seacutemantique ( eacutevolution des modegraveles de repreacutesentation de connaissances nouveaux standards de meacutetadonneacutees )

62

Livre Blanc sur les Donneacutees au CNRS Eacutetat des Lieux et Pratiques - 2018

Les sciences de lrsquoinformation irriguent et feacutecondent tout le champ scientifique gracircce agrave de nouveaux outils de modeacutelisation et de simulation de nouveaux modegraveles de calcul intensif la gestion et lrsquoanalyse de donneacutees massives le traitement du signal et de lrsquoimage la robotique les objets communicants et lrsquointeraction Lrsquoactiviteacute scientifique subit un bouleversement eacutepisteacutemologique qui conduit agrave de nouvelles formes de production de la connaissance et agrave lrsquoeacutemergence de plusieurs sous-disciplines Ainsi de nouveaux champs drsquoinvestigation sont neacutes aux interfaces des sciences de lrsquoinformation comme la bioinformatique les neurosciences computationnelles la cyber-seacutecuriteacute les humaniteacutes numeacuteriques la geacuteoinformatique lrsquoe-santeacute Lrsquoastroinformatique en est une parfaite illustration Elle integravegre lrsquoastronomie lrsquoastrophysique les statistiques lrsquoinformatique et le traitement du signal

A lrsquoimage de la bioinformatique elle est sur la voie de deacutefinir ses propres objets de recherche ses propres meacutethodes et ses propres innovations Lrsquoastrophysique a eacutemergeacute agrave la fin des anneacutees 2000 en eacutecho aux travaux de Jim Gray sur lrsquousage intensif des donneacutees en sciences Lors drsquoune confeacuterence en 2007 lrsquoinformaticien Jim Gray Prix Turing en 1998 eacutenonccedila lrsquoideacutee drsquoun nouveau paradigme de la science construit autour du traitement intensif et de lrsquoanalyse agrave grande eacutechelle des donneacutees ( data-intensive science )31 Lrsquoideacutee a depuis fait son chemin srsquoinspirant souvent du succegraves de la bioinformatique et srsquoacceacutelegravere reacutecemment sous la pression de projets drsquoenvergure comme SDSS GAIA et LSST encourageacutee aussi par les reacutecents progregraves en science des donneacutees ( requecirctes complexes apprentissage calcul distribueacute optimisation et passage agrave lrsquoeacutechelle )

31 [4] eScience -- A Transformed Scientific Method Jim Gray eScience Talk at NRC-CSTB meeting Mountain View CA 11 January 2007

INS2I

63

Livre Blanc sur les Donneacutees au CNRS Eacutetat des Lieux et Pratiques - 2018

210 INSTITUT NATIONAL DE PHYSIQUE NUCLEAIRE ET DE PHYSIQUE DES PARTICULES ( IN2P3 )

2101 Introduction

Creacuteeacute en 1971 lrsquoInstitut National de Physique Nucleacuteaire et de Physique des Particules ( IN2P3 ) du CNRS exerce les missions nationales drsquoanimation et de coordination dans les domaines de la physique nucleacuteaire de la physique des particules et des astroparticules des deacuteveloppements technologiques et des applications associeacutees Il conccediloit coordonne et anime les programmes de recherche nationaux et internationaux dans ces domaines Ses missions incluent eacutegalement la coordination de la mise en place de systegravemes drsquoinformation permettant le stockage la mise agrave disposition aupregraves de la communauteacute scientifique le traitement et la valorisation de lrsquoensemble des donneacutees scientifiques concerneacutees ainsi que leur archivage

Ces recherches ont pour but drsquoexplorer la physique des particules eacuteleacutementaires leurs interactions fondamentales ainsi que leurs assemblages en noyaux atomiques drsquoeacutetudier les proprieacuteteacutes de ces noyaux et drsquoexplorer les connexions entre lrsquoinfiniment petit et lrsquoinfiniment grand

Que ce soit avec la physique des particules aupregraves des grands acceacuteleacuterateurs la physique des astroparticules avec les expeacuteriences embarqueacutees sur satellites les teacutelescopes et autres deacutetecteurs terrestres ou encore dans une moindre mesure la physique nucleacuteaire les eacutequipes de lrsquoIN2P3 et du CEAIrfu doivent faire face agrave des masses de donneacutees consideacuterables qursquoil faut stocker distribuer et analyser Bien qursquohistoriquement lrsquoinformatique agrave lrsquoIN2P3 ait eacuteteacute fortement domineacutee par les besoins de la communauteacute de la physique des particules de nouveaux deacutefis sont apparus Des expeacuteriences de physique des astroparticules sont actuellement en cours avec des exigences qui atteindront une fraction significative de celle des expeacuteriences du Large Hadron Collider ( LHC ) au CERN dans les 5 prochaines anneacutees Un changement de paradigme est eacutegalement en cours en calcul pour la physique nucleacuteaire Compte tenu des grandes expeacuteriences agrave venir par exemple au GANIL la communauteacute veut centraliser le calcul et le stockage des donneacutees

Lrsquoensemble des expeacuteriences neacutecessite eacutegalement des modeacutelisations par technique de Monte-Carlo qui sont elles-mecircmes geacuteneacuteratrices de grandes quantiteacutes de donneacutees Lrsquoaspect donneacutees et traitement statistique est donc la caracteacuteristique principale de lrsquoinformatique pour la physique corpusculaire

Le traitement statistique global sur une multitude de jeux de donneacutees indeacutependants mdash une collision de particules correspond agrave un jeu de donneacutees mdash srsquoadapte tregraves bien agrave des architectures informatiques constitueacutees de ferme de calculateurs Drsquoune maniegravere geacuteneacuterale en dehors des calculs de chromodynamique quantique sur reacuteseau ( QCD ) la physique subatomique a tregraves peu besoin de calculateurs parallegraveles Cette caracteacuteristique lrsquoa distingueacutee de bon nombre drsquoautres disciplines scientifiques pour lesquelles le HPC est une neacutecessiteacute La principale complexiteacute du calcul pour la physique corpusculaire provient des masses de donneacutees consideacuterables qursquoil faut geacuterer et distribuer sur le reacuteseau mondial puis traiter au niveau local

Lrsquoensemble des laboratoires de lrsquoIN2P3 utilise les ressources informatiques du CC-IN2P3 ( Section 31 ) et des grilles WLCG et EGI

2102 La probleacutematique des donneacutees agrave lrsquoIN2P3

Depuis la creacuteation de lrsquoIN2P3 le plus grand deacutefi en termes de traitement de donneacutees a eacuteteacute le calcul et le stockage des donneacutees de la physique des particules issues des expeacuteriences du CERN

Dans le grand collisionneur de hadrons ( LHC ) des particules entrent en collision environ 600 millions de fois par seconde Chaque collision produit des particules qui se deacutecomposent souvent de faccedilon tregraves complexe en formant des particules plus nombreuses

64

Livre Blanc sur les Donneacutees au CNRS Eacutetat des Lieux et Pratiques - 2018

Pour chaque eacuteveacutenement qui passe par la proceacutedure de filtrage rigoureuse des deacutetecteurs du LHC il faut en moyenne simuler 1 agrave 15 eacuteveacutenement afin de pouvoir calibrer et finalement comprendre les donneacutees des expeacuteriences

Le traitement des donneacutees agrave lrsquoIN2P3 est aujourdrsquohui eacutetroitement lieacute et influenceacute par le modegravele de calcul du LHC et aligneacute sur la grille de calcul mondiale du LHC ( WLCG ) Le deacutefi consiste agrave passer au crible les 50 peacutetaoctets de donneacutees produites chaque anneacutee pour deacuteterminer si les collisions ont souleveacute une physique inteacuteressante Le WLCG est une infrastructure informatique distribueacutee organiseacutee en plusieurs niveaux ( tiers ) et offre agrave une communauteacute de plus de 8000 physiciens un accegraves en temps reacuteel aux donneacutees du LHC

Ainsi la plus grande partie de lrsquoinfrastructure de calcul drsquoIN2P3 est organiseacutee par LCG-France32 selon une structuration par Tier33 avec CC-IN2P3 eacutetant le Tier-1 franccedilais accompagneacute de 7 Tier-2 drsquoIN2P3 Cela inclut le centre Tier-2 GRIF34 ( Grille au service de la Recherche en Icircle-de-France ) avec une forte participation du CEAIrfu

Pour donner une ideacutee du deacutefi de la gestion des donneacutees en 2017 LCG-France a une capaciteacute de stockage sur disque de 17 Po au niveau Tier-1 ( crsquoest-agrave-dire agrave CC-IN2P3 ) et 14 Po au niveau Tier-2 et une capaciteacute de stockage sur bande de 40 Po au CC-IN2P3 Pour le traitement en France environ 18 000 cœurs sont reacuteserveacutes au Tier-1 et encore environ 18000 cœurs dans les centres Tier-2

32 httplcgin2p3fr33 ldquoThe Grid A system of tiersrdquo httpshomecernaboutcompu-tinggrid-system-tiers34 httpsgriffr

IN2P3

Infrastructure principale pour le calcul IN2P3

65

Livre Blanc sur les Donneacutees au CNRS Eacutetat des Lieux et Pratiques - 2018

Bien que le traitement des donneacutees pour LCG-France soit de loin le plus grand utilisateur de lrsquoinfrastructure de calcul de lrsquoIN2P3 drsquoautres communauteacutes au sein drsquoIN2P3 progressent rapidement

Par exemple en 2016 le CC-IN2P3 a fourni en moyenne 2 800 cœurs de calcul 12 To drsquoespace disque et 25 To de stockage sur bande agrave des expeacuteriences astrophysiques spatiales ( AMS-2 Planck Fermi ) Toute la communauteacute des astroparticules a utiliseacute en 2016 environ 3 Po de disque et 8 Po de bande au CC-IN2P3 Nous beacuteneacuteficions indeacuteniablement drsquoune culture et drsquoune sensibilisation aux deacutefis du traitement des donneacutees dans la communauteacute de la physique des particules et de lrsquoastrophysique Dans ce contexte les expeacuteriences du LHC filtrent leurs donneacutees autant que possible deacutejagrave au niveau du deacutetecteur De plus le nombre de copies de donneacutees est maintenu au minimum absolu neacutecessaire et les donneacutees intermeacutediaires sont effaceacutees autant que possible Dans lrsquoastrophysique spatiale le flux de donneacutees est principalement limiteacute par la largeur de bande de teacuteleacutemeacutetrie des satellites ce qui signifie qursquoun effort important est entrepris pour reacuteduire les donneacutees deacutejagrave agrave bord du satellite

Dans les anneacutees agrave venir un grand nombre de projets importants stockeront leurs donneacutees dans lrsquoinfrastructure de lrsquoIN2P3 En physique des particules lrsquoinstitut participe agrave lrsquoexpeacuterience Belle-235 de lrsquoacceacuteleacuterateur japonais SuperKEKB En physique des astroparticules agrave tregraves haute eacutenergie le Cherenkov Telescope Array ( CTA ) produira environ 8 Po de donneacutees par an dont 4 Po sont des donneacutees brutes et 2 Po sont des donneacutees simuleacutees neacutecessaires agrave lrsquoeacutetalonnage En cosmologie nous verrons le deacutemarrage de lrsquoexploitation de deux projets majeurs au deacutebut des anneacutees 2020 la mission Euclid de lrsquoESA et le Large Synoptic Survey Telescope ( LSST ) Les deux sont extrecircmement difficiles en matiegravere de quantiteacute et de qualiteacute des donneacutees Alors que pour Euclid lrsquoIN2P3 est responsable de 30 du traitement des donneacutees pour LSST nous fournirons 50 de la puissance de calcul et conserverons une archive complegravete de toutes les donneacutees LSST ( brutes et reacuteduites ) au CC-IN2P3 Les deux LSST et Euclid produiront chacun environ 100 Po de donneacutees

Dans le domaine de la physique nucleacuteaire le traitement des donneacutees a eacuteteacute jusqursquoici deacutecentraliseacute principalement au sein des groupes chargeacutes des expeacuteriences Dans le contexte de la mise en service du nouvel acceacuteleacuterateur Spiral-2 au Ganil et de lrsquoeacutevolution simultaneacutee de deacutetecteurs tels que S3 une approche plus centraliseacutee est eacutegalement neacutecessaire pour cette communauteacute

35 httpswwwbelle2org

Un groupe de travail eacutetudie les possibiliteacutes de centraliser le stockage des donneacutees et eacuteventuellement le traitement des donneacutees pour les expeacuteriences existantes et futures dans ce domaine

LrsquoIN2P3 est le principal et de loin le plus gros contributeur de France Grilles la NGI ( National Grid Infrastructure ) franccedilaise qui fait partie de lrsquoinfrastructure de reacuteseau europeacuteen ( EGI36 ) Lrsquoactiviteacute srsquoorganise autour de trois axes pour reacutealiser la strateacutegie geacuteneacuterale de France Grilles

bull Le deacuteploiement et lrsquoopeacuteration drsquoune infrastructure distribueacutee de grille et de cloud au niveau national

bull Lrsquoapplication drsquoune politique drsquoaccegraves permettant de rendre cette infrastructure disponible aux utilisateurs de toutes les disciplines

bull Lrsquointeacutegration de cette infrastructure dans EGI

France Grilles est organiseacute en un Groupement drsquoInteacuterecirct Scientifique ( GIS ) avec un grand nombre de partenaires ( CNRS MENESR CEA CPU INRA INRIA INSERM et RENATER ) et devrait jouer un rocircle de premier plan au sein de la structure laquo FR-T2 raquo actuellement en gestation et qui devrait coordonner les e-infrastructures franccedilaises de maniegravere distribueacutee et nationale

Pour permettre une utilisation efficace des donneacutees distribueacutees en plusieurs endroits ( p ex dans les diffeacuterents centres Tier en France ) France Grilles et lrsquoIN2P3 srsquoappuient notamment sur iRODS iRODS37 pour Integrated Rule-Oriented Data System est un outil de distribution de donneacutees permettant lrsquoaccegraves agrave des donneacutees se trouvant reacuteparties sur diffeacuterents sites et sur des supports heacuteteacuterogegravenes ( systegraveme de fichiers sur disques bases de donneacutees bandes magneacutetiques etc )

En outre lrsquoIN2P3 est engageacute dans le principe FAIR38pour les donneacutees Cela signifie que les donneacutees de notre recherche doivent ecirctre trouvables accessibles interopeacuterables et reacuteutilisables Dans ce contexte nous entreprenons plusieurs actions Par exemple un modegravele de plan de gestion de donneacutees commun a eacuteteacute creacuteeacute et nous avons lrsquointention drsquoen rendre obligatoire la fourniture pour tous les projets IN2P3

36 httpswwwegieu37 httpsirodsorg iRODS IN2P3 service httpsirodsin2p3fr38 par exemple Mons et al 2017

66

Livre Blanc sur les Donneacutees au CNRS Eacutetat des Lieux et Pratiques - 2018

Concernant lrsquoaspect de trouvabiliteacute des donneacutees nous recommandons lrsquoutilisation de Digital Object Identifiers39 ce qui permet drsquoeacutetablir un lien exploitable interopeacuterable et persistant vers des donneacutees par exemple dans le contexte drsquoune publication scientifique Afin drsquoassurer la reacuteutilisabiliteacute des donneacutees un projet a eacuteteacute mis en place agrave lrsquoIN2P3 en 2016 pour eacutetudier les possibiliteacutes de preacuteservation des logiciels et la valeur ajouteacutee drsquoun plan geacuteneacuteral de gestion des logiciels

Dans le contexte europeacuteen lrsquoIN2P3 suit une approche similaire agrave travers sa participation agrave des projets lieacutes agrave lrsquoEuropean Open Science Cloud ( EOSC ) LrsquoEOSC vise agrave donner aux scientifiques en Europe un accegraves transparent au calcul au stockage et aux services agrave travers les frontiegraveres et les communauteacutes Dans le cadre du projet EOSC-Pilot lrsquoIN2P3 dirige lrsquoeffort drsquointeropeacuterabiliteacute des donneacutees et des e-infrastructures crsquoest-agrave-dire que nous essayons de trouver et de proposer des solutions qui permettront agrave lrsquoEOSC drsquoatteindre ses objectifs

Lrsquoinstitut est eacutegalement impliqueacute dans deux projets europeacuteens qui eacutetudient les possibiliteacutes offertes par le cloud et les infrastructures distribueacutees Au sein drsquoHelix Nebula Science Cloud ( HNSciCloud ) nous eacutetudions une plateforme de cloud hybride rassemblant des fournisseurs de services de cloud computing des e-infrastructures financeacutees par des fonds publics et des ressources internes Et dans le projet eXtreme DataCloud ( XDC ) des systegravemes de donneacutees distribueacutees sont exploreacutes y compris des fournisseurs priveacutes et publics et eacutetudient des aspects de la gestion des donneacutees pour la physique des astroparticules et des hautes eacutenergies

2103 Conclusion

LrsquoIN2P3 a une longue histoire dans la gestion de grands flux de donneacutees ainsi que dans lrsquoorganisation et la distribution du stockage Neacuteanmoins les deacutefis agrave venir dans les 5-10 prochaines anneacutees sont importants Nous nrsquoy verrons pas seulement un grand nombre de nouveaux projets avec des volumes de donneacutees tregraves importants ( de lrsquoordre de la dizaine de peacutetaoctets par an ) entrer dans le jeu mais la deacuteferlante de donneacutees qui reacutesultera de la mise agrave niveau du LHC et de ses expeacuteriences sera encore plus significative

39 httpswwwdoiorg

En raison de lrsquointensiteacute plus eacuteleveacutee du faisceau au LHC et des deacutetecteurs ayant une reacutesolution spatiale et temporelle plus eacuteleveacutee le volume de donneacutees au LHC devrait augmenter drsquoun facteur 100 drsquoici 2025 Diffeacuterentes solutions concernant le modegravele de calcul pour le LHC sont actuellement discuteacutees Il demeure cependant eacutevident que lrsquoIN2P3 fera encore face agrave une augmentation significative des exigences de traitement des donneacutees

Pour poursuivre son approche reacuteussie de la gestion des donneacutees lrsquoinstitut poursuit plusieurs approches

bull Etudier de nouvelles approches afin drsquooptimiser les flux de donneacutees Ceci inclut lrsquoutilisation de systegravemes comme iRODS mais aussi le deacuteveloppement de nouveaux systegravemes de gestion de ressources comme DIRAC

bull Travailler sur des systegravemes de calcul en ligne qui reacuteduisent la quantiteacute de donneacutees agrave traiter en reacuteduisant les donneacutees directement sur le site drsquoexpeacuterimentation Ceci est appliqueacute par exemple dans lrsquoinfrastructure de calcul O2 pour lrsquoexpeacuterience Alice au LHC ou dans lrsquoapproche de reacuteduction de donneacutees sur site de Cherenkov Telescope Array ( CTA )

bull Continuer agrave promouvoir des systegravemes de stockage de donneacutees qui permettent lrsquoutilisation transparente de diffeacuterentes ressources

bull Coordonner lrsquoapproche pour un accegraves transparent aux donneacutees avec les initiatives au niveau franccedilais ( p ex MiCaDo COCIN FR-T2 ) et dans le contexte europeacuteen ( p ex EOSC EDI EGI EUDAT )

bull Poursuivre la centralisation de lrsquoinfrastructure informatique de lrsquoIN2P3 ce qui permet un investissement plus efficace tout en maintenant le haut niveau drsquoexpertise distribueacutee dans les laboratoires

bull Poursuivre lrsquoapproche de formation continue agrave travers des programmes de formation pour le personnel IN2P3 former la prochaine geacuteneacuteration de scientifiques de donneacutees et maintenir lrsquoIN2P3 en tant qursquoinstitut attractif pour lrsquoensemble de la communauteacute du calcul scientifique et des infrastructures associeacutees

IN2P3

67

Livre Blanc sur les Donneacutees au CNRS Eacutetat des Lieux et Pratiques - 2018

31 LE CC-IN2P3

311 Mission du CC-IN2P3

LrsquoIN2P3 srsquoappuie sur lrsquoinfrastructure de recherche Centre de Calcul de lrsquoIN2P3 ( CC-IN2P3 ) pour accomplir sa mission de mise en place de systegravemes drsquoinformation permettant le stockage la mise agrave disposition aupregraves de la communauteacute scientifique le traitement et la valorisation de lrsquoensemble des donneacutees scientifiques concerneacutees ainsi que leur archivage

Le CC-IN2P3 dispose pour cela drsquoun datacenter abritant les services informatiques neacutecessaires agrave lrsquoanalyse et agrave lrsquointerpreacutetation des processus fondamentaux de la physique subatomique Du fait de la rareteacute de ces processus ce travail requiert lrsquoanalyse statistique de millions voire de milliards drsquointeractions entre particules Cette analyse neacutecessite le transport le stockage et le traitement drsquoeacutenormes quantiteacutes de donneacutees Les analyses physiques sont meneacutees par un grand nombre de chercheurs reacutepartis dans le monde entier

Le CC-IN2P3 fournit des ressources non seulement pour la physique nucleacuteaire et la physique des particules mais aussi pour lrsquoastrophysique et les astroparticules Parmi les collaborations scientifiques majeures qui utilisent ses services on trouve le LHC40 GANILSpiral 241 LSST42 CTA43 KM3NeT44 tous figurant sur la feuille de route des TGIRIR45 ou celle de lrsquoESFRI46 Par ailleurs les technologies informatiques deacuteployeacutees pour ces besoins ont deacutemontreacute une totale adeacutequation avec les besoins drsquoautres domaines ( sciences humaines

40 Large Hadron Collider ( httphomecerntopicslarge-hadron-collider )41 Grand Acceacuteleacuterateur National drsquoIons Lourds ( httpswwwganil-spiral2eu )42 Large Synoptic Survey Telescope ( httpwwwlsstorg )43 Cherenkov Telescope Array ( httpwwwcta-observatoryorg )44 Neutrino telescopes ( httpwwwkm3netorg )45 Tregraves grandes infrastructures de recherche Infrastructures de recherche46 European Strategy Forum on Research Infrastructures ( httpseceuropaeuresearchinfrastructurespdfesfriesfri_roadmapesfri_roadmap_2016_fullpdf )

bio-informatique eacutecologiehellip ) domaines qui utilisent aujourdrsquohui modestement les services du CC-IN2P3

En premiegravere approche le calcul scientifique reacutealiseacute par les collaborations de recherche auxquelles participe lrsquoIN2P3 correspond agrave un traitement statistique global sur une multitude de jeux de donneacutees indeacutependants ( une collision de particules correspond agrave un jeu de donneacutees ) traitement qui srsquoadapte tregraves bien agrave des architectures informatiques constitueacutees de ferme de calculateurs Drsquoune maniegravere geacuteneacuterale en dehors des calculs de chromodynamique quantique sur reacuteseau ( QCD ) la physique corpusculaire a tregraves peu besoin de calculateurs parallegraveles Cette caracteacuteristique lrsquoa distingueacutee de bon nombre drsquoautres disciplines scientifiques pour lesquelles le HPC est une neacutecessiteacute

La principale complexiteacute du calcul pour la physique corpusculaire provient des masses de donneacutees consideacuterables qursquoil faut geacuterer et distribuer sur le reacuteseau mondial puis traiter au niveau local Crsquoest pourquoi le CC-IN2P3 opegravere des moyens de calcul haut deacutebit ( ou HTC pour High Throughput Computing ) en constante eacutevolution

312 Eacutequipements du CC-IN2P3 ( oct 2017 )

Ces moyens de traitement de donneacutees agrave haut deacutebit sont scheacutematiseacutes ci-contre Ils sont constitueacutes de

bull Une ferme de calcul de 16 000 cœurs physiques fonctionnant avec le gestionnaire de tacircches Univa Grid Engine

bull Un systegraveme de stockage sur disques de 15 Peacutetaoctets deacutedieacute agrave 80 aux expeacuteriences LHC Ce stockage est accessible au travers de divers logiciels ou systegravemes de fichiers

o GPFS ( IBM General Parallel File System ) fournit aux utilisateurs un espace de travail en mode

3 LES DONNEacuteES AU SEIN DES CENTRES NATIONAUX DU CNRS CC-IN2P3 ET IDRIS

68

Livre Blanc sur les Donneacutees au CNRS Eacutetat des Lieux et Pratiques - 2018

fichier flexible et accessible depuis les machines interactives ou le systegraveme de traitement par lot drsquoune capaciteacute de 2 peacutetaoctets

o AFS ( Andrew File System ) drsquoune capaciteacute de 40 teacuteraoctets permet de partager les espaces home et lrsquoessentiel des distributions de logiciels

o Le systegraveme de stockage hieacuterarchique HPSS ( High Performance Storage System ) dispose drsquoun cache sur disques permettant de geacuterer la reacutecupeacuteration et les migrations de donneacutees depuis et vers le systegraveme de stockage de masse ( cartouches magneacutetiques ) Ce systegraveme drsquoune capaciteacute de stockage actuelle totale de 340 peacutetaoctets contient agrave ce jour 59 peacutetaoctets de donneacutees scientifiques

o SRMdCache et Xrootd sont des systegravemes speacutecifiques de gestion de donneacutees deacuteveloppeacutes par la communauteacute de la physique des hautes eacutenergies et capables drsquoabsorber des charges tregraves importantes en termes drsquoentreacuteessorties Ils constituent lrsquoessentiel du stockage au CC-IN2P3

o iRods est un systegraveme de gestion de donneacutees distribueacute flexible et capable de geacuterer facilement

des meacutetadonneacutees La faciliteacute de mise en œuvre notamment pour des donneacutees distribueacutees geacuteographiquement a rendu iRods populaire et a contribueacute agrave son deacuteveloppement

bull Un ensemble de 4 silos robotiseacutes STKOracle SL8500 pour le stockage sur cartouches magneacutetiques Drsquoune capaciteacute totale de 4 times 10 000 cartouches ces silos peuvent heacuteberger jusqursquoagrave 340 peacutetaoctets avec la derniegravere technologie de lecteurs T10kD ( 85 Tocartouche )

bull Un ensemble de systegravemes de bases de donneacutees sous diverses technologies ( mySQL PostgreSQL et Oracle ) Le CC-IN2P3 a deacuteveloppeacute une expertise consideacuterable dans ce domaine et met en œuvre des architectures de clusters de bases de donneacutees particuliegraverement complexes

Lrsquoensemble des ressources informatiques est interconnecteacute sur un reacuteseau dont lrsquoeacutepine dorsale supporte une bande passante de 400 Gbs Les serveurs individuels sont connecteacutes en Ethernet agrave 1 Gbs ou 10 Gbs selon les applications Une partie du stockage exploite aussi la technologie de reacuteseau de donneacutees Fibre Channel

CENTRES NATIONAUX

69

Livre Blanc sur les Donneacutees au CNRS Eacutetat des Lieux et Pratiques - 2018

Lrsquoeacutevolution de ces ressources au cours des 6 derniegraveres anneacutees est reacutesumeacutee par les graphes suivants

313 Usages du CC-IN2P3

En 2016 lrsquousage des ressources se reacutepartit selon le graphique suivant

Bien que repreacutesentant en nombre une proportion significative de lrsquoensemble des groupes utilisant le CC-IN2P3 la part du CPU utiliseacutee par des activiteacutes de recherche ne deacutependant pas de la politique scientifique

de lrsquoIN2P3 ne repreacutesente que 2 du CPU consommeacute en 2016 ( qui srsquoeacutelegraveve agrave 17 milliard de HS06h ) et moins de 1 des capaciteacutes de stockage utiliseacutees ( qui eacutetaient de 619 Po )

70

Livre Blanc sur les Donneacutees au CNRS Eacutetat des Lieux et Pratiques - 2018

314 Preacutevisions

Depuis 2011 le CC-IN2P3 a mis en service une seconde salle machine drsquoune superficie de 850 m2 et capable agrave terme de fournir une puissance eacutelectrique de 34 MW pour le mateacuteriel informatique hors refroidissement Cette puissance vient en compleacutement des 1 MW de la premiegravere salle La conception tregraves moderne de la nouvelle salle ( pas de faux plancher organisation des serveurs en alleacutees avec confinement de la chaleur et traitement de celle-ci par la technique dite InRow double alimentation EDF redondante etc ) en fait un eacutequipement de tout premier plan capable drsquoaccueillir les moyens de calcul et de traitement des donneacutees des futures grandes expeacuteriences de physique corpusculaire

En 2017 la production de donneacutees des 4 deacutetecteurs installeacutes sur le Large Hadron Collider ( LHC ) au CERN repreacutesente un volume de 50 Peacutetaoctets par an malgreacute un filtrage eacuteliminant 99 des eacuteveacutenements observeacutes Crsquoest trois fois plus que les donneacutees produites chaque anneacutee lors de la premiegravere anneacutee drsquoexploitation Le traitement global de ces donneacutees repose sur lrsquoutilisation de la grille mondiale W-LCG composeacutee de 250 centres de calcul avec 1 Tier 0 ( au CERN ) 12 Tier 1 ( dont le CC-IN2P3 ) et plus de 200 Tier 2 Dans ce contexte lrsquoobjectif du CC-IN2P3 est de fournir 10 des ressources de calcul pour LHC Il est agrave noter que les accegraves reacuteseau du CC-IN2P3 pour lrsquoeacutechange des donneacutees de ces seules expeacuteriences repreacutesentent pregraves de 46 du trafic RENATERLe CCndashIN2P3 heacuteberge eacutegalement les donneacutees issues drsquoautres expeacuteriences HESS47 AMS48 Planck49 ANTARES50 Auger51

47 Observatoire des tregraves hautes eacutenergies ( httpswwwobspmfrhess-ii-observatoire-des-treshtml ) 48 Spectromegravetre magneacutetique alpha ( httpshomecernfraboutexperimentsams )49 Satellite drsquoobservation du fond cosmologique de la voucircte ceacuteleste ( httpsplanckcnesfr )50 Deacutetecteur sous-marin de neutrinos ( httpantaresin2p3fr ) 51 Deacutetection de rayons cosmiques de tregraves haute eacutenergie ( httpwwwin2p3frrechercheactualites19991999_augerdetecteurshtm )

VIRGO52 Supernovae53hellip qui comme celles du LHC ont chacune leur politique de gestion de donneacutees Un point commun toutefois est que les donneacutees drsquoune expeacuterience doivent pouvoir ecirctre exploiteacutees sur des dureacutees tregraves significatives avec donc des probleacutematiques de stockage peacuterenne de ces donneacutees Des processus dit de stockage intermeacutediaire sont ainsi mis en œuvre

Les besoins futurs en matiegravere de stockage de donneacutees sont agrave la hauteur de lrsquoambition des expeacuteriences qursquoheacuteberge le CC-IN2P3 En particulier les futurs deacuteveloppements du LHC ( HL-LHC ) vont provoquer une explosion du volume de donneacutees produites Parallegravelement lrsquoIN2P3 est engageacute dans les expeacuteriences majeures drsquoastroparticules et cosmologie que sont EUCLID54 LSST et CTA

La projection de ces besoins agrave lrsquoeacutecheacuteance de 2030 va ecirctre synonyme de deacuteploiement drsquoinfrastructures de dimensions tregraves significatives

A lrsquohorizon 2030 le CC-IN2P3 stockera plus de 1 200 Po de donneacutees et offrira une capaciteacute de calcul de lrsquoordre de 6 millions de HEPSpec0655 ( MHS06 )

52 Deacutetection des ondes gravitationnelles ( httpwwwvirgo-gweu )53 httpssnovaein2p3fr54 Teacutelescope spatial pour lrsquoanalyse de lrsquoeacutenergie noire ( httpwwweuclid-ecorg )55 httpswikiegieuwikiFAQ_HEP_SPEC06 1 HEPSpec06 ~= 1 GFlops

CENTRES NATIONAUX

71

Livre Blanc sur les Donneacutees au CNRS Eacutetat des Lieux et Pratiques - 2018

32 LrsquoIDRIS

321 Introduction

LrsquoIDRIS est le centre majeur du CNRS pour le calcul numeacuterique intensif de tregraves haute performance Agrave la fois centre de ressources informatiques et pocircle de compeacutetences en calcul de haute performance lrsquoIDRIS est une uniteacute propre de service du CNRS deacutependant de la Mission Calcul-Donneacutees ( MiCaDo ) du CNRS et rattacheacutee administrativement agrave lrsquoInstitut des sciences de lrsquoinformation et de leurs interactions ( INS2I ) mais dont la vocation agrave lrsquointeacuterieur du CNRS est pluridisciplinaire

Les supercalculateurs opeacutereacutes par lrsquoIDRIS proprieacuteteacute de la socieacuteteacute GENCI ( Grand Equipement National de Calcul Intensif httpwwwgencifr ) ont geacuteneacuteralement une dureacutee de vie de cinq agrave six ans Ils sont donc renouveleacutes freacutequemment avec leurs moyens de stockage associeacutes en entraicircnant agrave chaque fois des frais drsquoinstallation et parfois des frais de fonctionnement en hausse ( essentiellement dus aux consommations eacutelectriques de ces eacutequipements )

Lrsquoutilisation des ressources opeacutereacutees par lrsquoIDRIS srsquoeffectue au travers des allocations effectueacutees par GENCI soit pregraves de trois cents projets scientifiques dans tous les domaines utilisant la simulation numeacuterique dans leurs theacutematiques de recherche respectives

Suite agrave lrsquoappel drsquooffres lanceacute agrave lrsquoautomne 2011 par GENCI en partenariat avec lrsquoIDRIS deux nouveaux supercalculateurs drsquoarchitectures compleacutementaires ont eacuteteacute acquis aupregraves de la socieacuteteacute IBM en mai 2012 Lrsquoun eacutetait une machine dite massivement parallegravele de type Blue GeneQ composeacutee de quatre cabinets de chacun 16 384 cœurs pour un total de 65 536 cœurs avec 65 To de meacutemoire globale et qui deacutelivrait une puissance crecircte cumuleacutee de 839 TFlops placcedilant cette machine au 30e rang mondial en novembre 2012 Cette configuration a eacuteteacute eacutetendue en novembre 2014 par lrsquoajout de deux cabinets suppleacutementaires portant la configuration complegravete agrave 98 304 cœurs pour une capaciteacute meacutemoire totale atteignant doreacutenavant 98 To et une puissance crecircte cumuleacutee porteacutee maintenant agrave 126 PFlops ce qui a replaceacute cette machine au 42e rang mondial en novembre 2014 En novembre 2017 cette machine occupait encore le 146e rang Lrsquoautre supercalculateur est une machine dite agrave nœuds larges composeacutee de 332 nœuds de 32 cœurs pour un total de 10 624 cœurs avec 46 To de meacutemoire globale et qui

deacutelivre une puissance crecircte cumuleacutee de 230 TFlops lrsquoayant placeacute au 123e rang mondial en novembre 2012 Agrave cette configuration srsquoadjoint quatre nœuds de preacute et post-traitements de chacun 32 cœurs et 1 To de meacutemoire partageacutee ainsi qursquoun espace disques partageacute

Par ailleurs lrsquoextension des capaciteacutes de stockage a eacuteteacute reacutealiseacutee en 2014 en deux phases Drsquoune part le serveur drsquoarchives acquis en 2009 et arriveacute en fin de vie a eacuteteacute remplaceacute sur financement CNRS ce qui permettra agrave lrsquoIDRIS de faire face agrave un fort accroissement de la capaciteacute drsquoarchivage sur cartouches magneacutetiques en preacutevision de la croissance attendue de ces besoins dans les prochaines anneacutees Drsquoautre part la capaciteacute de stockage de donneacutees actives sur disques magneacutetiques agrave tregraves forte bande passante a eacuteteacute fortement accrue en 2015 avec une extension de 3 Po ( deux financeacutes par le CNRS et un par GENCI ) ajouteacutes aux 22 Po initiaux

Le remplacement de la geacuteneacuteration actuelle des supercalculateurs est maintenant preacutevu fin 2018 pour une mise en production au deacutebut de 2019 Agrave cet effet GENCI a lanceacute un appel drsquooffres en novembre 2017

LrsquoIDRIS heacuteberge en plus un certain nombre de calculateurs pour des acteurs locaux du Plateau de Saclay tel le calculateur de la Maison de la Simulation et celui du meacutesocentre CentraleSupeacutelecENS-Paris Saclay ainsi que la machine nationale de lrsquoIFB ( Institut Franccedilais de la Bioinformatique )

322 Configuration actuelle agrave lrsquoIDRIS

En janvier 2018 les moyens de calcul de GENCI heacutebergeacutes agrave lrsquoIDRIS sont constitueacutes de

bull Turing un IBM Blue GeneQ avec 98 306 cœurs PowerPC A2 agrave 16 Ghz ( soit 1644 nœuds ayant chacun 16 cœurs ) La machine est constitueacutee de 6 racks avec au total 96 Toctets de meacutemoire et une performance de crecircte de 1258 PFlops

bull Ada un IBM X3750M4 avec 10 624 cœurs SandyBridge agrave 27 Ghz ( soit 332 nœuds de 32 cœurs chacun ) La machine possegravede 49 Toctets de meacutemoire et affiche une performance de crecircte de 233 TFlops

72

Livre Blanc sur les Donneacutees au CNRS Eacutetat des Lieux et Pratiques - 2018

CENTRES NATIONAUX

Lrsquoespace disque est organiseacute en

bull Home

o Volumeacutetrie tregraves faible ( essentiellement fichiers drsquoenvironnement et sources des applications )

o Performance sans impact

o Fonctionnaliteacutes

Dureacutee de vie non limiteacutee

Soumis agrave quotas

Sauvegardeacute automatiquement ( chaque nuit )

bull Scratch

o Volumeacutetrie tregraves importante ( fonction de la puissance des calculateurs )

o Performance la plus grande possible

o Fonctionnaliteacutes

Dureacutee de vie limiteacutee agrave lrsquoexeacutecution de chaque travail ou soumis agrave des purges sur des dates drsquoancienneteacute

bull Work

o Volumeacutetrie tregraves importante ( fonction de la puissance des calculateurs )

o Performance grande

o Fonctionnaliteacutes

Dureacutee de vie non limiteacutee

Soumis agrave quotas

Pas sauvegardeacute aujourdrsquohui ( mais snapshots possibles )

73

Livre Blanc sur les Donneacutees au CNRS Eacutetat des Lieux et Pratiques - 2018

Evolution des espaces sur disques

bull De 2008 agrave 2012 12 Po agrave 6 Gos

bull Configuration acheteacutee en 2012

o 22 Po agrave 50 Gos ( deacutebit soutenu maximum )

o Compromis financier agrave lrsquoachat entre puissance de calcul et capaciteacutes de stockage

o Agrave la fois HomeScratchWork

bull A partir de 2015

o 52 Po

- Les 22 Po preacuteceacutedents

- 1 Po drsquoextension disques lieacutee agrave lrsquoextension BGQ ( 32 000 cœurs ajouteacutes en novembre 2014 )

- 2 Po extension disques

o 3 Po agrave 90 Gos

o Le scratch a eacuteteacute transfeacutereacute sur les disques de nouvelle geacuteneacuteration

o Conservation possible de versions de fichiers dans lrsquoespace Work ( snapshots )

bull Technologie GPFS drsquoIBM

bull Tous ces espaces seront redeacutefinis avec des augmentations significatives agrave la fois en volumeacutetrie et en performance pour servir la nouvelle configuration de calcul qui sera installeacutee au second semestre 2018

Au 25 aoucirct 2017 il y avait 55 millions de fichiers sur le Work 70 millions sur le Scratch et 35 millions Home + systegraveme

Les espaces sur cartouches

bull Piloteacutes par une machine drsquoarchives

o Remplaceacutee mi-2014

o Technologie TSMHSM drsquoIBM ( preacuteceacutedemment DMF de SGI )

o 11 serveurs

- 3 frontales

- 6 serveurs GPFS ( 4 pour les donneacutees 2 pour les meacutetadonneacutees )

- 2 serveurs TSMHSM ( gestion migration et robotique )

o Disques cache

- transparent pour les utilisateurs

- 2 Po agrave 24 Gos

- laquo petits raquo fichiers ( jusqursquoagrave 39 Ko ) jamais migreacutes sur cartouches

- cache pour les fichiers rechargeacutes depuis les cartouches

- purges reacuteguliegraveres en fonction de lrsquoacircge et de la taille des fichiers

o Format des donneacutees proprieacutetaire

o 4 Po migreacutes entre lrsquoancien format et le nouveau agrave lrsquoissue de 6 mois de recopies au second semestre 2014 en parallegravele avec lrsquoexploitation du nouveau serveur

bull Robot StorageTek SL8500 ( Oracle )

Il est instructif de mener un examen de lrsquoespace disque occupeacute par les diverses communauteacutes regroupeacutees en Comiteacutes theacutematiques La liste des Comiteacutes scientifiques theacutematiques nationaux est la suivante

1 Environnement

2a Eacutecoulements non reacuteactifs

2b Eacutecoulements reacuteactifs ouet multiphasiques

3 Biologie et santeacute

4 Astrophysique et geacuteophysique

5 Physique theacuteorique et physique des plasmas

6 Informatique algorithmique et matheacutematiques

7 Dynamique moleacuteculaire appliqueacutee agrave la biologie

8 Chimie quantique et modeacutelisation moleacuteculaire

9 Physique chimie et proprieacuteteacute des mateacuteriaux

10 Nouvelles applications et applications transversales du calcul

En termes de stockage sur Ada et dans une moindre mesure Turing on constate la preacutedominance des comiteacutes theacutematiques CT-1 ( Environnement hors projet CMIP6 ) CT-4 ( Astrophysique et geacuteophysique ) et CT-5 ( Physique theacuteorique et physique des plasmas ) ce qui ne reflegravete pas toujours les allocations drsquoheures de calcul par exemple sur Turing ougrave le volume drsquoheures alloueacute agrave lrsquoenvironnement est relativement faible ( 32 en 2017 )

74

Livre Blanc sur les Donneacutees au CNRS Eacutetat des Lieux et Pratiques - 2018

CENTRES NATIONAUX

75

Livre Blanc sur les Donneacutees au CNRS Eacutetat des Lieux et Pratiques - 2018

Lrsquoeacutevolution du stockage sur cartouches est en croissance reacuteguliegravere ainsi que le montre la figure ci-dessous Lrsquoessentiel du stockage sur cartouches est utiliseacute par le CT-1 avec de lrsquoordre de 80 du total ( 51 des 64 Poctets de donneacutees utilisateurs en deacutecembre 2017 )

LrsquoIDRIS est aussi impliqueacute dans la mise agrave disposition des donneacutees pour la communauteacute du climat avec le service DODS ( Distributed Oceanographic Data System ) opeacuterationnel depuis 2003 Ce serveur effectue la publication ( mondiale ) des donneacutees stockeacutees sur le serveur drsquoarchives ( potentiellement migreacutees ) avec un accegraves en lecture seule ( sauf eacutevidemment par les fournisseurs de donneacutees ) Deux espaces cohabitent sur ce serveur un espace priveacute reacuteserveacute agrave une communauteacute identifieacutee et un espace public

Il heacuteberge actuellement 25 millions de fichiers pour 407 Toctets de donneacutees stockeacutees

Depuis 2017 ce service est inteacutegreacute au sein des services du projet ESGF56 ( Earth System Grid Federation ) dans le cadre des projets CMIP57 ( Coupled Model Intercomparison Project ) pour environ 600 To fin 2017 De plus lrsquoIDRIS opeacuterera agrave partir du deacutebut de lrsquoanneacutee 2018 une archive multi-modegraveles des donneacutees les plus utiliseacutees du projet CMIP6 ( provenant drsquoenviron 50 modegraveles ) drsquoune volumeacutetrie de 4 Po afin drsquoen faciliter lrsquoexploitation et drsquooffrir un service national drsquoaccegraves agrave ces donneacutees

56 httpsesgfllnlgov57 httpswwwwcrp-climateorgwgcm-cmip

76

Livre Blanc sur les Donneacutees au CNRS Eacutetat des Lieux et Pratiques - 2018

41 INTRODUCTION

La Mission Calcul Donneacutees du CNRS (MiCaDo) soutient un certain nombre drsquoinitiatives et drsquoinfrastructures reacutegionales ou nationales au travers de lrsquoaffectation de personnels (ingeacutenieurs drsquoeacutetudes ou de recherche) dont le Centre de Calcul de lrsquoIN2P3 le Centre National de Calcul Intensif du CNRS (IDRIS) la Maison de la Simulation sur le Plateau de Saclay et les deux Uniteacutes Mixtes de Recherche CALMIP et GRICAD respectivement meacutesocentres de Toulouse et Grenoble Ces deux meacutesocentres ont des actions lieacutees agrave la fois au calcul et aux donneacutees drsquoougrave leur preacutesence dans ce Livre Blanc

42 CALMIP

Cette section a eacuteteacute eacutecrite avec Jean-Luc Estivalegravezes Directeur de lrsquoUMS CALMIP

421 Introduction

Le meacutesocentre toulousain CALMIP (CALcul en MIdi Pyreacuteneacutees) a eacuteteacute creacuteeacute en 1994 sous la forme drsquoun groupement scientifique et son premier calculateur a eacuteteacute installeacute en 1999 Depuis 2014 CALMIP est devenu une Uniteacute Mixte de Service du CNRS (UMS CNRS 3667) heacutebergeacutee actuellement agrave lrsquoEspace Cleacutement Ader dans une salle de calcul partageacutee avec le calculateur de Meacuteteacuteo-France Il beacuteneacuteficie ainsi drsquoun environnement technologique de haut niveau avec une seacutecurisation des accegraves et de lrsquoalimentation eacutelectrique et un reacuteseau de reacutecupeacuteration de chaleur

Le meacutesocentre CALMIP est ouvert agrave lrsquoensemble de la communauteacute scientifique membre de lrsquoUniversiteacute Feacutedeacuterale de Toulouse Midi-Pyreacuteneacutees ou des EPST En 2016 CALMIP a permis agrave environ 500 chercheurs dont 130 doctorants venant de 30 laboratoires de reacutealiser plus de 200 projets de recherche repreacutesentant 70 millions drsquoheures de calcul 8 grandes theacutematiques scientifiques utilisent ces moyens de calcul physico-chimie des mateacuteriaux meacutecanique des fluides sciences de lrsquoUnivers chimie quantique physique theacuteorique et moleacuteculaire bioinformatique et meacutethodes numeacuteriques

Depuis 2008 le meacutesocentre CALMIP est ouvert aux entreprises (TPE PME et ETI) pour leurs activiteacutes

innovantes et 10 des ressources du systegraveme de calcul de CALMIP sont reacuteserveacutees agrave cette activiteacuteUne eacutequipe de 6 ingeacutenieurs assure actuellement lrsquoexploitation du calculateur et le support technique et scientifique aux utilisateurs

422 Description

Les moyens de calcul sont renouveleacutes tous les 4 ans environ Le prochain renouvellement est preacutevu agrave lrsquoeacuteteacute 2018 Eos la machine actuellement en production a eacuteteacute classeacutee 183e au TOP 500 lors de sa mise en service en juin 2014 Ses caracteacuteristiques sont les suivantes

- 612 nœuds avec 2 processeurs Intel IVYBRIDGE 28 Ghz 10-cores soit un total de 12240 cœurs

- Meacutemoire 64 Go par nœud soit 39 To de RAM au total

- Puissance crecircte theacuteorique totale 274 TF

- Stockage disque 891 To de disque + 7 Po additionnels de stockage de grande capaciteacute

- Pour la partie visualisation 4 GPU (Nvidia Quadro 6000)

4 LES DONNEacuteES AU SEIN DES STRUCTURES MUTUALISEacuteES SOUTENUES PAR MICADO

STRUCTURES MUTUALISEacuteES

77

Livre Blanc sur les Donneacutees au CNRS Eacutetat des Lieux et Pratiques - 2018

CALMIP a installeacute en 2016 une infrastructure de stockage appeleacutee ATLAS pour reacutepondre agrave la convergence des besoins en calcul intensif et en traitement massif de donneacutees Un poste IR CNRS a eacuteteacute afficheacute en soutien agrave cette infrastructure Elle se compose

bull Drsquoun espace de stockage de 3 Po utiles sur systegraveme de fichiers parallegravele GPFS sur lequel les utilisateurs vont pouvoir deacuteposer agrave la fois les donneacutees de simulation produites par le supercalculateur Eacuteos mais aussi le cas eacutecheacuteant les donneacutees drsquoentreacutee neacutecessaires agrave ces simulations (fonctionnaliteacute de type workdir)

bull Drsquoun espace de stockage objet drsquoun volume utile de 4 Po ayant pour principale fonction de seacutecuriser lrsquoespace de stockage preacuteceacutedent

Le prochain renouvellement est preacutevu agrave lrsquoeacuteteacute 2018 Dans le cadre du projet CADAMIP (CPER 2015-2020 financement Etat Reacutegion Occitanie Toulouse Meacutetropole IDEX) CALMIP a choisi son nouveau supercalculateur pour la peacuteriode 2018-2022 Ce nouveau systegraveme de calcul Atos-BULL baptiseacute OLYMPE propose une puissance de 1365 Peacutetaflops

bull Un supercalculateur massivement parallegravele formeacute de 13 464 cores Intel(r) SKYLAKE 6140 interconnecteacutes via un reacuteseau Infiniband EDR (100 Gbs) dont la puissance de calcul et de traitement est 5 fois supeacuterieure agrave celle du supercalculateur actuel EOS pour la mecircme enveloppe eacutenergeacutetique

bull Un espace disque de travail drsquoune capaciteacute de 15 Po dont les performances (40 Gos) sont multiplieacutees par 4 par rapport agrave EOS afin de reacutepondre aux besoins lieacutes au traitement massif de donneacutees drsquoentreacutee et de sortie Cet espace est relieacute aux nœuds de calcul du supercalculateur

bull 2 nœuds de calcul SMP de 15 To de meacutemoire vive inteacutegreacutes au supercalculateur

bull Une connexion au systegraveme de stockage capacitif et seacutecuriseacute ATLAS afin drsquooffrir aux porteurs de projets un espace permettant de seacutecuriser leurs donneacutees sur la continuiteacute

bull Une partition GPU significative associeacutee au supercalculateur en vue drsquoapplications sur le traitement massif de la donneacutee

La mise en production est preacutevue pour septembre 2018

43 GRICAD

Cette section a eacuteteacute eacutecrite avec Violaine Louvet Directrice de lrsquoUMS GRICAD

431 Contexte

La rationalisation des infrastructures (immobiliegraveres et plateformes) pour reacuteduire les coucircts augmenter le niveau de service et gagner en fiabiliteacute et seacutecuriteacute dans une deacutemarche de deacuteveloppement durable et soutenable neacutecessite de repenser lrsquourbanisation des infrastructures de calcul et de donneacutees ainsi que lrsquoorganisation des moyens humains en synergie avec les laboratoires de recherche et les services communs Ces enjeux srsquoinscrivent agrave Grenoble dans un contexte de mutation forte du paysage de la recherche fusion des universiteacutes obtention drsquoun IdeX mais srsquoappuient eacutegalement sur un terreau de collaborations historiques entre les acteurs du numeacuterique (DSI des eacutetablissements structure interuniversitaire laboratoires) tregraves fertile

432 LrsquoUMS GRICAD

LrsquoUniteacute mixte de services GRICAD (Grenoble Alpes Recherche - Infrastructure de CAlcul intensif et de Donneacutees) a eacuteteacute creacuteeacutee dans ce contexte en 2016 comme une structure transversale mutualiseacutee autour du calcul et des donneacutees au service des personnels de lrsquoensemble des pocircles de recherche du site grenoblois Sous la tutelle du CNRS de lrsquoUGA de Grenoble-INP et drsquoINRIA elle regroupe des compeacutetences en interne autour de lrsquoadministration systegraveme speacutecifique des machines de calcul et des plateformes lieacutees aux donneacutees du calcul scientifique et intensif et du Big Data Elle feacutedegravere eacutegalement les forces du site dans une deacutemarche plus globale en srsquoappuyant sur les expertises preacutesentes dans les laboratoires les DSI et les structures drsquoenseignement

Cette mutualisation de moyens humains externes autour drsquoinfrastructures de site a lrsquoeacutenorme avantage de favoriser la proximiteacute avec les eacutequipes de recherche et donc drsquoecirctre au plus pregraves des besoins des communauteacutes

78

Livre Blanc sur les Donneacutees au CNRS Eacutetat des Lieux et Pratiques - 2018

Les missions de GRICAD recouvrent

bull Lrsquoaccompagnement et le conseil aux communauteacutes scientifiques identification et aide agrave la speacutecification du besoin autour du calcul et des donneacutees support agrave lrsquoutilisation des plateformes soutien au montage de projet sur la partie technique

bull Le calcul intensif avec un accegraves agrave diffeacuterents types de calculateurs

bull Le traitement la valorisation la diffusion le stockage des donneacutees de la recherche avec un accegraves agrave plusieurs plateformes (stockage cloudhellip)

bull Lrsquoheacutebergement sec de serveurs avec la coordination de la gestion des datacentres mutualiseacutes du site grenoblois

bull Lrsquoanimation la formation et le reacuteseautage en collaboration avec les autres acteurs du site (en particulier la maison de la modeacutelisation MaiMoSiNE le reacuteseau des informaticiens SARI et le Data Institute de Grenoble)

433 Les services autour de la donneacutee

La creacuteation de GRICAD srsquoest appuyeacutee sur un existant solide et historique autour du calcul intensif le meacutesocentre CIMENT Les services autour de la donneacutee ont eacuteteacute construits ex nihilo agrave partir des besoins exprimeacutes par les communauteacutes scientifiques

Les caracteacuteristiques principales sont une tregraves grande diversiteacute des donneacutees et un rapprochement important avec le calcul intensif sous la forme de besoins en traitement tregraves varieacutes Les difficulteacutes rencontreacutees concernent drsquoune part une connaissance et une appropriation technique tregraves heacuteteacuterogegravenes des technologies et des infrastructures drsquoune communauteacute agrave lrsquoautre voire drsquoun individu agrave lrsquoautre et drsquoautre part un accompagnement interne (dans les laboratoires) tregraves diffeacuterent drsquoune structure agrave lrsquoautre neacutecessitant la mise en place drsquoun support laquo agrave la carte raquo Le deacuteploiement des services autour de la donneacutee doit aussi srsquointeacutegrer dans un environnement existant de structures de recherche drsquoaccompagnement de projets aux niveaux local national et europeacuteen

GRICAD participe ainsi au projet europeacuteen EOSCPilot par exemple

Lrsquooffre de service proposeacutee par GRICAD inclut lrsquoaccegraves agrave diffeacuterents environnements de stockage drsquoinfrastructures de cloud de Big Data de traitements de donneacutees et piles logicielles lieacutees agrave la manipulation de la donneacutee LrsquoUMS collabore eacutetroitement avec la recherche en informatique en particulier lrsquoinfrastructure nationale Gridrsquo5000 avec laquelle elle partage une nouvelle machine de calcul notamment deacutedieacutee aux Data Analytics Les services et plateformes proposeacutes sont dynamiques et eacutevolutifs en fonction des demandes des scientifiques

GRICAD accompagne tout particuliegraverement certaines communauteacutes Drsquoune part pour les aider agrave aborder le tournant du numeacuterique et drsquoautre part pour faire monter en compeacutetences ses eacutequipes propres sur les technologies agrave la pointe LrsquoUMS est ainsi tregraves active dans le projet drsquoentrepocirct de donneacutees du CHU de Grenoble et dans plusieurs projets avec la communauteacute SHS (collecte de donneacutees du web deep learning)

434 Description des ressources de calcul et de stockage

GRICAD offre une diversiteacute de plateformes deacuteployeacutees en fonction des besoins exprimeacutes par les communauteacutes scientifiques

bull Froggy calcul intensif (reacuteseau Infiniband) constitueacute de 3236 coeurs de calcul et drsquoun stockage Lustre de 90 To Froggy integravegre quelques nœuds GPU

bull Luke traitement massif de donneacutees 906 coeurs de calcul

bull Dahu machine de convergence HPC - Data Analytics mutualiseacutee avec Gridrsquo5000 2560 coeurs de calcul reacuteseau Omnipath avec nœuds burst buffers (NVMe) et scratch SSD

bull Stockage IRODS drsquoenviron 1 Po mutualiseacute distribueacute et accessible depuis lrsquoensemble des plateformes

bull Bettik Stockage BeeGFS de 292 To utiles fournissant aux machines Luke et Dahu un scratch distribueacute et performant

STRUCTURES MUTUALISEacuteES

79

Livre Blanc sur les Donneacutees au CNRS Eacutetat des Lieux et Pratiques - 2018

bull SUMMER Stockage NetApp de plus de 3 Po de volumeacutetrie brute proposant diffeacuterents niveaux de seacutecurisation (sauvegarde reacuteplication) et diffeacuterents niveaux de performance (stockage capacitif ou performant)

bull WINTER Plateforme VMWare de virtualisation

bull Cloud openstack sur stockage CEPH

bull Plateforme JupyterHub de notebooks

bull Plateforme Big Data Hadoop

435 Interactions et cross-fertilisation

La transversaliteacute intrinsegraveque des infrastructures de calcul et de donneacutees fait de lrsquoUMS GRICAD un lieu naturel de lrsquointerdisciplinariteacute et de rencontres des diffeacuterentes communauteacutes scientifiques Lrsquoobjectif afficheacute est de deacutepasser les speacutecificiteacutes disciplinaires afin de pouvoir offrir des solutions mateacuterielles et technologiques partageacutees et co-construites

GRICAD srsquoefforce de deacutevelopper une logique de mutualisation drsquoexpeacuteriences autour de la deacutefinition et lrsquoappropriation des services numeacuteriques proposeacutes en diffusant les pratiques existantes dans les disciplines les plus avanceacutees dans le domaine et en incitant au transfert de technologie drsquoune communauteacute agrave lrsquoautre Les missions autour de lrsquoanimation et de la formation sont en cela particuliegraverement critiques

Le deacuteveloppement de liens entre les chercheurs autour de theacutematiques neacutecessairement communes est essentiel Ainsi des groupes de travail interdisciplinaires ont eacuteteacute formeacutes pour reacutepondre au questionnement autour du cycle de vie de la donneacutee et de la nouvelle reacuteglementation europeacuteenne sur les donneacutees personnelles (RGPD) par exemple

La valeur ajouteacutee drsquoune uniteacute de services agrave lrsquoeacutechelle drsquoun site comme Grenoble est fondamentalement la proximiteacute avec les eacutequipes de recherche et la souplesse pour reacutepondre aux besoins des scientifiques

80

Livre Blanc sur les Donneacutees au CNRS Eacutetat des Lieux et Pratiques - 2018

Le traitement des donneacutees agrave grande eacutechelle (Big Data) est un reacuteel enjeu strateacutegique pour le CNRS et concerne tous les instituts mecircme si les pratiques au sein de chaque institut sont tregraves variables en fonction de lrsquohistorique de chaque discipline en matiegravere de donneacutees La maicirctrise de tous les aspects du Big Data relegraveve drsquoune deacutemarche fondamentalement interdisciplinaire dans laquelle le CNRS se doit drsquoexceller

Lrsquoenjeu fondamental pour le CNRS est de promouvoir une veacuteritable laquo culture de la donneacutee raquo au sein du CNRS Le CNRS doit mieux valoriser toutes les donneacutees que ses eacutequipes de recherches produisent se doter drsquoune strateacutegie en matiegravere de donneacutees et afficher son rocircle moteur dans des initiatives comme EOSC58 ou lieacutees agrave lrsquoOpen Science lrsquoOpen Data et agrave RDA59 et agrave des principes comme le FAIR Data60 Le CNRS se doit de mettre en place une reacuteponse coordonneacutee face aux besoins eacutemergeants en termes de donneacutees drsquoecirctre plus attractif pour des recrutements drsquoanalystes de donneacutees et drsquointensifier ses actions de formation au niveau des outils dans le domaine Il doit aussi ecirctre attentif agrave lrsquoeacutevolution de carriegravere des personnels ITA (ingeacutenieurs essentiellement) impliqueacutes dans ces actions interdisciplinaires Il est aussi souhaitable de mener une reacuteflexion sur une politique des donneacutees au sein du CNRS relative agrave leur cycle de vie utilisation creacuteation collection preacuteservation partage reacuteutilisation et publication interopeacuterabiliteacute deacutefinition de Data Management Plan61 proprieacuteteacute ouverture adoption des principes FAIR consommation eacutenergeacutetique et empreinte carbonehellip

Lrsquoavalanche de donneacutees qui ne fait que se confirmer dans de multiples domaines doit inciter le CNRS agrave se doter drsquoune strateacutegie forte agrave la hauteur des enjeux scientifiques en

bull Reacutepondant aux besoins des communauteacutes en matiegravere de plateformes pour lrsquoanalyse de donneacutees agrave grande eacutechelle le cas eacutecheacuteant en lien

58 The European Open Science Cloud (httpseoscpiloteu)59 Research Data Alliance (wwwrd-allianceorg)60 Findable Accessible Interoperable Reusable data61 Voir par exemple dmpopidorfr

avec les systegravemes drsquoobservation les plateformes expeacuterimentales ou les grandes simulations numeacuteriques qui les produisent avec les probleacutematiques du stockage de la gestion et de la valorisation de ces donneacutees du support pour les utilisateurs de la formation de Data scientists (chercheurs ou ingeacutenieurs compeacutetents en analyse de donneacutees) et du deacuteploiement de chaicircnes logicielles drsquoanalyse de donneacutees passant agrave lrsquoeacutechelle

bull Favorisant lrsquointerdisciplinaire entre les communauteacutes produisant des donneacutees et les communauteacutes dont crsquoest lrsquoobjet de recherche en particulier en capitalisant sur les multiples compeacutetences en apprentissage et Intelligence Artificielle au CNRS

bull Mettant en place une politique de gestion de valorisation et de peacuterennisation des donneacutees au sein du CNRS

Le CNRS pourrait srsquoappuyer sur la mission Calcul et Donneacutees du CNRS (MICADO) pour deacutefinir et mettre en œuvre une telle strateacutegie autour de lrsquoorganisation de la gestion de lrsquoexploitation des donneacutees scientifiques et avec des moyens suppleacutementaires contribuer agrave lrsquoeacutemergence de plateformes de gestion et drsquoanalyse de donneacutees en y positionnant des ingeacutenieurs et des data scientists capables drsquooffrir un service technique de haut niveau et drsquoaccompagner les chercheurs dans leurs expeacuterimentations Cette action pourrait contribuer agrave faire eacutemerger sur le territoire quelques sites de reacutefeacuterences autour desquels peuvent graviter plusieurs projets de recherche en sciences des donneacutees ou srsquointeacuteresser agrave des communauteacutes scientifiques speacutecifiques De telles initiatives peuvent et doivent ecirctre compleacutementaires des autres initiatives locales ou reacutegionales soutenues par des IDEX ou drsquoautres organismes de recherche par exemple

5 CONCLUSION

81

Page 3: Livre Blanc sur les Données au CNRS État des Lieux et

SOMMAIRE

LES DONNEacuteES AU CNRS SYNTHEgraveSE 7

RECOMMANDATIONS 11

1 INTRODUCTION 15

2 LES DONNEacuteES AU SEIN DES INSTITUTS DU CNRS

21 INSTITUT DE CHIMIE ( INC ) 18

22 INSTITUT ECOLOGIE ET ENVIRONNEMENT ( INEE ) 21

23 INSTITUT DE PHYSIQUE ( INP ) 26

24 INSTITUT DES SCIENCES BIOLOGIQUES ( INSB ) 35

25 INSTITUT DES SCIENCES HUMAINES ET SOCIALES ( INSHS ) 40

26 INSTITUT DES SCIENCES DE LrsquoINGENIERIE ET DES SYSTEMES ( INSIS ) 45

27 INSTITUT NATIONAL DES SCIENCES MATHEMATIQUES ET DE LEURS INTERACTIONS ( INSMI ) 49

28 INSTITUT DES SCIENCES DE LrsquoUNIVERS ( INSU ) 52

29 INSTITUT DES SCIENCES DE LrsquoINFORMATION ET DE LEURS INTERACTIONS ( INS2I ) 62

210 INSTITUT NATIONAL DE PHYSIQUE NUCLEAIRE ET DE PHYSIQUE DES PARTICULES ( IN2P3 ) 68

3 LES DONNEacuteES AU SEIN DES CENTRES NATIONAUX DU CNRS 72

31 LE CC-IN2P3 72

32 LrsquoIDRIS 76

4 LES DONNEacuteES AU SEIN DES STRUCTURES SOUTENUES PAR MICADO 81

41 INTRODUCTION 81

42 CALMIP 81

43 GRICAD 82

5 CONCLUSION 85

Livre Blanc sur les Donneacutees au CNRS Eacutetat des Lieux et Pratiques - 2018

1 Lrsquoorganisation la gestion et lrsquoexploitation scientifique des donneacutees1 dont les volumes les vitesses et la diversiteacute ne cessent de croitre sont devenues aujourdrsquohui un enjeu majeur pour la production de nouvelles connaissances et deacutecouvertes scientifiques Elles sont cruciales pour de nombreuses applications deacuteriveacutees agrave fort impact socieacutetal ( changements climatiques et environnementaux biologie santeacute villes et transports intelligentshellip ) eacuteconomique ( p ex nouvelles ressources eacutenergeacutetiques finance compeacutetitiviteacute industrielle ) et eacutethique ( santeacute biologie sciences humaines et socialeshellip ) Combineacute agrave lrsquoIntelligence Artificielle ( IA ) le Big Data est eacutegalement devenu un enjeu pour les systegravemes de surveillance et drsquoaide agrave la deacutecision ( preacutevision des aleacuteas naturels et preacutevention des risques associeacutes eacutepideacutemiologie deacuteveloppement durablehellip )

2 Le Big Data concerne aujourdrsquohui lrsquoensemble des instituts et des communauteacutes scientifiques du CNRS Sa prise en compte dans les pratiques de recherche et dans lrsquoorganisation des communauteacutes varie selon les instituts du CNRS avec

bull Des instituts dont les pratiques de recherche sont fortement structureacutees agrave lrsquoeacutechelle reacutegionale nationale et internationale autour de la production du traitement de lrsquoarchivage et de la curation de lrsquoanalyse et la valorisation scientifique de gros volumes de donneacutees avec des infrastructures feacutedeacutereacutees et via un stewardship des donneacutees bien eacutetabli ( IN2P3 INSU INSB INSHS )

bull Des instituts qui se structurent aujourdrsquohui afin de reacutepondre aux besoins eacutemergeants associeacutes agrave lrsquoaugmentation des volumes et de la diversiteacute de leurs donneacutees dans les pratiques de recherche ( INEE )

bull Des instituts pour qui en dehors de certaines TGIR par exemple la prise en compte de la probleacutematique des donneacutees reste encore embryonnaire mecircme si

1 Les donneacutees srsquoentendent ici comme toute information codeacutee numeacuteriquement qui peut ecirctre stockeacutee transmise comprise et trai-teacutee par des ordinateurs Elles incluent par exemple les donneacutees geacuteneacutereacutees par des grands instruments scientifiques des systegravemes drsquoobservation des faciliteacutes expeacuterimentales des laboratoires de diagnostic des reacuteseaux de capteurs distribueacutes ( en milieux naturels ou urbains ) des simulations numeacuteriques des reacuteseaux de com-munications et sociaux ainsi que des collections archiveacutees et organiseacutees de nouveaux objets digitaux associeacutes aux reacutesultats de la recherche et agrave la numeacuterisation de collections de bibliothegraveques et de museacutees

les choses devraient rapidement eacutevoluer dans un contexte de compeacutetitiviteacute internationale en raison de lrsquoimportance croissante des donneacutees dans leurs pratiques de recherche ( INC INP INSIS )

bull Des instituts pour lesquels la donneacutee et les meacutethodes drsquoanalyse de donneacutees sont en soi un objet de recherche ( INSMI et INS2I )

bull Des besoins et des pratiques relatifs aux donneacutees tregraves lieacutes aux communauteacutes scientifiques et pouvant mecircme varier drsquoun pays agrave lrsquoautre au sein drsquoune mecircme communauteacute scientifique ( pex base de donneacutees du CoE NOMAD ) La reacuteflexion sur les donneacutees est parfois loin drsquoecirctre mature dans certaines communauteacutes

3 Les flux de donneacutees ( volume veacutelociteacute diversiteacute ) explosent Ils sont engendreacutes aujourdrsquohui au sein

bull drsquoenvironnements centraliseacutes ( c-agrave-d HPC et Cloud ) qui concentrent des ressources de pointe ( stockage calcul communication ) au sein de grands ensembles de simulations numeacuteriques

bull et drsquoenvironnements peacuteripheacuteriques ou reculeacutes ougrave ces ressources sont rares par exemple les grands instruments ( collisionneurs et acceacuteleacuterateurs ) et reacuteseaux drsquoobservation ( sol mer air spatial ) les reacuteseaux de capteurs lrsquointernet des objets

4 La logistique des donneacutees la neacutecessiteacute de redistribuer de grands jeux de donneacutees depuis les environnements centraliseacutes vers la peacuteripheacuterie durant leur cycle de vie fait deacutesormais de la logistique des donneacutees ( c-agrave-d positionnement encodage agencement des donneacutees au cours du temps transmission archivage et distribution des ressources et des services disponibles ) un des principaux deacutefis La reacuteduction laquo intelligente raquo2 des donneacutees tout au long de leur mouvement de leur traitement et de leur analyse est commune agrave tous les environnements de production

2 Processus neacutecessitant de deacuteplacer laquo lrsquointelligence raquo au plus proche de leurs sources ( centraliseacutees ou peacuteripheacuteriques ) afin de traiter et reacuteduire ces flux en continu au cours de leur transport et de leur analyse au travers drsquoun reacuteseau ( statique ou dynamique ) de res-sources ( calcul stockage ) et de services distribueacutes caracteacuteriseacute par un continuum de bandes passantes heacuteteacuterogegravenes

LES DONNEacuteES AU CNRS SYNTHEgraveSE

4

Livre Blanc sur les Donneacutees au CNRS Eacutetat des Lieux et Pratiques - 2018

5 Stewardship des donneacutees un autre deacutefi critique est lrsquoorganisation des communauteacutes ( c-agrave-d stewardship ) et des ressources autour des donneacutees en phase avec leurs pratiques de recherche pour lrsquoarchivage et la curation des donneacutees Cela recouvre une varieacuteteacute drsquoactiviteacutes dont

bull Lrsquointeacutegration lrsquoagreacutegation le traitement et la calibration lrsquoarchivage et le reacutefeacuterencement la curation la documentation la publication des donneacutees ainsi que leur diffusion rapide eacuteventuellement apregraves une courte peacuteriode drsquoexclusiviteacute agrave lrsquoensemble de la communauteacute afin drsquoen maximiser le retour scientifique

bull La deacutefinition de standards reconnus et partageacutes de repreacutesentation et drsquoeacutechanges de donneacutees des services ( deacutecouverte accegraves manipulation visualisation ) ainsi que des protocoles de controcircle de qualiteacute et de veacuteraciteacute des donneacutees

bull Lrsquoexistence de plateformes drsquoarchivage et de curation des donneacutees mutualisant expertises ressources ( stockage calcul ) et services sur le cycle de vie des donneacutees qui pour certaines disciplines va bien au-delagrave de la dureacutee de vie des instruments systegravemes drsquoobservation et faciliteacutes expeacuterimentales

bull Et selon les communauteacutes la mise agrave disposition et la maintenance de logiciels et de librairies de reacutefeacuterence et de nouveaux objets associant donneacutees et reacutesultats de recherche ( annotations publications )

6 Interdisciplinariteacute et donneacutees multi-source la maicirctrise de tous les aspects du Big Data relegraveve drsquoune deacutemarche fondamentalement interdisciplinaire En effet un nombre croissant drsquoenjeux scientifiques impliquent aujourdrsquohui une compreacutehension preacutedictive drsquoun mecircme objet ou systegraveme ( p ex astronomie climat geacuteophysique surveillance des aleacuteas naturels et changements environnementaux physique des hautes eacutenergies sciences des mateacuteriaux bio-meacutedecine biologie sciences eacuteconomiques et sociales ) Ces approches interdisciplinaires requiegraverent des systegravemes drsquoinformation permettant la deacutecouverte et lrsquoaccegraves fluide agrave des donneacutees multi-types et multi-sources issues de domaines et de systegravemes drsquoacquisition diffeacuterents accompagneacutes drsquooutils laquo translationnels raquo pour les combiner les croiser et les syntheacutetiser au sein de chaicircnes de traitement et drsquoanalyse souvent coupleacutees agrave des simulations numeacuteriques Deacutecouvrir et acceacuteder agrave ces donneacutees ainsi qursquoaux ressources et services associeacutes demande une harmonisation ( agrave travers diffeacuterentes disciplines ) et une standardisation ( au sein des disciplines ) des modegraveles de donneacutees

7 Convergence HPC et HDA au-delagrave de la diversiteacute des applications scientifiques exploitant les donneacutees de nombreuses communauteacutes scientifiques combinent et orchestrent aujourdrsquohui des applications drsquoanalyse de pointe ( HDA pour High-end Data Analysis ) et de calcul haute performance ( HPC pour High-Performance Computing ) combineacutees de plus en plus agrave des meacutethodes drsquoapprentissage machine au sein de larges workflows piloteacutes par les donneacutees A chacune de leurs eacutetapes ces workflows requiegraverent souvent drsquoacceacuteder manipuler et combiner de maniegravere coordonneacutee de larges volumes et une grande diversiteacute de donneacutees multi-sources geacuteneacutereacutees par les observations les expeacuteriences et les simulations Ces workflows ne sont pas des outils logiciels ou des codes applicatifs isoleacutes mais des configurations complexes et variables de flux de donneacutees et de logiciels mobilisant des ressources de calcul hybrides ( HTC pour High-Throughput Computing et HPC avec une utilisation croissante des GPUs ) et de stockage ( bases de donneacutees systegravemes de fichiers parallegraveles stockage de type objet ) dans des environnements drsquoexeacutecution ( en flux et par lots ) supportant les nouvelles technologies de virtualisation ( conteneurisation )

8 Une nouvelle strateacutegie et architecture agrave mesure que le HDA et le HPC continueront agrave se deacutevelopper il semble clair que les systegravemes centraliseacutes ( c-agrave-d centres HPC et systegravemes Cloud ) et deacutecentraliseacutes ( plateformes distribueacutees de services ) doivent ecirctre inteacutegreacutesfeacutedeacutereacutes au sein drsquoun reacuteseau de ressources et de services adressant la complexiteacute et la diversiteacute de la logistique des donneacutees tout au long des chaicircnes de production et drsquoutilisation des donneacutees Cela requiert une nouvelle strateacutegie ( meacutethodologique technologique et culturelle ) et une nouvelle architecture avec de nouveaux enjeux logiciels afin drsquointerfacer et drsquointeropeacuterer une diversiteacute de plateformes technologiques incluant

bull Plateformes peacuteripheacuteriques de traitement et de reacuteduction des donneacutees ( c-agrave-d edge-infrastructures ) permettant le traitement lrsquoagreacutegation et la reacuteduction laquo intelligente raquo des flux ( volumes vitesses ) au plus proche de leurs sources ( grands instruments systegravemes drsquoobservations reacuteseaux de capteurshellip ) dans des environnements souvent reculeacutes ainsi que le pilotage adaptatif de leurs systegravemes drsquoacquisition

bull Plateformes de services de calcul et drsquoanalyse de donneacutees distribueacutees et feacutedeacutereacutees mutualisant dans des environnements multi-utilisateur et multi-application des services flexibles de communication de logiciel de stockage de calcul ( HDA HPC ) drsquoexeacutecution ( flux lots ) adapteacutes au

5

Livre Blanc sur les Donneacutees au CNRS Eacutetat des Lieux et Pratiques - 2018

Big Data ( p ex Spark Storm ) et aux nouvelles technologies de virtualisation ainsi qursquoagrave lrsquoutilisation croissante de meacutethodes de type statistique et apprentissage machine avec des flux de traitement et drsquoanalyse proches des vitesses drsquoaccegraves aux donneacutees

bull Plateformes centraliseacutees de type HPC et Cloud crsquoest-agrave-dire agrave lrsquoeacutechelle des grands centres nationaux et reacutegionaux Elles concentrent des ressources de tregraves haute performance dont lrsquoutilisation doit ecirctre maximiseacutee pour servir des communauteacutes multiples avec de nouveaux environnements ( p ex OpenHPC ) permettant de supporter les technologies de virtualisation et adapteacutes agrave des configurations complexes de workflows couplant HPC et HDA ainsi que lrsquoutilisation croissante des meacutethodes de type Intelligence Artificielle ( pour lrsquoanalyse de donneacutees la repreacutesentation des connaissances et lrsquoaide agrave la deacutecision ) grands ensembles de simulations numeacuteriques coupleacutees ingestion et assimilation de grands jeux de donneacutees multi-source

bull Plateformes feacutedeacutereacutees drsquoarchivage de curation et de distribution des donneacutees mutualisant ressources services et expertises pour le stockage la curation et la mise agrave disposition de donneacutees durant leur cycle de vie et dont les volumes et la diversiteacute impliquent aujourdrsquohui des capaciteacutes croissantes de stockage et de calcul

9 Efficience eacutenergeacutetique lrsquoefficience eacutenergeacutetique est aujourdrsquohui un deacutefi transversal majeur Le mouvement et le traitement des donneacutees et des informations ont un coucirct dont la reacuteduction passe notamment par ( i ) lrsquoutilisation de plateformes ( HPC calcul et analyse ) ( ii ) eacuteviter des reacutepeacutetitions inutiles de transferts ( cachingbufferisation ) et les optimiser ( pre-fetching compression ) ( iii ) reacuteduire les distances et mutualiser les environnements drsquoheacutebergement ( colocalisation des plateformes drsquoarchivage et de curation et des plateformes de calcul et drsquoanalyse des donneacutees ) ( iv ) faciliter la reacuteutilisation des calculs et des donneacutees au sein et entre domaines ( observations et reacutesultats de simulations meacutetadonneacutees catalogues )

10 Nouvelles expertises et activiteacutes maitriser les enjeux associeacutes aux donneacutees et accompagner toutes ces eacutevolutions requiert aujourdrsquohui drsquoassocier raisonnement scientifique et innovation technologique au travers de nouvelles expertises ( Chercheurs ITA ) et de collaborations interdisciplinaires entre les diffeacuterents domaines applicatifs les sciences des donneacutees la recherche informatique et les deacuteveloppeurs et fournisseurs drsquoinfrastructures Ces diffeacuterents enjeux

requiegraverent eacutegalement un ensemble drsquoactiviteacutes ainsi que des nouvelles plateformes technologiques ( stockage calcul communication ) complexes agrave geacuterer qui constituent des tacircches lourdes et coucircteuses en effort humain Le deacuteficit drsquoexpertise de moyens humains et de reconnaissance de ces nouvelles activiteacutes que lrsquoon constate dans de nombreux domaines freine lrsquoorganisation des communauteacutes scientifiques et le deacuteveloppement de nouvelles pratiques de recherche et in fine peacutenalise la production scientifique

11 Contexte interne au CNRS le CNRS et ses diffeacuterents Instituts constituent un contexte scientifique et technologique particuliegraverement favorable agrave une maicirctrise des probleacutematiques autour des donneacutees avec des instituts producteurs de donneacutees et des instituts pour lesquels les donneacutees sont des objets de recherche des pratiques interdisciplinaires bien eacutetablies ( coopeacuterations inter-instituts Mission pour lrsquoInterdisciplinariteacute avec en particulier le deacutefi MASTODONS3 lrsquoINIST et des initiatives comme Cat OpiDor4hellip ) ainsi que deux centres nationaux nationalement et internationalement reconnus dans les domaines du HPC ( IDRIS ) et de la gestion et de lrsquoanalyse de donneacutees massives ( CC-IN2P3 )

12 On constate dans tous les domaines des besoins eacutevidents en

bull Plateformes pour lrsquoanalyse de donneacutees agrave grande eacutechelle avec les probleacutematiques du stockage de la gestion et de la valorisation de ces donneacutees

bull Support pour les utilisateurs

bull Data scientists ( chercheurs ou ingeacutenieurs compeacute-tents en analyse de donneacutees )

bull Deacuteploiement de chaicircnes logicielles drsquoanalyse de donneacutees qui passent agrave lrsquoeacutechelle

3 Grandes masses de donneacutees scientifiques ( httpwwwcnrsfrmispipphparticle53 )4 Catalogue des services franccedilais deacutedieacutes aux donneacutees scientifiques ( httpscatopidorfr )

SYNTHESE

6

Livre Blanc sur les Donneacutees au CNRS Eacutetat des Lieux et Pratiques - 2018

bull Effort interdisciplinaire entre les communauteacutes produisant des donneacutees et les communauteacutes dont crsquoest lrsquoobjet de recherche

bull Valorisation et peacuterennisation des donneacutees beau-coup de donneacutees sont creacuteeacutees pour un besoin preacutecis puis in fine perdues alors qursquoelles pourraient parfois ecirctre reacuteutiliseacutees ( expeacuteriences comme simulations ) ce qui suppose la promotion des pratiques autour de lrsquoarchivage lrsquoindexation la mise agrave disposition etc

bull Deacutefinitions de plans de gestion des donneacutees ( DMP Data Management Plan ) loin drsquoecirctre geacuteneacuterali-seacutes aujourdrsquohui

13 Accompagner de maniegravere efficace toutes ces eacutevolutions requiert donc de multiples efforts dont

bull Le deacuteploiement de plateformes drsquoanalyse de donneacutees performantes le rapprochement entre les communauteacutes HTC et HPC le deacuteveloppement de lrsquoactiviteacute et des compeacutetences autour de lrsquoanalyse de donneacutees au sein des centres HPC nationaux et reacutegionaux en soulignant que les volumes sont tels que les donneacutees deviennent tregraves coucircteuses agrave deacuteplacerhellip

bull La conceptionexploitation efficace drsquoarchitectures et drsquoenvironnements orienteacutes donneacutees

bull Lrsquoanalyse de lrsquoimpact des technologies du type GPU Cloud computinghellip

bull La multiplication de lrsquousage des meacutethodes drsquoanalyse de donneacutees et drsquoaide agrave la deacutecision machine learning retour de lrsquoIntelligence Artificielle au premier planhellip

bull La maicirctrise du passage agrave lrsquoeacutechelle pour les outils drsquoanalyse de donneacutees ainsi que lrsquoeacutevolution des meacutethodes drsquoanalyse

bull Deacuteveloppement des recherches interdisciplinaires et des compeacutetences autour des donneacutees au sein du CNRS ainsi que celui du support aux utilisateurs

bull La sensibilisation au coucirct eacutenergeacutetique croissant induit par le traitement et la gestion des donneacutees au sein des communauteacutes pour aller vers une informatique durable et une minimisation de lrsquoempreinte carbone de nos activiteacutes

7

Livre Blanc sur les Donneacutees au CNRS Eacutetat des Lieux et Pratiques - 2018

A une peacuteriode ougrave la science est de plus en plus compeacutetitive interdisciplinaire et internationale les nouveaux enjeux associeacutes aux donneacutees requiegraverent une eacutevolution des pratiques de recherche et une nouvelle strateacutegie agrave lrsquoeacutechelle du CNRS

Fort de sa multidisciplinariteacute de ses deux centres nationaux avec une expertise internationalement reconnue en HPC ( IDRIS ) et en gestion et analyse de donneacutees massives ( CC-IN2P3 ) ainsi que de sa preacutesence dans un grand nombre de TGIRs et drsquoIRs le CNRS doit se doter aujourdrsquohui drsquoune strateacutegie plus active autour des nouvelles probleacutematiques lieacutees aux donneacutees

Cette strateacutegie doit ecirctre co-formuleacutee co-deacuteveloppeacutee et co-impleacutementeacutee avec les diffeacuterents instituts et les communauteacutes scientifiques en phase avec leurs pratiques de recherche et la diversiteacute de leurs chaicircnes de production drsquoutilisation et de valorisation des donneacutees Elle doit prendre en compte la logistique des donneacutees tout au long de ces chaicircnes afin drsquoacceacuteleacuterer lrsquoextraction de nouvelles connaissances Elle doit enfin faciliter et transformer les pratiques de recherche en mutualisant les expertises au sein des diffeacuterentes communauteacutes scientifiques et de leurs instituts ainsi que reacutepondre aux nouveaux enjeux de la recherche interdisciplinaire inteacutegrant des donneacutees multi-source

Sur la base de ce document un certain nombre de recommandations sont proposeacutees pour cette strateacutegie

bull R1 Politique et gestion des donneacutees Le CNRS doit promouvoir une laquo culture des donneacutees raquo dans et entre ses instituts et mieux valoriser toutes les donneacutees que ses eacutequipes de recherche produisent Cela implique une reacuteflexion en matiegravere de politique de donneacutees ( Open Data et FAIR Data5 ) tout au long du cycle de vie des donneacutees de gestion des donneacutees avec en particulier lrsquoeacutelaboration drsquoun Data Management Plan6 en collaboration avec les diffeacuterents instituts et possiblement lrsquoINIST et drsquoOpen science7 inteacutegrant la publication des donneacutees et de nouveaux objets interfaccedilant donneacutees et reacutesultats scientifiques Cette reacuteflexion doit srsquoappuyer sur et harmoniser les expertises acquises dans ce domaine par un certain nombre drsquoinstituts tant au niveau national qursquointernational ( p ex IN2P3 INSU INSB INSHS ) Dans ce contexte il doit jouer un rocircle moteur dans les initiatives europeacuteennes comme EOSC8 et GoFAIR9 dans un certain nombre drsquoactiviteacutes drsquoorganisation non gouvernementale comme RDA10 et drsquoinitiatives internationales comme le Belmont Forum11

bull R2 Accroitre les expertises interdisciplinaires pour lrsquoanalyse et lrsquoutilisation des donneacutees Le CNRS fort des acquis reacutealiseacutes au travers de la Mission pour lrsquoInterdisciplinariteacute ( p ex programme MASTODONS ) et de plusieurs Groupements de Recherche ( p ex MADICS ) devrait lancer une initiative transversale srsquoappuyant sur un certain nombre de TGIRs et IRs pour favoriser des collaborations interdisciplinaires au travers des instituts du CNRS rassemblant des experts des diffeacuterents domaines scientifiques des diffeacuterents domaines meacutethodologiques en sciences des donneacutees ( matheacutematiques statistiques informatiques ) et deacuteveloppeurs drsquoinfrastructures Ceci afin de creacuteer un veacuteritable hub scientifique et drsquoexpertise pour le deacuteveloppement de nouvelles meacutethodes de gestion de traitement et drsquoanalyse de donneacutees de nouveaux algorithmes et leur impleacutementation au travers de logiciels modulaires de librairies de services et drsquooutils partageacutes et pouvant servir les besoins de diffeacuterentes communauteacutes sur le modegravele du Berkeley Institute

5 Findable Accessible Interoperable Reusable data6 Voir par exemple dmpopidorfr7 Open Science in Europe8 European Open Science Cloud declaration et EOSC pilot9 GoFair Initiative10 Research Data Alliance11 Belmont Forum

RECOMMANDATIONS

8

Livre Blanc sur les Donneacutees au CNRS Eacutetat des Lieux et Pratiques - 2018

for Data Science12 ( BIDS ) du Data Science Institute de Imperial College ou de lrsquoUniversiteacute de Maastricht Le CNRS pourrait ainsi encourager la collaboration de scientifiques de diffeacuterents domaines autour de lrsquoameacutelioration des algorithmes utiliseacutes dans lrsquoanalyse de donneacutees par exemple pour les synchrotrons sur le modegravele de CAMERA ( httpwwwcameralblgov ) aux Eacutetats-Unis Un tel Hub pourrait eacutegalement constituer un instrument preacutecieux pour la prise en compte des probleacutematiques associeacutees aux donneacutees en amont lors de lrsquoeacutelaboration de grands projets internationaux de TGIRs et drsquoIRs et ainsi faciliter lrsquoorganisation et accroitre la visibiliteacute des contributions franccedilaises dans ces initiatives Dans ce contexte le CNRS pourrait financer des ETPTs chercheurs et ingeacutenieurs en appui agrave ces deacuteveloppements interdisciplinaires eacuteventuellement en collaboration avec des pocircles universitaires et drsquoautres organismes pour par exemple deacutevelopper des logiciels de traitement de donneacutees tels XSOCS ( httpssourceforgenetprojectsxsocs ) sur les synchrotrons

bull R3 Architecture et Infrastructures pour lrsquoanalyse des donneacutees Le CNRS devrait en srsquoappuyant sur les expertises de ses deux centres nationaux de France Grilles de certains meacuteso-centres TGIRs et IRs mener des expeacuteriences relatives agrave lrsquoarchitecture et agrave la feacutedeacuteration de plateformes distribueacutees de services de calcul et de stockage et de plateformes centraliseacutees ( HPC Cloud ) dans le cadre de chaicircnes pilotes de production et drsquoutilisation de donneacutees et de leur logistique des donneacutees refleacutetant la diversiteacute des utilisateurs et des pratiques de recherche Ces expeacuteriences permettraient de mieux eacutevaluer les performances des traitements en flux de type Cloud les protocoles de transferts et les configurations reacuteseaux ainsi qursquoameacuteliorer radicalement lrsquoexploitation des ressources HPC pour des workflows combinant HPC HDA et machine learning Le CNRS pourrait ainsi accroitre son rocircle au niveau europeacuteen agrave lrsquointerface entre EOSC et EDI ( European Data Infrastructure ) Il serait possible drsquoeacutetudier lrsquoaccegraves agrave des moyens informatiques de type Cloud aux TGIR du CNRS au travers par exemple drsquoun accord avec le CC-IN2P3 ou France Grilles

12 httpsbidsberkeleyeduabout

bull R4 Archivage curation et distribution des donneacutees Le CNRS pourrait eacutegalement en srsquoappuyant sur des expertises internationalement reconnues telles celles du Centre de Donneacutees de Strasbourg et ses contributions agrave lrsquoIVOA soutenir et mener des expeacuteriences pilotes pour lrsquoorganisation de plateformes distribueacutees drsquoarchivage drsquoindexation et de curation de donneacutees multi-source mutualisant des ressources ( stockage calcul ) ainsi que pour leur inteacutegration au sein de pocircles de donneacutees ( systegraveme drsquoinformation portail services ) facilitant la deacutecouverte et lrsquoaccegraves fluide agrave ces donneacutees issues de domaines diffeacuterents avec des outils laquo translationnels raquo pour les combiner les croiser et les syntheacutetiser Ces expeacuteriences permettraient au CNRS de mieux deacutefinir sa politique drsquoOpenData et de jouer un rocircle moteur pour la creacuteation drsquoarchives OpenData certifieacutees et de portail OpenScience inteacutegrant de nouveaux objets associant donneacutees et reacutesultats de recherche tel que le Centre de Donneacutees astronomiques de Strasbourg ( httpcdswebu-strasbgfr ) auxquelles les TGIR PaN pourraient participer

bull R5 Nouvelles expertises et moyens humains Le CNRS pour maicirctriser les nouveaux enjeux associeacutes aux donneacutees doit mettre en place une reacuteponse coordonneacutee face aux nouveaux besoins en termes drsquoexpertise de moyens humains et de reconnaissance de ces nouvelles activiteacutes interdisciplinaires Cette reacuteponse doit ecirctre attractive pour des recrutements ( chercheurs ITA ) pour les eacutevolutions de carriegravere et srsquoappuyer sur des actions de formation adapteacutees reacutepondant agrave ces nouvelles expertises Cette reacuteponse est essentielle afin de faciliter lrsquoorganisation des communauteacutes scientifiques et le deacuteveloppement de nouvelles pratiques de recherche permettant drsquoacceacuteleacuterer lrsquoextraction de nouvelles connaissances agrave partir des donneacutees et ainsi renforcer la visibiliteacute internationale du CNRS et des communauteacutes scientifiques franccedilaises

9

Livre Blanc sur les Donneacutees au CNRS Eacutetat des Lieux et Pratiques - 2018

Sur la base de ce rapport la mission Calcul et Donneacutees du CNRS ( MiCaDo ) pourrait se voir confier la mission drsquoouvrir une reacuteflexion inter-instituts associant eacutetroitement lrsquoIDRIS et le CC-IN2P3 en lien avec nos tutelles nos partenaires et les infrastructures de services concerneacutes pour la recherche ( GENCI RENATER ) afin de prolonger ce rapport avec des groupes de travail deacutefinis autour de trois axes permettant de preacuteciser cette strateacutegie

bull Lrsquoorganisation territoriale et la mutualisation de lrsquoheacutebergement des plateformes drsquoarchivage et de curation de donneacutees des plateformes de calcul et drsquoanalyse des donneacutees en liaison avec le processus de labellisation des datacentres nationaux et reacutegionaux organiseacute par la DGRI et les initiatives locales et reacutegionales soutenues par des IDEX ou drsquoautres organismes permettant de faire eacutemerger des sites de reacutefeacuterences en appui agrave des grands projets Cette reacuteflexion devra prendre en compte lrsquoorganisation des communauteacutes scientifiques pour le stewardship des donneacutees et des ressources ( calcul stockage services ) afin drsquoeacutevaluer les ressources humaines et les expertises neacutecessaires agrave cette nouvelle structuration territoriale et organisation des communauteacutes scientifiques

bull Lrsquoarchitecture et la feacutedeacuteration des plateformes distribueacutees de calcul et drsquoanalyse de donneacutees drsquoarchivage et de curation des donneacutees et des plateformes centraliseacutees ( HPC Cloud ) avec des services de donneacutees Cette reacuteflexion devra prendre en compte la diversiteacute et les caracteacuteristiques des chaicircnes de production et drsquoutilisation des donneacutees la logistique des donneacutees tout au long de ces chaicircnes ainsi que les pratiques de recherche des communauteacutes scientifiques au niveau national et international

bull Les architectures de ressources de calcul et de stockage adapteacutees aux diffeacuterentes phases des workflows combinant HPC et HDA ainsi que les environnements drsquoexploitation de ces ressources inteacutegrant les besoins de traitement et drsquoanalyse en flux de type Cloud En particulier cette reacuteflexion devra inteacutegrer les nouveaux besoins associeacutes au machine learning et plus largement agrave lrsquoIntelligence Artificielle qui joue un rocircle de plus en plus important dans le contexte du Big Data avec en particulier les nouveaux enjeux associeacutes aux meacutethodes de type Deep Neural Network ( DNN ) en termes de scalabiliteacute et drsquoarchitecture ( GPU meacutemoire non volatile NVRAM )

La mission Calcul et Donneacutees du CNRS ( MiCaDo ) pourrait avec des moyens suppleacutementaires contribuer agrave lrsquoeacutemergence de plateformes de gestion et drsquoanalyse de donneacutees en y positionnant des ingeacutenieurs et des data scientists capables drsquooffrir un service technique de haut niveau et drsquoaccompagner les chercheurs dans leurs expeacuterimentations Cette action pourrait contribuer agrave faire eacutemerger sur le territoire quelques sites de reacutefeacuterence autour desquels peuvent graviter plusieurs projets de recherche en sciences des donneacutees ou srsquointeacuteresser agrave des communauteacutes scientifiques speacutecifiques De telles initiatives peuvent et doivent ecirctre compleacutementaires des autres initiatives locales ou reacutegionales soutenues par des IDEX ou drsquoautres organismes de recherche par exemple

RECOMMANDATIONS

10

Livre Blanc sur les Donneacutees au CNRS Eacutetat des Lieux et Pratiques - 2018

Ce Livre Blanc a eacuteteacute reacutealiseacute agrave la suite drsquoune seacuterie de preacutesentations autour des donneacutees meneacutees au sein du COCIN entre 2014 et 2016 par ailleurs eacutetayeacutees par des informations compleacutementaires issues de divers documents rapports drsquoactiviteacutes et sites Web avec la contribution et la mise en forme des repreacutesentants des divers instituts et centres informatiques du CNRS

Ce Livre Blanc srsquoest notamment appuyeacute sur les preacutesentations suivantes ( par ordre chronologique )

bull Simulation et cycle de vie des donneacutees dans la communauteacute du climat J-L Dufresne et S Denvil 2 septembre 2014

bull Eleacutements de reacuteflexion sur le stockage des donneacutees O Porte ( DSI ) 4 deacutecembre 2014

bull Les donneacutees au CC-IN2P3 P-E Macchi 8 janvier 2015

bull Institut Franccedilais de Bioinformatique ( IFB ) mettre en place une infrastructure informatique deacutedieacutee aux sciences de la vie J-F Gibrat 5 feacutevrier 2015

bull Stockage et gestion des donneacutees agrave lrsquoIDRIS D Girou 5 mars 2015

bull Research Data Access F Genova 10 avril 2015

bull Gestion des donneacutees au CINES F Daumas et M Galez 5 mai 2015

bull Preacutesentation de CIMENT E Chaljub 2 juin 2015

bull Les donneacutees agrave lrsquoINEE C Callou 7 juillet 2015

bull Les donneacutees agrave lrsquoINC et lrsquoINP D Borgis et L Lellouch 7 juillet 2015

bull Preacutesentation du Belmont Forum J-P Vilotte 1er septembre 2015

bull GRICAD Grenoble Alpes Recherche - Infrastructure de Calcul Intensif et de Donneacutees V Louvet 1er deacutecembre 2015

bull Calcul et donneacutees agrave lrsquoINSU J-P Vilotte 5 janvier 2016 et 2 feacutevrier 2016

bull Les donneacutees et le calcul en bioinformatique G Perriegravere 1 mars 2016

bull Le meacutesocentre CALMIP un Tier2 au service des recherches acadeacutemique et priveacutee B Dintrans 5 avril 2016

bull Preacutesentation de la TGIR Huma-Num O Baude et S Pouyllau 3 mai 2016

bull Preacutesentation ESRF R Dimper et A Goetz 8 novembre 2016

bull Gestion des donneacutees agrave ILL J-F Perrin 5 deacutecembre 2016

bull Synchrotron SOLEIL Les Donneacutees Scientifiques B Gagey et P Martinez 10 janvier 2017

Ce rapport mecircme srsquoil est loin drsquoecirctre exhaustif vise agrave mieux cerner les pratiques et les besoins en matiegravere de donneacutees ainsi qursquoagrave identifier les voies de promotion drsquoune synergie transdisciplinaire autour des donneacutees au sein du CNRS

Lrsquoenquecircte a deacutemarreacute en 2014 agrave la demande de Michel Bidoit Preacutesident du COCIN avec agrave ce jour

1 INTRODUCTION

11

Livre Blanc sur les Donneacutees au CNRS Eacutetat des Lieux et Pratiques - 2018

bull Des preacutesentations lors de reacuteunions du COCIN de tous les instituts confronteacutes agrave la production et au traitement de donneacutees agrave grande eacutechelle ie tous les instituts excepteacutes INS2I INSMI et INSIS13

bull Des centres nationaux orienteacutes calcul et donneacutees du CNRS

- CC-IN2P3 - IDRIS

bull De certains meacutesocentres - CALMIP - GRICAD

bull Et drsquoun certain nombre drsquoinitiatives et de TGIR dont

- LrsquoInstitut Franccedilais de Bioinformatique ( IFB ) - RENABI

bull Les synchrotrons ESRF ILL et SOLEIL

Ce Livre Blanc aborde aussi la probleacutematique des infrastructures requises pour lrsquoexploitation des grands volumes de donneacutees issues de simulations numeacuteriques de grande taille de systegravemes drsquoobservations ou de plateformes expeacuterimentales neacutecessitant des traitements coucircteux pour en extraire de lrsquoinformation

Les enjeux lieacutes au Big Data sont colossaux et ne sont pas seulement scientifiques car ils ont aussi un impact socieacutetal consideacuterable ( santeacute environnement biologie ) eacuteconomique et financier ( p ex compeacutetitiviteacute industrielle ) et eacutethique ( p ex santeacute biologie ) Le Big Data est ainsi devenu un outil drsquoaide agrave la deacutecision incontournable pour un certain nombre de situations critiques ( preacutevision des catastrophes naturelles eacutepideacutemiologiehellip )

La maicirctrise de tous les aspects du Big Data relegraveve drsquoune deacutemarche fondamentalement interdisciplinaire

Les eacutechelles de volumes de donneacutees agrave traiter nrsquoont fait que croicirctre de faccedilon spectaculaire On parle drsquoExaoctets ( 10^18 octets ) pour eacutevoquer les besoins actuels pour se projeter vers des eacutechelles de lrsquoordre du Zettaoctets ( 10^21 ) drsquoici quelques anneacutees

Cette eacutevolution constante induit de multiples preacuteoccupations autour des besoins en puissance de traitement pour de tels volumes de donneacutees ce qui contribue agrave rapprocher les communauteacutes du Calcul Haute Performance et du High Throughput Computing ( autour de lrsquoIN2P3 p ex ) et explique lrsquointeacuterecirct susciteacute par les GPUs en particulier pour le machine learning

13 Les donneacutees sont plus un objet de recherche pour INS2I et INSMI et ils sont peu impliqueacutes dans la production de donneacutees alors que INSIS nrsquoa pas aujourdrsquohui drsquoaction drsquoenvergure dans le domaine

puisqursquoil existe un certain nombre de codes open source tregraves performants sur les GPU

On constate dans tous les domaines des besoins eacutevidents en

bull Plateformes pour lrsquoanalyse de donneacutees agrave grande eacutechelle avec les probleacutematiques du stockage de la gestion et de la valorisation de ces donneacutees

bull Support pour les utilisateurs

bull Data scientists ( chercheurs ou ingeacutenieurs compeacutetents en analyse de donneacutees )

bull Deacuteploiement de chaicircnes logicielles drsquoanalyse de donneacutees qui passent agrave lrsquoeacutechelle

bull Effort interdisciplinaire entre les communauteacutes produisant des donneacutees et les communauteacutes dont crsquoest lrsquoobjet de recherche ( essentiellement au sein drsquoINS2I et drsquoINSMI )

bull Valorisation et peacuterennisation des donneacutees beaucoup de donneacutees sont creacuteeacutees pour un besoin preacutecis puis in fine perdues alors qursquoelles pourraient parfois ecirctre reacuteutiliseacutees ( expeacuteriences comme simulations ) ce qui suppose de lrsquoarchivage indexation mise agrave disposition etc

bull Deacutefinition de plan de gestion des donneacutees ( DMP ) loin drsquoecirctre geacuteneacuteraliseacute aujourdrsquohui alors que les volumes explosent

bull hellip

Le traitement des donneacutees massives issues ou non de la simulation numeacuterique avec des sources eacuteventuellement multiples distribueacuteesreacuteparties agrave grande eacutechelle et heacuteteacuterogegravenes ( structures formats logiciels serveurshellip ) et une volumeacutetrie en donneacutees allant de centaines de teacuteraoctets agrave quelques dizaines de peacutetaoctets ( et agrave lrsquoExaoctets dans un futur proche ) est donc devenu fondamental Il en reacutesulte des probleacutematiques autour de la gestion de ces donneacutees ( indexation stockage local ou distant avec BD centraliseacutees ou distribueacutees entrepocircts de donneacutees virtualisation du stockagehellip ) de leur traitement avec de lrsquoextraction de connaissances sur des infrastructures souvent distribueacutees ( machine learning fouille de donneacutees classification assimilation de donneacutees ) et enfin du post-traitement permettant drsquoexploitervisualiser ces informations etou de lrsquoaide agrave la deacutecision par exemple

12

Livre Blanc sur les Donneacutees au CNRS Eacutetat des Lieux et Pratiques - 2018

INTRODUCTION

Tirer parti de maniegravere efficace de toutes ces eacutevolutions requiert donc des efforts sur ( entre autres )

bull Deacuteploiement de plateformes drsquoanalyse de donneacutees performantes et rapprochement entre les communauteacutes HTC et HPC deacuteveloppement de lrsquoactiviteacute et des compeacutetences autour de lrsquoanalyse de donneacutees au sein des centres HPC nationaux et reacutegionaux

bull Conceptionexploitation efficace drsquoarchitectures et drsquoenvironnements orienteacutes donneacutees

bull Impact des technologies du type GPU Cloud computinghellip

bull Meacutethodes drsquoanalyse de donneacutees et drsquoaide agrave la deacutecision machine learning retour de lrsquoIntelligence Artificielle au premier planhellip

bull Maicirctrise du passage agrave lrsquoeacutechelle des outils drsquoanalyse de donneacutees

bull Deacuteveloppement des recherches interdisciplinaires et des compeacutetences autour des donneacutees au sein du CNRS ainsi que du support aux utilisateurs

Les pratiques et les besoins autour des donneacutees font deacutejagrave lrsquoobjet drsquoune attention consideacuterable au sein du CNRS On peut citer par exemple le remarquable ouvrage laquo Les Big Data agrave deacutecouvert14 raquo eacutediteacute sous la direction de sous la direction de Mokrane Bouzeghoub et Reacutemy Mosseri agrave CNRS EDITIONS ainsi que les reacutesultats de lrsquoenquecircte de 2014 meneacutee par la Direction de lrsquoInformation Scientifique et Technique ( DIST ) aupregraves des uniteacutes15 qui corroborent certains des constats effectueacutes ici

Le CNRS a aussi deacuteveloppeacute de multiples programmes de recherche sur les donneacutees scientifique tant au sein de la Mission pour lrsquoInterdisciplinariteacute qursquoau sein des instituts INS2I et INSMI avec

bull Le Deacutefi Mastodons16 depuis 2012 ( plus de 60 projets )

bull Deacutefi ImagrsquoIn17 depuis 2015 ( plus de 40 projets )

bull Le PEPS FaScido en 2015 et 2016 ( plus de 20 projets )

bull Le PEPS AstroInformatique18 en 2018 ( une dizaine de projets )

Enfin un soutien significatif aux plateformes de recherche sur les donneacutees a eacuteteacute apporteacute par lrsquoINS2I agrave la fois en eacutequipement et en ingeacutenieur ( permanents ou CDD )

14 httpwwwcnrseditionsfrsociete7429-les-big-data-a-decou-verthtml15 httpwwwcnrsfrdistz-outilsdocumentsenquete-du_bro-chure-couverture_032015pdf16 httpwwwcnrsfrmispipphparticle5317 httpwwwcnrsfrmispipphparticle64518 httpwwwcnrsfrmispipphparticle1325

13

Livre Blanc sur les Donneacutees au CNRS Eacutetat des Lieux et Pratiques - 2018

21 INSTITUT DE CHIMIE ( INC )

211 Introduction

La deacutemarche de cette eacutetude a eacuteteacute drsquoeacutetudier les donneacutees agrave lrsquoINC agrave diffeacuterents niveaux de granulariteacute Nous commencerons par les grandes infrastructures de calcul ou expeacuterimentales puis nous nous inteacuteresserons agrave lrsquoeacutechelle typique drsquoun institut puis au grain fin du laboratoire Nous finirons agrave lrsquoautre extrecircme par la dimension europeacuteenne

212 La probleacutematique des donneacutees agrave lrsquoINC

Pour ce qui concerne le calcul sur les centres nationaux ( GENCI ) et le stockage de donneacutees affeacuterent les chercheurs de lrsquoInstitut de Chimie soumettent leurs demandes aux Comiteacutes Scientifiques Theacutematiques nationaux ( CT ) suivants

bull CT7 Dynamique moleacuteculaire appliqueacutee agrave la biologie avec une reacutepartition INC-NSB de 60 40

bull CT8 Chimie quantique et modeacutelisation moleacuteculaire ( majoritairement INC )

bull CT9 Physique chimie et proprieacuteteacutes des mateacuteriaux avec une reacutepartition INC-INP de 50 50

Il faut rappeler que ces 3 CT eacutetiqueteacutes laquo chimie raquo centreacutes majoritairement sur les simulations de dynamique moleacuteculaire et les calculs de structure eacutelectronique repreacutesentent une part importante des projets seacutelectionneacutes et du temps de calcul alloueacute sur les machines GENCI A lrsquoIDRIS par exemple la chimie au sens large compte pour ~40 des projets ~30 du temps CPU sur Ada et 7 sur Turing

Comme il apparaicirct sur les diagrammes de lrsquoIDRIS preacutesenteacutes agrave la section 322 lrsquoutilisation du stockage est beaucoup plus reacuteduite pour ces CT laquo chimie raquo par rapport agrave drsquoautres theacutematiques avec quelques dizaines de To sur Ada et quelques To seulement sur Turing pour environ 50 To sur cartouches On note une forte surestimation des besoins par les utilisateurs

Sur le TGCC lrsquoINC occupe pour lrsquoensemble des CTs qui le concerne de lrsquoordre de 450 To en cumulant tous les espaces de disques ( storedir scratch et workdir ) Cela repreacutesente une occupation relative de lrsquoordre du pour cent sur le stockage longue dureacutee ( storedir ) et de la dizaine de pour cent sur lrsquoespace de travail Les besoins sont cependant appeleacutes agrave augmenter fortement avec lrsquoaccroissement de la taille des systegravemes eacutetudieacutes ou de leur temps de simulation si lrsquoon se fixe aux niveaux correspondant actuellement agrave des grands challenges ou des projets PRACE En modeacutelisation biomoleacuteculaire par exemple la simulation dynamique drsquoun systegraveme biologique complet comportant plusieurs millions drsquoatomes comme un virus pendant quelques dizaines voire une centaine de nanosecondes ( actuellement un tour de force ) geacutenegravere facilement un film de quelques Po si lrsquoon veut garder la trajectoire pour exploitation ulteacuterieure

Lrsquooccupation en stockage de la chimie sur les quelques meacutesocentres qui ont eacuteteacute sondeacutes ( Unistra CRIANN CALMIP ) apparaicirct elle aussi relativement limiteacutee de lrsquoordre de la dizaine de To par centre

En ce qui concerne les Infrastructures de Recherche expeacuterimentale il faut noter que la chimie est tregraves impliqueacutee dans des TGIR relevant de lrsquoINP ( ESRF ILL SOLEILhellip ) pour lesquelles une politique des donneacutees massives est eacutetablie ou en cours drsquoeacutelaboration ( voir lrsquoanalyse de lrsquoINP ) Une analyse des besoins et des pratiques de stockage des Infrastructures de Recherche relevant de lrsquoINC a eacuteteacute effectueacutee cela implique la TGIR reacutesonance magneacutetique nucleacuteaire agrave tregraves hauts champs ( RMN-THC ) lrsquoIR RENARD ( REseau NAtional de Reacutesonance paramagneacutetique interDisciplinaire ) et

2 Les donneacutees au sein des instituts du CNRS

14

Livre Blanc sur les Donneacutees au CNRS Eacutetat des Lieux et Pratiques - 2018

le tregraves grand eacutequipement FT-ICR agrave haut champ Quelques points cleacutes en ressortent en matiegravere de politique de donneacutees

bull Gestion locale des donneacutees chaque laboratoire ou site achegravete ses disques durs

bull La politique des donneacutees ( partage ou non ) est laisseacutee aux utilisateurs

bull En utilisation laquo plateforme raquo les utilisateurs viennent et repartent avec leur cleacute USB

bull Frilositeacute vis-agrave-vis du partage de donneacutees ( maicirctrise de ses donneacutees confidentialiteacute )

bull Une mutualisation des donneacutees est envisageacutee en RMN et RPE

Pour ce qui concerne la nature et le volume des donneacutees

bull Spectres 1D ou 2D fichiers de 10-100 ko jusqursquoagrave 10-100 Goansite

bull Format proprieacutetaire ( Bruckerhellip ) eacuteventuellement transformable drsquoougrave des problegravemes drsquointeropeacuterabiliteacute et de temps de relecturesauvegarde

bull Des flux plus importants peuvent ecirctre envisageacutes avec des expeacuteriences drsquoimagerie deacutependant du temps mais les volumes ne sont pas encore vraiment anticipeacutes

On peut faire les mecircmes constats par exemple pour le reacuteseau METSA en laquo Microscopie Electronique et Sonde Atomique raquo

bull Pas de politique de stockage globale au niveau du reacuteseau

bull Sur le site parisien ( MPQ ) la quantiteacute de donneacutees produites est typiquement 64 Moimage soit 4 Toan stockeacutes sur des disques durs locaux avec en plus une passerelle sur lrsquouniversiteacute

bull Des expeacuteriences en temps reacuteel commencent agrave se monter engendrant 300 imagesseconde soit de lrsquoordre de 20 Goseconde

bull Il y aura donc un reacuteel besoin de compeacutetences solides agrave terme

Pour illustration nous descendons encore en granulariteacute dans les infrastructures de recherche et prenons le cas drsquoune feacutedeacuteration lrsquoInstitut pour les Sciences Moleacuteculaires drsquoOrsay ( ISMO ) pour lequel le

problegraveme des donneacutees srsquoest poseacute reacutecemment Cet institut regroupe trois laboratoires le Laboratoire de Photophysique Moleacuteculaire ( UPR3361 ) le Laboratoire des Collisions Atomiques et Moleacuteculaires ( UMR8625 ) et le Laboratoire drsquoInteraction du rayonnement X avec la Matiegravere ( UMR8624 ) Il est installeacute depuis peu dans un bacirctiment unique agrave Paris-Saclay Il dispose drsquoune grappe de calcul avec 1 ingeacutenieur drsquoeacutetudes et un technicien

bull Il y a un besoin de stockage pour des expeacuteriences ( en particulier en microscopie ) et en ressources de calcul

bull Le mateacuteriel est disparate et vieillissant sans systegraveme de sauvegarde global

bull Une enquecircte aupregraves des laboratoires de la feacutedeacuteration a reacuteveacuteleacute un besoin de lrsquoordre de 160 To

Drsquoougrave la recherche drsquoune solution eacuteconomique de stockage et baseacutee sur des logiciels libres chaque chercheur achetant ses propres disques On a convergeacute vers lrsquoachat de 2 racks de 40 disques avec un systegraveme ZFS plus la solution libre SUN Le coucirct total estimeacute de cette solution de stockage est de lrsquoordre de 40 keuro alors qursquoune solution cleacute en main serait de lrsquoordre de 100 keuro aupregraves des speacutecialistes des solutions de stockage

Enfin penchons-nous sur une granulariteacute encore plus fine celle drsquoun laboratoire Un exemple significatif est celui du laboratoire Physicochimie des Electrolytes et Systegravemes Interfaciaux ( PHENIX ) agrave lrsquoUPMC et plus speacutecifiquement de lrsquoeacutequipe modeacutelisation composeacutee de 5 permanents pour un total de 15 personnes qui calculent agrave la fois en local sur GENCI et PRACE

bull Le parc drsquoinformatique scientifique de 15-20 stations de travail est geacutereacute par les chercheurs

bull Le systegraveme de stockage est composeacute drsquoun server NFS ( 30 To ) plus un serveur LDAP

bull Les ressources de calcul sont constitueacutees de 4 machines PersonalHPC 64 cœurs agrave meacutemoire partageacutee ( 10 keuromachine )

bull Un stockage de sauvegarde de 150 To est effectueacute sur une machine deacutedieacutee PersonalHPC Sigma ( valeur environ 30 keuro )

On retrouve donc le mecircme ordre de grandeur de coucirct pour le mateacuteriel local de stockage avec des solutions laquo cousues main raquo ( quelques dizaines de keuro pour la centaine de To hors coucirct de personnel eacutevidemment et avec le niveau de seacutecuriteacute qursquoune gestion locale implique )

INC

15

Livre Blanc sur les Donneacutees au CNRS Eacutetat des Lieux et Pratiques - 2018

Enfin si lrsquoon remonte la granulariteacute agrave son autre extrecircme il faut signaler qursquoau niveau europeacuteen sur lrsquoappel H2020 Centre of Excellence for Computing Applications 3 CoE sur les 8 seacutelectionneacutes sont consacreacutes aux mateacuteriaux au cœur donc des theacutematiques des CT 7-9 Lrsquoun drsquoeux le CoE NoMad ( Novel Material Discovery httpsnomad-coeeu ) est un dispositif multigrille de deacutepocirct et de fouille de donneacutees Il est eacutetabli pour heacuteberger organiser et partager agrave lrsquoeacutechelle internationale les donneacutees et reacutesultats de calcul et de simulation en physique et chimie des mateacuteriaux

Alors que la France est bien repreacutesenteacutee dans plusieurs CoE par exemple EoCoE ( httpwwweocoeeu ) ou E-CAM ( httpswwwe-cam2020eu ) elle apparaicirct malheureusement tregraves peu dans NoMaD et encore trop peu dans ce genre de deacutemarche type collectionexploitation de donneacutees comme les initiatives Material Genomics ( httpswwwmgigov ) aux Etats-Unis ou AIIDA en Suisse ( Automated Interactive Infrastructure and Database for Computational Science httpwwwaiidanet )

213 Conclusion

LrsquoINC a actuellement plus des problegravemes drsquoorganisation interne des donneacutees que des problegravemes relevant vraiment du Big Data Il nrsquoen reste pas moins qursquoil y a un reacuteel besoin de compeacutetences et de politique drsquoeacutequipement Les besoins peuvent srsquoaccroicirctre rapidement dans les TGIR degraves que lrsquoon touche agrave de lrsquoacquisition massive drsquoimages ( p ex pour des processus en temps reacuteel ) Lrsquoacquisition des donneacutees de simulations numeacuteriques est ameneacutee agrave croicirctre aussi avec lrsquoaugmentation de la taille des systegravemes eacutetudieacutes et des deacutemarches collectives de type Material Genomics crsquoest-agrave-dire conservation et mutualisation des donneacutees de simulations et deacutemarche systeacutematique de fouille de donneacutees Des deacutemarches de ce type eacutemergent de plus en plus dans les appels drsquooffre

LrsquoINC a engageacute depuis deacutebut 2018 une reacuteflexion sur la politique des donneacutees au sein de ces trois TGIRIR ( RMN-THC RENARD FT-ICR ) avec comme objectif de se conformer rapidement aux directives europeacuteennes en termes de science ouverte et de partage des donneacutees et rejoindre ce qui se fait dans drsquoautres infrastructures de recherche comme SOLEIL

16

Livre Blanc sur les Donneacutees au CNRS Eacutetat des Lieux et Pratiques - 2018

22 INSTITUT ECOLOGIE ET ENVIRONNEMENT ( INEE )

221 Introduction

Degraves sa creacuteation consideacuterant drsquoune part lrsquoimportance des donneacutees dans le triptyque fondateur de lrsquoINEE ( Observation ndash Expeacuterimentation ndash Modeacutelisation ) et drsquoautre part une reacuteelle meacuteconnaissance du nombre de jeux de donneacutees existants dans le peacuterimegravetre de lrsquoInstitut ( sa creacuteation datant du 1er novembre 2009 ) deux enquecirctes autour des donneacutees en eacutecologie et environnement eacutetaient meneacutees sur le peacuterimegravetre scientifique de lrsquoINEE

bull La premiegravere adresseacutee agrave lrsquoensemble des instituts du CNRS sur le thegraveme laquo Etude de cas sur les systegravemes de donneacutees numeacuteriques de recherche raquo ( Ministegravere de lrsquoEnseignement supeacuterieur et de la Recherche 2009 )

bull La seconde meneacutee sous la responsabiliteacute de S Thieacutebault et Y Lagadeuc plus speacutecifique et exhaustive aupregraves des directeurs drsquouniteacutes

La synthegravese de ces deux enquecirctes mettait en exergue les points suivants

bull Des diffeacuterents projets de recherche collaboratifs meneacutes par la communauteacute scientifique de lrsquoINEE reacutesulte un accroissement tregraves important et tregraves rapide du nombre de bases de donneacutees deacuteveloppeacutees au sein des laboratoires Cependant ces bases de donneacutees restent tregraves heacuteteacuterogegravenes dans leur forme ( allant du fichier Word ou Excel pour certains agrave un systegraveme de gestion de base de donneacutees complexe pour drsquoautres ) et aussi dans leur fond

bull La communauteacute scientifique de lrsquoINEE se doit de faire un effort particulier pour coordonner et diversifier la collecte des donneacutees en eacutecologie en menant une reacuteflexion neacutecessaire pour deacutefinir dans quels cas la theacuteorie doit deacuteterminer lrsquoobjet et les outils de mesure Il srsquoagit degraves lors drsquoeacuteviter une collecte de donneacutees agrave des eacutechelles spatiales et temporelles prenant plus en consideacuteration des contingences techniques ou historiques qui les eacuteloignent parfois des exigences optimales neacutecessaires pour appreacutehender les pheacutenomegravenes eacutetudieacutes

Aujourdrsquohui la communauteacute scientifique du CNRS-INEE est en train de vivre une veacuteritable reacutevolution de

lrsquoinformation Si pendant tregraves longtemps une des limitations a eacuteteacute la quantiteacute de donneacutees disponibles pour tester des modegraveles preacutedictifs en quelques anneacutees les sciences de lrsquoenvironnement ont pu disposer des jeux de donneacutees de plus en plus importants inteacutegrant diffeacuterentes eacutechelles temporelles et spatiales pour des milliers drsquoorganismes ainsi que pour de nombreux gegravenes et eacutecosystegravemes Ces nouveaux jeux de donneacutees allieacutes agrave une puissance de calcul et agrave une sophistication des logiciels ( rendues possibles notamment par la mise en place de plateformes collaboratives comme le logiciel R ) permettent aujourdrsquohui une profondeur drsquoanalyse qui nrsquoeacutetait pas possible il y a encore dix ans

Toutefois des efforts doivent ecirctre maintenus afin de faire basculer lrsquoeacutecologie dans lrsquoegravere de lrsquoinformation en eacutevitant que ces diffeacuterentes sources drsquoinformations soient stockeacutees et codeacutees suivant des normes contingentes agrave chaque milieu scientifique sans souci drsquointerfaccedilage avec les autres disciplines

222 La probleacutematique des donneacutees agrave lrsquoINEE

La collecte des donneacutees neacutecessite des systegravemes drsquoobservation et drsquoexpeacuterimentation depuis le niveau geacuteneacutetique jusqursquoaux eacutecosystegravemes Il srsquoagit drsquoabord de disposer drsquoeacutequipements compleacutementaires organiseacutes le long de gradients de controcircle ou de confinement consideacuterant des complexiteacutes eacutecologiques diffeacuterentes

La communauteacute de lrsquoINEE dispose deacutesormais drsquoune infrastructure expeacuterimentale partageacutee et ouverte ( AnaEE pour Analyse et Expeacuterimentation sur les Ecosystegravemes ) qui rassemble des moyens expeacuterimentaux in situ en conditions semi-naturelles et en conditions controcircleacutees

En geacutenomique les programmes concernant le meacutetageacutenome humain ( httpwwwmetahiteu httpnihroadmapnihgov ) ou lrsquoeacutetude des sols ( httpwwwterragenomeorg httpwwwearthmicrobiomeorg ) promeuvent des approches collaboratives inteacutegreacutees

Drsquoautres approches exploratoires agrave large eacutechelle ont aussi montreacute toute leur richesse ( p ex Tara-Oceans ) en inteacutegrant des donneacutees de diffeacuterents champs disciplinaires

INEE

17

Livre Blanc sur les Donneacutees au CNRS Eacutetat des Lieux et Pratiques - 2018

Lrsquoeacutetude des maladies infectieuses beacuteneacuteficie eacutegalement au plan national drsquoun institut theacutematique multi-organismes ( Institut de Microbiologie et Maladies Infectieuses )

Enfin au niveau des eacutecosystegravemes il faut noter les travaux entrepris au sein des Zones Ateliers ou encore des services drsquoobservation que le CNRS coordonne

Ces diffeacuterentes initiatives sont agrave lrsquoorigine de la production drsquoune quantiteacute de donneacutees sans preacuteceacutedent dans nos disciplines Par contre une grande part de la collecte est encore conduite par des eacutequipes etou des chercheurs individuels travaillant sur des sites expeacuterimentaux ou drsquoobservation qui ne font actuellement lrsquoobjet drsquoaucune coordination particuliegravere ou drsquoune coordination probablement insuffisante

Le panorama des initiatives dans le domaine EcologieBiodiversiteacute est extrecircmement large comme le montre la figure suivante avec une multipliciteacute des acteurs et des interactions

Il est organiseacute autour de trois niveaux

bull des dispositifs de production et de collecte des donneacutees incluant par exemple les plateformes -omiques ( geacutenomiques transcriptomiques p roteacuteomiques meacutetabo lomiqueshellip ) des collections des systegravemes drsquoobservation etou drsquoexpeacuterimentation

bull des bases de donneacutees

bull des centres de synthegravese geacuteneacuteraux ou theacutematiques deacutedieacutes agrave la valorisation et agrave la diffusion des donneacutees

Aussi face agrave cette laquo datavalanche raquo il apparaissait neacutecessaire pour lrsquoinstitut de mener un effort important pour aider les entiteacutes productrices de donneacutees de lrsquoINEE agrave aller vers une normalisation du codage et de la mise en forme des donneacutees pour mieux les rendre interopeacuterables exploitables et visibles

18

Livre Blanc sur les Donneacutees au CNRS Eacutetat des Lieux et Pratiques - 2018

223 La mise en place de lrsquouniteacute mixte de services BBEES

La creacuteation de lrsquoUMS 3468 laquo Bases de donneacutees Biodiversiteacute Ecologie Environnements Socieacuteteacutes ( BBEES ) raquo souhaiteacutee par le CNRS-INEE et le Museacuteum national drsquoHistoire naturelle et acteacutee le 1er septembre 2011 a pour objectif de structurer et drsquooptimiser le travail autour des bases de donneacutees de recherche sur la Biodiversiteacute naturelle et culturelle actuelle et passeacutee

Elle constitue un soutien technique et scientifique aupregraves des uniteacutes et des chercheurs du CNRS-INEE et du MNHN souhaitant structurer peacuterenniser ou mutualiser leurs bases de donneacutees de recherche avec pour objectifs finaux

bull de faire interagir lrsquoensemble de ces bases diverses et heacuteteacuterogegravenes dans leur forme et dans leur fond

bull de preacutevoir leur sauvegarde agrave tregraves long terme prenant en compte lrsquoeacutevolution des supports

bull de participer agrave la mise en place drsquoontologies et de theacutesaurus concerteacutes

Ses interventions se traduisent par des conseils ou une intervention au sein des uniteacutes pour aider agrave concevoir relancer ou restructurer une base de donneacutees Installeacutee au Museacuteum elle beacuteneacuteficie de lrsquoenvironnement en place et de son expeacuterience dans le domaine des bases de donneacutees ( Service du Patrimoine Naturel Inventaire National du Patrimoine Naturel collections patrimoniales Pocircle application scientifique de la DSI etc ) Elle nrsquoa pas vocation agrave administrer les bases de donneacutees qui restent sous la responsabiliteacute des eacutequipes qui les produisent ni agrave leur fournir un heacutebergement Toutefois elle peut apporter des conseils sur ces points

Afin de faciliter lrsquoinsertion des bases de donneacutees dans des dispositifs nationaux et internationaux lrsquoUMS BBEES propose un certain nombre de recommandations sur

bull la constitution des corpus et le traitement des donneacutees

bull le choix des outils

bull la structuration des donneacutees

bull les meacutetadonneacutees

bull etc

Ces recommandations sont en lien avec les standards et les normes en vigueur comme la directive europeacuteenne INSPIRE ( 20072CE du 14 mars 2007 ) pour les informations geacuteographiques ou le choix drsquoun reacutefeacuterentiel taxonomique commun aux bases de donneacutees existantes sur la biodiversiteacute ( TaxRef ) et obeacuteissent aux reacuteglementations concernant la proprieacuteteacute intellectuelle dans le domaine particulier des bases de donneacutees

La question de lrsquoidentification et de lrsquoaccessibiliteacute des bases de donneacutees est eacutegalement au cœur des preacuteoccupations de lrsquoUMS BBEES En particulier pour ce qui concerne les bases inactives ( les bases de donneacutees deacuteveloppeacutees dans le cadre de programmes nationaux et stockeacutees sur des ordinateurs personnels p ex ) et les bases en veille ( bases de donneacutees accessibles mais qui ne sont plus alimenteacutees ni exploiteacutees ) Des enquecirctes sont reacuteguliegraverement meneacutees aupregraves des directeurs drsquouniteacutes de recherche dans le but drsquoidentifier lrsquoensemble des bases de donneacutees produites par les uniteacutes ( inactives en veille en deacuteveloppement et actives ) mais aussi pour anticiper et accompagner les demandes de deacuteveloppement de bases dans le cadre de programmes de recherche nationaux et internationaux

LrsquoUMS srsquoattache en outre agrave favoriser la diffusion des bases de donneacutees par leur administrateur au travers drsquoun portail deacutedieacute accessible agrave tous httpwwwbdd-ineecnrsfr Aujourdrsquohui ce portail a permis de recenser et rendre visibles environ 200 bases de donneacutees issues de lrsquoactiviteacute des laboratoires du CNRS-INEE

BBEES est aussi tregraves fortement impliqueacutee dans lrsquoanimation du reacuteseau meacutetier laquo bases de donneacutees raquo creacuteeacute en mai 2012 en collaboration avec la MRCT puis la Mission pour lrsquoInterdisciplinariteacute ( MI ) Lrsquoanimation de ce reacuteseau aujourdrsquohui composeacute de 170 personnes de diffeacuterentes origines institutionnelles ( CNRS-INEE et CNRS-INSHS principalement mais aussi MNHN INRA IRD CIRAD FRB ) permet

bull lrsquoorganisation de reacuteunions theacutematiques

bull lrsquoeacutechange et le partage via la mise en place drsquoune liste de diffusion

INEE

19

Livre Blanc sur les Donneacutees au CNRS Eacutetat des Lieux et Pratiques - 2018

bull la mise en place de formations

bull la reacutealisation de journeacutees de sensibilisation agrave la seacutecurisation et agrave la peacuterennisation des donneacutees

bull et enfin bien eacutevidemment une activiteacute de veille technologique

BBEES est aussi partenaire de plusieurs grands programmes sur le long terme ( description des meacutetadonneacutees des bases deacutejagrave opeacuterationnelles eacutetat des lieux technique creacuteation de nouvelles basesSI ) et participe aux reacuteseaux des Zones Ateliers ( RZA ) et des Observatoires Hommes-Milieux ( ROHM ) ainsi qursquoau projet drsquoinfrastructures nationales en biologie et santeacute AnaEE-France laquo Infrastructure Analyse et drsquoexpeacuterimentation sur les eacutecosystegravemes raquo en srsquoappuyant sur les Ecotrons et les Stations drsquoEcologie expeacuterimentale ( ReNSEE )

Enfin BBEES megravene une activiteacute drsquointervention et de conseil au sein de lrsquoinstitut et est membre du groupe de travail sur les standards de donneacutees du SINP et du groupe utilisateurs du GBIF France

224 La creacuteation drsquoun centre de donneacutees et drsquoexpertise sur la nature

Dans une optique de valorisation de certaines donneacutees le CNRS-INEE a aussi eacuteteacute partenaire de la creacuteation drsquoun centre de donneacutees et drsquoexpertise sur la nature Creacuteeacutee en janvier 2017 lrsquoUniteacute Mixte de Service 2006 Patrimoine naturel ( PatriNat ) assure des missions drsquoexpertise et de gestion des connaissances pour ses trois tutelles que sont le Museacuteum national drsquohistoire naturelle ( MNHN ) lrsquoAgence Franccedilaise de la Biodiversiteacute et le CNRS

Issue drsquoun renforcement des eacutequipes du Service du patrimoine naturel cette uniteacute implanteacutee dans plusieurs sites du MNHN a pour objectif de fournir une expertise scientifique et technique sur la biodiversiteacute et la geacuteodiversiteacute franccedilaise au profit des politiques de connaissance et de conservation Cette mission nationale concerne la meacutetropole et lrsquooutre-mer ainsi que les theacutematiques terrestres et marines Elle est conduite en lien eacutetroit avec les partenaires impliqueacutes sur les enjeux de conservation et de protection de la nature En srsquoappuyant sur les reacutesultats issus des activiteacutes de recherche elle doit contribuer agrave faire eacutemerger des questions scientifiques et des besoins de connaissances partageacutees pour favoriser la prise en compte de la nature dans la socieacuteteacute

Agrave travers ses missions elle srsquoengage agrave diffuser former et sensibiliser les diffeacuterents publics sur les enjeux de biodiversiteacute et de preacuteservation de la nature

Ses trois principales missions concernent

bull La consolidation et la valorisation des donneacutees de biodiversiteacute de geacuteodiversiteacute et des collections naturalistes

LrsquoUMS srsquoattache agrave travailler avec les reacuteseaux naturalistes gestionnaires et de recherche pour deacutevelopper le partage des donneacutees les techniques informatiques et les meacutethodologies neacutecessaires agrave lrsquointeropeacuterabiliteacute des eacutechanges de donneacutees au niveau national et international Elle gegravere ainsi les bases de donneacutees nationales concernant les espegraveces les eacutecosystegravemes les espaces proteacutegeacutes et la geacuteodiversiteacute Elle participe eacutegalement agrave lrsquoidentification des besoins de connaissances naturalistes sur les diffeacuterents territoires La diffusion de cette information brute ou eacutelaboreacutee se fait au niveau national via deux portails principaux que sont lrsquoInventaire National du Patrimoine Naturel ( INPN ) et le GBIF-France pour les liens internationaux

bull La production et la diffusion de reacutefeacuterentiels de meacutethodes de protocoles et drsquoindicateurs

LrsquoUMS pilote ou participe aux travaux scientifiques de construction des reacutefeacuterentiels et bases de connaissance sur les espegraveces et les habitats qui sont neacutecessaires agrave la construction et la diffusion drsquoun savoir structureacute Cette structuration permet agrave lrsquoUMS drsquoagreacuteger ces informations nationales sur la nature ( inventaires eacutevaluations statuts reacuteglementaires etc ) afin de les valoriser par la production de cartes de synthegraveses et drsquoindicateurs drsquoeacutetat de la biodiversiteacute

bull Lrsquoappui scientifique aux politiques publiques et priveacutees en matiegravere drsquoenvironnement

LrsquoUMS apporte dans le cadre de polit iques publiques nationales des directives europeacuteennes sur la biodiversiteacute et des rapportages un appui pour lrsquoanimation technique et scientifique aux services de lrsquoEacutetat aux collectiviteacutes territoriales et aux eacutetablissements publics chargeacutes de la biodiversiteacute et des espaces naturels Elle apporte eacutegalement son expertise scientifique aupregraves des acteurs socio-eacuteconomiques qui mettent en place des actions en faveur de la biodiversiteacute dans leur politique environnementale en particulier dans le cadre de deacutemarche drsquoengagement dans la Strateacutegie nationale pour la biodiversiteacute

20

Livre Blanc sur les Donneacutees au CNRS Eacutetat des Lieux et Pratiques - 2018

225 Conclusion

La probleacutematique des donneacutees est centrale au sein de lrsquoINEE et couvre un tregraves large spectre de probleacutematiques Si un premier effort de recensement et de structuration a pu ecirctre meneacute au cours des derniegraveres anneacutees beaucoup de travail reste cependant agrave faire lrsquoenjeu fondamental eacutetant de promouvoir une veacuteritable laquo culture de la donneacutee raquo de la part des acteurs de la recherche en eacutecologie

En effet le deacuteveloppement drsquoune eacutecologie preacutedictive neacutecessite aujourdrsquohui de pouvoir rassembler ces donneacutees heacuteteacuterogegravenes par nature en un ensemble coheacuterent qui puisse ecirctre analyseacute de faccedilon robuste et reacutepeacutetable Il srsquoagit donc encore drsquoameacuteliorer la pertinence de la collecte des donneacutees dans une deacutemarche drsquoaller et retour entre theacuteorie et donneacutees ( cohabitation entre une eacutecologie theory-driven et data-driven )

Lrsquointeacutegration des donneacutees aux diffeacuterentes eacutechelles drsquoorganisation en eacutecologie reste aussi un enjeu Il srsquoagit maintenant de favoriser le dialogue entre disciplines non seulement entre sciences de la nature et sciences humaines et sociales mais aussi entre sciences de la nature matheacutematiques et sciences de lrsquoinformation

INEE

21

Livre Blanc sur les Donneacutees au CNRS Eacutetat des Lieux et Pratiques - 2018

23 INSTITUT DE PHYSIQUE ( INP )

231 Introduction

La probleacutematique des donneacutees prend plusieurs formes agrave lrsquoINP Celles-ci deacutependent du volume et de la nature des donneacutees Ces derniegraveres vont de quelques dizaines de meacutegaoctets geacuteneacutereacutes par une expeacuterience de laboratoire aux peacutetaoctets produits annuellement dans les TGIR de lrsquoinstitut en passant par les teacuteraoctets issus de simulations dans les grands centres de calcul nationaux ou ceux geacuteneacutereacutes sur la toile et les reacuteseaux sociaux Dans ce qui suit nous eacutevoquerons les questions qui se posent autour des donneacutees agrave lrsquoINP et certaines des solutions envisageacutees dans ces diffeacuterents contextes Nous proceacutederons par ordre deacutecroissant en commenccedilant par les TGIR ougrave la probleacutematique des donneacutees est particuliegraverement aiguumle puis par les grands centres de calcul nationaux les meacutesocentres et les laboratoires Nous terminerons avec quelques mots sur lrsquoimplication de lrsquoINP dans des projets sur les donneacutees de la Commission europeacuteenne

23 2 Les donneacutees dans les infrastructures synchrotrons neutrons et laser agrave eacutelectrons libres de lrsquoINP

Aujourdrsquohui la probleacutematique des grands volumes de donneacutees agrave lrsquoINP se pose de faccedilon particuliegraverement aiguumle dans ses tregraves grands instruments Il srsquoagit drsquoinfrastructures synchrotron neutron et laser agrave eacutelectrons libres certaines ayant une dimension europeacuteenne ou mecircme mondiale Ces infrastructures portent collectivement le nom de PaN pour

le CNRS sont les synchrotrons SOLEIL ( httpwwwsynchrotron-SOLEILfr ) et ESRF ( httpwwwesrfeu ) les infrastructures de diffusion neutronique ILL ( httpwwwilleu ) et Orpheacutee ( httpwww-centre-saclayceafrfrReacteur-Orphee ) et dans le futur lrsquoESS ( httpseuropeanspallationsourcese ) ainsi que depuis peu le laser agrave eacutelectrons libres X-FEL ( httpswwwxfeleu )

Le degreacute drsquoimplication du CNRS dans ces infrastructures et leur statut national ou international sont deacutetailleacutes dans le tableau (p 24) Bien que ces instruments soient ouverts agrave toutes les communauteacutes scientifiques et le sont pour la plupart agrave lrsquointernational crsquoest lrsquoINP qui est leur interlocuteur pour le CNRS Par ailleurs cette diversiteacute drsquoutilisateurs et de pratiques scientifiques fait de ces infrastructures de tregraves inteacuteressants laboratoires pour la gestion et le traitement de donneacutees et des modegraveles pour ce qui pourrait ecirctre fait au niveau de lrsquoINP et plus geacuteneacuteralement du CNRS

SOLEIL

Instruments agrave lrsquoILL

ESRF

22

Livre Blanc sur les Donneacutees au CNRS Eacutetat des Lieux et Pratiques - 2018

Face au fort accroissement du volume des donneacutees geacuteneacutereacutees et la diversiteacute croissante des utilisateurs les infrastructures PaN ont mis en place entre 2008 et 2010 une collaboration europeacuteenne sur les donneacutees nommeacutee laquo PaNdata raquo Elle concerne treize instruments europeacuteens avec pour objectif drsquoeacutetablir une infrastructure commune aux installations PaN qui permet un accegraves commun aux donneacutees et agrave des outils drsquoanalyse et de partage de donneacutees

Sur 2010-2011 cette collaboration a eacuteteacute soutenue par une action de support de lrsquoUnion europeacuteenne laquo PaNdata Europe raquo comprenant des ateliers autour de la standardisation des formats de lrsquoeacutechange drsquoinformation sur les utilisateurs de lrsquointeropeacuterabiliteacute des logiciels drsquoanalyse du reacutefeacuterencement des reacutesultats et de la politique des donneacutees

Srsquoen est suivi un projet INFRA de la Commission PaNdata Open Data Infrastructure ( ODI ) Celui-ci a permis la mise en place drsquoun systegraveme drsquoidentification commun nommeacute laquo Umbrella raquo pour six des treize installations Il a eacutegalement meneacute au choix drsquoun format binaire commun des donneacutees NeXusHDF5 et drsquoun systegraveme de gestion des meacutetadonneacutees laquo ICAT raquo utiliseacute dans trois des infrastructures

INP

23

Livre Blanc sur les Donneacutees au CNRS Eacutetat des Lieux et Pratiques - 2018

Afin de consolider ces avanceacutees et de preacuteparer lrsquoavenir en 2015 le projet laquo PaNDaaS raquo ( data analysis as a service ) a eacuteteacute proposeacute dans le cadre de lrsquoappel INFRADEV-4 de la Commission Plus preacuteciseacutement ce projet de 12 millions drsquoeuros avec vingt partenaires et porteacute par lrsquoESRF avait pour but de proposer aux utilisateurs des infrastructures PaN une plateforme mateacuterielle et logicielle unifieacutee permettant lrsquoanalyse la visualisation et la navigation au travers des donneacutees geacuteneacutereacutees par les instruments sur site ou agrave distance La solution envisageacutee eacutetait de type laquo cloud raquo avec appel possible agrave des infrastructures commerciales Le projet nrsquoa pas eacuteteacute retenu Toutefois un certain nombre des activiteacutes preacutevues dans ce projet continuent agrave avancer sur fonds propres

Parmi celles-ci lrsquoILL megravene lrsquoeffort de mise en place drsquoune politique des donneacutees Une telle politique est devenue indispensable pour la visibiliteacute des TGIR En 2013 lrsquoILL a deacuteployeacute un ensemble complet de services des donneacutees accessible aux utilisateurs au travers drsquoune interface web

Ces services permettent la recherche lrsquoaccegraves lrsquoannotation lrsquoarchivage lrsquoidentification et la publication des donneacutees La mise en place de cette politique a pris cinq ans pour des raisons eacutevoqueacutees ci-dessous Elle est baseacutee sur le cadre donneacute par PaNData selon lequel lrsquoinfrastructure est responsable de la preacuteservation des donneacutees geacuteneacutereacutees sur ses instruments Drsquoautre part gracircce agrave une collaboration avec DataCite et lrsquoINIST les donneacutees brutes sont indexeacutees par un DOI ( Digital Object Identifier ) propre avec un lien sur les scientifiques qui les ont geacuteneacutereacutees au travers drsquoun Research ID drsquoORCID Les meacutetadonneacutees instrumentales sont automatiquement ajouteacutees aux donneacutees brutes par lrsquointerface De plus cette interface relie les projets aux donneacutees et fournit aux utilisateurs des e-logbooks qui permettent de preacuteciser les conditions de lrsquoexpeacuterience et drsquoannoter les donneacutees Le systegraveme fournit une archive centrale en ligne organiseacutee par projet instrument et dates avec un accegraves initialement controcircleacute Les utilisateurs peuvent rendre leurs donneacutees publiques agrave tout moment et doivent le faire dans les trois ans sauf exception accordeacutee par la direction de

Synthegravese des TGIR PaN de lrsquoINP du volume de donneacutees geacuteneacutereacute et de leur politique des donneacutees

24

Livre Blanc sur les Donneacutees au CNRS Eacutetat des Lieux et Pratiques - 2018

lrsquoinfrastructure Elles deviennent alors accessibles au travers drsquoun portail qui les relient aux meacutetadonneacutees logs DOIs etc Elles sont utilisables sous les conditions de la licence CC-BY 40 Toute publication baseacutee sur ces donneacutees doit en citer le DOI et devrait agrave terme figurer dans lrsquoarchive avec ces donneacutees

La mise en place de cette politique des donneacutees a ducirc faire face agrave plusieurs difficulteacutes La premiegravere et peut-ecirctre la plus importante sont les habitudes et mentaliteacutes des utilisateurs qui conccediloivent ces donneacutees fruit de leurs ideacutees et de leur travail comme leur appartenant dans le sens ougrave ils veulent pouvoir les exploiter scientifiquement agrave plein avant de les rendre publiques On peut les comprendre Une autre difficulteacute a eacuteteacute drsquoassocier et de recevoir le soutien des nombreux organismes de recherche associeacutes agrave lrsquoILL Drsquoun point de vue plus technique la collecte drsquoarticles utilisant les donneacutees geacuteneacutereacutees au sein de lrsquoinfrastructure est compliqueacutee du fait des reacutefeacuterencements incomplets ou difficiles agrave identifier dans des recherches automatiseacutees ( p ex DOI des donneacutees inclus dans une figure ) et par le manque drsquooutils de collecte De faccedilon plus geacuteneacuterale une politique des donneacutees est un processus long agrave mettre en place et qui est ralenti par le temps de la science Neacuteanmoins les progregraves sont mesurables comme dans la figure ci-apregraves

A son tour LrsquoESRF mettra en place une politique des donneacutees tregraves similaire agrave celle de lrsquoILL sur toutes ses lignes expeacuterimentales agrave partir de 2020 Cette mise en place a un coucirct non neacutegligeable Par exemple la preacuteservation sur dix ans des donneacutees brutes requiert 100 keuroan de lecteurs et de bandes magneacutetiques suppleacutementaires De plus son implantation occupera 25 ETPsan sur quatre ans

Entre temps le service IT de lrsquoESRF a attaqueacute de front la probleacutematique PaNDaaS du fait de la forte exposition de lrsquoESRF aux gros volumes de donneacutees qui ne fera qursquoaugmenter avec la seconde phase du programme de modernisation de ses lignes qui se terminera en 2022 En effet le volume des donneacutees geacuteneacutereacute par les nouveaux instruments sera tel qursquoil ne sera plus possible de retourner au laboratoire avec ses donneacutees sur un disque Les donneacutees et les outils drsquoanalyse devront donc ecirctre au mecircme endroit Il sera aussi important de preacuteserver et de coupler le workflow des analyses avec les donneacutees elles-mecircmes afin de rendre lrsquoextraction des reacutesultats reproductible

INP

25

Livre Blanc sur les Donneacutees au CNRS Eacutetat des Lieux et Pratiques - 2018

Le but que poursuivent lrsquoESRF et ses collaborateurs PaN est de proposer un service complet allant des donneacutees agrave lrsquoanalyse qui comprend des moyens de calcul des logiciels et de lrsquoexpertise IT tout cela accessible au travers drsquoune interface web Les avantages sont de donner agrave des utilisateurs pas neacutecessairement experts en meacutethodes numeacuteriques non seulement lrsquoaccegraves agrave une infrastructure performante mais aussi agrave des outils drsquoanalyse homogegravenes et certifieacutes Cela permettra drsquoacceacuteleacuterer le processus drsquoanalyse mais aussi de faciliter la collaboration lors de ce processus ainsi que la preacuteservation du workflow Le tout renforcera eacutegalement lrsquoattractiviteacute de lrsquoinfrastructure de recherche Pour mener cette vision agrave terme lrsquoESRF aura investi 3 millions drsquoeuros en ressources humaines entre 2015 et 2020

Lrsquoapproche suivie par lrsquoESRF est de recruter des ingeacutenieurs logiciels pour deacutevelopper une bibliothegraveque qui implante des fonctionnaliteacutes communes agrave de nombreux types drsquoanalyses et de construire les applications scientifiques au-dessus en Open Source sous licence GSL au sein de collaborations geacutereacutees agrave travers Github La vision du service DaaS de lrsquoESRF est illustreacutee par le graphique ci-dessous

Pour conclure sur les TGIR de lrsquoINP les scientifiques du CNRS geacutenegraverent ~800 Toan de donneacutees sur ces instruments un chiffre qui croicirct drsquoanneacutee en anneacutee et de faccedilon encore plus significative avec la modernisation en cours des lignes de SOLEIL et de lrsquoESRF et le deacutemarrage drsquoE-XFEL Malgreacute lrsquoeacutechec en 2015 de la demande INFRADEV-4 laquo PaNDaaS raquo et les nombreux challenges poseacutes par la quantiteacute de donneacutees geacuteneacutereacutees par la varieacuteteacute des instruments et par la diversiteacute des pratiques des communauteacutes qui les utilisent le travail neacutecessaire autour de la probleacutematique de lrsquoorganisation du stockage de la mise agrave disposition et de lrsquoanalyse des donneacutees des infrastructures PaN se poursuit avec succegraves sous lrsquoinitiative efficace de lrsquoESRF de lrsquoILL de SOLEIL et de leurs collaborateurs Ce travail demande des moyens humains et informatiques ainsi qursquoun soutien institutionnel en prioriteacute en ce qui concerne les aspects de proprieacuteteacute intellectuelle

Le CNRS fort de sa multidisciplinariteacute et de sa preacutesence dans ces TGIR pourrait contribuer de plusieurs faccedilons agrave cet effort Le CNRS au travers de projets type Mastodons de la Mission pour lrsquointerdisciplinariteacute etou de Groupements de recherche pourrait encourager la collaboration de scientifiques de diffeacuterents domaines autour de

26

Livre Blanc sur les Donneacutees au CNRS Eacutetat des Lieux et Pratiques - 2018

lrsquoameacutelioration des algorithmes utiliseacutes dans lrsquoanalyse de donneacutees synchrotron par exemple sur le modegravele de CAMERA ( httpwwwcameralblgov ) aux Eacutetats-Unis Plus concregravetement le CNRS pourrait financer des postes ou mois drsquoingeacutenieur pour deacutevelopper des logiciels de traitement de donneacutees synchrotron tels XSOCS ( httpssourceforgenetprojectsxsocs ) Il pourrait eacutegalement donner accegraves agrave des moyens informatiques de type cloud agrave ces TGIR au travers par exemple drsquoun accord avec le CC-IN2P3 ou France Grilles De surcroicirct agrave lrsquoavenir le CNRS pourrait ecirctre le moteur derriegravere la creacuteation drsquoune archive Open Data et le deacuteveloppement drsquoun portail Open Science tel que le Centre de Donneacutees astronomiques de Strasbourg ( httpcdswebu-strasbgfr ) auxquelles les TGIR PaN participeraient

Outre les retours en termes de science aupregraves des TGIR PaN ces expeacuteriences dans lrsquoorganisation le stockage la mise agrave disposition et lrsquoanalyse des donneacutees dans un environnement de diversiteacute drsquoutilisateurs et de

pratiques scientifiques qui restent neacuteanmoins limiteacutees aux probleacutematiques PaN pourraient servir de tremplin agrave la mise en place drsquoune politique de la conservation et de lrsquoexploitation des donneacutees au CNRS

234 Les donneacutees de lrsquoINP dans les centres de calcul nationaux

Si on se place au niveau des centres nationaux de calcul les projets de physique ( CT 5 et 9 ) geacutenegraverent et utilisent au moins temporairement beaucoup de donneacutees avec un total de lrsquoordre de 500 To eacutequivalent au climat hors CMIP6 ( CT1 ) et supeacuterieur agrave lrsquoastrophysique et agrave la geacuteophysique ( CT 4 ) cf figures ci-dessous qui rapportent la quantiteacute de donneacutees preacutesentes sur les disques de travail en feacutevrier 2015 sur les deux calculateurs de lrsquoIDRIS

Donneacutees non peacuterennes agrave lrsquoIDRIS ($WORKDIR)

INP

27

Livre Blanc sur les Donneacutees au CNRS Eacutetat des Lieux et Pratiques - 2018

Neacuteanmoins une grande partie de ces donneacutees ne sont neacutecessaires que dans des eacutetapes intermeacutediaires des calculs ou alors sont preacuteserveacutees ailleurs En effet si lrsquoon considegravere les donneacutees conserveacutees agrave long terme sur bandes magneacutetiques agrave lrsquoIDRIS les physiciens sont des utilisateurs moyens et se retrouvent loin derriegravere les climatologues avec plus de 300 To sur bandes comme lrsquoindique la figure suivante

Pour analyser cette situation de plus pregraves nous prenons comme exemple dans le CT 5 la QCD sur reacuteseau dont les objectifs sont

bull Deacuteterminer les proprieacuteteacutes fondamentales de ces constituants eacuteleacutementaires que sont les quarks

bull Calculer les nombreuses proprieacuteteacutes des protons neutrons et autres hadrons

bull Aider agrave reacuteveacuteler de nouvelles particules eacuteleacutementaires etou interactions fondamentales

bull Agrave plus long terme calculer les proprieacuteteacutes de noyaux atomiques ab initio

Lrsquoapproche consiste agrave reacutesoudre numeacuteriquement les eacutequations de la chromodynamique quantique ( QCD ) parfois coupleacutees agrave celles de lrsquoeacutelectrodynamique quantique ( QED ) dans leur reacutegime hautement non lineacuteaire Une telle approche induit de gros calculs massivement parallegraveles sur des infrastructures nationales et internationales En France 2 eacutequipes contribuent agrave cet effort mondial

bull La European Twisted Mass collaboration ( LPT Orsay LPC Clermont )

bull La Budapest-Marseille-Wuppertal collaboration ( CPT Marseille SPhN Saclay )

Donneacutees preacuteserveacutees sur bandes magneacutetiques agrave lrsquoIDRIS

28

Livre Blanc sur les Donneacutees au CNRS Eacutetat des Lieux et Pratiques - 2018

Du point de vue des donneacutees dans cette activiteacute de recherche ces collaborations repreacutesentent aujourdrsquohui

bull $WORKDIR

o Typiquement 10 To sur Turing

o ETMC pic agrave 23 Po en post-traitement au CC-IN2P3

bull Sauvegarde laquo peacuterenne raquo

o ETMC ~130 To au CC-IN2P3

o BMWc ~50 To au FZ Julich

Il est important de noter que dans ce domaine drsquoactiviteacute des donneacutees acircgeacutees de plus drsquoenviron cinq ans sont pour la plupart obsolegravetes et il devient plus facile de les recalculer si on en a vraiment besoin Bien sucircr il en va autrement pour les donneacutees expeacuterimentales obtenues aupregraves drsquoacceacuteleacuterateurs qui elles ne sont geacuteneacuteralement pas faciles agrave reproduire

Un certain nombre des donneacutees obtenues en QCD sur reacuteseau sont partageacutees au travers de lrsquoInternational Lattice Data Grid ( ILDG ) avec des formats et des meacutetadonneacutees standardiseacutes des protocoles et outils drsquoeacutechange entre grilles reacutegionales et enfin des catalogues sur les grilles reacutegionales Il srsquoagit principalement des configurations de jauge qui sont agrave la base de tout calcul en QCD sur reacuteseau et qui reacutesultent drsquoun processus markovien coucircteux numeacuteriquement

Dans ce domaine on peut eacutegalement faire une projection sur les besoins en matiegravere de donneacutees agrave lrsquoavenir

bull Pour les eacutetudes dont la vocation est la deacutetermination des proprieacuteteacutes fondamentales des quarks les calculs de proprieacuteteacutes de hadrons ou lrsquoaide agrave la reacuteveacutelation drsquoune nouvelle physique fondamentale on anticipe une croissance modeacutereacutee absorbeacutee par le renouvellement des infrastructures de calcul intensif

bull Par contre en ce qui concerne lrsquoeacutetude ab initio des noyaux atomiques qui nrsquoest actuellement qursquoau niveau de balbutiements la croissance du volume des donneacutees sera potentiellement exponentielle dans 5 agrave 10 ans

235 Les donneacutees dans les laboratoires de lrsquoINP

En mars 2015 la DIST a publieacute les reacutesultats drsquoune enquecircte aupregraves des Directrices et Directeurs drsquouniteacutes du CNRS concernant les usages et les besoins drsquoinformation scientifique et technique des laboratoires En srsquoappuyant sur cette enquecircte ainsi que sur des consultations au sein de lrsquoINP nous avons tireacute les conclusions suivantes concernant les donneacutees dans les laboratoires de lrsquoINP

bull Les eacutequipes dans les laboratoires de lrsquoINP engendrent des donneacutees drsquoexpeacuterience et de simulation avec des volumes geacuteneacuteralement geacuterables au niveau local

bull Les eacutequipes de lrsquoINP peuvent aussi contribuer agrave geacuterer des bases de donneacutees par exemple en physique atomique et moleacuteculaire ( typiquement sur un site web un serveur de laboratoire ou un serveur international )

bull Les donneacutees sont geacuteneacuteralement sous la responsabiliteacute des eacutequipes qui les produisent

bull Il y a peu de financements externes lieacutes agrave la gestion de ces donneacutees

bull Peu de demandes eacutemanent des laboratoires sur les donneacutees ( beaucoup plus sur le calcul )

bull Tregraves peu de laboratoires ont un plan de gestion de donneacutees

bull Sur certains sites geacuteographiques il y a une participation minoritaire agrave la mutualisation des infrastructures de donneacutees par exemple dans les salles informatiques du datacentre Virtual Data du LabEx P2IO ( Paris-Saclay ) et au Dark Energy Data Center du LabEx OCEVU ( MarseilleMontpellierToulouse )hellip

bull Il nrsquoy a pas encore de politique sur la gestion des donneacutees dans les laboratoires ni de mutualisation au niveau de lrsquoinstitut

INP

29

Livre Blanc sur les Donneacutees au CNRS Eacutetat des Lieux et Pratiques - 2018

Il y a neacuteanmoins des theacutematiques eacutemergentes dans les laboratoires de lrsquoINP qui pourraient ecirctre confronteacutees agrave la probleacutematique du Big Data telle qursquoelle apparaicirct en lien avec par exemple les reacuteseaux sociaux En effet de petites eacutequipes ( au CPT agrave Marseille ou agrave lrsquoIXXI de Lyon ) eacutetudient les donneacutees de reacuteseaux sociaux ( p ex Twitter ) avec pour but par exemple de comprendre diffeacuterents comportements humains agrave lrsquoaide drsquooutils de physique et de lrsquointelligence artificielle ( p ex analyse des dialectes espagnols ) Dans ce genre drsquoeacutetude on procegravede typiquement agrave lrsquoanalyse de 10-20 To de donneacutees de flux de reacuteseau social qui doivent ecirctre laquo filtreacutees raquo agrave lrsquoaide de fermes de PCs de type Hadoop Les quelques Go de donneacutees obtenues peuvent ensuite ecirctre analyseacutes en local

Dans ce domaine les volumes de donneacutees ont une croissance exponentielle qursquoil sera difficile de suivre Un besoin drsquoacceacuteder agrave des fermes de PCs de type Hadoop se manifeste ainsi qursquoun besoin de formation dans lrsquoutilisation de techniques de data mining et dans la gestion de systegravemes Hadoop La possibiliteacute drsquoutiliser des plateformes commerciales ( Amazon Numergy Cloudwatt ) est une possibiliteacute Ces theacutematiques de recherche sont plus reacutepandues dans drsquoautres instituts ( INS2I INSHS ) et il est souhaitable que les solutions agrave ces challenges soient envisageacutees avec ces instituts

236 Participation aux initiatives europeacuteennes sur les donneacutees

Au travers de lrsquoimplication de ses chercheurs dans les activiteacutes du Centre Europeacuteen de Calcul Atomique et Moleacuteculaire ( CECAM ) lrsquoINP participe au Centre of Excellence for Computing Applications ( CoE ) E-CECAM ( httpswwwe-cam2020eu ) qui a pour vocation la creacuteation de codes modulaires open source la formation de jeunes scientifiques et de personnels de lrsquoindustrie dans le deacuteveloppement et lrsquoutilisation de logiciels deacutedieacutes et le conseil au monde industriel dans les domaines de la structure eacutelectronique la dynamique quantique et moleacuteculaire et la modeacutelisation multi-eacutechelles Par contre il est regrettable que lrsquoimplication de ses chercheurs dans des initiatives telles que le CoE NoMad ( Novel Material Discovery httpsnomad-coeeu ) soit tregraves faible alors qursquoil srsquoagit de mettre en place un dispositif pour heacuteberger organiser et partager agrave lrsquoeacutechelle internationale les donneacutees et reacutesultats de calculs et de simulations en physique et chimie des mateacuteriaux

237 Conclusions

La probleacutematique des donneacutees agrave lrsquoINP se pose surtout au travers des TGIR PaN Geacutereacutees par lrsquoINP ces infrastructures servent des communauteacutes qui vont bien au-delagrave de lrsquoINP et de la France

De gros efforts drsquoharmonisation et de mise en place drsquoune politique des donneacutees et de mutualisation ont eacuteteacute effectueacutes ( PaNdata PaNDaaS ) mais nrsquoempecircchent pas drsquoecirctre confronteacutes agrave diverses difficulteacutes Devant lrsquoaccroissement des donneacutees ces efforts deviennent incontournables Ils pourraient aussi servir de base au deacuteveloppement drsquoune politique de la conservation et de lrsquoexploitation des donneacutees au niveau du CNRS

Drsquoun point de vue stockage de donneacutees sur disques dans les centres de calcul nationaux lrsquoINP occupe de lrsquoordre de 200 Toctets par site en scratch et en laquo peacuterenne raquo le rapport entre Toctets engendreacutes et volume de calcul eacutetant petit Dans les meacutesocentres le stockage des donneacutees INP ne semble pas ecirctre un problegraveme important Au niveau des laboratoires les donneacutees sont geacutereacutees par les eacutequipes qui les geacutenegraverent et qui les utilisent

Il nrsquoy a pas encore de politique des donneacutees de lrsquoINP vis-agrave-vis des donneacutees dans les laboratoires la demande nrsquoeacutetant pas particuliegraverement forte LrsquoINP participe au travers de petites eacutequipes agrave lrsquoexploitation de grandes masses de donneacutees sociales meacutedicales etc en appliquant des meacutethodes de modeacutelisation en partie issues de la physique mais pour lrsquoinstant de faccedilon minoritaire

Drsquoautre part LrsquoINP participe aux deacutefis de la Mission pour lrsquointerdisciplinariteacute sur les donneacutees ( p ex Mastodons ) et au GDR MaDICS mais cela reste marginal aussi

30

Livre Blanc sur les Donneacutees au CNRS Eacutetat des Lieux et Pratiques - 2018

24 INSTITUT DES SCIENCES BIOLOGIQUES ( INSB )

241 Introduction

Crsquoest lrsquoassociation de biologistes comme James Watson de chimistes et de physiciens comme R Franklin et F Crick qui a permis de comprendre en 1953 les bases du fonctionnement de lrsquoADN support de lrsquoinformation geacuteneacutetique entraicircnant une premiegravere reacutevolution celle de la biologie moleacuteculaire La deuxiegraveme reacutevolution celle de la geacutenomique a commenceacute au milieu des anneacutees 1990 et a eacuteteacute marqueacutee par le seacutequenccedilage du geacutenome humain un code de plus de 3 milliards de lettres Ce succegraves a neacutecessiteacute des deacuteveloppements technologiques consideacuterables dans les domaines de la physique de lrsquoeacutelectronique de lrsquoinformatique de la chimie et de la biologie

Pour reacutepondre aux besoins de stockage et drsquoanalyse des seacutequences biologiques ( composeacutees drsquoune succession de 4 nucleacuteotides A C G T pour les seacutequences nucleacuteiques et drsquoune succession de 20 acides amineacutes pour les seacutequences proteacuteiques ) les premiegraveres collections de donneacutees en biologie sont apparues sous la forme de livres ( Atlas of Protein Sequences de Dayhoff et al ( 1965-1978 ) Nucleic Acid Sequences Handbook de Gautier et al ( 1981 ) qui contenait 1095 seacutequences et 525506 nucleacuteotides ) puis de banques de donneacutees informatiseacutees au deacutebut des anneacutees 1980 Trois grands centres se chargent de la collecte des seacutequences nucleacuteiques aux Etats-Unis Los Alamos Sequence Database puis GenBank ( depuis 1979 ) au Japon DNA Data Bank of Japan - DDBJ ( depuis 1984 ) et en Europe European Molecular Biology Laboratory Sequence Database - EMBL-Bank ( depuis 1981 ) Ces banques de donneacutees ont un format de donneacutees qui leur est propre mais une collaboration internationale a eacuteteacute mise en place afin drsquoassurer que le contenu de ces ressources soit pratiquement identique Les seacutequences proteacuteiques quant agrave elles ont eacuteteacute reacutepertorieacutees au NCBI ( National Center for Biotechnology Information Etats-Unis ) dans la PIR ( Protein Information Resource - 1984-2004 ) Aujourdrsquohui une seule ressource est maintenue en Europe UniProt dont la fraction contenant des donneacutees laquocureacuteesraquo Swiss-Prot est prise en charge par lrsquoInstitut Suisse de Bioinformatique ( SIB )

La bioinformatique a eacutemergeacute avec la disponibiliteacute des premiegraveres seacutequences proteacuteiques Lrsquoarticle fondateur de Zukerkandl et Pauling ( 1965 ) preacutesente des analyses informatiques etou matheacutematiques et statistiques sur des seacutequences biologiques pour reconstituer lrsquohistoire eacutevolutive des ecirctres vivants Le terme laquobioinformatiqueraquo srsquoest populariseacute dans les anneacutees 1990 autour de la deacutefinition suivante informatique appliqueacutee agrave la biologie Il srsquoagit de lrsquoensemble des meacutethodes informatiques permettant de ( i ) geacuterer les donneacutees produites en masse par la biologie ( ii ) analyser ces donneacutees brutes pour en extraire de lrsquoinformation ( iii ) organiser et structurer cette information ( iv ) infeacuterer des connaissances biologiques ( agrave lrsquoaide de modegraveles et de theacuteories ) agrave partir des informations stockeacutees dans des collections et ( v ) eacutenoncer des hypothegraveses geacuteneacuteralisatrices et de formuler des preacutedictions En pratique les theacutematiques principales de la bioinformatique sont les suivantes

bull Lrsquoanalyse des seacutequences ( ADN ou proteacuteines ) annotation des geacutenomes phylogeacutenie et eacutevolution geacutenomique comparative analyse de variants dans le cadre de maladies geacuteneacutetiques geacutenomique du cancer

bull Les donneacutees drsquoexpression ( ARN et proteacuteines )

bull La structure des macromoleacutecules ( ARN et proteacuteines )

bull Les reacuteseaux de reacutegulation et lrsquoanalyse du meacutetabolisme

bull La meacutetageacutenomique et meacutetabarcoding

bull Lrsquoanalyse drsquoimages

On assiste agrave un changement drsquoeacutechelle en biologie depuis une dizaine drsquoanneacutees et la biologie est entreacutee avec lrsquoavegravenement des approches ndashomiques ( cf 242 ) dans lrsquoegravere du Big Data En effet le deacuteveloppement des technologies agrave haut deacutebit permet par exemple de collecter les donneacutees agrave lrsquoeacutechelle de la cellule entiegravere et drsquoenvisager une deacutemarche encyclopeacutedique en collectant tous les gegravenes tous les transcrits toutes les proteacuteines toutes les interactions tous les meacutetabolites et les flux etc Les conseacutequences sont consideacuterables tant pour notre compreacutehension du vivant que pour les applications

INSB

31

Livre Blanc sur les Donneacutees au CNRS Eacutetat des Lieux et Pratiques - 2018

Nous pouvons maintenant aborder la complexiteacute du vivant non plus uniquement de maniegravere analytique mais de maniegravere globale agrave lrsquoeacutechelle des dizaines de milliers de macromoleacutecules qui interagissent entre elles pour faire fonctionner une cellule un tissu un organisme entier une communauteacute drsquoorganismes La gestion et lrsquoanalyse de ces gros volumes de donneacutees geacuteneacutereacutees par la biologie est donc un enjeu majeur

242 La probleacutematique des donneacutees agrave lrsquoINSB

Lrsquoavegravenement des approches -omiques ( transcriptomique geacutenomique proteacuteomique et meacutetabolomique ) a tregraves largement contribueacute agrave lrsquoacquisition de connaissances sur les organismes vivants aussi bien modegraveles que non modegraveles Depuis 2007 nous assistons au deacuteveloppement de nouvelles technologies de seacutequenccedilage agrave tregraves haut deacutebit ( NGS Next Generation Sequencing ) qui permettent de produire drsquoimportantes quantiteacutes de seacutequences drsquoADN et ARN

De fait la taille des geacutenomes seacutequenceacutes est extrecircmement variable le plus petit geacutenome ( non viral ) connu est Carsonella ruddii 016 Mbp ( millions or mega of base pairs ) et le plus grand Amoeba dubia une amibe microscopique qui preacutesente un geacutenome 100 fois plus gros que le geacutenome humain ( 675 Giga base pairs )

Une eacutetape preacutealable au seacutequenccedilage des geacutenomes drsquoorganismes vivants consiste agrave deacutecouper ces derniers en millions de fragments ( shotgun sequencing ) La taille des lectures varie de 35 bp jusqursquoagrave 2 x 200 bp pour les seacutequenceurs de 2egraveme geacuteneacuteration ( seacutequences courtes mais de tregraves bonne qualiteacute ) et de 14 kbp agrave 47 kbp pour les seacutequenceurs de 3egraveme geacuteneacuteration ( seacutequences beaucoup plus longues mais contenant un taux drsquoerreur autour de 10 aujourdrsquohui ) Un run de seacutequenccedilage produit 3 milliards de lectures apparieacutees de 2 x 100 bp soit 600 Gbp qui repreacutesentent 48 To de donneacutees laquo brutes raquo et environ 10 To avec les meacutetadonneacutees Les coucircts de seacutequenccedilage sont passeacutes de 10 000 $ agrave 003 $ par million de nucleacuteotides seacutequenceacutes Alors que la croissance de la banque geacuteneacuteraliste EMBL a doubleacute sa taille tous les 187 mois La deacutecroissance du coucirct de seacutequenccedilage nrsquoest plus proportionnelle depuis 2007 agrave la deacutecroissance exponentielle des coucircts de stockage et drsquoanalyse informatique ( loi de Moore )

32

Livre Blanc sur les Donneacutees au CNRS Eacutetat des Lieux et Pratiques - 2018

Ces deux facteurs induisent de multiples problegravemes Des fichiers de donneacutees de plusieurs dizaines ( voire plusieurs centaines ) de Go contenant des dizaines de millions de seacutequences sont geacuteneacutereacutes et engendrent des problegravemes de transfert de stockage et des traitements gourmands en meacutemoire vive espace disque et temps de calcul Il y a donc de plus en plus une neacutecessiteacute impeacuterative drsquoutiliser des clusters de calcul ( meacutesocentres CC-IN2P3 IDRIS CCRT ) Drsquoautre part de moins en moins de seacutequences effectivement produites dans les laboratoires sont soumises aux banques de donneacutees publiques En conseacutequence les trois collections geacuteneacuteralistes ne sont plus exhaustives et lrsquoon assiste agrave un foisonnement de collections locales et de banques de donneacutees speacutecialiseacutees qui pose seacuterieusement la question de la dureacutee de validiteacute de ces systegravemes Au niveau europeacuteen la mise en place

drsquoELIXIR a eacuteteacute une reacuteponse aux difficulteacutes croissantes de lrsquoEBI ( European Bioinformatics Institute ) agrave geacuterer toutes ces donneacutees Il srsquoagit drsquoune initiative lanceacutee en 2007 dans le cadre du programme ESFRI ( infrastructures de recherche europeacuteennes ) lrsquoinfrastructure ELIXIR est constitueacutee drsquoun hub central et de nœuds associeacutes ( 23 pays partenaires aujourdrsquohui ) Les biologistes sont noyeacutes sous une avalanche de donneacutees On estime que lrsquoon passe aujourdrsquohui 25 du temps agrave engendrer les donneacutees et 75 du temps agrave les analyser Aux donneacutees de seacutequences geacutenomiques viennent tout naturellement srsquoajouter celles geacuteneacutereacutees par drsquoautres technologies -omiques transcriptomique proteacuteomique meacutetabolomique structuromique et les donneacutees drsquoimages qui geacutenegraverent des quantiteacutes eacutenormes de donneacutees agrave des niveaux biologiques multiples

INSB

33

Livre Blanc sur les Donneacutees au CNRS Eacutetat des Lieux et Pratiques - 2018

Au niveau national le ministegravere a lanceacute en 2010 les premiers appels agrave projets du Plan drsquoInvestissement drsquoAvenir ( PIA ) qui doit entre autres doter la France de plusieurs grandes infrastructures drsquoenvergure nationale et tregraves compeacutetitives internationalement Les mots-cleacutes derriegravere ces infrastructures distribueacutees recouvrent la mutualisation un service ouvert agrave la communauteacute et une expertise pointue dans une technologie du domaine en eacutemergence

bull France Geacutenomique ( FG ) est lrsquoinfrastructure de production de seacutequences geacutenomiques ( ADN ARN ) Les ordres de grandeur des technologies de seacutequenccedilage ont eacuteteacute donneacutes ci-dessus Les donneacutees des appels agrave grands projets de FG sont geacuteneacuteralement traiteacutees au CCRT ougrave lrsquoeacutecosystegraveme neacutecessaire aux traitements bio-informatiques a eacuteteacute mis en place ( cf ci-dessous )

bull ProFI produit des donneacutees de proteacuteomique la volumeacutetrie associeacutee agrave chaque eacutetude est de lrsquoordre de quelques centaines de Mo qui multiplieacutes par le nombre drsquoeacutetudes meneacutees simultaneacutement repreacutesente de lrsquoordre de 100 To mobiliseacutes

bull FRISBI est une infrastructure deacutedieacutee agrave la biologie structurale inteacutegrative dont les besoins informatiques relegravevent surtout du temps de calcul ( programmes de dynamique moleacuteculaire qui peuvent ecirctre exeacutecuteacutes dans les grands centres de calcul nationaux )

bull MetaboHUB produit des donneacutees de meacutetabolomique et de fluxomique chaque plateforme gegravere ses donneacutees ( environ 20 Toan ) de faccedilon diffeacuterente et opportuniste

bull France-BioImaging produit des donneacutees drsquoimages dans un large panel de modegraveles biologiques ( de la cellule unique au petit animal en condition pathologique ) Les diffeacuterents nœuds de lrsquoinfrastructure produisent annuellement 2 Peacutetaoctets de donneacutees avec des donneacutees par projet unitaire de 100 Go agrave 10 To Le flux de donneacutees neacutecessite de laisser les systegravemes de stockage au plus pregraves des systegravemes drsquoacquisition et des moyens de calcul Il est eacutegalement plus efficace de deacuteplacer les algorithmes et logiciels drsquoanalyse au plus pregraves des donneacutees France-BioImaging a deacuteveloppeacute une solution laquo pilote raquo open source de gestion des donneacutees images qui se precircte agrave cette infrastructure distribueacutee ( httpsstrandlsgithubioopenimadis )

Pour reacutepondre aux besoins bioinformatiques engendreacutes par ces quantiteacutes croissantes de donneacutees de nature tregraves diffeacuterente lrsquoInstitut Franccedilais de Bioinformatique ( IFB ) projet laureacuteat de la seconde vague des appels du PIA ( 2012-2019 ) a eacuteteacute mis en place en 2013 Il est

organiseacute en six centres reacutegionaux ( APLIBIO IFB-GO IFB-SO IFB-GS PRABI et IFB-NE ) qui sont des regroupements de plateformes et drsquoeacutequipes de recherche en bioinformatique et en un nœud national ( IFB-core ) qui a une structure de type UMS IFB-core est localiseacute aujourdrsquohui agrave lrsquoIDRIS ( Orsay ) qui heacuteberge aussi les moyens de calcul de lrsquoIFB Sa mission geacuteneacuterale est de fournir des ressources de base et des services en bio-informatique agrave la communauteacute des sciences de la vie autrement dit

bull Fournir un appui aux programmes de la communauteacute des sciences du vivant

bull Mettre agrave disposition une infrastructure informatique deacutedieacutee agrave la gestion et lrsquoanalyse des donneacutees biologiques

bull Agir comme un laquo intermeacutediaire raquo entre la communauteacute des sciences du vivant et celle de la recherche en ( bio )informatique

LrsquoIFB est le nœud franccedilais du reacuteseau europeacuteen ELIXIR et participe agrave de nombreuses actions et projets de cette infrastructure en termes de deacutefinition de standards et drsquoontologies de contribution agrave la FAIRication des donneacutees ( Findable Accessible Interoperable Reusable ) de mise en place de formation ( e-learning )

Dans sa nouvelle feuille de route lrsquoIFB a deacutecideacute de renforcer les liens avec les autres infrastructures ndashomiques ( c-agrave-d service agrave la communauteacute ) et de deacutevelopper un axe drsquoinnovation de laquo bioinformatique inteacutegrative raquo agrave travers la mise en place de projets pilotes transverses puis dans un second temps drsquoappels agrave deacutefis Le constat global est que le verrou majeur de la production scientifique et donc de sa compeacutetitiviteacute se situe largement du cocircteacute de la gestion de la diffusion et de lrsquointerpreacutetation des donneacutees geacuteneacutereacutees au sein de ces infrastructures LrsquoIFB a un rocircle majeur agrave jouer dans lrsquoaccompagnement de ces besoins en mettant au service de ces infrastructures ses ressources et savoir-faire dans le domaine des technologies du numeacuterique pour la biologie et la santeacute

LrsquoIFB va donc amplifier ces collaborations transversales au service des infrastructures productrices de donneacutees autour de trois axes

bull Mise en place de lrsquoinfrastructure de stockage distribueacute des donneacutees massives et leur mise agrave disposition

bull Mise en place de meacutethodes associeacutees de lrsquointeacutegration de ces donneacutees heacuteteacuterogegravenes et du data mining

34

Livre Blanc sur les Donneacutees au CNRS Eacutetat des Lieux et Pratiques - 2018

bull Deacuteveloppement drsquooutils drsquointerpreacutetation et de visualisation de donneacutees biologiques pour accroicirctre leur utiliteacute et faciliter leur interpreacutetation

Compareacute aux traitements des donneacutees en physique chimie sciences de la Terre etc le traitement des donneacutees biologiques ( notamment lrsquoanalyse des seacutequences ) revecirct plusieurs caracteacuteristiques tregraves diffeacuterentes qui expliquent lrsquoutilisation faible des grands centres de calcul nationaux par cette communauteacute ( i ) beaucoup drsquoanalyses de donneacutees sont distribuables ( paralleacutelisables au niveau les donneacutees ) ( ii ) elles neacutecessitent des enchaicircnements de traitements diffeacuterents ( pipelines workflows ) lrsquoutilisation de collections de donneacutees reacuteguliegraverement mises agrave jour et lrsquointeacutegration de donneacutees heacuteteacuterogegravenes ( iii ) dans la pratique une grande varieacuteteacute de langages est utiliseacutee ( Perl Python Java ) et les nombreux logiciels employeacutes ( c-agrave-d 98 logiciels drsquoalignement de lectures sur un geacutenome ) ont souvent beaucoup de deacutependances ( bibliothegraveques versions ) Typiquement une plateforme de bio-informatique met agrave disposition plusieurs centaines de logiciels diffeacuterents La mise en œuvre de ces logiciels neacutecessite le deacuteveloppement drsquointerfaces conviviales ( web GUI ) de suivre lrsquoeacutevolution tregraves rapide des technologies de production de donneacutees et de mettre agrave jour de faccedilon tregraves reacuteguliegravere de nombreuses collections de donneacutees

A titre drsquoillustration la premiegravere version de la banque de donneacutees de familles de domaines proteacuteiques ProDom a eacuteteacute distribueacutee en 1994 en utilisant comme source primaire de donneacutees celles de la banque UniProtKB ( Swiss-Prot + TrEMBL ) La construction de ProDom srsquoeffectue en deux temps geacuteneacuteration des familles proprement dites puis post-traitements et annotation des familles La construction des familles srsquoeffectue par clustering de segments homologues de proteacuteines Initialement les traitements reposaient sur MkDom2 un algorithme reacutecursif en O( n2 ) baseacute sur lrsquoutilisation du programme PSI-BLAST ProDom en 2002 neacutecessitait 2 mois de temps CPU puis 15 mois en 2006 pour passer agrave plus de 20 anneacutees de temps CPU en 2020 On voit bien ici la neacutecessiteacute de repenser la meacutethode en introduisant une paralleacutelisation des calculs et une compression des donneacutees A partir de lagrave un nouvel algorithme MPI-MkDom3 a eacuteteacute introduit avec diverses ameacuteliorations dont une paralleacutelisation agrave base de MPI La construction des familles de ProDom 2010 avec cette nouvelle version prend moins drsquoune semaine aujourdrsquohui au lieu de plus de 20 ans Les diverses optimisations reacutealiseacutees ont imposeacute entre autres de prendre en compte les probleacutematiques de lrsquoeacutequilibrage de charge entre les processeurs et ont conduit au deacuteveloppement de Paraload un outil drsquoeacutequilibrage de charge dynamique agrave base de modegravele client-serveur

Cette illustration constitue un exemple drsquoutilisation de donneacutees massives en biologie qui neacutecessite des temps de calcul tregraves importants et dont la valeur ajouteacutee provient des reacutesultats des calculs effectueacutes sur les donneacutees laquo brutes raquo que sont les seacutequences proteacuteiques

On peut ainsi constater que la bioinformatique a eu tendance par le passeacute agrave deacutevelopper ses propres infrastructures et affiche une faible utilisation des centres de calcul HPC ( excepteacute pour les simulations de dynamique moleacuteculaire ) De mecircme lrsquoutilisation des meacutesocentres reacutegionaux reste modeacutereacutee Cependant la communauteacute est consciente des difficulteacutes de passage agrave lrsquoeacutechelle des plateformes de bioinformatique et explore lrsquointeacuterecirct de lrsquoutilisation de la grille avec le projet GRISBI sur Grenoble et srsquoimplique dans le deacuteveloppement drsquoun Cloud acadeacutemique ( avec le soutien de lrsquoIBCP de GenOuest et de lrsquoIFB ) qui repose sur les infrastructures nationales de lrsquoIFB et les plateformes reacutegionales Ces plateformes de bioinformatique fournissent un accegraves gratuit agrave leurs infrastructures soit environ 10 000 cœurs et 1 Po de stockage ( sur 20 localisations diffeacuterentes ) alors que le nœud national de lrsquoIFB heacutebergeacute agrave lrsquoIDRIS apporte de lrsquoordre de 10 000 cœurs et 2 Po de stockage

243 Conclusion

Lrsquoensemble de la biologie est impacteacute par la disponibiliteacute des meacutethodes agrave haut deacutebit qui induisent des changements profonds dans les pratiques ( objectifs plans expeacuterimentaux ) Toute analyse neacutecessite deacutesormais de disposer de moyens de calcul conseacutequents ( validations statistiques ) qui doivent ecirctre disponibles aussi bien au niveau national que local

On assiste agrave un veacuteritable changement de paradigme au sein de la biologie avec un besoin deacutecroissant en techniciens sur les paillasses et croissant en analystes de donneacutees qui sont actuellement une denreacutee rare

Il y a obligation de deacutevelopper de nouvelles approches pour la gestion le partage et le traitement des donneacutees en franchissant le seuil de la paralleacutelisation des calculs et en travaillant sur la reacuteduction de la taille des jeux de donneacutees ( eacutechantillonnage compression clustering )

Du point de vue des infrastructures -omiques en compleacutement du rapprochement existant aupregraves de lrsquoinfrastructure national de lrsquoIFB il faudrait inciter les plateformes reacutegionales agrave srsquoappuyer plus fortement sur les meacutesocentres de calcul

INSB

35

Livre Blanc sur les Donneacutees au CNRS Eacutetat des Lieux et Pratiques - 2018

25 INSTITUT DES SCIENCES HUMAINES ET SOCIALES ( INSHS )

251 Introduction

Les donneacutees sont devenues au niveau international un facteur cleacute pour nombre de disciplines SHS ainsi qursquoun domaine en soi Les donneacutees sont une matiegravere convoiteacutee pour la recherche en SHS comme pour drsquoautres secteurs drsquoactiviteacute Produire diffuser tirer de la connaissance des donneacutees est donc une question strateacutegique pour lrsquoInSHS

LrsquoInSHS regroupe des disciplines dans lesquelles les analyses quantitatives baseacutees sur des jeux importants de donneacutees sont depuis longtemps fondamentales ( lrsquoeacuteconomie la sociologie la deacutemographie ) et drsquoautres qui sans ignorer lrsquousage des donneacutees ont vu de maniegravere plus reacutecente lrsquoeacutemergence de probleacutematiques propres au data driven ( litteacuterature histoire )

Une des caracteacuteristiques majeures de la donneacutee en SHS reacuteside dans la tregraves grande heacuteteacuterogeacuteneacuteiteacute des types de donneacutees utiliseacutes par les chercheurs qui vont des donneacutees agreacutegeacutees de la statistique publique jusqursquoagrave des corpus textuels ou drsquoimages en passant par les donneacutees individuelles et nominatives ou pour lrsquoarcheacuteologie par des donneacutees 3D

Cette heacuteteacuterogeacuteneacuteiteacute est renforceacutee par le fait que les chercheurs en SHS disposent de donneacutees de deux origines principales les donneacutees qursquoils ont produites par eux-mecircmes mais aussi de donneacutees produites par la socieacuteteacute comme les donneacutees fournies par la statistique publique ainsi que par le mouvement drsquoopen data ou les corpus fournis par les bibliothegraveques qui peuvent ecirctre interrogeacutes ou combineacutes de maniegravere novatrice

Lrsquoapparition de ces vastes corpus de sources par exemple archeacuteologiques artistiques ou textuelles ou la constitution de grandes bases de donneacutees donnant accegraves aux comportements personnels et sociaux des personnes dans une vaste gamme de domaines modifient en effet la maniegravere dont les chercheurs SHS abordent les objets scientifiques sur lesquels ils travaillent elles leur donnent accegraves agrave un ensemble drsquoinformations qui peuvent ecirctre fouilleacutees automatiquement et appareilleacutees les unes aux autres elles permettent de construire de nouvelles modaliteacutes de validation scientifique agrave cocircteacute des techniques fondeacutees sur lrsquoeacutechantillonnage lrsquoeacutetude de cas ou encore

la veacuterification drsquohypothegraveses ou de theacuteories construites indeacutependamment des donneacutees Ces nouvelles pratiques reacuteinterrogent les cateacutegorisations et grilles drsquoanalyse SHS en mecircme temps qursquoelles posent une seacuterie de questions de nature eacutethique degraves qursquoil srsquoagit de donneacutees individuelles

Cette datafication des sciences sociales et des humaniteacutes est un fait dont les implications ne sont pas toujours bien appreacutehendeacutees par les communauteacutes Elle impose des contraintes nouvelles reacuteflexion sur les standards plan de gestion des donneacutees promulgation de bonnes pratiques prise de recul meacutethodologique et eacutepisteacutemologique LrsquoInSHS agrave travers diffeacuterents dispositifs srsquoemploie agrave diffuser ces bonnes pratiques

Cela passe par un travail de diffusion des probleacutematiques des meacutethodologies lieacutees agrave lrsquousage des donneacutees au sein des diverses communauteacutes scientifiques Cela passe aussi par une articulation forte entre les dispositifs de production drsquoarchivage et de traitement des donneacutees et les communauteacutes scientifiques susceptibles de les utiliser en particulier par le biais de relais locaux sur les sites notamment par les MSH

252 Le dispositif des TGIR SHS

Pour reacutepondre agrave ces deacutefis eacuteviter la dispersion et lrsquoobsolescence des donneacutees produites accompagner les eacutequipes et les chercheurs lrsquoInSHS srsquoappuie sur les deux TGIR SHS dont le CNRS a eacuteteacute deacutesigneacute opeacuterateur par le MESRI la TGIR Huma-Num en charge des humaniteacutes numeacuteriques et la TGIR Progedo en charge de lrsquoaccegraves aux donneacutees de sciences sociales ( statistique publique donneacutees drsquoenquecirctes )

Les deux TGIR se situent agrave lrsquoarticulation des dispositifs europeacuteens de donneacutees en SHS et des dispositifs sur les sites destineacutes agrave favoriser et agrave promouvoir lrsquoaccegraves aux donneacutees de sciences sociales et aux humaniteacutes numeacuteriques

36

Livre Blanc sur les Donneacutees au CNRS Eacutetat des Lieux et Pratiques - 2018

INSHS

Huma-Num

Lrsquoaction de la TGIR Huma-Num ( UMS du CNRS ) est de faciliter le laquo tournant numeacuterique raquo de la recherche en sciences humaines et sociales dans la production et la reacuteutilisation de donneacutees numeacuteriques Il srsquoagit de

bull Deacutevelopper lrsquoappropriation par les communauteacutes scientifiques du cycle de vie des donneacutees numeacuteriques

bull Proposer des services pour les donneacutees au juste niveau et au bon moment

Huma-Num srsquoorganise autour drsquoun certain nombre drsquooutils et de services de projets de recherche de consortiums et de reacuteseaux europeacuteens comme indiqueacute dans la figure ci-dessous

LrsquoUMS Huma-Num est localiseacutee agrave Paris et agrave Lyon au CC-IN2P3 depuis 10 ans

Elle propose un ensemble de services pour les donneacutees numeacuteriques produites en SHS avec des partenariats avec le CC IN2P3 le CINES ( Centre Informatique National de lrsquoEnseignement Supeacuterieur ) et le CCSD ( Centre pour la Communication Scientifique Directe )

A chaque eacutetape du cycle de vie des donneacutees correspond un service deacutedieacute par exemple iRods pour le stockage en coopeacuteration avec le CC-IN2P3 des logiciels drsquoanalyse de donneacutees et de gestions de bases de donneacutees un ensemble drsquooutils de diffusion sur le Web ( p ex pack Nakalona et service de machines virtuelles ) un service drsquoarchivage agrave long terme avec le CINES un service de signalement des donneacutees avec ISIDORE et un service drsquoexposition de donneacutees NAKALA

A cocircteacute de cet ensemble de services Huma-Num seacutelectionne finance et accompagne des consortiums au nombre de 8 agrave 12 destineacutes agrave favoriser lrsquoeacutemergence ou lrsquoimpleacutementation drsquooutils au plus pregraves des besoins des communauteacutes disciplinaires Actuellement les 10 consortiums de Huma-Num repreacutesentent

bull 120 eacutequipes de recherche ( UMR EA )

bull Un reacuteseau de + de 300 chercheurs ingeacutenieurs etc

bull Plus de 50 actions publiques ( formations ateliers seacuteminaireshellip )

Entre 2011 et 2015 plus de 230 actions de coordination nationales dans 16 disciplines majeures des SHS ont eacuteteacute meneacutees plus de 350 fonds drsquoarchivescorpus mis aux normes mis agrave disposition etou signaleacutes 500000 documents issus drsquoarchives scientifiques ont eacuteteacute mis en open access

37

Livre Blanc sur les Donneacutees au CNRS Eacutetat des Lieux et Pratiques - 2018

Enfin Huma-Num constitue la brique franccedilaise de deux dispositifs drsquoinfrastructures europeacuteennes de recherche ( ERIC European Research Infrastructure Consortium ) lieacutees aux donneacutees

bull DARIAH-EU ( Digital Research Infrastructure for the Arts and Humanities )

bull CLARIN ( European Research Infrastructure for Language Resources and Technology )

Un certain nombre drsquooutils deacuteveloppeacutes par Huma-Num sont aujourdrsquohui impleacutementeacutes au niveau europeacuteen via diffeacuterents programmes H2020 en relation avec ces deux ERIC La TGIR dispose donc drsquoune reconnaissance internationale attesteacutee par de nombreuses demandes drsquoexpertise ou de coopeacuteration venues des ERIC et de diffeacuterents pays ( Queacutebec Argentine )

Progedo

La TGIR Progedo opeacutereacutee par lrsquoUMS Progedo ( CNRS-Ehess ) est lrsquoacteur central en matiegravere de production et de gestion de donneacutees en sciences sociales Lrsquoinfrastructure a pour mission de hausser le niveau de structuration nationale des communauteacutes de recherche en deacuteployant une strateacutegie de deacuteveloppement entre les organismes de recherche les grands eacutetablissements et les universiteacutes et de renforcer la position de la France dans lrsquoespace europeacuteen de la recherche

Pour ce faire Progedo organise lrsquoappui agrave la collecte agrave la documentation agrave la preacuteservation et agrave la promotion drsquoun vaste ensemble de donneacutees neacutecessaires aux disciplines des sciences humaines et sociales dans un cadre conforme agrave la leacutegislation et la regraveglementation en vigueur concernant la protection des donneacutees individuelles Elle favorise la diffusion de ces donneacutees pour la recherche soutient la reacutealisation de grandes enquecirctes et bases de donneacutees repreacutesentatives neacutecessaires agrave la recherche et participe agrave la mise en place des dispositifs seacutecuriseacutes drsquoaccegraves aux donneacutees individuelles

38

Livre Blanc sur les Donneacutees au CNRS Eacutetat des Lieux et Pratiques - 2018

Progedo constitue la tecircte de reacuteseau de diffusion nationale des donneacutees produites Elle srsquoappuie actuellement sur quatre entiteacutes

bull Deux eacutequipes lieacutees au CNRS

o lrsquoADISP qui met agrave disposition les donneacutees de la statistique publique agreacutegeacutees

o le CDSP avec Sciences Po Paris qui deacuteploie la mise agrave disposition des donneacutees produites par les chercheurs en sciences politiques principalement

bull Le service des enquecirctes de lrsquoINED

bull LrsquoEquipex CASD porteacute par le GENES ( INSEE ) pour lrsquoaccegraves seacutecuriseacute aux donneacutees en particulier aux donneacutees individuelles en les anonymisant

Progedo est la seule structure nationale de mise agrave disposition des donneacutees en sciences sociales Elle est construite comme une ombrelle destineacutee agrave couvrir tout le champ neacutecessaire autour des donneacutees drsquoenquecirctes pour la recherche Elle srsquoorganise en quatre deacutepartements qui correspondent agrave quatre grands types de donneacutees en sciences sociales

Ces quatre deacutepartements regroupent les activiteacutes correspondant agrave trois ERIC

bull CESSDA ( donneacutees de la recherche et de la statistique publique )

bull ESS ( donneacutees de sciences politiques et enquecirctes drsquoopinion )

bull SHARE ( donneacutees de santeacute )

et un ERIC en projet GGP ( relations familiales approches longitudinales des dynamiques familiales )

En tant que structure de coordination son peacuterimegravetre peut donc ecirctre appeleacute agrave srsquoeacutetendre agrave drsquoautres types de donneacutees de sciences sociales Cette position surplombante assure agrave terme la coheacuterence de lrsquoensemble des dispositifs franccedilais de mise agrave disposition des donneacutees et leur parfaite articulation avec un eacutechelon europeacuteen dont les contours sont encore agrave deacutefinir Progedo est donc destineacutee agrave ecirctre le relais franccedilais vis-agrave-vis de toutes les infrastructures europeacuteennes de donneacutees de sciences sociales existantes et agrave venir Cette organisation qui donne une visibiliteacute sur tous les dispositifs ERIC centres de compeacutetences et services nationaux ne se retrouve pas ailleurs en Europe et est un atout face agrave des modes drsquoorganisation nationaux geacuteneacuteralement plus cloisonneacutes geacuteneacuterateurs de coucircts suppleacutementaires et de doublons et un paysage europeacuteen des donneacutees non stabiliseacute

INSHS

PLATES-FORMES UNIVERSITAIRES DE DONNEacuteESavec le RnMSH les MSH et Universiteacutes de Lille Caen Lyon Nantes Strasbourg Dijon

ANIMATION SCIENTIFIQUE

PRODUCTIONENQUEcircTE

DEPARTEMENT GGP-FRANCE

DIFFUSION

ANIMATION SCIENTIFIQUE

DEPARTEMENT QUETELET PROGEDO DIFFUSION(Cessda - FranCe)

ANIMATION SCIENTIFIQUE

PRODUCTIONENQUEcircTE

DEPARTEMENT ESS-FRANCE

ANIMATION SCIENTIFIQUE

PRODUCTIONENQUEcircTE

DEPARTEMENT SHARE-FRANCE

UMS PROGEDO ANIMATION GEacuteNEacuteRALE

CONSEIL SCIENTIFIQUE

COMITEacute DE PILOTAGE

tutelles EHESSCNRS

39

Livre Blanc sur les Donneacutees au CNRS Eacutetat des Lieux et Pratiques - 2018

Implanteacutee en reacutegion gracircce agrave ses plateformes universitaires de donneacutees ( PUD ) Progedo est un acteur essentiel pour la formation agrave lrsquousage des donneacutees de la recherche Ces PUD sont des portes drsquoentreacutee dans le monde des donneacutees pour des publics parfois tregraves eacuteloigneacutes par leur parcours universitaire et leurs pratiques scientifiques des techniques statistiques Avec la mise en reacuteseau des PUD la TGIR srsquoattache agrave deacutevelopper conjointement lrsquoaccegraves aux ressources et agrave la compeacutetence collective des utilisateurs une double condition neacutecessaire pour permettre agrave la France drsquoecirctre au bon niveau international Les PUD installeacutees au sein des communauteacutes sur les sites universitaires dans les MSH lieu de deacutecloisonnement par excellence constituent un levier essentiel Lrsquoobjectif est drsquoouvrir 20 nouvelles PUD dans les trois ans 9 le sont actuellement

Articulation avec les autres producteursdiffuseur de donneacutees

Le dispositif de donneacutees SHS se construit autour de ces deux pocircles majeurs que sont Huma-Num et Progedo mais aussi en articulation avec une seacuterie drsquoautres infrastructures ou de dispositifs qui soit mettent agrave disposition des donneacutees soit assurent leur diffusion aupregraves des communauteacutes de recherche Les TGIR travaillent donc agrave favoriser la conservation agrave garantir lrsquointeropeacuterabiliteacute le moissonnage la diffusion de donneacutees ou de standards produits par drsquoautres infrastructures de nature speacutecifique telles que

bull Open Edition

bull Perseacutee

bull la chaicircne eacuteditoriale XML-TEI METOPES19

Les deux TGIR sont donc fortement articuleacutees autour de ces 3 IR inscrites sur la feuille de route nationale des infrastructures

Elles travaillent eacutegalement en eacutetroite collaboration avec les 23 MSH reacuteparties sur les sites ougrave elles trouvent des relais efficaces agrave la fois pour la mise agrave disposition des donneacutees la diffusion de la pratique des donneacutees et du numeacuterique dans les communauteacutes de chercheurs

19 httpwwwunicaenfrrecherchemrshdocument_numeriqueprojetsmetopes

253 Conclusion

Les enjeux pour lrsquoInSHS en matiegravere de donneacutees sont au moins au nombre de quatre

- Organiser des dispositifs de gestion des donneacutees qui assurent leur peacuterenniteacute leur interopeacuterabiliteacute et leur large diffusion et qui tiennent compte en mecircme temps de la tregraves grande varieacuteteacute des types de donneacutees SHS

- Encourager le tournant numeacuterique et conduire les chercheurs agrave prendre la mesure du tournant eacutepisteacutemologique que constitue le deacuteveloppement des donneacutees pour tous les champs disciplinaires SHS Il srsquoagit de deacutevelopper dans les communauteacutes une laquo culture de la donneacutee raquo propre agrave reacutesoudre ce paradoxe qui fait que la France est un des plus importants producteurs de donneacutees ( du fait notamment de lrsquoancienneteacute de sa statistique publique ) mais qursquoelles sont sous-utiliseacutees par ses chercheurs

- Contribuer agrave aider la socieacuteteacute agrave construire des reacuteponses adapteacutees aux deacutefis poseacutes par la constitution de grandes bases de donneacutees dont les possibiliteacutes de traitement automatique drsquoappariement et de croisement interrogent les dispositifs de protection des donneacutees personnelles les liberteacutes individuelles et le droit agrave la vie priveacutee Ce rocircle doit ecirctre mieux identifieacute par les speacutecialistes des autres sciences et par les deacutecideurs publics

- Contribuer au deacuteveloppement des initiatives autour de lrsquoopen data et agrave la reacuteflexion sur leurs impacts sur les sciences et sur la socieacuteteacute qui sont au cœur de la strateacutegie nationale de recherche ( Deacutefi 7 Socieacuteteacute de lrsquoinformation et de la communication - Orientation 25 Systegravemes sucircrs drsquoexploitation des grandes masses de donneacutees Deacutefi 8 Socieacuteteacutes innovantes inteacutegratives et adaptatives - Orientation 29 Seacutecurisation et optimisation de lrsquoextraction des donneacutees )

40

Livre Blanc sur les Donneacutees au CNRS Eacutetat des Lieux et Pratiques - 2018

26 INSTITUT DES SCIENCES DE LrsquoINGENIERIE ET DES SYSTEMES ( INSIS )

261 Introduction

LrsquoInstitut des Sciences de lrsquoIngeacutenierie et des Systegravemes ( INSIS ) rassemble environ 6000 chercheurs et enseignants-chercheurs ( dont 961 chercheurs CNRS et 5026 enseignants-chercheurs ) reacutepartis dans une centaine drsquouniteacutes de recherche Ses theacutematiques couvrent une partie des sections 4 ( fusion par confinement magneacutetique ITER ) 7 ( signal image automatique robotique ) 30 ( bio ingeacutenierie ) la totaliteacute des sections 8 ( micro et nano-technologies eacutelectronique photonique eacutelectromagneacutetisme eacutenergie eacutelectrique ) 9 ( ingeacutenierie des mateacuteriaux et des structures meacutecanique des solides acoustique ) et 10 ( milieux fluides et reacuteactifs transports transferts proceacutedeacutes de transformation ) du Comiteacute National

LrsquoInstitut est donc multi-theacutematiques et comporte de nombreuses disciplines qui utilisent agrave peu pregraves toutes lrsquooutil de simulation Cependant les ingeacutenieurs se sont lanceacutes tregraves tocirct dans la simulation avec des moyens et des deacuteveloppements algorithmiques propres adapteacutes aux laquo systegravemes raquo ce qui fait que les pratiques en matiegravere de simulation sont heacuteteacuterogegravenes Il y a notamment une asymeacutetrie entre la proportion de recherche impliquant la simulation en meacutecanique des fluides au sens large ( incluant la combustion ) et les autres disciplines

En ingeacutenierie des systegravemes la numeacuterisation entre en jeu non seulement pour la simulation mais pour les expeacuteriences ou les modegraveles ainsi les donneacutees numeacuteriques sont manipuleacutees dans de nombreux contextes En voilagrave quelques-uns agrave titre drsquoexemple

bull Capteurs en reacuteseau les eacutechanges drsquoinformation issus de mesures provenant de diffeacuterents capteurs notamment pour le controcircle des systegravemes neacutecessitent des techniques et algorithmes speacutecifiques de gestion de flots de donneacutees ainsi que pour le post-traitement des masses de donneacutees qursquoil srsquoagit aussi de stocker ou archiver

bull Reacuteseaux en geacutenie eacutelectrique des probleacutematiques similaires de mise en place de strateacutegies de gestion des donneacutees pour la production et la distribution de lrsquoeacutenergie eacutelectrique

bull Meacutecanique pour le vivant cela concerne lrsquoimagerie meacutedicale pour les tissus vivants avec de nombreuses questions pour les donneacutees concernant leur qualiteacute leur stockage leur confidentialiteacute Des volumes de donneacutees importants peuvent ecirctre produits notamment en eacutelastographie transitoire baseacutee sur le couplage drsquoun prototype drsquoimagerie eacutechographique capable drsquoatteindre des cadences eacutechographiques supeacuterieures agrave 5000 images par seconde

bull Acoustique il srsquoagit principalement des questions drsquoingeacutenierie des ondes acoustiques concernant leur propagation et transmission mais les donneacutees en aeacuteroacoustique ont un lien direct avec la meacutecanique des fluides et cette theacutematique est aussi relieacutee avec la meacutecanique des vibrations au travers de lrsquointeraction fluide-structure

bull Meacutecanique des solides structures et mateacuteriaux la prise en compte des non lineacuteariteacutes comportementales des mateacuteriaux dans les meacutethodes de changement drsquoeacutechelle est effectueacutee au moyen de modeacutelisations theacuteoriques associeacutees agrave des outils numeacuteriques innovants ( eacuteleacutements finis eacutetendus transformations de Fourier rapides ou FFT techniques de reacuteduction de modegraveles etc ) Pour les mateacuteriaux et les structures les mesures de deacuteplacement ou de champs sont de nos jours baseacutees sur de lrsquoimagerie 2D et 3D notamment en tomographie avec des techniques multiples utilisant la lumiegravere visible les infrarouges les rayons X etc Ceci est tout particuliegraverement utile pour le controcircle des deacutefauts ou de lrsquousure des mateacuteriaux

bull Meacutecanique des fluides la theacutematique couvre tous les pheacutenomegravenes fluides agrave toutes les eacutechelles allant de la microfluidique aux eacutechelles geacuteophysiques et astrophysiques Les simulations numeacuteriques directes notamment en turbulence qui y sont reacutealiseacutees sont parmi les plus consommatrices de temps de calcul et productrices de donneacutees comme illustreacute plus en deacutetail ci-apregraves

INSIS

41

Livre Blanc sur les Donneacutees au CNRS Eacutetat des Lieux et Pratiques - 2018

On se rend donc bien compte que les questions scientifiques agrave lrsquoINSIS portent sur des probleacutematiques multi-physiques qui sont reacutesolues numeacuteriquement par lrsquoapplication drsquoalgorithmes pour le calcul haute performance crsquoest-agrave-dire le calcul parallegravele mais aussi le Cloud computing Le passage agrave lrsquoeacutechelle pour des systegravemes complexes reacuteels en ingeacutenierie neacutecessite ainsi une hieacuterarchie drsquoapplications qui permet en outre drsquoaborder explicitement les aspects multi-eacutechelles Les systegravemes multi-physiques neacutecessitent notamment le couplage entre codes de nature diffeacuterente Crsquoest la probleacutematique geacuteneacuterique des intergiciels ( parmi lesquels les logiciels de couplage comme OpenPALM ) mais ceci introduit la difficulteacute suppleacutementaire poseacutee par lrsquoheacuteteacuterogeacuteneacuteiteacute des donneacutees agrave stocker et agrave analyser

Lrsquoinstitut est donc un des principaux utilisateurs du calcul haute performance au CNRS comme lrsquoattestent notamment les attributions drsquoheures de calcul par GENCI dans deux comiteacutes theacutematiques parmi dix concernant seacutepareacutement les eacutecoulements reacuteactifs drsquoune part et les eacutecoulements non reacuteactifs drsquoautre part

Ce poids de lrsquoINSIS cache en fait une tregraves grosse dispariteacute selon les theacutematiques plus de 90 des ressources sur les centres nationaux sont consommeacutees par la meacutecanique des fluides au sens large du terme deacutefinie ici comme reacutesolution des eacutequations de Navier-Stokes et des eacutequations associeacutees ( meacutecanique des fluides combustion eacutecoulements diphasiques transferts thermiques plasmas magneacutetohydrodynamique aeacuteroacoustique transport seacutedimentairehellip ) par un petit nombre de laboratoires ( moins drsquoune dizaine ) et de chercheurs rattacheacutes pour la plupart agrave la section 10 du Comiteacute National Les communauteacutes laquo meacutecanique des solides raquo et laquo mateacuteriaux et structures raquo bien que revendiquant une activiteacute calcul intensif sont absentes un seul projet tandis que les quelques projets interaction fluidestructure sont le fait de laboratoires nettement identifieacutes laquo meacutecanique des fluides raquo Les projets restants concernent lrsquoeacutelectromagneacutetisme lrsquointeraction lasermatiegravere et la chimie ( calculs ab-initio diagramme de phasehellip )

262 La probleacutematique des donneacutees agrave lrsquoINSIS

La probleacutematique des donneacutees agrave lrsquoINSIS est donc principalement lieacutee agrave la gestion des gros volumes de donneacutees qui sont produits dans le domaine de la simulation numeacuterique et a pour enjeux

bull La modeacutelisation de pheacutenomegravenes avec eacutevolution dans le temps ce qui implique quatre dimensions agrave traiter pour des pheacutenomegravenes spatiaux tridimensionnels ( 3D )

bull Le caractegravere aleacuteatoire de certains comportements qui neacutecessite donc une approche probabiliste La repreacutesentation fidegravele de ces pheacutenomegravenes dans toute leur variabiliteacute reacuteclame de nombreuses reacutealisations drsquoune mecircme expeacuterience ou simulation drsquoougrave la neacutecessiteacute drsquoun stockage et drsquoun traitement statistique a posteriori

bull La visualisation de pheacutenomegravenes complexes multidimensionnels passe par un rendu visuel pour une compreacutehension des pheacutenomegravenes instationnaires avec plus ou moins de reacutealisme dans le rendu spatial En revanche la simulation en temps reacuteel de pheacutenomegravenes rapides nrsquoest que tregraves rarement possible Ainsi le suivi de calculs instationnaires passe par la mise en place de techniques de visualisation agrave la voleacutee qui ne permettent qursquoune observation partielle de lrsquoinstationnariteacute

bull Lrsquoadaptation des codes aux nouveaux algorithmes lieacutes agrave lrsquoeacutevolution technologique et aux nouvelles architectures mateacuterielles notamment les acceacuteleacuterateurs de type GPU dont lrsquoutilisation requiert une adaptation des formats de repreacutesentation des donneacutees internes au calculateur afin de tirer parti de lrsquoarchitecture vectorielle du processeur

bull La creacuteation de formats drsquoenregistrement de donneacutees non seulement compatibles avec la nature de celles-ci selon les disciplines mais aussi lrsquoutilisation de formats compatibles avec des entreacutees-sorties adapteacutees agrave des transferts massifs de champs en simultaneacute par des dizaines voire des centaines de milliers de processeurs dans le cadre de systegravemes de fichiers paralleacuteliseacutes

42

Livre Blanc sur les Donneacutees au CNRS Eacutetat des Lieux et Pratiques - 2018

263 Illustration la question des donneacutees en meacutecanique des fluides

Comme mentionneacute en introduction la meacutecanique des fluides inertes et reacuteactifs repreacutesente une partie tregraves importante dans la production de donneacutees au travers drsquoune repreacutesentation majoritaire des heures de calcul sur les calculateurs nationaux au niveau Tier 1

La simulation produit ainsi des quantiteacutes importantes de donneacutees mais il en va de mecircme pour certaines expeacuteriences dans lesquelles la meacutetrologie a fait un tel progregraves qursquoelle aboutit agrave des volumes de donneacutees aussi importants que les plus grosses simulations Il srsquoagit par exemple de la technique de veacutelocimeacutetrie par imagerie de particules ( Digital Particle Image Velocimetry ou DPIV ) qui permet agrave preacutesent drsquoacqueacuterir agrave des freacutequences tregraves eacuteleveacutees des champs de vitesse reacutesolus spatialement et en temps Les expeacuteriences utilisent des cameacuteras rapides agrave haute reacutesolution et haute freacutequence qui enregistrent les donneacutees brutes directement sur des systegravemes de meacutemoires rapides ( disques de type SSD ) agrave la voleacutee Une seule expeacuterience est capable de produire en une journeacutee jusqursquoagrave 400 To de donneacutees

De mecircme les simulations numeacuteriques directes en turbulence utilisent des algorithmes pseudo-spectraux agrave mecircme de repreacutesenter toutes les eacutechelles drsquoun eacutecoulement Si la puissance actuelle des calculateurs ne permet pas encore de couvrir des gammes drsquoeacutechelles aussi larges que celles rencontreacutees dans les eacutecoulements geacuteophysiques mdash allant du centimegravetre agrave des centaines de kilomegravetres pour lrsquoatmosphegravere mdash les reacutesolutions les plus grandes possible sont rechercheacutees pour une bonne repreacutesentation des pheacutenomegravenes de transfert drsquoeacutenergie et de dispersion Des simulations utilisant des maillages de 40963 points produisent un volume drsquoenviron 15To par iteacuteration de calcul qui se comptent en milliers pour repreacutesenter correctement les fluctuations rapides temporelles Ceci deacutepasse la capaciteacute de stockage alloueacutee agrave un utilisateur sur les grands centres de calcul nationaux Cette difficulteacute impose un stockage drsquoun petit nombre de champs pour lrsquoanalyse exhaustive des indicateurs statistiques des signaux et seules des statistiques choisies en petit nombre sont calculeacutees agrave la voleacutee afin de ne pas impacter la performance du calcul

Par ailleurs les instabiliteacutes hydrodynamiques qui peuvent se produire dans des eacutecoulements complexes utilisent des meacutethodes de continuation selon de nombreux paramegravetres relatifs agrave lrsquoinstabiliteacute eacutetudieacutee Lrsquoalgorithme de suivi est efficace srsquoil utilise

une infrastructure de grille de calcul qui permet drsquoeffectuer un tregraves grand nombre de calculs de taille reacuteduite chacun pour un jeu de paramegravetres diffeacuterents Ceci se reacutealise par le biais de reacuteseaux drsquointerconnexion au travers desquels sont envoyeacutes le code et les paramegravetres sur chaque nœud de calcul qui renvoient les reacutesultats agrave lrsquoissue de la simulation Plusieurs milliers de nœuds peuvent ecirctre impliqueacutes Cette technique est notamment utiliseacutee pour la stabiliteacute drsquoeacutecoulements cisailleacutes eacutetudieacutee gracircce aux moyens du CC-IN2P3 ougrave un environnement de calcul tregraves favorable adapteacute au traitement des donneacutees des collisionneurs est mis en œuvre

Plusieurs questions se posent concernant le statut et le devenir des donneacutees produites

- Quelle est la dureacutee de vie des donneacutees Par exemple concernant leur reacutealisation au niveau technique des simulations agrave reacutesolution 10243 avaient un caractegravere exceptionnel il y a 7 ans mais peuvent ecirctre reproduites aiseacutement avec les moyens actuels Faut-il donc stocker des donneacutees au-delagrave drsquoune peacuteriode relativement courte apregraves laquelle les moyens de calcul permettront leur reproduction agrave un coucirct neacutegligeable

- De nombreuses eacutequipes produisent des bases de donneacutees importantes en quantiteacute et en qualiteacute qui sont sous-exploiteacutees mais qui peuvent ecirctre utiles agrave une eacutequipe srsquointeacuteressant agrave la dynamique du fluide sous un point de vue diffeacuterent Comment peut-on eacuteviter de dupliquer les mecircmes expeacuteriences ou simulations Et dans une logique eacutetendue comment peut-on mettre ces donneacutees agrave disposition de la communauteacute scientifique globale Quelle dureacutee drsquoembargo doit-on imposer avant diffusion geacuteneacuterale

- Quelles sont alors les modaliteacutes de stockage et drsquoeacutechange agrave adopter Ceci pose agrave la fois la question du format des fichiers mais aussi des meacutetadonneacutees agrave lui associer

- Faut-il archiver des donneacutees et pour quelle peacuteriode

Au niveau national au-delagrave des stockages temporaires deacutedieacutes agrave des projets attributaires drsquoheures de calcul sur les grands centres nationaux ou meacutesocentres il nrsquoexiste pas agrave notre connaissance drsquoinitiative globale pour la gestion des donneacutees en meacutecanique des fluides En outre sur les grands centres les politiques de reacutetention de donneacutees et les capaciteacutes des serveurs ne permettent pas le stockage sur des longues dureacutees ou le partage large des donneacutees massives

INSIS

43

Livre Blanc sur les Donneacutees au CNRS Eacutetat des Lieux et Pratiques - 2018

Au niveau europeacuteen on peut mentionner la base de donneacutees Turbase ( httpsturbasecinecait ) qui porte sur les donneacutees en turbulence Cette base utilise lrsquoinfrastructure italienne CINECA situeacutee agrave Bologne qui est un des grands centres europeacuteens participant agrave PRACE20 Des moyens ont eacuteteacute alloueacutes par EuHIT ( projet europeacuteen visant principalement agrave deacutevelopper lrsquoouverture des expeacuteriences de grande taille en turbulence mais avec aussi un volet laquo donneacutees raquo ) pour deacutevelopper Turbase

Agrave lrsquointernational on peut mentionner la base ouverte agrave lrsquouniversiteacute de Johns Hopkins ( Baltimore Etat du Maryland aux USA httpturbulencephajhuedu ) qui outre le stockage et le partage des donneacutees brutes offre une fonctionnaliteacute suppleacutementaire pour extraire une sous-partie de lrsquoinformation ou produire des statistiques associeacutees

On constate cependant lrsquoabsence de standard commun drsquoorganisation des donneacutees ( ( usage de HDF5 VTK donneacutees brutes ou compresseacuteeshellip ) ou des meacutetadonneacutees qui permettent drsquoidentifier exactement la nature et la qualiteacute des donneacutees

20 Partnership for Advanced Computing in Europe ( httpwwwprace-rieu )

264 Conclusion

Lrsquoingeacutenierie srsquoest empareacutee tregraves tocirct de lrsquooutil de simulation avec un modegravele de deacuteveloppement de meacutethodes au niveau de chaque laboratoire voire eacutequipe notamment en meacutecanique des fluides Gracircce agrave une monteacutee en compeacutetence importante due agrave lrsquoattribution de moyens aux laboratoires acadeacutemiques agrave la fois humains et mateacuteriels ce modegravele a eacuteteacute favorable au deacuteveloppement drsquoune reacuteelle expertise en simulation La gestion des donneacutees a susciteacute moins de reacuteflexion et drsquoorganisation en profondeur ce qui fait que lrsquoaugmentation des capaciteacutes de simulation mdash et agrave preacutesent des nouvelles meacutetrologies expeacuterimentales mdash nrsquoa pas eacuteteacute suivie drsquoune augmentation des capaciteacutes de stockage de traitement et drsquoarchivage des donneacutees On se trouve agrave preacutesent dans une situation dans laquelle on est en capaciteacute de reacutealiser des simulations agrave tregraves haute reacutesolution sans savoir complegravetement en traiter les reacutesultats ni ougrave les entreposer

Il srsquoagit donc agrave preacutesent de faire progresser les structures fonctionnelles et mateacuterielles pour geacuterer le patrimoine scientifique que constituent les donneacutees issues de simulations numeacuteriques mais aussi de reacutealisations expeacuterimentales qui sont confronteacutees aux mecircmes probleacutematiques

44

Livre Blanc sur les Donneacutees au CNRS Eacutetat des Lieux et Pratiques - 2018

27 INSTITUT NATIONAL DES SCIENCES MATHEMATIQUES ET DE LEURS INTERACTIONS ( INSMI )

271 Introduction

La mission de lrsquoInsmi est de deacutevelopper et de coordonner les recherches dans les diffeacuterentes branches des matheacutematiques allant des aspects fondamentaux aux applications LrsquoInsmi contribue agrave la structuration de la communauteacute matheacutematique franccedilaise et agrave son insertion dans la communauteacute internationale Elle rassemble 3600 chercheurs et enseignants-chercheurs dont plus de 400 chercheurs CNRS

Tout en soutenant les diffeacuterents domaines des matheacutematiques lrsquoInsmi cherche agrave promouvoir les recherches agrave lrsquointerface avec les autres disciplines scientifiques ainsi que les interactions avec la socieacuteteacute et le monde industriel Comme le souligne un reacutecent rapport ameacutericain ( The mathematical sciences in 2025 The National Academies Press Etats-Unis ) les possibiliteacutes drsquointeraction entre les matheacutematiques et le monde exteacuterieur sont consideacuterablement accrues drsquoune part par la geacuteneacuteralisation de simulations numeacuteriques baseacutees sur des concepts matheacutematiques et rendues possibles par des outils informatiques de plus en plus puissants drsquoautre part par lrsquoaccroissement exponentiel de donneacutees massives agrave traiter La communauteacute matheacutematique est donc fortement solliciteacutee et mobiliseacutee pour reacutepondre aux enjeux lieacutes aux traitements des donneacutees et au calcul scientifique

Comme lrsquoa souligneacute une eacutetude de lrsquoimpact socio-eacuteconomique des Matheacutematiques en France reacutealiseacutee en 2015 la contribution primordiale des matheacutematiques dans le deacuteveloppement de technologies cleacutes sera appeleacutee agrave se renforcer via la maicirctrise par les entreprises de plusieurs champs de compeacutetences strateacutegiques fondeacutes au moins partiellement sur les matheacutematiques

bull Traitement du signal et analyse drsquoimages

bull Data Mining ( statistiques analyse de donneacutees et apprentissage )

bull MSO ( Modeacutelisation - Simulation -Optimisation )

bull HPC ( High Performance Computing ou calcul haute performance )

bull Seacutecuriteacute des systegravemes drsquoinformations et Cryptographie

La maicirctrise de ces champs de compeacutetences par le tissu industriel national est vue comme essentielle pour permettre de relever les deacutefis socio-eacuteconomiques actuels et futurs speacutecifiques ou non aux secteurs drsquoactiviteacute des industries concerneacutees et rester compeacutetitif

Les matheacutematiciens se retrouvent freacutequemment confronteacutes au traitement des donneacutees lorsqursquoils travaillent sur des sujets interdisciplinaires Par exemple la simulation de modegraveles avec une reacutesolution extrecircmement fine amegravene agrave des problegravemes de gestion de grandes masses de donneacutees pouvant atteindre plusieurs To On peut notamment citer les interactions avec

bull La physique et la meacutecanique ( p ex avec les travaux sur les plasmas de tokamak )

bull Lrsquoautomatique et la robotique

bull Lrsquoinformatique notamment en ce qui concerne les recherches en imagerie traitement du signal fouille de donneacutees calcul haute performancehellip

bull Les sciences du vivant Sans ecirctre exhaustif les domaines concerneacutes par ces interactions sont la biologie cellulaire systeacutemique et du deacuteveloppement les neurosciences la geacuteneacutetique lrsquoeacutecologie la bio-informatique la meacutedecinehellip

bull Lrsquoeacuteconomie et les sciences humaines et sociales

Se posent eacutegalement les questions de paralleacuteliser les calculs de communiquer des volumes de donneacutees gigantesques entre les dizaines de milliers de processeurs drsquoun supercalculateur de compresser stocker ou exploiter les donneacuteeshellip Toutes ces questions neacutecessitent une recherche pluridisciplinaire entre ingeacutenieurs matheacutematiciens informaticiens et chercheurs de la discipline du sujet eacutetudieacute ( physiciens biologisteshellip )

Tous les domaines des matheacutematiques sont concerneacutes par les interfaces mentionneacutees preacuteceacutedemment Les plus visibles sont la statistique le calcul scientifique et haute performance les probabiliteacutes les systegravemes dynamiques les eacutequations diffeacuterentielles et aux deacuteriveacutees partielles lrsquooptimisation lrsquoimageriehellip

INSMI

45

Livre Blanc sur les Donneacutees au CNRS Eacutetat des Lieux et Pratiques - 2018

272 La probleacutematique des donneacutees agrave lrsquoINSMI

Le traitement des donneacutees a reacutecemment impacteacute la communauteacute matheacutematique Afin de reacutepondre aux probleacutematiques souleveacutees plusieurs champs de recherche se sont deacuteveloppeacutes dans diffeacuterentes branches des matheacutematiques allant de la recherche fondamentale aux applications21

Lrsquoanalyse

Mecircme si les lois de la physique matheacutematique sont deacutecrites par des eacutequations diffeacuterentielles et des eacutequations aux deacuteriveacutees partielles lrsquoanalyse matheacutematique aborde aujourdrsquohui des domaines moins structureacutes ougrave les lois sont absentes et ougrave il convient de traiter des masses de donneacutees en apparence incoheacuterentes Agrave titre drsquoexemple les problegravemes poseacutes par le changement climatique sont particuliegraverement ardus En conseacutequence une nouvelle analyse matheacutematique est neacutecessaire pour maicirctriser des domaines aussi varieacutes que le changement climatique la geacutenomique la meacutedecine computationnelle la recherche seacutecuritaire agrave lrsquointeacuterieur des donneacutees du webhellip

Les statistiques

Lrsquoeacutevolution actuelle de la discipline est fortement influenceacutee par le deacuteveloppement de lrsquoinformatique aussi bien en termes de moyens de calcul ou de capaciteacute meacutemoire des ordinateurs qursquoen termes drsquoavanceacutees dans le domaine de lrsquoalgorithmique de la theacuteorie de lrsquoinformation ou du codage Les nouvelles capaciteacutes de recueil et de stockage provoquent une veacuteritable avalanche de donneacutees dont le gigantisme rend obsolegravete lrsquoemploi des outils drsquoanalyse des donneacutees traditionnels et dont le traitement requiert de nouvelles compeacutetences pour les statisticiens Ceci est vrai dans plusieurs domaines drsquoapplications en geacutenomique tout autant qursquoen eacuteconomie ou en traitement du signal ou de lrsquoimage Dans le mecircme temps les outils de calcul de plus en plus puissants et performants stimulent lrsquoimagination car ils permettent de mettre en œuvre des strateacutegies drsquoinfeacuterence toujours plus sophistiqueacutees dont lrsquoutilisation aurait eacuteteacute impensable voire absurde au siegravecle dernier Les theacutematiques statistiques lieacutees agrave lrsquoanalyse des donneacutees de grande dimension se deacuteveloppent de faccedilon rapide au sein drsquoeacutequipes de recherche qui sont heacutebergeacutees tantocirct par des laboratoires de matheacutematiques tantocirct

21 Cf Rapport de prospective du Conseil Scientifique drsquoInstitut de lrsquoInsmi mandat 2010-2014

par des laboratoires drsquoinformatique ou les eacutequipes Inria et dont les leaders sont fort heureusement visibles dans les deux disciplines Ces dix derniegraveres anneacutees ont ainsi vu lrsquoeacutemergence drsquoune communauteacute machine learning ( ou laquo apprentissage statistique raquo ) agrave lrsquointerface entre statistique et informatique

Classer des donneacutees en grande dimension analyser des donneacutees massives et souvent heacuteteacuterogegravenes ( Big Data ) bacirctir des preacutevisions agrave partir de donneacutees fonctionnelles analyser des donneacutees structureacutees en grands reacuteseaux voici autant de deacutefis auxquels les statisticiens seront confronteacutes dans les anneacutees agrave venir

Que ce soit pour la conception lrsquoexpeacuterimentation ou lrsquoapplication des meacutethodes statistiques la reacuteflexion matheacutematique est aujourdrsquohui indissociable de la reacuteflexion sur les algorithmes permettant son expression et sa mise en application Lrsquoavenir de la discipline passe donc par le deacuteveloppement harmonieux et les eacutechanges entre les trois grandes branches drsquoactiviteacute que sont la statistique matheacutematique la statistique computationnelle et le traitement de donneacutees

La modeacutelisation et le calcul

Le calcul scientifique consiste agrave mettre en œuvre de la faccedilon la plus efficace possible les algorithmes de calcul sur ordinateur des solutions du modegravele La fameuse loi de Moore preacutedit un doublement de la capaciteacute mateacuterielle de calcul des ordinateurs tous les dix-huit mois Cette loi empirique est veacuterifieacutee depuis plus de quarante ans Si lrsquoon tient aussi compte de lrsquoameacutelioration des algorithmes matheacutematiques de calcul on observe en fait un doublement de la puissance de calcul tous les huit mois seulement Aujourdrsquohui le calcul scientifique est partout dans les teacuteleacutephones portables pour traiter des images ou des videacuteos dans les voitures pour optimiser le freinage ou encore chez les architectes qui doivent preacutevoir la soliditeacute des structures qursquoils dessinent Certains calculs neacutecessitent peu de puissance et peuvent ecirctre reacutealiseacutes sur un ordinateur personnel Mais dans de nombreux domaines de la science la reacutealisation drsquoune simulation impose lrsquousage drsquoun supercalculateur Elle est alors souvent le travail drsquoeacutequipes multidisciplinaires matheacutematiciens informaticiens speacutecialistes du domaine modeacuteliseacute Un deacutefi important attend les speacutecialistes du calcul dans les anneacutees agrave venir Pour faire face agrave la consommation eacutenergeacutetique on assiste agrave une eacutevolution de lrsquoarchitecture des superordinateurs vers des assemblages de centaines de milliers de processeurs relieacutes entre eux par des connexions de vitesses variables Cette eacutevolution neacutecessite de

46

Livre Blanc sur les Donneacutees au CNRS Eacutetat des Lieux et Pratiques - 2018

deacutevelopper de nouveaux algorithmes qui tiennent agrave la fois compte des opeacuterations agrave effectuer mais aussi des deacuteplacements des donneacutees neacutecessaires agrave ces opeacuterations

De plus les calculs peuvent geacuteneacuterer des donneacutees massives ( Big Data ) qursquoil faut ecirctre capable de stocker de compresser et drsquoanalyser En effet avec lrsquoaugmentation de la puissance de calcul les modegraveles sont reacutesolus sur des maillages drsquoune tregraves grande preacutecision Cela neacutecessite le traitement de tregraves grandes masses de donneacutees pour les preacute- et post-traitements des calculs Par exemple les entreacutees utiliseacutees pour lrsquoassimilation de donneacutees dans des modegraveles drsquooceacuteanographie et de meacuteteacuteorologie proviennent drsquoinstruments de mesure ( satellites sondeshellip ) fournissant des masses de donneacutees de plusieurs peacutetaoctets De mecircme lors des post-traitements des simulations la visualisation de donneacutees de tregraves grande taille soulegraveve de nombreuses difficulteacutes Lagrave aussi lrsquoinvention de nouveaux algorithmes est indispensable

Lrsquoimagerie

En deux deacutecennies lrsquoimagerie est devenue un domaine de recherche majeur Les applications sont multiples et la demande socieacutetale forte dans des domaines aussi varieacutes que les sciences du vivant dont les neurosciences la vision la conception assisteacutee par ordinateur la physique des ondes lrsquoastronomie lrsquoeacutelaboration de diagnostics automatiques la deacutetection de situations ou de comportements Les sciences de lrsquoimagerie posent de nouvelles questions matheacutematiques associeacutees aux problegravemes de formation drsquoacquisition de compression de transmission de modeacutelisation drsquoanalyse de traitement drsquointerpreacutetation de restauration drsquoarchivage des images

Les modes drsquoacquisition et de diffusion des images sont multiples et en constante eacutevolution ( teacuteleacutevision numeacuterique HD ou 3D p ex ) Des informations et signaux aussi varieacutes que le niveau de gris la couleur lrsquoinfrarouge proche ou thermique lrsquoimagerie agrave grande gamme dynamique ( high dynamic range ) lrsquoimagerie multispectrale lrsquoimagerie par reacutesonance magneacutetique de diffusion ( diffusion tensor image ) les signaux radarhellip forment des images pluriformes Modeacuteliser manipuler et traiter ces masses de donneacutees heacuteteacuterogegravenes et multidimensionnelles ( images videacuteos surfaces graphes ) est un enjeu scientifique et socio-eacuteconomique majeur Nombre de problegravemes en matheacutematiques de lrsquoimagerie neacutecessitent lrsquooptimisation de fonctionnelles tregraves complexes souvent non lisses parfois non convexes et toujours en tregraves grande dimension ( de

lrsquoordre de plusieurs millions de variables ) engendrant ainsi le traitement drsquoimportantes masses de donneacutees

Geacuteomeacutetrie et topologie

La gestion des donneacutees a eacutegalement impacteacute les matheacutematiques fondamentales telles que la geacuteomeacutetrie ou la topologie Gracircce aux performances accrues des moyens techniques certains problegravemes ont reacutecemment pris une ampleur diffeacuterente et profitent grandement de ces avanceacutees dans le traitement des donneacutees de tregraves grande taille Par exemple crsquoest le cas de lrsquoanalyse topologique des donneacutees En effet il srsquoagit drsquoextraire des informations geacuteomeacutetriques ( courbure ) et topologiques ( pattern ) drsquoun nuage de points dans un espace meacutetrique Lrsquoapproche consideacutereacutee repose sur les descripteurs homologiques persistants Lrsquoutilisation de nuages de points de tregraves grandes tailles en dimension eacuteleveacutee a mis en eacutevidence la pertinence de ces approches aux extensions et applications multiples systegravemes dynamiques astrophysique physique de mateacuteriaux nanomateacuteriaux

Un autre enjeu concerne les expeacuterimentations meneacutees sur des suites entiegraveres multi-indexeacutees correspondant agrave des quantiteacutes geacuteomeacutetriques associeacutees agrave certaines varieacuteteacutes ( algeacutebriques ou symplectiques ) Il srsquoagit dans un premier temps de calculer une eacutenorme quantiteacute de termes de la suite Cette importante masse de donneacutees permet alors pour les suites consideacutereacutees drsquoeacutetudier les proprieacuteteacutes remarquables de comprendre les relations entre ces nombres et drsquoextraire des relations avec drsquoautres proprieacuteteacutes geacuteomeacutetriques

273 Conclusion

Agrave lrsquoheure actuelle les chercheurs de lrsquoInsmi sont essentiellement des utilisateurs de donneacutees plutocirct que des producteurs de donneacutees mais cette tendance peut eacutevoluer tregraves rapidement Lrsquoaccessibiliteacute de donneacutees de plus en plus riches conduit les chercheurs en matheacutematiques agrave faire eacutemerger de nouvelles approches et agrave envisager des changements de paradigmes Cela ne peut ecirctre envisageable qursquoavec un accompagnement humain et mateacuteriel Cet accompagnement doit aussi permettre un accegraves agrave la formation et apporter un soutien agrave la transversaliteacute qui est un des fondements de la notion de laquo donneacutee raquo

LrsquoInsmi est un acteur essentiel dans lrsquoanalyse la modeacutelisation et lrsquointerpreacutetation des donneacutees

INSMI

47

Livre Blanc sur les Donneacutees au CNRS Eacutetat des Lieux et Pratiques - 2018

28 INSTITUT DES SCIENCES DE LrsquoUNIVERS ( INSU )

281 Introduction

LrsquoInstitut National des Sciences de lrsquoUnivers est un institut pluridisciplinaire regroupant les domaines drsquoastronomie et drsquoastrophysique de lrsquooceacutean de lrsquoatmosphegravere des sciences de la Terre des surfaces et interfaces continentales Comprendre et preacutevoir le fonctionnement et lrsquoeacutevolution de ces systegravemes dans leurs environnements est un enjeu scientifique fondamental avec de nombreuses applications socio-eacuteconomiques

Les disciplines de lrsquoINSU partagent une culture scientifique et des pratiques de recherche fondeacutees sur lrsquoobservation ( sol air mer spatial ) agrave long terme ( gt 30 ans ) des systegravemes naturels inteacutegrant un large spectre drsquoeacutechelles spatiales et temporelles et incluant une vaste palette drsquooutils drsquoanalyse in situ drsquoeacutechantillons issus des milieux naturels terrestres ou extraterrestres Ces disciplines integravegrent

bull La conception le deacuteveloppement et lrsquoopeacuteration de grands instruments et systegravemes drsquoobservation ( sol air mer spatial ) agrave lrsquoeacutechelle nationale et internationale

bull La simulation numeacuterique de lrsquoeacutevolution des systegravemes naturels permettant dans un cadre probabiliste drsquoeacutechantillonner des espaces de modegraveles complexes et de les mapper dans lrsquoespace des donneacutees ainsi que drsquoen quantifier les incertitudes et les eacuteveacutenements extrecircmes

bull Lrsquoarchivage la curation et la mise agrave disposition drsquoune grande diversiteacute de donneacutees ( observations simulations analyses ) et de modegraveles avec des standards de repreacutesentation et drsquoeacutechange de donneacutees de provenance de certification ( qualiteacute inteacutegriteacute veacuteraciteacute )

bull Le traitement et lrsquoanalyse de grands jeux de donneacutees multi-sources pour en extraire de nouvelles informations et les distiller sous des formes reacuteutilisables

bull La combinaison drsquoobservations et de simulations numeacuteriques dans un cadre probabiliste drsquoinfeacuterence et drsquoassimilation de donneacutees pour ameacuteliorer la description des modegraveles ainsi que leur capaciteacute preacutedictive

Les missions nationales drsquoobservation et de surveillance des aleacuteas naturels de lrsquoINSU srsquoappuient sur une organisation territoriale originale structureacutee autour des Observatoires des Sciences de lrsquoUnivers ( OSU ) qui deacuteploient des Services Nationaux drsquoObservation ( SNO ) A ces missions srsquoajoutent des missions programmatiques au travers de prospectives nationales pour deacutefinir une strateacutegie scientifique et drsquoobservation agrave long terme et identifier les eacutequipements nationaux et internationaux neacutecessaires agrave sa mise en œuvre

Les communauteacutes de lrsquoINSU sont inteacutegreacutees et organiseacutees aux niveaux national et international au travers de grandes missions spatiales de grands instruments et systegravemes drsquoobservation ainsi que drsquoinfrastructures distribueacutees et feacutedeacutereacutees drsquoarchivage et de distribution des donneacutees Lrsquoimportance des donneacutees a conduit les communauteacutes de lrsquoINSU agrave jouer un rocircle pionnier dans la promotion de donneacutees ouvertes partageacutees interopeacuterables et reacuteutilisables ainsi que du stewardship de ces donneacutees par les communauteacutes

Les pratiques de recherche reposent sur de larges workflows qui sont piloteacutes par les donneacutees et orchestrent leur analyse de pointe ( HDA pour High-end Data Analysis ) et calcul haute performance ( HPC pour High-Performance Computing ) Elles ont permis ces derniegraveres anneacutees des avanceacutees spectaculaires sur des problegravemes fondamentaux lieacutes agrave la compreacutehension de la formation des structures et de lrsquoeacutevolution des systegravemes Terre-Planegravetes-Univers ainsi que sur de grands enjeux socio-eacuteconomiques changements climatiques et environnementaux meacuteteacuteorologie spatiale surveillance et preacutevention des aleacuteas et risques naturels ( volcaniques sismiques ) exploration et gestion des nouvelles ressources eacutenergeacutetiques

48

Livre Blanc sur les Donneacutees au CNRS Eacutetat des Lieux et Pratiques - 2018

282 Contexte des donneacutees agrave lrsquoINSU

La probleacutematique des donneacutees agrave lrsquoINSU srsquoappuie sur un dispositif original

bull Les Observatoires des Sciences de lrsquoUnivers ( OSU )

Communs aux universiteacutes et au CNRS ils organisent reacutegionalement souvent en partenariat avec drsquoautres acteurs de la recherche ( p ex CEA CNES IFSTTAR IFREMER IPEV IRD IRSTEA Meacuteteacuteo-France ) les moyens neacutecessaires pour la reacutealisation et lrsquoopeacuteration drsquoinstruments et systegravemes drsquoobservation le traitement la curation et la mise agrave disposition de donneacutees ainsi que leur exploitation scientifique Ils feacutedegraverent des laboratoires mutualisent des ressources et des compeacutetences ( meacutethodologiques et technologiques ) et stimulent des recherches interdisciplinaires aux interfaces entre diffeacuterents domaines ( p ex astronomie sciences du climat geacuteophysique interne physique des particules eacutecologie sciences biologiques physique des mateacuteriaux santeacute ) A ces missions srsquoajoute le deacuteveloppement drsquoactions internationales

bull Les Services Nationaux drsquoObservations ( SNO )

Labeacuteliseacutes par lrsquoINSU ils sont deacuteployeacutes dans les OSU et deacuteclineacutes suivant les diffeacuterentes theacutematiques de lrsquoinstitut Ils couvrent diffeacuterents aspects des donneacutees meacutetrologie extrecircme de lrsquoespace et du temps instrumentation et opeacuteration de dispositifs drsquoobservation ( sol air mer espace ) et de sites instrumenteacutes archivage curation et distribution des donneacutees deacuteveloppement et distribution de codes et de bibliothegraveques numeacuteriques communautaires formation et diffusion des connaissances Leur peacuterimegravetre est celui sur lequel le Conseil National des Astronomes et Physiciens ( CNAP ) srsquoappuie pour eacutevaluer les missions drsquoobservation des personnels du corps des astronomes et physiciens

Les SNO sont rassembleacutes et structureacutes au sein drsquoActions Nationales pour lrsquoObservation ( ANO ) en lien avec des actions nationales et internationales du Ministegravere de lrsquoenseignement supeacuterieur de la recherche et de lrsquoinnovation ( SOERE IR TGIR ) notamment pour les infrastructures de recherche europeacuteennes ( inscrites sur la liste du forum ESFRI ) et les organisations internationales Les actions dans lesquelles lrsquoINSU est mobiliseacute reflegravetent la diversiteacute des dispositifs drsquoacquisition de donneacutees en sciences de lrsquoUnivers avec pour exemple

bull Infrastructures de Recherche

- En astronomie Centre de Donneacutees astronomiques de Strasbourg ( CDS ) contribution franccedilaise agrave lrsquoObservatoire Virtuel International en Astronomie ( IVOA ) instrumentation pour les grands teacutelescopes de lrsquoESO ( INSTRUM-ESO ) contribution franccedilaise au systegraveme de radioteacutelescope international LOw Frequency ARray ( LOFAR ) et son extension ( ENUFAR contribution au teacutelescope gamma High-Energy Stereoscopic System ( HESS en partenariat avec lrsquoIN2P3 )

- Pour les sciences de la planegravete Aerosols Clouds and Trace Gases Research Infrastructure ( ACTRIS en partenariat avec le CNES CEA IRD Meacuteteacuteo-Francehellip ) infrastructure nationale de modeacutelisation du systegraveme climatique de la Terre ( CLIMERI en partenariat avec le CEA Meacuteteacuteo-France IRD Cerfacs GENCI ) base antarctique franco-italienne ( CONCORDIA en partenariat avec IPEVhellip ) European Multidisciplinary Subsea Observatory ( EMSO en partenariat avec lrsquoIfremer ) In-service Aircraft for a Global Observing System ( IAGOS partenariat avec Meacuteteacuteo-France ) infrastructure de recherche littorale et cocirctiegravere ( ILICO en partenariat avec IFREMER IGN IRD et SHOM ) observatoire de la zone critique ( OZCAR en partenariat avec BRGM CNES IFSTTAR INRA IRD IRSTEA hellip ) reacuteseau sismologique et geacuteodeacutesique franccedilais ( RESIF partenariat avec BRGM CNES IRD IFSTTARhellip ) pocircle de donneacutees et services pour le systegraveme Terre ( en partenariat avec CNES IRD IFREMER IGN IRSTEA Meacuteteacuteo-Francehellip ) Service des Avions Franccedilais Instrumenteacutes pour la Recherche en Environnement ( SAFIRE en partenariat avec le CNES et Meacuteteacuteo-France ) les infrastructures analytiques comme la ligne FRAME de lrsquoESF et les instruments nationaux INSU qui seront coordonneacutes par le Reacuteseau Geacuteochimique et Expeacuterimental Franccedilais ( REGEF )

bull Tregraves Grandes Infrastructures de Recherche

Canada-France-Hawaiuml Teacutelescope ( CFHT ) Cherenkov Telescope Array ( CTA en partenariat IN2P3 et CEA ) Institut de radioastronomie millimeacutetrique ( IRAM ) European Gravitational Observatory ( EGO-Virgo en partenariat avec IN2P3 et INP ) reacuteseau de flotteurs profilants autonomes ( Euro-Argo ) contribution europeacuteenne au reacuteseau international Argo European Consortium for Drilling Research - Integrated Ocean Drilling Project ( ECORD-IODP ) Integrated Carbon Observation System ( ICOS ) Flotte oceacuteanographique franccedilaise ( avec Ifremer IPEV IRD )

INSU

49

Livre Blanc sur les Donneacutees au CNRS Eacutetat des Lieux et Pratiques - 2018

bull Organisations Internationales

laquo European Southern Observatory raquo ( ESO ) centre europeacuteen de preacutevision meacuteteacuteorologique-CPMMT ( ECWWF ) Intergovernmental Panel on Climate Change ( IPCC ) hellip

bull Insertion europeacuteenne

- Forum ESFRI European Research Infrastructure Consortium ( ERIC ) et clusters les infrastructures de lrsquoINSU sont pour la plupart inscrites sur la liste ESFRI soit comme projet soit comme landmark Crsquoest notamment le cas pour ACTRIS le projet ELT de lrsquoESO CTA EPOS IAGOS SKAhellip Euro-Argo EMSO ICOS et bientocirct EPOS ont le statut drsquoERIC

- Le cluster ASTERICS Astronomy ESFRI and Research Infrastructure Cluster a pour objectif la facilitation et la coordination de deacuteveloppements pour ELT SKA CTA et KM3NET tandis que le reacuteseau AENEAS est speacutecifiquement deacutedieacute au traitement des donneacutees issues du teacutelescope geacuteant Square Kilometer Array ( SKA )

Lrsquoimportance des observations spatiales dans les sciences de lrsquoUnivers se traduit par lrsquoimplication de lrsquoINSU dans de grands projets spatiaux deacutefinis et soutenus par le CNES en lien avec lrsquoAgence Spatiale Europeacuteenne ( ESA ) et drsquoautres agences internationales comme la NASA pour ( i ) la conception et le deacuteveloppement drsquoinstruments et de systegravemes drsquoacquisition embarqueacutes ( p ex satellites sondes interplaneacutetaires ballons ) ( ii ) des chaicircnes de traitement et de reacuteduction de donneacutees ( iii ) lrsquoexploitation scientifique de ces missions On peut citer par exemple ( i ) SOHO ( structure interne et atmosphegravere externe du SOLEIL vent solaire ) ( ii ) Solar Orbiter ( observation du SOLEIL ) iii ) Planck ( fond diffus cosmologique ) ( iv ) Gaia ( cartographie 3D de la Voie lacteacutee ) ( v ) RosettaPhilae ( eacutetude drsquoune comegravete et de son comportement agrave lrsquoapproche du SOLEIL ) ( vi ) CopernicusSentinel ( observation et surveillance de la Terre pour lrsquoenvironnement et la seacutecuriteacute ) ( vii ) et dans le futur Euclid ( caracteacuterisation de la nature de lrsquoeacutenergie noire ) ( viii ) Plato ( deacutetection et eacutetude de nouveaux systegravemes eacutetoiles-planegravetes ) ( ix ) InSight ( eacutetude de la structure interne de Mars )hellip

283 Probleacutematique des donneacutees agrave lrsquoINSU

Environnements de production de donneacutees

Les flux de donneacutees en sciences de lrsquoUnivers explosent Ils sont geacuteneacutereacutes aujourdrsquohui agrave la fois dans des edge-environments grands instruments et systegravemes drsquoobservation ( sol air mer espace ) ougrave les ressources ( eacutenergie communication stockage calcul ) sont rares et dans des centralised-environnements de type HPC grandes simulations numeacuteriques ougrave est concentreacute lrsquoessentiel des ressources de tregraves haute performance

Les principales caracteacuteristiques de ces flux ( continus sporadiques ) sont les volumes les vitesses ( geacuteneacuteration transmission preacutetraitement ) la varieacuteteacute ( structureacutee non-structureacutee mixte ) et la veacuteraciteacute des donneacutees

Ce double contexte creacutee aujourdrsquohui une collection de problegravemes dont le principal deacutefi est la logistique des donneacutees tout au long de leurs chaicircnes drsquoacquisition et drsquoutilisation gestion du positionnement et de lrsquoencodageagencement des donneacutees au cours du temps transmission distribution de ressources ( caching-bufferisation-stockage calcul ) et des services

Grands instruments et systegravemes drsquoobservation

Les flux agreacutegeacutes de donneacutees geacuteneacutereacutees par les dispositifs observationnels en sciences de lrsquoUnivers ont franchi aujourdrsquohui lrsquoeacutechelle de la dizaine de Poan ~30 Gojour pour les grands reacuteseaux de capteurs ( p ex RESIFEPOS ) ~ 50-100 Gojour pour les grandes missions spatiales ( p ex GAIA Euclid CopernicusSentinel ) gt 1 Tojour pour les grands teacutelescopes au sol actuels et futurs ( p ex ALMA ELThellip ) ~1 Pojour ( p ex LOFAR ) et prochainement ~100 Pojour ( p ex SKA ) nouvelle geacuteneacuteration de grands interfeacuteromegravetres dans le domaine des radio-freacutequences

La logistique des donneacutees varie en fonction des dispositifs de mesure ( sol air mer spatial in situ ) de plus en plus complexes ( multi-capteurs multi-freacutequences multi-pixels ) et de leur geacuteomeacutetrie centraliseacutee ( p ex teacutelescopes satellites ) ou distribueacutee globalement ou reacutegionalement ( reacuteseaux drsquoantennes et de capteurs ) Avec lrsquoexplosion des volumes et des vitesses des donneacutees associeacutees aux nouvelles geacuteneacuterations de grands instruments et systegravemes drsquoobservation il devient impossible de transfeacuterer et drsquoarchiver

50

Livre Blanc sur les Donneacutees au CNRS Eacutetat des Lieux et Pratiques - 2018

lrsquoensemble des donneacutees et la reacuteduction des donneacutees est devenue un enjeu critique ( particuliegraverement pour les observations spatiales ) La logistique des donneacutees implique de deacuteplacer lrsquointelligence vers la peacuteripheacuterie au plus proche de leurs sources souvent multiples afin de ( i ) preacutetraiter ( synchronisation agreacutegation combinaison ) et reacuteduire ces flux en continu au cours de leur transport au travers de reacuteseaux ( statiques ou dynamiques ) de bandes passantes heacuteteacuterogegravenes et une varieacuteteacute de edge-technologies ( cachingbufferisation calcul ) ( ii ) agreacuteger en bout de chaicircne ces flux dans des plateformes centraliseacutees de plus en plus proches des sources disposant de larges ressources ( stockage calcul communication ) afin de permettre des traitements locaux ( tels que calibration transformation extractionreconstruction ) des constructions et reacuteductions intelligentes de nouveaux objets de donneacutees ( p ex eacuteveacutenements sources imagesvisibiliteacutes faisceaux ) ainsi que leur archivage ( iii ) redistribuer de larges sous-ensembles de donneacutees vers des plateformes distribueacutees et feacutedeacutereacutees de ressources et de services pour leur exploitation scientifique par les communauteacutes

La reacuteduction et la logistique des donneacutees des tregraves grands instruments et systegravemes drsquoobservation sont deacutefinies dans le cadre drsquoorganisations internationales associant souvent au cocircteacute des partenaires eacutetrangers drsquoautres instituts du CNRS ( p ex IN2P3 ) et drsquoautres acteurs franccedilais de la recherche ( p ex CNES CEA Ifremer etc ) Un autre deacutefi ( plus proceacutedural que scientifique ou technologique ) est drsquoassurer la coheacuterence et drsquoidentifier les niveaux possibles de feacutedeacuteration et de mutualisation entre diffeacuterents projets en phase avec les applications et les pratiques de recherche des communauteacutes utilisatrices de ces donneacutees

Grandes simulations numeacuteriques

Les simulations numeacuteriques HPC sont aujourdrsquohui de grands instruments scientifiques agrave part entiegravere pour nombre de disciplines des sciences de lrsquoUnivers ( p ex climat oceacutean atmosphegravere cosmologie et astrophysique astrophysique des hautes eacutenergies geacuteophysique ) Elles permettent de deacuteduire lrsquoeacutevolution de systegravemes naturels complexes agrave partir de modegraveles multi-eacutechelles et multi-physiques souvent coupleacutes et au travers de reacutealisations drsquoensembles drsquoeacutechantillonner des espaces de modegraveles complexes et de les mapper dans lrsquoespace des donneacutees

Ces simulations geacutenegraverent des flux ( volumes vitesses ) tregraves importants de donneacutees au sein des environnements HPC centraliseacutes Les volumes de donneacutees produits ont deacutepasseacute aujourdrsquohui lrsquoeacutechelle de la dizaine de peacutetaoctets ( p ex modeacutelisation du climat cosmologie numeacuterique sismologie ) En retour ces simulations permettent la conception de grands instruments et systegravemes drsquoobservation de plus en plus complexes ainsi que de leurs chaicircnes de traitement et de reacuteduction de donneacutees via la modeacutelisation de leur fonctionnement dans les environnements drsquoacquisition

LrsquoINSU est aujourdrsquohui un des principaux utilisateurs des grands centres de calcul nationaux ( GENCI ) Pour lrsquoanneacutee 2017 les disciplines de lrsquoINSU repreacutesentaient ( hors exercice CMIP6 ) 25 des heures attribueacutees ( CT1 environnement et CT4 astrophysique-geacuteophysique ) ainsi que ~80 des ressources de stockage alloueacutees Certaines communauteacutes utilisent eacutegalement les grands centres de calcul europeacuteens ( Tiers-0 Prace ) et internationaux ( DOE-NSF aux Etats-Unis JAMSTEC au Japon )

La logistique des donneacutees au cours de ces simulations ( positionnement des donneacutees au travers de la hieacuterarchie de meacutemoire couplages entre modegraveles reacuteduction des entreacuteessorties agencement et repreacutesentation des donneacutees ) est devenue critique Lrsquoanalyse in situ des flux de donneacutees via des meacutethodes de type laquo apprentissage machine raquo et des environnements immersifs intelligents ( capteurs virtuels ) renforce les besoins drsquoune convergence entre HPC et HDA Elle doit ecirctre coupleacutee avec des systegravemes fins de provenance pour le controcircle dynamique de ces simulations le pilotage de workflows orchestrant des ensembles de simulations ainsi que pour lrsquooptimisation ( latence ) des mouvements des donneacutees la reacuteduction des entreacuteessorties et des volumes de donneacutees agrave stocker

Cette logistique est eacutegalement complexe en raison du cycle de vie des reacutesultats de ces simulations qui impliquent de les redistribuer et de les archiver avec leurs modegraveles vers la peacuteripheacuterie pour leur exploitation par les communauteacutes scientifiques agrave lrsquoeacutechelle nationale ou internationale intercomparaison de modegraveles analyse combineacutee avec les observations Un exemple type est fourni dans la communauteacute de modeacutelisation du climat ( p ex exercices de simulations CMIP Coupled Model Intercomparison Project ) Un autre exemple est fourni par la communauteacute de la cosmologie numeacuterique ( p ex consortium national DEUS Dark Energy Universe Simulation )

INSU

51

Livre Blanc sur les Donneacutees au CNRS Eacutetat des Lieux et Pratiques - 2018

Workflows et exploitation scientifique des donneacutees

Un autre aspect critique est la logistique des donneacutees tout au long de larges chaicircnes drsquoexploitation scientifique qui sont piloteacutees par les donneacutees elles-mecircmes et orchestrent des eacutetapes de calcul intensif et drsquoanalyse

Ces workflows ne sont pas des outils logiciels isoleacutes ou des codes applicatifs mais des configurations complexes et variables de logiciel de mateacuteriel et de flux de donneacutees qui traduisent des phases de processus drsquoinfeacuterence en sciences de lrsquoUnivers Lrsquoespace multidimensionnel de donneacutees que ces workflows deacutefinissent implique que chacune de ces eacutetapes doit acceacuteder manipuler et combiner de maniegravere coordonneacutee de larges volumes et une grande diversiteacute de donneacutees

Traiter et analyser de larges volumes de donneacutees ( observations simulations )

Ces workflows orchestrent typiquement des eacutetapes drsquoingestionagreacutegation de traitement et drsquoanalyse de donneacutees afin drsquoen extraire de nouvelles informations

La phase drsquoingestion implique le stockage temporaire ( p ex bufferisation caching ) de larges volumes de donneacutees multi-sources sur des dureacutees variables ( mois anneacutees ) en fonction du cycle drsquoutilisation des donneacutees ainsi que des services ( p ex indexation bases de donneacutees et de meacutetadonneacutees provenance ) et des systegravemes de documentation ( p ex donneacutees modegraveles ) Elle varie suivant la provenance des donneacutees en continu depuis la peacuteripheacuterie sur requecircte depuis des feacutedeacuterations drsquoarchives et en combinaison observations et reacutesultats de simulations

Les phases de traitement et drsquoanalyse concernent diffeacuterentes eacutetapes de complexiteacute variable le plus souvent ( i ) filtrage reacuteduction de bruit reconstruction bas niveau ( ii ) deacutetection ( p ex eacuteveacutenements transitoires anomalies ) ( iii ) segmentation ( iv ) extraction ( p ex objets caracteacuteristiques statistiques ) ( v ) classificationagreacutegation ( vi ) transformations complexes ( p ex images correacutelations croiseacutees steering functions ) Les phases drsquoanalyse mettent souvent en jeu des meacutethodes statistiques ( p ex Monte Carlo ) et drsquolaquo apprentissage machine raquo

La logistique des donneacutees et la diversiteacute de ces workflows exploitent des plateformes de services de calcul et drsquoanalyse disposant drsquoenvironnements flexibles et reacuteactifs qui feacutedegraverent et mutualisent des services ( stockage bufferisation caching calcul HTC calcul parallegravele hybride communication logiciel ) Elles assurent des flux de traitement proches des vitesses drsquoaccegraves aux donneacutees Elles supportent des modegraveles de langage et drsquoexeacutecution en streaming avec des systegravemes fins de provenance coupleacutes agrave des technologies de virtualisation ( conteneurs ) et adapteacutes au Big Data ( p ex Spark Storm ) Elles permettent eacutegalement la mutualisation et lrsquoutilisation de meacutethodes et drsquooutils logiciels de traitement adeacutequatement organiseacutes et modulables dans diffeacuterents contextes ( p ex librairies Python modules de traitements Jupyter Notebooks )

Ces plateformes sont heacutebergeacutees dans des infrastructures Tiers-2-Tiers-3 adosseacutees agrave des OSU ou des feacutedeacuterations de recherche ( p ex Observatoire de Paris OCA IPSL IPGP OSUG OMP ) souvent en lien avec des meacutesocentres reacutegionaux ( p ex IDRIS Gricad Calmip Meso-PSL ) Elles offrent des capaciteacutes de stockage de plusieurs peacutetaoctets et des puissances de calcul proches de la centaine de teacuteraflops Un exemple de feacutedeacuteration internationale est lrsquoESGF ( Earth System Grid Federation ) en modeacutelisation du climat avec le nœud national ( CICLAD-CLIMSERV-IDRIS ) de lrsquoIPSL ESGF permet de distribuer cataloguer des dizaines de peacutetaoctets de donneacutees geacuteneacutereacutees par les simulations CMIP drsquoy acceacuteder de maniegravere seacutecuriseacutee et de les analyser avec des observations multi sources

Infeacuterence et assimilation de donneacutees combinant observations et simulations

Ces workflows combinent preacutedictions ( simulations numeacuteriques ) et observations multi-sources au sein drsquoenvironnements centraliseacutes de type HPC Les approches de type infeacuterenceinversion ( p ex cosmologie et astrophysique sismologie geacuteodeacutesie gravimeacutetrie ) permettent dans un cadre probabiliste drsquoameacuteliorer la description des modegraveles de systegravemes naturels ainsi que la reconstruction de leurs eacutetats Les approches drsquoassimilation de donneacutees ( p ex climat et meacuteteacuteorologie champs magneacutetiques terrestres et planeacutetaires ) dans un cadre variationnel ou statistique permettent drsquoameacuteliorer les preacutevisions de lrsquoeacutevolution de ces modegraveles en reconstruisant un eacutetat initial aussi consistant que possible avec leur dynamique

52

Livre Blanc sur les Donneacutees au CNRS Eacutetat des Lieux et Pratiques - 2018

Infeacuterence et assimilation de donneacutees sont des workflows complexes orchestrant de multiples phases HPC ( simulation numeacuterique ) et HDA ( traitement et analyse de donneacutees ) Avec lrsquoeacutevolution rapide des capaciteacutes de calcul et des meacutethodes numeacuteriques ils exploitent aujourdrsquohui des approches probabilistes au travers drsquoensembles de simulations numeacuteriques permettant drsquoexplorer des espaces de modegraveles complexes et leurs conditions initiales ainsi que de quantifier les incertitudes directes et inverses Ils combinent souvent laquo apprentissage machine raquo optimisation stochastique theacuteorie de lrsquoinformation et transport optimal

Cette convergence entre HPC et HDA deacutefie les environnements de type HPC ( accegravescommunications stockage calcul et meacutemoire ) ainsi que leur exploitation ( c-agrave-d ordonnancement par lots ) Un aspect critique est la logistique des flux ( volumes vitesses ) de donneacutees transmis ( souvent en continu ) depuis des sources peacuteripheacuteriques et geacuteneacutereacutes au sein des environnements HPC au cours des eacutetapes de simulation et drsquoanalyse ( combinant observations et reacutesultats de simulation ) Par exemple pour chaque preacutevision meacuteteacuteorologique reacutegionale une grande diversiteacute et un grand volume de donneacutees doivent ecirctre collecteacutes depuis des sources peacuteripheacuteriques ( satellites catasondes stations au sol boueacutees observations actuelles et historiques ) et centraliseacutes ( simulations des caracteacuteristiques et des processus des modegraveles du systegraveme Terre ) Toutes ces informations sont assimileacutees dans des moteurs drsquoassimilation complexes et non-lineacuteaires pour preacutevoir des caracteacuteristiques meacuteteacuteorologiques et les distiller pour leur utilisation par diffeacuterents acteurs

Ces workflows requiegraverent les capaciteacutes haute-performance ( stockage calcul communication ) des grands centres europeacuteens et nationaux ( Tier-0 et Tier-1 ) voire reacutegionaux ( Tier-2 ) qui doivent offrir des politiques drsquoaccegraves et drsquoexploitation adapteacutees ( HPCHDA ) et ecirctre feacutedeacutereacutes avec des plateformes distribueacutees ( archivage edge-computing ) pour la transmission et le traitement en cours de transport des flux de donneacutees depuis des sources peacuteripheacuteriques

Archivage curation accegraves et geacuterance des donneacutees

Une mission importante de lrsquoINSU est de rendre publiques eacuteventuellement apregraves une courte peacuteriode drsquoexclusiviteacute les donneacutees issues des grands instruments et systegravemes drsquoobservation et des simulations numeacuteriques Cette diffusion rapide agrave lrsquoensemble de la communauteacute vise

agrave maximiser le retour scientifique drsquoinvestissements lourds Cela nrsquoa de sens que si les donneacutees peuvent ecirctre facilement deacutecouvertes acceacutedeacutees interopeacutereacutees et reacuteutiliseacutees dans une vision inteacutegreacutee des pheacutenomegravenes et des systegravemes observeacutes au cours du temps

Les missions essentielles des OSU des services nationaux drsquoobservation et des actions nationales drsquoobservation sont lrsquointeacutegrationagreacutegation la curation la documentation la publication et la diffusion de ces donneacutees ainsi que leur apporter de la valeur ajouteacutee au sein de structures deacutedieacutees qui mutualisent les expertises et les ressources neacutecessaires Cela recouvre un certain nombre drsquoactiviteacutes sur le cycle de vie des donneacutees qui va bien au-delagrave de la dureacutee de vie des instruments et systegravemes drsquoobservation

bull Le traitement et calibration des donneacutees recouvrent des chaicircnes de traitement systeacutematique et la production de donneacutees de haut niveau pour les communauteacutes

bull La curation des donneacutees recouvre lrsquoorganisation lrsquo inteacutegration lrsquoagreacutegation lrsquoannotation la documentation et le reacutefeacuterencement des donneacutees Elle integravegre des chaicircnes de controcircle et des protocoles de certification des qualiteacute inteacutegriteacute veacuteraciteacute et pertinence des donneacutees sur leur cycle de vie ainsi que des systegravemes permettant de tracer leur provenance et leurs changements

bull Lrsquoarchivage et le reacutefeacuterencement des donneacutees avec des services avanceacutes ( indexation bases de donneacutees et de meacutetadonneacutees provenance ) assurent la persistance des donneacutees et des meacutetadonneacutees sur leur cycle de vie

bull La diffusion et la publication des donneacutees reposent sur une description standardiseacutee des donneacutees ( observations reacutesultats de simulations ) et des modegraveles avec des standards de meacutetadonneacutees drsquoaccegraves et drsquoeacutechange des identificateurs agreacuteeacutes ainsi que des services avanceacutes pour en faciliter la deacutecouverte lrsquoaccegraves lrsquointeropeacuterabiliteacute et la manipulation via les observatoires virtuels les pocircles de donneacutees et leurs deacuteveloppements Ces standards sont deacutefinis au niveau des diffeacuterentes disciplines dans le cadre de structures internationales ( p ex IVOA FDSN UNAVCO GEOGEOSS ESGF )

Ces activiteacutes concernent eacutegalement agrave des degreacutes divers selon les communauteacutes ( astronomie amp astrophysique oceacutean-atmosphegraverehellip ) la mise agrave disposition le deacuteveloppement et la maintenance de codes numeacuteriques des bibliothegraveques de traitement et drsquoanalyse de reacutefeacuterence ou communautaires

INSU

53

Livre Blanc sur les Donneacutees au CNRS Eacutetat des Lieux et Pratiques - 2018

Plus reacutecemment elles concernent de nouveaux objets associeacutes agrave des identificateurs agreacuteeacutes ( projets ou publications ) qui permettent de laquo conteneuriser raquo donneacutees description des dispositifs expeacuterimentaux et chaicircnes de traitement et drsquoanalyse afin de preacuteserver lrsquoexpertise des donneacutees faciliter leur reacuteutilisation dans et en dehors du contexte de leur acquisition et permettre la reproductibiliteacute des reacutesultats scientifiques

Un nombre croissant drsquoenjeux scientifiques ( modeacutelisation du climat physique solaire et stellaire eacutetude du champ magneacutetique terrestre signatures des ondes gravitationnelles et des grands tremblements de terre surveillance des aleacuteas naturels changements environnementaux ) impliquent une compreacutehension preacutedictive drsquoun mecircme objet ou systegraveme Ces approches interdisciplinaires avec des meacutethodes de type multi-messagers requiegraverent un accegraves fluide agrave des donneacutees multi-sources issues de contextes scientifiques et de modaliteacutes observationnelles ( sol air mer spatial ) diffeacuterents ainsi que des outils translationnels pour les combiner les croiser et les syntheacutetiser au sein de chaicircnes de traitement et drsquoanalyse souvent coupleacutees agrave des simulations numeacuteriques Deacutecouvrir ces donneacutees ainsi que les ressources et services associeacutes demande une harmonisation ( agrave travers diffeacuterentes disciplines ) des modegraveles de donneacutees et une standardisation ( au sein des disciplines ) en particulier pour ( i ) les proceacutedures de controcircle de qualiteacute drsquointeacutegriteacute et de veacuteraciteacute des donneacutees ainsi que leur documentation ( ii ) les meacutetadonneacutees les systegravemes drsquoinformation et les registres

Les volumes et la diversiteacute des donneacutees ainsi que les pratiques de recherche de plus en plus interdisciplinaires ont conduit lrsquoINSU agrave reacuteorganiser les donneacutees autour de

bull Plateformes reacutegionales de ressources et de services Adosseacutees aux OSU elles feacutedegraverent et mutualisent des ressources ( stockage calcul ) des services ( bases de donneacutees et de meacutetadonneacutees web-services ) et une masse critique drsquoexpertises pour lrsquoarchivage la curation et la distribution des donneacutees Elles sont associeacutees agrave des programmes et instruments labeacuteliseacutes par lrsquoINSU et peuvent ecirctre multitheacutematiques Ces infrastructures Tier-3 souvent doteacutees drsquoune structure de pilotage heacutebergent des ressources de stockage ( de quelques centaines de teacuteraoctets agrave quelques peacutetaoctets ) et de calcul pour les phases de traitement systeacutematique et de curation Avec lrsquoaugmentation des volumes et de la diversiteacute des donneacutees ainsi que la complexiteacute

croissante des activiteacutes de traitement et de curation les besoins de stockage et de calcul croissent rapidement En synergie avec les plateformes de calcul et drsquoanalyse elles ont pour vocation de se rapprocher de Tier-2 reacutegionaux deacutesireux drsquoexplorer de nouveaux modegraveles drsquoarchitectures centreacutees sur les donneacutees de langage et drsquoexeacutecution de services et drsquoenvironnements drsquoaccegraves et drsquoutilisation

bull Pocircles theacutematiques de services et de donneacutees Ils ont pour vocation de fournir un portail unique au niveau national et des plateformes de services avanceacutes facilitant la deacutecouverte lrsquoaccegraves la combinaison et lrsquoutilisation scientifique drsquoensembles de donneacutees multi-types multi-sources issus drsquoexpeacuteriences et de dispositifs observationnels ( sol air mer spatial ) diffeacuterents Ils srsquoappuient sur les plateformes reacutegionales et les feacutedegraverent nationalement Ils sont doteacutes drsquoune structure de pilotage et drsquoutilisateurs et leur gestion associe souvent drsquoautres organismes ( p ex CNES CEA Ifremer IRD Meacuteteacuteo-France ) On peut citer ( i ) en astronomie et astrophysique les pocircles de physique des plasmas physique solaire et stellaire et de matiegravere interstellaire ( ii ) en oceacutean-atmosphegravere les pocircles Aeris et Odatis respectivement pour les donneacutees et services atmospheacuteriques et oceacuteaniques ( iii ) en sciences de la Terre le pocircle de donneacutees ForMTer ( avec RESIFEPOS ) pour les donneacutees drsquoobservation ( sol spatial ) de la terre solide ( iv ) en surfaces et interfaces continentales le pocircle Theia incluant notamment DINAMIS le dispositif de mise agrave disposition des images satellites haute deacutefinition

Un exemple phare est le centre de donneacutees de Strasbourg ( CDS ) en astronomie contribution franccedilaise agrave lrsquoIVOA ( International Virtual Observatory Alliance ) qui fournit des standards de web-services de repreacutesentation et drsquointeropeacuterabiliteacute de donneacutees et de meacutetadonneacutees avec drsquoautres standards pour le reacutefeacuterencement lrsquoaccegraves lrsquoeacutechange la provenance des donneacutees et leur publication ainsi que des outils drsquoexploration et de visualisation de ces donneacutees Le reacutesultat est que plus de 90 des donneacutees astronomiques mondiales sont accessibles et utilisables scientifiquement aujourdrsquohui avec des outils et des logiciels partageacutes internationalement et avec une tregraves forte visibiliteacute franccedilaise gracircce au CDS mais aussi agrave des projets comme VAMDC22 pour la distribution des donneacutees atomiques et moleacuteculaires

Pour les tregraves grands instruments et systegravemes drsquoobservation la strateacutegie drsquoarchivage et la politique drsquoaccegraves aux donneacutees sont deacutefinies dans le cadre

22 httpwwwvamdcorg

54

Livre Blanc sur les Donneacutees au CNRS Eacutetat des Lieux et Pratiques - 2018

des projets internationaux et des organisations internationales qui les portent Elles reposent sur des plateformes de ressources et de services distribueacutees et feacutedeacutereacutees agrave lrsquoeacutechelle internationale comme dans le cas ( i ) des grands projets spatiaux ( Euclid Gaia Planck Copernicus ) ( ii ) des tregraves grands teacutelescopes ( ESO CFHT IRAM SKA ) ( iii ) des grands systegravemes drsquoobservation ( RESIFEPOS Euro-Argo ICOS IAGOS ACTRIS OZCAR EmodNet ) ( iv ) des intercomparaisons de modegraveles coupleacutes ( CLIMERI ) en modeacutelisation du climat ( ESGF ) La vocation du pocircle de donneacutees et services pour le systegraveme Terre est notamment de faciliter lrsquoaccegraves et lrsquousage des donneacutees issues de ses diffeacuterents compartiments Ces strateacutegies srsquoappuient au niveau national sur des nœuds heacutebergeacutes geacuteneacuteralement dans de grands centres nationaux ( CC-IN2P3 IDRIS ) ou meacutesocentres reacutegionaux ( Meso-PSLObservatoire de Paris OCA IPSL IPGP GricadOSUP ) souvent en partenariat avec drsquoautres instituts du CNRS ( p ex IN2P3 ) et organismes de recherche ( CNES CEA Meacuteteacuteo France Ifremer )

283 Conclusions et eacuteleacutements de reacuteflexion

De nouvelles deacutecouvertes scientifiques en sciences de lrsquoUnivers ainsi que de grands enjeux sociaux et eacuteconomiques ( p ex changement climatique aleacuteas naturels et environnementaux ressources eacutenergeacutetiques et deacuteveloppement durable ) requiegraverent une grande diversiteacute de donneacutees dont les reacutesolutions integravegrent un tregraves large spectre drsquoeacutechelles ( temps espace freacutequence ) ainsi que des meacutethodes drsquoanalyse et de modeacutelisation pour en extraire et inteacutegrer de nouvelles informations sur la formation des structures et lrsquoeacutevolution des systegravemes Terre-planegravetes-univers ainsi que leurs eacuteveacutenements transitoires et extrecircmes

Avec les nouvelles geacuteneacuterations drsquoinstruments et de systegravemes drsquoobservation ( sol air mer spatial ) et de simulations numeacuteriques les flux de donneacutees explosent aujourdrsquohui agrave la fois dans des edge-environments globalement distribueacutes et des environnements centraliseacutes ( HPC Cloud ) Ce changement de paradigme constitue un deacutefi pour la logistique des donneacutees tout au long de workflows qui traversent la diversiteacute de ces systegravemes drsquoacquisition et un continuum de bandes passantes et de plateformes technologiques

Un enjeu concomitant commun agrave ces deux environnements est la reacuteduction laquo intelligente raquo des donneacutees en continu au cours de leur transport

La strateacutegie agrave suivre est incertaine dans un paysage national ( enseignement-recherche infrastructures ) et europeacuteen ( EOSC European Open Science Cloud ) et des technologies en pleine eacutevolution Elle tend agrave se formuler comme la co-conception drsquoun instrument scientifique piloteacutee par la logistique des donneacutees et les caracteacuteristiques des workflows qui au travers drsquoun modegravele drsquoarchitecture de type sablier ( c-agrave-d hourglass architecture ) permettrait drsquoaccommoder la grande diversiteacute de ces workflows et de leurs impleacutementations Avec lrsquoideacutee qursquoau centre de ce modegravele une interface commune ou spanning layer peut ecirctre eacutetroitement conccedilue et implanteacutee afin drsquoabstraire ces workflows et leur flux de donneacutees et les instancier ( via des technologies de virtualisation ) au travers drsquoune varieacuteteacute croissante et des configurations complexes de ressources ( stockage calcul communication ) de plateformes technologiques et drsquoenvironnements comprenant en particulier

bull Edge-infrastructures qui via une diversiteacute croissante de edge-technologies ( p ex cache buffer stockage calcul communication ) permettent de traiter agreacuteger reacuteduire les flux ( volumes vitesses ) de donneacutees geacuteneacutereacutees par les nouveaux grands instruments et systegravemes drsquoobservation de plus en plus complexes ( multi-capteurs multifreacutequences ) ainsi que de piloter leurs systegravemes drsquoacquisition ( antenne optique ) au plus proche et dans des environnements reculeacutes

bull Plateformes de services de calcul et drsquoanalyse de donneacutees qui feacutedegraverent et mutualisent des services flexibles de stockage de calcul ( HTC HPC ) de communication et de logiciel permettant des flux de traitement proches des vitesses drsquoaccegraves aux donneacutees Ces infrastructures de type edge-computing supportent des utilisateurs et des applications multiples ( p ex le service labelliseacute Terapix agrave lrsquoIAP pour lrsquoexploitation des donneacutees MegaCAM du CFHT ou encore lrsquoARC node ALMA agrave lrsquoIRAM pour la reacuteduction des donneacutees de lrsquointerfeacuteromegravetre millimeacutetrique ALMA de lrsquoESO ) dans un environnement collaboratif reacuteactif et reacutesilient qui integravegre des eacuteleacutements de HPC et HDA avec des services Cloud de traitement en flux des technologies de virtualisation ( conteneurs ) et drsquoexeacutecution adapteacutes au Big Data ( p ex Spark Storm ) Adosseacutees agrave des OSU ou feacutedeacuterations de recherche elles peuvent ecirctre feacutedeacutereacutees ( p ex ESGF )

INSU

55

Livre Blanc sur les Donneacutees au CNRS Eacutetat des Lieux et Pratiques - 2018

bull Plateformes centraliseacutees ( HPC ) qui concentrent des ressources de tregraves haute performance et par deacutefinition rares dont lrsquoutilisation est maximiseacutee pour servir des communauteacutes multiples Si lrsquooptimisation des applications en sciences de lrsquoUnivers pour lrsquoexploitation des nouvelles architectures hybrides et massivement parallegraveles demeure un enjeu important ces applications ( ensembles de simulations numeacuteriques infeacuterenceinversion assimilation de donneacutees ) ainsi que lrsquoutilisation croissante de meacutethodes type laquo apprentissage machine raquo requiegraverent une convergence toujours plus fine entre HPC et HDA avec de meilleurs support et interopeacuterabiliteacute de leurs modegraveles drsquoexploitation ( batch et streaming processing ) des technologies de virtualisation ainsi qursquoune gestion des ressources avec des systegravemes centraliseacutes intelligents piloteacutes par la provenance des flux de donneacutees permettant le controcircle de workflows complexes Lrsquoingestion drsquoeacutenormes flux de donneacutees depuis la peacuteripheacuterie reste un enjeu qui deacutefie leurs capaciteacutes

bull Plateformes drsquoarchivages curation et distribution des donneacutees Ces plateformes adosseacutees aux OSU feacutedegraverent et mutualisent les ressources services et expertises pour le stockage la curation et la mise agrave disposition drsquoune grande diversiteacute de donneacutees ( tels que eacuteveacutenements objets images seacuteries temporelles ) dont le cycle de vie en sciences de lrsquoUnivers est bien plus long que la dureacutee de vie des instruments et systegravemes drsquoobservation Les volumes et la diversiteacute de ces donneacutees impliquent des capaciteacutes croissantes de calcul pour leur traitement et leur curation

Le mouvement des donneacutees et des informations a un coucirct drsquoautant plus important que ces transferts doivent ecirctre rapides et traverser des frontiegraveres drsquoun site agrave lrsquoautre drsquoun systegraveme HPC vers des plateformes drsquoanalyse au sein drsquoun mecircme site entre nœuds drsquoun mecircme systegraveme drsquoun systegraveme de stockage agrave un autre

Un enjeu commun est lrsquoefficience eacutenergeacutetique la reacuteduction des coucircts de fonctionnement et la durabiliteacute ce qui passe entre autres par ( i ) utiliser des plateformes ( HPC calcul et analyse ) adapteacutees agrave chacune des eacutetapes de ces workflows ( ii ) eacuteviter des reacutepeacutetitions inutiles de transferts ( cachingbufferisation ) et reacuteduire leurs vitesses ( pre-fetching ) et leurs volumes ( compression ) ( iii ) reacuteduire les distances et mutualiser les environnements drsquoheacutebergement ( colocalisation des plateformes HPC et des services drsquoanalyse des plateformes drsquoarchivage et de curation de donneacutees et

des plateformes de calcul et drsquoanalyse ) ( iv ) faciliter la reacuteutilisation des calculs et des donneacutees au sein et entre domaines ( observations et reacutesultats de simulations meacutetadonneacutees catalogues )

Lrsquoorganisation territoriale de lrsquoINSU structureacutee autour des OSU et les ANO permet de reacutepondre aux points souleveacutes preacuteceacutedemment ( i ) centraliser logiquement lrsquoaccegraves et lrsquoutilisation de donneacutees via les observatoires virtuels et les pocircles de donneacutees associant plateformes de services et feacutedeacuteration de plateformes drsquoarchivage et de curation de donneacutees en liaison avec drsquoautres organismes ( CNES Ifremer Meacuteteacuteo-France CEAhellip ) ( ii ) rapprocher plateformes drsquoarchivage et de curation de donneacutees plateformes de calcul et drsquoanalyse et centres nationaux ( CC-IN2P3 IDRIS ) et meacutesocentres reacutegionaux ( Gricad Calmiphellip ) ( iii ) rapprocher plateformes HPC et services drsquoanalyse dans le cadre de GENCI ( p ex IDRIS TGCC CINES ) ( iv ) faciliter lrsquoaccegraves seacutecuriseacute le partage lrsquoexploitation de reacutesultats de simulations et drsquoobservations par une large communauteacute ( p ex CLIMERI IPGP )

Un autre aspect concerne les tregraves grands instruments et systegravemes drsquoobservation ( sol air mer spatial ) porteacutes par des projets et des organisations internationaux Dans ce cadre explorer avec drsquoautres instituts du CNRS ( p ex IN2P3 ) et organismes ( CNES CEAhellip ) les niveaux de feacutedeacuteration et de mutualisation possibles des plateformes scientifiques et drsquoarchivage en leur sein ( Euclid Gaiahellip ) et entre ces projets ( CTA SKAhellip ) est un nouvel enjeu

Une telle strateacutegie doit ecirctre en phase avec les pratiques et les applications scientifiques Elle srsquoaccompagne drsquoenjeux proceacuteduraux et humains associeacutes agrave lrsquoorganisation et la mutualisation des expertises scientifiques meacutethodologiques et technologiques neacutecessaires pour le stewardship des donneacutees et des plateformes de ressources et de services dans ce nouveau contexte Elle implique eacutegalement une eacutevolution des politiques drsquoaccegraves drsquoutilisation et drsquoexploitation des centres nationaux et reacutegionaux qui doivent offrir les services neacutecessaires agrave ces environnements data-centric

Il y a des limites agrave ce qui peut en ecirctre obtenu en sciences de lrsquoUnivers ougrave les efforts drsquoobservation sont fondamentalement globalement distribueacutes internationalement structureacutes et financeacutes par diffeacuterents projets et organisations

56

Livre Blanc sur les Donneacutees au CNRS Eacutetat des Lieux et Pratiques - 2018

Par exemple les instituts de recherche en charge de services de reacuteponse rapide de surveillance et drsquoeacutevaluation drsquoaleacuteas naturels ainsi que les grandes universiteacutes de recherche ont besoin de deacutemontrer des ressources qui leur permettent drsquoattirer des chercheurs et des ingeacutenieurs de premier plan ainsi que des contrats et des financements Il y a donc des pressions pour maintenir la visibiliteacute et une diversiteacute de ressources indeacutependantes Une strateacutegie recouvrant des ressources autonomes doit minimiser les coucircts tout en respectant ces problegravemes organisationnels et sociologiques

Pour relever ces nouveaux deacutefis le dispositif des OSU ANO et SNO ainsi que les expertises scientifiques meacutethodologiques et technologiques qursquoil feacutedegravere et mutualise constitue un atout original majeur Ces expertises de plus en plus interdisciplinaires doivent eacutevoluer en phase avec les technologies de plus en plus complexes des grands instruments et des systegravemes drsquoobservation de la logistique des donneacutees de nouvelles meacutethodes et technologies de calcul et drsquoanalyse de donneacutees Les communauteacutes de lrsquoINSU collaborent aujourdrsquohui activement agrave lrsquoeacutechelle nationale et internationale avec drsquoautres disciplines ( sciences des donneacutees matheacutematiques appliqueacutees statistiques physique des particules et physique statistique

eacutecologie biologie santeacute recherche informatique ) et avec les fournisseurs et les deacuteveloppeurs drsquoinfrastructures de communication de calcul et de donneacutees Ces collaborations sont favoriseacutees au sein du CNRS par la Mission pour lrsquoInterdisciplinariteacute et se traduisent aux niveaux national et europeacuteen par de nombreux projets ANR et H2020 Les communauteacutes de lrsquoINSU contribuent eacutegalement activement agrave des ONG en lien avec les donneacutees ( p ex RDA GEOGEOSS Belmont Forum )

En comparaison avec les pratiques internationales ( p ex aux Etats-Unis ) ougrave le deacuteveloppement de codes et de bibliothegraveques ( traitement analyse ) communautaires est structureacute sous forme de projets depuis plus drsquoune dizaine drsquoanneacutees avec un support ingeacutenieur important et speacutecialiseacute il reste des efforts importants agrave accomplir et agrave reconnaicirctre aux niveaux national et europeacuteen Un enjeu concomitant et important reste encore aujourdrsquohui une meilleure reconnaissance de ces expertises scientifiques meacutethodologiques et technologiques souvent interdisciplinaires et des nouvelles tacircches drsquoobservation au niveau des recrutements et des promotions des personnels chercheurs astronomes et physiciens du CNAP23 ingeacutenieurs et techniciens

23 httpwwwcnapobspmfr

INSU

57

Livre Blanc sur les Donneacutees au CNRS Eacutetat des Lieux et Pratiques - 2018

29 INSTITUT DES SCIENCES DE LrsquoINFORMATION ET DE LEURS INTERACTIONS ( INS2I )

Cette section a eacuteteacute reacutedigeacutee avec Mokrane Bouzeghoub DAS agrave INS2I

291 Introduction

LrsquoInstitut des Sciences de lrsquoInformation et de leurs Interactions ( INS2I ) rassemble environ 600 chercheurs CNRS sur un total de lrsquoordre de 4500 permanents dans une cinquantaine drsquouniteacutes de recherche Ses theacutematiques couvrent une partie des sections 6 ( fondements de lrsquoinformatique calculs algorithmes repreacutesentations exploitations ) et 7 ( signal image automatique robotique ) du Comiteacute National

Dans de nombreux domaines scientifiques et socio-eacuteconomiques la volumeacutetrie et la varieacuteteacute des donneacutees existantes ainsi que le coucirct et les contraintes de temps de traitement ont fait apparaicirctre de nouveaux deacutefis De multiples domaines sont concerneacutes les sciences fondamentales ( physique des hautes eacutenergies fusion sciences de la Terre et de lrsquoUnivers bio-informatique neurosciences ) les secteurs de lrsquoeacuteconomie numeacuterique ( business intelligence web e-commerce reacuteseaux sociaux e-gouvernement santeacute conception des meacutedicaments teacuteleacutecommunications et meacutedias transports terrestre et aeacuterien marcheacutes financiers ) lrsquoenvironnement ( climat risques naturels ressources eacutenergeacutetiques smart cities maison connecteacutee ) la seacutecuriteacute ( cyber-seacutecuriteacute seacutecuriteacute nationale ) ou lrsquoindustrie ( smart industry produits sur mesure chaicircne de conceptionreacutealisation des produits inteacutegreacutee de bout en bout )

Lrsquoextraction de connaissances agrave partir de grands volumes de donneacutees lrsquoapprentissage statistique lrsquoagreacutegation de donneacutees heacuteteacuterogegravenes la visualisation et la navigation dans de grands espaces de donneacutees et de connaissances sont de veacuteritables instruments numeacuteriques qui permettent agrave des meacutedecins des ingeacutenieurs des chercheurs etc drsquoobserver des pheacutenomegravenes de valider des hypothegraveses drsquoeacutelaborer de nouveaux modegraveles ou de prendre des deacutecisions en situation critique La maicirctrise de ces instruments au niveau des entreprises des collectiviteacutes ou du gouvernement devient un reacuteel enjeu de pouvoir eacuteconomique politique et socieacutetal Drsquoougrave lrsquoimportance du Big Data de lrsquoOpen Data et du Linked Data tant aux Eacutetats-Unis qursquoen Europe24

24 httpwwwnitrdgovSubcommitteebigdataaspx httpcom-monfundnihgovInnovationBrainstorm httpwwwaeranet

Internet et le Web jouent aussi un rocircle capital puisqursquoils concentrent une grande part des donneacutees et des connaissances et qursquoils concernent des centaines de millions drsquoutilisateurs

Le traitement des grands volumes de donneacutees est fortement connecteacute au calcul intensif lorsque les donneacutees sont issues de simulations de grande taille mais aussi lorsque provenant drsquoobservations ou drsquoexpeacuterimentations elles sont utiliseacutees pour la modeacutelisation de systegravemes complexes ( oceacutean meacuteteacuteo formation des galaxieshellip ) Les communications constituent elles aussi un aspect essentiel du traitement et de lrsquoacquisition des donneacutees massives Lrsquoanalyse de donneacutees massives induit des calculs intensifs souvent effectueacutes sur des infrastructures distribueacutees agrave grande eacutechelle ( clusters grilles ou cloud ) mais que lrsquoon trouve de plus en plus freacutequemment sur des plateformes du type HPC ( p ex en deep learning avec lrsquoexploitation de GPU )Le traitement des donneacutees eacutetant au cœur de la discipline il est donc tout naturel que les recherches en informatique aient investi le domaine des Big Data bien avant qursquoelles ne deviennent un enjeu et une preacuteoccupation pour les autres sciences et pour la socieacuteteacute Le stockage distribueacute et agrave grande eacutechelle lrsquooptimisation des accegraves la deacutefinition de langages de requecirctes de haut niveau la fouille de donneacutees la reacutesilience aux pannes et la protection des donneacutees sont des thegravemes de recherche reacutecurrents et reacuteguliegraverement revisiteacutes pour inteacutegrer les nouvelles technologies de stockage les nouvelles architectures de calcul et les nouveaux besoins de diversification des types de donneacutees et de passage agrave lrsquoeacutechelle des applications La fertilisation croiseacutee avec les matheacutematiques notamment en statistique en optimisation et en modeacutelisation a abouti agrave lrsquoeacutemergence des sciences de donneacutees comme un sous-domaine de recherche avec ses propres objets drsquoinvestigation La majoriteacute des uniteacutes de lrsquoINS2I ont des eacutequipes de recherche actives et visibles sur ce domaine

Les activiteacutes de recherche de INS2I autour des masses de donneacutees concernaient de lrsquoordre de 500 chercheursenseignants-chercheurs en 2012 lors du recensement effectueacute dans le Livre Blanc sur le Calcul Intensif

grantsprogramres_trainingres_grantsrgflyhtml

58

Livre Blanc sur les Donneacutees au CNRS Eacutetat des Lieux et Pratiques - 2018

292 La probleacutematique des donneacutees agrave IrsquoINS2I

Le traitement des donneacutees agrave grande eacutechelle avec des sources de donneacutees eacuteventuellement multiples distribueacuteesreacuteparties et heacuteteacuterogegravenes ( structures formats logiciels serveurshellip ) et une volumeacutetrie en donneacutees allant du teacuteraoctet au peacutetaoctet ( et agrave lrsquoExaoctet dans un futur proche ) est central agrave de multiples domaines allant du Web seacutemantique agrave la simulation numeacuterique avec des applications en biologiesanteacute sciences de lrsquounivers et ingeacutenierie etc

Les grandes tendances de la recherche en Big Data deacuteveloppeacutees agrave INS2I portent sur des meacutethodes innovantes de traitement et drsquoanalyse sur toute la chaicircne de valeur de la donneacutee collecte indexation stockage gestion exploitation valorisation accessibiliteacute et visualisation Les meacutecanismes de collecte drsquointeacutegration de donneacutees multi-sources de distribution des donneacutees et des calculs ( Spark25 MongoDB26 Hadoop27 implantation de MapReduce introduit par Google QServ systegraveme drsquointerrogation de base de donneacutees deacuteveloppeacute pour le LSST28hellip ) dans des environnements Cloud neacutecessitent le deacuteveloppement et lrsquooptimisation de nouvelles techniques ou le portage drsquoalgorithmes existants pour le traitement et lrsquoanalyse des donneacutees En particulier les travaux portent sur lrsquoextraction des connaissances des meacutetadonneacutees et des ontologies sur les bases de donneacutees NoSql ou graphes et sur la paralleacutelisation des algorithmes Le deacuteveloppement drsquoapplications verticales inteacutegreacutees accessibles sur tous supports mobiles et commercialisables deacuteployeacutees en mode SaaS par exemple sera sans doute dans lrsquoavenir un des principaux axes de valorisation Lrsquousine digitale permettant de deacuteployer des applications drsquooptimisation de la production industrielle et la transformation digitale sont drsquoautres points importants pour la recherche informatique tant dans la modeacutelisation des process industriels que dans lrsquooptimisation de ces process gracircce aux donneacutees eacutemises par des milliers de capteurs Lrsquoacceptabiliteacute des applications par les utilisateurs est un point crucial et de nombreux travaux srsquointeacuteressent aux modes drsquointeraction et aux meacutecanismes de protection de la vie priveacutee

25 httpssparkapacheorg26 httpswwwmongodbcom27 httphadoopapacheorg28 httpdmlsstorg

Les donneacutees massives sont souvent traiteacutees sur des infrastructures distribueacutees agrave grande eacutechelle ( p ex traitement des donneacutees du LHC ) Les stocker les indexer et effectuer un post-traitement pour extraire de lrsquoinformation ou en vue drsquoune aide agrave la deacutecision est la plupart du temps un challenge et neacutecessite des interactions entre les diverses communauteacutes qui produisent les donneacutees mais aussi speacutecialistes du cloudHPC de la visualisation des basesentrepocircts de donneacutees

Le High Performance Data Analytics ( HPDA ) est devenu central dans de multiples disciplines et constitue une prioriteacute dans les programmes nationaux de pays comme la Chine ougrave il repreacutesente une part importante des applications sur les supercalculateurs avec des applications en biologie meacutedecine personnaliseacutee preacutediction des catastrophes naturelles transports Le HPDA est drsquoailleurs devenu lrsquoun des moteurs importants de vente de supercalculateurs sur le marcheacute La meacutedecine personnaliseacutee par exemple induit de veacuteritables challenges en termes de volume de donneacutees agrave analyser avec des millions de patients

Les besoins en data analytics sont en train drsquoexploser renforccedilant la neacutecessiteacute de disposer de meacutethodes drsquoanalyse de donneacutees qui passent agrave lrsquoeacutechelle de chaines complegravetes de traitement et drsquooutils drsquoaide agrave la deacutecision le tout en srsquoappuyant sur des plateformes de calcul performantes du type HPC

Ce constat autour des masses de donneacutees agrave analyser et les multiples applications dans les secteurs socio-eacuteconomiques ( finance industrie santeacutehellip ) expliquent le retour au premier plan des meacutethodes drsquoIntelligence Artificielle que ce soit pour lrsquoanalyse de donneacutees ( apprentissage superviseacute ou non dont le Deep Learning classificationhellip ) la logique formelle lrsquoaide agrave la deacutecision le traitement du langage naturel et lrsquoargumentationhellip deacuteveloppeacutees dans les anneacutees 80 mais souvent trop coucircteuses qui deviennent des outils incontournables gracircce aux capaciteacutes de calcul disponibles Il nrsquoest qursquoagrave constater que les GAFAM mais aussi IBM et les marcheacutes financiers ont eacuteteacute parmi les premiers agrave reacuteafficher toute lrsquoimportance de lrsquoIA

INS2I

59

Livre Blanc sur les Donneacutees au CNRS Eacutetat des Lieux et Pratiques - 2018

Exemple de la plateforme Galactica utiliseacutee pour la cosmologie ( Prof F Toumani Universiteacute Clermont Auvergne Laboratoire LIMOS - UMR 6158 )

La plateforme Galactica ( httpsgalacticaisimafr ) mise en place en septembre 2015 dans le cadre du programme PlaSciDo de lrsquoINS2I vise le deacuteveloppement et la mise agrave disposition de services drsquoingeacutenierie et drsquoexpeacuterimentation agrave grande eacutechelle pour les chercheurs dans le domaine des grandes masses de donneacutees Galactica est un cluster composeacute de nœuds de calcul et de nœuds de stockage preacutesentant une puissance de calcul totale de 128 cœurs ( 256 vCPU ) agrave 240 GHz 38 To de RAM et une capaciteacute de stockage de 143 To reposant sur le logiciel Ceph Les nœuds du cluster sont interconnecteacutes gracircce agrave un reacuteseau agrave 10 et 40 Gos Lrsquoeacutequipement de la plateforme a beacuteneacuteficieacute drsquoun financement de lrsquoINS2I et du Contrat Plan Etat Reacutegion ( CPER ) de la reacutegion Auvergne Un objectif important de la plateforme Galactica est de mettre agrave la disposition des chercheurs en informatique une infrastructure de stockage et de calcul drsquoenvergure suffisante qui reste flexible et facile agrave configurer pour srsquoadapter aux besoins speacutecifiques des expeacuterimentations dans ce domaine Galactica offre pour cela trois niveaux de services Un premier niveau concerne lrsquoinfrastructure en tant que service deacuteployeacutee gracircce agrave la suite logicielle OpenStack qui permet agrave un chercheur de creacuteer de maniegravere aiseacutee au sein drsquoun environnement virtualiseacute les ressources informatiques ( calcul stockage reacuteseau etc ) adapteacutees agrave ses besoins Le deuxiegraveme niveau de service concerne la possibiliteacute pour un chercheur de creacuteer un cluster de traitement de donneacutees gracircce agrave lrsquoutilisation de modegraveles preacutedeacutefinis ( templates ) Les modegraveles disponibles actuellement sur la plateforme concernent les principales technologies modernes drsquoanalyse et de gestion de donneacutees massives comme par exemple Apache Hive ( httpshiveapacheorg ) Apache Hadoop ( httphadoopapacheorg ) Hortonworks Data Platform ( httpsfrhortonworkscom ) Cloudera ( httpswwwclouderacom ) et Apache Spark ( httpssparkapacheorg ) De plus gracircce au service Elastic Data Processing ( EDP ) il est possible pour un chercheur de creacuteer et drsquoexeacutecuter des jobs sur des clusters de traitement de donneacutees deacuteployeacutes au sein de la plateforme Enfin le dernier niveau de service concerne la mise agrave disposition de jeux de donneacutees soit sous forme brute par exemple les jeux de donneacutees astronomiques LSST ( 2 To et 35 To ) GAIA DR1 ( 730 Go compresseacutes httpswwwcosmosesaintwebgaiadr1 ) et SDSS DR9 ( 8 To httpwwwsdss3orgdr9 ) ou bien sous forme de laquo source de donneacutees raquo Une source de donneacutees est deacutefinie comme eacutetant une collection de donneacutees associeacutee agrave une infrastructure logicielle permettant drsquoexploiter ces donneacutees Un exemple de source de donneacutees est une machine virtuelle heacutebergeant MySQL et une base de

donneacutees MySQL contenant le catalogue associeacute au jeu de donneacutees SDSS DR9 Une source de donneacutees peut ecirctre reacutepliqueacutee facilement pour ecirctre exploiteacutee par des utilisateurs diffeacuterents dans des contextes diffeacuterents Srsquoinscrivant degraves sa creacuteation dans une dynamique de mutualisation des moyens et des compeacutetences Galactica se veut comme une plateforme ouverte aux chercheurs dans le domaine de lrsquoanalyse et de la gestion des grandes masses de donneacutees Preacutevue dans un premier temps en appui aux travaux du projet PetaSky ( httpcomisimafrPetasky ) la plateforme a eacuteteacute ouverte ensuite agrave la communauteacute de recherche en Science des Donneacutees pour accueillir actuellement 19 projets impliquant plus drsquoune soixantaine drsquoutilisateurs provenant de 12 laboratoires de recherche

Exemple de plateforme autour de la recherche drsquoinformation installeacutee agrave lrsquoInstitut de Recherche en Informatique de Toulouse ( IRIT ) OSIRIM

OSIRIM est une plateforme de stockage de forte volumeacutetrie ( 1 Po ) conccedilue pour lrsquoheacutebergement de projets scientifiques abordant les probleacutematiques lieacutees aux laquo meacutegadonneacutees raquo Cette plateforme administreacutee par lrsquoIRIT a eacuteteacute financeacutee par le gouvernement franccedilais la reacutegion Midi-Pyreacuteneacutees le Centre National de la Recherche Scientifique et le Fonds Europeacuteen de Deacuteveloppement Reacutegional dans le cadre drsquoun Contrat-Plan EtatReacutegion Elle est opeacuterationnelle depuis septembre 2013 et propose des ressources de stockage et de calcul pour la recherche sur lrsquoindexation et la recherche drsquoinformation dans des contenus multimeacutedias

La plateforme permet lrsquoheacutebergement de projets scientifiques neacutecessitant le stockage et le partage de plusieurs teacuteraoctets de donneacutees pour la reacutealisation drsquoexpeacuterimentations sur de grands volumes le partage de corpus de donneacutees issues par exemple de reacuteseaux sociaux donneacutees drsquoobservations donneacutees meacutedicales anonymiseacutees donneacutees audio ou videacuteohellip et partage drsquooutils logiciels par exemple pour lrsquoeacutevaluation de technologies Hadoop Sparkhellip OSIRIM est ouverte agrave la communauteacute informatique et autres domaines scientifiques souhaitant utiliser ses moyens mateacuteriels ou logiciels Lrsquoaccegraves agrave la plateforme srsquoeffectue directement agrave partir drsquoInternet Lrsquoheacutebergement des projets est gratuit Elle dispose drsquoun cluster Hadoop de Spark et drsquoun certain nombre drsquoautres logiciels ainsi que MongoDB en compleacutement du gestionnaire de tacircches SLURM seule offre initialement disponible sur la plateforme OSIRIM a eacutegalement eacuteteacute utiliseacutee en 2016 en soutien pour lrsquoinitiation agrave la recherche dans certaines

60

Livre Blanc sur les Donneacutees au CNRS Eacutetat des Lieux et Pratiques - 2018

formations de master toulousaines essentiellement autour de lrsquoapprentissage des technologies Hadoop En matiegravere de corpus il est agrave noter que la plateforme OSIRIM heacuteberge depuis septembre 2015 1 des tweets mondiaux ( via un flux temps reacuteel ) qursquoelle met agrave disposition des eacutequipes inteacuteresseacutees par lrsquoanalyse et lrsquoexploitation de ce corpus

Lrsquoarchitecture drsquoOSIRIM srsquoarticule autour

bull Drsquoun cluster de calcul de 640 cœurs comprenant des nœuds deacutedieacutes agrave la gestion de la plateforme agrave lrsquoheacutebergement des composants pilotant les architectures logicielles deacuteployeacutees ( gestionnaire de tacircches SLURM distribution Hadoop Spark Mongodbhellip ) ainsi que les nœuds permettant aux utilisateurs de se connecter sur la plateforme pour geacuterer leurs donneacutees et lancer lrsquoexeacutecution de leurs traitements et des nœuds deacutedieacutes aux calculs Il srsquoagit de 10 serveurs IBM X3755 M3 comprenant chacun 4 processeurs AMD Opteron 6262HE de 16 cœurs agrave 16Ghz 512 Go de RAM 2 disques de 300 Go en RAID1 et 2 liaisons agrave 10Gbs Le lancement des traitements srsquoeffectue via le gestionnaire de tacircches SLURM ( Simple Linux Utility for Resource Management ) ou par le gestionnaire de ressources Hadoop YARN

bull Drsquoune zone de stockage drsquoune capaciteacute utile drsquoenviron 1 Po Ce stockage est assureacute par une baie EMC Isilon Les donneacutees sont acceacutedeacutees en NFS et HDFS La baie est composeacutee de 12 nœuds X 400 de 36 disques SATA de 3 To chacun raccordeacutes au reacuteseau via 2 liens de 10Gbs

OSIRIM a permis cette anneacutee de reacutepondre agrave diverses demandes drsquoheacutebergement de projets tant au sein du laboratoire qursquoagrave lrsquoexteacuterieur dont

bull Grid5000 mise agrave disposition drsquoun espace de stockage de 100 To suite au raccordement drsquoOSIRIM au reacuteseau de grille de calcul Grid5000

bull Polemic avec lrsquoUAM Mexico analyse du comportement des utilisateurs dans les reacuteseaux sociaux

bull CompuBioMed avec lrsquoINSERM metamining pour la recommandation en bio-santeacute

bull Petasky avec le LIRIS techniques de partitionnement de donneacutees dans le domaine de la cosmologie

bull Musk avec lrsquouniversiteacute Paris Est ndash LISIS traitement de grands corpus textuels ( publications scientifiques tweets et actualiteacutes videacuteo )

bull SemDis avec le CLLE-ERSS creacuteation et eacutevaluation de bases distributionnelles du franccedilais

bull CAIR avec le LIRIS recherche agreacutegative de donneacutees

bull Tweet Contextualization avec lrsquouniversiteacute drsquoAvignon contextualisation de tweets autour drsquoeacuteveacutenements

Lrsquooffre logicielle proposeacutee sur la plateforme permet drsquoaccueillir depuis le deacutebut de lrsquoanneacutee 2017 de nouveaux projets dont certains neacutecessitent un heacutebergement de type cloud se traduisant par le deacuteploiement drsquoenvironnements speacutecifiques deacutedieacutes sous forme de machines virtuelles et exploitant des corpus de donneacutees heacutebergeacutes sur la plateforme OSIRIM

Enfin OSIRIM offre aussi un espace drsquoheacutebergement pour les travaux de recherche drsquoeacutequipes locales de lrsquoIRIT avec des activiteacutes lieacutees agrave

bull Lrsquoindexation de grandes masses de donneacutees heacuteteacuterogegravenes pour notamment concourir agrave des benchmarks internationaux en recherche drsquoinformation TREC29 CLEF30

bull Lrsquoeacutevaluation drsquooutils drsquoindexation de contenus musicaux indexation de grands volumes drsquoenregistrements drsquoeacutemissions de teacuteleacutevision internationales

bull Lrsquoindexation et recherche drsquoinformations dans de grandes masses de textes

bull Lrsquoanalyse de corpora textuels et ontologies

bull Le traitement complexe drsquoimages

29 Text REtrieval Conference30 Conference and Labs of the Evaluation Forum

INS2I

61

Livre Blanc sur les Donneacutees au CNRS Eacutetat des Lieux et Pratiques - 2018

293 Conclusion

La Science des Donneacutees est au cœur des pratiques de la recherche meneacutee agrave INS2I LrsquoIntelligence Artificielle quant agrave elle est revenue en force ( entre autres chez Google Microsoft IBM Amazonhellip ) avec des approches souvent deacuteveloppeacutees par les chercheurs informaticiens dans les anneacutees 80 ( mais trop coucircteuses agrave lrsquoeacutepoque ) car elle permet drsquoanalyser ces masses de donneacutees produites dans de multiples domaines et drsquoen tirer des informations eacuteventuellement pour de lrsquoaide agrave la deacutecision Dans ce domaine la France affiche un potentiel qui peut en faire lrsquoun des acteurs majeurs au niveau mondial

On peut srsquoattendre agrave des eacutevolutions rapides sur plusieurs points dont ( i ) lrsquoautomatisation des processus drsquoextraction ( meacutetadonneacutees connaissances ontologies ) et drsquointeacutegration des donneacutees et de gestion de la qualiteacute le deacuteveloppement de nouvelles meacutethodes drsquoanalyse de donneacutees multi-sources ( textes reacuteseaux sociaux audio videacuteo geacuteolocalisationhellip ) et lrsquoameacutelioration des performances ( passage agrave lrsquoeacutechelle ) ( ii ) une meilleure exploitation drsquoarchitectures adapteacutees au Big Data ( iii ) lrsquoameacutelioration de la seacutecuriteacute des infrastructures mateacuterielles et logicielles des collectes et des analyses ( iv ) lrsquooptimisation des meacutecanismes drsquoanonymisation et de cryptage garantissant la protection de la vie priveacutee ( v ) lrsquointeacutegration des donneacutees et des analyses pour la seacutecuriteacute ( cyber-seacutecuriteacute gestion de crises controcircle aux frontiegraveres ) ( vi ) lrsquointeacutegration et lrsquoexploitation des open data ( e-gouvernement santeacute impocircts )

Il reste cependant de multiples deacutefis agrave relever pour la recherche tels que

bull La maicirctrise de lrsquoheacuteteacuterogeacuteneacuteiteacute des donneacutees lors de leur inteacutegration et de leur agreacutegation en les confrontant agrave des donneacutees de reacutefeacuterences ou agrave des ontologies de domaines La deacutefinition notamment de meacutethodes de raisonnement sur des donneacutees incertaines ou incomplegravetes constitue un preacutealable fort agrave lrsquointeacutegration seacutemantique des donneacutees

bull Aller vers une theacuteorie de la deacutecision qualitative les systegravemes deacutecisionnels exploitent ces connaissances et offrent aux experts une palette drsquooutils qui ameacuteliorent non seulement leurs connaissances et leurs productiviteacutes mais leur offrent eacutegalement les meacuteta-connaissances neacutecessaires agrave une meilleure interpreacutetation des pheacutenomegravenes qursquoils observent ou surveillent De faccedilon plus geacuteneacuterale lrsquoaide agrave la deacutecision doit tenir compte autant des connaissances produites par les processus meacutetiers que des

informations qualitatives qui doivent accompagner cette connaissance Lrsquoorigine des informations la confiance en leurs producteurs leur coheacuterence leur compleacutetude leur exactitude leur fraicirccheur ainsi que la chaicircne de transformations qursquoelles ont subies sont autant drsquoeacuteleacutements indispensables agrave connaicirctre avant toute prise de deacutecision rationnelle

bull Lrsquoaide agrave la deacutecision pour les systegravemes complexes le terme Policy Analytics est utiliseacute depuis quelques anneacutees pour deacutesigner les activiteacutes drsquoexploration de tregraves grandes masses de donneacutees ( fouille extraction de connaissances ) pour la construction drsquoindicateurs syntheacutetiques et de modegraveles drsquoaide agrave la deacutecision utiliseacutes en support de pilotage de systegravemes complexes ( particuliegraverement des entreprises ou des organismes publics ) Les processus de deacutecision publique sont souvent soumis agrave drsquoimportantes exigences de leacutegitimiteacute et de sens Lrsquoaspect meacutethodologique en deacutecision est donc un problegraveme majeur ougrave la multipliciteacute des acteurs et lrsquoheacuteteacuterogeacuteneacuteiteacute seacutemantique sont des verrous agrave lever Les deacuteveloppements de systegravemes drsquoexplication ou de recommandations argumenteacutees sont des pistes agrave explorer

bull Lrsquoaide agrave la deacutecision dans un environnement ambiant ou ubiquitaire les reacuteseaux de capteurs lrsquoInternet des objets les eacutequipements mobiles produisent quantiteacute drsquoinformations correspondant agrave des releveacutes drsquoobservation ( meacuteteacuteo trafic crowdsourcing ) des donneacutees de surveillance ( santeacute ville ) des eacuteveacutenements environnementaux ( pollution tsunami ) Ces informations dites ambiantes sont pleacutethoriques heacuteteacuterogegravenes et parcellaires Elles doivent ecirctre rapprocheacutees avec des reacutefeacuterentiels pour les compleacuteter ou en deacuteterminer la seacutemantique Elles neacutecessitent souvent un traitement agrave la voleacutee pour produire des indicateurs qui serviront agrave la prise de deacutecision ou agrave la supervision agrave distance de tacircches ou de controcircle drsquoeacutequipements Ces travaux doivent tenir compte du contexte de lrsquoutilisateur de son activiteacute passeacutee de ses preacutefeacuterences et des interactions qursquoil a avec drsquoautres utilisateurs ou des communauteacutes drsquoutilisateurs

bull La preacuteservation des connaissances pour les geacuteneacuterations futures souligne lrsquoimportance de la peacuterenniteacute du stockage et le problegraveme drsquointerpreacutetation des contenus Les problegravemes souleveacutes sont agrave la fois drsquoordre technologique ( migration drsquoune technologie agrave une autre ) eacuteconomique ( coucircts de la migration et coucircts drsquoarchivage ) et seacutemantique ( eacutevolution des modegraveles de repreacutesentation de connaissances nouveaux standards de meacutetadonneacutees )

62

Livre Blanc sur les Donneacutees au CNRS Eacutetat des Lieux et Pratiques - 2018

Les sciences de lrsquoinformation irriguent et feacutecondent tout le champ scientifique gracircce agrave de nouveaux outils de modeacutelisation et de simulation de nouveaux modegraveles de calcul intensif la gestion et lrsquoanalyse de donneacutees massives le traitement du signal et de lrsquoimage la robotique les objets communicants et lrsquointeraction Lrsquoactiviteacute scientifique subit un bouleversement eacutepisteacutemologique qui conduit agrave de nouvelles formes de production de la connaissance et agrave lrsquoeacutemergence de plusieurs sous-disciplines Ainsi de nouveaux champs drsquoinvestigation sont neacutes aux interfaces des sciences de lrsquoinformation comme la bioinformatique les neurosciences computationnelles la cyber-seacutecuriteacute les humaniteacutes numeacuteriques la geacuteoinformatique lrsquoe-santeacute Lrsquoastroinformatique en est une parfaite illustration Elle integravegre lrsquoastronomie lrsquoastrophysique les statistiques lrsquoinformatique et le traitement du signal

A lrsquoimage de la bioinformatique elle est sur la voie de deacutefinir ses propres objets de recherche ses propres meacutethodes et ses propres innovations Lrsquoastrophysique a eacutemergeacute agrave la fin des anneacutees 2000 en eacutecho aux travaux de Jim Gray sur lrsquousage intensif des donneacutees en sciences Lors drsquoune confeacuterence en 2007 lrsquoinformaticien Jim Gray Prix Turing en 1998 eacutenonccedila lrsquoideacutee drsquoun nouveau paradigme de la science construit autour du traitement intensif et de lrsquoanalyse agrave grande eacutechelle des donneacutees ( data-intensive science )31 Lrsquoideacutee a depuis fait son chemin srsquoinspirant souvent du succegraves de la bioinformatique et srsquoacceacutelegravere reacutecemment sous la pression de projets drsquoenvergure comme SDSS GAIA et LSST encourageacutee aussi par les reacutecents progregraves en science des donneacutees ( requecirctes complexes apprentissage calcul distribueacute optimisation et passage agrave lrsquoeacutechelle )

31 [4] eScience -- A Transformed Scientific Method Jim Gray eScience Talk at NRC-CSTB meeting Mountain View CA 11 January 2007

INS2I

63

Livre Blanc sur les Donneacutees au CNRS Eacutetat des Lieux et Pratiques - 2018

210 INSTITUT NATIONAL DE PHYSIQUE NUCLEAIRE ET DE PHYSIQUE DES PARTICULES ( IN2P3 )

2101 Introduction

Creacuteeacute en 1971 lrsquoInstitut National de Physique Nucleacuteaire et de Physique des Particules ( IN2P3 ) du CNRS exerce les missions nationales drsquoanimation et de coordination dans les domaines de la physique nucleacuteaire de la physique des particules et des astroparticules des deacuteveloppements technologiques et des applications associeacutees Il conccediloit coordonne et anime les programmes de recherche nationaux et internationaux dans ces domaines Ses missions incluent eacutegalement la coordination de la mise en place de systegravemes drsquoinformation permettant le stockage la mise agrave disposition aupregraves de la communauteacute scientifique le traitement et la valorisation de lrsquoensemble des donneacutees scientifiques concerneacutees ainsi que leur archivage

Ces recherches ont pour but drsquoexplorer la physique des particules eacuteleacutementaires leurs interactions fondamentales ainsi que leurs assemblages en noyaux atomiques drsquoeacutetudier les proprieacuteteacutes de ces noyaux et drsquoexplorer les connexions entre lrsquoinfiniment petit et lrsquoinfiniment grand

Que ce soit avec la physique des particules aupregraves des grands acceacuteleacuterateurs la physique des astroparticules avec les expeacuteriences embarqueacutees sur satellites les teacutelescopes et autres deacutetecteurs terrestres ou encore dans une moindre mesure la physique nucleacuteaire les eacutequipes de lrsquoIN2P3 et du CEAIrfu doivent faire face agrave des masses de donneacutees consideacuterables qursquoil faut stocker distribuer et analyser Bien qursquohistoriquement lrsquoinformatique agrave lrsquoIN2P3 ait eacuteteacute fortement domineacutee par les besoins de la communauteacute de la physique des particules de nouveaux deacutefis sont apparus Des expeacuteriences de physique des astroparticules sont actuellement en cours avec des exigences qui atteindront une fraction significative de celle des expeacuteriences du Large Hadron Collider ( LHC ) au CERN dans les 5 prochaines anneacutees Un changement de paradigme est eacutegalement en cours en calcul pour la physique nucleacuteaire Compte tenu des grandes expeacuteriences agrave venir par exemple au GANIL la communauteacute veut centraliser le calcul et le stockage des donneacutees

Lrsquoensemble des expeacuteriences neacutecessite eacutegalement des modeacutelisations par technique de Monte-Carlo qui sont elles-mecircmes geacuteneacuteratrices de grandes quantiteacutes de donneacutees Lrsquoaspect donneacutees et traitement statistique est donc la caracteacuteristique principale de lrsquoinformatique pour la physique corpusculaire

Le traitement statistique global sur une multitude de jeux de donneacutees indeacutependants mdash une collision de particules correspond agrave un jeu de donneacutees mdash srsquoadapte tregraves bien agrave des architectures informatiques constitueacutees de ferme de calculateurs Drsquoune maniegravere geacuteneacuterale en dehors des calculs de chromodynamique quantique sur reacuteseau ( QCD ) la physique subatomique a tregraves peu besoin de calculateurs parallegraveles Cette caracteacuteristique lrsquoa distingueacutee de bon nombre drsquoautres disciplines scientifiques pour lesquelles le HPC est une neacutecessiteacute La principale complexiteacute du calcul pour la physique corpusculaire provient des masses de donneacutees consideacuterables qursquoil faut geacuterer et distribuer sur le reacuteseau mondial puis traiter au niveau local

Lrsquoensemble des laboratoires de lrsquoIN2P3 utilise les ressources informatiques du CC-IN2P3 ( Section 31 ) et des grilles WLCG et EGI

2102 La probleacutematique des donneacutees agrave lrsquoIN2P3

Depuis la creacuteation de lrsquoIN2P3 le plus grand deacutefi en termes de traitement de donneacutees a eacuteteacute le calcul et le stockage des donneacutees de la physique des particules issues des expeacuteriences du CERN

Dans le grand collisionneur de hadrons ( LHC ) des particules entrent en collision environ 600 millions de fois par seconde Chaque collision produit des particules qui se deacutecomposent souvent de faccedilon tregraves complexe en formant des particules plus nombreuses

64

Livre Blanc sur les Donneacutees au CNRS Eacutetat des Lieux et Pratiques - 2018

Pour chaque eacuteveacutenement qui passe par la proceacutedure de filtrage rigoureuse des deacutetecteurs du LHC il faut en moyenne simuler 1 agrave 15 eacuteveacutenement afin de pouvoir calibrer et finalement comprendre les donneacutees des expeacuteriences

Le traitement des donneacutees agrave lrsquoIN2P3 est aujourdrsquohui eacutetroitement lieacute et influenceacute par le modegravele de calcul du LHC et aligneacute sur la grille de calcul mondiale du LHC ( WLCG ) Le deacutefi consiste agrave passer au crible les 50 peacutetaoctets de donneacutees produites chaque anneacutee pour deacuteterminer si les collisions ont souleveacute une physique inteacuteressante Le WLCG est une infrastructure informatique distribueacutee organiseacutee en plusieurs niveaux ( tiers ) et offre agrave une communauteacute de plus de 8000 physiciens un accegraves en temps reacuteel aux donneacutees du LHC

Ainsi la plus grande partie de lrsquoinfrastructure de calcul drsquoIN2P3 est organiseacutee par LCG-France32 selon une structuration par Tier33 avec CC-IN2P3 eacutetant le Tier-1 franccedilais accompagneacute de 7 Tier-2 drsquoIN2P3 Cela inclut le centre Tier-2 GRIF34 ( Grille au service de la Recherche en Icircle-de-France ) avec une forte participation du CEAIrfu

Pour donner une ideacutee du deacutefi de la gestion des donneacutees en 2017 LCG-France a une capaciteacute de stockage sur disque de 17 Po au niveau Tier-1 ( crsquoest-agrave-dire agrave CC-IN2P3 ) et 14 Po au niveau Tier-2 et une capaciteacute de stockage sur bande de 40 Po au CC-IN2P3 Pour le traitement en France environ 18 000 cœurs sont reacuteserveacutes au Tier-1 et encore environ 18000 cœurs dans les centres Tier-2

32 httplcgin2p3fr33 ldquoThe Grid A system of tiersrdquo httpshomecernaboutcompu-tinggrid-system-tiers34 httpsgriffr

IN2P3

Infrastructure principale pour le calcul IN2P3

65

Livre Blanc sur les Donneacutees au CNRS Eacutetat des Lieux et Pratiques - 2018

Bien que le traitement des donneacutees pour LCG-France soit de loin le plus grand utilisateur de lrsquoinfrastructure de calcul de lrsquoIN2P3 drsquoautres communauteacutes au sein drsquoIN2P3 progressent rapidement

Par exemple en 2016 le CC-IN2P3 a fourni en moyenne 2 800 cœurs de calcul 12 To drsquoespace disque et 25 To de stockage sur bande agrave des expeacuteriences astrophysiques spatiales ( AMS-2 Planck Fermi ) Toute la communauteacute des astroparticules a utiliseacute en 2016 environ 3 Po de disque et 8 Po de bande au CC-IN2P3 Nous beacuteneacuteficions indeacuteniablement drsquoune culture et drsquoune sensibilisation aux deacutefis du traitement des donneacutees dans la communauteacute de la physique des particules et de lrsquoastrophysique Dans ce contexte les expeacuteriences du LHC filtrent leurs donneacutees autant que possible deacutejagrave au niveau du deacutetecteur De plus le nombre de copies de donneacutees est maintenu au minimum absolu neacutecessaire et les donneacutees intermeacutediaires sont effaceacutees autant que possible Dans lrsquoastrophysique spatiale le flux de donneacutees est principalement limiteacute par la largeur de bande de teacuteleacutemeacutetrie des satellites ce qui signifie qursquoun effort important est entrepris pour reacuteduire les donneacutees deacutejagrave agrave bord du satellite

Dans les anneacutees agrave venir un grand nombre de projets importants stockeront leurs donneacutees dans lrsquoinfrastructure de lrsquoIN2P3 En physique des particules lrsquoinstitut participe agrave lrsquoexpeacuterience Belle-235 de lrsquoacceacuteleacuterateur japonais SuperKEKB En physique des astroparticules agrave tregraves haute eacutenergie le Cherenkov Telescope Array ( CTA ) produira environ 8 Po de donneacutees par an dont 4 Po sont des donneacutees brutes et 2 Po sont des donneacutees simuleacutees neacutecessaires agrave lrsquoeacutetalonnage En cosmologie nous verrons le deacutemarrage de lrsquoexploitation de deux projets majeurs au deacutebut des anneacutees 2020 la mission Euclid de lrsquoESA et le Large Synoptic Survey Telescope ( LSST ) Les deux sont extrecircmement difficiles en matiegravere de quantiteacute et de qualiteacute des donneacutees Alors que pour Euclid lrsquoIN2P3 est responsable de 30 du traitement des donneacutees pour LSST nous fournirons 50 de la puissance de calcul et conserverons une archive complegravete de toutes les donneacutees LSST ( brutes et reacuteduites ) au CC-IN2P3 Les deux LSST et Euclid produiront chacun environ 100 Po de donneacutees

Dans le domaine de la physique nucleacuteaire le traitement des donneacutees a eacuteteacute jusqursquoici deacutecentraliseacute principalement au sein des groupes chargeacutes des expeacuteriences Dans le contexte de la mise en service du nouvel acceacuteleacuterateur Spiral-2 au Ganil et de lrsquoeacutevolution simultaneacutee de deacutetecteurs tels que S3 une approche plus centraliseacutee est eacutegalement neacutecessaire pour cette communauteacute

35 httpswwwbelle2org

Un groupe de travail eacutetudie les possibiliteacutes de centraliser le stockage des donneacutees et eacuteventuellement le traitement des donneacutees pour les expeacuteriences existantes et futures dans ce domaine

LrsquoIN2P3 est le principal et de loin le plus gros contributeur de France Grilles la NGI ( National Grid Infrastructure ) franccedilaise qui fait partie de lrsquoinfrastructure de reacuteseau europeacuteen ( EGI36 ) Lrsquoactiviteacute srsquoorganise autour de trois axes pour reacutealiser la strateacutegie geacuteneacuterale de France Grilles

bull Le deacuteploiement et lrsquoopeacuteration drsquoune infrastructure distribueacutee de grille et de cloud au niveau national

bull Lrsquoapplication drsquoune politique drsquoaccegraves permettant de rendre cette infrastructure disponible aux utilisateurs de toutes les disciplines

bull Lrsquointeacutegration de cette infrastructure dans EGI

France Grilles est organiseacute en un Groupement drsquoInteacuterecirct Scientifique ( GIS ) avec un grand nombre de partenaires ( CNRS MENESR CEA CPU INRA INRIA INSERM et RENATER ) et devrait jouer un rocircle de premier plan au sein de la structure laquo FR-T2 raquo actuellement en gestation et qui devrait coordonner les e-infrastructures franccedilaises de maniegravere distribueacutee et nationale

Pour permettre une utilisation efficace des donneacutees distribueacutees en plusieurs endroits ( p ex dans les diffeacuterents centres Tier en France ) France Grilles et lrsquoIN2P3 srsquoappuient notamment sur iRODS iRODS37 pour Integrated Rule-Oriented Data System est un outil de distribution de donneacutees permettant lrsquoaccegraves agrave des donneacutees se trouvant reacuteparties sur diffeacuterents sites et sur des supports heacuteteacuterogegravenes ( systegraveme de fichiers sur disques bases de donneacutees bandes magneacutetiques etc )

En outre lrsquoIN2P3 est engageacute dans le principe FAIR38pour les donneacutees Cela signifie que les donneacutees de notre recherche doivent ecirctre trouvables accessibles interopeacuterables et reacuteutilisables Dans ce contexte nous entreprenons plusieurs actions Par exemple un modegravele de plan de gestion de donneacutees commun a eacuteteacute creacuteeacute et nous avons lrsquointention drsquoen rendre obligatoire la fourniture pour tous les projets IN2P3

36 httpswwwegieu37 httpsirodsorg iRODS IN2P3 service httpsirodsin2p3fr38 par exemple Mons et al 2017

66

Livre Blanc sur les Donneacutees au CNRS Eacutetat des Lieux et Pratiques - 2018

Concernant lrsquoaspect de trouvabiliteacute des donneacutees nous recommandons lrsquoutilisation de Digital Object Identifiers39 ce qui permet drsquoeacutetablir un lien exploitable interopeacuterable et persistant vers des donneacutees par exemple dans le contexte drsquoune publication scientifique Afin drsquoassurer la reacuteutilisabiliteacute des donneacutees un projet a eacuteteacute mis en place agrave lrsquoIN2P3 en 2016 pour eacutetudier les possibiliteacutes de preacuteservation des logiciels et la valeur ajouteacutee drsquoun plan geacuteneacuteral de gestion des logiciels

Dans le contexte europeacuteen lrsquoIN2P3 suit une approche similaire agrave travers sa participation agrave des projets lieacutes agrave lrsquoEuropean Open Science Cloud ( EOSC ) LrsquoEOSC vise agrave donner aux scientifiques en Europe un accegraves transparent au calcul au stockage et aux services agrave travers les frontiegraveres et les communauteacutes Dans le cadre du projet EOSC-Pilot lrsquoIN2P3 dirige lrsquoeffort drsquointeropeacuterabiliteacute des donneacutees et des e-infrastructures crsquoest-agrave-dire que nous essayons de trouver et de proposer des solutions qui permettront agrave lrsquoEOSC drsquoatteindre ses objectifs

Lrsquoinstitut est eacutegalement impliqueacute dans deux projets europeacuteens qui eacutetudient les possibiliteacutes offertes par le cloud et les infrastructures distribueacutees Au sein drsquoHelix Nebula Science Cloud ( HNSciCloud ) nous eacutetudions une plateforme de cloud hybride rassemblant des fournisseurs de services de cloud computing des e-infrastructures financeacutees par des fonds publics et des ressources internes Et dans le projet eXtreme DataCloud ( XDC ) des systegravemes de donneacutees distribueacutees sont exploreacutes y compris des fournisseurs priveacutes et publics et eacutetudient des aspects de la gestion des donneacutees pour la physique des astroparticules et des hautes eacutenergies

2103 Conclusion

LrsquoIN2P3 a une longue histoire dans la gestion de grands flux de donneacutees ainsi que dans lrsquoorganisation et la distribution du stockage Neacuteanmoins les deacutefis agrave venir dans les 5-10 prochaines anneacutees sont importants Nous nrsquoy verrons pas seulement un grand nombre de nouveaux projets avec des volumes de donneacutees tregraves importants ( de lrsquoordre de la dizaine de peacutetaoctets par an ) entrer dans le jeu mais la deacuteferlante de donneacutees qui reacutesultera de la mise agrave niveau du LHC et de ses expeacuteriences sera encore plus significative

39 httpswwwdoiorg

En raison de lrsquointensiteacute plus eacuteleveacutee du faisceau au LHC et des deacutetecteurs ayant une reacutesolution spatiale et temporelle plus eacuteleveacutee le volume de donneacutees au LHC devrait augmenter drsquoun facteur 100 drsquoici 2025 Diffeacuterentes solutions concernant le modegravele de calcul pour le LHC sont actuellement discuteacutees Il demeure cependant eacutevident que lrsquoIN2P3 fera encore face agrave une augmentation significative des exigences de traitement des donneacutees

Pour poursuivre son approche reacuteussie de la gestion des donneacutees lrsquoinstitut poursuit plusieurs approches

bull Etudier de nouvelles approches afin drsquooptimiser les flux de donneacutees Ceci inclut lrsquoutilisation de systegravemes comme iRODS mais aussi le deacuteveloppement de nouveaux systegravemes de gestion de ressources comme DIRAC

bull Travailler sur des systegravemes de calcul en ligne qui reacuteduisent la quantiteacute de donneacutees agrave traiter en reacuteduisant les donneacutees directement sur le site drsquoexpeacuterimentation Ceci est appliqueacute par exemple dans lrsquoinfrastructure de calcul O2 pour lrsquoexpeacuterience Alice au LHC ou dans lrsquoapproche de reacuteduction de donneacutees sur site de Cherenkov Telescope Array ( CTA )

bull Continuer agrave promouvoir des systegravemes de stockage de donneacutees qui permettent lrsquoutilisation transparente de diffeacuterentes ressources

bull Coordonner lrsquoapproche pour un accegraves transparent aux donneacutees avec les initiatives au niveau franccedilais ( p ex MiCaDo COCIN FR-T2 ) et dans le contexte europeacuteen ( p ex EOSC EDI EGI EUDAT )

bull Poursuivre la centralisation de lrsquoinfrastructure informatique de lrsquoIN2P3 ce qui permet un investissement plus efficace tout en maintenant le haut niveau drsquoexpertise distribueacutee dans les laboratoires

bull Poursuivre lrsquoapproche de formation continue agrave travers des programmes de formation pour le personnel IN2P3 former la prochaine geacuteneacuteration de scientifiques de donneacutees et maintenir lrsquoIN2P3 en tant qursquoinstitut attractif pour lrsquoensemble de la communauteacute du calcul scientifique et des infrastructures associeacutees

IN2P3

67

Livre Blanc sur les Donneacutees au CNRS Eacutetat des Lieux et Pratiques - 2018

31 LE CC-IN2P3

311 Mission du CC-IN2P3

LrsquoIN2P3 srsquoappuie sur lrsquoinfrastructure de recherche Centre de Calcul de lrsquoIN2P3 ( CC-IN2P3 ) pour accomplir sa mission de mise en place de systegravemes drsquoinformation permettant le stockage la mise agrave disposition aupregraves de la communauteacute scientifique le traitement et la valorisation de lrsquoensemble des donneacutees scientifiques concerneacutees ainsi que leur archivage

Le CC-IN2P3 dispose pour cela drsquoun datacenter abritant les services informatiques neacutecessaires agrave lrsquoanalyse et agrave lrsquointerpreacutetation des processus fondamentaux de la physique subatomique Du fait de la rareteacute de ces processus ce travail requiert lrsquoanalyse statistique de millions voire de milliards drsquointeractions entre particules Cette analyse neacutecessite le transport le stockage et le traitement drsquoeacutenormes quantiteacutes de donneacutees Les analyses physiques sont meneacutees par un grand nombre de chercheurs reacutepartis dans le monde entier

Le CC-IN2P3 fournit des ressources non seulement pour la physique nucleacuteaire et la physique des particules mais aussi pour lrsquoastrophysique et les astroparticules Parmi les collaborations scientifiques majeures qui utilisent ses services on trouve le LHC40 GANILSpiral 241 LSST42 CTA43 KM3NeT44 tous figurant sur la feuille de route des TGIRIR45 ou celle de lrsquoESFRI46 Par ailleurs les technologies informatiques deacuteployeacutees pour ces besoins ont deacutemontreacute une totale adeacutequation avec les besoins drsquoautres domaines ( sciences humaines

40 Large Hadron Collider ( httphomecerntopicslarge-hadron-collider )41 Grand Acceacuteleacuterateur National drsquoIons Lourds ( httpswwwganil-spiral2eu )42 Large Synoptic Survey Telescope ( httpwwwlsstorg )43 Cherenkov Telescope Array ( httpwwwcta-observatoryorg )44 Neutrino telescopes ( httpwwwkm3netorg )45 Tregraves grandes infrastructures de recherche Infrastructures de recherche46 European Strategy Forum on Research Infrastructures ( httpseceuropaeuresearchinfrastructurespdfesfriesfri_roadmapesfri_roadmap_2016_fullpdf )

bio-informatique eacutecologiehellip ) domaines qui utilisent aujourdrsquohui modestement les services du CC-IN2P3

En premiegravere approche le calcul scientifique reacutealiseacute par les collaborations de recherche auxquelles participe lrsquoIN2P3 correspond agrave un traitement statistique global sur une multitude de jeux de donneacutees indeacutependants ( une collision de particules correspond agrave un jeu de donneacutees ) traitement qui srsquoadapte tregraves bien agrave des architectures informatiques constitueacutees de ferme de calculateurs Drsquoune maniegravere geacuteneacuterale en dehors des calculs de chromodynamique quantique sur reacuteseau ( QCD ) la physique corpusculaire a tregraves peu besoin de calculateurs parallegraveles Cette caracteacuteristique lrsquoa distingueacutee de bon nombre drsquoautres disciplines scientifiques pour lesquelles le HPC est une neacutecessiteacute

La principale complexiteacute du calcul pour la physique corpusculaire provient des masses de donneacutees consideacuterables qursquoil faut geacuterer et distribuer sur le reacuteseau mondial puis traiter au niveau local Crsquoest pourquoi le CC-IN2P3 opegravere des moyens de calcul haut deacutebit ( ou HTC pour High Throughput Computing ) en constante eacutevolution

312 Eacutequipements du CC-IN2P3 ( oct 2017 )

Ces moyens de traitement de donneacutees agrave haut deacutebit sont scheacutematiseacutes ci-contre Ils sont constitueacutes de

bull Une ferme de calcul de 16 000 cœurs physiques fonctionnant avec le gestionnaire de tacircches Univa Grid Engine

bull Un systegraveme de stockage sur disques de 15 Peacutetaoctets deacutedieacute agrave 80 aux expeacuteriences LHC Ce stockage est accessible au travers de divers logiciels ou systegravemes de fichiers

o GPFS ( IBM General Parallel File System ) fournit aux utilisateurs un espace de travail en mode

3 LES DONNEacuteES AU SEIN DES CENTRES NATIONAUX DU CNRS CC-IN2P3 ET IDRIS

68

Livre Blanc sur les Donneacutees au CNRS Eacutetat des Lieux et Pratiques - 2018

fichier flexible et accessible depuis les machines interactives ou le systegraveme de traitement par lot drsquoune capaciteacute de 2 peacutetaoctets

o AFS ( Andrew File System ) drsquoune capaciteacute de 40 teacuteraoctets permet de partager les espaces home et lrsquoessentiel des distributions de logiciels

o Le systegraveme de stockage hieacuterarchique HPSS ( High Performance Storage System ) dispose drsquoun cache sur disques permettant de geacuterer la reacutecupeacuteration et les migrations de donneacutees depuis et vers le systegraveme de stockage de masse ( cartouches magneacutetiques ) Ce systegraveme drsquoune capaciteacute de stockage actuelle totale de 340 peacutetaoctets contient agrave ce jour 59 peacutetaoctets de donneacutees scientifiques

o SRMdCache et Xrootd sont des systegravemes speacutecifiques de gestion de donneacutees deacuteveloppeacutes par la communauteacute de la physique des hautes eacutenergies et capables drsquoabsorber des charges tregraves importantes en termes drsquoentreacuteessorties Ils constituent lrsquoessentiel du stockage au CC-IN2P3

o iRods est un systegraveme de gestion de donneacutees distribueacute flexible et capable de geacuterer facilement

des meacutetadonneacutees La faciliteacute de mise en œuvre notamment pour des donneacutees distribueacutees geacuteographiquement a rendu iRods populaire et a contribueacute agrave son deacuteveloppement

bull Un ensemble de 4 silos robotiseacutes STKOracle SL8500 pour le stockage sur cartouches magneacutetiques Drsquoune capaciteacute totale de 4 times 10 000 cartouches ces silos peuvent heacuteberger jusqursquoagrave 340 peacutetaoctets avec la derniegravere technologie de lecteurs T10kD ( 85 Tocartouche )

bull Un ensemble de systegravemes de bases de donneacutees sous diverses technologies ( mySQL PostgreSQL et Oracle ) Le CC-IN2P3 a deacuteveloppeacute une expertise consideacuterable dans ce domaine et met en œuvre des architectures de clusters de bases de donneacutees particuliegraverement complexes

Lrsquoensemble des ressources informatiques est interconnecteacute sur un reacuteseau dont lrsquoeacutepine dorsale supporte une bande passante de 400 Gbs Les serveurs individuels sont connecteacutes en Ethernet agrave 1 Gbs ou 10 Gbs selon les applications Une partie du stockage exploite aussi la technologie de reacuteseau de donneacutees Fibre Channel

CENTRES NATIONAUX

69

Livre Blanc sur les Donneacutees au CNRS Eacutetat des Lieux et Pratiques - 2018

Lrsquoeacutevolution de ces ressources au cours des 6 derniegraveres anneacutees est reacutesumeacutee par les graphes suivants

313 Usages du CC-IN2P3

En 2016 lrsquousage des ressources se reacutepartit selon le graphique suivant

Bien que repreacutesentant en nombre une proportion significative de lrsquoensemble des groupes utilisant le CC-IN2P3 la part du CPU utiliseacutee par des activiteacutes de recherche ne deacutependant pas de la politique scientifique

de lrsquoIN2P3 ne repreacutesente que 2 du CPU consommeacute en 2016 ( qui srsquoeacutelegraveve agrave 17 milliard de HS06h ) et moins de 1 des capaciteacutes de stockage utiliseacutees ( qui eacutetaient de 619 Po )

70

Livre Blanc sur les Donneacutees au CNRS Eacutetat des Lieux et Pratiques - 2018

314 Preacutevisions

Depuis 2011 le CC-IN2P3 a mis en service une seconde salle machine drsquoune superficie de 850 m2 et capable agrave terme de fournir une puissance eacutelectrique de 34 MW pour le mateacuteriel informatique hors refroidissement Cette puissance vient en compleacutement des 1 MW de la premiegravere salle La conception tregraves moderne de la nouvelle salle ( pas de faux plancher organisation des serveurs en alleacutees avec confinement de la chaleur et traitement de celle-ci par la technique dite InRow double alimentation EDF redondante etc ) en fait un eacutequipement de tout premier plan capable drsquoaccueillir les moyens de calcul et de traitement des donneacutees des futures grandes expeacuteriences de physique corpusculaire

En 2017 la production de donneacutees des 4 deacutetecteurs installeacutes sur le Large Hadron Collider ( LHC ) au CERN repreacutesente un volume de 50 Peacutetaoctets par an malgreacute un filtrage eacuteliminant 99 des eacuteveacutenements observeacutes Crsquoest trois fois plus que les donneacutees produites chaque anneacutee lors de la premiegravere anneacutee drsquoexploitation Le traitement global de ces donneacutees repose sur lrsquoutilisation de la grille mondiale W-LCG composeacutee de 250 centres de calcul avec 1 Tier 0 ( au CERN ) 12 Tier 1 ( dont le CC-IN2P3 ) et plus de 200 Tier 2 Dans ce contexte lrsquoobjectif du CC-IN2P3 est de fournir 10 des ressources de calcul pour LHC Il est agrave noter que les accegraves reacuteseau du CC-IN2P3 pour lrsquoeacutechange des donneacutees de ces seules expeacuteriences repreacutesentent pregraves de 46 du trafic RENATERLe CCndashIN2P3 heacuteberge eacutegalement les donneacutees issues drsquoautres expeacuteriences HESS47 AMS48 Planck49 ANTARES50 Auger51

47 Observatoire des tregraves hautes eacutenergies ( httpswwwobspmfrhess-ii-observatoire-des-treshtml ) 48 Spectromegravetre magneacutetique alpha ( httpshomecernfraboutexperimentsams )49 Satellite drsquoobservation du fond cosmologique de la voucircte ceacuteleste ( httpsplanckcnesfr )50 Deacutetecteur sous-marin de neutrinos ( httpantaresin2p3fr ) 51 Deacutetection de rayons cosmiques de tregraves haute eacutenergie ( httpwwwin2p3frrechercheactualites19991999_augerdetecteurshtm )

VIRGO52 Supernovae53hellip qui comme celles du LHC ont chacune leur politique de gestion de donneacutees Un point commun toutefois est que les donneacutees drsquoune expeacuterience doivent pouvoir ecirctre exploiteacutees sur des dureacutees tregraves significatives avec donc des probleacutematiques de stockage peacuterenne de ces donneacutees Des processus dit de stockage intermeacutediaire sont ainsi mis en œuvre

Les besoins futurs en matiegravere de stockage de donneacutees sont agrave la hauteur de lrsquoambition des expeacuteriences qursquoheacuteberge le CC-IN2P3 En particulier les futurs deacuteveloppements du LHC ( HL-LHC ) vont provoquer une explosion du volume de donneacutees produites Parallegravelement lrsquoIN2P3 est engageacute dans les expeacuteriences majeures drsquoastroparticules et cosmologie que sont EUCLID54 LSST et CTA

La projection de ces besoins agrave lrsquoeacutecheacuteance de 2030 va ecirctre synonyme de deacuteploiement drsquoinfrastructures de dimensions tregraves significatives

A lrsquohorizon 2030 le CC-IN2P3 stockera plus de 1 200 Po de donneacutees et offrira une capaciteacute de calcul de lrsquoordre de 6 millions de HEPSpec0655 ( MHS06 )

52 Deacutetection des ondes gravitationnelles ( httpwwwvirgo-gweu )53 httpssnovaein2p3fr54 Teacutelescope spatial pour lrsquoanalyse de lrsquoeacutenergie noire ( httpwwweuclid-ecorg )55 httpswikiegieuwikiFAQ_HEP_SPEC06 1 HEPSpec06 ~= 1 GFlops

CENTRES NATIONAUX

71

Livre Blanc sur les Donneacutees au CNRS Eacutetat des Lieux et Pratiques - 2018

32 LrsquoIDRIS

321 Introduction

LrsquoIDRIS est le centre majeur du CNRS pour le calcul numeacuterique intensif de tregraves haute performance Agrave la fois centre de ressources informatiques et pocircle de compeacutetences en calcul de haute performance lrsquoIDRIS est une uniteacute propre de service du CNRS deacutependant de la Mission Calcul-Donneacutees ( MiCaDo ) du CNRS et rattacheacutee administrativement agrave lrsquoInstitut des sciences de lrsquoinformation et de leurs interactions ( INS2I ) mais dont la vocation agrave lrsquointeacuterieur du CNRS est pluridisciplinaire

Les supercalculateurs opeacutereacutes par lrsquoIDRIS proprieacuteteacute de la socieacuteteacute GENCI ( Grand Equipement National de Calcul Intensif httpwwwgencifr ) ont geacuteneacuteralement une dureacutee de vie de cinq agrave six ans Ils sont donc renouveleacutes freacutequemment avec leurs moyens de stockage associeacutes en entraicircnant agrave chaque fois des frais drsquoinstallation et parfois des frais de fonctionnement en hausse ( essentiellement dus aux consommations eacutelectriques de ces eacutequipements )

Lrsquoutilisation des ressources opeacutereacutees par lrsquoIDRIS srsquoeffectue au travers des allocations effectueacutees par GENCI soit pregraves de trois cents projets scientifiques dans tous les domaines utilisant la simulation numeacuterique dans leurs theacutematiques de recherche respectives

Suite agrave lrsquoappel drsquooffres lanceacute agrave lrsquoautomne 2011 par GENCI en partenariat avec lrsquoIDRIS deux nouveaux supercalculateurs drsquoarchitectures compleacutementaires ont eacuteteacute acquis aupregraves de la socieacuteteacute IBM en mai 2012 Lrsquoun eacutetait une machine dite massivement parallegravele de type Blue GeneQ composeacutee de quatre cabinets de chacun 16 384 cœurs pour un total de 65 536 cœurs avec 65 To de meacutemoire globale et qui deacutelivrait une puissance crecircte cumuleacutee de 839 TFlops placcedilant cette machine au 30e rang mondial en novembre 2012 Cette configuration a eacuteteacute eacutetendue en novembre 2014 par lrsquoajout de deux cabinets suppleacutementaires portant la configuration complegravete agrave 98 304 cœurs pour une capaciteacute meacutemoire totale atteignant doreacutenavant 98 To et une puissance crecircte cumuleacutee porteacutee maintenant agrave 126 PFlops ce qui a replaceacute cette machine au 42e rang mondial en novembre 2014 En novembre 2017 cette machine occupait encore le 146e rang Lrsquoautre supercalculateur est une machine dite agrave nœuds larges composeacutee de 332 nœuds de 32 cœurs pour un total de 10 624 cœurs avec 46 To de meacutemoire globale et qui

deacutelivre une puissance crecircte cumuleacutee de 230 TFlops lrsquoayant placeacute au 123e rang mondial en novembre 2012 Agrave cette configuration srsquoadjoint quatre nœuds de preacute et post-traitements de chacun 32 cœurs et 1 To de meacutemoire partageacutee ainsi qursquoun espace disques partageacute

Par ailleurs lrsquoextension des capaciteacutes de stockage a eacuteteacute reacutealiseacutee en 2014 en deux phases Drsquoune part le serveur drsquoarchives acquis en 2009 et arriveacute en fin de vie a eacuteteacute remplaceacute sur financement CNRS ce qui permettra agrave lrsquoIDRIS de faire face agrave un fort accroissement de la capaciteacute drsquoarchivage sur cartouches magneacutetiques en preacutevision de la croissance attendue de ces besoins dans les prochaines anneacutees Drsquoautre part la capaciteacute de stockage de donneacutees actives sur disques magneacutetiques agrave tregraves forte bande passante a eacuteteacute fortement accrue en 2015 avec une extension de 3 Po ( deux financeacutes par le CNRS et un par GENCI ) ajouteacutes aux 22 Po initiaux

Le remplacement de la geacuteneacuteration actuelle des supercalculateurs est maintenant preacutevu fin 2018 pour une mise en production au deacutebut de 2019 Agrave cet effet GENCI a lanceacute un appel drsquooffres en novembre 2017

LrsquoIDRIS heacuteberge en plus un certain nombre de calculateurs pour des acteurs locaux du Plateau de Saclay tel le calculateur de la Maison de la Simulation et celui du meacutesocentre CentraleSupeacutelecENS-Paris Saclay ainsi que la machine nationale de lrsquoIFB ( Institut Franccedilais de la Bioinformatique )

322 Configuration actuelle agrave lrsquoIDRIS

En janvier 2018 les moyens de calcul de GENCI heacutebergeacutes agrave lrsquoIDRIS sont constitueacutes de

bull Turing un IBM Blue GeneQ avec 98 306 cœurs PowerPC A2 agrave 16 Ghz ( soit 1644 nœuds ayant chacun 16 cœurs ) La machine est constitueacutee de 6 racks avec au total 96 Toctets de meacutemoire et une performance de crecircte de 1258 PFlops

bull Ada un IBM X3750M4 avec 10 624 cœurs SandyBridge agrave 27 Ghz ( soit 332 nœuds de 32 cœurs chacun ) La machine possegravede 49 Toctets de meacutemoire et affiche une performance de crecircte de 233 TFlops

72

Livre Blanc sur les Donneacutees au CNRS Eacutetat des Lieux et Pratiques - 2018

CENTRES NATIONAUX

Lrsquoespace disque est organiseacute en

bull Home

o Volumeacutetrie tregraves faible ( essentiellement fichiers drsquoenvironnement et sources des applications )

o Performance sans impact

o Fonctionnaliteacutes

Dureacutee de vie non limiteacutee

Soumis agrave quotas

Sauvegardeacute automatiquement ( chaque nuit )

bull Scratch

o Volumeacutetrie tregraves importante ( fonction de la puissance des calculateurs )

o Performance la plus grande possible

o Fonctionnaliteacutes

Dureacutee de vie limiteacutee agrave lrsquoexeacutecution de chaque travail ou soumis agrave des purges sur des dates drsquoancienneteacute

bull Work

o Volumeacutetrie tregraves importante ( fonction de la puissance des calculateurs )

o Performance grande

o Fonctionnaliteacutes

Dureacutee de vie non limiteacutee

Soumis agrave quotas

Pas sauvegardeacute aujourdrsquohui ( mais snapshots possibles )

73

Livre Blanc sur les Donneacutees au CNRS Eacutetat des Lieux et Pratiques - 2018

Evolution des espaces sur disques

bull De 2008 agrave 2012 12 Po agrave 6 Gos

bull Configuration acheteacutee en 2012

o 22 Po agrave 50 Gos ( deacutebit soutenu maximum )

o Compromis financier agrave lrsquoachat entre puissance de calcul et capaciteacutes de stockage

o Agrave la fois HomeScratchWork

bull A partir de 2015

o 52 Po

- Les 22 Po preacuteceacutedents

- 1 Po drsquoextension disques lieacutee agrave lrsquoextension BGQ ( 32 000 cœurs ajouteacutes en novembre 2014 )

- 2 Po extension disques

o 3 Po agrave 90 Gos

o Le scratch a eacuteteacute transfeacutereacute sur les disques de nouvelle geacuteneacuteration

o Conservation possible de versions de fichiers dans lrsquoespace Work ( snapshots )

bull Technologie GPFS drsquoIBM

bull Tous ces espaces seront redeacutefinis avec des augmentations significatives agrave la fois en volumeacutetrie et en performance pour servir la nouvelle configuration de calcul qui sera installeacutee au second semestre 2018

Au 25 aoucirct 2017 il y avait 55 millions de fichiers sur le Work 70 millions sur le Scratch et 35 millions Home + systegraveme

Les espaces sur cartouches

bull Piloteacutes par une machine drsquoarchives

o Remplaceacutee mi-2014

o Technologie TSMHSM drsquoIBM ( preacuteceacutedemment DMF de SGI )

o 11 serveurs

- 3 frontales

- 6 serveurs GPFS ( 4 pour les donneacutees 2 pour les meacutetadonneacutees )

- 2 serveurs TSMHSM ( gestion migration et robotique )

o Disques cache

- transparent pour les utilisateurs

- 2 Po agrave 24 Gos

- laquo petits raquo fichiers ( jusqursquoagrave 39 Ko ) jamais migreacutes sur cartouches

- cache pour les fichiers rechargeacutes depuis les cartouches

- purges reacuteguliegraveres en fonction de lrsquoacircge et de la taille des fichiers

o Format des donneacutees proprieacutetaire

o 4 Po migreacutes entre lrsquoancien format et le nouveau agrave lrsquoissue de 6 mois de recopies au second semestre 2014 en parallegravele avec lrsquoexploitation du nouveau serveur

bull Robot StorageTek SL8500 ( Oracle )

Il est instructif de mener un examen de lrsquoespace disque occupeacute par les diverses communauteacutes regroupeacutees en Comiteacutes theacutematiques La liste des Comiteacutes scientifiques theacutematiques nationaux est la suivante

1 Environnement

2a Eacutecoulements non reacuteactifs

2b Eacutecoulements reacuteactifs ouet multiphasiques

3 Biologie et santeacute

4 Astrophysique et geacuteophysique

5 Physique theacuteorique et physique des plasmas

6 Informatique algorithmique et matheacutematiques

7 Dynamique moleacuteculaire appliqueacutee agrave la biologie

8 Chimie quantique et modeacutelisation moleacuteculaire

9 Physique chimie et proprieacuteteacute des mateacuteriaux

10 Nouvelles applications et applications transversales du calcul

En termes de stockage sur Ada et dans une moindre mesure Turing on constate la preacutedominance des comiteacutes theacutematiques CT-1 ( Environnement hors projet CMIP6 ) CT-4 ( Astrophysique et geacuteophysique ) et CT-5 ( Physique theacuteorique et physique des plasmas ) ce qui ne reflegravete pas toujours les allocations drsquoheures de calcul par exemple sur Turing ougrave le volume drsquoheures alloueacute agrave lrsquoenvironnement est relativement faible ( 32 en 2017 )

74

Livre Blanc sur les Donneacutees au CNRS Eacutetat des Lieux et Pratiques - 2018

CENTRES NATIONAUX

75

Livre Blanc sur les Donneacutees au CNRS Eacutetat des Lieux et Pratiques - 2018

Lrsquoeacutevolution du stockage sur cartouches est en croissance reacuteguliegravere ainsi que le montre la figure ci-dessous Lrsquoessentiel du stockage sur cartouches est utiliseacute par le CT-1 avec de lrsquoordre de 80 du total ( 51 des 64 Poctets de donneacutees utilisateurs en deacutecembre 2017 )

LrsquoIDRIS est aussi impliqueacute dans la mise agrave disposition des donneacutees pour la communauteacute du climat avec le service DODS ( Distributed Oceanographic Data System ) opeacuterationnel depuis 2003 Ce serveur effectue la publication ( mondiale ) des donneacutees stockeacutees sur le serveur drsquoarchives ( potentiellement migreacutees ) avec un accegraves en lecture seule ( sauf eacutevidemment par les fournisseurs de donneacutees ) Deux espaces cohabitent sur ce serveur un espace priveacute reacuteserveacute agrave une communauteacute identifieacutee et un espace public

Il heacuteberge actuellement 25 millions de fichiers pour 407 Toctets de donneacutees stockeacutees

Depuis 2017 ce service est inteacutegreacute au sein des services du projet ESGF56 ( Earth System Grid Federation ) dans le cadre des projets CMIP57 ( Coupled Model Intercomparison Project ) pour environ 600 To fin 2017 De plus lrsquoIDRIS opeacuterera agrave partir du deacutebut de lrsquoanneacutee 2018 une archive multi-modegraveles des donneacutees les plus utiliseacutees du projet CMIP6 ( provenant drsquoenviron 50 modegraveles ) drsquoune volumeacutetrie de 4 Po afin drsquoen faciliter lrsquoexploitation et drsquooffrir un service national drsquoaccegraves agrave ces donneacutees

56 httpsesgfllnlgov57 httpswwwwcrp-climateorgwgcm-cmip

76

Livre Blanc sur les Donneacutees au CNRS Eacutetat des Lieux et Pratiques - 2018

41 INTRODUCTION

La Mission Calcul Donneacutees du CNRS (MiCaDo) soutient un certain nombre drsquoinitiatives et drsquoinfrastructures reacutegionales ou nationales au travers de lrsquoaffectation de personnels (ingeacutenieurs drsquoeacutetudes ou de recherche) dont le Centre de Calcul de lrsquoIN2P3 le Centre National de Calcul Intensif du CNRS (IDRIS) la Maison de la Simulation sur le Plateau de Saclay et les deux Uniteacutes Mixtes de Recherche CALMIP et GRICAD respectivement meacutesocentres de Toulouse et Grenoble Ces deux meacutesocentres ont des actions lieacutees agrave la fois au calcul et aux donneacutees drsquoougrave leur preacutesence dans ce Livre Blanc

42 CALMIP

Cette section a eacuteteacute eacutecrite avec Jean-Luc Estivalegravezes Directeur de lrsquoUMS CALMIP

421 Introduction

Le meacutesocentre toulousain CALMIP (CALcul en MIdi Pyreacuteneacutees) a eacuteteacute creacuteeacute en 1994 sous la forme drsquoun groupement scientifique et son premier calculateur a eacuteteacute installeacute en 1999 Depuis 2014 CALMIP est devenu une Uniteacute Mixte de Service du CNRS (UMS CNRS 3667) heacutebergeacutee actuellement agrave lrsquoEspace Cleacutement Ader dans une salle de calcul partageacutee avec le calculateur de Meacuteteacuteo-France Il beacuteneacuteficie ainsi drsquoun environnement technologique de haut niveau avec une seacutecurisation des accegraves et de lrsquoalimentation eacutelectrique et un reacuteseau de reacutecupeacuteration de chaleur

Le meacutesocentre CALMIP est ouvert agrave lrsquoensemble de la communauteacute scientifique membre de lrsquoUniversiteacute Feacutedeacuterale de Toulouse Midi-Pyreacuteneacutees ou des EPST En 2016 CALMIP a permis agrave environ 500 chercheurs dont 130 doctorants venant de 30 laboratoires de reacutealiser plus de 200 projets de recherche repreacutesentant 70 millions drsquoheures de calcul 8 grandes theacutematiques scientifiques utilisent ces moyens de calcul physico-chimie des mateacuteriaux meacutecanique des fluides sciences de lrsquoUnivers chimie quantique physique theacuteorique et moleacuteculaire bioinformatique et meacutethodes numeacuteriques

Depuis 2008 le meacutesocentre CALMIP est ouvert aux entreprises (TPE PME et ETI) pour leurs activiteacutes

innovantes et 10 des ressources du systegraveme de calcul de CALMIP sont reacuteserveacutees agrave cette activiteacuteUne eacutequipe de 6 ingeacutenieurs assure actuellement lrsquoexploitation du calculateur et le support technique et scientifique aux utilisateurs

422 Description

Les moyens de calcul sont renouveleacutes tous les 4 ans environ Le prochain renouvellement est preacutevu agrave lrsquoeacuteteacute 2018 Eos la machine actuellement en production a eacuteteacute classeacutee 183e au TOP 500 lors de sa mise en service en juin 2014 Ses caracteacuteristiques sont les suivantes

- 612 nœuds avec 2 processeurs Intel IVYBRIDGE 28 Ghz 10-cores soit un total de 12240 cœurs

- Meacutemoire 64 Go par nœud soit 39 To de RAM au total

- Puissance crecircte theacuteorique totale 274 TF

- Stockage disque 891 To de disque + 7 Po additionnels de stockage de grande capaciteacute

- Pour la partie visualisation 4 GPU (Nvidia Quadro 6000)

4 LES DONNEacuteES AU SEIN DES STRUCTURES MUTUALISEacuteES SOUTENUES PAR MICADO

STRUCTURES MUTUALISEacuteES

77

Livre Blanc sur les Donneacutees au CNRS Eacutetat des Lieux et Pratiques - 2018

CALMIP a installeacute en 2016 une infrastructure de stockage appeleacutee ATLAS pour reacutepondre agrave la convergence des besoins en calcul intensif et en traitement massif de donneacutees Un poste IR CNRS a eacuteteacute afficheacute en soutien agrave cette infrastructure Elle se compose

bull Drsquoun espace de stockage de 3 Po utiles sur systegraveme de fichiers parallegravele GPFS sur lequel les utilisateurs vont pouvoir deacuteposer agrave la fois les donneacutees de simulation produites par le supercalculateur Eacuteos mais aussi le cas eacutecheacuteant les donneacutees drsquoentreacutee neacutecessaires agrave ces simulations (fonctionnaliteacute de type workdir)

bull Drsquoun espace de stockage objet drsquoun volume utile de 4 Po ayant pour principale fonction de seacutecuriser lrsquoespace de stockage preacuteceacutedent

Le prochain renouvellement est preacutevu agrave lrsquoeacuteteacute 2018 Dans le cadre du projet CADAMIP (CPER 2015-2020 financement Etat Reacutegion Occitanie Toulouse Meacutetropole IDEX) CALMIP a choisi son nouveau supercalculateur pour la peacuteriode 2018-2022 Ce nouveau systegraveme de calcul Atos-BULL baptiseacute OLYMPE propose une puissance de 1365 Peacutetaflops

bull Un supercalculateur massivement parallegravele formeacute de 13 464 cores Intel(r) SKYLAKE 6140 interconnecteacutes via un reacuteseau Infiniband EDR (100 Gbs) dont la puissance de calcul et de traitement est 5 fois supeacuterieure agrave celle du supercalculateur actuel EOS pour la mecircme enveloppe eacutenergeacutetique

bull Un espace disque de travail drsquoune capaciteacute de 15 Po dont les performances (40 Gos) sont multiplieacutees par 4 par rapport agrave EOS afin de reacutepondre aux besoins lieacutes au traitement massif de donneacutees drsquoentreacutee et de sortie Cet espace est relieacute aux nœuds de calcul du supercalculateur

bull 2 nœuds de calcul SMP de 15 To de meacutemoire vive inteacutegreacutes au supercalculateur

bull Une connexion au systegraveme de stockage capacitif et seacutecuriseacute ATLAS afin drsquooffrir aux porteurs de projets un espace permettant de seacutecuriser leurs donneacutees sur la continuiteacute

bull Une partition GPU significative associeacutee au supercalculateur en vue drsquoapplications sur le traitement massif de la donneacutee

La mise en production est preacutevue pour septembre 2018

43 GRICAD

Cette section a eacuteteacute eacutecrite avec Violaine Louvet Directrice de lrsquoUMS GRICAD

431 Contexte

La rationalisation des infrastructures (immobiliegraveres et plateformes) pour reacuteduire les coucircts augmenter le niveau de service et gagner en fiabiliteacute et seacutecuriteacute dans une deacutemarche de deacuteveloppement durable et soutenable neacutecessite de repenser lrsquourbanisation des infrastructures de calcul et de donneacutees ainsi que lrsquoorganisation des moyens humains en synergie avec les laboratoires de recherche et les services communs Ces enjeux srsquoinscrivent agrave Grenoble dans un contexte de mutation forte du paysage de la recherche fusion des universiteacutes obtention drsquoun IdeX mais srsquoappuient eacutegalement sur un terreau de collaborations historiques entre les acteurs du numeacuterique (DSI des eacutetablissements structure interuniversitaire laboratoires) tregraves fertile

432 LrsquoUMS GRICAD

LrsquoUniteacute mixte de services GRICAD (Grenoble Alpes Recherche - Infrastructure de CAlcul intensif et de Donneacutees) a eacuteteacute creacuteeacutee dans ce contexte en 2016 comme une structure transversale mutualiseacutee autour du calcul et des donneacutees au service des personnels de lrsquoensemble des pocircles de recherche du site grenoblois Sous la tutelle du CNRS de lrsquoUGA de Grenoble-INP et drsquoINRIA elle regroupe des compeacutetences en interne autour de lrsquoadministration systegraveme speacutecifique des machines de calcul et des plateformes lieacutees aux donneacutees du calcul scientifique et intensif et du Big Data Elle feacutedegravere eacutegalement les forces du site dans une deacutemarche plus globale en srsquoappuyant sur les expertises preacutesentes dans les laboratoires les DSI et les structures drsquoenseignement

Cette mutualisation de moyens humains externes autour drsquoinfrastructures de site a lrsquoeacutenorme avantage de favoriser la proximiteacute avec les eacutequipes de recherche et donc drsquoecirctre au plus pregraves des besoins des communauteacutes

78

Livre Blanc sur les Donneacutees au CNRS Eacutetat des Lieux et Pratiques - 2018

Les missions de GRICAD recouvrent

bull Lrsquoaccompagnement et le conseil aux communauteacutes scientifiques identification et aide agrave la speacutecification du besoin autour du calcul et des donneacutees support agrave lrsquoutilisation des plateformes soutien au montage de projet sur la partie technique

bull Le calcul intensif avec un accegraves agrave diffeacuterents types de calculateurs

bull Le traitement la valorisation la diffusion le stockage des donneacutees de la recherche avec un accegraves agrave plusieurs plateformes (stockage cloudhellip)

bull Lrsquoheacutebergement sec de serveurs avec la coordination de la gestion des datacentres mutualiseacutes du site grenoblois

bull Lrsquoanimation la formation et le reacuteseautage en collaboration avec les autres acteurs du site (en particulier la maison de la modeacutelisation MaiMoSiNE le reacuteseau des informaticiens SARI et le Data Institute de Grenoble)

433 Les services autour de la donneacutee

La creacuteation de GRICAD srsquoest appuyeacutee sur un existant solide et historique autour du calcul intensif le meacutesocentre CIMENT Les services autour de la donneacutee ont eacuteteacute construits ex nihilo agrave partir des besoins exprimeacutes par les communauteacutes scientifiques

Les caracteacuteristiques principales sont une tregraves grande diversiteacute des donneacutees et un rapprochement important avec le calcul intensif sous la forme de besoins en traitement tregraves varieacutes Les difficulteacutes rencontreacutees concernent drsquoune part une connaissance et une appropriation technique tregraves heacuteteacuterogegravenes des technologies et des infrastructures drsquoune communauteacute agrave lrsquoautre voire drsquoun individu agrave lrsquoautre et drsquoautre part un accompagnement interne (dans les laboratoires) tregraves diffeacuterent drsquoune structure agrave lrsquoautre neacutecessitant la mise en place drsquoun support laquo agrave la carte raquo Le deacuteploiement des services autour de la donneacutee doit aussi srsquointeacutegrer dans un environnement existant de structures de recherche drsquoaccompagnement de projets aux niveaux local national et europeacuteen

GRICAD participe ainsi au projet europeacuteen EOSCPilot par exemple

Lrsquooffre de service proposeacutee par GRICAD inclut lrsquoaccegraves agrave diffeacuterents environnements de stockage drsquoinfrastructures de cloud de Big Data de traitements de donneacutees et piles logicielles lieacutees agrave la manipulation de la donneacutee LrsquoUMS collabore eacutetroitement avec la recherche en informatique en particulier lrsquoinfrastructure nationale Gridrsquo5000 avec laquelle elle partage une nouvelle machine de calcul notamment deacutedieacutee aux Data Analytics Les services et plateformes proposeacutes sont dynamiques et eacutevolutifs en fonction des demandes des scientifiques

GRICAD accompagne tout particuliegraverement certaines communauteacutes Drsquoune part pour les aider agrave aborder le tournant du numeacuterique et drsquoautre part pour faire monter en compeacutetences ses eacutequipes propres sur les technologies agrave la pointe LrsquoUMS est ainsi tregraves active dans le projet drsquoentrepocirct de donneacutees du CHU de Grenoble et dans plusieurs projets avec la communauteacute SHS (collecte de donneacutees du web deep learning)

434 Description des ressources de calcul et de stockage

GRICAD offre une diversiteacute de plateformes deacuteployeacutees en fonction des besoins exprimeacutes par les communauteacutes scientifiques

bull Froggy calcul intensif (reacuteseau Infiniband) constitueacute de 3236 coeurs de calcul et drsquoun stockage Lustre de 90 To Froggy integravegre quelques nœuds GPU

bull Luke traitement massif de donneacutees 906 coeurs de calcul

bull Dahu machine de convergence HPC - Data Analytics mutualiseacutee avec Gridrsquo5000 2560 coeurs de calcul reacuteseau Omnipath avec nœuds burst buffers (NVMe) et scratch SSD

bull Stockage IRODS drsquoenviron 1 Po mutualiseacute distribueacute et accessible depuis lrsquoensemble des plateformes

bull Bettik Stockage BeeGFS de 292 To utiles fournissant aux machines Luke et Dahu un scratch distribueacute et performant

STRUCTURES MUTUALISEacuteES

79

Livre Blanc sur les Donneacutees au CNRS Eacutetat des Lieux et Pratiques - 2018

bull SUMMER Stockage NetApp de plus de 3 Po de volumeacutetrie brute proposant diffeacuterents niveaux de seacutecurisation (sauvegarde reacuteplication) et diffeacuterents niveaux de performance (stockage capacitif ou performant)

bull WINTER Plateforme VMWare de virtualisation

bull Cloud openstack sur stockage CEPH

bull Plateforme JupyterHub de notebooks

bull Plateforme Big Data Hadoop

435 Interactions et cross-fertilisation

La transversaliteacute intrinsegraveque des infrastructures de calcul et de donneacutees fait de lrsquoUMS GRICAD un lieu naturel de lrsquointerdisciplinariteacute et de rencontres des diffeacuterentes communauteacutes scientifiques Lrsquoobjectif afficheacute est de deacutepasser les speacutecificiteacutes disciplinaires afin de pouvoir offrir des solutions mateacuterielles et technologiques partageacutees et co-construites

GRICAD srsquoefforce de deacutevelopper une logique de mutualisation drsquoexpeacuteriences autour de la deacutefinition et lrsquoappropriation des services numeacuteriques proposeacutes en diffusant les pratiques existantes dans les disciplines les plus avanceacutees dans le domaine et en incitant au transfert de technologie drsquoune communauteacute agrave lrsquoautre Les missions autour de lrsquoanimation et de la formation sont en cela particuliegraverement critiques

Le deacuteveloppement de liens entre les chercheurs autour de theacutematiques neacutecessairement communes est essentiel Ainsi des groupes de travail interdisciplinaires ont eacuteteacute formeacutes pour reacutepondre au questionnement autour du cycle de vie de la donneacutee et de la nouvelle reacuteglementation europeacuteenne sur les donneacutees personnelles (RGPD) par exemple

La valeur ajouteacutee drsquoune uniteacute de services agrave lrsquoeacutechelle drsquoun site comme Grenoble est fondamentalement la proximiteacute avec les eacutequipes de recherche et la souplesse pour reacutepondre aux besoins des scientifiques

80

Livre Blanc sur les Donneacutees au CNRS Eacutetat des Lieux et Pratiques - 2018

Le traitement des donneacutees agrave grande eacutechelle (Big Data) est un reacuteel enjeu strateacutegique pour le CNRS et concerne tous les instituts mecircme si les pratiques au sein de chaque institut sont tregraves variables en fonction de lrsquohistorique de chaque discipline en matiegravere de donneacutees La maicirctrise de tous les aspects du Big Data relegraveve drsquoune deacutemarche fondamentalement interdisciplinaire dans laquelle le CNRS se doit drsquoexceller

Lrsquoenjeu fondamental pour le CNRS est de promouvoir une veacuteritable laquo culture de la donneacutee raquo au sein du CNRS Le CNRS doit mieux valoriser toutes les donneacutees que ses eacutequipes de recherches produisent se doter drsquoune strateacutegie en matiegravere de donneacutees et afficher son rocircle moteur dans des initiatives comme EOSC58 ou lieacutees agrave lrsquoOpen Science lrsquoOpen Data et agrave RDA59 et agrave des principes comme le FAIR Data60 Le CNRS se doit de mettre en place une reacuteponse coordonneacutee face aux besoins eacutemergeants en termes de donneacutees drsquoecirctre plus attractif pour des recrutements drsquoanalystes de donneacutees et drsquointensifier ses actions de formation au niveau des outils dans le domaine Il doit aussi ecirctre attentif agrave lrsquoeacutevolution de carriegravere des personnels ITA (ingeacutenieurs essentiellement) impliqueacutes dans ces actions interdisciplinaires Il est aussi souhaitable de mener une reacuteflexion sur une politique des donneacutees au sein du CNRS relative agrave leur cycle de vie utilisation creacuteation collection preacuteservation partage reacuteutilisation et publication interopeacuterabiliteacute deacutefinition de Data Management Plan61 proprieacuteteacute ouverture adoption des principes FAIR consommation eacutenergeacutetique et empreinte carbonehellip

Lrsquoavalanche de donneacutees qui ne fait que se confirmer dans de multiples domaines doit inciter le CNRS agrave se doter drsquoune strateacutegie forte agrave la hauteur des enjeux scientifiques en

bull Reacutepondant aux besoins des communauteacutes en matiegravere de plateformes pour lrsquoanalyse de donneacutees agrave grande eacutechelle le cas eacutecheacuteant en lien

58 The European Open Science Cloud (httpseoscpiloteu)59 Research Data Alliance (wwwrd-allianceorg)60 Findable Accessible Interoperable Reusable data61 Voir par exemple dmpopidorfr

avec les systegravemes drsquoobservation les plateformes expeacuterimentales ou les grandes simulations numeacuteriques qui les produisent avec les probleacutematiques du stockage de la gestion et de la valorisation de ces donneacutees du support pour les utilisateurs de la formation de Data scientists (chercheurs ou ingeacutenieurs compeacutetents en analyse de donneacutees) et du deacuteploiement de chaicircnes logicielles drsquoanalyse de donneacutees passant agrave lrsquoeacutechelle

bull Favorisant lrsquointerdisciplinaire entre les communauteacutes produisant des donneacutees et les communauteacutes dont crsquoest lrsquoobjet de recherche en particulier en capitalisant sur les multiples compeacutetences en apprentissage et Intelligence Artificielle au CNRS

bull Mettant en place une politique de gestion de valorisation et de peacuterennisation des donneacutees au sein du CNRS

Le CNRS pourrait srsquoappuyer sur la mission Calcul et Donneacutees du CNRS (MICADO) pour deacutefinir et mettre en œuvre une telle strateacutegie autour de lrsquoorganisation de la gestion de lrsquoexploitation des donneacutees scientifiques et avec des moyens suppleacutementaires contribuer agrave lrsquoeacutemergence de plateformes de gestion et drsquoanalyse de donneacutees en y positionnant des ingeacutenieurs et des data scientists capables drsquooffrir un service technique de haut niveau et drsquoaccompagner les chercheurs dans leurs expeacuterimentations Cette action pourrait contribuer agrave faire eacutemerger sur le territoire quelques sites de reacutefeacuterences autour desquels peuvent graviter plusieurs projets de recherche en sciences des donneacutees ou srsquointeacuteresser agrave des communauteacutes scientifiques speacutecifiques De telles initiatives peuvent et doivent ecirctre compleacutementaires des autres initiatives locales ou reacutegionales soutenues par des IDEX ou drsquoautres organismes de recherche par exemple

5 CONCLUSION

81

Page 4: Livre Blanc sur les Données au CNRS État des Lieux et

Livre Blanc sur les Donneacutees au CNRS Eacutetat des Lieux et Pratiques - 2018

1 Lrsquoorganisation la gestion et lrsquoexploitation scientifique des donneacutees1 dont les volumes les vitesses et la diversiteacute ne cessent de croitre sont devenues aujourdrsquohui un enjeu majeur pour la production de nouvelles connaissances et deacutecouvertes scientifiques Elles sont cruciales pour de nombreuses applications deacuteriveacutees agrave fort impact socieacutetal ( changements climatiques et environnementaux biologie santeacute villes et transports intelligentshellip ) eacuteconomique ( p ex nouvelles ressources eacutenergeacutetiques finance compeacutetitiviteacute industrielle ) et eacutethique ( santeacute biologie sciences humaines et socialeshellip ) Combineacute agrave lrsquoIntelligence Artificielle ( IA ) le Big Data est eacutegalement devenu un enjeu pour les systegravemes de surveillance et drsquoaide agrave la deacutecision ( preacutevision des aleacuteas naturels et preacutevention des risques associeacutes eacutepideacutemiologie deacuteveloppement durablehellip )

2 Le Big Data concerne aujourdrsquohui lrsquoensemble des instituts et des communauteacutes scientifiques du CNRS Sa prise en compte dans les pratiques de recherche et dans lrsquoorganisation des communauteacutes varie selon les instituts du CNRS avec

bull Des instituts dont les pratiques de recherche sont fortement structureacutees agrave lrsquoeacutechelle reacutegionale nationale et internationale autour de la production du traitement de lrsquoarchivage et de la curation de lrsquoanalyse et la valorisation scientifique de gros volumes de donneacutees avec des infrastructures feacutedeacutereacutees et via un stewardship des donneacutees bien eacutetabli ( IN2P3 INSU INSB INSHS )

bull Des instituts qui se structurent aujourdrsquohui afin de reacutepondre aux besoins eacutemergeants associeacutes agrave lrsquoaugmentation des volumes et de la diversiteacute de leurs donneacutees dans les pratiques de recherche ( INEE )

bull Des instituts pour qui en dehors de certaines TGIR par exemple la prise en compte de la probleacutematique des donneacutees reste encore embryonnaire mecircme si

1 Les donneacutees srsquoentendent ici comme toute information codeacutee numeacuteriquement qui peut ecirctre stockeacutee transmise comprise et trai-teacutee par des ordinateurs Elles incluent par exemple les donneacutees geacuteneacutereacutees par des grands instruments scientifiques des systegravemes drsquoobservation des faciliteacutes expeacuterimentales des laboratoires de diagnostic des reacuteseaux de capteurs distribueacutes ( en milieux naturels ou urbains ) des simulations numeacuteriques des reacuteseaux de com-munications et sociaux ainsi que des collections archiveacutees et organiseacutees de nouveaux objets digitaux associeacutes aux reacutesultats de la recherche et agrave la numeacuterisation de collections de bibliothegraveques et de museacutees

les choses devraient rapidement eacutevoluer dans un contexte de compeacutetitiviteacute internationale en raison de lrsquoimportance croissante des donneacutees dans leurs pratiques de recherche ( INC INP INSIS )

bull Des instituts pour lesquels la donneacutee et les meacutethodes drsquoanalyse de donneacutees sont en soi un objet de recherche ( INSMI et INS2I )

bull Des besoins et des pratiques relatifs aux donneacutees tregraves lieacutes aux communauteacutes scientifiques et pouvant mecircme varier drsquoun pays agrave lrsquoautre au sein drsquoune mecircme communauteacute scientifique ( pex base de donneacutees du CoE NOMAD ) La reacuteflexion sur les donneacutees est parfois loin drsquoecirctre mature dans certaines communauteacutes

3 Les flux de donneacutees ( volume veacutelociteacute diversiteacute ) explosent Ils sont engendreacutes aujourdrsquohui au sein

bull drsquoenvironnements centraliseacutes ( c-agrave-d HPC et Cloud ) qui concentrent des ressources de pointe ( stockage calcul communication ) au sein de grands ensembles de simulations numeacuteriques

bull et drsquoenvironnements peacuteripheacuteriques ou reculeacutes ougrave ces ressources sont rares par exemple les grands instruments ( collisionneurs et acceacuteleacuterateurs ) et reacuteseaux drsquoobservation ( sol mer air spatial ) les reacuteseaux de capteurs lrsquointernet des objets

4 La logistique des donneacutees la neacutecessiteacute de redistribuer de grands jeux de donneacutees depuis les environnements centraliseacutes vers la peacuteripheacuterie durant leur cycle de vie fait deacutesormais de la logistique des donneacutees ( c-agrave-d positionnement encodage agencement des donneacutees au cours du temps transmission archivage et distribution des ressources et des services disponibles ) un des principaux deacutefis La reacuteduction laquo intelligente raquo2 des donneacutees tout au long de leur mouvement de leur traitement et de leur analyse est commune agrave tous les environnements de production

2 Processus neacutecessitant de deacuteplacer laquo lrsquointelligence raquo au plus proche de leurs sources ( centraliseacutees ou peacuteripheacuteriques ) afin de traiter et reacuteduire ces flux en continu au cours de leur transport et de leur analyse au travers drsquoun reacuteseau ( statique ou dynamique ) de res-sources ( calcul stockage ) et de services distribueacutes caracteacuteriseacute par un continuum de bandes passantes heacuteteacuterogegravenes

LES DONNEacuteES AU CNRS SYNTHEgraveSE

4

Livre Blanc sur les Donneacutees au CNRS Eacutetat des Lieux et Pratiques - 2018

5 Stewardship des donneacutees un autre deacutefi critique est lrsquoorganisation des communauteacutes ( c-agrave-d stewardship ) et des ressources autour des donneacutees en phase avec leurs pratiques de recherche pour lrsquoarchivage et la curation des donneacutees Cela recouvre une varieacuteteacute drsquoactiviteacutes dont

bull Lrsquointeacutegration lrsquoagreacutegation le traitement et la calibration lrsquoarchivage et le reacutefeacuterencement la curation la documentation la publication des donneacutees ainsi que leur diffusion rapide eacuteventuellement apregraves une courte peacuteriode drsquoexclusiviteacute agrave lrsquoensemble de la communauteacute afin drsquoen maximiser le retour scientifique

bull La deacutefinition de standards reconnus et partageacutes de repreacutesentation et drsquoeacutechanges de donneacutees des services ( deacutecouverte accegraves manipulation visualisation ) ainsi que des protocoles de controcircle de qualiteacute et de veacuteraciteacute des donneacutees

bull Lrsquoexistence de plateformes drsquoarchivage et de curation des donneacutees mutualisant expertises ressources ( stockage calcul ) et services sur le cycle de vie des donneacutees qui pour certaines disciplines va bien au-delagrave de la dureacutee de vie des instruments systegravemes drsquoobservation et faciliteacutes expeacuterimentales

bull Et selon les communauteacutes la mise agrave disposition et la maintenance de logiciels et de librairies de reacutefeacuterence et de nouveaux objets associant donneacutees et reacutesultats de recherche ( annotations publications )

6 Interdisciplinariteacute et donneacutees multi-source la maicirctrise de tous les aspects du Big Data relegraveve drsquoune deacutemarche fondamentalement interdisciplinaire En effet un nombre croissant drsquoenjeux scientifiques impliquent aujourdrsquohui une compreacutehension preacutedictive drsquoun mecircme objet ou systegraveme ( p ex astronomie climat geacuteophysique surveillance des aleacuteas naturels et changements environnementaux physique des hautes eacutenergies sciences des mateacuteriaux bio-meacutedecine biologie sciences eacuteconomiques et sociales ) Ces approches interdisciplinaires requiegraverent des systegravemes drsquoinformation permettant la deacutecouverte et lrsquoaccegraves fluide agrave des donneacutees multi-types et multi-sources issues de domaines et de systegravemes drsquoacquisition diffeacuterents accompagneacutes drsquooutils laquo translationnels raquo pour les combiner les croiser et les syntheacutetiser au sein de chaicircnes de traitement et drsquoanalyse souvent coupleacutees agrave des simulations numeacuteriques Deacutecouvrir et acceacuteder agrave ces donneacutees ainsi qursquoaux ressources et services associeacutes demande une harmonisation ( agrave travers diffeacuterentes disciplines ) et une standardisation ( au sein des disciplines ) des modegraveles de donneacutees

7 Convergence HPC et HDA au-delagrave de la diversiteacute des applications scientifiques exploitant les donneacutees de nombreuses communauteacutes scientifiques combinent et orchestrent aujourdrsquohui des applications drsquoanalyse de pointe ( HDA pour High-end Data Analysis ) et de calcul haute performance ( HPC pour High-Performance Computing ) combineacutees de plus en plus agrave des meacutethodes drsquoapprentissage machine au sein de larges workflows piloteacutes par les donneacutees A chacune de leurs eacutetapes ces workflows requiegraverent souvent drsquoacceacuteder manipuler et combiner de maniegravere coordonneacutee de larges volumes et une grande diversiteacute de donneacutees multi-sources geacuteneacutereacutees par les observations les expeacuteriences et les simulations Ces workflows ne sont pas des outils logiciels ou des codes applicatifs isoleacutes mais des configurations complexes et variables de flux de donneacutees et de logiciels mobilisant des ressources de calcul hybrides ( HTC pour High-Throughput Computing et HPC avec une utilisation croissante des GPUs ) et de stockage ( bases de donneacutees systegravemes de fichiers parallegraveles stockage de type objet ) dans des environnements drsquoexeacutecution ( en flux et par lots ) supportant les nouvelles technologies de virtualisation ( conteneurisation )

8 Une nouvelle strateacutegie et architecture agrave mesure que le HDA et le HPC continueront agrave se deacutevelopper il semble clair que les systegravemes centraliseacutes ( c-agrave-d centres HPC et systegravemes Cloud ) et deacutecentraliseacutes ( plateformes distribueacutees de services ) doivent ecirctre inteacutegreacutesfeacutedeacutereacutes au sein drsquoun reacuteseau de ressources et de services adressant la complexiteacute et la diversiteacute de la logistique des donneacutees tout au long des chaicircnes de production et drsquoutilisation des donneacutees Cela requiert une nouvelle strateacutegie ( meacutethodologique technologique et culturelle ) et une nouvelle architecture avec de nouveaux enjeux logiciels afin drsquointerfacer et drsquointeropeacuterer une diversiteacute de plateformes technologiques incluant

bull Plateformes peacuteripheacuteriques de traitement et de reacuteduction des donneacutees ( c-agrave-d edge-infrastructures ) permettant le traitement lrsquoagreacutegation et la reacuteduction laquo intelligente raquo des flux ( volumes vitesses ) au plus proche de leurs sources ( grands instruments systegravemes drsquoobservations reacuteseaux de capteurshellip ) dans des environnements souvent reculeacutes ainsi que le pilotage adaptatif de leurs systegravemes drsquoacquisition

bull Plateformes de services de calcul et drsquoanalyse de donneacutees distribueacutees et feacutedeacutereacutees mutualisant dans des environnements multi-utilisateur et multi-application des services flexibles de communication de logiciel de stockage de calcul ( HDA HPC ) drsquoexeacutecution ( flux lots ) adapteacutes au

5

Livre Blanc sur les Donneacutees au CNRS Eacutetat des Lieux et Pratiques - 2018

Big Data ( p ex Spark Storm ) et aux nouvelles technologies de virtualisation ainsi qursquoagrave lrsquoutilisation croissante de meacutethodes de type statistique et apprentissage machine avec des flux de traitement et drsquoanalyse proches des vitesses drsquoaccegraves aux donneacutees

bull Plateformes centraliseacutees de type HPC et Cloud crsquoest-agrave-dire agrave lrsquoeacutechelle des grands centres nationaux et reacutegionaux Elles concentrent des ressources de tregraves haute performance dont lrsquoutilisation doit ecirctre maximiseacutee pour servir des communauteacutes multiples avec de nouveaux environnements ( p ex OpenHPC ) permettant de supporter les technologies de virtualisation et adapteacutes agrave des configurations complexes de workflows couplant HPC et HDA ainsi que lrsquoutilisation croissante des meacutethodes de type Intelligence Artificielle ( pour lrsquoanalyse de donneacutees la repreacutesentation des connaissances et lrsquoaide agrave la deacutecision ) grands ensembles de simulations numeacuteriques coupleacutees ingestion et assimilation de grands jeux de donneacutees multi-source

bull Plateformes feacutedeacutereacutees drsquoarchivage de curation et de distribution des donneacutees mutualisant ressources services et expertises pour le stockage la curation et la mise agrave disposition de donneacutees durant leur cycle de vie et dont les volumes et la diversiteacute impliquent aujourdrsquohui des capaciteacutes croissantes de stockage et de calcul

9 Efficience eacutenergeacutetique lrsquoefficience eacutenergeacutetique est aujourdrsquohui un deacutefi transversal majeur Le mouvement et le traitement des donneacutees et des informations ont un coucirct dont la reacuteduction passe notamment par ( i ) lrsquoutilisation de plateformes ( HPC calcul et analyse ) ( ii ) eacuteviter des reacutepeacutetitions inutiles de transferts ( cachingbufferisation ) et les optimiser ( pre-fetching compression ) ( iii ) reacuteduire les distances et mutualiser les environnements drsquoheacutebergement ( colocalisation des plateformes drsquoarchivage et de curation et des plateformes de calcul et drsquoanalyse des donneacutees ) ( iv ) faciliter la reacuteutilisation des calculs et des donneacutees au sein et entre domaines ( observations et reacutesultats de simulations meacutetadonneacutees catalogues )

10 Nouvelles expertises et activiteacutes maitriser les enjeux associeacutes aux donneacutees et accompagner toutes ces eacutevolutions requiert aujourdrsquohui drsquoassocier raisonnement scientifique et innovation technologique au travers de nouvelles expertises ( Chercheurs ITA ) et de collaborations interdisciplinaires entre les diffeacuterents domaines applicatifs les sciences des donneacutees la recherche informatique et les deacuteveloppeurs et fournisseurs drsquoinfrastructures Ces diffeacuterents enjeux

requiegraverent eacutegalement un ensemble drsquoactiviteacutes ainsi que des nouvelles plateformes technologiques ( stockage calcul communication ) complexes agrave geacuterer qui constituent des tacircches lourdes et coucircteuses en effort humain Le deacuteficit drsquoexpertise de moyens humains et de reconnaissance de ces nouvelles activiteacutes que lrsquoon constate dans de nombreux domaines freine lrsquoorganisation des communauteacutes scientifiques et le deacuteveloppement de nouvelles pratiques de recherche et in fine peacutenalise la production scientifique

11 Contexte interne au CNRS le CNRS et ses diffeacuterents Instituts constituent un contexte scientifique et technologique particuliegraverement favorable agrave une maicirctrise des probleacutematiques autour des donneacutees avec des instituts producteurs de donneacutees et des instituts pour lesquels les donneacutees sont des objets de recherche des pratiques interdisciplinaires bien eacutetablies ( coopeacuterations inter-instituts Mission pour lrsquoInterdisciplinariteacute avec en particulier le deacutefi MASTODONS3 lrsquoINIST et des initiatives comme Cat OpiDor4hellip ) ainsi que deux centres nationaux nationalement et internationalement reconnus dans les domaines du HPC ( IDRIS ) et de la gestion et de lrsquoanalyse de donneacutees massives ( CC-IN2P3 )

12 On constate dans tous les domaines des besoins eacutevidents en

bull Plateformes pour lrsquoanalyse de donneacutees agrave grande eacutechelle avec les probleacutematiques du stockage de la gestion et de la valorisation de ces donneacutees

bull Support pour les utilisateurs

bull Data scientists ( chercheurs ou ingeacutenieurs compeacute-tents en analyse de donneacutees )

bull Deacuteploiement de chaicircnes logicielles drsquoanalyse de donneacutees qui passent agrave lrsquoeacutechelle

3 Grandes masses de donneacutees scientifiques ( httpwwwcnrsfrmispipphparticle53 )4 Catalogue des services franccedilais deacutedieacutes aux donneacutees scientifiques ( httpscatopidorfr )

SYNTHESE

6

Livre Blanc sur les Donneacutees au CNRS Eacutetat des Lieux et Pratiques - 2018

bull Effort interdisciplinaire entre les communauteacutes produisant des donneacutees et les communauteacutes dont crsquoest lrsquoobjet de recherche

bull Valorisation et peacuterennisation des donneacutees beau-coup de donneacutees sont creacuteeacutees pour un besoin preacutecis puis in fine perdues alors qursquoelles pourraient parfois ecirctre reacuteutiliseacutees ( expeacuteriences comme simulations ) ce qui suppose la promotion des pratiques autour de lrsquoarchivage lrsquoindexation la mise agrave disposition etc

bull Deacutefinitions de plans de gestion des donneacutees ( DMP Data Management Plan ) loin drsquoecirctre geacuteneacuterali-seacutes aujourdrsquohui

13 Accompagner de maniegravere efficace toutes ces eacutevolutions requiert donc de multiples efforts dont

bull Le deacuteploiement de plateformes drsquoanalyse de donneacutees performantes le rapprochement entre les communauteacutes HTC et HPC le deacuteveloppement de lrsquoactiviteacute et des compeacutetences autour de lrsquoanalyse de donneacutees au sein des centres HPC nationaux et reacutegionaux en soulignant que les volumes sont tels que les donneacutees deviennent tregraves coucircteuses agrave deacuteplacerhellip

bull La conceptionexploitation efficace drsquoarchitectures et drsquoenvironnements orienteacutes donneacutees

bull Lrsquoanalyse de lrsquoimpact des technologies du type GPU Cloud computinghellip

bull La multiplication de lrsquousage des meacutethodes drsquoanalyse de donneacutees et drsquoaide agrave la deacutecision machine learning retour de lrsquoIntelligence Artificielle au premier planhellip

bull La maicirctrise du passage agrave lrsquoeacutechelle pour les outils drsquoanalyse de donneacutees ainsi que lrsquoeacutevolution des meacutethodes drsquoanalyse

bull Deacuteveloppement des recherches interdisciplinaires et des compeacutetences autour des donneacutees au sein du CNRS ainsi que celui du support aux utilisateurs

bull La sensibilisation au coucirct eacutenergeacutetique croissant induit par le traitement et la gestion des donneacutees au sein des communauteacutes pour aller vers une informatique durable et une minimisation de lrsquoempreinte carbone de nos activiteacutes

7

Livre Blanc sur les Donneacutees au CNRS Eacutetat des Lieux et Pratiques - 2018

A une peacuteriode ougrave la science est de plus en plus compeacutetitive interdisciplinaire et internationale les nouveaux enjeux associeacutes aux donneacutees requiegraverent une eacutevolution des pratiques de recherche et une nouvelle strateacutegie agrave lrsquoeacutechelle du CNRS

Fort de sa multidisciplinariteacute de ses deux centres nationaux avec une expertise internationalement reconnue en HPC ( IDRIS ) et en gestion et analyse de donneacutees massives ( CC-IN2P3 ) ainsi que de sa preacutesence dans un grand nombre de TGIRs et drsquoIRs le CNRS doit se doter aujourdrsquohui drsquoune strateacutegie plus active autour des nouvelles probleacutematiques lieacutees aux donneacutees

Cette strateacutegie doit ecirctre co-formuleacutee co-deacuteveloppeacutee et co-impleacutementeacutee avec les diffeacuterents instituts et les communauteacutes scientifiques en phase avec leurs pratiques de recherche et la diversiteacute de leurs chaicircnes de production drsquoutilisation et de valorisation des donneacutees Elle doit prendre en compte la logistique des donneacutees tout au long de ces chaicircnes afin drsquoacceacuteleacuterer lrsquoextraction de nouvelles connaissances Elle doit enfin faciliter et transformer les pratiques de recherche en mutualisant les expertises au sein des diffeacuterentes communauteacutes scientifiques et de leurs instituts ainsi que reacutepondre aux nouveaux enjeux de la recherche interdisciplinaire inteacutegrant des donneacutees multi-source

Sur la base de ce document un certain nombre de recommandations sont proposeacutees pour cette strateacutegie

bull R1 Politique et gestion des donneacutees Le CNRS doit promouvoir une laquo culture des donneacutees raquo dans et entre ses instituts et mieux valoriser toutes les donneacutees que ses eacutequipes de recherche produisent Cela implique une reacuteflexion en matiegravere de politique de donneacutees ( Open Data et FAIR Data5 ) tout au long du cycle de vie des donneacutees de gestion des donneacutees avec en particulier lrsquoeacutelaboration drsquoun Data Management Plan6 en collaboration avec les diffeacuterents instituts et possiblement lrsquoINIST et drsquoOpen science7 inteacutegrant la publication des donneacutees et de nouveaux objets interfaccedilant donneacutees et reacutesultats scientifiques Cette reacuteflexion doit srsquoappuyer sur et harmoniser les expertises acquises dans ce domaine par un certain nombre drsquoinstituts tant au niveau national qursquointernational ( p ex IN2P3 INSU INSB INSHS ) Dans ce contexte il doit jouer un rocircle moteur dans les initiatives europeacuteennes comme EOSC8 et GoFAIR9 dans un certain nombre drsquoactiviteacutes drsquoorganisation non gouvernementale comme RDA10 et drsquoinitiatives internationales comme le Belmont Forum11

bull R2 Accroitre les expertises interdisciplinaires pour lrsquoanalyse et lrsquoutilisation des donneacutees Le CNRS fort des acquis reacutealiseacutes au travers de la Mission pour lrsquoInterdisciplinariteacute ( p ex programme MASTODONS ) et de plusieurs Groupements de Recherche ( p ex MADICS ) devrait lancer une initiative transversale srsquoappuyant sur un certain nombre de TGIRs et IRs pour favoriser des collaborations interdisciplinaires au travers des instituts du CNRS rassemblant des experts des diffeacuterents domaines scientifiques des diffeacuterents domaines meacutethodologiques en sciences des donneacutees ( matheacutematiques statistiques informatiques ) et deacuteveloppeurs drsquoinfrastructures Ceci afin de creacuteer un veacuteritable hub scientifique et drsquoexpertise pour le deacuteveloppement de nouvelles meacutethodes de gestion de traitement et drsquoanalyse de donneacutees de nouveaux algorithmes et leur impleacutementation au travers de logiciels modulaires de librairies de services et drsquooutils partageacutes et pouvant servir les besoins de diffeacuterentes communauteacutes sur le modegravele du Berkeley Institute

5 Findable Accessible Interoperable Reusable data6 Voir par exemple dmpopidorfr7 Open Science in Europe8 European Open Science Cloud declaration et EOSC pilot9 GoFair Initiative10 Research Data Alliance11 Belmont Forum

RECOMMANDATIONS

8

Livre Blanc sur les Donneacutees au CNRS Eacutetat des Lieux et Pratiques - 2018

for Data Science12 ( BIDS ) du Data Science Institute de Imperial College ou de lrsquoUniversiteacute de Maastricht Le CNRS pourrait ainsi encourager la collaboration de scientifiques de diffeacuterents domaines autour de lrsquoameacutelioration des algorithmes utiliseacutes dans lrsquoanalyse de donneacutees par exemple pour les synchrotrons sur le modegravele de CAMERA ( httpwwwcameralblgov ) aux Eacutetats-Unis Un tel Hub pourrait eacutegalement constituer un instrument preacutecieux pour la prise en compte des probleacutematiques associeacutees aux donneacutees en amont lors de lrsquoeacutelaboration de grands projets internationaux de TGIRs et drsquoIRs et ainsi faciliter lrsquoorganisation et accroitre la visibiliteacute des contributions franccedilaises dans ces initiatives Dans ce contexte le CNRS pourrait financer des ETPTs chercheurs et ingeacutenieurs en appui agrave ces deacuteveloppements interdisciplinaires eacuteventuellement en collaboration avec des pocircles universitaires et drsquoautres organismes pour par exemple deacutevelopper des logiciels de traitement de donneacutees tels XSOCS ( httpssourceforgenetprojectsxsocs ) sur les synchrotrons

bull R3 Architecture et Infrastructures pour lrsquoanalyse des donneacutees Le CNRS devrait en srsquoappuyant sur les expertises de ses deux centres nationaux de France Grilles de certains meacuteso-centres TGIRs et IRs mener des expeacuteriences relatives agrave lrsquoarchitecture et agrave la feacutedeacuteration de plateformes distribueacutees de services de calcul et de stockage et de plateformes centraliseacutees ( HPC Cloud ) dans le cadre de chaicircnes pilotes de production et drsquoutilisation de donneacutees et de leur logistique des donneacutees refleacutetant la diversiteacute des utilisateurs et des pratiques de recherche Ces expeacuteriences permettraient de mieux eacutevaluer les performances des traitements en flux de type Cloud les protocoles de transferts et les configurations reacuteseaux ainsi qursquoameacuteliorer radicalement lrsquoexploitation des ressources HPC pour des workflows combinant HPC HDA et machine learning Le CNRS pourrait ainsi accroitre son rocircle au niveau europeacuteen agrave lrsquointerface entre EOSC et EDI ( European Data Infrastructure ) Il serait possible drsquoeacutetudier lrsquoaccegraves agrave des moyens informatiques de type Cloud aux TGIR du CNRS au travers par exemple drsquoun accord avec le CC-IN2P3 ou France Grilles

12 httpsbidsberkeleyeduabout

bull R4 Archivage curation et distribution des donneacutees Le CNRS pourrait eacutegalement en srsquoappuyant sur des expertises internationalement reconnues telles celles du Centre de Donneacutees de Strasbourg et ses contributions agrave lrsquoIVOA soutenir et mener des expeacuteriences pilotes pour lrsquoorganisation de plateformes distribueacutees drsquoarchivage drsquoindexation et de curation de donneacutees multi-source mutualisant des ressources ( stockage calcul ) ainsi que pour leur inteacutegration au sein de pocircles de donneacutees ( systegraveme drsquoinformation portail services ) facilitant la deacutecouverte et lrsquoaccegraves fluide agrave ces donneacutees issues de domaines diffeacuterents avec des outils laquo translationnels raquo pour les combiner les croiser et les syntheacutetiser Ces expeacuteriences permettraient au CNRS de mieux deacutefinir sa politique drsquoOpenData et de jouer un rocircle moteur pour la creacuteation drsquoarchives OpenData certifieacutees et de portail OpenScience inteacutegrant de nouveaux objets associant donneacutees et reacutesultats de recherche tel que le Centre de Donneacutees astronomiques de Strasbourg ( httpcdswebu-strasbgfr ) auxquelles les TGIR PaN pourraient participer

bull R5 Nouvelles expertises et moyens humains Le CNRS pour maicirctriser les nouveaux enjeux associeacutes aux donneacutees doit mettre en place une reacuteponse coordonneacutee face aux nouveaux besoins en termes drsquoexpertise de moyens humains et de reconnaissance de ces nouvelles activiteacutes interdisciplinaires Cette reacuteponse doit ecirctre attractive pour des recrutements ( chercheurs ITA ) pour les eacutevolutions de carriegravere et srsquoappuyer sur des actions de formation adapteacutees reacutepondant agrave ces nouvelles expertises Cette reacuteponse est essentielle afin de faciliter lrsquoorganisation des communauteacutes scientifiques et le deacuteveloppement de nouvelles pratiques de recherche permettant drsquoacceacuteleacuterer lrsquoextraction de nouvelles connaissances agrave partir des donneacutees et ainsi renforcer la visibiliteacute internationale du CNRS et des communauteacutes scientifiques franccedilaises

9

Livre Blanc sur les Donneacutees au CNRS Eacutetat des Lieux et Pratiques - 2018

Sur la base de ce rapport la mission Calcul et Donneacutees du CNRS ( MiCaDo ) pourrait se voir confier la mission drsquoouvrir une reacuteflexion inter-instituts associant eacutetroitement lrsquoIDRIS et le CC-IN2P3 en lien avec nos tutelles nos partenaires et les infrastructures de services concerneacutes pour la recherche ( GENCI RENATER ) afin de prolonger ce rapport avec des groupes de travail deacutefinis autour de trois axes permettant de preacuteciser cette strateacutegie

bull Lrsquoorganisation territoriale et la mutualisation de lrsquoheacutebergement des plateformes drsquoarchivage et de curation de donneacutees des plateformes de calcul et drsquoanalyse des donneacutees en liaison avec le processus de labellisation des datacentres nationaux et reacutegionaux organiseacute par la DGRI et les initiatives locales et reacutegionales soutenues par des IDEX ou drsquoautres organismes permettant de faire eacutemerger des sites de reacutefeacuterences en appui agrave des grands projets Cette reacuteflexion devra prendre en compte lrsquoorganisation des communauteacutes scientifiques pour le stewardship des donneacutees et des ressources ( calcul stockage services ) afin drsquoeacutevaluer les ressources humaines et les expertises neacutecessaires agrave cette nouvelle structuration territoriale et organisation des communauteacutes scientifiques

bull Lrsquoarchitecture et la feacutedeacuteration des plateformes distribueacutees de calcul et drsquoanalyse de donneacutees drsquoarchivage et de curation des donneacutees et des plateformes centraliseacutees ( HPC Cloud ) avec des services de donneacutees Cette reacuteflexion devra prendre en compte la diversiteacute et les caracteacuteristiques des chaicircnes de production et drsquoutilisation des donneacutees la logistique des donneacutees tout au long de ces chaicircnes ainsi que les pratiques de recherche des communauteacutes scientifiques au niveau national et international

bull Les architectures de ressources de calcul et de stockage adapteacutees aux diffeacuterentes phases des workflows combinant HPC et HDA ainsi que les environnements drsquoexploitation de ces ressources inteacutegrant les besoins de traitement et drsquoanalyse en flux de type Cloud En particulier cette reacuteflexion devra inteacutegrer les nouveaux besoins associeacutes au machine learning et plus largement agrave lrsquoIntelligence Artificielle qui joue un rocircle de plus en plus important dans le contexte du Big Data avec en particulier les nouveaux enjeux associeacutes aux meacutethodes de type Deep Neural Network ( DNN ) en termes de scalabiliteacute et drsquoarchitecture ( GPU meacutemoire non volatile NVRAM )

La mission Calcul et Donneacutees du CNRS ( MiCaDo ) pourrait avec des moyens suppleacutementaires contribuer agrave lrsquoeacutemergence de plateformes de gestion et drsquoanalyse de donneacutees en y positionnant des ingeacutenieurs et des data scientists capables drsquooffrir un service technique de haut niveau et drsquoaccompagner les chercheurs dans leurs expeacuterimentations Cette action pourrait contribuer agrave faire eacutemerger sur le territoire quelques sites de reacutefeacuterence autour desquels peuvent graviter plusieurs projets de recherche en sciences des donneacutees ou srsquointeacuteresser agrave des communauteacutes scientifiques speacutecifiques De telles initiatives peuvent et doivent ecirctre compleacutementaires des autres initiatives locales ou reacutegionales soutenues par des IDEX ou drsquoautres organismes de recherche par exemple

RECOMMANDATIONS

10

Livre Blanc sur les Donneacutees au CNRS Eacutetat des Lieux et Pratiques - 2018

Ce Livre Blanc a eacuteteacute reacutealiseacute agrave la suite drsquoune seacuterie de preacutesentations autour des donneacutees meneacutees au sein du COCIN entre 2014 et 2016 par ailleurs eacutetayeacutees par des informations compleacutementaires issues de divers documents rapports drsquoactiviteacutes et sites Web avec la contribution et la mise en forme des repreacutesentants des divers instituts et centres informatiques du CNRS

Ce Livre Blanc srsquoest notamment appuyeacute sur les preacutesentations suivantes ( par ordre chronologique )

bull Simulation et cycle de vie des donneacutees dans la communauteacute du climat J-L Dufresne et S Denvil 2 septembre 2014

bull Eleacutements de reacuteflexion sur le stockage des donneacutees O Porte ( DSI ) 4 deacutecembre 2014

bull Les donneacutees au CC-IN2P3 P-E Macchi 8 janvier 2015

bull Institut Franccedilais de Bioinformatique ( IFB ) mettre en place une infrastructure informatique deacutedieacutee aux sciences de la vie J-F Gibrat 5 feacutevrier 2015

bull Stockage et gestion des donneacutees agrave lrsquoIDRIS D Girou 5 mars 2015

bull Research Data Access F Genova 10 avril 2015

bull Gestion des donneacutees au CINES F Daumas et M Galez 5 mai 2015

bull Preacutesentation de CIMENT E Chaljub 2 juin 2015

bull Les donneacutees agrave lrsquoINEE C Callou 7 juillet 2015

bull Les donneacutees agrave lrsquoINC et lrsquoINP D Borgis et L Lellouch 7 juillet 2015

bull Preacutesentation du Belmont Forum J-P Vilotte 1er septembre 2015

bull GRICAD Grenoble Alpes Recherche - Infrastructure de Calcul Intensif et de Donneacutees V Louvet 1er deacutecembre 2015

bull Calcul et donneacutees agrave lrsquoINSU J-P Vilotte 5 janvier 2016 et 2 feacutevrier 2016

bull Les donneacutees et le calcul en bioinformatique G Perriegravere 1 mars 2016

bull Le meacutesocentre CALMIP un Tier2 au service des recherches acadeacutemique et priveacutee B Dintrans 5 avril 2016

bull Preacutesentation de la TGIR Huma-Num O Baude et S Pouyllau 3 mai 2016

bull Preacutesentation ESRF R Dimper et A Goetz 8 novembre 2016

bull Gestion des donneacutees agrave ILL J-F Perrin 5 deacutecembre 2016

bull Synchrotron SOLEIL Les Donneacutees Scientifiques B Gagey et P Martinez 10 janvier 2017

Ce rapport mecircme srsquoil est loin drsquoecirctre exhaustif vise agrave mieux cerner les pratiques et les besoins en matiegravere de donneacutees ainsi qursquoagrave identifier les voies de promotion drsquoune synergie transdisciplinaire autour des donneacutees au sein du CNRS

Lrsquoenquecircte a deacutemarreacute en 2014 agrave la demande de Michel Bidoit Preacutesident du COCIN avec agrave ce jour

1 INTRODUCTION

11

Livre Blanc sur les Donneacutees au CNRS Eacutetat des Lieux et Pratiques - 2018

bull Des preacutesentations lors de reacuteunions du COCIN de tous les instituts confronteacutes agrave la production et au traitement de donneacutees agrave grande eacutechelle ie tous les instituts excepteacutes INS2I INSMI et INSIS13

bull Des centres nationaux orienteacutes calcul et donneacutees du CNRS

- CC-IN2P3 - IDRIS

bull De certains meacutesocentres - CALMIP - GRICAD

bull Et drsquoun certain nombre drsquoinitiatives et de TGIR dont

- LrsquoInstitut Franccedilais de Bioinformatique ( IFB ) - RENABI

bull Les synchrotrons ESRF ILL et SOLEIL

Ce Livre Blanc aborde aussi la probleacutematique des infrastructures requises pour lrsquoexploitation des grands volumes de donneacutees issues de simulations numeacuteriques de grande taille de systegravemes drsquoobservations ou de plateformes expeacuterimentales neacutecessitant des traitements coucircteux pour en extraire de lrsquoinformation

Les enjeux lieacutes au Big Data sont colossaux et ne sont pas seulement scientifiques car ils ont aussi un impact socieacutetal consideacuterable ( santeacute environnement biologie ) eacuteconomique et financier ( p ex compeacutetitiviteacute industrielle ) et eacutethique ( p ex santeacute biologie ) Le Big Data est ainsi devenu un outil drsquoaide agrave la deacutecision incontournable pour un certain nombre de situations critiques ( preacutevision des catastrophes naturelles eacutepideacutemiologiehellip )

La maicirctrise de tous les aspects du Big Data relegraveve drsquoune deacutemarche fondamentalement interdisciplinaire

Les eacutechelles de volumes de donneacutees agrave traiter nrsquoont fait que croicirctre de faccedilon spectaculaire On parle drsquoExaoctets ( 10^18 octets ) pour eacutevoquer les besoins actuels pour se projeter vers des eacutechelles de lrsquoordre du Zettaoctets ( 10^21 ) drsquoici quelques anneacutees

Cette eacutevolution constante induit de multiples preacuteoccupations autour des besoins en puissance de traitement pour de tels volumes de donneacutees ce qui contribue agrave rapprocher les communauteacutes du Calcul Haute Performance et du High Throughput Computing ( autour de lrsquoIN2P3 p ex ) et explique lrsquointeacuterecirct susciteacute par les GPUs en particulier pour le machine learning

13 Les donneacutees sont plus un objet de recherche pour INS2I et INSMI et ils sont peu impliqueacutes dans la production de donneacutees alors que INSIS nrsquoa pas aujourdrsquohui drsquoaction drsquoenvergure dans le domaine

puisqursquoil existe un certain nombre de codes open source tregraves performants sur les GPU

On constate dans tous les domaines des besoins eacutevidents en

bull Plateformes pour lrsquoanalyse de donneacutees agrave grande eacutechelle avec les probleacutematiques du stockage de la gestion et de la valorisation de ces donneacutees

bull Support pour les utilisateurs

bull Data scientists ( chercheurs ou ingeacutenieurs compeacutetents en analyse de donneacutees )

bull Deacuteploiement de chaicircnes logicielles drsquoanalyse de donneacutees qui passent agrave lrsquoeacutechelle

bull Effort interdisciplinaire entre les communauteacutes produisant des donneacutees et les communauteacutes dont crsquoest lrsquoobjet de recherche ( essentiellement au sein drsquoINS2I et drsquoINSMI )

bull Valorisation et peacuterennisation des donneacutees beaucoup de donneacutees sont creacuteeacutees pour un besoin preacutecis puis in fine perdues alors qursquoelles pourraient parfois ecirctre reacuteutiliseacutees ( expeacuteriences comme simulations ) ce qui suppose de lrsquoarchivage indexation mise agrave disposition etc

bull Deacutefinition de plan de gestion des donneacutees ( DMP ) loin drsquoecirctre geacuteneacuteraliseacute aujourdrsquohui alors que les volumes explosent

bull hellip

Le traitement des donneacutees massives issues ou non de la simulation numeacuterique avec des sources eacuteventuellement multiples distribueacuteesreacuteparties agrave grande eacutechelle et heacuteteacuterogegravenes ( structures formats logiciels serveurshellip ) et une volumeacutetrie en donneacutees allant de centaines de teacuteraoctets agrave quelques dizaines de peacutetaoctets ( et agrave lrsquoExaoctets dans un futur proche ) est donc devenu fondamental Il en reacutesulte des probleacutematiques autour de la gestion de ces donneacutees ( indexation stockage local ou distant avec BD centraliseacutees ou distribueacutees entrepocircts de donneacutees virtualisation du stockagehellip ) de leur traitement avec de lrsquoextraction de connaissances sur des infrastructures souvent distribueacutees ( machine learning fouille de donneacutees classification assimilation de donneacutees ) et enfin du post-traitement permettant drsquoexploitervisualiser ces informations etou de lrsquoaide agrave la deacutecision par exemple

12

Livre Blanc sur les Donneacutees au CNRS Eacutetat des Lieux et Pratiques - 2018

INTRODUCTION

Tirer parti de maniegravere efficace de toutes ces eacutevolutions requiert donc des efforts sur ( entre autres )

bull Deacuteploiement de plateformes drsquoanalyse de donneacutees performantes et rapprochement entre les communauteacutes HTC et HPC deacuteveloppement de lrsquoactiviteacute et des compeacutetences autour de lrsquoanalyse de donneacutees au sein des centres HPC nationaux et reacutegionaux

bull Conceptionexploitation efficace drsquoarchitectures et drsquoenvironnements orienteacutes donneacutees

bull Impact des technologies du type GPU Cloud computinghellip

bull Meacutethodes drsquoanalyse de donneacutees et drsquoaide agrave la deacutecision machine learning retour de lrsquoIntelligence Artificielle au premier planhellip

bull Maicirctrise du passage agrave lrsquoeacutechelle des outils drsquoanalyse de donneacutees

bull Deacuteveloppement des recherches interdisciplinaires et des compeacutetences autour des donneacutees au sein du CNRS ainsi que du support aux utilisateurs

Les pratiques et les besoins autour des donneacutees font deacutejagrave lrsquoobjet drsquoune attention consideacuterable au sein du CNRS On peut citer par exemple le remarquable ouvrage laquo Les Big Data agrave deacutecouvert14 raquo eacutediteacute sous la direction de sous la direction de Mokrane Bouzeghoub et Reacutemy Mosseri agrave CNRS EDITIONS ainsi que les reacutesultats de lrsquoenquecircte de 2014 meneacutee par la Direction de lrsquoInformation Scientifique et Technique ( DIST ) aupregraves des uniteacutes15 qui corroborent certains des constats effectueacutes ici

Le CNRS a aussi deacuteveloppeacute de multiples programmes de recherche sur les donneacutees scientifique tant au sein de la Mission pour lrsquoInterdisciplinariteacute qursquoau sein des instituts INS2I et INSMI avec

bull Le Deacutefi Mastodons16 depuis 2012 ( plus de 60 projets )

bull Deacutefi ImagrsquoIn17 depuis 2015 ( plus de 40 projets )

bull Le PEPS FaScido en 2015 et 2016 ( plus de 20 projets )

bull Le PEPS AstroInformatique18 en 2018 ( une dizaine de projets )

Enfin un soutien significatif aux plateformes de recherche sur les donneacutees a eacuteteacute apporteacute par lrsquoINS2I agrave la fois en eacutequipement et en ingeacutenieur ( permanents ou CDD )

14 httpwwwcnrseditionsfrsociete7429-les-big-data-a-decou-verthtml15 httpwwwcnrsfrdistz-outilsdocumentsenquete-du_bro-chure-couverture_032015pdf16 httpwwwcnrsfrmispipphparticle5317 httpwwwcnrsfrmispipphparticle64518 httpwwwcnrsfrmispipphparticle1325

13

Livre Blanc sur les Donneacutees au CNRS Eacutetat des Lieux et Pratiques - 2018

21 INSTITUT DE CHIMIE ( INC )

211 Introduction

La deacutemarche de cette eacutetude a eacuteteacute drsquoeacutetudier les donneacutees agrave lrsquoINC agrave diffeacuterents niveaux de granulariteacute Nous commencerons par les grandes infrastructures de calcul ou expeacuterimentales puis nous nous inteacuteresserons agrave lrsquoeacutechelle typique drsquoun institut puis au grain fin du laboratoire Nous finirons agrave lrsquoautre extrecircme par la dimension europeacuteenne

212 La probleacutematique des donneacutees agrave lrsquoINC

Pour ce qui concerne le calcul sur les centres nationaux ( GENCI ) et le stockage de donneacutees affeacuterent les chercheurs de lrsquoInstitut de Chimie soumettent leurs demandes aux Comiteacutes Scientifiques Theacutematiques nationaux ( CT ) suivants

bull CT7 Dynamique moleacuteculaire appliqueacutee agrave la biologie avec une reacutepartition INC-NSB de 60 40

bull CT8 Chimie quantique et modeacutelisation moleacuteculaire ( majoritairement INC )

bull CT9 Physique chimie et proprieacuteteacutes des mateacuteriaux avec une reacutepartition INC-INP de 50 50

Il faut rappeler que ces 3 CT eacutetiqueteacutes laquo chimie raquo centreacutes majoritairement sur les simulations de dynamique moleacuteculaire et les calculs de structure eacutelectronique repreacutesentent une part importante des projets seacutelectionneacutes et du temps de calcul alloueacute sur les machines GENCI A lrsquoIDRIS par exemple la chimie au sens large compte pour ~40 des projets ~30 du temps CPU sur Ada et 7 sur Turing

Comme il apparaicirct sur les diagrammes de lrsquoIDRIS preacutesenteacutes agrave la section 322 lrsquoutilisation du stockage est beaucoup plus reacuteduite pour ces CT laquo chimie raquo par rapport agrave drsquoautres theacutematiques avec quelques dizaines de To sur Ada et quelques To seulement sur Turing pour environ 50 To sur cartouches On note une forte surestimation des besoins par les utilisateurs

Sur le TGCC lrsquoINC occupe pour lrsquoensemble des CTs qui le concerne de lrsquoordre de 450 To en cumulant tous les espaces de disques ( storedir scratch et workdir ) Cela repreacutesente une occupation relative de lrsquoordre du pour cent sur le stockage longue dureacutee ( storedir ) et de la dizaine de pour cent sur lrsquoespace de travail Les besoins sont cependant appeleacutes agrave augmenter fortement avec lrsquoaccroissement de la taille des systegravemes eacutetudieacutes ou de leur temps de simulation si lrsquoon se fixe aux niveaux correspondant actuellement agrave des grands challenges ou des projets PRACE En modeacutelisation biomoleacuteculaire par exemple la simulation dynamique drsquoun systegraveme biologique complet comportant plusieurs millions drsquoatomes comme un virus pendant quelques dizaines voire une centaine de nanosecondes ( actuellement un tour de force ) geacutenegravere facilement un film de quelques Po si lrsquoon veut garder la trajectoire pour exploitation ulteacuterieure

Lrsquooccupation en stockage de la chimie sur les quelques meacutesocentres qui ont eacuteteacute sondeacutes ( Unistra CRIANN CALMIP ) apparaicirct elle aussi relativement limiteacutee de lrsquoordre de la dizaine de To par centre

En ce qui concerne les Infrastructures de Recherche expeacuterimentale il faut noter que la chimie est tregraves impliqueacutee dans des TGIR relevant de lrsquoINP ( ESRF ILL SOLEILhellip ) pour lesquelles une politique des donneacutees massives est eacutetablie ou en cours drsquoeacutelaboration ( voir lrsquoanalyse de lrsquoINP ) Une analyse des besoins et des pratiques de stockage des Infrastructures de Recherche relevant de lrsquoINC a eacuteteacute effectueacutee cela implique la TGIR reacutesonance magneacutetique nucleacuteaire agrave tregraves hauts champs ( RMN-THC ) lrsquoIR RENARD ( REseau NAtional de Reacutesonance paramagneacutetique interDisciplinaire ) et

2 Les donneacutees au sein des instituts du CNRS

14

Livre Blanc sur les Donneacutees au CNRS Eacutetat des Lieux et Pratiques - 2018

le tregraves grand eacutequipement FT-ICR agrave haut champ Quelques points cleacutes en ressortent en matiegravere de politique de donneacutees

bull Gestion locale des donneacutees chaque laboratoire ou site achegravete ses disques durs

bull La politique des donneacutees ( partage ou non ) est laisseacutee aux utilisateurs

bull En utilisation laquo plateforme raquo les utilisateurs viennent et repartent avec leur cleacute USB

bull Frilositeacute vis-agrave-vis du partage de donneacutees ( maicirctrise de ses donneacutees confidentialiteacute )

bull Une mutualisation des donneacutees est envisageacutee en RMN et RPE

Pour ce qui concerne la nature et le volume des donneacutees

bull Spectres 1D ou 2D fichiers de 10-100 ko jusqursquoagrave 10-100 Goansite

bull Format proprieacutetaire ( Bruckerhellip ) eacuteventuellement transformable drsquoougrave des problegravemes drsquointeropeacuterabiliteacute et de temps de relecturesauvegarde

bull Des flux plus importants peuvent ecirctre envisageacutes avec des expeacuteriences drsquoimagerie deacutependant du temps mais les volumes ne sont pas encore vraiment anticipeacutes

On peut faire les mecircmes constats par exemple pour le reacuteseau METSA en laquo Microscopie Electronique et Sonde Atomique raquo

bull Pas de politique de stockage globale au niveau du reacuteseau

bull Sur le site parisien ( MPQ ) la quantiteacute de donneacutees produites est typiquement 64 Moimage soit 4 Toan stockeacutes sur des disques durs locaux avec en plus une passerelle sur lrsquouniversiteacute

bull Des expeacuteriences en temps reacuteel commencent agrave se monter engendrant 300 imagesseconde soit de lrsquoordre de 20 Goseconde

bull Il y aura donc un reacuteel besoin de compeacutetences solides agrave terme

Pour illustration nous descendons encore en granulariteacute dans les infrastructures de recherche et prenons le cas drsquoune feacutedeacuteration lrsquoInstitut pour les Sciences Moleacuteculaires drsquoOrsay ( ISMO ) pour lequel le

problegraveme des donneacutees srsquoest poseacute reacutecemment Cet institut regroupe trois laboratoires le Laboratoire de Photophysique Moleacuteculaire ( UPR3361 ) le Laboratoire des Collisions Atomiques et Moleacuteculaires ( UMR8625 ) et le Laboratoire drsquoInteraction du rayonnement X avec la Matiegravere ( UMR8624 ) Il est installeacute depuis peu dans un bacirctiment unique agrave Paris-Saclay Il dispose drsquoune grappe de calcul avec 1 ingeacutenieur drsquoeacutetudes et un technicien

bull Il y a un besoin de stockage pour des expeacuteriences ( en particulier en microscopie ) et en ressources de calcul

bull Le mateacuteriel est disparate et vieillissant sans systegraveme de sauvegarde global

bull Une enquecircte aupregraves des laboratoires de la feacutedeacuteration a reacuteveacuteleacute un besoin de lrsquoordre de 160 To

Drsquoougrave la recherche drsquoune solution eacuteconomique de stockage et baseacutee sur des logiciels libres chaque chercheur achetant ses propres disques On a convergeacute vers lrsquoachat de 2 racks de 40 disques avec un systegraveme ZFS plus la solution libre SUN Le coucirct total estimeacute de cette solution de stockage est de lrsquoordre de 40 keuro alors qursquoune solution cleacute en main serait de lrsquoordre de 100 keuro aupregraves des speacutecialistes des solutions de stockage

Enfin penchons-nous sur une granulariteacute encore plus fine celle drsquoun laboratoire Un exemple significatif est celui du laboratoire Physicochimie des Electrolytes et Systegravemes Interfaciaux ( PHENIX ) agrave lrsquoUPMC et plus speacutecifiquement de lrsquoeacutequipe modeacutelisation composeacutee de 5 permanents pour un total de 15 personnes qui calculent agrave la fois en local sur GENCI et PRACE

bull Le parc drsquoinformatique scientifique de 15-20 stations de travail est geacutereacute par les chercheurs

bull Le systegraveme de stockage est composeacute drsquoun server NFS ( 30 To ) plus un serveur LDAP

bull Les ressources de calcul sont constitueacutees de 4 machines PersonalHPC 64 cœurs agrave meacutemoire partageacutee ( 10 keuromachine )

bull Un stockage de sauvegarde de 150 To est effectueacute sur une machine deacutedieacutee PersonalHPC Sigma ( valeur environ 30 keuro )

On retrouve donc le mecircme ordre de grandeur de coucirct pour le mateacuteriel local de stockage avec des solutions laquo cousues main raquo ( quelques dizaines de keuro pour la centaine de To hors coucirct de personnel eacutevidemment et avec le niveau de seacutecuriteacute qursquoune gestion locale implique )

INC

15

Livre Blanc sur les Donneacutees au CNRS Eacutetat des Lieux et Pratiques - 2018

Enfin si lrsquoon remonte la granulariteacute agrave son autre extrecircme il faut signaler qursquoau niveau europeacuteen sur lrsquoappel H2020 Centre of Excellence for Computing Applications 3 CoE sur les 8 seacutelectionneacutes sont consacreacutes aux mateacuteriaux au cœur donc des theacutematiques des CT 7-9 Lrsquoun drsquoeux le CoE NoMad ( Novel Material Discovery httpsnomad-coeeu ) est un dispositif multigrille de deacutepocirct et de fouille de donneacutees Il est eacutetabli pour heacuteberger organiser et partager agrave lrsquoeacutechelle internationale les donneacutees et reacutesultats de calcul et de simulation en physique et chimie des mateacuteriaux

Alors que la France est bien repreacutesenteacutee dans plusieurs CoE par exemple EoCoE ( httpwwweocoeeu ) ou E-CAM ( httpswwwe-cam2020eu ) elle apparaicirct malheureusement tregraves peu dans NoMaD et encore trop peu dans ce genre de deacutemarche type collectionexploitation de donneacutees comme les initiatives Material Genomics ( httpswwwmgigov ) aux Etats-Unis ou AIIDA en Suisse ( Automated Interactive Infrastructure and Database for Computational Science httpwwwaiidanet )

213 Conclusion

LrsquoINC a actuellement plus des problegravemes drsquoorganisation interne des donneacutees que des problegravemes relevant vraiment du Big Data Il nrsquoen reste pas moins qursquoil y a un reacuteel besoin de compeacutetences et de politique drsquoeacutequipement Les besoins peuvent srsquoaccroicirctre rapidement dans les TGIR degraves que lrsquoon touche agrave de lrsquoacquisition massive drsquoimages ( p ex pour des processus en temps reacuteel ) Lrsquoacquisition des donneacutees de simulations numeacuteriques est ameneacutee agrave croicirctre aussi avec lrsquoaugmentation de la taille des systegravemes eacutetudieacutes et des deacutemarches collectives de type Material Genomics crsquoest-agrave-dire conservation et mutualisation des donneacutees de simulations et deacutemarche systeacutematique de fouille de donneacutees Des deacutemarches de ce type eacutemergent de plus en plus dans les appels drsquooffre

LrsquoINC a engageacute depuis deacutebut 2018 une reacuteflexion sur la politique des donneacutees au sein de ces trois TGIRIR ( RMN-THC RENARD FT-ICR ) avec comme objectif de se conformer rapidement aux directives europeacuteennes en termes de science ouverte et de partage des donneacutees et rejoindre ce qui se fait dans drsquoautres infrastructures de recherche comme SOLEIL

16

Livre Blanc sur les Donneacutees au CNRS Eacutetat des Lieux et Pratiques - 2018

22 INSTITUT ECOLOGIE ET ENVIRONNEMENT ( INEE )

221 Introduction

Degraves sa creacuteation consideacuterant drsquoune part lrsquoimportance des donneacutees dans le triptyque fondateur de lrsquoINEE ( Observation ndash Expeacuterimentation ndash Modeacutelisation ) et drsquoautre part une reacuteelle meacuteconnaissance du nombre de jeux de donneacutees existants dans le peacuterimegravetre de lrsquoInstitut ( sa creacuteation datant du 1er novembre 2009 ) deux enquecirctes autour des donneacutees en eacutecologie et environnement eacutetaient meneacutees sur le peacuterimegravetre scientifique de lrsquoINEE

bull La premiegravere adresseacutee agrave lrsquoensemble des instituts du CNRS sur le thegraveme laquo Etude de cas sur les systegravemes de donneacutees numeacuteriques de recherche raquo ( Ministegravere de lrsquoEnseignement supeacuterieur et de la Recherche 2009 )

bull La seconde meneacutee sous la responsabiliteacute de S Thieacutebault et Y Lagadeuc plus speacutecifique et exhaustive aupregraves des directeurs drsquouniteacutes

La synthegravese de ces deux enquecirctes mettait en exergue les points suivants

bull Des diffeacuterents projets de recherche collaboratifs meneacutes par la communauteacute scientifique de lrsquoINEE reacutesulte un accroissement tregraves important et tregraves rapide du nombre de bases de donneacutees deacuteveloppeacutees au sein des laboratoires Cependant ces bases de donneacutees restent tregraves heacuteteacuterogegravenes dans leur forme ( allant du fichier Word ou Excel pour certains agrave un systegraveme de gestion de base de donneacutees complexe pour drsquoautres ) et aussi dans leur fond

bull La communauteacute scientifique de lrsquoINEE se doit de faire un effort particulier pour coordonner et diversifier la collecte des donneacutees en eacutecologie en menant une reacuteflexion neacutecessaire pour deacutefinir dans quels cas la theacuteorie doit deacuteterminer lrsquoobjet et les outils de mesure Il srsquoagit degraves lors drsquoeacuteviter une collecte de donneacutees agrave des eacutechelles spatiales et temporelles prenant plus en consideacuteration des contingences techniques ou historiques qui les eacuteloignent parfois des exigences optimales neacutecessaires pour appreacutehender les pheacutenomegravenes eacutetudieacutes

Aujourdrsquohui la communauteacute scientifique du CNRS-INEE est en train de vivre une veacuteritable reacutevolution de

lrsquoinformation Si pendant tregraves longtemps une des limitations a eacuteteacute la quantiteacute de donneacutees disponibles pour tester des modegraveles preacutedictifs en quelques anneacutees les sciences de lrsquoenvironnement ont pu disposer des jeux de donneacutees de plus en plus importants inteacutegrant diffeacuterentes eacutechelles temporelles et spatiales pour des milliers drsquoorganismes ainsi que pour de nombreux gegravenes et eacutecosystegravemes Ces nouveaux jeux de donneacutees allieacutes agrave une puissance de calcul et agrave une sophistication des logiciels ( rendues possibles notamment par la mise en place de plateformes collaboratives comme le logiciel R ) permettent aujourdrsquohui une profondeur drsquoanalyse qui nrsquoeacutetait pas possible il y a encore dix ans

Toutefois des efforts doivent ecirctre maintenus afin de faire basculer lrsquoeacutecologie dans lrsquoegravere de lrsquoinformation en eacutevitant que ces diffeacuterentes sources drsquoinformations soient stockeacutees et codeacutees suivant des normes contingentes agrave chaque milieu scientifique sans souci drsquointerfaccedilage avec les autres disciplines

222 La probleacutematique des donneacutees agrave lrsquoINEE

La collecte des donneacutees neacutecessite des systegravemes drsquoobservation et drsquoexpeacuterimentation depuis le niveau geacuteneacutetique jusqursquoaux eacutecosystegravemes Il srsquoagit drsquoabord de disposer drsquoeacutequipements compleacutementaires organiseacutes le long de gradients de controcircle ou de confinement consideacuterant des complexiteacutes eacutecologiques diffeacuterentes

La communauteacute de lrsquoINEE dispose deacutesormais drsquoune infrastructure expeacuterimentale partageacutee et ouverte ( AnaEE pour Analyse et Expeacuterimentation sur les Ecosystegravemes ) qui rassemble des moyens expeacuterimentaux in situ en conditions semi-naturelles et en conditions controcircleacutees

En geacutenomique les programmes concernant le meacutetageacutenome humain ( httpwwwmetahiteu httpnihroadmapnihgov ) ou lrsquoeacutetude des sols ( httpwwwterragenomeorg httpwwwearthmicrobiomeorg ) promeuvent des approches collaboratives inteacutegreacutees

Drsquoautres approches exploratoires agrave large eacutechelle ont aussi montreacute toute leur richesse ( p ex Tara-Oceans ) en inteacutegrant des donneacutees de diffeacuterents champs disciplinaires

INEE

17

Livre Blanc sur les Donneacutees au CNRS Eacutetat des Lieux et Pratiques - 2018

Lrsquoeacutetude des maladies infectieuses beacuteneacuteficie eacutegalement au plan national drsquoun institut theacutematique multi-organismes ( Institut de Microbiologie et Maladies Infectieuses )

Enfin au niveau des eacutecosystegravemes il faut noter les travaux entrepris au sein des Zones Ateliers ou encore des services drsquoobservation que le CNRS coordonne

Ces diffeacuterentes initiatives sont agrave lrsquoorigine de la production drsquoune quantiteacute de donneacutees sans preacuteceacutedent dans nos disciplines Par contre une grande part de la collecte est encore conduite par des eacutequipes etou des chercheurs individuels travaillant sur des sites expeacuterimentaux ou drsquoobservation qui ne font actuellement lrsquoobjet drsquoaucune coordination particuliegravere ou drsquoune coordination probablement insuffisante

Le panorama des initiatives dans le domaine EcologieBiodiversiteacute est extrecircmement large comme le montre la figure suivante avec une multipliciteacute des acteurs et des interactions

Il est organiseacute autour de trois niveaux

bull des dispositifs de production et de collecte des donneacutees incluant par exemple les plateformes -omiques ( geacutenomiques transcriptomiques p roteacuteomiques meacutetabo lomiqueshellip ) des collections des systegravemes drsquoobservation etou drsquoexpeacuterimentation

bull des bases de donneacutees

bull des centres de synthegravese geacuteneacuteraux ou theacutematiques deacutedieacutes agrave la valorisation et agrave la diffusion des donneacutees

Aussi face agrave cette laquo datavalanche raquo il apparaissait neacutecessaire pour lrsquoinstitut de mener un effort important pour aider les entiteacutes productrices de donneacutees de lrsquoINEE agrave aller vers une normalisation du codage et de la mise en forme des donneacutees pour mieux les rendre interopeacuterables exploitables et visibles

18

Livre Blanc sur les Donneacutees au CNRS Eacutetat des Lieux et Pratiques - 2018

223 La mise en place de lrsquouniteacute mixte de services BBEES

La creacuteation de lrsquoUMS 3468 laquo Bases de donneacutees Biodiversiteacute Ecologie Environnements Socieacuteteacutes ( BBEES ) raquo souhaiteacutee par le CNRS-INEE et le Museacuteum national drsquoHistoire naturelle et acteacutee le 1er septembre 2011 a pour objectif de structurer et drsquooptimiser le travail autour des bases de donneacutees de recherche sur la Biodiversiteacute naturelle et culturelle actuelle et passeacutee

Elle constitue un soutien technique et scientifique aupregraves des uniteacutes et des chercheurs du CNRS-INEE et du MNHN souhaitant structurer peacuterenniser ou mutualiser leurs bases de donneacutees de recherche avec pour objectifs finaux

bull de faire interagir lrsquoensemble de ces bases diverses et heacuteteacuterogegravenes dans leur forme et dans leur fond

bull de preacutevoir leur sauvegarde agrave tregraves long terme prenant en compte lrsquoeacutevolution des supports

bull de participer agrave la mise en place drsquoontologies et de theacutesaurus concerteacutes

Ses interventions se traduisent par des conseils ou une intervention au sein des uniteacutes pour aider agrave concevoir relancer ou restructurer une base de donneacutees Installeacutee au Museacuteum elle beacuteneacuteficie de lrsquoenvironnement en place et de son expeacuterience dans le domaine des bases de donneacutees ( Service du Patrimoine Naturel Inventaire National du Patrimoine Naturel collections patrimoniales Pocircle application scientifique de la DSI etc ) Elle nrsquoa pas vocation agrave administrer les bases de donneacutees qui restent sous la responsabiliteacute des eacutequipes qui les produisent ni agrave leur fournir un heacutebergement Toutefois elle peut apporter des conseils sur ces points

Afin de faciliter lrsquoinsertion des bases de donneacutees dans des dispositifs nationaux et internationaux lrsquoUMS BBEES propose un certain nombre de recommandations sur

bull la constitution des corpus et le traitement des donneacutees

bull le choix des outils

bull la structuration des donneacutees

bull les meacutetadonneacutees

bull etc

Ces recommandations sont en lien avec les standards et les normes en vigueur comme la directive europeacuteenne INSPIRE ( 20072CE du 14 mars 2007 ) pour les informations geacuteographiques ou le choix drsquoun reacutefeacuterentiel taxonomique commun aux bases de donneacutees existantes sur la biodiversiteacute ( TaxRef ) et obeacuteissent aux reacuteglementations concernant la proprieacuteteacute intellectuelle dans le domaine particulier des bases de donneacutees

La question de lrsquoidentification et de lrsquoaccessibiliteacute des bases de donneacutees est eacutegalement au cœur des preacuteoccupations de lrsquoUMS BBEES En particulier pour ce qui concerne les bases inactives ( les bases de donneacutees deacuteveloppeacutees dans le cadre de programmes nationaux et stockeacutees sur des ordinateurs personnels p ex ) et les bases en veille ( bases de donneacutees accessibles mais qui ne sont plus alimenteacutees ni exploiteacutees ) Des enquecirctes sont reacuteguliegraverement meneacutees aupregraves des directeurs drsquouniteacutes de recherche dans le but drsquoidentifier lrsquoensemble des bases de donneacutees produites par les uniteacutes ( inactives en veille en deacuteveloppement et actives ) mais aussi pour anticiper et accompagner les demandes de deacuteveloppement de bases dans le cadre de programmes de recherche nationaux et internationaux

LrsquoUMS srsquoattache en outre agrave favoriser la diffusion des bases de donneacutees par leur administrateur au travers drsquoun portail deacutedieacute accessible agrave tous httpwwwbdd-ineecnrsfr Aujourdrsquohui ce portail a permis de recenser et rendre visibles environ 200 bases de donneacutees issues de lrsquoactiviteacute des laboratoires du CNRS-INEE

BBEES est aussi tregraves fortement impliqueacutee dans lrsquoanimation du reacuteseau meacutetier laquo bases de donneacutees raquo creacuteeacute en mai 2012 en collaboration avec la MRCT puis la Mission pour lrsquoInterdisciplinariteacute ( MI ) Lrsquoanimation de ce reacuteseau aujourdrsquohui composeacute de 170 personnes de diffeacuterentes origines institutionnelles ( CNRS-INEE et CNRS-INSHS principalement mais aussi MNHN INRA IRD CIRAD FRB ) permet

bull lrsquoorganisation de reacuteunions theacutematiques

bull lrsquoeacutechange et le partage via la mise en place drsquoune liste de diffusion

INEE

19

Livre Blanc sur les Donneacutees au CNRS Eacutetat des Lieux et Pratiques - 2018

bull la mise en place de formations

bull la reacutealisation de journeacutees de sensibilisation agrave la seacutecurisation et agrave la peacuterennisation des donneacutees

bull et enfin bien eacutevidemment une activiteacute de veille technologique

BBEES est aussi partenaire de plusieurs grands programmes sur le long terme ( description des meacutetadonneacutees des bases deacutejagrave opeacuterationnelles eacutetat des lieux technique creacuteation de nouvelles basesSI ) et participe aux reacuteseaux des Zones Ateliers ( RZA ) et des Observatoires Hommes-Milieux ( ROHM ) ainsi qursquoau projet drsquoinfrastructures nationales en biologie et santeacute AnaEE-France laquo Infrastructure Analyse et drsquoexpeacuterimentation sur les eacutecosystegravemes raquo en srsquoappuyant sur les Ecotrons et les Stations drsquoEcologie expeacuterimentale ( ReNSEE )

Enfin BBEES megravene une activiteacute drsquointervention et de conseil au sein de lrsquoinstitut et est membre du groupe de travail sur les standards de donneacutees du SINP et du groupe utilisateurs du GBIF France

224 La creacuteation drsquoun centre de donneacutees et drsquoexpertise sur la nature

Dans une optique de valorisation de certaines donneacutees le CNRS-INEE a aussi eacuteteacute partenaire de la creacuteation drsquoun centre de donneacutees et drsquoexpertise sur la nature Creacuteeacutee en janvier 2017 lrsquoUniteacute Mixte de Service 2006 Patrimoine naturel ( PatriNat ) assure des missions drsquoexpertise et de gestion des connaissances pour ses trois tutelles que sont le Museacuteum national drsquohistoire naturelle ( MNHN ) lrsquoAgence Franccedilaise de la Biodiversiteacute et le CNRS

Issue drsquoun renforcement des eacutequipes du Service du patrimoine naturel cette uniteacute implanteacutee dans plusieurs sites du MNHN a pour objectif de fournir une expertise scientifique et technique sur la biodiversiteacute et la geacuteodiversiteacute franccedilaise au profit des politiques de connaissance et de conservation Cette mission nationale concerne la meacutetropole et lrsquooutre-mer ainsi que les theacutematiques terrestres et marines Elle est conduite en lien eacutetroit avec les partenaires impliqueacutes sur les enjeux de conservation et de protection de la nature En srsquoappuyant sur les reacutesultats issus des activiteacutes de recherche elle doit contribuer agrave faire eacutemerger des questions scientifiques et des besoins de connaissances partageacutees pour favoriser la prise en compte de la nature dans la socieacuteteacute

Agrave travers ses missions elle srsquoengage agrave diffuser former et sensibiliser les diffeacuterents publics sur les enjeux de biodiversiteacute et de preacuteservation de la nature

Ses trois principales missions concernent

bull La consolidation et la valorisation des donneacutees de biodiversiteacute de geacuteodiversiteacute et des collections naturalistes

LrsquoUMS srsquoattache agrave travailler avec les reacuteseaux naturalistes gestionnaires et de recherche pour deacutevelopper le partage des donneacutees les techniques informatiques et les meacutethodologies neacutecessaires agrave lrsquointeropeacuterabiliteacute des eacutechanges de donneacutees au niveau national et international Elle gegravere ainsi les bases de donneacutees nationales concernant les espegraveces les eacutecosystegravemes les espaces proteacutegeacutes et la geacuteodiversiteacute Elle participe eacutegalement agrave lrsquoidentification des besoins de connaissances naturalistes sur les diffeacuterents territoires La diffusion de cette information brute ou eacutelaboreacutee se fait au niveau national via deux portails principaux que sont lrsquoInventaire National du Patrimoine Naturel ( INPN ) et le GBIF-France pour les liens internationaux

bull La production et la diffusion de reacutefeacuterentiels de meacutethodes de protocoles et drsquoindicateurs

LrsquoUMS pilote ou participe aux travaux scientifiques de construction des reacutefeacuterentiels et bases de connaissance sur les espegraveces et les habitats qui sont neacutecessaires agrave la construction et la diffusion drsquoun savoir structureacute Cette structuration permet agrave lrsquoUMS drsquoagreacuteger ces informations nationales sur la nature ( inventaires eacutevaluations statuts reacuteglementaires etc ) afin de les valoriser par la production de cartes de synthegraveses et drsquoindicateurs drsquoeacutetat de la biodiversiteacute

bull Lrsquoappui scientifique aux politiques publiques et priveacutees en matiegravere drsquoenvironnement

LrsquoUMS apporte dans le cadre de polit iques publiques nationales des directives europeacuteennes sur la biodiversiteacute et des rapportages un appui pour lrsquoanimation technique et scientifique aux services de lrsquoEacutetat aux collectiviteacutes territoriales et aux eacutetablissements publics chargeacutes de la biodiversiteacute et des espaces naturels Elle apporte eacutegalement son expertise scientifique aupregraves des acteurs socio-eacuteconomiques qui mettent en place des actions en faveur de la biodiversiteacute dans leur politique environnementale en particulier dans le cadre de deacutemarche drsquoengagement dans la Strateacutegie nationale pour la biodiversiteacute

20

Livre Blanc sur les Donneacutees au CNRS Eacutetat des Lieux et Pratiques - 2018

225 Conclusion

La probleacutematique des donneacutees est centrale au sein de lrsquoINEE et couvre un tregraves large spectre de probleacutematiques Si un premier effort de recensement et de structuration a pu ecirctre meneacute au cours des derniegraveres anneacutees beaucoup de travail reste cependant agrave faire lrsquoenjeu fondamental eacutetant de promouvoir une veacuteritable laquo culture de la donneacutee raquo de la part des acteurs de la recherche en eacutecologie

En effet le deacuteveloppement drsquoune eacutecologie preacutedictive neacutecessite aujourdrsquohui de pouvoir rassembler ces donneacutees heacuteteacuterogegravenes par nature en un ensemble coheacuterent qui puisse ecirctre analyseacute de faccedilon robuste et reacutepeacutetable Il srsquoagit donc encore drsquoameacuteliorer la pertinence de la collecte des donneacutees dans une deacutemarche drsquoaller et retour entre theacuteorie et donneacutees ( cohabitation entre une eacutecologie theory-driven et data-driven )

Lrsquointeacutegration des donneacutees aux diffeacuterentes eacutechelles drsquoorganisation en eacutecologie reste aussi un enjeu Il srsquoagit maintenant de favoriser le dialogue entre disciplines non seulement entre sciences de la nature et sciences humaines et sociales mais aussi entre sciences de la nature matheacutematiques et sciences de lrsquoinformation

INEE

21

Livre Blanc sur les Donneacutees au CNRS Eacutetat des Lieux et Pratiques - 2018

23 INSTITUT DE PHYSIQUE ( INP )

231 Introduction

La probleacutematique des donneacutees prend plusieurs formes agrave lrsquoINP Celles-ci deacutependent du volume et de la nature des donneacutees Ces derniegraveres vont de quelques dizaines de meacutegaoctets geacuteneacutereacutes par une expeacuterience de laboratoire aux peacutetaoctets produits annuellement dans les TGIR de lrsquoinstitut en passant par les teacuteraoctets issus de simulations dans les grands centres de calcul nationaux ou ceux geacuteneacutereacutes sur la toile et les reacuteseaux sociaux Dans ce qui suit nous eacutevoquerons les questions qui se posent autour des donneacutees agrave lrsquoINP et certaines des solutions envisageacutees dans ces diffeacuterents contextes Nous proceacutederons par ordre deacutecroissant en commenccedilant par les TGIR ougrave la probleacutematique des donneacutees est particuliegraverement aiguumle puis par les grands centres de calcul nationaux les meacutesocentres et les laboratoires Nous terminerons avec quelques mots sur lrsquoimplication de lrsquoINP dans des projets sur les donneacutees de la Commission europeacuteenne

23 2 Les donneacutees dans les infrastructures synchrotrons neutrons et laser agrave eacutelectrons libres de lrsquoINP

Aujourdrsquohui la probleacutematique des grands volumes de donneacutees agrave lrsquoINP se pose de faccedilon particuliegraverement aiguumle dans ses tregraves grands instruments Il srsquoagit drsquoinfrastructures synchrotron neutron et laser agrave eacutelectrons libres certaines ayant une dimension europeacuteenne ou mecircme mondiale Ces infrastructures portent collectivement le nom de PaN pour

le CNRS sont les synchrotrons SOLEIL ( httpwwwsynchrotron-SOLEILfr ) et ESRF ( httpwwwesrfeu ) les infrastructures de diffusion neutronique ILL ( httpwwwilleu ) et Orpheacutee ( httpwww-centre-saclayceafrfrReacteur-Orphee ) et dans le futur lrsquoESS ( httpseuropeanspallationsourcese ) ainsi que depuis peu le laser agrave eacutelectrons libres X-FEL ( httpswwwxfeleu )

Le degreacute drsquoimplication du CNRS dans ces infrastructures et leur statut national ou international sont deacutetailleacutes dans le tableau (p 24) Bien que ces instruments soient ouverts agrave toutes les communauteacutes scientifiques et le sont pour la plupart agrave lrsquointernational crsquoest lrsquoINP qui est leur interlocuteur pour le CNRS Par ailleurs cette diversiteacute drsquoutilisateurs et de pratiques scientifiques fait de ces infrastructures de tregraves inteacuteressants laboratoires pour la gestion et le traitement de donneacutees et des modegraveles pour ce qui pourrait ecirctre fait au niveau de lrsquoINP et plus geacuteneacuteralement du CNRS

SOLEIL

Instruments agrave lrsquoILL

ESRF

22

Livre Blanc sur les Donneacutees au CNRS Eacutetat des Lieux et Pratiques - 2018

Face au fort accroissement du volume des donneacutees geacuteneacutereacutees et la diversiteacute croissante des utilisateurs les infrastructures PaN ont mis en place entre 2008 et 2010 une collaboration europeacuteenne sur les donneacutees nommeacutee laquo PaNdata raquo Elle concerne treize instruments europeacuteens avec pour objectif drsquoeacutetablir une infrastructure commune aux installations PaN qui permet un accegraves commun aux donneacutees et agrave des outils drsquoanalyse et de partage de donneacutees

Sur 2010-2011 cette collaboration a eacuteteacute soutenue par une action de support de lrsquoUnion europeacuteenne laquo PaNdata Europe raquo comprenant des ateliers autour de la standardisation des formats de lrsquoeacutechange drsquoinformation sur les utilisateurs de lrsquointeropeacuterabiliteacute des logiciels drsquoanalyse du reacutefeacuterencement des reacutesultats et de la politique des donneacutees

Srsquoen est suivi un projet INFRA de la Commission PaNdata Open Data Infrastructure ( ODI ) Celui-ci a permis la mise en place drsquoun systegraveme drsquoidentification commun nommeacute laquo Umbrella raquo pour six des treize installations Il a eacutegalement meneacute au choix drsquoun format binaire commun des donneacutees NeXusHDF5 et drsquoun systegraveme de gestion des meacutetadonneacutees laquo ICAT raquo utiliseacute dans trois des infrastructures

INP

23

Livre Blanc sur les Donneacutees au CNRS Eacutetat des Lieux et Pratiques - 2018

Afin de consolider ces avanceacutees et de preacuteparer lrsquoavenir en 2015 le projet laquo PaNDaaS raquo ( data analysis as a service ) a eacuteteacute proposeacute dans le cadre de lrsquoappel INFRADEV-4 de la Commission Plus preacuteciseacutement ce projet de 12 millions drsquoeuros avec vingt partenaires et porteacute par lrsquoESRF avait pour but de proposer aux utilisateurs des infrastructures PaN une plateforme mateacuterielle et logicielle unifieacutee permettant lrsquoanalyse la visualisation et la navigation au travers des donneacutees geacuteneacutereacutees par les instruments sur site ou agrave distance La solution envisageacutee eacutetait de type laquo cloud raquo avec appel possible agrave des infrastructures commerciales Le projet nrsquoa pas eacuteteacute retenu Toutefois un certain nombre des activiteacutes preacutevues dans ce projet continuent agrave avancer sur fonds propres

Parmi celles-ci lrsquoILL megravene lrsquoeffort de mise en place drsquoune politique des donneacutees Une telle politique est devenue indispensable pour la visibiliteacute des TGIR En 2013 lrsquoILL a deacuteployeacute un ensemble complet de services des donneacutees accessible aux utilisateurs au travers drsquoune interface web

Ces services permettent la recherche lrsquoaccegraves lrsquoannotation lrsquoarchivage lrsquoidentification et la publication des donneacutees La mise en place de cette politique a pris cinq ans pour des raisons eacutevoqueacutees ci-dessous Elle est baseacutee sur le cadre donneacute par PaNData selon lequel lrsquoinfrastructure est responsable de la preacuteservation des donneacutees geacuteneacutereacutees sur ses instruments Drsquoautre part gracircce agrave une collaboration avec DataCite et lrsquoINIST les donneacutees brutes sont indexeacutees par un DOI ( Digital Object Identifier ) propre avec un lien sur les scientifiques qui les ont geacuteneacutereacutees au travers drsquoun Research ID drsquoORCID Les meacutetadonneacutees instrumentales sont automatiquement ajouteacutees aux donneacutees brutes par lrsquointerface De plus cette interface relie les projets aux donneacutees et fournit aux utilisateurs des e-logbooks qui permettent de preacuteciser les conditions de lrsquoexpeacuterience et drsquoannoter les donneacutees Le systegraveme fournit une archive centrale en ligne organiseacutee par projet instrument et dates avec un accegraves initialement controcircleacute Les utilisateurs peuvent rendre leurs donneacutees publiques agrave tout moment et doivent le faire dans les trois ans sauf exception accordeacutee par la direction de

Synthegravese des TGIR PaN de lrsquoINP du volume de donneacutees geacuteneacutereacute et de leur politique des donneacutees

24

Livre Blanc sur les Donneacutees au CNRS Eacutetat des Lieux et Pratiques - 2018

lrsquoinfrastructure Elles deviennent alors accessibles au travers drsquoun portail qui les relient aux meacutetadonneacutees logs DOIs etc Elles sont utilisables sous les conditions de la licence CC-BY 40 Toute publication baseacutee sur ces donneacutees doit en citer le DOI et devrait agrave terme figurer dans lrsquoarchive avec ces donneacutees

La mise en place de cette politique des donneacutees a ducirc faire face agrave plusieurs difficulteacutes La premiegravere et peut-ecirctre la plus importante sont les habitudes et mentaliteacutes des utilisateurs qui conccediloivent ces donneacutees fruit de leurs ideacutees et de leur travail comme leur appartenant dans le sens ougrave ils veulent pouvoir les exploiter scientifiquement agrave plein avant de les rendre publiques On peut les comprendre Une autre difficulteacute a eacuteteacute drsquoassocier et de recevoir le soutien des nombreux organismes de recherche associeacutes agrave lrsquoILL Drsquoun point de vue plus technique la collecte drsquoarticles utilisant les donneacutees geacuteneacutereacutees au sein de lrsquoinfrastructure est compliqueacutee du fait des reacutefeacuterencements incomplets ou difficiles agrave identifier dans des recherches automatiseacutees ( p ex DOI des donneacutees inclus dans une figure ) et par le manque drsquooutils de collecte De faccedilon plus geacuteneacuterale une politique des donneacutees est un processus long agrave mettre en place et qui est ralenti par le temps de la science Neacuteanmoins les progregraves sont mesurables comme dans la figure ci-apregraves

A son tour LrsquoESRF mettra en place une politique des donneacutees tregraves similaire agrave celle de lrsquoILL sur toutes ses lignes expeacuterimentales agrave partir de 2020 Cette mise en place a un coucirct non neacutegligeable Par exemple la preacuteservation sur dix ans des donneacutees brutes requiert 100 keuroan de lecteurs et de bandes magneacutetiques suppleacutementaires De plus son implantation occupera 25 ETPsan sur quatre ans

Entre temps le service IT de lrsquoESRF a attaqueacute de front la probleacutematique PaNDaaS du fait de la forte exposition de lrsquoESRF aux gros volumes de donneacutees qui ne fera qursquoaugmenter avec la seconde phase du programme de modernisation de ses lignes qui se terminera en 2022 En effet le volume des donneacutees geacuteneacutereacute par les nouveaux instruments sera tel qursquoil ne sera plus possible de retourner au laboratoire avec ses donneacutees sur un disque Les donneacutees et les outils drsquoanalyse devront donc ecirctre au mecircme endroit Il sera aussi important de preacuteserver et de coupler le workflow des analyses avec les donneacutees elles-mecircmes afin de rendre lrsquoextraction des reacutesultats reproductible

INP

25

Livre Blanc sur les Donneacutees au CNRS Eacutetat des Lieux et Pratiques - 2018

Le but que poursuivent lrsquoESRF et ses collaborateurs PaN est de proposer un service complet allant des donneacutees agrave lrsquoanalyse qui comprend des moyens de calcul des logiciels et de lrsquoexpertise IT tout cela accessible au travers drsquoune interface web Les avantages sont de donner agrave des utilisateurs pas neacutecessairement experts en meacutethodes numeacuteriques non seulement lrsquoaccegraves agrave une infrastructure performante mais aussi agrave des outils drsquoanalyse homogegravenes et certifieacutes Cela permettra drsquoacceacuteleacuterer le processus drsquoanalyse mais aussi de faciliter la collaboration lors de ce processus ainsi que la preacuteservation du workflow Le tout renforcera eacutegalement lrsquoattractiviteacute de lrsquoinfrastructure de recherche Pour mener cette vision agrave terme lrsquoESRF aura investi 3 millions drsquoeuros en ressources humaines entre 2015 et 2020

Lrsquoapproche suivie par lrsquoESRF est de recruter des ingeacutenieurs logiciels pour deacutevelopper une bibliothegraveque qui implante des fonctionnaliteacutes communes agrave de nombreux types drsquoanalyses et de construire les applications scientifiques au-dessus en Open Source sous licence GSL au sein de collaborations geacutereacutees agrave travers Github La vision du service DaaS de lrsquoESRF est illustreacutee par le graphique ci-dessous

Pour conclure sur les TGIR de lrsquoINP les scientifiques du CNRS geacutenegraverent ~800 Toan de donneacutees sur ces instruments un chiffre qui croicirct drsquoanneacutee en anneacutee et de faccedilon encore plus significative avec la modernisation en cours des lignes de SOLEIL et de lrsquoESRF et le deacutemarrage drsquoE-XFEL Malgreacute lrsquoeacutechec en 2015 de la demande INFRADEV-4 laquo PaNDaaS raquo et les nombreux challenges poseacutes par la quantiteacute de donneacutees geacuteneacutereacutees par la varieacuteteacute des instruments et par la diversiteacute des pratiques des communauteacutes qui les utilisent le travail neacutecessaire autour de la probleacutematique de lrsquoorganisation du stockage de la mise agrave disposition et de lrsquoanalyse des donneacutees des infrastructures PaN se poursuit avec succegraves sous lrsquoinitiative efficace de lrsquoESRF de lrsquoILL de SOLEIL et de leurs collaborateurs Ce travail demande des moyens humains et informatiques ainsi qursquoun soutien institutionnel en prioriteacute en ce qui concerne les aspects de proprieacuteteacute intellectuelle

Le CNRS fort de sa multidisciplinariteacute et de sa preacutesence dans ces TGIR pourrait contribuer de plusieurs faccedilons agrave cet effort Le CNRS au travers de projets type Mastodons de la Mission pour lrsquointerdisciplinariteacute etou de Groupements de recherche pourrait encourager la collaboration de scientifiques de diffeacuterents domaines autour de

26

Livre Blanc sur les Donneacutees au CNRS Eacutetat des Lieux et Pratiques - 2018

lrsquoameacutelioration des algorithmes utiliseacutes dans lrsquoanalyse de donneacutees synchrotron par exemple sur le modegravele de CAMERA ( httpwwwcameralblgov ) aux Eacutetats-Unis Plus concregravetement le CNRS pourrait financer des postes ou mois drsquoingeacutenieur pour deacutevelopper des logiciels de traitement de donneacutees synchrotron tels XSOCS ( httpssourceforgenetprojectsxsocs ) Il pourrait eacutegalement donner accegraves agrave des moyens informatiques de type cloud agrave ces TGIR au travers par exemple drsquoun accord avec le CC-IN2P3 ou France Grilles De surcroicirct agrave lrsquoavenir le CNRS pourrait ecirctre le moteur derriegravere la creacuteation drsquoune archive Open Data et le deacuteveloppement drsquoun portail Open Science tel que le Centre de Donneacutees astronomiques de Strasbourg ( httpcdswebu-strasbgfr ) auxquelles les TGIR PaN participeraient

Outre les retours en termes de science aupregraves des TGIR PaN ces expeacuteriences dans lrsquoorganisation le stockage la mise agrave disposition et lrsquoanalyse des donneacutees dans un environnement de diversiteacute drsquoutilisateurs et de

pratiques scientifiques qui restent neacuteanmoins limiteacutees aux probleacutematiques PaN pourraient servir de tremplin agrave la mise en place drsquoune politique de la conservation et de lrsquoexploitation des donneacutees au CNRS

234 Les donneacutees de lrsquoINP dans les centres de calcul nationaux

Si on se place au niveau des centres nationaux de calcul les projets de physique ( CT 5 et 9 ) geacutenegraverent et utilisent au moins temporairement beaucoup de donneacutees avec un total de lrsquoordre de 500 To eacutequivalent au climat hors CMIP6 ( CT1 ) et supeacuterieur agrave lrsquoastrophysique et agrave la geacuteophysique ( CT 4 ) cf figures ci-dessous qui rapportent la quantiteacute de donneacutees preacutesentes sur les disques de travail en feacutevrier 2015 sur les deux calculateurs de lrsquoIDRIS

Donneacutees non peacuterennes agrave lrsquoIDRIS ($WORKDIR)

INP

27

Livre Blanc sur les Donneacutees au CNRS Eacutetat des Lieux et Pratiques - 2018

Neacuteanmoins une grande partie de ces donneacutees ne sont neacutecessaires que dans des eacutetapes intermeacutediaires des calculs ou alors sont preacuteserveacutees ailleurs En effet si lrsquoon considegravere les donneacutees conserveacutees agrave long terme sur bandes magneacutetiques agrave lrsquoIDRIS les physiciens sont des utilisateurs moyens et se retrouvent loin derriegravere les climatologues avec plus de 300 To sur bandes comme lrsquoindique la figure suivante

Pour analyser cette situation de plus pregraves nous prenons comme exemple dans le CT 5 la QCD sur reacuteseau dont les objectifs sont

bull Deacuteterminer les proprieacuteteacutes fondamentales de ces constituants eacuteleacutementaires que sont les quarks

bull Calculer les nombreuses proprieacuteteacutes des protons neutrons et autres hadrons

bull Aider agrave reacuteveacuteler de nouvelles particules eacuteleacutementaires etou interactions fondamentales

bull Agrave plus long terme calculer les proprieacuteteacutes de noyaux atomiques ab initio

Lrsquoapproche consiste agrave reacutesoudre numeacuteriquement les eacutequations de la chromodynamique quantique ( QCD ) parfois coupleacutees agrave celles de lrsquoeacutelectrodynamique quantique ( QED ) dans leur reacutegime hautement non lineacuteaire Une telle approche induit de gros calculs massivement parallegraveles sur des infrastructures nationales et internationales En France 2 eacutequipes contribuent agrave cet effort mondial

bull La European Twisted Mass collaboration ( LPT Orsay LPC Clermont )

bull La Budapest-Marseille-Wuppertal collaboration ( CPT Marseille SPhN Saclay )

Donneacutees preacuteserveacutees sur bandes magneacutetiques agrave lrsquoIDRIS

28

Livre Blanc sur les Donneacutees au CNRS Eacutetat des Lieux et Pratiques - 2018

Du point de vue des donneacutees dans cette activiteacute de recherche ces collaborations repreacutesentent aujourdrsquohui

bull $WORKDIR

o Typiquement 10 To sur Turing

o ETMC pic agrave 23 Po en post-traitement au CC-IN2P3

bull Sauvegarde laquo peacuterenne raquo

o ETMC ~130 To au CC-IN2P3

o BMWc ~50 To au FZ Julich

Il est important de noter que dans ce domaine drsquoactiviteacute des donneacutees acircgeacutees de plus drsquoenviron cinq ans sont pour la plupart obsolegravetes et il devient plus facile de les recalculer si on en a vraiment besoin Bien sucircr il en va autrement pour les donneacutees expeacuterimentales obtenues aupregraves drsquoacceacuteleacuterateurs qui elles ne sont geacuteneacuteralement pas faciles agrave reproduire

Un certain nombre des donneacutees obtenues en QCD sur reacuteseau sont partageacutees au travers de lrsquoInternational Lattice Data Grid ( ILDG ) avec des formats et des meacutetadonneacutees standardiseacutes des protocoles et outils drsquoeacutechange entre grilles reacutegionales et enfin des catalogues sur les grilles reacutegionales Il srsquoagit principalement des configurations de jauge qui sont agrave la base de tout calcul en QCD sur reacuteseau et qui reacutesultent drsquoun processus markovien coucircteux numeacuteriquement

Dans ce domaine on peut eacutegalement faire une projection sur les besoins en matiegravere de donneacutees agrave lrsquoavenir

bull Pour les eacutetudes dont la vocation est la deacutetermination des proprieacuteteacutes fondamentales des quarks les calculs de proprieacuteteacutes de hadrons ou lrsquoaide agrave la reacuteveacutelation drsquoune nouvelle physique fondamentale on anticipe une croissance modeacutereacutee absorbeacutee par le renouvellement des infrastructures de calcul intensif

bull Par contre en ce qui concerne lrsquoeacutetude ab initio des noyaux atomiques qui nrsquoest actuellement qursquoau niveau de balbutiements la croissance du volume des donneacutees sera potentiellement exponentielle dans 5 agrave 10 ans

235 Les donneacutees dans les laboratoires de lrsquoINP

En mars 2015 la DIST a publieacute les reacutesultats drsquoune enquecircte aupregraves des Directrices et Directeurs drsquouniteacutes du CNRS concernant les usages et les besoins drsquoinformation scientifique et technique des laboratoires En srsquoappuyant sur cette enquecircte ainsi que sur des consultations au sein de lrsquoINP nous avons tireacute les conclusions suivantes concernant les donneacutees dans les laboratoires de lrsquoINP

bull Les eacutequipes dans les laboratoires de lrsquoINP engendrent des donneacutees drsquoexpeacuterience et de simulation avec des volumes geacuteneacuteralement geacuterables au niveau local

bull Les eacutequipes de lrsquoINP peuvent aussi contribuer agrave geacuterer des bases de donneacutees par exemple en physique atomique et moleacuteculaire ( typiquement sur un site web un serveur de laboratoire ou un serveur international )

bull Les donneacutees sont geacuteneacuteralement sous la responsabiliteacute des eacutequipes qui les produisent

bull Il y a peu de financements externes lieacutes agrave la gestion de ces donneacutees

bull Peu de demandes eacutemanent des laboratoires sur les donneacutees ( beaucoup plus sur le calcul )

bull Tregraves peu de laboratoires ont un plan de gestion de donneacutees

bull Sur certains sites geacuteographiques il y a une participation minoritaire agrave la mutualisation des infrastructures de donneacutees par exemple dans les salles informatiques du datacentre Virtual Data du LabEx P2IO ( Paris-Saclay ) et au Dark Energy Data Center du LabEx OCEVU ( MarseilleMontpellierToulouse )hellip

bull Il nrsquoy a pas encore de politique sur la gestion des donneacutees dans les laboratoires ni de mutualisation au niveau de lrsquoinstitut

INP

29

Livre Blanc sur les Donneacutees au CNRS Eacutetat des Lieux et Pratiques - 2018

Il y a neacuteanmoins des theacutematiques eacutemergentes dans les laboratoires de lrsquoINP qui pourraient ecirctre confronteacutees agrave la probleacutematique du Big Data telle qursquoelle apparaicirct en lien avec par exemple les reacuteseaux sociaux En effet de petites eacutequipes ( au CPT agrave Marseille ou agrave lrsquoIXXI de Lyon ) eacutetudient les donneacutees de reacuteseaux sociaux ( p ex Twitter ) avec pour but par exemple de comprendre diffeacuterents comportements humains agrave lrsquoaide drsquooutils de physique et de lrsquointelligence artificielle ( p ex analyse des dialectes espagnols ) Dans ce genre drsquoeacutetude on procegravede typiquement agrave lrsquoanalyse de 10-20 To de donneacutees de flux de reacuteseau social qui doivent ecirctre laquo filtreacutees raquo agrave lrsquoaide de fermes de PCs de type Hadoop Les quelques Go de donneacutees obtenues peuvent ensuite ecirctre analyseacutes en local

Dans ce domaine les volumes de donneacutees ont une croissance exponentielle qursquoil sera difficile de suivre Un besoin drsquoacceacuteder agrave des fermes de PCs de type Hadoop se manifeste ainsi qursquoun besoin de formation dans lrsquoutilisation de techniques de data mining et dans la gestion de systegravemes Hadoop La possibiliteacute drsquoutiliser des plateformes commerciales ( Amazon Numergy Cloudwatt ) est une possibiliteacute Ces theacutematiques de recherche sont plus reacutepandues dans drsquoautres instituts ( INS2I INSHS ) et il est souhaitable que les solutions agrave ces challenges soient envisageacutees avec ces instituts

236 Participation aux initiatives europeacuteennes sur les donneacutees

Au travers de lrsquoimplication de ses chercheurs dans les activiteacutes du Centre Europeacuteen de Calcul Atomique et Moleacuteculaire ( CECAM ) lrsquoINP participe au Centre of Excellence for Computing Applications ( CoE ) E-CECAM ( httpswwwe-cam2020eu ) qui a pour vocation la creacuteation de codes modulaires open source la formation de jeunes scientifiques et de personnels de lrsquoindustrie dans le deacuteveloppement et lrsquoutilisation de logiciels deacutedieacutes et le conseil au monde industriel dans les domaines de la structure eacutelectronique la dynamique quantique et moleacuteculaire et la modeacutelisation multi-eacutechelles Par contre il est regrettable que lrsquoimplication de ses chercheurs dans des initiatives telles que le CoE NoMad ( Novel Material Discovery httpsnomad-coeeu ) soit tregraves faible alors qursquoil srsquoagit de mettre en place un dispositif pour heacuteberger organiser et partager agrave lrsquoeacutechelle internationale les donneacutees et reacutesultats de calculs et de simulations en physique et chimie des mateacuteriaux

237 Conclusions

La probleacutematique des donneacutees agrave lrsquoINP se pose surtout au travers des TGIR PaN Geacutereacutees par lrsquoINP ces infrastructures servent des communauteacutes qui vont bien au-delagrave de lrsquoINP et de la France

De gros efforts drsquoharmonisation et de mise en place drsquoune politique des donneacutees et de mutualisation ont eacuteteacute effectueacutes ( PaNdata PaNDaaS ) mais nrsquoempecircchent pas drsquoecirctre confronteacutes agrave diverses difficulteacutes Devant lrsquoaccroissement des donneacutees ces efforts deviennent incontournables Ils pourraient aussi servir de base au deacuteveloppement drsquoune politique de la conservation et de lrsquoexploitation des donneacutees au niveau du CNRS

Drsquoun point de vue stockage de donneacutees sur disques dans les centres de calcul nationaux lrsquoINP occupe de lrsquoordre de 200 Toctets par site en scratch et en laquo peacuterenne raquo le rapport entre Toctets engendreacutes et volume de calcul eacutetant petit Dans les meacutesocentres le stockage des donneacutees INP ne semble pas ecirctre un problegraveme important Au niveau des laboratoires les donneacutees sont geacutereacutees par les eacutequipes qui les geacutenegraverent et qui les utilisent

Il nrsquoy a pas encore de politique des donneacutees de lrsquoINP vis-agrave-vis des donneacutees dans les laboratoires la demande nrsquoeacutetant pas particuliegraverement forte LrsquoINP participe au travers de petites eacutequipes agrave lrsquoexploitation de grandes masses de donneacutees sociales meacutedicales etc en appliquant des meacutethodes de modeacutelisation en partie issues de la physique mais pour lrsquoinstant de faccedilon minoritaire

Drsquoautre part LrsquoINP participe aux deacutefis de la Mission pour lrsquointerdisciplinariteacute sur les donneacutees ( p ex Mastodons ) et au GDR MaDICS mais cela reste marginal aussi

30

Livre Blanc sur les Donneacutees au CNRS Eacutetat des Lieux et Pratiques - 2018

24 INSTITUT DES SCIENCES BIOLOGIQUES ( INSB )

241 Introduction

Crsquoest lrsquoassociation de biologistes comme James Watson de chimistes et de physiciens comme R Franklin et F Crick qui a permis de comprendre en 1953 les bases du fonctionnement de lrsquoADN support de lrsquoinformation geacuteneacutetique entraicircnant une premiegravere reacutevolution celle de la biologie moleacuteculaire La deuxiegraveme reacutevolution celle de la geacutenomique a commenceacute au milieu des anneacutees 1990 et a eacuteteacute marqueacutee par le seacutequenccedilage du geacutenome humain un code de plus de 3 milliards de lettres Ce succegraves a neacutecessiteacute des deacuteveloppements technologiques consideacuterables dans les domaines de la physique de lrsquoeacutelectronique de lrsquoinformatique de la chimie et de la biologie

Pour reacutepondre aux besoins de stockage et drsquoanalyse des seacutequences biologiques ( composeacutees drsquoune succession de 4 nucleacuteotides A C G T pour les seacutequences nucleacuteiques et drsquoune succession de 20 acides amineacutes pour les seacutequences proteacuteiques ) les premiegraveres collections de donneacutees en biologie sont apparues sous la forme de livres ( Atlas of Protein Sequences de Dayhoff et al ( 1965-1978 ) Nucleic Acid Sequences Handbook de Gautier et al ( 1981 ) qui contenait 1095 seacutequences et 525506 nucleacuteotides ) puis de banques de donneacutees informatiseacutees au deacutebut des anneacutees 1980 Trois grands centres se chargent de la collecte des seacutequences nucleacuteiques aux Etats-Unis Los Alamos Sequence Database puis GenBank ( depuis 1979 ) au Japon DNA Data Bank of Japan - DDBJ ( depuis 1984 ) et en Europe European Molecular Biology Laboratory Sequence Database - EMBL-Bank ( depuis 1981 ) Ces banques de donneacutees ont un format de donneacutees qui leur est propre mais une collaboration internationale a eacuteteacute mise en place afin drsquoassurer que le contenu de ces ressources soit pratiquement identique Les seacutequences proteacuteiques quant agrave elles ont eacuteteacute reacutepertorieacutees au NCBI ( National Center for Biotechnology Information Etats-Unis ) dans la PIR ( Protein Information Resource - 1984-2004 ) Aujourdrsquohui une seule ressource est maintenue en Europe UniProt dont la fraction contenant des donneacutees laquocureacuteesraquo Swiss-Prot est prise en charge par lrsquoInstitut Suisse de Bioinformatique ( SIB )

La bioinformatique a eacutemergeacute avec la disponibiliteacute des premiegraveres seacutequences proteacuteiques Lrsquoarticle fondateur de Zukerkandl et Pauling ( 1965 ) preacutesente des analyses informatiques etou matheacutematiques et statistiques sur des seacutequences biologiques pour reconstituer lrsquohistoire eacutevolutive des ecirctres vivants Le terme laquobioinformatiqueraquo srsquoest populariseacute dans les anneacutees 1990 autour de la deacutefinition suivante informatique appliqueacutee agrave la biologie Il srsquoagit de lrsquoensemble des meacutethodes informatiques permettant de ( i ) geacuterer les donneacutees produites en masse par la biologie ( ii ) analyser ces donneacutees brutes pour en extraire de lrsquoinformation ( iii ) organiser et structurer cette information ( iv ) infeacuterer des connaissances biologiques ( agrave lrsquoaide de modegraveles et de theacuteories ) agrave partir des informations stockeacutees dans des collections et ( v ) eacutenoncer des hypothegraveses geacuteneacuteralisatrices et de formuler des preacutedictions En pratique les theacutematiques principales de la bioinformatique sont les suivantes

bull Lrsquoanalyse des seacutequences ( ADN ou proteacuteines ) annotation des geacutenomes phylogeacutenie et eacutevolution geacutenomique comparative analyse de variants dans le cadre de maladies geacuteneacutetiques geacutenomique du cancer

bull Les donneacutees drsquoexpression ( ARN et proteacuteines )

bull La structure des macromoleacutecules ( ARN et proteacuteines )

bull Les reacuteseaux de reacutegulation et lrsquoanalyse du meacutetabolisme

bull La meacutetageacutenomique et meacutetabarcoding

bull Lrsquoanalyse drsquoimages

On assiste agrave un changement drsquoeacutechelle en biologie depuis une dizaine drsquoanneacutees et la biologie est entreacutee avec lrsquoavegravenement des approches ndashomiques ( cf 242 ) dans lrsquoegravere du Big Data En effet le deacuteveloppement des technologies agrave haut deacutebit permet par exemple de collecter les donneacutees agrave lrsquoeacutechelle de la cellule entiegravere et drsquoenvisager une deacutemarche encyclopeacutedique en collectant tous les gegravenes tous les transcrits toutes les proteacuteines toutes les interactions tous les meacutetabolites et les flux etc Les conseacutequences sont consideacuterables tant pour notre compreacutehension du vivant que pour les applications

INSB

31

Livre Blanc sur les Donneacutees au CNRS Eacutetat des Lieux et Pratiques - 2018

Nous pouvons maintenant aborder la complexiteacute du vivant non plus uniquement de maniegravere analytique mais de maniegravere globale agrave lrsquoeacutechelle des dizaines de milliers de macromoleacutecules qui interagissent entre elles pour faire fonctionner une cellule un tissu un organisme entier une communauteacute drsquoorganismes La gestion et lrsquoanalyse de ces gros volumes de donneacutees geacuteneacutereacutees par la biologie est donc un enjeu majeur

242 La probleacutematique des donneacutees agrave lrsquoINSB

Lrsquoavegravenement des approches -omiques ( transcriptomique geacutenomique proteacuteomique et meacutetabolomique ) a tregraves largement contribueacute agrave lrsquoacquisition de connaissances sur les organismes vivants aussi bien modegraveles que non modegraveles Depuis 2007 nous assistons au deacuteveloppement de nouvelles technologies de seacutequenccedilage agrave tregraves haut deacutebit ( NGS Next Generation Sequencing ) qui permettent de produire drsquoimportantes quantiteacutes de seacutequences drsquoADN et ARN

De fait la taille des geacutenomes seacutequenceacutes est extrecircmement variable le plus petit geacutenome ( non viral ) connu est Carsonella ruddii 016 Mbp ( millions or mega of base pairs ) et le plus grand Amoeba dubia une amibe microscopique qui preacutesente un geacutenome 100 fois plus gros que le geacutenome humain ( 675 Giga base pairs )

Une eacutetape preacutealable au seacutequenccedilage des geacutenomes drsquoorganismes vivants consiste agrave deacutecouper ces derniers en millions de fragments ( shotgun sequencing ) La taille des lectures varie de 35 bp jusqursquoagrave 2 x 200 bp pour les seacutequenceurs de 2egraveme geacuteneacuteration ( seacutequences courtes mais de tregraves bonne qualiteacute ) et de 14 kbp agrave 47 kbp pour les seacutequenceurs de 3egraveme geacuteneacuteration ( seacutequences beaucoup plus longues mais contenant un taux drsquoerreur autour de 10 aujourdrsquohui ) Un run de seacutequenccedilage produit 3 milliards de lectures apparieacutees de 2 x 100 bp soit 600 Gbp qui repreacutesentent 48 To de donneacutees laquo brutes raquo et environ 10 To avec les meacutetadonneacutees Les coucircts de seacutequenccedilage sont passeacutes de 10 000 $ agrave 003 $ par million de nucleacuteotides seacutequenceacutes Alors que la croissance de la banque geacuteneacuteraliste EMBL a doubleacute sa taille tous les 187 mois La deacutecroissance du coucirct de seacutequenccedilage nrsquoest plus proportionnelle depuis 2007 agrave la deacutecroissance exponentielle des coucircts de stockage et drsquoanalyse informatique ( loi de Moore )

32

Livre Blanc sur les Donneacutees au CNRS Eacutetat des Lieux et Pratiques - 2018

Ces deux facteurs induisent de multiples problegravemes Des fichiers de donneacutees de plusieurs dizaines ( voire plusieurs centaines ) de Go contenant des dizaines de millions de seacutequences sont geacuteneacutereacutes et engendrent des problegravemes de transfert de stockage et des traitements gourmands en meacutemoire vive espace disque et temps de calcul Il y a donc de plus en plus une neacutecessiteacute impeacuterative drsquoutiliser des clusters de calcul ( meacutesocentres CC-IN2P3 IDRIS CCRT ) Drsquoautre part de moins en moins de seacutequences effectivement produites dans les laboratoires sont soumises aux banques de donneacutees publiques En conseacutequence les trois collections geacuteneacuteralistes ne sont plus exhaustives et lrsquoon assiste agrave un foisonnement de collections locales et de banques de donneacutees speacutecialiseacutees qui pose seacuterieusement la question de la dureacutee de validiteacute de ces systegravemes Au niveau europeacuteen la mise en place

drsquoELIXIR a eacuteteacute une reacuteponse aux difficulteacutes croissantes de lrsquoEBI ( European Bioinformatics Institute ) agrave geacuterer toutes ces donneacutees Il srsquoagit drsquoune initiative lanceacutee en 2007 dans le cadre du programme ESFRI ( infrastructures de recherche europeacuteennes ) lrsquoinfrastructure ELIXIR est constitueacutee drsquoun hub central et de nœuds associeacutes ( 23 pays partenaires aujourdrsquohui ) Les biologistes sont noyeacutes sous une avalanche de donneacutees On estime que lrsquoon passe aujourdrsquohui 25 du temps agrave engendrer les donneacutees et 75 du temps agrave les analyser Aux donneacutees de seacutequences geacutenomiques viennent tout naturellement srsquoajouter celles geacuteneacutereacutees par drsquoautres technologies -omiques transcriptomique proteacuteomique meacutetabolomique structuromique et les donneacutees drsquoimages qui geacutenegraverent des quantiteacutes eacutenormes de donneacutees agrave des niveaux biologiques multiples

INSB

33

Livre Blanc sur les Donneacutees au CNRS Eacutetat des Lieux et Pratiques - 2018

Au niveau national le ministegravere a lanceacute en 2010 les premiers appels agrave projets du Plan drsquoInvestissement drsquoAvenir ( PIA ) qui doit entre autres doter la France de plusieurs grandes infrastructures drsquoenvergure nationale et tregraves compeacutetitives internationalement Les mots-cleacutes derriegravere ces infrastructures distribueacutees recouvrent la mutualisation un service ouvert agrave la communauteacute et une expertise pointue dans une technologie du domaine en eacutemergence

bull France Geacutenomique ( FG ) est lrsquoinfrastructure de production de seacutequences geacutenomiques ( ADN ARN ) Les ordres de grandeur des technologies de seacutequenccedilage ont eacuteteacute donneacutes ci-dessus Les donneacutees des appels agrave grands projets de FG sont geacuteneacuteralement traiteacutees au CCRT ougrave lrsquoeacutecosystegraveme neacutecessaire aux traitements bio-informatiques a eacuteteacute mis en place ( cf ci-dessous )

bull ProFI produit des donneacutees de proteacuteomique la volumeacutetrie associeacutee agrave chaque eacutetude est de lrsquoordre de quelques centaines de Mo qui multiplieacutes par le nombre drsquoeacutetudes meneacutees simultaneacutement repreacutesente de lrsquoordre de 100 To mobiliseacutes

bull FRISBI est une infrastructure deacutedieacutee agrave la biologie structurale inteacutegrative dont les besoins informatiques relegravevent surtout du temps de calcul ( programmes de dynamique moleacuteculaire qui peuvent ecirctre exeacutecuteacutes dans les grands centres de calcul nationaux )

bull MetaboHUB produit des donneacutees de meacutetabolomique et de fluxomique chaque plateforme gegravere ses donneacutees ( environ 20 Toan ) de faccedilon diffeacuterente et opportuniste

bull France-BioImaging produit des donneacutees drsquoimages dans un large panel de modegraveles biologiques ( de la cellule unique au petit animal en condition pathologique ) Les diffeacuterents nœuds de lrsquoinfrastructure produisent annuellement 2 Peacutetaoctets de donneacutees avec des donneacutees par projet unitaire de 100 Go agrave 10 To Le flux de donneacutees neacutecessite de laisser les systegravemes de stockage au plus pregraves des systegravemes drsquoacquisition et des moyens de calcul Il est eacutegalement plus efficace de deacuteplacer les algorithmes et logiciels drsquoanalyse au plus pregraves des donneacutees France-BioImaging a deacuteveloppeacute une solution laquo pilote raquo open source de gestion des donneacutees images qui se precircte agrave cette infrastructure distribueacutee ( httpsstrandlsgithubioopenimadis )

Pour reacutepondre aux besoins bioinformatiques engendreacutes par ces quantiteacutes croissantes de donneacutees de nature tregraves diffeacuterente lrsquoInstitut Franccedilais de Bioinformatique ( IFB ) projet laureacuteat de la seconde vague des appels du PIA ( 2012-2019 ) a eacuteteacute mis en place en 2013 Il est

organiseacute en six centres reacutegionaux ( APLIBIO IFB-GO IFB-SO IFB-GS PRABI et IFB-NE ) qui sont des regroupements de plateformes et drsquoeacutequipes de recherche en bioinformatique et en un nœud national ( IFB-core ) qui a une structure de type UMS IFB-core est localiseacute aujourdrsquohui agrave lrsquoIDRIS ( Orsay ) qui heacuteberge aussi les moyens de calcul de lrsquoIFB Sa mission geacuteneacuterale est de fournir des ressources de base et des services en bio-informatique agrave la communauteacute des sciences de la vie autrement dit

bull Fournir un appui aux programmes de la communauteacute des sciences du vivant

bull Mettre agrave disposition une infrastructure informatique deacutedieacutee agrave la gestion et lrsquoanalyse des donneacutees biologiques

bull Agir comme un laquo intermeacutediaire raquo entre la communauteacute des sciences du vivant et celle de la recherche en ( bio )informatique

LrsquoIFB est le nœud franccedilais du reacuteseau europeacuteen ELIXIR et participe agrave de nombreuses actions et projets de cette infrastructure en termes de deacutefinition de standards et drsquoontologies de contribution agrave la FAIRication des donneacutees ( Findable Accessible Interoperable Reusable ) de mise en place de formation ( e-learning )

Dans sa nouvelle feuille de route lrsquoIFB a deacutecideacute de renforcer les liens avec les autres infrastructures ndashomiques ( c-agrave-d service agrave la communauteacute ) et de deacutevelopper un axe drsquoinnovation de laquo bioinformatique inteacutegrative raquo agrave travers la mise en place de projets pilotes transverses puis dans un second temps drsquoappels agrave deacutefis Le constat global est que le verrou majeur de la production scientifique et donc de sa compeacutetitiviteacute se situe largement du cocircteacute de la gestion de la diffusion et de lrsquointerpreacutetation des donneacutees geacuteneacutereacutees au sein de ces infrastructures LrsquoIFB a un rocircle majeur agrave jouer dans lrsquoaccompagnement de ces besoins en mettant au service de ces infrastructures ses ressources et savoir-faire dans le domaine des technologies du numeacuterique pour la biologie et la santeacute

LrsquoIFB va donc amplifier ces collaborations transversales au service des infrastructures productrices de donneacutees autour de trois axes

bull Mise en place de lrsquoinfrastructure de stockage distribueacute des donneacutees massives et leur mise agrave disposition

bull Mise en place de meacutethodes associeacutees de lrsquointeacutegration de ces donneacutees heacuteteacuterogegravenes et du data mining

34

Livre Blanc sur les Donneacutees au CNRS Eacutetat des Lieux et Pratiques - 2018

bull Deacuteveloppement drsquooutils drsquointerpreacutetation et de visualisation de donneacutees biologiques pour accroicirctre leur utiliteacute et faciliter leur interpreacutetation

Compareacute aux traitements des donneacutees en physique chimie sciences de la Terre etc le traitement des donneacutees biologiques ( notamment lrsquoanalyse des seacutequences ) revecirct plusieurs caracteacuteristiques tregraves diffeacuterentes qui expliquent lrsquoutilisation faible des grands centres de calcul nationaux par cette communauteacute ( i ) beaucoup drsquoanalyses de donneacutees sont distribuables ( paralleacutelisables au niveau les donneacutees ) ( ii ) elles neacutecessitent des enchaicircnements de traitements diffeacuterents ( pipelines workflows ) lrsquoutilisation de collections de donneacutees reacuteguliegraverement mises agrave jour et lrsquointeacutegration de donneacutees heacuteteacuterogegravenes ( iii ) dans la pratique une grande varieacuteteacute de langages est utiliseacutee ( Perl Python Java ) et les nombreux logiciels employeacutes ( c-agrave-d 98 logiciels drsquoalignement de lectures sur un geacutenome ) ont souvent beaucoup de deacutependances ( bibliothegraveques versions ) Typiquement une plateforme de bio-informatique met agrave disposition plusieurs centaines de logiciels diffeacuterents La mise en œuvre de ces logiciels neacutecessite le deacuteveloppement drsquointerfaces conviviales ( web GUI ) de suivre lrsquoeacutevolution tregraves rapide des technologies de production de donneacutees et de mettre agrave jour de faccedilon tregraves reacuteguliegravere de nombreuses collections de donneacutees

A titre drsquoillustration la premiegravere version de la banque de donneacutees de familles de domaines proteacuteiques ProDom a eacuteteacute distribueacutee en 1994 en utilisant comme source primaire de donneacutees celles de la banque UniProtKB ( Swiss-Prot + TrEMBL ) La construction de ProDom srsquoeffectue en deux temps geacuteneacuteration des familles proprement dites puis post-traitements et annotation des familles La construction des familles srsquoeffectue par clustering de segments homologues de proteacuteines Initialement les traitements reposaient sur MkDom2 un algorithme reacutecursif en O( n2 ) baseacute sur lrsquoutilisation du programme PSI-BLAST ProDom en 2002 neacutecessitait 2 mois de temps CPU puis 15 mois en 2006 pour passer agrave plus de 20 anneacutees de temps CPU en 2020 On voit bien ici la neacutecessiteacute de repenser la meacutethode en introduisant une paralleacutelisation des calculs et une compression des donneacutees A partir de lagrave un nouvel algorithme MPI-MkDom3 a eacuteteacute introduit avec diverses ameacuteliorations dont une paralleacutelisation agrave base de MPI La construction des familles de ProDom 2010 avec cette nouvelle version prend moins drsquoune semaine aujourdrsquohui au lieu de plus de 20 ans Les diverses optimisations reacutealiseacutees ont imposeacute entre autres de prendre en compte les probleacutematiques de lrsquoeacutequilibrage de charge entre les processeurs et ont conduit au deacuteveloppement de Paraload un outil drsquoeacutequilibrage de charge dynamique agrave base de modegravele client-serveur

Cette illustration constitue un exemple drsquoutilisation de donneacutees massives en biologie qui neacutecessite des temps de calcul tregraves importants et dont la valeur ajouteacutee provient des reacutesultats des calculs effectueacutes sur les donneacutees laquo brutes raquo que sont les seacutequences proteacuteiques

On peut ainsi constater que la bioinformatique a eu tendance par le passeacute agrave deacutevelopper ses propres infrastructures et affiche une faible utilisation des centres de calcul HPC ( excepteacute pour les simulations de dynamique moleacuteculaire ) De mecircme lrsquoutilisation des meacutesocentres reacutegionaux reste modeacutereacutee Cependant la communauteacute est consciente des difficulteacutes de passage agrave lrsquoeacutechelle des plateformes de bioinformatique et explore lrsquointeacuterecirct de lrsquoutilisation de la grille avec le projet GRISBI sur Grenoble et srsquoimplique dans le deacuteveloppement drsquoun Cloud acadeacutemique ( avec le soutien de lrsquoIBCP de GenOuest et de lrsquoIFB ) qui repose sur les infrastructures nationales de lrsquoIFB et les plateformes reacutegionales Ces plateformes de bioinformatique fournissent un accegraves gratuit agrave leurs infrastructures soit environ 10 000 cœurs et 1 Po de stockage ( sur 20 localisations diffeacuterentes ) alors que le nœud national de lrsquoIFB heacutebergeacute agrave lrsquoIDRIS apporte de lrsquoordre de 10 000 cœurs et 2 Po de stockage

243 Conclusion

Lrsquoensemble de la biologie est impacteacute par la disponibiliteacute des meacutethodes agrave haut deacutebit qui induisent des changements profonds dans les pratiques ( objectifs plans expeacuterimentaux ) Toute analyse neacutecessite deacutesormais de disposer de moyens de calcul conseacutequents ( validations statistiques ) qui doivent ecirctre disponibles aussi bien au niveau national que local

On assiste agrave un veacuteritable changement de paradigme au sein de la biologie avec un besoin deacutecroissant en techniciens sur les paillasses et croissant en analystes de donneacutees qui sont actuellement une denreacutee rare

Il y a obligation de deacutevelopper de nouvelles approches pour la gestion le partage et le traitement des donneacutees en franchissant le seuil de la paralleacutelisation des calculs et en travaillant sur la reacuteduction de la taille des jeux de donneacutees ( eacutechantillonnage compression clustering )

Du point de vue des infrastructures -omiques en compleacutement du rapprochement existant aupregraves de lrsquoinfrastructure national de lrsquoIFB il faudrait inciter les plateformes reacutegionales agrave srsquoappuyer plus fortement sur les meacutesocentres de calcul

INSB

35

Livre Blanc sur les Donneacutees au CNRS Eacutetat des Lieux et Pratiques - 2018

25 INSTITUT DES SCIENCES HUMAINES ET SOCIALES ( INSHS )

251 Introduction

Les donneacutees sont devenues au niveau international un facteur cleacute pour nombre de disciplines SHS ainsi qursquoun domaine en soi Les donneacutees sont une matiegravere convoiteacutee pour la recherche en SHS comme pour drsquoautres secteurs drsquoactiviteacute Produire diffuser tirer de la connaissance des donneacutees est donc une question strateacutegique pour lrsquoInSHS

LrsquoInSHS regroupe des disciplines dans lesquelles les analyses quantitatives baseacutees sur des jeux importants de donneacutees sont depuis longtemps fondamentales ( lrsquoeacuteconomie la sociologie la deacutemographie ) et drsquoautres qui sans ignorer lrsquousage des donneacutees ont vu de maniegravere plus reacutecente lrsquoeacutemergence de probleacutematiques propres au data driven ( litteacuterature histoire )

Une des caracteacuteristiques majeures de la donneacutee en SHS reacuteside dans la tregraves grande heacuteteacuterogeacuteneacuteiteacute des types de donneacutees utiliseacutes par les chercheurs qui vont des donneacutees agreacutegeacutees de la statistique publique jusqursquoagrave des corpus textuels ou drsquoimages en passant par les donneacutees individuelles et nominatives ou pour lrsquoarcheacuteologie par des donneacutees 3D

Cette heacuteteacuterogeacuteneacuteiteacute est renforceacutee par le fait que les chercheurs en SHS disposent de donneacutees de deux origines principales les donneacutees qursquoils ont produites par eux-mecircmes mais aussi de donneacutees produites par la socieacuteteacute comme les donneacutees fournies par la statistique publique ainsi que par le mouvement drsquoopen data ou les corpus fournis par les bibliothegraveques qui peuvent ecirctre interrogeacutes ou combineacutes de maniegravere novatrice

Lrsquoapparition de ces vastes corpus de sources par exemple archeacuteologiques artistiques ou textuelles ou la constitution de grandes bases de donneacutees donnant accegraves aux comportements personnels et sociaux des personnes dans une vaste gamme de domaines modifient en effet la maniegravere dont les chercheurs SHS abordent les objets scientifiques sur lesquels ils travaillent elles leur donnent accegraves agrave un ensemble drsquoinformations qui peuvent ecirctre fouilleacutees automatiquement et appareilleacutees les unes aux autres elles permettent de construire de nouvelles modaliteacutes de validation scientifique agrave cocircteacute des techniques fondeacutees sur lrsquoeacutechantillonnage lrsquoeacutetude de cas ou encore

la veacuterification drsquohypothegraveses ou de theacuteories construites indeacutependamment des donneacutees Ces nouvelles pratiques reacuteinterrogent les cateacutegorisations et grilles drsquoanalyse SHS en mecircme temps qursquoelles posent une seacuterie de questions de nature eacutethique degraves qursquoil srsquoagit de donneacutees individuelles

Cette datafication des sciences sociales et des humaniteacutes est un fait dont les implications ne sont pas toujours bien appreacutehendeacutees par les communauteacutes Elle impose des contraintes nouvelles reacuteflexion sur les standards plan de gestion des donneacutees promulgation de bonnes pratiques prise de recul meacutethodologique et eacutepisteacutemologique LrsquoInSHS agrave travers diffeacuterents dispositifs srsquoemploie agrave diffuser ces bonnes pratiques

Cela passe par un travail de diffusion des probleacutematiques des meacutethodologies lieacutees agrave lrsquousage des donneacutees au sein des diverses communauteacutes scientifiques Cela passe aussi par une articulation forte entre les dispositifs de production drsquoarchivage et de traitement des donneacutees et les communauteacutes scientifiques susceptibles de les utiliser en particulier par le biais de relais locaux sur les sites notamment par les MSH

252 Le dispositif des TGIR SHS

Pour reacutepondre agrave ces deacutefis eacuteviter la dispersion et lrsquoobsolescence des donneacutees produites accompagner les eacutequipes et les chercheurs lrsquoInSHS srsquoappuie sur les deux TGIR SHS dont le CNRS a eacuteteacute deacutesigneacute opeacuterateur par le MESRI la TGIR Huma-Num en charge des humaniteacutes numeacuteriques et la TGIR Progedo en charge de lrsquoaccegraves aux donneacutees de sciences sociales ( statistique publique donneacutees drsquoenquecirctes )

Les deux TGIR se situent agrave lrsquoarticulation des dispositifs europeacuteens de donneacutees en SHS et des dispositifs sur les sites destineacutes agrave favoriser et agrave promouvoir lrsquoaccegraves aux donneacutees de sciences sociales et aux humaniteacutes numeacuteriques

36

Livre Blanc sur les Donneacutees au CNRS Eacutetat des Lieux et Pratiques - 2018

INSHS

Huma-Num

Lrsquoaction de la TGIR Huma-Num ( UMS du CNRS ) est de faciliter le laquo tournant numeacuterique raquo de la recherche en sciences humaines et sociales dans la production et la reacuteutilisation de donneacutees numeacuteriques Il srsquoagit de

bull Deacutevelopper lrsquoappropriation par les communauteacutes scientifiques du cycle de vie des donneacutees numeacuteriques

bull Proposer des services pour les donneacutees au juste niveau et au bon moment

Huma-Num srsquoorganise autour drsquoun certain nombre drsquooutils et de services de projets de recherche de consortiums et de reacuteseaux europeacuteens comme indiqueacute dans la figure ci-dessous

LrsquoUMS Huma-Num est localiseacutee agrave Paris et agrave Lyon au CC-IN2P3 depuis 10 ans

Elle propose un ensemble de services pour les donneacutees numeacuteriques produites en SHS avec des partenariats avec le CC IN2P3 le CINES ( Centre Informatique National de lrsquoEnseignement Supeacuterieur ) et le CCSD ( Centre pour la Communication Scientifique Directe )

A chaque eacutetape du cycle de vie des donneacutees correspond un service deacutedieacute par exemple iRods pour le stockage en coopeacuteration avec le CC-IN2P3 des logiciels drsquoanalyse de donneacutees et de gestions de bases de donneacutees un ensemble drsquooutils de diffusion sur le Web ( p ex pack Nakalona et service de machines virtuelles ) un service drsquoarchivage agrave long terme avec le CINES un service de signalement des donneacutees avec ISIDORE et un service drsquoexposition de donneacutees NAKALA

A cocircteacute de cet ensemble de services Huma-Num seacutelectionne finance et accompagne des consortiums au nombre de 8 agrave 12 destineacutes agrave favoriser lrsquoeacutemergence ou lrsquoimpleacutementation drsquooutils au plus pregraves des besoins des communauteacutes disciplinaires Actuellement les 10 consortiums de Huma-Num repreacutesentent

bull 120 eacutequipes de recherche ( UMR EA )

bull Un reacuteseau de + de 300 chercheurs ingeacutenieurs etc

bull Plus de 50 actions publiques ( formations ateliers seacuteminaireshellip )

Entre 2011 et 2015 plus de 230 actions de coordination nationales dans 16 disciplines majeures des SHS ont eacuteteacute meneacutees plus de 350 fonds drsquoarchivescorpus mis aux normes mis agrave disposition etou signaleacutes 500000 documents issus drsquoarchives scientifiques ont eacuteteacute mis en open access

37

Livre Blanc sur les Donneacutees au CNRS Eacutetat des Lieux et Pratiques - 2018

Enfin Huma-Num constitue la brique franccedilaise de deux dispositifs drsquoinfrastructures europeacuteennes de recherche ( ERIC European Research Infrastructure Consortium ) lieacutees aux donneacutees

bull DARIAH-EU ( Digital Research Infrastructure for the Arts and Humanities )

bull CLARIN ( European Research Infrastructure for Language Resources and Technology )

Un certain nombre drsquooutils deacuteveloppeacutes par Huma-Num sont aujourdrsquohui impleacutementeacutes au niveau europeacuteen via diffeacuterents programmes H2020 en relation avec ces deux ERIC La TGIR dispose donc drsquoune reconnaissance internationale attesteacutee par de nombreuses demandes drsquoexpertise ou de coopeacuteration venues des ERIC et de diffeacuterents pays ( Queacutebec Argentine )

Progedo

La TGIR Progedo opeacutereacutee par lrsquoUMS Progedo ( CNRS-Ehess ) est lrsquoacteur central en matiegravere de production et de gestion de donneacutees en sciences sociales Lrsquoinfrastructure a pour mission de hausser le niveau de structuration nationale des communauteacutes de recherche en deacuteployant une strateacutegie de deacuteveloppement entre les organismes de recherche les grands eacutetablissements et les universiteacutes et de renforcer la position de la France dans lrsquoespace europeacuteen de la recherche

Pour ce faire Progedo organise lrsquoappui agrave la collecte agrave la documentation agrave la preacuteservation et agrave la promotion drsquoun vaste ensemble de donneacutees neacutecessaires aux disciplines des sciences humaines et sociales dans un cadre conforme agrave la leacutegislation et la regraveglementation en vigueur concernant la protection des donneacutees individuelles Elle favorise la diffusion de ces donneacutees pour la recherche soutient la reacutealisation de grandes enquecirctes et bases de donneacutees repreacutesentatives neacutecessaires agrave la recherche et participe agrave la mise en place des dispositifs seacutecuriseacutes drsquoaccegraves aux donneacutees individuelles

38

Livre Blanc sur les Donneacutees au CNRS Eacutetat des Lieux et Pratiques - 2018

Progedo constitue la tecircte de reacuteseau de diffusion nationale des donneacutees produites Elle srsquoappuie actuellement sur quatre entiteacutes

bull Deux eacutequipes lieacutees au CNRS

o lrsquoADISP qui met agrave disposition les donneacutees de la statistique publique agreacutegeacutees

o le CDSP avec Sciences Po Paris qui deacuteploie la mise agrave disposition des donneacutees produites par les chercheurs en sciences politiques principalement

bull Le service des enquecirctes de lrsquoINED

bull LrsquoEquipex CASD porteacute par le GENES ( INSEE ) pour lrsquoaccegraves seacutecuriseacute aux donneacutees en particulier aux donneacutees individuelles en les anonymisant

Progedo est la seule structure nationale de mise agrave disposition des donneacutees en sciences sociales Elle est construite comme une ombrelle destineacutee agrave couvrir tout le champ neacutecessaire autour des donneacutees drsquoenquecirctes pour la recherche Elle srsquoorganise en quatre deacutepartements qui correspondent agrave quatre grands types de donneacutees en sciences sociales

Ces quatre deacutepartements regroupent les activiteacutes correspondant agrave trois ERIC

bull CESSDA ( donneacutees de la recherche et de la statistique publique )

bull ESS ( donneacutees de sciences politiques et enquecirctes drsquoopinion )

bull SHARE ( donneacutees de santeacute )

et un ERIC en projet GGP ( relations familiales approches longitudinales des dynamiques familiales )

En tant que structure de coordination son peacuterimegravetre peut donc ecirctre appeleacute agrave srsquoeacutetendre agrave drsquoautres types de donneacutees de sciences sociales Cette position surplombante assure agrave terme la coheacuterence de lrsquoensemble des dispositifs franccedilais de mise agrave disposition des donneacutees et leur parfaite articulation avec un eacutechelon europeacuteen dont les contours sont encore agrave deacutefinir Progedo est donc destineacutee agrave ecirctre le relais franccedilais vis-agrave-vis de toutes les infrastructures europeacuteennes de donneacutees de sciences sociales existantes et agrave venir Cette organisation qui donne une visibiliteacute sur tous les dispositifs ERIC centres de compeacutetences et services nationaux ne se retrouve pas ailleurs en Europe et est un atout face agrave des modes drsquoorganisation nationaux geacuteneacuteralement plus cloisonneacutes geacuteneacuterateurs de coucircts suppleacutementaires et de doublons et un paysage europeacuteen des donneacutees non stabiliseacute

INSHS

PLATES-FORMES UNIVERSITAIRES DE DONNEacuteESavec le RnMSH les MSH et Universiteacutes de Lille Caen Lyon Nantes Strasbourg Dijon

ANIMATION SCIENTIFIQUE

PRODUCTIONENQUEcircTE

DEPARTEMENT GGP-FRANCE

DIFFUSION

ANIMATION SCIENTIFIQUE

DEPARTEMENT QUETELET PROGEDO DIFFUSION(Cessda - FranCe)

ANIMATION SCIENTIFIQUE

PRODUCTIONENQUEcircTE

DEPARTEMENT ESS-FRANCE

ANIMATION SCIENTIFIQUE

PRODUCTIONENQUEcircTE

DEPARTEMENT SHARE-FRANCE

UMS PROGEDO ANIMATION GEacuteNEacuteRALE

CONSEIL SCIENTIFIQUE

COMITEacute DE PILOTAGE

tutelles EHESSCNRS

39

Livre Blanc sur les Donneacutees au CNRS Eacutetat des Lieux et Pratiques - 2018

Implanteacutee en reacutegion gracircce agrave ses plateformes universitaires de donneacutees ( PUD ) Progedo est un acteur essentiel pour la formation agrave lrsquousage des donneacutees de la recherche Ces PUD sont des portes drsquoentreacutee dans le monde des donneacutees pour des publics parfois tregraves eacuteloigneacutes par leur parcours universitaire et leurs pratiques scientifiques des techniques statistiques Avec la mise en reacuteseau des PUD la TGIR srsquoattache agrave deacutevelopper conjointement lrsquoaccegraves aux ressources et agrave la compeacutetence collective des utilisateurs une double condition neacutecessaire pour permettre agrave la France drsquoecirctre au bon niveau international Les PUD installeacutees au sein des communauteacutes sur les sites universitaires dans les MSH lieu de deacutecloisonnement par excellence constituent un levier essentiel Lrsquoobjectif est drsquoouvrir 20 nouvelles PUD dans les trois ans 9 le sont actuellement

Articulation avec les autres producteursdiffuseur de donneacutees

Le dispositif de donneacutees SHS se construit autour de ces deux pocircles majeurs que sont Huma-Num et Progedo mais aussi en articulation avec une seacuterie drsquoautres infrastructures ou de dispositifs qui soit mettent agrave disposition des donneacutees soit assurent leur diffusion aupregraves des communauteacutes de recherche Les TGIR travaillent donc agrave favoriser la conservation agrave garantir lrsquointeropeacuterabiliteacute le moissonnage la diffusion de donneacutees ou de standards produits par drsquoautres infrastructures de nature speacutecifique telles que

bull Open Edition

bull Perseacutee

bull la chaicircne eacuteditoriale XML-TEI METOPES19

Les deux TGIR sont donc fortement articuleacutees autour de ces 3 IR inscrites sur la feuille de route nationale des infrastructures

Elles travaillent eacutegalement en eacutetroite collaboration avec les 23 MSH reacuteparties sur les sites ougrave elles trouvent des relais efficaces agrave la fois pour la mise agrave disposition des donneacutees la diffusion de la pratique des donneacutees et du numeacuterique dans les communauteacutes de chercheurs

19 httpwwwunicaenfrrecherchemrshdocument_numeriqueprojetsmetopes

253 Conclusion

Les enjeux pour lrsquoInSHS en matiegravere de donneacutees sont au moins au nombre de quatre

- Organiser des dispositifs de gestion des donneacutees qui assurent leur peacuterenniteacute leur interopeacuterabiliteacute et leur large diffusion et qui tiennent compte en mecircme temps de la tregraves grande varieacuteteacute des types de donneacutees SHS

- Encourager le tournant numeacuterique et conduire les chercheurs agrave prendre la mesure du tournant eacutepisteacutemologique que constitue le deacuteveloppement des donneacutees pour tous les champs disciplinaires SHS Il srsquoagit de deacutevelopper dans les communauteacutes une laquo culture de la donneacutee raquo propre agrave reacutesoudre ce paradoxe qui fait que la France est un des plus importants producteurs de donneacutees ( du fait notamment de lrsquoancienneteacute de sa statistique publique ) mais qursquoelles sont sous-utiliseacutees par ses chercheurs

- Contribuer agrave aider la socieacuteteacute agrave construire des reacuteponses adapteacutees aux deacutefis poseacutes par la constitution de grandes bases de donneacutees dont les possibiliteacutes de traitement automatique drsquoappariement et de croisement interrogent les dispositifs de protection des donneacutees personnelles les liberteacutes individuelles et le droit agrave la vie priveacutee Ce rocircle doit ecirctre mieux identifieacute par les speacutecialistes des autres sciences et par les deacutecideurs publics

- Contribuer au deacuteveloppement des initiatives autour de lrsquoopen data et agrave la reacuteflexion sur leurs impacts sur les sciences et sur la socieacuteteacute qui sont au cœur de la strateacutegie nationale de recherche ( Deacutefi 7 Socieacuteteacute de lrsquoinformation et de la communication - Orientation 25 Systegravemes sucircrs drsquoexploitation des grandes masses de donneacutees Deacutefi 8 Socieacuteteacutes innovantes inteacutegratives et adaptatives - Orientation 29 Seacutecurisation et optimisation de lrsquoextraction des donneacutees )

40

Livre Blanc sur les Donneacutees au CNRS Eacutetat des Lieux et Pratiques - 2018

26 INSTITUT DES SCIENCES DE LrsquoINGENIERIE ET DES SYSTEMES ( INSIS )

261 Introduction

LrsquoInstitut des Sciences de lrsquoIngeacutenierie et des Systegravemes ( INSIS ) rassemble environ 6000 chercheurs et enseignants-chercheurs ( dont 961 chercheurs CNRS et 5026 enseignants-chercheurs ) reacutepartis dans une centaine drsquouniteacutes de recherche Ses theacutematiques couvrent une partie des sections 4 ( fusion par confinement magneacutetique ITER ) 7 ( signal image automatique robotique ) 30 ( bio ingeacutenierie ) la totaliteacute des sections 8 ( micro et nano-technologies eacutelectronique photonique eacutelectromagneacutetisme eacutenergie eacutelectrique ) 9 ( ingeacutenierie des mateacuteriaux et des structures meacutecanique des solides acoustique ) et 10 ( milieux fluides et reacuteactifs transports transferts proceacutedeacutes de transformation ) du Comiteacute National

LrsquoInstitut est donc multi-theacutematiques et comporte de nombreuses disciplines qui utilisent agrave peu pregraves toutes lrsquooutil de simulation Cependant les ingeacutenieurs se sont lanceacutes tregraves tocirct dans la simulation avec des moyens et des deacuteveloppements algorithmiques propres adapteacutes aux laquo systegravemes raquo ce qui fait que les pratiques en matiegravere de simulation sont heacuteteacuterogegravenes Il y a notamment une asymeacutetrie entre la proportion de recherche impliquant la simulation en meacutecanique des fluides au sens large ( incluant la combustion ) et les autres disciplines

En ingeacutenierie des systegravemes la numeacuterisation entre en jeu non seulement pour la simulation mais pour les expeacuteriences ou les modegraveles ainsi les donneacutees numeacuteriques sont manipuleacutees dans de nombreux contextes En voilagrave quelques-uns agrave titre drsquoexemple

bull Capteurs en reacuteseau les eacutechanges drsquoinformation issus de mesures provenant de diffeacuterents capteurs notamment pour le controcircle des systegravemes neacutecessitent des techniques et algorithmes speacutecifiques de gestion de flots de donneacutees ainsi que pour le post-traitement des masses de donneacutees qursquoil srsquoagit aussi de stocker ou archiver

bull Reacuteseaux en geacutenie eacutelectrique des probleacutematiques similaires de mise en place de strateacutegies de gestion des donneacutees pour la production et la distribution de lrsquoeacutenergie eacutelectrique

bull Meacutecanique pour le vivant cela concerne lrsquoimagerie meacutedicale pour les tissus vivants avec de nombreuses questions pour les donneacutees concernant leur qualiteacute leur stockage leur confidentialiteacute Des volumes de donneacutees importants peuvent ecirctre produits notamment en eacutelastographie transitoire baseacutee sur le couplage drsquoun prototype drsquoimagerie eacutechographique capable drsquoatteindre des cadences eacutechographiques supeacuterieures agrave 5000 images par seconde

bull Acoustique il srsquoagit principalement des questions drsquoingeacutenierie des ondes acoustiques concernant leur propagation et transmission mais les donneacutees en aeacuteroacoustique ont un lien direct avec la meacutecanique des fluides et cette theacutematique est aussi relieacutee avec la meacutecanique des vibrations au travers de lrsquointeraction fluide-structure

bull Meacutecanique des solides structures et mateacuteriaux la prise en compte des non lineacuteariteacutes comportementales des mateacuteriaux dans les meacutethodes de changement drsquoeacutechelle est effectueacutee au moyen de modeacutelisations theacuteoriques associeacutees agrave des outils numeacuteriques innovants ( eacuteleacutements finis eacutetendus transformations de Fourier rapides ou FFT techniques de reacuteduction de modegraveles etc ) Pour les mateacuteriaux et les structures les mesures de deacuteplacement ou de champs sont de nos jours baseacutees sur de lrsquoimagerie 2D et 3D notamment en tomographie avec des techniques multiples utilisant la lumiegravere visible les infrarouges les rayons X etc Ceci est tout particuliegraverement utile pour le controcircle des deacutefauts ou de lrsquousure des mateacuteriaux

bull Meacutecanique des fluides la theacutematique couvre tous les pheacutenomegravenes fluides agrave toutes les eacutechelles allant de la microfluidique aux eacutechelles geacuteophysiques et astrophysiques Les simulations numeacuteriques directes notamment en turbulence qui y sont reacutealiseacutees sont parmi les plus consommatrices de temps de calcul et productrices de donneacutees comme illustreacute plus en deacutetail ci-apregraves

INSIS

41

Livre Blanc sur les Donneacutees au CNRS Eacutetat des Lieux et Pratiques - 2018

On se rend donc bien compte que les questions scientifiques agrave lrsquoINSIS portent sur des probleacutematiques multi-physiques qui sont reacutesolues numeacuteriquement par lrsquoapplication drsquoalgorithmes pour le calcul haute performance crsquoest-agrave-dire le calcul parallegravele mais aussi le Cloud computing Le passage agrave lrsquoeacutechelle pour des systegravemes complexes reacuteels en ingeacutenierie neacutecessite ainsi une hieacuterarchie drsquoapplications qui permet en outre drsquoaborder explicitement les aspects multi-eacutechelles Les systegravemes multi-physiques neacutecessitent notamment le couplage entre codes de nature diffeacuterente Crsquoest la probleacutematique geacuteneacuterique des intergiciels ( parmi lesquels les logiciels de couplage comme OpenPALM ) mais ceci introduit la difficulteacute suppleacutementaire poseacutee par lrsquoheacuteteacuterogeacuteneacuteiteacute des donneacutees agrave stocker et agrave analyser

Lrsquoinstitut est donc un des principaux utilisateurs du calcul haute performance au CNRS comme lrsquoattestent notamment les attributions drsquoheures de calcul par GENCI dans deux comiteacutes theacutematiques parmi dix concernant seacutepareacutement les eacutecoulements reacuteactifs drsquoune part et les eacutecoulements non reacuteactifs drsquoautre part

Ce poids de lrsquoINSIS cache en fait une tregraves grosse dispariteacute selon les theacutematiques plus de 90 des ressources sur les centres nationaux sont consommeacutees par la meacutecanique des fluides au sens large du terme deacutefinie ici comme reacutesolution des eacutequations de Navier-Stokes et des eacutequations associeacutees ( meacutecanique des fluides combustion eacutecoulements diphasiques transferts thermiques plasmas magneacutetohydrodynamique aeacuteroacoustique transport seacutedimentairehellip ) par un petit nombre de laboratoires ( moins drsquoune dizaine ) et de chercheurs rattacheacutes pour la plupart agrave la section 10 du Comiteacute National Les communauteacutes laquo meacutecanique des solides raquo et laquo mateacuteriaux et structures raquo bien que revendiquant une activiteacute calcul intensif sont absentes un seul projet tandis que les quelques projets interaction fluidestructure sont le fait de laboratoires nettement identifieacutes laquo meacutecanique des fluides raquo Les projets restants concernent lrsquoeacutelectromagneacutetisme lrsquointeraction lasermatiegravere et la chimie ( calculs ab-initio diagramme de phasehellip )

262 La probleacutematique des donneacutees agrave lrsquoINSIS

La probleacutematique des donneacutees agrave lrsquoINSIS est donc principalement lieacutee agrave la gestion des gros volumes de donneacutees qui sont produits dans le domaine de la simulation numeacuterique et a pour enjeux

bull La modeacutelisation de pheacutenomegravenes avec eacutevolution dans le temps ce qui implique quatre dimensions agrave traiter pour des pheacutenomegravenes spatiaux tridimensionnels ( 3D )

bull Le caractegravere aleacuteatoire de certains comportements qui neacutecessite donc une approche probabiliste La repreacutesentation fidegravele de ces pheacutenomegravenes dans toute leur variabiliteacute reacuteclame de nombreuses reacutealisations drsquoune mecircme expeacuterience ou simulation drsquoougrave la neacutecessiteacute drsquoun stockage et drsquoun traitement statistique a posteriori

bull La visualisation de pheacutenomegravenes complexes multidimensionnels passe par un rendu visuel pour une compreacutehension des pheacutenomegravenes instationnaires avec plus ou moins de reacutealisme dans le rendu spatial En revanche la simulation en temps reacuteel de pheacutenomegravenes rapides nrsquoest que tregraves rarement possible Ainsi le suivi de calculs instationnaires passe par la mise en place de techniques de visualisation agrave la voleacutee qui ne permettent qursquoune observation partielle de lrsquoinstationnariteacute

bull Lrsquoadaptation des codes aux nouveaux algorithmes lieacutes agrave lrsquoeacutevolution technologique et aux nouvelles architectures mateacuterielles notamment les acceacuteleacuterateurs de type GPU dont lrsquoutilisation requiert une adaptation des formats de repreacutesentation des donneacutees internes au calculateur afin de tirer parti de lrsquoarchitecture vectorielle du processeur

bull La creacuteation de formats drsquoenregistrement de donneacutees non seulement compatibles avec la nature de celles-ci selon les disciplines mais aussi lrsquoutilisation de formats compatibles avec des entreacutees-sorties adapteacutees agrave des transferts massifs de champs en simultaneacute par des dizaines voire des centaines de milliers de processeurs dans le cadre de systegravemes de fichiers paralleacuteliseacutes

42

Livre Blanc sur les Donneacutees au CNRS Eacutetat des Lieux et Pratiques - 2018

263 Illustration la question des donneacutees en meacutecanique des fluides

Comme mentionneacute en introduction la meacutecanique des fluides inertes et reacuteactifs repreacutesente une partie tregraves importante dans la production de donneacutees au travers drsquoune repreacutesentation majoritaire des heures de calcul sur les calculateurs nationaux au niveau Tier 1

La simulation produit ainsi des quantiteacutes importantes de donneacutees mais il en va de mecircme pour certaines expeacuteriences dans lesquelles la meacutetrologie a fait un tel progregraves qursquoelle aboutit agrave des volumes de donneacutees aussi importants que les plus grosses simulations Il srsquoagit par exemple de la technique de veacutelocimeacutetrie par imagerie de particules ( Digital Particle Image Velocimetry ou DPIV ) qui permet agrave preacutesent drsquoacqueacuterir agrave des freacutequences tregraves eacuteleveacutees des champs de vitesse reacutesolus spatialement et en temps Les expeacuteriences utilisent des cameacuteras rapides agrave haute reacutesolution et haute freacutequence qui enregistrent les donneacutees brutes directement sur des systegravemes de meacutemoires rapides ( disques de type SSD ) agrave la voleacutee Une seule expeacuterience est capable de produire en une journeacutee jusqursquoagrave 400 To de donneacutees

De mecircme les simulations numeacuteriques directes en turbulence utilisent des algorithmes pseudo-spectraux agrave mecircme de repreacutesenter toutes les eacutechelles drsquoun eacutecoulement Si la puissance actuelle des calculateurs ne permet pas encore de couvrir des gammes drsquoeacutechelles aussi larges que celles rencontreacutees dans les eacutecoulements geacuteophysiques mdash allant du centimegravetre agrave des centaines de kilomegravetres pour lrsquoatmosphegravere mdash les reacutesolutions les plus grandes possible sont rechercheacutees pour une bonne repreacutesentation des pheacutenomegravenes de transfert drsquoeacutenergie et de dispersion Des simulations utilisant des maillages de 40963 points produisent un volume drsquoenviron 15To par iteacuteration de calcul qui se comptent en milliers pour repreacutesenter correctement les fluctuations rapides temporelles Ceci deacutepasse la capaciteacute de stockage alloueacutee agrave un utilisateur sur les grands centres de calcul nationaux Cette difficulteacute impose un stockage drsquoun petit nombre de champs pour lrsquoanalyse exhaustive des indicateurs statistiques des signaux et seules des statistiques choisies en petit nombre sont calculeacutees agrave la voleacutee afin de ne pas impacter la performance du calcul

Par ailleurs les instabiliteacutes hydrodynamiques qui peuvent se produire dans des eacutecoulements complexes utilisent des meacutethodes de continuation selon de nombreux paramegravetres relatifs agrave lrsquoinstabiliteacute eacutetudieacutee Lrsquoalgorithme de suivi est efficace srsquoil utilise

une infrastructure de grille de calcul qui permet drsquoeffectuer un tregraves grand nombre de calculs de taille reacuteduite chacun pour un jeu de paramegravetres diffeacuterents Ceci se reacutealise par le biais de reacuteseaux drsquointerconnexion au travers desquels sont envoyeacutes le code et les paramegravetres sur chaque nœud de calcul qui renvoient les reacutesultats agrave lrsquoissue de la simulation Plusieurs milliers de nœuds peuvent ecirctre impliqueacutes Cette technique est notamment utiliseacutee pour la stabiliteacute drsquoeacutecoulements cisailleacutes eacutetudieacutee gracircce aux moyens du CC-IN2P3 ougrave un environnement de calcul tregraves favorable adapteacute au traitement des donneacutees des collisionneurs est mis en œuvre

Plusieurs questions se posent concernant le statut et le devenir des donneacutees produites

- Quelle est la dureacutee de vie des donneacutees Par exemple concernant leur reacutealisation au niveau technique des simulations agrave reacutesolution 10243 avaient un caractegravere exceptionnel il y a 7 ans mais peuvent ecirctre reproduites aiseacutement avec les moyens actuels Faut-il donc stocker des donneacutees au-delagrave drsquoune peacuteriode relativement courte apregraves laquelle les moyens de calcul permettront leur reproduction agrave un coucirct neacutegligeable

- De nombreuses eacutequipes produisent des bases de donneacutees importantes en quantiteacute et en qualiteacute qui sont sous-exploiteacutees mais qui peuvent ecirctre utiles agrave une eacutequipe srsquointeacuteressant agrave la dynamique du fluide sous un point de vue diffeacuterent Comment peut-on eacuteviter de dupliquer les mecircmes expeacuteriences ou simulations Et dans une logique eacutetendue comment peut-on mettre ces donneacutees agrave disposition de la communauteacute scientifique globale Quelle dureacutee drsquoembargo doit-on imposer avant diffusion geacuteneacuterale

- Quelles sont alors les modaliteacutes de stockage et drsquoeacutechange agrave adopter Ceci pose agrave la fois la question du format des fichiers mais aussi des meacutetadonneacutees agrave lui associer

- Faut-il archiver des donneacutees et pour quelle peacuteriode

Au niveau national au-delagrave des stockages temporaires deacutedieacutes agrave des projets attributaires drsquoheures de calcul sur les grands centres nationaux ou meacutesocentres il nrsquoexiste pas agrave notre connaissance drsquoinitiative globale pour la gestion des donneacutees en meacutecanique des fluides En outre sur les grands centres les politiques de reacutetention de donneacutees et les capaciteacutes des serveurs ne permettent pas le stockage sur des longues dureacutees ou le partage large des donneacutees massives

INSIS

43

Livre Blanc sur les Donneacutees au CNRS Eacutetat des Lieux et Pratiques - 2018

Au niveau europeacuteen on peut mentionner la base de donneacutees Turbase ( httpsturbasecinecait ) qui porte sur les donneacutees en turbulence Cette base utilise lrsquoinfrastructure italienne CINECA situeacutee agrave Bologne qui est un des grands centres europeacuteens participant agrave PRACE20 Des moyens ont eacuteteacute alloueacutes par EuHIT ( projet europeacuteen visant principalement agrave deacutevelopper lrsquoouverture des expeacuteriences de grande taille en turbulence mais avec aussi un volet laquo donneacutees raquo ) pour deacutevelopper Turbase

Agrave lrsquointernational on peut mentionner la base ouverte agrave lrsquouniversiteacute de Johns Hopkins ( Baltimore Etat du Maryland aux USA httpturbulencephajhuedu ) qui outre le stockage et le partage des donneacutees brutes offre une fonctionnaliteacute suppleacutementaire pour extraire une sous-partie de lrsquoinformation ou produire des statistiques associeacutees

On constate cependant lrsquoabsence de standard commun drsquoorganisation des donneacutees ( ( usage de HDF5 VTK donneacutees brutes ou compresseacuteeshellip ) ou des meacutetadonneacutees qui permettent drsquoidentifier exactement la nature et la qualiteacute des donneacutees

20 Partnership for Advanced Computing in Europe ( httpwwwprace-rieu )

264 Conclusion

Lrsquoingeacutenierie srsquoest empareacutee tregraves tocirct de lrsquooutil de simulation avec un modegravele de deacuteveloppement de meacutethodes au niveau de chaque laboratoire voire eacutequipe notamment en meacutecanique des fluides Gracircce agrave une monteacutee en compeacutetence importante due agrave lrsquoattribution de moyens aux laboratoires acadeacutemiques agrave la fois humains et mateacuteriels ce modegravele a eacuteteacute favorable au deacuteveloppement drsquoune reacuteelle expertise en simulation La gestion des donneacutees a susciteacute moins de reacuteflexion et drsquoorganisation en profondeur ce qui fait que lrsquoaugmentation des capaciteacutes de simulation mdash et agrave preacutesent des nouvelles meacutetrologies expeacuterimentales mdash nrsquoa pas eacuteteacute suivie drsquoune augmentation des capaciteacutes de stockage de traitement et drsquoarchivage des donneacutees On se trouve agrave preacutesent dans une situation dans laquelle on est en capaciteacute de reacutealiser des simulations agrave tregraves haute reacutesolution sans savoir complegravetement en traiter les reacutesultats ni ougrave les entreposer

Il srsquoagit donc agrave preacutesent de faire progresser les structures fonctionnelles et mateacuterielles pour geacuterer le patrimoine scientifique que constituent les donneacutees issues de simulations numeacuteriques mais aussi de reacutealisations expeacuterimentales qui sont confronteacutees aux mecircmes probleacutematiques

44

Livre Blanc sur les Donneacutees au CNRS Eacutetat des Lieux et Pratiques - 2018

27 INSTITUT NATIONAL DES SCIENCES MATHEMATIQUES ET DE LEURS INTERACTIONS ( INSMI )

271 Introduction

La mission de lrsquoInsmi est de deacutevelopper et de coordonner les recherches dans les diffeacuterentes branches des matheacutematiques allant des aspects fondamentaux aux applications LrsquoInsmi contribue agrave la structuration de la communauteacute matheacutematique franccedilaise et agrave son insertion dans la communauteacute internationale Elle rassemble 3600 chercheurs et enseignants-chercheurs dont plus de 400 chercheurs CNRS

Tout en soutenant les diffeacuterents domaines des matheacutematiques lrsquoInsmi cherche agrave promouvoir les recherches agrave lrsquointerface avec les autres disciplines scientifiques ainsi que les interactions avec la socieacuteteacute et le monde industriel Comme le souligne un reacutecent rapport ameacutericain ( The mathematical sciences in 2025 The National Academies Press Etats-Unis ) les possibiliteacutes drsquointeraction entre les matheacutematiques et le monde exteacuterieur sont consideacuterablement accrues drsquoune part par la geacuteneacuteralisation de simulations numeacuteriques baseacutees sur des concepts matheacutematiques et rendues possibles par des outils informatiques de plus en plus puissants drsquoautre part par lrsquoaccroissement exponentiel de donneacutees massives agrave traiter La communauteacute matheacutematique est donc fortement solliciteacutee et mobiliseacutee pour reacutepondre aux enjeux lieacutes aux traitements des donneacutees et au calcul scientifique

Comme lrsquoa souligneacute une eacutetude de lrsquoimpact socio-eacuteconomique des Matheacutematiques en France reacutealiseacutee en 2015 la contribution primordiale des matheacutematiques dans le deacuteveloppement de technologies cleacutes sera appeleacutee agrave se renforcer via la maicirctrise par les entreprises de plusieurs champs de compeacutetences strateacutegiques fondeacutes au moins partiellement sur les matheacutematiques

bull Traitement du signal et analyse drsquoimages

bull Data Mining ( statistiques analyse de donneacutees et apprentissage )

bull MSO ( Modeacutelisation - Simulation -Optimisation )

bull HPC ( High Performance Computing ou calcul haute performance )

bull Seacutecuriteacute des systegravemes drsquoinformations et Cryptographie

La maicirctrise de ces champs de compeacutetences par le tissu industriel national est vue comme essentielle pour permettre de relever les deacutefis socio-eacuteconomiques actuels et futurs speacutecifiques ou non aux secteurs drsquoactiviteacute des industries concerneacutees et rester compeacutetitif

Les matheacutematiciens se retrouvent freacutequemment confronteacutes au traitement des donneacutees lorsqursquoils travaillent sur des sujets interdisciplinaires Par exemple la simulation de modegraveles avec une reacutesolution extrecircmement fine amegravene agrave des problegravemes de gestion de grandes masses de donneacutees pouvant atteindre plusieurs To On peut notamment citer les interactions avec

bull La physique et la meacutecanique ( p ex avec les travaux sur les plasmas de tokamak )

bull Lrsquoautomatique et la robotique

bull Lrsquoinformatique notamment en ce qui concerne les recherches en imagerie traitement du signal fouille de donneacutees calcul haute performancehellip

bull Les sciences du vivant Sans ecirctre exhaustif les domaines concerneacutes par ces interactions sont la biologie cellulaire systeacutemique et du deacuteveloppement les neurosciences la geacuteneacutetique lrsquoeacutecologie la bio-informatique la meacutedecinehellip

bull Lrsquoeacuteconomie et les sciences humaines et sociales

Se posent eacutegalement les questions de paralleacuteliser les calculs de communiquer des volumes de donneacutees gigantesques entre les dizaines de milliers de processeurs drsquoun supercalculateur de compresser stocker ou exploiter les donneacuteeshellip Toutes ces questions neacutecessitent une recherche pluridisciplinaire entre ingeacutenieurs matheacutematiciens informaticiens et chercheurs de la discipline du sujet eacutetudieacute ( physiciens biologisteshellip )

Tous les domaines des matheacutematiques sont concerneacutes par les interfaces mentionneacutees preacuteceacutedemment Les plus visibles sont la statistique le calcul scientifique et haute performance les probabiliteacutes les systegravemes dynamiques les eacutequations diffeacuterentielles et aux deacuteriveacutees partielles lrsquooptimisation lrsquoimageriehellip

INSMI

45

Livre Blanc sur les Donneacutees au CNRS Eacutetat des Lieux et Pratiques - 2018

272 La probleacutematique des donneacutees agrave lrsquoINSMI

Le traitement des donneacutees a reacutecemment impacteacute la communauteacute matheacutematique Afin de reacutepondre aux probleacutematiques souleveacutees plusieurs champs de recherche se sont deacuteveloppeacutes dans diffeacuterentes branches des matheacutematiques allant de la recherche fondamentale aux applications21

Lrsquoanalyse

Mecircme si les lois de la physique matheacutematique sont deacutecrites par des eacutequations diffeacuterentielles et des eacutequations aux deacuteriveacutees partielles lrsquoanalyse matheacutematique aborde aujourdrsquohui des domaines moins structureacutes ougrave les lois sont absentes et ougrave il convient de traiter des masses de donneacutees en apparence incoheacuterentes Agrave titre drsquoexemple les problegravemes poseacutes par le changement climatique sont particuliegraverement ardus En conseacutequence une nouvelle analyse matheacutematique est neacutecessaire pour maicirctriser des domaines aussi varieacutes que le changement climatique la geacutenomique la meacutedecine computationnelle la recherche seacutecuritaire agrave lrsquointeacuterieur des donneacutees du webhellip

Les statistiques

Lrsquoeacutevolution actuelle de la discipline est fortement influenceacutee par le deacuteveloppement de lrsquoinformatique aussi bien en termes de moyens de calcul ou de capaciteacute meacutemoire des ordinateurs qursquoen termes drsquoavanceacutees dans le domaine de lrsquoalgorithmique de la theacuteorie de lrsquoinformation ou du codage Les nouvelles capaciteacutes de recueil et de stockage provoquent une veacuteritable avalanche de donneacutees dont le gigantisme rend obsolegravete lrsquoemploi des outils drsquoanalyse des donneacutees traditionnels et dont le traitement requiert de nouvelles compeacutetences pour les statisticiens Ceci est vrai dans plusieurs domaines drsquoapplications en geacutenomique tout autant qursquoen eacuteconomie ou en traitement du signal ou de lrsquoimage Dans le mecircme temps les outils de calcul de plus en plus puissants et performants stimulent lrsquoimagination car ils permettent de mettre en œuvre des strateacutegies drsquoinfeacuterence toujours plus sophistiqueacutees dont lrsquoutilisation aurait eacuteteacute impensable voire absurde au siegravecle dernier Les theacutematiques statistiques lieacutees agrave lrsquoanalyse des donneacutees de grande dimension se deacuteveloppent de faccedilon rapide au sein drsquoeacutequipes de recherche qui sont heacutebergeacutees tantocirct par des laboratoires de matheacutematiques tantocirct

21 Cf Rapport de prospective du Conseil Scientifique drsquoInstitut de lrsquoInsmi mandat 2010-2014

par des laboratoires drsquoinformatique ou les eacutequipes Inria et dont les leaders sont fort heureusement visibles dans les deux disciplines Ces dix derniegraveres anneacutees ont ainsi vu lrsquoeacutemergence drsquoune communauteacute machine learning ( ou laquo apprentissage statistique raquo ) agrave lrsquointerface entre statistique et informatique

Classer des donneacutees en grande dimension analyser des donneacutees massives et souvent heacuteteacuterogegravenes ( Big Data ) bacirctir des preacutevisions agrave partir de donneacutees fonctionnelles analyser des donneacutees structureacutees en grands reacuteseaux voici autant de deacutefis auxquels les statisticiens seront confronteacutes dans les anneacutees agrave venir

Que ce soit pour la conception lrsquoexpeacuterimentation ou lrsquoapplication des meacutethodes statistiques la reacuteflexion matheacutematique est aujourdrsquohui indissociable de la reacuteflexion sur les algorithmes permettant son expression et sa mise en application Lrsquoavenir de la discipline passe donc par le deacuteveloppement harmonieux et les eacutechanges entre les trois grandes branches drsquoactiviteacute que sont la statistique matheacutematique la statistique computationnelle et le traitement de donneacutees

La modeacutelisation et le calcul

Le calcul scientifique consiste agrave mettre en œuvre de la faccedilon la plus efficace possible les algorithmes de calcul sur ordinateur des solutions du modegravele La fameuse loi de Moore preacutedit un doublement de la capaciteacute mateacuterielle de calcul des ordinateurs tous les dix-huit mois Cette loi empirique est veacuterifieacutee depuis plus de quarante ans Si lrsquoon tient aussi compte de lrsquoameacutelioration des algorithmes matheacutematiques de calcul on observe en fait un doublement de la puissance de calcul tous les huit mois seulement Aujourdrsquohui le calcul scientifique est partout dans les teacuteleacutephones portables pour traiter des images ou des videacuteos dans les voitures pour optimiser le freinage ou encore chez les architectes qui doivent preacutevoir la soliditeacute des structures qursquoils dessinent Certains calculs neacutecessitent peu de puissance et peuvent ecirctre reacutealiseacutes sur un ordinateur personnel Mais dans de nombreux domaines de la science la reacutealisation drsquoune simulation impose lrsquousage drsquoun supercalculateur Elle est alors souvent le travail drsquoeacutequipes multidisciplinaires matheacutematiciens informaticiens speacutecialistes du domaine modeacuteliseacute Un deacutefi important attend les speacutecialistes du calcul dans les anneacutees agrave venir Pour faire face agrave la consommation eacutenergeacutetique on assiste agrave une eacutevolution de lrsquoarchitecture des superordinateurs vers des assemblages de centaines de milliers de processeurs relieacutes entre eux par des connexions de vitesses variables Cette eacutevolution neacutecessite de

46

Livre Blanc sur les Donneacutees au CNRS Eacutetat des Lieux et Pratiques - 2018

deacutevelopper de nouveaux algorithmes qui tiennent agrave la fois compte des opeacuterations agrave effectuer mais aussi des deacuteplacements des donneacutees neacutecessaires agrave ces opeacuterations

De plus les calculs peuvent geacuteneacuterer des donneacutees massives ( Big Data ) qursquoil faut ecirctre capable de stocker de compresser et drsquoanalyser En effet avec lrsquoaugmentation de la puissance de calcul les modegraveles sont reacutesolus sur des maillages drsquoune tregraves grande preacutecision Cela neacutecessite le traitement de tregraves grandes masses de donneacutees pour les preacute- et post-traitements des calculs Par exemple les entreacutees utiliseacutees pour lrsquoassimilation de donneacutees dans des modegraveles drsquooceacuteanographie et de meacuteteacuteorologie proviennent drsquoinstruments de mesure ( satellites sondeshellip ) fournissant des masses de donneacutees de plusieurs peacutetaoctets De mecircme lors des post-traitements des simulations la visualisation de donneacutees de tregraves grande taille soulegraveve de nombreuses difficulteacutes Lagrave aussi lrsquoinvention de nouveaux algorithmes est indispensable

Lrsquoimagerie

En deux deacutecennies lrsquoimagerie est devenue un domaine de recherche majeur Les applications sont multiples et la demande socieacutetale forte dans des domaines aussi varieacutes que les sciences du vivant dont les neurosciences la vision la conception assisteacutee par ordinateur la physique des ondes lrsquoastronomie lrsquoeacutelaboration de diagnostics automatiques la deacutetection de situations ou de comportements Les sciences de lrsquoimagerie posent de nouvelles questions matheacutematiques associeacutees aux problegravemes de formation drsquoacquisition de compression de transmission de modeacutelisation drsquoanalyse de traitement drsquointerpreacutetation de restauration drsquoarchivage des images

Les modes drsquoacquisition et de diffusion des images sont multiples et en constante eacutevolution ( teacuteleacutevision numeacuterique HD ou 3D p ex ) Des informations et signaux aussi varieacutes que le niveau de gris la couleur lrsquoinfrarouge proche ou thermique lrsquoimagerie agrave grande gamme dynamique ( high dynamic range ) lrsquoimagerie multispectrale lrsquoimagerie par reacutesonance magneacutetique de diffusion ( diffusion tensor image ) les signaux radarhellip forment des images pluriformes Modeacuteliser manipuler et traiter ces masses de donneacutees heacuteteacuterogegravenes et multidimensionnelles ( images videacuteos surfaces graphes ) est un enjeu scientifique et socio-eacuteconomique majeur Nombre de problegravemes en matheacutematiques de lrsquoimagerie neacutecessitent lrsquooptimisation de fonctionnelles tregraves complexes souvent non lisses parfois non convexes et toujours en tregraves grande dimension ( de

lrsquoordre de plusieurs millions de variables ) engendrant ainsi le traitement drsquoimportantes masses de donneacutees

Geacuteomeacutetrie et topologie

La gestion des donneacutees a eacutegalement impacteacute les matheacutematiques fondamentales telles que la geacuteomeacutetrie ou la topologie Gracircce aux performances accrues des moyens techniques certains problegravemes ont reacutecemment pris une ampleur diffeacuterente et profitent grandement de ces avanceacutees dans le traitement des donneacutees de tregraves grande taille Par exemple crsquoest le cas de lrsquoanalyse topologique des donneacutees En effet il srsquoagit drsquoextraire des informations geacuteomeacutetriques ( courbure ) et topologiques ( pattern ) drsquoun nuage de points dans un espace meacutetrique Lrsquoapproche consideacutereacutee repose sur les descripteurs homologiques persistants Lrsquoutilisation de nuages de points de tregraves grandes tailles en dimension eacuteleveacutee a mis en eacutevidence la pertinence de ces approches aux extensions et applications multiples systegravemes dynamiques astrophysique physique de mateacuteriaux nanomateacuteriaux

Un autre enjeu concerne les expeacuterimentations meneacutees sur des suites entiegraveres multi-indexeacutees correspondant agrave des quantiteacutes geacuteomeacutetriques associeacutees agrave certaines varieacuteteacutes ( algeacutebriques ou symplectiques ) Il srsquoagit dans un premier temps de calculer une eacutenorme quantiteacute de termes de la suite Cette importante masse de donneacutees permet alors pour les suites consideacutereacutees drsquoeacutetudier les proprieacuteteacutes remarquables de comprendre les relations entre ces nombres et drsquoextraire des relations avec drsquoautres proprieacuteteacutes geacuteomeacutetriques

273 Conclusion

Agrave lrsquoheure actuelle les chercheurs de lrsquoInsmi sont essentiellement des utilisateurs de donneacutees plutocirct que des producteurs de donneacutees mais cette tendance peut eacutevoluer tregraves rapidement Lrsquoaccessibiliteacute de donneacutees de plus en plus riches conduit les chercheurs en matheacutematiques agrave faire eacutemerger de nouvelles approches et agrave envisager des changements de paradigmes Cela ne peut ecirctre envisageable qursquoavec un accompagnement humain et mateacuteriel Cet accompagnement doit aussi permettre un accegraves agrave la formation et apporter un soutien agrave la transversaliteacute qui est un des fondements de la notion de laquo donneacutee raquo

LrsquoInsmi est un acteur essentiel dans lrsquoanalyse la modeacutelisation et lrsquointerpreacutetation des donneacutees

INSMI

47

Livre Blanc sur les Donneacutees au CNRS Eacutetat des Lieux et Pratiques - 2018

28 INSTITUT DES SCIENCES DE LrsquoUNIVERS ( INSU )

281 Introduction

LrsquoInstitut National des Sciences de lrsquoUnivers est un institut pluridisciplinaire regroupant les domaines drsquoastronomie et drsquoastrophysique de lrsquooceacutean de lrsquoatmosphegravere des sciences de la Terre des surfaces et interfaces continentales Comprendre et preacutevoir le fonctionnement et lrsquoeacutevolution de ces systegravemes dans leurs environnements est un enjeu scientifique fondamental avec de nombreuses applications socio-eacuteconomiques

Les disciplines de lrsquoINSU partagent une culture scientifique et des pratiques de recherche fondeacutees sur lrsquoobservation ( sol air mer spatial ) agrave long terme ( gt 30 ans ) des systegravemes naturels inteacutegrant un large spectre drsquoeacutechelles spatiales et temporelles et incluant une vaste palette drsquooutils drsquoanalyse in situ drsquoeacutechantillons issus des milieux naturels terrestres ou extraterrestres Ces disciplines integravegrent

bull La conception le deacuteveloppement et lrsquoopeacuteration de grands instruments et systegravemes drsquoobservation ( sol air mer spatial ) agrave lrsquoeacutechelle nationale et internationale

bull La simulation numeacuterique de lrsquoeacutevolution des systegravemes naturels permettant dans un cadre probabiliste drsquoeacutechantillonner des espaces de modegraveles complexes et de les mapper dans lrsquoespace des donneacutees ainsi que drsquoen quantifier les incertitudes et les eacuteveacutenements extrecircmes

bull Lrsquoarchivage la curation et la mise agrave disposition drsquoune grande diversiteacute de donneacutees ( observations simulations analyses ) et de modegraveles avec des standards de repreacutesentation et drsquoeacutechange de donneacutees de provenance de certification ( qualiteacute inteacutegriteacute veacuteraciteacute )

bull Le traitement et lrsquoanalyse de grands jeux de donneacutees multi-sources pour en extraire de nouvelles informations et les distiller sous des formes reacuteutilisables

bull La combinaison drsquoobservations et de simulations numeacuteriques dans un cadre probabiliste drsquoinfeacuterence et drsquoassimilation de donneacutees pour ameacuteliorer la description des modegraveles ainsi que leur capaciteacute preacutedictive

Les missions nationales drsquoobservation et de surveillance des aleacuteas naturels de lrsquoINSU srsquoappuient sur une organisation territoriale originale structureacutee autour des Observatoires des Sciences de lrsquoUnivers ( OSU ) qui deacuteploient des Services Nationaux drsquoObservation ( SNO ) A ces missions srsquoajoutent des missions programmatiques au travers de prospectives nationales pour deacutefinir une strateacutegie scientifique et drsquoobservation agrave long terme et identifier les eacutequipements nationaux et internationaux neacutecessaires agrave sa mise en œuvre

Les communauteacutes de lrsquoINSU sont inteacutegreacutees et organiseacutees aux niveaux national et international au travers de grandes missions spatiales de grands instruments et systegravemes drsquoobservation ainsi que drsquoinfrastructures distribueacutees et feacutedeacutereacutees drsquoarchivage et de distribution des donneacutees Lrsquoimportance des donneacutees a conduit les communauteacutes de lrsquoINSU agrave jouer un rocircle pionnier dans la promotion de donneacutees ouvertes partageacutees interopeacuterables et reacuteutilisables ainsi que du stewardship de ces donneacutees par les communauteacutes

Les pratiques de recherche reposent sur de larges workflows qui sont piloteacutes par les donneacutees et orchestrent leur analyse de pointe ( HDA pour High-end Data Analysis ) et calcul haute performance ( HPC pour High-Performance Computing ) Elles ont permis ces derniegraveres anneacutees des avanceacutees spectaculaires sur des problegravemes fondamentaux lieacutes agrave la compreacutehension de la formation des structures et de lrsquoeacutevolution des systegravemes Terre-Planegravetes-Univers ainsi que sur de grands enjeux socio-eacuteconomiques changements climatiques et environnementaux meacuteteacuteorologie spatiale surveillance et preacutevention des aleacuteas et risques naturels ( volcaniques sismiques ) exploration et gestion des nouvelles ressources eacutenergeacutetiques

48

Livre Blanc sur les Donneacutees au CNRS Eacutetat des Lieux et Pratiques - 2018

282 Contexte des donneacutees agrave lrsquoINSU

La probleacutematique des donneacutees agrave lrsquoINSU srsquoappuie sur un dispositif original

bull Les Observatoires des Sciences de lrsquoUnivers ( OSU )

Communs aux universiteacutes et au CNRS ils organisent reacutegionalement souvent en partenariat avec drsquoautres acteurs de la recherche ( p ex CEA CNES IFSTTAR IFREMER IPEV IRD IRSTEA Meacuteteacuteo-France ) les moyens neacutecessaires pour la reacutealisation et lrsquoopeacuteration drsquoinstruments et systegravemes drsquoobservation le traitement la curation et la mise agrave disposition de donneacutees ainsi que leur exploitation scientifique Ils feacutedegraverent des laboratoires mutualisent des ressources et des compeacutetences ( meacutethodologiques et technologiques ) et stimulent des recherches interdisciplinaires aux interfaces entre diffeacuterents domaines ( p ex astronomie sciences du climat geacuteophysique interne physique des particules eacutecologie sciences biologiques physique des mateacuteriaux santeacute ) A ces missions srsquoajoute le deacuteveloppement drsquoactions internationales

bull Les Services Nationaux drsquoObservations ( SNO )

Labeacuteliseacutes par lrsquoINSU ils sont deacuteployeacutes dans les OSU et deacuteclineacutes suivant les diffeacuterentes theacutematiques de lrsquoinstitut Ils couvrent diffeacuterents aspects des donneacutees meacutetrologie extrecircme de lrsquoespace et du temps instrumentation et opeacuteration de dispositifs drsquoobservation ( sol air mer espace ) et de sites instrumenteacutes archivage curation et distribution des donneacutees deacuteveloppement et distribution de codes et de bibliothegraveques numeacuteriques communautaires formation et diffusion des connaissances Leur peacuterimegravetre est celui sur lequel le Conseil National des Astronomes et Physiciens ( CNAP ) srsquoappuie pour eacutevaluer les missions drsquoobservation des personnels du corps des astronomes et physiciens

Les SNO sont rassembleacutes et structureacutes au sein drsquoActions Nationales pour lrsquoObservation ( ANO ) en lien avec des actions nationales et internationales du Ministegravere de lrsquoenseignement supeacuterieur de la recherche et de lrsquoinnovation ( SOERE IR TGIR ) notamment pour les infrastructures de recherche europeacuteennes ( inscrites sur la liste du forum ESFRI ) et les organisations internationales Les actions dans lesquelles lrsquoINSU est mobiliseacute reflegravetent la diversiteacute des dispositifs drsquoacquisition de donneacutees en sciences de lrsquoUnivers avec pour exemple

bull Infrastructures de Recherche

- En astronomie Centre de Donneacutees astronomiques de Strasbourg ( CDS ) contribution franccedilaise agrave lrsquoObservatoire Virtuel International en Astronomie ( IVOA ) instrumentation pour les grands teacutelescopes de lrsquoESO ( INSTRUM-ESO ) contribution franccedilaise au systegraveme de radioteacutelescope international LOw Frequency ARray ( LOFAR ) et son extension ( ENUFAR contribution au teacutelescope gamma High-Energy Stereoscopic System ( HESS en partenariat avec lrsquoIN2P3 )

- Pour les sciences de la planegravete Aerosols Clouds and Trace Gases Research Infrastructure ( ACTRIS en partenariat avec le CNES CEA IRD Meacuteteacuteo-Francehellip ) infrastructure nationale de modeacutelisation du systegraveme climatique de la Terre ( CLIMERI en partenariat avec le CEA Meacuteteacuteo-France IRD Cerfacs GENCI ) base antarctique franco-italienne ( CONCORDIA en partenariat avec IPEVhellip ) European Multidisciplinary Subsea Observatory ( EMSO en partenariat avec lrsquoIfremer ) In-service Aircraft for a Global Observing System ( IAGOS partenariat avec Meacuteteacuteo-France ) infrastructure de recherche littorale et cocirctiegravere ( ILICO en partenariat avec IFREMER IGN IRD et SHOM ) observatoire de la zone critique ( OZCAR en partenariat avec BRGM CNES IFSTTAR INRA IRD IRSTEA hellip ) reacuteseau sismologique et geacuteodeacutesique franccedilais ( RESIF partenariat avec BRGM CNES IRD IFSTTARhellip ) pocircle de donneacutees et services pour le systegraveme Terre ( en partenariat avec CNES IRD IFREMER IGN IRSTEA Meacuteteacuteo-Francehellip ) Service des Avions Franccedilais Instrumenteacutes pour la Recherche en Environnement ( SAFIRE en partenariat avec le CNES et Meacuteteacuteo-France ) les infrastructures analytiques comme la ligne FRAME de lrsquoESF et les instruments nationaux INSU qui seront coordonneacutes par le Reacuteseau Geacuteochimique et Expeacuterimental Franccedilais ( REGEF )

bull Tregraves Grandes Infrastructures de Recherche

Canada-France-Hawaiuml Teacutelescope ( CFHT ) Cherenkov Telescope Array ( CTA en partenariat IN2P3 et CEA ) Institut de radioastronomie millimeacutetrique ( IRAM ) European Gravitational Observatory ( EGO-Virgo en partenariat avec IN2P3 et INP ) reacuteseau de flotteurs profilants autonomes ( Euro-Argo ) contribution europeacuteenne au reacuteseau international Argo European Consortium for Drilling Research - Integrated Ocean Drilling Project ( ECORD-IODP ) Integrated Carbon Observation System ( ICOS ) Flotte oceacuteanographique franccedilaise ( avec Ifremer IPEV IRD )

INSU

49

Livre Blanc sur les Donneacutees au CNRS Eacutetat des Lieux et Pratiques - 2018

bull Organisations Internationales

laquo European Southern Observatory raquo ( ESO ) centre europeacuteen de preacutevision meacuteteacuteorologique-CPMMT ( ECWWF ) Intergovernmental Panel on Climate Change ( IPCC ) hellip

bull Insertion europeacuteenne

- Forum ESFRI European Research Infrastructure Consortium ( ERIC ) et clusters les infrastructures de lrsquoINSU sont pour la plupart inscrites sur la liste ESFRI soit comme projet soit comme landmark Crsquoest notamment le cas pour ACTRIS le projet ELT de lrsquoESO CTA EPOS IAGOS SKAhellip Euro-Argo EMSO ICOS et bientocirct EPOS ont le statut drsquoERIC

- Le cluster ASTERICS Astronomy ESFRI and Research Infrastructure Cluster a pour objectif la facilitation et la coordination de deacuteveloppements pour ELT SKA CTA et KM3NET tandis que le reacuteseau AENEAS est speacutecifiquement deacutedieacute au traitement des donneacutees issues du teacutelescope geacuteant Square Kilometer Array ( SKA )

Lrsquoimportance des observations spatiales dans les sciences de lrsquoUnivers se traduit par lrsquoimplication de lrsquoINSU dans de grands projets spatiaux deacutefinis et soutenus par le CNES en lien avec lrsquoAgence Spatiale Europeacuteenne ( ESA ) et drsquoautres agences internationales comme la NASA pour ( i ) la conception et le deacuteveloppement drsquoinstruments et de systegravemes drsquoacquisition embarqueacutes ( p ex satellites sondes interplaneacutetaires ballons ) ( ii ) des chaicircnes de traitement et de reacuteduction de donneacutees ( iii ) lrsquoexploitation scientifique de ces missions On peut citer par exemple ( i ) SOHO ( structure interne et atmosphegravere externe du SOLEIL vent solaire ) ( ii ) Solar Orbiter ( observation du SOLEIL ) iii ) Planck ( fond diffus cosmologique ) ( iv ) Gaia ( cartographie 3D de la Voie lacteacutee ) ( v ) RosettaPhilae ( eacutetude drsquoune comegravete et de son comportement agrave lrsquoapproche du SOLEIL ) ( vi ) CopernicusSentinel ( observation et surveillance de la Terre pour lrsquoenvironnement et la seacutecuriteacute ) ( vii ) et dans le futur Euclid ( caracteacuterisation de la nature de lrsquoeacutenergie noire ) ( viii ) Plato ( deacutetection et eacutetude de nouveaux systegravemes eacutetoiles-planegravetes ) ( ix ) InSight ( eacutetude de la structure interne de Mars )hellip

283 Probleacutematique des donneacutees agrave lrsquoINSU

Environnements de production de donneacutees

Les flux de donneacutees en sciences de lrsquoUnivers explosent Ils sont geacuteneacutereacutes aujourdrsquohui agrave la fois dans des edge-environments grands instruments et systegravemes drsquoobservation ( sol air mer espace ) ougrave les ressources ( eacutenergie communication stockage calcul ) sont rares et dans des centralised-environnements de type HPC grandes simulations numeacuteriques ougrave est concentreacute lrsquoessentiel des ressources de tregraves haute performance

Les principales caracteacuteristiques de ces flux ( continus sporadiques ) sont les volumes les vitesses ( geacuteneacuteration transmission preacutetraitement ) la varieacuteteacute ( structureacutee non-structureacutee mixte ) et la veacuteraciteacute des donneacutees

Ce double contexte creacutee aujourdrsquohui une collection de problegravemes dont le principal deacutefi est la logistique des donneacutees tout au long de leurs chaicircnes drsquoacquisition et drsquoutilisation gestion du positionnement et de lrsquoencodageagencement des donneacutees au cours du temps transmission distribution de ressources ( caching-bufferisation-stockage calcul ) et des services

Grands instruments et systegravemes drsquoobservation

Les flux agreacutegeacutes de donneacutees geacuteneacutereacutees par les dispositifs observationnels en sciences de lrsquoUnivers ont franchi aujourdrsquohui lrsquoeacutechelle de la dizaine de Poan ~30 Gojour pour les grands reacuteseaux de capteurs ( p ex RESIFEPOS ) ~ 50-100 Gojour pour les grandes missions spatiales ( p ex GAIA Euclid CopernicusSentinel ) gt 1 Tojour pour les grands teacutelescopes au sol actuels et futurs ( p ex ALMA ELThellip ) ~1 Pojour ( p ex LOFAR ) et prochainement ~100 Pojour ( p ex SKA ) nouvelle geacuteneacuteration de grands interfeacuteromegravetres dans le domaine des radio-freacutequences

La logistique des donneacutees varie en fonction des dispositifs de mesure ( sol air mer spatial in situ ) de plus en plus complexes ( multi-capteurs multi-freacutequences multi-pixels ) et de leur geacuteomeacutetrie centraliseacutee ( p ex teacutelescopes satellites ) ou distribueacutee globalement ou reacutegionalement ( reacuteseaux drsquoantennes et de capteurs ) Avec lrsquoexplosion des volumes et des vitesses des donneacutees associeacutees aux nouvelles geacuteneacuterations de grands instruments et systegravemes drsquoobservation il devient impossible de transfeacuterer et drsquoarchiver

50

Livre Blanc sur les Donneacutees au CNRS Eacutetat des Lieux et Pratiques - 2018

lrsquoensemble des donneacutees et la reacuteduction des donneacutees est devenue un enjeu critique ( particuliegraverement pour les observations spatiales ) La logistique des donneacutees implique de deacuteplacer lrsquointelligence vers la peacuteripheacuterie au plus proche de leurs sources souvent multiples afin de ( i ) preacutetraiter ( synchronisation agreacutegation combinaison ) et reacuteduire ces flux en continu au cours de leur transport au travers de reacuteseaux ( statiques ou dynamiques ) de bandes passantes heacuteteacuterogegravenes et une varieacuteteacute de edge-technologies ( cachingbufferisation calcul ) ( ii ) agreacuteger en bout de chaicircne ces flux dans des plateformes centraliseacutees de plus en plus proches des sources disposant de larges ressources ( stockage calcul communication ) afin de permettre des traitements locaux ( tels que calibration transformation extractionreconstruction ) des constructions et reacuteductions intelligentes de nouveaux objets de donneacutees ( p ex eacuteveacutenements sources imagesvisibiliteacutes faisceaux ) ainsi que leur archivage ( iii ) redistribuer de larges sous-ensembles de donneacutees vers des plateformes distribueacutees et feacutedeacutereacutees de ressources et de services pour leur exploitation scientifique par les communauteacutes

La reacuteduction et la logistique des donneacutees des tregraves grands instruments et systegravemes drsquoobservation sont deacutefinies dans le cadre drsquoorganisations internationales associant souvent au cocircteacute des partenaires eacutetrangers drsquoautres instituts du CNRS ( p ex IN2P3 ) et drsquoautres acteurs franccedilais de la recherche ( p ex CNES CEA Ifremer etc ) Un autre deacutefi ( plus proceacutedural que scientifique ou technologique ) est drsquoassurer la coheacuterence et drsquoidentifier les niveaux possibles de feacutedeacuteration et de mutualisation entre diffeacuterents projets en phase avec les applications et les pratiques de recherche des communauteacutes utilisatrices de ces donneacutees

Grandes simulations numeacuteriques

Les simulations numeacuteriques HPC sont aujourdrsquohui de grands instruments scientifiques agrave part entiegravere pour nombre de disciplines des sciences de lrsquoUnivers ( p ex climat oceacutean atmosphegravere cosmologie et astrophysique astrophysique des hautes eacutenergies geacuteophysique ) Elles permettent de deacuteduire lrsquoeacutevolution de systegravemes naturels complexes agrave partir de modegraveles multi-eacutechelles et multi-physiques souvent coupleacutes et au travers de reacutealisations drsquoensembles drsquoeacutechantillonner des espaces de modegraveles complexes et de les mapper dans lrsquoespace des donneacutees

Ces simulations geacutenegraverent des flux ( volumes vitesses ) tregraves importants de donneacutees au sein des environnements HPC centraliseacutes Les volumes de donneacutees produits ont deacutepasseacute aujourdrsquohui lrsquoeacutechelle de la dizaine de peacutetaoctets ( p ex modeacutelisation du climat cosmologie numeacuterique sismologie ) En retour ces simulations permettent la conception de grands instruments et systegravemes drsquoobservation de plus en plus complexes ainsi que de leurs chaicircnes de traitement et de reacuteduction de donneacutees via la modeacutelisation de leur fonctionnement dans les environnements drsquoacquisition

LrsquoINSU est aujourdrsquohui un des principaux utilisateurs des grands centres de calcul nationaux ( GENCI ) Pour lrsquoanneacutee 2017 les disciplines de lrsquoINSU repreacutesentaient ( hors exercice CMIP6 ) 25 des heures attribueacutees ( CT1 environnement et CT4 astrophysique-geacuteophysique ) ainsi que ~80 des ressources de stockage alloueacutees Certaines communauteacutes utilisent eacutegalement les grands centres de calcul europeacuteens ( Tiers-0 Prace ) et internationaux ( DOE-NSF aux Etats-Unis JAMSTEC au Japon )

La logistique des donneacutees au cours de ces simulations ( positionnement des donneacutees au travers de la hieacuterarchie de meacutemoire couplages entre modegraveles reacuteduction des entreacuteessorties agencement et repreacutesentation des donneacutees ) est devenue critique Lrsquoanalyse in situ des flux de donneacutees via des meacutethodes de type laquo apprentissage machine raquo et des environnements immersifs intelligents ( capteurs virtuels ) renforce les besoins drsquoune convergence entre HPC et HDA Elle doit ecirctre coupleacutee avec des systegravemes fins de provenance pour le controcircle dynamique de ces simulations le pilotage de workflows orchestrant des ensembles de simulations ainsi que pour lrsquooptimisation ( latence ) des mouvements des donneacutees la reacuteduction des entreacuteessorties et des volumes de donneacutees agrave stocker

Cette logistique est eacutegalement complexe en raison du cycle de vie des reacutesultats de ces simulations qui impliquent de les redistribuer et de les archiver avec leurs modegraveles vers la peacuteripheacuterie pour leur exploitation par les communauteacutes scientifiques agrave lrsquoeacutechelle nationale ou internationale intercomparaison de modegraveles analyse combineacutee avec les observations Un exemple type est fourni dans la communauteacute de modeacutelisation du climat ( p ex exercices de simulations CMIP Coupled Model Intercomparison Project ) Un autre exemple est fourni par la communauteacute de la cosmologie numeacuterique ( p ex consortium national DEUS Dark Energy Universe Simulation )

INSU

51

Livre Blanc sur les Donneacutees au CNRS Eacutetat des Lieux et Pratiques - 2018

Workflows et exploitation scientifique des donneacutees

Un autre aspect critique est la logistique des donneacutees tout au long de larges chaicircnes drsquoexploitation scientifique qui sont piloteacutees par les donneacutees elles-mecircmes et orchestrent des eacutetapes de calcul intensif et drsquoanalyse

Ces workflows ne sont pas des outils logiciels isoleacutes ou des codes applicatifs mais des configurations complexes et variables de logiciel de mateacuteriel et de flux de donneacutees qui traduisent des phases de processus drsquoinfeacuterence en sciences de lrsquoUnivers Lrsquoespace multidimensionnel de donneacutees que ces workflows deacutefinissent implique que chacune de ces eacutetapes doit acceacuteder manipuler et combiner de maniegravere coordonneacutee de larges volumes et une grande diversiteacute de donneacutees

Traiter et analyser de larges volumes de donneacutees ( observations simulations )

Ces workflows orchestrent typiquement des eacutetapes drsquoingestionagreacutegation de traitement et drsquoanalyse de donneacutees afin drsquoen extraire de nouvelles informations

La phase drsquoingestion implique le stockage temporaire ( p ex bufferisation caching ) de larges volumes de donneacutees multi-sources sur des dureacutees variables ( mois anneacutees ) en fonction du cycle drsquoutilisation des donneacutees ainsi que des services ( p ex indexation bases de donneacutees et de meacutetadonneacutees provenance ) et des systegravemes de documentation ( p ex donneacutees modegraveles ) Elle varie suivant la provenance des donneacutees en continu depuis la peacuteripheacuterie sur requecircte depuis des feacutedeacuterations drsquoarchives et en combinaison observations et reacutesultats de simulations

Les phases de traitement et drsquoanalyse concernent diffeacuterentes eacutetapes de complexiteacute variable le plus souvent ( i ) filtrage reacuteduction de bruit reconstruction bas niveau ( ii ) deacutetection ( p ex eacuteveacutenements transitoires anomalies ) ( iii ) segmentation ( iv ) extraction ( p ex objets caracteacuteristiques statistiques ) ( v ) classificationagreacutegation ( vi ) transformations complexes ( p ex images correacutelations croiseacutees steering functions ) Les phases drsquoanalyse mettent souvent en jeu des meacutethodes statistiques ( p ex Monte Carlo ) et drsquolaquo apprentissage machine raquo

La logistique des donneacutees et la diversiteacute de ces workflows exploitent des plateformes de services de calcul et drsquoanalyse disposant drsquoenvironnements flexibles et reacuteactifs qui feacutedegraverent et mutualisent des services ( stockage bufferisation caching calcul HTC calcul parallegravele hybride communication logiciel ) Elles assurent des flux de traitement proches des vitesses drsquoaccegraves aux donneacutees Elles supportent des modegraveles de langage et drsquoexeacutecution en streaming avec des systegravemes fins de provenance coupleacutes agrave des technologies de virtualisation ( conteneurs ) et adapteacutes au Big Data ( p ex Spark Storm ) Elles permettent eacutegalement la mutualisation et lrsquoutilisation de meacutethodes et drsquooutils logiciels de traitement adeacutequatement organiseacutes et modulables dans diffeacuterents contextes ( p ex librairies Python modules de traitements Jupyter Notebooks )

Ces plateformes sont heacutebergeacutees dans des infrastructures Tiers-2-Tiers-3 adosseacutees agrave des OSU ou des feacutedeacuterations de recherche ( p ex Observatoire de Paris OCA IPSL IPGP OSUG OMP ) souvent en lien avec des meacutesocentres reacutegionaux ( p ex IDRIS Gricad Calmip Meso-PSL ) Elles offrent des capaciteacutes de stockage de plusieurs peacutetaoctets et des puissances de calcul proches de la centaine de teacuteraflops Un exemple de feacutedeacuteration internationale est lrsquoESGF ( Earth System Grid Federation ) en modeacutelisation du climat avec le nœud national ( CICLAD-CLIMSERV-IDRIS ) de lrsquoIPSL ESGF permet de distribuer cataloguer des dizaines de peacutetaoctets de donneacutees geacuteneacutereacutees par les simulations CMIP drsquoy acceacuteder de maniegravere seacutecuriseacutee et de les analyser avec des observations multi sources

Infeacuterence et assimilation de donneacutees combinant observations et simulations

Ces workflows combinent preacutedictions ( simulations numeacuteriques ) et observations multi-sources au sein drsquoenvironnements centraliseacutes de type HPC Les approches de type infeacuterenceinversion ( p ex cosmologie et astrophysique sismologie geacuteodeacutesie gravimeacutetrie ) permettent dans un cadre probabiliste drsquoameacuteliorer la description des modegraveles de systegravemes naturels ainsi que la reconstruction de leurs eacutetats Les approches drsquoassimilation de donneacutees ( p ex climat et meacuteteacuteorologie champs magneacutetiques terrestres et planeacutetaires ) dans un cadre variationnel ou statistique permettent drsquoameacuteliorer les preacutevisions de lrsquoeacutevolution de ces modegraveles en reconstruisant un eacutetat initial aussi consistant que possible avec leur dynamique

52

Livre Blanc sur les Donneacutees au CNRS Eacutetat des Lieux et Pratiques - 2018

Infeacuterence et assimilation de donneacutees sont des workflows complexes orchestrant de multiples phases HPC ( simulation numeacuterique ) et HDA ( traitement et analyse de donneacutees ) Avec lrsquoeacutevolution rapide des capaciteacutes de calcul et des meacutethodes numeacuteriques ils exploitent aujourdrsquohui des approches probabilistes au travers drsquoensembles de simulations numeacuteriques permettant drsquoexplorer des espaces de modegraveles complexes et leurs conditions initiales ainsi que de quantifier les incertitudes directes et inverses Ils combinent souvent laquo apprentissage machine raquo optimisation stochastique theacuteorie de lrsquoinformation et transport optimal

Cette convergence entre HPC et HDA deacutefie les environnements de type HPC ( accegravescommunications stockage calcul et meacutemoire ) ainsi que leur exploitation ( c-agrave-d ordonnancement par lots ) Un aspect critique est la logistique des flux ( volumes vitesses ) de donneacutees transmis ( souvent en continu ) depuis des sources peacuteripheacuteriques et geacuteneacutereacutes au sein des environnements HPC au cours des eacutetapes de simulation et drsquoanalyse ( combinant observations et reacutesultats de simulation ) Par exemple pour chaque preacutevision meacuteteacuteorologique reacutegionale une grande diversiteacute et un grand volume de donneacutees doivent ecirctre collecteacutes depuis des sources peacuteripheacuteriques ( satellites catasondes stations au sol boueacutees observations actuelles et historiques ) et centraliseacutes ( simulations des caracteacuteristiques et des processus des modegraveles du systegraveme Terre ) Toutes ces informations sont assimileacutees dans des moteurs drsquoassimilation complexes et non-lineacuteaires pour preacutevoir des caracteacuteristiques meacuteteacuteorologiques et les distiller pour leur utilisation par diffeacuterents acteurs

Ces workflows requiegraverent les capaciteacutes haute-performance ( stockage calcul communication ) des grands centres europeacuteens et nationaux ( Tier-0 et Tier-1 ) voire reacutegionaux ( Tier-2 ) qui doivent offrir des politiques drsquoaccegraves et drsquoexploitation adapteacutees ( HPCHDA ) et ecirctre feacutedeacutereacutes avec des plateformes distribueacutees ( archivage edge-computing ) pour la transmission et le traitement en cours de transport des flux de donneacutees depuis des sources peacuteripheacuteriques

Archivage curation accegraves et geacuterance des donneacutees

Une mission importante de lrsquoINSU est de rendre publiques eacuteventuellement apregraves une courte peacuteriode drsquoexclusiviteacute les donneacutees issues des grands instruments et systegravemes drsquoobservation et des simulations numeacuteriques Cette diffusion rapide agrave lrsquoensemble de la communauteacute vise

agrave maximiser le retour scientifique drsquoinvestissements lourds Cela nrsquoa de sens que si les donneacutees peuvent ecirctre facilement deacutecouvertes acceacutedeacutees interopeacutereacutees et reacuteutiliseacutees dans une vision inteacutegreacutee des pheacutenomegravenes et des systegravemes observeacutes au cours du temps

Les missions essentielles des OSU des services nationaux drsquoobservation et des actions nationales drsquoobservation sont lrsquointeacutegrationagreacutegation la curation la documentation la publication et la diffusion de ces donneacutees ainsi que leur apporter de la valeur ajouteacutee au sein de structures deacutedieacutees qui mutualisent les expertises et les ressources neacutecessaires Cela recouvre un certain nombre drsquoactiviteacutes sur le cycle de vie des donneacutees qui va bien au-delagrave de la dureacutee de vie des instruments et systegravemes drsquoobservation

bull Le traitement et calibration des donneacutees recouvrent des chaicircnes de traitement systeacutematique et la production de donneacutees de haut niveau pour les communauteacutes

bull La curation des donneacutees recouvre lrsquoorganisation lrsquo inteacutegration lrsquoagreacutegation lrsquoannotation la documentation et le reacutefeacuterencement des donneacutees Elle integravegre des chaicircnes de controcircle et des protocoles de certification des qualiteacute inteacutegriteacute veacuteraciteacute et pertinence des donneacutees sur leur cycle de vie ainsi que des systegravemes permettant de tracer leur provenance et leurs changements

bull Lrsquoarchivage et le reacutefeacuterencement des donneacutees avec des services avanceacutes ( indexation bases de donneacutees et de meacutetadonneacutees provenance ) assurent la persistance des donneacutees et des meacutetadonneacutees sur leur cycle de vie

bull La diffusion et la publication des donneacutees reposent sur une description standardiseacutee des donneacutees ( observations reacutesultats de simulations ) et des modegraveles avec des standards de meacutetadonneacutees drsquoaccegraves et drsquoeacutechange des identificateurs agreacuteeacutes ainsi que des services avanceacutes pour en faciliter la deacutecouverte lrsquoaccegraves lrsquointeropeacuterabiliteacute et la manipulation via les observatoires virtuels les pocircles de donneacutees et leurs deacuteveloppements Ces standards sont deacutefinis au niveau des diffeacuterentes disciplines dans le cadre de structures internationales ( p ex IVOA FDSN UNAVCO GEOGEOSS ESGF )

Ces activiteacutes concernent eacutegalement agrave des degreacutes divers selon les communauteacutes ( astronomie amp astrophysique oceacutean-atmosphegraverehellip ) la mise agrave disposition le deacuteveloppement et la maintenance de codes numeacuteriques des bibliothegraveques de traitement et drsquoanalyse de reacutefeacuterence ou communautaires

INSU

53

Livre Blanc sur les Donneacutees au CNRS Eacutetat des Lieux et Pratiques - 2018

Plus reacutecemment elles concernent de nouveaux objets associeacutes agrave des identificateurs agreacuteeacutes ( projets ou publications ) qui permettent de laquo conteneuriser raquo donneacutees description des dispositifs expeacuterimentaux et chaicircnes de traitement et drsquoanalyse afin de preacuteserver lrsquoexpertise des donneacutees faciliter leur reacuteutilisation dans et en dehors du contexte de leur acquisition et permettre la reproductibiliteacute des reacutesultats scientifiques

Un nombre croissant drsquoenjeux scientifiques ( modeacutelisation du climat physique solaire et stellaire eacutetude du champ magneacutetique terrestre signatures des ondes gravitationnelles et des grands tremblements de terre surveillance des aleacuteas naturels changements environnementaux ) impliquent une compreacutehension preacutedictive drsquoun mecircme objet ou systegraveme Ces approches interdisciplinaires avec des meacutethodes de type multi-messagers requiegraverent un accegraves fluide agrave des donneacutees multi-sources issues de contextes scientifiques et de modaliteacutes observationnelles ( sol air mer spatial ) diffeacuterents ainsi que des outils translationnels pour les combiner les croiser et les syntheacutetiser au sein de chaicircnes de traitement et drsquoanalyse souvent coupleacutees agrave des simulations numeacuteriques Deacutecouvrir ces donneacutees ainsi que les ressources et services associeacutes demande une harmonisation ( agrave travers diffeacuterentes disciplines ) des modegraveles de donneacutees et une standardisation ( au sein des disciplines ) en particulier pour ( i ) les proceacutedures de controcircle de qualiteacute drsquointeacutegriteacute et de veacuteraciteacute des donneacutees ainsi que leur documentation ( ii ) les meacutetadonneacutees les systegravemes drsquoinformation et les registres

Les volumes et la diversiteacute des donneacutees ainsi que les pratiques de recherche de plus en plus interdisciplinaires ont conduit lrsquoINSU agrave reacuteorganiser les donneacutees autour de

bull Plateformes reacutegionales de ressources et de services Adosseacutees aux OSU elles feacutedegraverent et mutualisent des ressources ( stockage calcul ) des services ( bases de donneacutees et de meacutetadonneacutees web-services ) et une masse critique drsquoexpertises pour lrsquoarchivage la curation et la distribution des donneacutees Elles sont associeacutees agrave des programmes et instruments labeacuteliseacutes par lrsquoINSU et peuvent ecirctre multitheacutematiques Ces infrastructures Tier-3 souvent doteacutees drsquoune structure de pilotage heacutebergent des ressources de stockage ( de quelques centaines de teacuteraoctets agrave quelques peacutetaoctets ) et de calcul pour les phases de traitement systeacutematique et de curation Avec lrsquoaugmentation des volumes et de la diversiteacute des donneacutees ainsi que la complexiteacute

croissante des activiteacutes de traitement et de curation les besoins de stockage et de calcul croissent rapidement En synergie avec les plateformes de calcul et drsquoanalyse elles ont pour vocation de se rapprocher de Tier-2 reacutegionaux deacutesireux drsquoexplorer de nouveaux modegraveles drsquoarchitectures centreacutees sur les donneacutees de langage et drsquoexeacutecution de services et drsquoenvironnements drsquoaccegraves et drsquoutilisation

bull Pocircles theacutematiques de services et de donneacutees Ils ont pour vocation de fournir un portail unique au niveau national et des plateformes de services avanceacutes facilitant la deacutecouverte lrsquoaccegraves la combinaison et lrsquoutilisation scientifique drsquoensembles de donneacutees multi-types multi-sources issus drsquoexpeacuteriences et de dispositifs observationnels ( sol air mer spatial ) diffeacuterents Ils srsquoappuient sur les plateformes reacutegionales et les feacutedegraverent nationalement Ils sont doteacutes drsquoune structure de pilotage et drsquoutilisateurs et leur gestion associe souvent drsquoautres organismes ( p ex CNES CEA Ifremer IRD Meacuteteacuteo-France ) On peut citer ( i ) en astronomie et astrophysique les pocircles de physique des plasmas physique solaire et stellaire et de matiegravere interstellaire ( ii ) en oceacutean-atmosphegravere les pocircles Aeris et Odatis respectivement pour les donneacutees et services atmospheacuteriques et oceacuteaniques ( iii ) en sciences de la Terre le pocircle de donneacutees ForMTer ( avec RESIFEPOS ) pour les donneacutees drsquoobservation ( sol spatial ) de la terre solide ( iv ) en surfaces et interfaces continentales le pocircle Theia incluant notamment DINAMIS le dispositif de mise agrave disposition des images satellites haute deacutefinition

Un exemple phare est le centre de donneacutees de Strasbourg ( CDS ) en astronomie contribution franccedilaise agrave lrsquoIVOA ( International Virtual Observatory Alliance ) qui fournit des standards de web-services de repreacutesentation et drsquointeropeacuterabiliteacute de donneacutees et de meacutetadonneacutees avec drsquoautres standards pour le reacutefeacuterencement lrsquoaccegraves lrsquoeacutechange la provenance des donneacutees et leur publication ainsi que des outils drsquoexploration et de visualisation de ces donneacutees Le reacutesultat est que plus de 90 des donneacutees astronomiques mondiales sont accessibles et utilisables scientifiquement aujourdrsquohui avec des outils et des logiciels partageacutes internationalement et avec une tregraves forte visibiliteacute franccedilaise gracircce au CDS mais aussi agrave des projets comme VAMDC22 pour la distribution des donneacutees atomiques et moleacuteculaires

Pour les tregraves grands instruments et systegravemes drsquoobservation la strateacutegie drsquoarchivage et la politique drsquoaccegraves aux donneacutees sont deacutefinies dans le cadre

22 httpwwwvamdcorg

54

Livre Blanc sur les Donneacutees au CNRS Eacutetat des Lieux et Pratiques - 2018

des projets internationaux et des organisations internationales qui les portent Elles reposent sur des plateformes de ressources et de services distribueacutees et feacutedeacutereacutees agrave lrsquoeacutechelle internationale comme dans le cas ( i ) des grands projets spatiaux ( Euclid Gaia Planck Copernicus ) ( ii ) des tregraves grands teacutelescopes ( ESO CFHT IRAM SKA ) ( iii ) des grands systegravemes drsquoobservation ( RESIFEPOS Euro-Argo ICOS IAGOS ACTRIS OZCAR EmodNet ) ( iv ) des intercomparaisons de modegraveles coupleacutes ( CLIMERI ) en modeacutelisation du climat ( ESGF ) La vocation du pocircle de donneacutees et services pour le systegraveme Terre est notamment de faciliter lrsquoaccegraves et lrsquousage des donneacutees issues de ses diffeacuterents compartiments Ces strateacutegies srsquoappuient au niveau national sur des nœuds heacutebergeacutes geacuteneacuteralement dans de grands centres nationaux ( CC-IN2P3 IDRIS ) ou meacutesocentres reacutegionaux ( Meso-PSLObservatoire de Paris OCA IPSL IPGP GricadOSUP ) souvent en partenariat avec drsquoautres instituts du CNRS ( p ex IN2P3 ) et organismes de recherche ( CNES CEA Meacuteteacuteo France Ifremer )

283 Conclusions et eacuteleacutements de reacuteflexion

De nouvelles deacutecouvertes scientifiques en sciences de lrsquoUnivers ainsi que de grands enjeux sociaux et eacuteconomiques ( p ex changement climatique aleacuteas naturels et environnementaux ressources eacutenergeacutetiques et deacuteveloppement durable ) requiegraverent une grande diversiteacute de donneacutees dont les reacutesolutions integravegrent un tregraves large spectre drsquoeacutechelles ( temps espace freacutequence ) ainsi que des meacutethodes drsquoanalyse et de modeacutelisation pour en extraire et inteacutegrer de nouvelles informations sur la formation des structures et lrsquoeacutevolution des systegravemes Terre-planegravetes-univers ainsi que leurs eacuteveacutenements transitoires et extrecircmes

Avec les nouvelles geacuteneacuterations drsquoinstruments et de systegravemes drsquoobservation ( sol air mer spatial ) et de simulations numeacuteriques les flux de donneacutees explosent aujourdrsquohui agrave la fois dans des edge-environments globalement distribueacutes et des environnements centraliseacutes ( HPC Cloud ) Ce changement de paradigme constitue un deacutefi pour la logistique des donneacutees tout au long de workflows qui traversent la diversiteacute de ces systegravemes drsquoacquisition et un continuum de bandes passantes et de plateformes technologiques

Un enjeu concomitant commun agrave ces deux environnements est la reacuteduction laquo intelligente raquo des donneacutees en continu au cours de leur transport

La strateacutegie agrave suivre est incertaine dans un paysage national ( enseignement-recherche infrastructures ) et europeacuteen ( EOSC European Open Science Cloud ) et des technologies en pleine eacutevolution Elle tend agrave se formuler comme la co-conception drsquoun instrument scientifique piloteacutee par la logistique des donneacutees et les caracteacuteristiques des workflows qui au travers drsquoun modegravele drsquoarchitecture de type sablier ( c-agrave-d hourglass architecture ) permettrait drsquoaccommoder la grande diversiteacute de ces workflows et de leurs impleacutementations Avec lrsquoideacutee qursquoau centre de ce modegravele une interface commune ou spanning layer peut ecirctre eacutetroitement conccedilue et implanteacutee afin drsquoabstraire ces workflows et leur flux de donneacutees et les instancier ( via des technologies de virtualisation ) au travers drsquoune varieacuteteacute croissante et des configurations complexes de ressources ( stockage calcul communication ) de plateformes technologiques et drsquoenvironnements comprenant en particulier

bull Edge-infrastructures qui via une diversiteacute croissante de edge-technologies ( p ex cache buffer stockage calcul communication ) permettent de traiter agreacuteger reacuteduire les flux ( volumes vitesses ) de donneacutees geacuteneacutereacutees par les nouveaux grands instruments et systegravemes drsquoobservation de plus en plus complexes ( multi-capteurs multifreacutequences ) ainsi que de piloter leurs systegravemes drsquoacquisition ( antenne optique ) au plus proche et dans des environnements reculeacutes

bull Plateformes de services de calcul et drsquoanalyse de donneacutees qui feacutedegraverent et mutualisent des services flexibles de stockage de calcul ( HTC HPC ) de communication et de logiciel permettant des flux de traitement proches des vitesses drsquoaccegraves aux donneacutees Ces infrastructures de type edge-computing supportent des utilisateurs et des applications multiples ( p ex le service labelliseacute Terapix agrave lrsquoIAP pour lrsquoexploitation des donneacutees MegaCAM du CFHT ou encore lrsquoARC node ALMA agrave lrsquoIRAM pour la reacuteduction des donneacutees de lrsquointerfeacuteromegravetre millimeacutetrique ALMA de lrsquoESO ) dans un environnement collaboratif reacuteactif et reacutesilient qui integravegre des eacuteleacutements de HPC et HDA avec des services Cloud de traitement en flux des technologies de virtualisation ( conteneurs ) et drsquoexeacutecution adapteacutes au Big Data ( p ex Spark Storm ) Adosseacutees agrave des OSU ou feacutedeacuterations de recherche elles peuvent ecirctre feacutedeacutereacutees ( p ex ESGF )

INSU

55

Livre Blanc sur les Donneacutees au CNRS Eacutetat des Lieux et Pratiques - 2018

bull Plateformes centraliseacutees ( HPC ) qui concentrent des ressources de tregraves haute performance et par deacutefinition rares dont lrsquoutilisation est maximiseacutee pour servir des communauteacutes multiples Si lrsquooptimisation des applications en sciences de lrsquoUnivers pour lrsquoexploitation des nouvelles architectures hybrides et massivement parallegraveles demeure un enjeu important ces applications ( ensembles de simulations numeacuteriques infeacuterenceinversion assimilation de donneacutees ) ainsi que lrsquoutilisation croissante de meacutethodes type laquo apprentissage machine raquo requiegraverent une convergence toujours plus fine entre HPC et HDA avec de meilleurs support et interopeacuterabiliteacute de leurs modegraveles drsquoexploitation ( batch et streaming processing ) des technologies de virtualisation ainsi qursquoune gestion des ressources avec des systegravemes centraliseacutes intelligents piloteacutes par la provenance des flux de donneacutees permettant le controcircle de workflows complexes Lrsquoingestion drsquoeacutenormes flux de donneacutees depuis la peacuteripheacuterie reste un enjeu qui deacutefie leurs capaciteacutes

bull Plateformes drsquoarchivages curation et distribution des donneacutees Ces plateformes adosseacutees aux OSU feacutedegraverent et mutualisent les ressources services et expertises pour le stockage la curation et la mise agrave disposition drsquoune grande diversiteacute de donneacutees ( tels que eacuteveacutenements objets images seacuteries temporelles ) dont le cycle de vie en sciences de lrsquoUnivers est bien plus long que la dureacutee de vie des instruments et systegravemes drsquoobservation Les volumes et la diversiteacute de ces donneacutees impliquent des capaciteacutes croissantes de calcul pour leur traitement et leur curation

Le mouvement des donneacutees et des informations a un coucirct drsquoautant plus important que ces transferts doivent ecirctre rapides et traverser des frontiegraveres drsquoun site agrave lrsquoautre drsquoun systegraveme HPC vers des plateformes drsquoanalyse au sein drsquoun mecircme site entre nœuds drsquoun mecircme systegraveme drsquoun systegraveme de stockage agrave un autre

Un enjeu commun est lrsquoefficience eacutenergeacutetique la reacuteduction des coucircts de fonctionnement et la durabiliteacute ce qui passe entre autres par ( i ) utiliser des plateformes ( HPC calcul et analyse ) adapteacutees agrave chacune des eacutetapes de ces workflows ( ii ) eacuteviter des reacutepeacutetitions inutiles de transferts ( cachingbufferisation ) et reacuteduire leurs vitesses ( pre-fetching ) et leurs volumes ( compression ) ( iii ) reacuteduire les distances et mutualiser les environnements drsquoheacutebergement ( colocalisation des plateformes HPC et des services drsquoanalyse des plateformes drsquoarchivage et de curation de donneacutees et

des plateformes de calcul et drsquoanalyse ) ( iv ) faciliter la reacuteutilisation des calculs et des donneacutees au sein et entre domaines ( observations et reacutesultats de simulations meacutetadonneacutees catalogues )

Lrsquoorganisation territoriale de lrsquoINSU structureacutee autour des OSU et les ANO permet de reacutepondre aux points souleveacutes preacuteceacutedemment ( i ) centraliser logiquement lrsquoaccegraves et lrsquoutilisation de donneacutees via les observatoires virtuels et les pocircles de donneacutees associant plateformes de services et feacutedeacuteration de plateformes drsquoarchivage et de curation de donneacutees en liaison avec drsquoautres organismes ( CNES Ifremer Meacuteteacuteo-France CEAhellip ) ( ii ) rapprocher plateformes drsquoarchivage et de curation de donneacutees plateformes de calcul et drsquoanalyse et centres nationaux ( CC-IN2P3 IDRIS ) et meacutesocentres reacutegionaux ( Gricad Calmiphellip ) ( iii ) rapprocher plateformes HPC et services drsquoanalyse dans le cadre de GENCI ( p ex IDRIS TGCC CINES ) ( iv ) faciliter lrsquoaccegraves seacutecuriseacute le partage lrsquoexploitation de reacutesultats de simulations et drsquoobservations par une large communauteacute ( p ex CLIMERI IPGP )

Un autre aspect concerne les tregraves grands instruments et systegravemes drsquoobservation ( sol air mer spatial ) porteacutes par des projets et des organisations internationaux Dans ce cadre explorer avec drsquoautres instituts du CNRS ( p ex IN2P3 ) et organismes ( CNES CEAhellip ) les niveaux de feacutedeacuteration et de mutualisation possibles des plateformes scientifiques et drsquoarchivage en leur sein ( Euclid Gaiahellip ) et entre ces projets ( CTA SKAhellip ) est un nouvel enjeu

Une telle strateacutegie doit ecirctre en phase avec les pratiques et les applications scientifiques Elle srsquoaccompagne drsquoenjeux proceacuteduraux et humains associeacutes agrave lrsquoorganisation et la mutualisation des expertises scientifiques meacutethodologiques et technologiques neacutecessaires pour le stewardship des donneacutees et des plateformes de ressources et de services dans ce nouveau contexte Elle implique eacutegalement une eacutevolution des politiques drsquoaccegraves drsquoutilisation et drsquoexploitation des centres nationaux et reacutegionaux qui doivent offrir les services neacutecessaires agrave ces environnements data-centric

Il y a des limites agrave ce qui peut en ecirctre obtenu en sciences de lrsquoUnivers ougrave les efforts drsquoobservation sont fondamentalement globalement distribueacutes internationalement structureacutes et financeacutes par diffeacuterents projets et organisations

56

Livre Blanc sur les Donneacutees au CNRS Eacutetat des Lieux et Pratiques - 2018

Par exemple les instituts de recherche en charge de services de reacuteponse rapide de surveillance et drsquoeacutevaluation drsquoaleacuteas naturels ainsi que les grandes universiteacutes de recherche ont besoin de deacutemontrer des ressources qui leur permettent drsquoattirer des chercheurs et des ingeacutenieurs de premier plan ainsi que des contrats et des financements Il y a donc des pressions pour maintenir la visibiliteacute et une diversiteacute de ressources indeacutependantes Une strateacutegie recouvrant des ressources autonomes doit minimiser les coucircts tout en respectant ces problegravemes organisationnels et sociologiques

Pour relever ces nouveaux deacutefis le dispositif des OSU ANO et SNO ainsi que les expertises scientifiques meacutethodologiques et technologiques qursquoil feacutedegravere et mutualise constitue un atout original majeur Ces expertises de plus en plus interdisciplinaires doivent eacutevoluer en phase avec les technologies de plus en plus complexes des grands instruments et des systegravemes drsquoobservation de la logistique des donneacutees de nouvelles meacutethodes et technologies de calcul et drsquoanalyse de donneacutees Les communauteacutes de lrsquoINSU collaborent aujourdrsquohui activement agrave lrsquoeacutechelle nationale et internationale avec drsquoautres disciplines ( sciences des donneacutees matheacutematiques appliqueacutees statistiques physique des particules et physique statistique

eacutecologie biologie santeacute recherche informatique ) et avec les fournisseurs et les deacuteveloppeurs drsquoinfrastructures de communication de calcul et de donneacutees Ces collaborations sont favoriseacutees au sein du CNRS par la Mission pour lrsquoInterdisciplinariteacute et se traduisent aux niveaux national et europeacuteen par de nombreux projets ANR et H2020 Les communauteacutes de lrsquoINSU contribuent eacutegalement activement agrave des ONG en lien avec les donneacutees ( p ex RDA GEOGEOSS Belmont Forum )

En comparaison avec les pratiques internationales ( p ex aux Etats-Unis ) ougrave le deacuteveloppement de codes et de bibliothegraveques ( traitement analyse ) communautaires est structureacute sous forme de projets depuis plus drsquoune dizaine drsquoanneacutees avec un support ingeacutenieur important et speacutecialiseacute il reste des efforts importants agrave accomplir et agrave reconnaicirctre aux niveaux national et europeacuteen Un enjeu concomitant et important reste encore aujourdrsquohui une meilleure reconnaissance de ces expertises scientifiques meacutethodologiques et technologiques souvent interdisciplinaires et des nouvelles tacircches drsquoobservation au niveau des recrutements et des promotions des personnels chercheurs astronomes et physiciens du CNAP23 ingeacutenieurs et techniciens

23 httpwwwcnapobspmfr

INSU

57

Livre Blanc sur les Donneacutees au CNRS Eacutetat des Lieux et Pratiques - 2018

29 INSTITUT DES SCIENCES DE LrsquoINFORMATION ET DE LEURS INTERACTIONS ( INS2I )

Cette section a eacuteteacute reacutedigeacutee avec Mokrane Bouzeghoub DAS agrave INS2I

291 Introduction

LrsquoInstitut des Sciences de lrsquoInformation et de leurs Interactions ( INS2I ) rassemble environ 600 chercheurs CNRS sur un total de lrsquoordre de 4500 permanents dans une cinquantaine drsquouniteacutes de recherche Ses theacutematiques couvrent une partie des sections 6 ( fondements de lrsquoinformatique calculs algorithmes repreacutesentations exploitations ) et 7 ( signal image automatique robotique ) du Comiteacute National

Dans de nombreux domaines scientifiques et socio-eacuteconomiques la volumeacutetrie et la varieacuteteacute des donneacutees existantes ainsi que le coucirct et les contraintes de temps de traitement ont fait apparaicirctre de nouveaux deacutefis De multiples domaines sont concerneacutes les sciences fondamentales ( physique des hautes eacutenergies fusion sciences de la Terre et de lrsquoUnivers bio-informatique neurosciences ) les secteurs de lrsquoeacuteconomie numeacuterique ( business intelligence web e-commerce reacuteseaux sociaux e-gouvernement santeacute conception des meacutedicaments teacuteleacutecommunications et meacutedias transports terrestre et aeacuterien marcheacutes financiers ) lrsquoenvironnement ( climat risques naturels ressources eacutenergeacutetiques smart cities maison connecteacutee ) la seacutecuriteacute ( cyber-seacutecuriteacute seacutecuriteacute nationale ) ou lrsquoindustrie ( smart industry produits sur mesure chaicircne de conceptionreacutealisation des produits inteacutegreacutee de bout en bout )

Lrsquoextraction de connaissances agrave partir de grands volumes de donneacutees lrsquoapprentissage statistique lrsquoagreacutegation de donneacutees heacuteteacuterogegravenes la visualisation et la navigation dans de grands espaces de donneacutees et de connaissances sont de veacuteritables instruments numeacuteriques qui permettent agrave des meacutedecins des ingeacutenieurs des chercheurs etc drsquoobserver des pheacutenomegravenes de valider des hypothegraveses drsquoeacutelaborer de nouveaux modegraveles ou de prendre des deacutecisions en situation critique La maicirctrise de ces instruments au niveau des entreprises des collectiviteacutes ou du gouvernement devient un reacuteel enjeu de pouvoir eacuteconomique politique et socieacutetal Drsquoougrave lrsquoimportance du Big Data de lrsquoOpen Data et du Linked Data tant aux Eacutetats-Unis qursquoen Europe24

24 httpwwwnitrdgovSubcommitteebigdataaspx httpcom-monfundnihgovInnovationBrainstorm httpwwwaeranet

Internet et le Web jouent aussi un rocircle capital puisqursquoils concentrent une grande part des donneacutees et des connaissances et qursquoils concernent des centaines de millions drsquoutilisateurs

Le traitement des grands volumes de donneacutees est fortement connecteacute au calcul intensif lorsque les donneacutees sont issues de simulations de grande taille mais aussi lorsque provenant drsquoobservations ou drsquoexpeacuterimentations elles sont utiliseacutees pour la modeacutelisation de systegravemes complexes ( oceacutean meacuteteacuteo formation des galaxieshellip ) Les communications constituent elles aussi un aspect essentiel du traitement et de lrsquoacquisition des donneacutees massives Lrsquoanalyse de donneacutees massives induit des calculs intensifs souvent effectueacutes sur des infrastructures distribueacutees agrave grande eacutechelle ( clusters grilles ou cloud ) mais que lrsquoon trouve de plus en plus freacutequemment sur des plateformes du type HPC ( p ex en deep learning avec lrsquoexploitation de GPU )Le traitement des donneacutees eacutetant au cœur de la discipline il est donc tout naturel que les recherches en informatique aient investi le domaine des Big Data bien avant qursquoelles ne deviennent un enjeu et une preacuteoccupation pour les autres sciences et pour la socieacuteteacute Le stockage distribueacute et agrave grande eacutechelle lrsquooptimisation des accegraves la deacutefinition de langages de requecirctes de haut niveau la fouille de donneacutees la reacutesilience aux pannes et la protection des donneacutees sont des thegravemes de recherche reacutecurrents et reacuteguliegraverement revisiteacutes pour inteacutegrer les nouvelles technologies de stockage les nouvelles architectures de calcul et les nouveaux besoins de diversification des types de donneacutees et de passage agrave lrsquoeacutechelle des applications La fertilisation croiseacutee avec les matheacutematiques notamment en statistique en optimisation et en modeacutelisation a abouti agrave lrsquoeacutemergence des sciences de donneacutees comme un sous-domaine de recherche avec ses propres objets drsquoinvestigation La majoriteacute des uniteacutes de lrsquoINS2I ont des eacutequipes de recherche actives et visibles sur ce domaine

Les activiteacutes de recherche de INS2I autour des masses de donneacutees concernaient de lrsquoordre de 500 chercheursenseignants-chercheurs en 2012 lors du recensement effectueacute dans le Livre Blanc sur le Calcul Intensif

grantsprogramres_trainingres_grantsrgflyhtml

58

Livre Blanc sur les Donneacutees au CNRS Eacutetat des Lieux et Pratiques - 2018

292 La probleacutematique des donneacutees agrave IrsquoINS2I

Le traitement des donneacutees agrave grande eacutechelle avec des sources de donneacutees eacuteventuellement multiples distribueacuteesreacuteparties et heacuteteacuterogegravenes ( structures formats logiciels serveurshellip ) et une volumeacutetrie en donneacutees allant du teacuteraoctet au peacutetaoctet ( et agrave lrsquoExaoctet dans un futur proche ) est central agrave de multiples domaines allant du Web seacutemantique agrave la simulation numeacuterique avec des applications en biologiesanteacute sciences de lrsquounivers et ingeacutenierie etc

Les grandes tendances de la recherche en Big Data deacuteveloppeacutees agrave INS2I portent sur des meacutethodes innovantes de traitement et drsquoanalyse sur toute la chaicircne de valeur de la donneacutee collecte indexation stockage gestion exploitation valorisation accessibiliteacute et visualisation Les meacutecanismes de collecte drsquointeacutegration de donneacutees multi-sources de distribution des donneacutees et des calculs ( Spark25 MongoDB26 Hadoop27 implantation de MapReduce introduit par Google QServ systegraveme drsquointerrogation de base de donneacutees deacuteveloppeacute pour le LSST28hellip ) dans des environnements Cloud neacutecessitent le deacuteveloppement et lrsquooptimisation de nouvelles techniques ou le portage drsquoalgorithmes existants pour le traitement et lrsquoanalyse des donneacutees En particulier les travaux portent sur lrsquoextraction des connaissances des meacutetadonneacutees et des ontologies sur les bases de donneacutees NoSql ou graphes et sur la paralleacutelisation des algorithmes Le deacuteveloppement drsquoapplications verticales inteacutegreacutees accessibles sur tous supports mobiles et commercialisables deacuteployeacutees en mode SaaS par exemple sera sans doute dans lrsquoavenir un des principaux axes de valorisation Lrsquousine digitale permettant de deacuteployer des applications drsquooptimisation de la production industrielle et la transformation digitale sont drsquoautres points importants pour la recherche informatique tant dans la modeacutelisation des process industriels que dans lrsquooptimisation de ces process gracircce aux donneacutees eacutemises par des milliers de capteurs Lrsquoacceptabiliteacute des applications par les utilisateurs est un point crucial et de nombreux travaux srsquointeacuteressent aux modes drsquointeraction et aux meacutecanismes de protection de la vie priveacutee

25 httpssparkapacheorg26 httpswwwmongodbcom27 httphadoopapacheorg28 httpdmlsstorg

Les donneacutees massives sont souvent traiteacutees sur des infrastructures distribueacutees agrave grande eacutechelle ( p ex traitement des donneacutees du LHC ) Les stocker les indexer et effectuer un post-traitement pour extraire de lrsquoinformation ou en vue drsquoune aide agrave la deacutecision est la plupart du temps un challenge et neacutecessite des interactions entre les diverses communauteacutes qui produisent les donneacutees mais aussi speacutecialistes du cloudHPC de la visualisation des basesentrepocircts de donneacutees

Le High Performance Data Analytics ( HPDA ) est devenu central dans de multiples disciplines et constitue une prioriteacute dans les programmes nationaux de pays comme la Chine ougrave il repreacutesente une part importante des applications sur les supercalculateurs avec des applications en biologie meacutedecine personnaliseacutee preacutediction des catastrophes naturelles transports Le HPDA est drsquoailleurs devenu lrsquoun des moteurs importants de vente de supercalculateurs sur le marcheacute La meacutedecine personnaliseacutee par exemple induit de veacuteritables challenges en termes de volume de donneacutees agrave analyser avec des millions de patients

Les besoins en data analytics sont en train drsquoexploser renforccedilant la neacutecessiteacute de disposer de meacutethodes drsquoanalyse de donneacutees qui passent agrave lrsquoeacutechelle de chaines complegravetes de traitement et drsquooutils drsquoaide agrave la deacutecision le tout en srsquoappuyant sur des plateformes de calcul performantes du type HPC

Ce constat autour des masses de donneacutees agrave analyser et les multiples applications dans les secteurs socio-eacuteconomiques ( finance industrie santeacutehellip ) expliquent le retour au premier plan des meacutethodes drsquoIntelligence Artificielle que ce soit pour lrsquoanalyse de donneacutees ( apprentissage superviseacute ou non dont le Deep Learning classificationhellip ) la logique formelle lrsquoaide agrave la deacutecision le traitement du langage naturel et lrsquoargumentationhellip deacuteveloppeacutees dans les anneacutees 80 mais souvent trop coucircteuses qui deviennent des outils incontournables gracircce aux capaciteacutes de calcul disponibles Il nrsquoest qursquoagrave constater que les GAFAM mais aussi IBM et les marcheacutes financiers ont eacuteteacute parmi les premiers agrave reacuteafficher toute lrsquoimportance de lrsquoIA

INS2I

59

Livre Blanc sur les Donneacutees au CNRS Eacutetat des Lieux et Pratiques - 2018

Exemple de la plateforme Galactica utiliseacutee pour la cosmologie ( Prof F Toumani Universiteacute Clermont Auvergne Laboratoire LIMOS - UMR 6158 )

La plateforme Galactica ( httpsgalacticaisimafr ) mise en place en septembre 2015 dans le cadre du programme PlaSciDo de lrsquoINS2I vise le deacuteveloppement et la mise agrave disposition de services drsquoingeacutenierie et drsquoexpeacuterimentation agrave grande eacutechelle pour les chercheurs dans le domaine des grandes masses de donneacutees Galactica est un cluster composeacute de nœuds de calcul et de nœuds de stockage preacutesentant une puissance de calcul totale de 128 cœurs ( 256 vCPU ) agrave 240 GHz 38 To de RAM et une capaciteacute de stockage de 143 To reposant sur le logiciel Ceph Les nœuds du cluster sont interconnecteacutes gracircce agrave un reacuteseau agrave 10 et 40 Gos Lrsquoeacutequipement de la plateforme a beacuteneacuteficieacute drsquoun financement de lrsquoINS2I et du Contrat Plan Etat Reacutegion ( CPER ) de la reacutegion Auvergne Un objectif important de la plateforme Galactica est de mettre agrave la disposition des chercheurs en informatique une infrastructure de stockage et de calcul drsquoenvergure suffisante qui reste flexible et facile agrave configurer pour srsquoadapter aux besoins speacutecifiques des expeacuterimentations dans ce domaine Galactica offre pour cela trois niveaux de services Un premier niveau concerne lrsquoinfrastructure en tant que service deacuteployeacutee gracircce agrave la suite logicielle OpenStack qui permet agrave un chercheur de creacuteer de maniegravere aiseacutee au sein drsquoun environnement virtualiseacute les ressources informatiques ( calcul stockage reacuteseau etc ) adapteacutees agrave ses besoins Le deuxiegraveme niveau de service concerne la possibiliteacute pour un chercheur de creacuteer un cluster de traitement de donneacutees gracircce agrave lrsquoutilisation de modegraveles preacutedeacutefinis ( templates ) Les modegraveles disponibles actuellement sur la plateforme concernent les principales technologies modernes drsquoanalyse et de gestion de donneacutees massives comme par exemple Apache Hive ( httpshiveapacheorg ) Apache Hadoop ( httphadoopapacheorg ) Hortonworks Data Platform ( httpsfrhortonworkscom ) Cloudera ( httpswwwclouderacom ) et Apache Spark ( httpssparkapacheorg ) De plus gracircce au service Elastic Data Processing ( EDP ) il est possible pour un chercheur de creacuteer et drsquoexeacutecuter des jobs sur des clusters de traitement de donneacutees deacuteployeacutes au sein de la plateforme Enfin le dernier niveau de service concerne la mise agrave disposition de jeux de donneacutees soit sous forme brute par exemple les jeux de donneacutees astronomiques LSST ( 2 To et 35 To ) GAIA DR1 ( 730 Go compresseacutes httpswwwcosmosesaintwebgaiadr1 ) et SDSS DR9 ( 8 To httpwwwsdss3orgdr9 ) ou bien sous forme de laquo source de donneacutees raquo Une source de donneacutees est deacutefinie comme eacutetant une collection de donneacutees associeacutee agrave une infrastructure logicielle permettant drsquoexploiter ces donneacutees Un exemple de source de donneacutees est une machine virtuelle heacutebergeant MySQL et une base de

donneacutees MySQL contenant le catalogue associeacute au jeu de donneacutees SDSS DR9 Une source de donneacutees peut ecirctre reacutepliqueacutee facilement pour ecirctre exploiteacutee par des utilisateurs diffeacuterents dans des contextes diffeacuterents Srsquoinscrivant degraves sa creacuteation dans une dynamique de mutualisation des moyens et des compeacutetences Galactica se veut comme une plateforme ouverte aux chercheurs dans le domaine de lrsquoanalyse et de la gestion des grandes masses de donneacutees Preacutevue dans un premier temps en appui aux travaux du projet PetaSky ( httpcomisimafrPetasky ) la plateforme a eacuteteacute ouverte ensuite agrave la communauteacute de recherche en Science des Donneacutees pour accueillir actuellement 19 projets impliquant plus drsquoune soixantaine drsquoutilisateurs provenant de 12 laboratoires de recherche

Exemple de plateforme autour de la recherche drsquoinformation installeacutee agrave lrsquoInstitut de Recherche en Informatique de Toulouse ( IRIT ) OSIRIM

OSIRIM est une plateforme de stockage de forte volumeacutetrie ( 1 Po ) conccedilue pour lrsquoheacutebergement de projets scientifiques abordant les probleacutematiques lieacutees aux laquo meacutegadonneacutees raquo Cette plateforme administreacutee par lrsquoIRIT a eacuteteacute financeacutee par le gouvernement franccedilais la reacutegion Midi-Pyreacuteneacutees le Centre National de la Recherche Scientifique et le Fonds Europeacuteen de Deacuteveloppement Reacutegional dans le cadre drsquoun Contrat-Plan EtatReacutegion Elle est opeacuterationnelle depuis septembre 2013 et propose des ressources de stockage et de calcul pour la recherche sur lrsquoindexation et la recherche drsquoinformation dans des contenus multimeacutedias

La plateforme permet lrsquoheacutebergement de projets scientifiques neacutecessitant le stockage et le partage de plusieurs teacuteraoctets de donneacutees pour la reacutealisation drsquoexpeacuterimentations sur de grands volumes le partage de corpus de donneacutees issues par exemple de reacuteseaux sociaux donneacutees drsquoobservations donneacutees meacutedicales anonymiseacutees donneacutees audio ou videacuteohellip et partage drsquooutils logiciels par exemple pour lrsquoeacutevaluation de technologies Hadoop Sparkhellip OSIRIM est ouverte agrave la communauteacute informatique et autres domaines scientifiques souhaitant utiliser ses moyens mateacuteriels ou logiciels Lrsquoaccegraves agrave la plateforme srsquoeffectue directement agrave partir drsquoInternet Lrsquoheacutebergement des projets est gratuit Elle dispose drsquoun cluster Hadoop de Spark et drsquoun certain nombre drsquoautres logiciels ainsi que MongoDB en compleacutement du gestionnaire de tacircches SLURM seule offre initialement disponible sur la plateforme OSIRIM a eacutegalement eacuteteacute utiliseacutee en 2016 en soutien pour lrsquoinitiation agrave la recherche dans certaines

60

Livre Blanc sur les Donneacutees au CNRS Eacutetat des Lieux et Pratiques - 2018

formations de master toulousaines essentiellement autour de lrsquoapprentissage des technologies Hadoop En matiegravere de corpus il est agrave noter que la plateforme OSIRIM heacuteberge depuis septembre 2015 1 des tweets mondiaux ( via un flux temps reacuteel ) qursquoelle met agrave disposition des eacutequipes inteacuteresseacutees par lrsquoanalyse et lrsquoexploitation de ce corpus

Lrsquoarchitecture drsquoOSIRIM srsquoarticule autour

bull Drsquoun cluster de calcul de 640 cœurs comprenant des nœuds deacutedieacutes agrave la gestion de la plateforme agrave lrsquoheacutebergement des composants pilotant les architectures logicielles deacuteployeacutees ( gestionnaire de tacircches SLURM distribution Hadoop Spark Mongodbhellip ) ainsi que les nœuds permettant aux utilisateurs de se connecter sur la plateforme pour geacuterer leurs donneacutees et lancer lrsquoexeacutecution de leurs traitements et des nœuds deacutedieacutes aux calculs Il srsquoagit de 10 serveurs IBM X3755 M3 comprenant chacun 4 processeurs AMD Opteron 6262HE de 16 cœurs agrave 16Ghz 512 Go de RAM 2 disques de 300 Go en RAID1 et 2 liaisons agrave 10Gbs Le lancement des traitements srsquoeffectue via le gestionnaire de tacircches SLURM ( Simple Linux Utility for Resource Management ) ou par le gestionnaire de ressources Hadoop YARN

bull Drsquoune zone de stockage drsquoune capaciteacute utile drsquoenviron 1 Po Ce stockage est assureacute par une baie EMC Isilon Les donneacutees sont acceacutedeacutees en NFS et HDFS La baie est composeacutee de 12 nœuds X 400 de 36 disques SATA de 3 To chacun raccordeacutes au reacuteseau via 2 liens de 10Gbs

OSIRIM a permis cette anneacutee de reacutepondre agrave diverses demandes drsquoheacutebergement de projets tant au sein du laboratoire qursquoagrave lrsquoexteacuterieur dont

bull Grid5000 mise agrave disposition drsquoun espace de stockage de 100 To suite au raccordement drsquoOSIRIM au reacuteseau de grille de calcul Grid5000

bull Polemic avec lrsquoUAM Mexico analyse du comportement des utilisateurs dans les reacuteseaux sociaux

bull CompuBioMed avec lrsquoINSERM metamining pour la recommandation en bio-santeacute

bull Petasky avec le LIRIS techniques de partitionnement de donneacutees dans le domaine de la cosmologie

bull Musk avec lrsquouniversiteacute Paris Est ndash LISIS traitement de grands corpus textuels ( publications scientifiques tweets et actualiteacutes videacuteo )

bull SemDis avec le CLLE-ERSS creacuteation et eacutevaluation de bases distributionnelles du franccedilais

bull CAIR avec le LIRIS recherche agreacutegative de donneacutees

bull Tweet Contextualization avec lrsquouniversiteacute drsquoAvignon contextualisation de tweets autour drsquoeacuteveacutenements

Lrsquooffre logicielle proposeacutee sur la plateforme permet drsquoaccueillir depuis le deacutebut de lrsquoanneacutee 2017 de nouveaux projets dont certains neacutecessitent un heacutebergement de type cloud se traduisant par le deacuteploiement drsquoenvironnements speacutecifiques deacutedieacutes sous forme de machines virtuelles et exploitant des corpus de donneacutees heacutebergeacutes sur la plateforme OSIRIM

Enfin OSIRIM offre aussi un espace drsquoheacutebergement pour les travaux de recherche drsquoeacutequipes locales de lrsquoIRIT avec des activiteacutes lieacutees agrave

bull Lrsquoindexation de grandes masses de donneacutees heacuteteacuterogegravenes pour notamment concourir agrave des benchmarks internationaux en recherche drsquoinformation TREC29 CLEF30

bull Lrsquoeacutevaluation drsquooutils drsquoindexation de contenus musicaux indexation de grands volumes drsquoenregistrements drsquoeacutemissions de teacuteleacutevision internationales

bull Lrsquoindexation et recherche drsquoinformations dans de grandes masses de textes

bull Lrsquoanalyse de corpora textuels et ontologies

bull Le traitement complexe drsquoimages

29 Text REtrieval Conference30 Conference and Labs of the Evaluation Forum

INS2I

61

Livre Blanc sur les Donneacutees au CNRS Eacutetat des Lieux et Pratiques - 2018

293 Conclusion

La Science des Donneacutees est au cœur des pratiques de la recherche meneacutee agrave INS2I LrsquoIntelligence Artificielle quant agrave elle est revenue en force ( entre autres chez Google Microsoft IBM Amazonhellip ) avec des approches souvent deacuteveloppeacutees par les chercheurs informaticiens dans les anneacutees 80 ( mais trop coucircteuses agrave lrsquoeacutepoque ) car elle permet drsquoanalyser ces masses de donneacutees produites dans de multiples domaines et drsquoen tirer des informations eacuteventuellement pour de lrsquoaide agrave la deacutecision Dans ce domaine la France affiche un potentiel qui peut en faire lrsquoun des acteurs majeurs au niveau mondial

On peut srsquoattendre agrave des eacutevolutions rapides sur plusieurs points dont ( i ) lrsquoautomatisation des processus drsquoextraction ( meacutetadonneacutees connaissances ontologies ) et drsquointeacutegration des donneacutees et de gestion de la qualiteacute le deacuteveloppement de nouvelles meacutethodes drsquoanalyse de donneacutees multi-sources ( textes reacuteseaux sociaux audio videacuteo geacuteolocalisationhellip ) et lrsquoameacutelioration des performances ( passage agrave lrsquoeacutechelle ) ( ii ) une meilleure exploitation drsquoarchitectures adapteacutees au Big Data ( iii ) lrsquoameacutelioration de la seacutecuriteacute des infrastructures mateacuterielles et logicielles des collectes et des analyses ( iv ) lrsquooptimisation des meacutecanismes drsquoanonymisation et de cryptage garantissant la protection de la vie priveacutee ( v ) lrsquointeacutegration des donneacutees et des analyses pour la seacutecuriteacute ( cyber-seacutecuriteacute gestion de crises controcircle aux frontiegraveres ) ( vi ) lrsquointeacutegration et lrsquoexploitation des open data ( e-gouvernement santeacute impocircts )

Il reste cependant de multiples deacutefis agrave relever pour la recherche tels que

bull La maicirctrise de lrsquoheacuteteacuterogeacuteneacuteiteacute des donneacutees lors de leur inteacutegration et de leur agreacutegation en les confrontant agrave des donneacutees de reacutefeacuterences ou agrave des ontologies de domaines La deacutefinition notamment de meacutethodes de raisonnement sur des donneacutees incertaines ou incomplegravetes constitue un preacutealable fort agrave lrsquointeacutegration seacutemantique des donneacutees

bull Aller vers une theacuteorie de la deacutecision qualitative les systegravemes deacutecisionnels exploitent ces connaissances et offrent aux experts une palette drsquooutils qui ameacuteliorent non seulement leurs connaissances et leurs productiviteacutes mais leur offrent eacutegalement les meacuteta-connaissances neacutecessaires agrave une meilleure interpreacutetation des pheacutenomegravenes qursquoils observent ou surveillent De faccedilon plus geacuteneacuterale lrsquoaide agrave la deacutecision doit tenir compte autant des connaissances produites par les processus meacutetiers que des

informations qualitatives qui doivent accompagner cette connaissance Lrsquoorigine des informations la confiance en leurs producteurs leur coheacuterence leur compleacutetude leur exactitude leur fraicirccheur ainsi que la chaicircne de transformations qursquoelles ont subies sont autant drsquoeacuteleacutements indispensables agrave connaicirctre avant toute prise de deacutecision rationnelle

bull Lrsquoaide agrave la deacutecision pour les systegravemes complexes le terme Policy Analytics est utiliseacute depuis quelques anneacutees pour deacutesigner les activiteacutes drsquoexploration de tregraves grandes masses de donneacutees ( fouille extraction de connaissances ) pour la construction drsquoindicateurs syntheacutetiques et de modegraveles drsquoaide agrave la deacutecision utiliseacutes en support de pilotage de systegravemes complexes ( particuliegraverement des entreprises ou des organismes publics ) Les processus de deacutecision publique sont souvent soumis agrave drsquoimportantes exigences de leacutegitimiteacute et de sens Lrsquoaspect meacutethodologique en deacutecision est donc un problegraveme majeur ougrave la multipliciteacute des acteurs et lrsquoheacuteteacuterogeacuteneacuteiteacute seacutemantique sont des verrous agrave lever Les deacuteveloppements de systegravemes drsquoexplication ou de recommandations argumenteacutees sont des pistes agrave explorer

bull Lrsquoaide agrave la deacutecision dans un environnement ambiant ou ubiquitaire les reacuteseaux de capteurs lrsquoInternet des objets les eacutequipements mobiles produisent quantiteacute drsquoinformations correspondant agrave des releveacutes drsquoobservation ( meacuteteacuteo trafic crowdsourcing ) des donneacutees de surveillance ( santeacute ville ) des eacuteveacutenements environnementaux ( pollution tsunami ) Ces informations dites ambiantes sont pleacutethoriques heacuteteacuterogegravenes et parcellaires Elles doivent ecirctre rapprocheacutees avec des reacutefeacuterentiels pour les compleacuteter ou en deacuteterminer la seacutemantique Elles neacutecessitent souvent un traitement agrave la voleacutee pour produire des indicateurs qui serviront agrave la prise de deacutecision ou agrave la supervision agrave distance de tacircches ou de controcircle drsquoeacutequipements Ces travaux doivent tenir compte du contexte de lrsquoutilisateur de son activiteacute passeacutee de ses preacutefeacuterences et des interactions qursquoil a avec drsquoautres utilisateurs ou des communauteacutes drsquoutilisateurs

bull La preacuteservation des connaissances pour les geacuteneacuterations futures souligne lrsquoimportance de la peacuterenniteacute du stockage et le problegraveme drsquointerpreacutetation des contenus Les problegravemes souleveacutes sont agrave la fois drsquoordre technologique ( migration drsquoune technologie agrave une autre ) eacuteconomique ( coucircts de la migration et coucircts drsquoarchivage ) et seacutemantique ( eacutevolution des modegraveles de repreacutesentation de connaissances nouveaux standards de meacutetadonneacutees )

62

Livre Blanc sur les Donneacutees au CNRS Eacutetat des Lieux et Pratiques - 2018

Les sciences de lrsquoinformation irriguent et feacutecondent tout le champ scientifique gracircce agrave de nouveaux outils de modeacutelisation et de simulation de nouveaux modegraveles de calcul intensif la gestion et lrsquoanalyse de donneacutees massives le traitement du signal et de lrsquoimage la robotique les objets communicants et lrsquointeraction Lrsquoactiviteacute scientifique subit un bouleversement eacutepisteacutemologique qui conduit agrave de nouvelles formes de production de la connaissance et agrave lrsquoeacutemergence de plusieurs sous-disciplines Ainsi de nouveaux champs drsquoinvestigation sont neacutes aux interfaces des sciences de lrsquoinformation comme la bioinformatique les neurosciences computationnelles la cyber-seacutecuriteacute les humaniteacutes numeacuteriques la geacuteoinformatique lrsquoe-santeacute Lrsquoastroinformatique en est une parfaite illustration Elle integravegre lrsquoastronomie lrsquoastrophysique les statistiques lrsquoinformatique et le traitement du signal

A lrsquoimage de la bioinformatique elle est sur la voie de deacutefinir ses propres objets de recherche ses propres meacutethodes et ses propres innovations Lrsquoastrophysique a eacutemergeacute agrave la fin des anneacutees 2000 en eacutecho aux travaux de Jim Gray sur lrsquousage intensif des donneacutees en sciences Lors drsquoune confeacuterence en 2007 lrsquoinformaticien Jim Gray Prix Turing en 1998 eacutenonccedila lrsquoideacutee drsquoun nouveau paradigme de la science construit autour du traitement intensif et de lrsquoanalyse agrave grande eacutechelle des donneacutees ( data-intensive science )31 Lrsquoideacutee a depuis fait son chemin srsquoinspirant souvent du succegraves de la bioinformatique et srsquoacceacutelegravere reacutecemment sous la pression de projets drsquoenvergure comme SDSS GAIA et LSST encourageacutee aussi par les reacutecents progregraves en science des donneacutees ( requecirctes complexes apprentissage calcul distribueacute optimisation et passage agrave lrsquoeacutechelle )

31 [4] eScience -- A Transformed Scientific Method Jim Gray eScience Talk at NRC-CSTB meeting Mountain View CA 11 January 2007

INS2I

63

Livre Blanc sur les Donneacutees au CNRS Eacutetat des Lieux et Pratiques - 2018

210 INSTITUT NATIONAL DE PHYSIQUE NUCLEAIRE ET DE PHYSIQUE DES PARTICULES ( IN2P3 )

2101 Introduction

Creacuteeacute en 1971 lrsquoInstitut National de Physique Nucleacuteaire et de Physique des Particules ( IN2P3 ) du CNRS exerce les missions nationales drsquoanimation et de coordination dans les domaines de la physique nucleacuteaire de la physique des particules et des astroparticules des deacuteveloppements technologiques et des applications associeacutees Il conccediloit coordonne et anime les programmes de recherche nationaux et internationaux dans ces domaines Ses missions incluent eacutegalement la coordination de la mise en place de systegravemes drsquoinformation permettant le stockage la mise agrave disposition aupregraves de la communauteacute scientifique le traitement et la valorisation de lrsquoensemble des donneacutees scientifiques concerneacutees ainsi que leur archivage

Ces recherches ont pour but drsquoexplorer la physique des particules eacuteleacutementaires leurs interactions fondamentales ainsi que leurs assemblages en noyaux atomiques drsquoeacutetudier les proprieacuteteacutes de ces noyaux et drsquoexplorer les connexions entre lrsquoinfiniment petit et lrsquoinfiniment grand

Que ce soit avec la physique des particules aupregraves des grands acceacuteleacuterateurs la physique des astroparticules avec les expeacuteriences embarqueacutees sur satellites les teacutelescopes et autres deacutetecteurs terrestres ou encore dans une moindre mesure la physique nucleacuteaire les eacutequipes de lrsquoIN2P3 et du CEAIrfu doivent faire face agrave des masses de donneacutees consideacuterables qursquoil faut stocker distribuer et analyser Bien qursquohistoriquement lrsquoinformatique agrave lrsquoIN2P3 ait eacuteteacute fortement domineacutee par les besoins de la communauteacute de la physique des particules de nouveaux deacutefis sont apparus Des expeacuteriences de physique des astroparticules sont actuellement en cours avec des exigences qui atteindront une fraction significative de celle des expeacuteriences du Large Hadron Collider ( LHC ) au CERN dans les 5 prochaines anneacutees Un changement de paradigme est eacutegalement en cours en calcul pour la physique nucleacuteaire Compte tenu des grandes expeacuteriences agrave venir par exemple au GANIL la communauteacute veut centraliser le calcul et le stockage des donneacutees

Lrsquoensemble des expeacuteriences neacutecessite eacutegalement des modeacutelisations par technique de Monte-Carlo qui sont elles-mecircmes geacuteneacuteratrices de grandes quantiteacutes de donneacutees Lrsquoaspect donneacutees et traitement statistique est donc la caracteacuteristique principale de lrsquoinformatique pour la physique corpusculaire

Le traitement statistique global sur une multitude de jeux de donneacutees indeacutependants mdash une collision de particules correspond agrave un jeu de donneacutees mdash srsquoadapte tregraves bien agrave des architectures informatiques constitueacutees de ferme de calculateurs Drsquoune maniegravere geacuteneacuterale en dehors des calculs de chromodynamique quantique sur reacuteseau ( QCD ) la physique subatomique a tregraves peu besoin de calculateurs parallegraveles Cette caracteacuteristique lrsquoa distingueacutee de bon nombre drsquoautres disciplines scientifiques pour lesquelles le HPC est une neacutecessiteacute La principale complexiteacute du calcul pour la physique corpusculaire provient des masses de donneacutees consideacuterables qursquoil faut geacuterer et distribuer sur le reacuteseau mondial puis traiter au niveau local

Lrsquoensemble des laboratoires de lrsquoIN2P3 utilise les ressources informatiques du CC-IN2P3 ( Section 31 ) et des grilles WLCG et EGI

2102 La probleacutematique des donneacutees agrave lrsquoIN2P3

Depuis la creacuteation de lrsquoIN2P3 le plus grand deacutefi en termes de traitement de donneacutees a eacuteteacute le calcul et le stockage des donneacutees de la physique des particules issues des expeacuteriences du CERN

Dans le grand collisionneur de hadrons ( LHC ) des particules entrent en collision environ 600 millions de fois par seconde Chaque collision produit des particules qui se deacutecomposent souvent de faccedilon tregraves complexe en formant des particules plus nombreuses

64

Livre Blanc sur les Donneacutees au CNRS Eacutetat des Lieux et Pratiques - 2018

Pour chaque eacuteveacutenement qui passe par la proceacutedure de filtrage rigoureuse des deacutetecteurs du LHC il faut en moyenne simuler 1 agrave 15 eacuteveacutenement afin de pouvoir calibrer et finalement comprendre les donneacutees des expeacuteriences

Le traitement des donneacutees agrave lrsquoIN2P3 est aujourdrsquohui eacutetroitement lieacute et influenceacute par le modegravele de calcul du LHC et aligneacute sur la grille de calcul mondiale du LHC ( WLCG ) Le deacutefi consiste agrave passer au crible les 50 peacutetaoctets de donneacutees produites chaque anneacutee pour deacuteterminer si les collisions ont souleveacute une physique inteacuteressante Le WLCG est une infrastructure informatique distribueacutee organiseacutee en plusieurs niveaux ( tiers ) et offre agrave une communauteacute de plus de 8000 physiciens un accegraves en temps reacuteel aux donneacutees du LHC

Ainsi la plus grande partie de lrsquoinfrastructure de calcul drsquoIN2P3 est organiseacutee par LCG-France32 selon une structuration par Tier33 avec CC-IN2P3 eacutetant le Tier-1 franccedilais accompagneacute de 7 Tier-2 drsquoIN2P3 Cela inclut le centre Tier-2 GRIF34 ( Grille au service de la Recherche en Icircle-de-France ) avec une forte participation du CEAIrfu

Pour donner une ideacutee du deacutefi de la gestion des donneacutees en 2017 LCG-France a une capaciteacute de stockage sur disque de 17 Po au niveau Tier-1 ( crsquoest-agrave-dire agrave CC-IN2P3 ) et 14 Po au niveau Tier-2 et une capaciteacute de stockage sur bande de 40 Po au CC-IN2P3 Pour le traitement en France environ 18 000 cœurs sont reacuteserveacutes au Tier-1 et encore environ 18000 cœurs dans les centres Tier-2

32 httplcgin2p3fr33 ldquoThe Grid A system of tiersrdquo httpshomecernaboutcompu-tinggrid-system-tiers34 httpsgriffr

IN2P3

Infrastructure principale pour le calcul IN2P3

65

Livre Blanc sur les Donneacutees au CNRS Eacutetat des Lieux et Pratiques - 2018

Bien que le traitement des donneacutees pour LCG-France soit de loin le plus grand utilisateur de lrsquoinfrastructure de calcul de lrsquoIN2P3 drsquoautres communauteacutes au sein drsquoIN2P3 progressent rapidement

Par exemple en 2016 le CC-IN2P3 a fourni en moyenne 2 800 cœurs de calcul 12 To drsquoespace disque et 25 To de stockage sur bande agrave des expeacuteriences astrophysiques spatiales ( AMS-2 Planck Fermi ) Toute la communauteacute des astroparticules a utiliseacute en 2016 environ 3 Po de disque et 8 Po de bande au CC-IN2P3 Nous beacuteneacuteficions indeacuteniablement drsquoune culture et drsquoune sensibilisation aux deacutefis du traitement des donneacutees dans la communauteacute de la physique des particules et de lrsquoastrophysique Dans ce contexte les expeacuteriences du LHC filtrent leurs donneacutees autant que possible deacutejagrave au niveau du deacutetecteur De plus le nombre de copies de donneacutees est maintenu au minimum absolu neacutecessaire et les donneacutees intermeacutediaires sont effaceacutees autant que possible Dans lrsquoastrophysique spatiale le flux de donneacutees est principalement limiteacute par la largeur de bande de teacuteleacutemeacutetrie des satellites ce qui signifie qursquoun effort important est entrepris pour reacuteduire les donneacutees deacutejagrave agrave bord du satellite

Dans les anneacutees agrave venir un grand nombre de projets importants stockeront leurs donneacutees dans lrsquoinfrastructure de lrsquoIN2P3 En physique des particules lrsquoinstitut participe agrave lrsquoexpeacuterience Belle-235 de lrsquoacceacuteleacuterateur japonais SuperKEKB En physique des astroparticules agrave tregraves haute eacutenergie le Cherenkov Telescope Array ( CTA ) produira environ 8 Po de donneacutees par an dont 4 Po sont des donneacutees brutes et 2 Po sont des donneacutees simuleacutees neacutecessaires agrave lrsquoeacutetalonnage En cosmologie nous verrons le deacutemarrage de lrsquoexploitation de deux projets majeurs au deacutebut des anneacutees 2020 la mission Euclid de lrsquoESA et le Large Synoptic Survey Telescope ( LSST ) Les deux sont extrecircmement difficiles en matiegravere de quantiteacute et de qualiteacute des donneacutees Alors que pour Euclid lrsquoIN2P3 est responsable de 30 du traitement des donneacutees pour LSST nous fournirons 50 de la puissance de calcul et conserverons une archive complegravete de toutes les donneacutees LSST ( brutes et reacuteduites ) au CC-IN2P3 Les deux LSST et Euclid produiront chacun environ 100 Po de donneacutees

Dans le domaine de la physique nucleacuteaire le traitement des donneacutees a eacuteteacute jusqursquoici deacutecentraliseacute principalement au sein des groupes chargeacutes des expeacuteriences Dans le contexte de la mise en service du nouvel acceacuteleacuterateur Spiral-2 au Ganil et de lrsquoeacutevolution simultaneacutee de deacutetecteurs tels que S3 une approche plus centraliseacutee est eacutegalement neacutecessaire pour cette communauteacute

35 httpswwwbelle2org

Un groupe de travail eacutetudie les possibiliteacutes de centraliser le stockage des donneacutees et eacuteventuellement le traitement des donneacutees pour les expeacuteriences existantes et futures dans ce domaine

LrsquoIN2P3 est le principal et de loin le plus gros contributeur de France Grilles la NGI ( National Grid Infrastructure ) franccedilaise qui fait partie de lrsquoinfrastructure de reacuteseau europeacuteen ( EGI36 ) Lrsquoactiviteacute srsquoorganise autour de trois axes pour reacutealiser la strateacutegie geacuteneacuterale de France Grilles

bull Le deacuteploiement et lrsquoopeacuteration drsquoune infrastructure distribueacutee de grille et de cloud au niveau national

bull Lrsquoapplication drsquoune politique drsquoaccegraves permettant de rendre cette infrastructure disponible aux utilisateurs de toutes les disciplines

bull Lrsquointeacutegration de cette infrastructure dans EGI

France Grilles est organiseacute en un Groupement drsquoInteacuterecirct Scientifique ( GIS ) avec un grand nombre de partenaires ( CNRS MENESR CEA CPU INRA INRIA INSERM et RENATER ) et devrait jouer un rocircle de premier plan au sein de la structure laquo FR-T2 raquo actuellement en gestation et qui devrait coordonner les e-infrastructures franccedilaises de maniegravere distribueacutee et nationale

Pour permettre une utilisation efficace des donneacutees distribueacutees en plusieurs endroits ( p ex dans les diffeacuterents centres Tier en France ) France Grilles et lrsquoIN2P3 srsquoappuient notamment sur iRODS iRODS37 pour Integrated Rule-Oriented Data System est un outil de distribution de donneacutees permettant lrsquoaccegraves agrave des donneacutees se trouvant reacuteparties sur diffeacuterents sites et sur des supports heacuteteacuterogegravenes ( systegraveme de fichiers sur disques bases de donneacutees bandes magneacutetiques etc )

En outre lrsquoIN2P3 est engageacute dans le principe FAIR38pour les donneacutees Cela signifie que les donneacutees de notre recherche doivent ecirctre trouvables accessibles interopeacuterables et reacuteutilisables Dans ce contexte nous entreprenons plusieurs actions Par exemple un modegravele de plan de gestion de donneacutees commun a eacuteteacute creacuteeacute et nous avons lrsquointention drsquoen rendre obligatoire la fourniture pour tous les projets IN2P3

36 httpswwwegieu37 httpsirodsorg iRODS IN2P3 service httpsirodsin2p3fr38 par exemple Mons et al 2017

66

Livre Blanc sur les Donneacutees au CNRS Eacutetat des Lieux et Pratiques - 2018

Concernant lrsquoaspect de trouvabiliteacute des donneacutees nous recommandons lrsquoutilisation de Digital Object Identifiers39 ce qui permet drsquoeacutetablir un lien exploitable interopeacuterable et persistant vers des donneacutees par exemple dans le contexte drsquoune publication scientifique Afin drsquoassurer la reacuteutilisabiliteacute des donneacutees un projet a eacuteteacute mis en place agrave lrsquoIN2P3 en 2016 pour eacutetudier les possibiliteacutes de preacuteservation des logiciels et la valeur ajouteacutee drsquoun plan geacuteneacuteral de gestion des logiciels

Dans le contexte europeacuteen lrsquoIN2P3 suit une approche similaire agrave travers sa participation agrave des projets lieacutes agrave lrsquoEuropean Open Science Cloud ( EOSC ) LrsquoEOSC vise agrave donner aux scientifiques en Europe un accegraves transparent au calcul au stockage et aux services agrave travers les frontiegraveres et les communauteacutes Dans le cadre du projet EOSC-Pilot lrsquoIN2P3 dirige lrsquoeffort drsquointeropeacuterabiliteacute des donneacutees et des e-infrastructures crsquoest-agrave-dire que nous essayons de trouver et de proposer des solutions qui permettront agrave lrsquoEOSC drsquoatteindre ses objectifs

Lrsquoinstitut est eacutegalement impliqueacute dans deux projets europeacuteens qui eacutetudient les possibiliteacutes offertes par le cloud et les infrastructures distribueacutees Au sein drsquoHelix Nebula Science Cloud ( HNSciCloud ) nous eacutetudions une plateforme de cloud hybride rassemblant des fournisseurs de services de cloud computing des e-infrastructures financeacutees par des fonds publics et des ressources internes Et dans le projet eXtreme DataCloud ( XDC ) des systegravemes de donneacutees distribueacutees sont exploreacutes y compris des fournisseurs priveacutes et publics et eacutetudient des aspects de la gestion des donneacutees pour la physique des astroparticules et des hautes eacutenergies

2103 Conclusion

LrsquoIN2P3 a une longue histoire dans la gestion de grands flux de donneacutees ainsi que dans lrsquoorganisation et la distribution du stockage Neacuteanmoins les deacutefis agrave venir dans les 5-10 prochaines anneacutees sont importants Nous nrsquoy verrons pas seulement un grand nombre de nouveaux projets avec des volumes de donneacutees tregraves importants ( de lrsquoordre de la dizaine de peacutetaoctets par an ) entrer dans le jeu mais la deacuteferlante de donneacutees qui reacutesultera de la mise agrave niveau du LHC et de ses expeacuteriences sera encore plus significative

39 httpswwwdoiorg

En raison de lrsquointensiteacute plus eacuteleveacutee du faisceau au LHC et des deacutetecteurs ayant une reacutesolution spatiale et temporelle plus eacuteleveacutee le volume de donneacutees au LHC devrait augmenter drsquoun facteur 100 drsquoici 2025 Diffeacuterentes solutions concernant le modegravele de calcul pour le LHC sont actuellement discuteacutees Il demeure cependant eacutevident que lrsquoIN2P3 fera encore face agrave une augmentation significative des exigences de traitement des donneacutees

Pour poursuivre son approche reacuteussie de la gestion des donneacutees lrsquoinstitut poursuit plusieurs approches

bull Etudier de nouvelles approches afin drsquooptimiser les flux de donneacutees Ceci inclut lrsquoutilisation de systegravemes comme iRODS mais aussi le deacuteveloppement de nouveaux systegravemes de gestion de ressources comme DIRAC

bull Travailler sur des systegravemes de calcul en ligne qui reacuteduisent la quantiteacute de donneacutees agrave traiter en reacuteduisant les donneacutees directement sur le site drsquoexpeacuterimentation Ceci est appliqueacute par exemple dans lrsquoinfrastructure de calcul O2 pour lrsquoexpeacuterience Alice au LHC ou dans lrsquoapproche de reacuteduction de donneacutees sur site de Cherenkov Telescope Array ( CTA )

bull Continuer agrave promouvoir des systegravemes de stockage de donneacutees qui permettent lrsquoutilisation transparente de diffeacuterentes ressources

bull Coordonner lrsquoapproche pour un accegraves transparent aux donneacutees avec les initiatives au niveau franccedilais ( p ex MiCaDo COCIN FR-T2 ) et dans le contexte europeacuteen ( p ex EOSC EDI EGI EUDAT )

bull Poursuivre la centralisation de lrsquoinfrastructure informatique de lrsquoIN2P3 ce qui permet un investissement plus efficace tout en maintenant le haut niveau drsquoexpertise distribueacutee dans les laboratoires

bull Poursuivre lrsquoapproche de formation continue agrave travers des programmes de formation pour le personnel IN2P3 former la prochaine geacuteneacuteration de scientifiques de donneacutees et maintenir lrsquoIN2P3 en tant qursquoinstitut attractif pour lrsquoensemble de la communauteacute du calcul scientifique et des infrastructures associeacutees

IN2P3

67

Livre Blanc sur les Donneacutees au CNRS Eacutetat des Lieux et Pratiques - 2018

31 LE CC-IN2P3

311 Mission du CC-IN2P3

LrsquoIN2P3 srsquoappuie sur lrsquoinfrastructure de recherche Centre de Calcul de lrsquoIN2P3 ( CC-IN2P3 ) pour accomplir sa mission de mise en place de systegravemes drsquoinformation permettant le stockage la mise agrave disposition aupregraves de la communauteacute scientifique le traitement et la valorisation de lrsquoensemble des donneacutees scientifiques concerneacutees ainsi que leur archivage

Le CC-IN2P3 dispose pour cela drsquoun datacenter abritant les services informatiques neacutecessaires agrave lrsquoanalyse et agrave lrsquointerpreacutetation des processus fondamentaux de la physique subatomique Du fait de la rareteacute de ces processus ce travail requiert lrsquoanalyse statistique de millions voire de milliards drsquointeractions entre particules Cette analyse neacutecessite le transport le stockage et le traitement drsquoeacutenormes quantiteacutes de donneacutees Les analyses physiques sont meneacutees par un grand nombre de chercheurs reacutepartis dans le monde entier

Le CC-IN2P3 fournit des ressources non seulement pour la physique nucleacuteaire et la physique des particules mais aussi pour lrsquoastrophysique et les astroparticules Parmi les collaborations scientifiques majeures qui utilisent ses services on trouve le LHC40 GANILSpiral 241 LSST42 CTA43 KM3NeT44 tous figurant sur la feuille de route des TGIRIR45 ou celle de lrsquoESFRI46 Par ailleurs les technologies informatiques deacuteployeacutees pour ces besoins ont deacutemontreacute une totale adeacutequation avec les besoins drsquoautres domaines ( sciences humaines

40 Large Hadron Collider ( httphomecerntopicslarge-hadron-collider )41 Grand Acceacuteleacuterateur National drsquoIons Lourds ( httpswwwganil-spiral2eu )42 Large Synoptic Survey Telescope ( httpwwwlsstorg )43 Cherenkov Telescope Array ( httpwwwcta-observatoryorg )44 Neutrino telescopes ( httpwwwkm3netorg )45 Tregraves grandes infrastructures de recherche Infrastructures de recherche46 European Strategy Forum on Research Infrastructures ( httpseceuropaeuresearchinfrastructurespdfesfriesfri_roadmapesfri_roadmap_2016_fullpdf )

bio-informatique eacutecologiehellip ) domaines qui utilisent aujourdrsquohui modestement les services du CC-IN2P3

En premiegravere approche le calcul scientifique reacutealiseacute par les collaborations de recherche auxquelles participe lrsquoIN2P3 correspond agrave un traitement statistique global sur une multitude de jeux de donneacutees indeacutependants ( une collision de particules correspond agrave un jeu de donneacutees ) traitement qui srsquoadapte tregraves bien agrave des architectures informatiques constitueacutees de ferme de calculateurs Drsquoune maniegravere geacuteneacuterale en dehors des calculs de chromodynamique quantique sur reacuteseau ( QCD ) la physique corpusculaire a tregraves peu besoin de calculateurs parallegraveles Cette caracteacuteristique lrsquoa distingueacutee de bon nombre drsquoautres disciplines scientifiques pour lesquelles le HPC est une neacutecessiteacute

La principale complexiteacute du calcul pour la physique corpusculaire provient des masses de donneacutees consideacuterables qursquoil faut geacuterer et distribuer sur le reacuteseau mondial puis traiter au niveau local Crsquoest pourquoi le CC-IN2P3 opegravere des moyens de calcul haut deacutebit ( ou HTC pour High Throughput Computing ) en constante eacutevolution

312 Eacutequipements du CC-IN2P3 ( oct 2017 )

Ces moyens de traitement de donneacutees agrave haut deacutebit sont scheacutematiseacutes ci-contre Ils sont constitueacutes de

bull Une ferme de calcul de 16 000 cœurs physiques fonctionnant avec le gestionnaire de tacircches Univa Grid Engine

bull Un systegraveme de stockage sur disques de 15 Peacutetaoctets deacutedieacute agrave 80 aux expeacuteriences LHC Ce stockage est accessible au travers de divers logiciels ou systegravemes de fichiers

o GPFS ( IBM General Parallel File System ) fournit aux utilisateurs un espace de travail en mode

3 LES DONNEacuteES AU SEIN DES CENTRES NATIONAUX DU CNRS CC-IN2P3 ET IDRIS

68

Livre Blanc sur les Donneacutees au CNRS Eacutetat des Lieux et Pratiques - 2018

fichier flexible et accessible depuis les machines interactives ou le systegraveme de traitement par lot drsquoune capaciteacute de 2 peacutetaoctets

o AFS ( Andrew File System ) drsquoune capaciteacute de 40 teacuteraoctets permet de partager les espaces home et lrsquoessentiel des distributions de logiciels

o Le systegraveme de stockage hieacuterarchique HPSS ( High Performance Storage System ) dispose drsquoun cache sur disques permettant de geacuterer la reacutecupeacuteration et les migrations de donneacutees depuis et vers le systegraveme de stockage de masse ( cartouches magneacutetiques ) Ce systegraveme drsquoune capaciteacute de stockage actuelle totale de 340 peacutetaoctets contient agrave ce jour 59 peacutetaoctets de donneacutees scientifiques

o SRMdCache et Xrootd sont des systegravemes speacutecifiques de gestion de donneacutees deacuteveloppeacutes par la communauteacute de la physique des hautes eacutenergies et capables drsquoabsorber des charges tregraves importantes en termes drsquoentreacuteessorties Ils constituent lrsquoessentiel du stockage au CC-IN2P3

o iRods est un systegraveme de gestion de donneacutees distribueacute flexible et capable de geacuterer facilement

des meacutetadonneacutees La faciliteacute de mise en œuvre notamment pour des donneacutees distribueacutees geacuteographiquement a rendu iRods populaire et a contribueacute agrave son deacuteveloppement

bull Un ensemble de 4 silos robotiseacutes STKOracle SL8500 pour le stockage sur cartouches magneacutetiques Drsquoune capaciteacute totale de 4 times 10 000 cartouches ces silos peuvent heacuteberger jusqursquoagrave 340 peacutetaoctets avec la derniegravere technologie de lecteurs T10kD ( 85 Tocartouche )

bull Un ensemble de systegravemes de bases de donneacutees sous diverses technologies ( mySQL PostgreSQL et Oracle ) Le CC-IN2P3 a deacuteveloppeacute une expertise consideacuterable dans ce domaine et met en œuvre des architectures de clusters de bases de donneacutees particuliegraverement complexes

Lrsquoensemble des ressources informatiques est interconnecteacute sur un reacuteseau dont lrsquoeacutepine dorsale supporte une bande passante de 400 Gbs Les serveurs individuels sont connecteacutes en Ethernet agrave 1 Gbs ou 10 Gbs selon les applications Une partie du stockage exploite aussi la technologie de reacuteseau de donneacutees Fibre Channel

CENTRES NATIONAUX

69

Livre Blanc sur les Donneacutees au CNRS Eacutetat des Lieux et Pratiques - 2018

Lrsquoeacutevolution de ces ressources au cours des 6 derniegraveres anneacutees est reacutesumeacutee par les graphes suivants

313 Usages du CC-IN2P3

En 2016 lrsquousage des ressources se reacutepartit selon le graphique suivant

Bien que repreacutesentant en nombre une proportion significative de lrsquoensemble des groupes utilisant le CC-IN2P3 la part du CPU utiliseacutee par des activiteacutes de recherche ne deacutependant pas de la politique scientifique

de lrsquoIN2P3 ne repreacutesente que 2 du CPU consommeacute en 2016 ( qui srsquoeacutelegraveve agrave 17 milliard de HS06h ) et moins de 1 des capaciteacutes de stockage utiliseacutees ( qui eacutetaient de 619 Po )

70

Livre Blanc sur les Donneacutees au CNRS Eacutetat des Lieux et Pratiques - 2018

314 Preacutevisions

Depuis 2011 le CC-IN2P3 a mis en service une seconde salle machine drsquoune superficie de 850 m2 et capable agrave terme de fournir une puissance eacutelectrique de 34 MW pour le mateacuteriel informatique hors refroidissement Cette puissance vient en compleacutement des 1 MW de la premiegravere salle La conception tregraves moderne de la nouvelle salle ( pas de faux plancher organisation des serveurs en alleacutees avec confinement de la chaleur et traitement de celle-ci par la technique dite InRow double alimentation EDF redondante etc ) en fait un eacutequipement de tout premier plan capable drsquoaccueillir les moyens de calcul et de traitement des donneacutees des futures grandes expeacuteriences de physique corpusculaire

En 2017 la production de donneacutees des 4 deacutetecteurs installeacutes sur le Large Hadron Collider ( LHC ) au CERN repreacutesente un volume de 50 Peacutetaoctets par an malgreacute un filtrage eacuteliminant 99 des eacuteveacutenements observeacutes Crsquoest trois fois plus que les donneacutees produites chaque anneacutee lors de la premiegravere anneacutee drsquoexploitation Le traitement global de ces donneacutees repose sur lrsquoutilisation de la grille mondiale W-LCG composeacutee de 250 centres de calcul avec 1 Tier 0 ( au CERN ) 12 Tier 1 ( dont le CC-IN2P3 ) et plus de 200 Tier 2 Dans ce contexte lrsquoobjectif du CC-IN2P3 est de fournir 10 des ressources de calcul pour LHC Il est agrave noter que les accegraves reacuteseau du CC-IN2P3 pour lrsquoeacutechange des donneacutees de ces seules expeacuteriences repreacutesentent pregraves de 46 du trafic RENATERLe CCndashIN2P3 heacuteberge eacutegalement les donneacutees issues drsquoautres expeacuteriences HESS47 AMS48 Planck49 ANTARES50 Auger51

47 Observatoire des tregraves hautes eacutenergies ( httpswwwobspmfrhess-ii-observatoire-des-treshtml ) 48 Spectromegravetre magneacutetique alpha ( httpshomecernfraboutexperimentsams )49 Satellite drsquoobservation du fond cosmologique de la voucircte ceacuteleste ( httpsplanckcnesfr )50 Deacutetecteur sous-marin de neutrinos ( httpantaresin2p3fr ) 51 Deacutetection de rayons cosmiques de tregraves haute eacutenergie ( httpwwwin2p3frrechercheactualites19991999_augerdetecteurshtm )

VIRGO52 Supernovae53hellip qui comme celles du LHC ont chacune leur politique de gestion de donneacutees Un point commun toutefois est que les donneacutees drsquoune expeacuterience doivent pouvoir ecirctre exploiteacutees sur des dureacutees tregraves significatives avec donc des probleacutematiques de stockage peacuterenne de ces donneacutees Des processus dit de stockage intermeacutediaire sont ainsi mis en œuvre

Les besoins futurs en matiegravere de stockage de donneacutees sont agrave la hauteur de lrsquoambition des expeacuteriences qursquoheacuteberge le CC-IN2P3 En particulier les futurs deacuteveloppements du LHC ( HL-LHC ) vont provoquer une explosion du volume de donneacutees produites Parallegravelement lrsquoIN2P3 est engageacute dans les expeacuteriences majeures drsquoastroparticules et cosmologie que sont EUCLID54 LSST et CTA

La projection de ces besoins agrave lrsquoeacutecheacuteance de 2030 va ecirctre synonyme de deacuteploiement drsquoinfrastructures de dimensions tregraves significatives

A lrsquohorizon 2030 le CC-IN2P3 stockera plus de 1 200 Po de donneacutees et offrira une capaciteacute de calcul de lrsquoordre de 6 millions de HEPSpec0655 ( MHS06 )

52 Deacutetection des ondes gravitationnelles ( httpwwwvirgo-gweu )53 httpssnovaein2p3fr54 Teacutelescope spatial pour lrsquoanalyse de lrsquoeacutenergie noire ( httpwwweuclid-ecorg )55 httpswikiegieuwikiFAQ_HEP_SPEC06 1 HEPSpec06 ~= 1 GFlops

CENTRES NATIONAUX

71

Livre Blanc sur les Donneacutees au CNRS Eacutetat des Lieux et Pratiques - 2018

32 LrsquoIDRIS

321 Introduction

LrsquoIDRIS est le centre majeur du CNRS pour le calcul numeacuterique intensif de tregraves haute performance Agrave la fois centre de ressources informatiques et pocircle de compeacutetences en calcul de haute performance lrsquoIDRIS est une uniteacute propre de service du CNRS deacutependant de la Mission Calcul-Donneacutees ( MiCaDo ) du CNRS et rattacheacutee administrativement agrave lrsquoInstitut des sciences de lrsquoinformation et de leurs interactions ( INS2I ) mais dont la vocation agrave lrsquointeacuterieur du CNRS est pluridisciplinaire

Les supercalculateurs opeacutereacutes par lrsquoIDRIS proprieacuteteacute de la socieacuteteacute GENCI ( Grand Equipement National de Calcul Intensif httpwwwgencifr ) ont geacuteneacuteralement une dureacutee de vie de cinq agrave six ans Ils sont donc renouveleacutes freacutequemment avec leurs moyens de stockage associeacutes en entraicircnant agrave chaque fois des frais drsquoinstallation et parfois des frais de fonctionnement en hausse ( essentiellement dus aux consommations eacutelectriques de ces eacutequipements )

Lrsquoutilisation des ressources opeacutereacutees par lrsquoIDRIS srsquoeffectue au travers des allocations effectueacutees par GENCI soit pregraves de trois cents projets scientifiques dans tous les domaines utilisant la simulation numeacuterique dans leurs theacutematiques de recherche respectives

Suite agrave lrsquoappel drsquooffres lanceacute agrave lrsquoautomne 2011 par GENCI en partenariat avec lrsquoIDRIS deux nouveaux supercalculateurs drsquoarchitectures compleacutementaires ont eacuteteacute acquis aupregraves de la socieacuteteacute IBM en mai 2012 Lrsquoun eacutetait une machine dite massivement parallegravele de type Blue GeneQ composeacutee de quatre cabinets de chacun 16 384 cœurs pour un total de 65 536 cœurs avec 65 To de meacutemoire globale et qui deacutelivrait une puissance crecircte cumuleacutee de 839 TFlops placcedilant cette machine au 30e rang mondial en novembre 2012 Cette configuration a eacuteteacute eacutetendue en novembre 2014 par lrsquoajout de deux cabinets suppleacutementaires portant la configuration complegravete agrave 98 304 cœurs pour une capaciteacute meacutemoire totale atteignant doreacutenavant 98 To et une puissance crecircte cumuleacutee porteacutee maintenant agrave 126 PFlops ce qui a replaceacute cette machine au 42e rang mondial en novembre 2014 En novembre 2017 cette machine occupait encore le 146e rang Lrsquoautre supercalculateur est une machine dite agrave nœuds larges composeacutee de 332 nœuds de 32 cœurs pour un total de 10 624 cœurs avec 46 To de meacutemoire globale et qui

deacutelivre une puissance crecircte cumuleacutee de 230 TFlops lrsquoayant placeacute au 123e rang mondial en novembre 2012 Agrave cette configuration srsquoadjoint quatre nœuds de preacute et post-traitements de chacun 32 cœurs et 1 To de meacutemoire partageacutee ainsi qursquoun espace disques partageacute

Par ailleurs lrsquoextension des capaciteacutes de stockage a eacuteteacute reacutealiseacutee en 2014 en deux phases Drsquoune part le serveur drsquoarchives acquis en 2009 et arriveacute en fin de vie a eacuteteacute remplaceacute sur financement CNRS ce qui permettra agrave lrsquoIDRIS de faire face agrave un fort accroissement de la capaciteacute drsquoarchivage sur cartouches magneacutetiques en preacutevision de la croissance attendue de ces besoins dans les prochaines anneacutees Drsquoautre part la capaciteacute de stockage de donneacutees actives sur disques magneacutetiques agrave tregraves forte bande passante a eacuteteacute fortement accrue en 2015 avec une extension de 3 Po ( deux financeacutes par le CNRS et un par GENCI ) ajouteacutes aux 22 Po initiaux

Le remplacement de la geacuteneacuteration actuelle des supercalculateurs est maintenant preacutevu fin 2018 pour une mise en production au deacutebut de 2019 Agrave cet effet GENCI a lanceacute un appel drsquooffres en novembre 2017

LrsquoIDRIS heacuteberge en plus un certain nombre de calculateurs pour des acteurs locaux du Plateau de Saclay tel le calculateur de la Maison de la Simulation et celui du meacutesocentre CentraleSupeacutelecENS-Paris Saclay ainsi que la machine nationale de lrsquoIFB ( Institut Franccedilais de la Bioinformatique )

322 Configuration actuelle agrave lrsquoIDRIS

En janvier 2018 les moyens de calcul de GENCI heacutebergeacutes agrave lrsquoIDRIS sont constitueacutes de

bull Turing un IBM Blue GeneQ avec 98 306 cœurs PowerPC A2 agrave 16 Ghz ( soit 1644 nœuds ayant chacun 16 cœurs ) La machine est constitueacutee de 6 racks avec au total 96 Toctets de meacutemoire et une performance de crecircte de 1258 PFlops

bull Ada un IBM X3750M4 avec 10 624 cœurs SandyBridge agrave 27 Ghz ( soit 332 nœuds de 32 cœurs chacun ) La machine possegravede 49 Toctets de meacutemoire et affiche une performance de crecircte de 233 TFlops

72

Livre Blanc sur les Donneacutees au CNRS Eacutetat des Lieux et Pratiques - 2018

CENTRES NATIONAUX

Lrsquoespace disque est organiseacute en

bull Home

o Volumeacutetrie tregraves faible ( essentiellement fichiers drsquoenvironnement et sources des applications )

o Performance sans impact

o Fonctionnaliteacutes

Dureacutee de vie non limiteacutee

Soumis agrave quotas

Sauvegardeacute automatiquement ( chaque nuit )

bull Scratch

o Volumeacutetrie tregraves importante ( fonction de la puissance des calculateurs )

o Performance la plus grande possible

o Fonctionnaliteacutes

Dureacutee de vie limiteacutee agrave lrsquoexeacutecution de chaque travail ou soumis agrave des purges sur des dates drsquoancienneteacute

bull Work

o Volumeacutetrie tregraves importante ( fonction de la puissance des calculateurs )

o Performance grande

o Fonctionnaliteacutes

Dureacutee de vie non limiteacutee

Soumis agrave quotas

Pas sauvegardeacute aujourdrsquohui ( mais snapshots possibles )

73

Livre Blanc sur les Donneacutees au CNRS Eacutetat des Lieux et Pratiques - 2018

Evolution des espaces sur disques

bull De 2008 agrave 2012 12 Po agrave 6 Gos

bull Configuration acheteacutee en 2012

o 22 Po agrave 50 Gos ( deacutebit soutenu maximum )

o Compromis financier agrave lrsquoachat entre puissance de calcul et capaciteacutes de stockage

o Agrave la fois HomeScratchWork

bull A partir de 2015

o 52 Po

- Les 22 Po preacuteceacutedents

- 1 Po drsquoextension disques lieacutee agrave lrsquoextension BGQ ( 32 000 cœurs ajouteacutes en novembre 2014 )

- 2 Po extension disques

o 3 Po agrave 90 Gos

o Le scratch a eacuteteacute transfeacutereacute sur les disques de nouvelle geacuteneacuteration

o Conservation possible de versions de fichiers dans lrsquoespace Work ( snapshots )

bull Technologie GPFS drsquoIBM

bull Tous ces espaces seront redeacutefinis avec des augmentations significatives agrave la fois en volumeacutetrie et en performance pour servir la nouvelle configuration de calcul qui sera installeacutee au second semestre 2018

Au 25 aoucirct 2017 il y avait 55 millions de fichiers sur le Work 70 millions sur le Scratch et 35 millions Home + systegraveme

Les espaces sur cartouches

bull Piloteacutes par une machine drsquoarchives

o Remplaceacutee mi-2014

o Technologie TSMHSM drsquoIBM ( preacuteceacutedemment DMF de SGI )

o 11 serveurs

- 3 frontales

- 6 serveurs GPFS ( 4 pour les donneacutees 2 pour les meacutetadonneacutees )

- 2 serveurs TSMHSM ( gestion migration et robotique )

o Disques cache

- transparent pour les utilisateurs

- 2 Po agrave 24 Gos

- laquo petits raquo fichiers ( jusqursquoagrave 39 Ko ) jamais migreacutes sur cartouches

- cache pour les fichiers rechargeacutes depuis les cartouches

- purges reacuteguliegraveres en fonction de lrsquoacircge et de la taille des fichiers

o Format des donneacutees proprieacutetaire

o 4 Po migreacutes entre lrsquoancien format et le nouveau agrave lrsquoissue de 6 mois de recopies au second semestre 2014 en parallegravele avec lrsquoexploitation du nouveau serveur

bull Robot StorageTek SL8500 ( Oracle )

Il est instructif de mener un examen de lrsquoespace disque occupeacute par les diverses communauteacutes regroupeacutees en Comiteacutes theacutematiques La liste des Comiteacutes scientifiques theacutematiques nationaux est la suivante

1 Environnement

2a Eacutecoulements non reacuteactifs

2b Eacutecoulements reacuteactifs ouet multiphasiques

3 Biologie et santeacute

4 Astrophysique et geacuteophysique

5 Physique theacuteorique et physique des plasmas

6 Informatique algorithmique et matheacutematiques

7 Dynamique moleacuteculaire appliqueacutee agrave la biologie

8 Chimie quantique et modeacutelisation moleacuteculaire

9 Physique chimie et proprieacuteteacute des mateacuteriaux

10 Nouvelles applications et applications transversales du calcul

En termes de stockage sur Ada et dans une moindre mesure Turing on constate la preacutedominance des comiteacutes theacutematiques CT-1 ( Environnement hors projet CMIP6 ) CT-4 ( Astrophysique et geacuteophysique ) et CT-5 ( Physique theacuteorique et physique des plasmas ) ce qui ne reflegravete pas toujours les allocations drsquoheures de calcul par exemple sur Turing ougrave le volume drsquoheures alloueacute agrave lrsquoenvironnement est relativement faible ( 32 en 2017 )

74

Livre Blanc sur les Donneacutees au CNRS Eacutetat des Lieux et Pratiques - 2018

CENTRES NATIONAUX

75

Livre Blanc sur les Donneacutees au CNRS Eacutetat des Lieux et Pratiques - 2018

Lrsquoeacutevolution du stockage sur cartouches est en croissance reacuteguliegravere ainsi que le montre la figure ci-dessous Lrsquoessentiel du stockage sur cartouches est utiliseacute par le CT-1 avec de lrsquoordre de 80 du total ( 51 des 64 Poctets de donneacutees utilisateurs en deacutecembre 2017 )

LrsquoIDRIS est aussi impliqueacute dans la mise agrave disposition des donneacutees pour la communauteacute du climat avec le service DODS ( Distributed Oceanographic Data System ) opeacuterationnel depuis 2003 Ce serveur effectue la publication ( mondiale ) des donneacutees stockeacutees sur le serveur drsquoarchives ( potentiellement migreacutees ) avec un accegraves en lecture seule ( sauf eacutevidemment par les fournisseurs de donneacutees ) Deux espaces cohabitent sur ce serveur un espace priveacute reacuteserveacute agrave une communauteacute identifieacutee et un espace public

Il heacuteberge actuellement 25 millions de fichiers pour 407 Toctets de donneacutees stockeacutees

Depuis 2017 ce service est inteacutegreacute au sein des services du projet ESGF56 ( Earth System Grid Federation ) dans le cadre des projets CMIP57 ( Coupled Model Intercomparison Project ) pour environ 600 To fin 2017 De plus lrsquoIDRIS opeacuterera agrave partir du deacutebut de lrsquoanneacutee 2018 une archive multi-modegraveles des donneacutees les plus utiliseacutees du projet CMIP6 ( provenant drsquoenviron 50 modegraveles ) drsquoune volumeacutetrie de 4 Po afin drsquoen faciliter lrsquoexploitation et drsquooffrir un service national drsquoaccegraves agrave ces donneacutees

56 httpsesgfllnlgov57 httpswwwwcrp-climateorgwgcm-cmip

76

Livre Blanc sur les Donneacutees au CNRS Eacutetat des Lieux et Pratiques - 2018

41 INTRODUCTION

La Mission Calcul Donneacutees du CNRS (MiCaDo) soutient un certain nombre drsquoinitiatives et drsquoinfrastructures reacutegionales ou nationales au travers de lrsquoaffectation de personnels (ingeacutenieurs drsquoeacutetudes ou de recherche) dont le Centre de Calcul de lrsquoIN2P3 le Centre National de Calcul Intensif du CNRS (IDRIS) la Maison de la Simulation sur le Plateau de Saclay et les deux Uniteacutes Mixtes de Recherche CALMIP et GRICAD respectivement meacutesocentres de Toulouse et Grenoble Ces deux meacutesocentres ont des actions lieacutees agrave la fois au calcul et aux donneacutees drsquoougrave leur preacutesence dans ce Livre Blanc

42 CALMIP

Cette section a eacuteteacute eacutecrite avec Jean-Luc Estivalegravezes Directeur de lrsquoUMS CALMIP

421 Introduction

Le meacutesocentre toulousain CALMIP (CALcul en MIdi Pyreacuteneacutees) a eacuteteacute creacuteeacute en 1994 sous la forme drsquoun groupement scientifique et son premier calculateur a eacuteteacute installeacute en 1999 Depuis 2014 CALMIP est devenu une Uniteacute Mixte de Service du CNRS (UMS CNRS 3667) heacutebergeacutee actuellement agrave lrsquoEspace Cleacutement Ader dans une salle de calcul partageacutee avec le calculateur de Meacuteteacuteo-France Il beacuteneacuteficie ainsi drsquoun environnement technologique de haut niveau avec une seacutecurisation des accegraves et de lrsquoalimentation eacutelectrique et un reacuteseau de reacutecupeacuteration de chaleur

Le meacutesocentre CALMIP est ouvert agrave lrsquoensemble de la communauteacute scientifique membre de lrsquoUniversiteacute Feacutedeacuterale de Toulouse Midi-Pyreacuteneacutees ou des EPST En 2016 CALMIP a permis agrave environ 500 chercheurs dont 130 doctorants venant de 30 laboratoires de reacutealiser plus de 200 projets de recherche repreacutesentant 70 millions drsquoheures de calcul 8 grandes theacutematiques scientifiques utilisent ces moyens de calcul physico-chimie des mateacuteriaux meacutecanique des fluides sciences de lrsquoUnivers chimie quantique physique theacuteorique et moleacuteculaire bioinformatique et meacutethodes numeacuteriques

Depuis 2008 le meacutesocentre CALMIP est ouvert aux entreprises (TPE PME et ETI) pour leurs activiteacutes

innovantes et 10 des ressources du systegraveme de calcul de CALMIP sont reacuteserveacutees agrave cette activiteacuteUne eacutequipe de 6 ingeacutenieurs assure actuellement lrsquoexploitation du calculateur et le support technique et scientifique aux utilisateurs

422 Description

Les moyens de calcul sont renouveleacutes tous les 4 ans environ Le prochain renouvellement est preacutevu agrave lrsquoeacuteteacute 2018 Eos la machine actuellement en production a eacuteteacute classeacutee 183e au TOP 500 lors de sa mise en service en juin 2014 Ses caracteacuteristiques sont les suivantes

- 612 nœuds avec 2 processeurs Intel IVYBRIDGE 28 Ghz 10-cores soit un total de 12240 cœurs

- Meacutemoire 64 Go par nœud soit 39 To de RAM au total

- Puissance crecircte theacuteorique totale 274 TF

- Stockage disque 891 To de disque + 7 Po additionnels de stockage de grande capaciteacute

- Pour la partie visualisation 4 GPU (Nvidia Quadro 6000)

4 LES DONNEacuteES AU SEIN DES STRUCTURES MUTUALISEacuteES SOUTENUES PAR MICADO

STRUCTURES MUTUALISEacuteES

77

Livre Blanc sur les Donneacutees au CNRS Eacutetat des Lieux et Pratiques - 2018

CALMIP a installeacute en 2016 une infrastructure de stockage appeleacutee ATLAS pour reacutepondre agrave la convergence des besoins en calcul intensif et en traitement massif de donneacutees Un poste IR CNRS a eacuteteacute afficheacute en soutien agrave cette infrastructure Elle se compose

bull Drsquoun espace de stockage de 3 Po utiles sur systegraveme de fichiers parallegravele GPFS sur lequel les utilisateurs vont pouvoir deacuteposer agrave la fois les donneacutees de simulation produites par le supercalculateur Eacuteos mais aussi le cas eacutecheacuteant les donneacutees drsquoentreacutee neacutecessaires agrave ces simulations (fonctionnaliteacute de type workdir)

bull Drsquoun espace de stockage objet drsquoun volume utile de 4 Po ayant pour principale fonction de seacutecuriser lrsquoespace de stockage preacuteceacutedent

Le prochain renouvellement est preacutevu agrave lrsquoeacuteteacute 2018 Dans le cadre du projet CADAMIP (CPER 2015-2020 financement Etat Reacutegion Occitanie Toulouse Meacutetropole IDEX) CALMIP a choisi son nouveau supercalculateur pour la peacuteriode 2018-2022 Ce nouveau systegraveme de calcul Atos-BULL baptiseacute OLYMPE propose une puissance de 1365 Peacutetaflops

bull Un supercalculateur massivement parallegravele formeacute de 13 464 cores Intel(r) SKYLAKE 6140 interconnecteacutes via un reacuteseau Infiniband EDR (100 Gbs) dont la puissance de calcul et de traitement est 5 fois supeacuterieure agrave celle du supercalculateur actuel EOS pour la mecircme enveloppe eacutenergeacutetique

bull Un espace disque de travail drsquoune capaciteacute de 15 Po dont les performances (40 Gos) sont multiplieacutees par 4 par rapport agrave EOS afin de reacutepondre aux besoins lieacutes au traitement massif de donneacutees drsquoentreacutee et de sortie Cet espace est relieacute aux nœuds de calcul du supercalculateur

bull 2 nœuds de calcul SMP de 15 To de meacutemoire vive inteacutegreacutes au supercalculateur

bull Une connexion au systegraveme de stockage capacitif et seacutecuriseacute ATLAS afin drsquooffrir aux porteurs de projets un espace permettant de seacutecuriser leurs donneacutees sur la continuiteacute

bull Une partition GPU significative associeacutee au supercalculateur en vue drsquoapplications sur le traitement massif de la donneacutee

La mise en production est preacutevue pour septembre 2018

43 GRICAD

Cette section a eacuteteacute eacutecrite avec Violaine Louvet Directrice de lrsquoUMS GRICAD

431 Contexte

La rationalisation des infrastructures (immobiliegraveres et plateformes) pour reacuteduire les coucircts augmenter le niveau de service et gagner en fiabiliteacute et seacutecuriteacute dans une deacutemarche de deacuteveloppement durable et soutenable neacutecessite de repenser lrsquourbanisation des infrastructures de calcul et de donneacutees ainsi que lrsquoorganisation des moyens humains en synergie avec les laboratoires de recherche et les services communs Ces enjeux srsquoinscrivent agrave Grenoble dans un contexte de mutation forte du paysage de la recherche fusion des universiteacutes obtention drsquoun IdeX mais srsquoappuient eacutegalement sur un terreau de collaborations historiques entre les acteurs du numeacuterique (DSI des eacutetablissements structure interuniversitaire laboratoires) tregraves fertile

432 LrsquoUMS GRICAD

LrsquoUniteacute mixte de services GRICAD (Grenoble Alpes Recherche - Infrastructure de CAlcul intensif et de Donneacutees) a eacuteteacute creacuteeacutee dans ce contexte en 2016 comme une structure transversale mutualiseacutee autour du calcul et des donneacutees au service des personnels de lrsquoensemble des pocircles de recherche du site grenoblois Sous la tutelle du CNRS de lrsquoUGA de Grenoble-INP et drsquoINRIA elle regroupe des compeacutetences en interne autour de lrsquoadministration systegraveme speacutecifique des machines de calcul et des plateformes lieacutees aux donneacutees du calcul scientifique et intensif et du Big Data Elle feacutedegravere eacutegalement les forces du site dans une deacutemarche plus globale en srsquoappuyant sur les expertises preacutesentes dans les laboratoires les DSI et les structures drsquoenseignement

Cette mutualisation de moyens humains externes autour drsquoinfrastructures de site a lrsquoeacutenorme avantage de favoriser la proximiteacute avec les eacutequipes de recherche et donc drsquoecirctre au plus pregraves des besoins des communauteacutes

78

Livre Blanc sur les Donneacutees au CNRS Eacutetat des Lieux et Pratiques - 2018

Les missions de GRICAD recouvrent

bull Lrsquoaccompagnement et le conseil aux communauteacutes scientifiques identification et aide agrave la speacutecification du besoin autour du calcul et des donneacutees support agrave lrsquoutilisation des plateformes soutien au montage de projet sur la partie technique

bull Le calcul intensif avec un accegraves agrave diffeacuterents types de calculateurs

bull Le traitement la valorisation la diffusion le stockage des donneacutees de la recherche avec un accegraves agrave plusieurs plateformes (stockage cloudhellip)

bull Lrsquoheacutebergement sec de serveurs avec la coordination de la gestion des datacentres mutualiseacutes du site grenoblois

bull Lrsquoanimation la formation et le reacuteseautage en collaboration avec les autres acteurs du site (en particulier la maison de la modeacutelisation MaiMoSiNE le reacuteseau des informaticiens SARI et le Data Institute de Grenoble)

433 Les services autour de la donneacutee

La creacuteation de GRICAD srsquoest appuyeacutee sur un existant solide et historique autour du calcul intensif le meacutesocentre CIMENT Les services autour de la donneacutee ont eacuteteacute construits ex nihilo agrave partir des besoins exprimeacutes par les communauteacutes scientifiques

Les caracteacuteristiques principales sont une tregraves grande diversiteacute des donneacutees et un rapprochement important avec le calcul intensif sous la forme de besoins en traitement tregraves varieacutes Les difficulteacutes rencontreacutees concernent drsquoune part une connaissance et une appropriation technique tregraves heacuteteacuterogegravenes des technologies et des infrastructures drsquoune communauteacute agrave lrsquoautre voire drsquoun individu agrave lrsquoautre et drsquoautre part un accompagnement interne (dans les laboratoires) tregraves diffeacuterent drsquoune structure agrave lrsquoautre neacutecessitant la mise en place drsquoun support laquo agrave la carte raquo Le deacuteploiement des services autour de la donneacutee doit aussi srsquointeacutegrer dans un environnement existant de structures de recherche drsquoaccompagnement de projets aux niveaux local national et europeacuteen

GRICAD participe ainsi au projet europeacuteen EOSCPilot par exemple

Lrsquooffre de service proposeacutee par GRICAD inclut lrsquoaccegraves agrave diffeacuterents environnements de stockage drsquoinfrastructures de cloud de Big Data de traitements de donneacutees et piles logicielles lieacutees agrave la manipulation de la donneacutee LrsquoUMS collabore eacutetroitement avec la recherche en informatique en particulier lrsquoinfrastructure nationale Gridrsquo5000 avec laquelle elle partage une nouvelle machine de calcul notamment deacutedieacutee aux Data Analytics Les services et plateformes proposeacutes sont dynamiques et eacutevolutifs en fonction des demandes des scientifiques

GRICAD accompagne tout particuliegraverement certaines communauteacutes Drsquoune part pour les aider agrave aborder le tournant du numeacuterique et drsquoautre part pour faire monter en compeacutetences ses eacutequipes propres sur les technologies agrave la pointe LrsquoUMS est ainsi tregraves active dans le projet drsquoentrepocirct de donneacutees du CHU de Grenoble et dans plusieurs projets avec la communauteacute SHS (collecte de donneacutees du web deep learning)

434 Description des ressources de calcul et de stockage

GRICAD offre une diversiteacute de plateformes deacuteployeacutees en fonction des besoins exprimeacutes par les communauteacutes scientifiques

bull Froggy calcul intensif (reacuteseau Infiniband) constitueacute de 3236 coeurs de calcul et drsquoun stockage Lustre de 90 To Froggy integravegre quelques nœuds GPU

bull Luke traitement massif de donneacutees 906 coeurs de calcul

bull Dahu machine de convergence HPC - Data Analytics mutualiseacutee avec Gridrsquo5000 2560 coeurs de calcul reacuteseau Omnipath avec nœuds burst buffers (NVMe) et scratch SSD

bull Stockage IRODS drsquoenviron 1 Po mutualiseacute distribueacute et accessible depuis lrsquoensemble des plateformes

bull Bettik Stockage BeeGFS de 292 To utiles fournissant aux machines Luke et Dahu un scratch distribueacute et performant

STRUCTURES MUTUALISEacuteES

79

Livre Blanc sur les Donneacutees au CNRS Eacutetat des Lieux et Pratiques - 2018

bull SUMMER Stockage NetApp de plus de 3 Po de volumeacutetrie brute proposant diffeacuterents niveaux de seacutecurisation (sauvegarde reacuteplication) et diffeacuterents niveaux de performance (stockage capacitif ou performant)

bull WINTER Plateforme VMWare de virtualisation

bull Cloud openstack sur stockage CEPH

bull Plateforme JupyterHub de notebooks

bull Plateforme Big Data Hadoop

435 Interactions et cross-fertilisation

La transversaliteacute intrinsegraveque des infrastructures de calcul et de donneacutees fait de lrsquoUMS GRICAD un lieu naturel de lrsquointerdisciplinariteacute et de rencontres des diffeacuterentes communauteacutes scientifiques Lrsquoobjectif afficheacute est de deacutepasser les speacutecificiteacutes disciplinaires afin de pouvoir offrir des solutions mateacuterielles et technologiques partageacutees et co-construites

GRICAD srsquoefforce de deacutevelopper une logique de mutualisation drsquoexpeacuteriences autour de la deacutefinition et lrsquoappropriation des services numeacuteriques proposeacutes en diffusant les pratiques existantes dans les disciplines les plus avanceacutees dans le domaine et en incitant au transfert de technologie drsquoune communauteacute agrave lrsquoautre Les missions autour de lrsquoanimation et de la formation sont en cela particuliegraverement critiques

Le deacuteveloppement de liens entre les chercheurs autour de theacutematiques neacutecessairement communes est essentiel Ainsi des groupes de travail interdisciplinaires ont eacuteteacute formeacutes pour reacutepondre au questionnement autour du cycle de vie de la donneacutee et de la nouvelle reacuteglementation europeacuteenne sur les donneacutees personnelles (RGPD) par exemple

La valeur ajouteacutee drsquoune uniteacute de services agrave lrsquoeacutechelle drsquoun site comme Grenoble est fondamentalement la proximiteacute avec les eacutequipes de recherche et la souplesse pour reacutepondre aux besoins des scientifiques

80

Livre Blanc sur les Donneacutees au CNRS Eacutetat des Lieux et Pratiques - 2018

Le traitement des donneacutees agrave grande eacutechelle (Big Data) est un reacuteel enjeu strateacutegique pour le CNRS et concerne tous les instituts mecircme si les pratiques au sein de chaque institut sont tregraves variables en fonction de lrsquohistorique de chaque discipline en matiegravere de donneacutees La maicirctrise de tous les aspects du Big Data relegraveve drsquoune deacutemarche fondamentalement interdisciplinaire dans laquelle le CNRS se doit drsquoexceller

Lrsquoenjeu fondamental pour le CNRS est de promouvoir une veacuteritable laquo culture de la donneacutee raquo au sein du CNRS Le CNRS doit mieux valoriser toutes les donneacutees que ses eacutequipes de recherches produisent se doter drsquoune strateacutegie en matiegravere de donneacutees et afficher son rocircle moteur dans des initiatives comme EOSC58 ou lieacutees agrave lrsquoOpen Science lrsquoOpen Data et agrave RDA59 et agrave des principes comme le FAIR Data60 Le CNRS se doit de mettre en place une reacuteponse coordonneacutee face aux besoins eacutemergeants en termes de donneacutees drsquoecirctre plus attractif pour des recrutements drsquoanalystes de donneacutees et drsquointensifier ses actions de formation au niveau des outils dans le domaine Il doit aussi ecirctre attentif agrave lrsquoeacutevolution de carriegravere des personnels ITA (ingeacutenieurs essentiellement) impliqueacutes dans ces actions interdisciplinaires Il est aussi souhaitable de mener une reacuteflexion sur une politique des donneacutees au sein du CNRS relative agrave leur cycle de vie utilisation creacuteation collection preacuteservation partage reacuteutilisation et publication interopeacuterabiliteacute deacutefinition de Data Management Plan61 proprieacuteteacute ouverture adoption des principes FAIR consommation eacutenergeacutetique et empreinte carbonehellip

Lrsquoavalanche de donneacutees qui ne fait que se confirmer dans de multiples domaines doit inciter le CNRS agrave se doter drsquoune strateacutegie forte agrave la hauteur des enjeux scientifiques en

bull Reacutepondant aux besoins des communauteacutes en matiegravere de plateformes pour lrsquoanalyse de donneacutees agrave grande eacutechelle le cas eacutecheacuteant en lien

58 The European Open Science Cloud (httpseoscpiloteu)59 Research Data Alliance (wwwrd-allianceorg)60 Findable Accessible Interoperable Reusable data61 Voir par exemple dmpopidorfr

avec les systegravemes drsquoobservation les plateformes expeacuterimentales ou les grandes simulations numeacuteriques qui les produisent avec les probleacutematiques du stockage de la gestion et de la valorisation de ces donneacutees du support pour les utilisateurs de la formation de Data scientists (chercheurs ou ingeacutenieurs compeacutetents en analyse de donneacutees) et du deacuteploiement de chaicircnes logicielles drsquoanalyse de donneacutees passant agrave lrsquoeacutechelle

bull Favorisant lrsquointerdisciplinaire entre les communauteacutes produisant des donneacutees et les communauteacutes dont crsquoest lrsquoobjet de recherche en particulier en capitalisant sur les multiples compeacutetences en apprentissage et Intelligence Artificielle au CNRS

bull Mettant en place une politique de gestion de valorisation et de peacuterennisation des donneacutees au sein du CNRS

Le CNRS pourrait srsquoappuyer sur la mission Calcul et Donneacutees du CNRS (MICADO) pour deacutefinir et mettre en œuvre une telle strateacutegie autour de lrsquoorganisation de la gestion de lrsquoexploitation des donneacutees scientifiques et avec des moyens suppleacutementaires contribuer agrave lrsquoeacutemergence de plateformes de gestion et drsquoanalyse de donneacutees en y positionnant des ingeacutenieurs et des data scientists capables drsquooffrir un service technique de haut niveau et drsquoaccompagner les chercheurs dans leurs expeacuterimentations Cette action pourrait contribuer agrave faire eacutemerger sur le territoire quelques sites de reacutefeacuterences autour desquels peuvent graviter plusieurs projets de recherche en sciences des donneacutees ou srsquointeacuteresser agrave des communauteacutes scientifiques speacutecifiques De telles initiatives peuvent et doivent ecirctre compleacutementaires des autres initiatives locales ou reacutegionales soutenues par des IDEX ou drsquoautres organismes de recherche par exemple

5 CONCLUSION

81

Page 5: Livre Blanc sur les Données au CNRS État des Lieux et

Livre Blanc sur les Donneacutees au CNRS Eacutetat des Lieux et Pratiques - 2018

5 Stewardship des donneacutees un autre deacutefi critique est lrsquoorganisation des communauteacutes ( c-agrave-d stewardship ) et des ressources autour des donneacutees en phase avec leurs pratiques de recherche pour lrsquoarchivage et la curation des donneacutees Cela recouvre une varieacuteteacute drsquoactiviteacutes dont

bull Lrsquointeacutegration lrsquoagreacutegation le traitement et la calibration lrsquoarchivage et le reacutefeacuterencement la curation la documentation la publication des donneacutees ainsi que leur diffusion rapide eacuteventuellement apregraves une courte peacuteriode drsquoexclusiviteacute agrave lrsquoensemble de la communauteacute afin drsquoen maximiser le retour scientifique

bull La deacutefinition de standards reconnus et partageacutes de repreacutesentation et drsquoeacutechanges de donneacutees des services ( deacutecouverte accegraves manipulation visualisation ) ainsi que des protocoles de controcircle de qualiteacute et de veacuteraciteacute des donneacutees

bull Lrsquoexistence de plateformes drsquoarchivage et de curation des donneacutees mutualisant expertises ressources ( stockage calcul ) et services sur le cycle de vie des donneacutees qui pour certaines disciplines va bien au-delagrave de la dureacutee de vie des instruments systegravemes drsquoobservation et faciliteacutes expeacuterimentales

bull Et selon les communauteacutes la mise agrave disposition et la maintenance de logiciels et de librairies de reacutefeacuterence et de nouveaux objets associant donneacutees et reacutesultats de recherche ( annotations publications )

6 Interdisciplinariteacute et donneacutees multi-source la maicirctrise de tous les aspects du Big Data relegraveve drsquoune deacutemarche fondamentalement interdisciplinaire En effet un nombre croissant drsquoenjeux scientifiques impliquent aujourdrsquohui une compreacutehension preacutedictive drsquoun mecircme objet ou systegraveme ( p ex astronomie climat geacuteophysique surveillance des aleacuteas naturels et changements environnementaux physique des hautes eacutenergies sciences des mateacuteriaux bio-meacutedecine biologie sciences eacuteconomiques et sociales ) Ces approches interdisciplinaires requiegraverent des systegravemes drsquoinformation permettant la deacutecouverte et lrsquoaccegraves fluide agrave des donneacutees multi-types et multi-sources issues de domaines et de systegravemes drsquoacquisition diffeacuterents accompagneacutes drsquooutils laquo translationnels raquo pour les combiner les croiser et les syntheacutetiser au sein de chaicircnes de traitement et drsquoanalyse souvent coupleacutees agrave des simulations numeacuteriques Deacutecouvrir et acceacuteder agrave ces donneacutees ainsi qursquoaux ressources et services associeacutes demande une harmonisation ( agrave travers diffeacuterentes disciplines ) et une standardisation ( au sein des disciplines ) des modegraveles de donneacutees

7 Convergence HPC et HDA au-delagrave de la diversiteacute des applications scientifiques exploitant les donneacutees de nombreuses communauteacutes scientifiques combinent et orchestrent aujourdrsquohui des applications drsquoanalyse de pointe ( HDA pour High-end Data Analysis ) et de calcul haute performance ( HPC pour High-Performance Computing ) combineacutees de plus en plus agrave des meacutethodes drsquoapprentissage machine au sein de larges workflows piloteacutes par les donneacutees A chacune de leurs eacutetapes ces workflows requiegraverent souvent drsquoacceacuteder manipuler et combiner de maniegravere coordonneacutee de larges volumes et une grande diversiteacute de donneacutees multi-sources geacuteneacutereacutees par les observations les expeacuteriences et les simulations Ces workflows ne sont pas des outils logiciels ou des codes applicatifs isoleacutes mais des configurations complexes et variables de flux de donneacutees et de logiciels mobilisant des ressources de calcul hybrides ( HTC pour High-Throughput Computing et HPC avec une utilisation croissante des GPUs ) et de stockage ( bases de donneacutees systegravemes de fichiers parallegraveles stockage de type objet ) dans des environnements drsquoexeacutecution ( en flux et par lots ) supportant les nouvelles technologies de virtualisation ( conteneurisation )

8 Une nouvelle strateacutegie et architecture agrave mesure que le HDA et le HPC continueront agrave se deacutevelopper il semble clair que les systegravemes centraliseacutes ( c-agrave-d centres HPC et systegravemes Cloud ) et deacutecentraliseacutes ( plateformes distribueacutees de services ) doivent ecirctre inteacutegreacutesfeacutedeacutereacutes au sein drsquoun reacuteseau de ressources et de services adressant la complexiteacute et la diversiteacute de la logistique des donneacutees tout au long des chaicircnes de production et drsquoutilisation des donneacutees Cela requiert une nouvelle strateacutegie ( meacutethodologique technologique et culturelle ) et une nouvelle architecture avec de nouveaux enjeux logiciels afin drsquointerfacer et drsquointeropeacuterer une diversiteacute de plateformes technologiques incluant

bull Plateformes peacuteripheacuteriques de traitement et de reacuteduction des donneacutees ( c-agrave-d edge-infrastructures ) permettant le traitement lrsquoagreacutegation et la reacuteduction laquo intelligente raquo des flux ( volumes vitesses ) au plus proche de leurs sources ( grands instruments systegravemes drsquoobservations reacuteseaux de capteurshellip ) dans des environnements souvent reculeacutes ainsi que le pilotage adaptatif de leurs systegravemes drsquoacquisition

bull Plateformes de services de calcul et drsquoanalyse de donneacutees distribueacutees et feacutedeacutereacutees mutualisant dans des environnements multi-utilisateur et multi-application des services flexibles de communication de logiciel de stockage de calcul ( HDA HPC ) drsquoexeacutecution ( flux lots ) adapteacutes au

5

Livre Blanc sur les Donneacutees au CNRS Eacutetat des Lieux et Pratiques - 2018

Big Data ( p ex Spark Storm ) et aux nouvelles technologies de virtualisation ainsi qursquoagrave lrsquoutilisation croissante de meacutethodes de type statistique et apprentissage machine avec des flux de traitement et drsquoanalyse proches des vitesses drsquoaccegraves aux donneacutees

bull Plateformes centraliseacutees de type HPC et Cloud crsquoest-agrave-dire agrave lrsquoeacutechelle des grands centres nationaux et reacutegionaux Elles concentrent des ressources de tregraves haute performance dont lrsquoutilisation doit ecirctre maximiseacutee pour servir des communauteacutes multiples avec de nouveaux environnements ( p ex OpenHPC ) permettant de supporter les technologies de virtualisation et adapteacutes agrave des configurations complexes de workflows couplant HPC et HDA ainsi que lrsquoutilisation croissante des meacutethodes de type Intelligence Artificielle ( pour lrsquoanalyse de donneacutees la repreacutesentation des connaissances et lrsquoaide agrave la deacutecision ) grands ensembles de simulations numeacuteriques coupleacutees ingestion et assimilation de grands jeux de donneacutees multi-source

bull Plateformes feacutedeacutereacutees drsquoarchivage de curation et de distribution des donneacutees mutualisant ressources services et expertises pour le stockage la curation et la mise agrave disposition de donneacutees durant leur cycle de vie et dont les volumes et la diversiteacute impliquent aujourdrsquohui des capaciteacutes croissantes de stockage et de calcul

9 Efficience eacutenergeacutetique lrsquoefficience eacutenergeacutetique est aujourdrsquohui un deacutefi transversal majeur Le mouvement et le traitement des donneacutees et des informations ont un coucirct dont la reacuteduction passe notamment par ( i ) lrsquoutilisation de plateformes ( HPC calcul et analyse ) ( ii ) eacuteviter des reacutepeacutetitions inutiles de transferts ( cachingbufferisation ) et les optimiser ( pre-fetching compression ) ( iii ) reacuteduire les distances et mutualiser les environnements drsquoheacutebergement ( colocalisation des plateformes drsquoarchivage et de curation et des plateformes de calcul et drsquoanalyse des donneacutees ) ( iv ) faciliter la reacuteutilisation des calculs et des donneacutees au sein et entre domaines ( observations et reacutesultats de simulations meacutetadonneacutees catalogues )

10 Nouvelles expertises et activiteacutes maitriser les enjeux associeacutes aux donneacutees et accompagner toutes ces eacutevolutions requiert aujourdrsquohui drsquoassocier raisonnement scientifique et innovation technologique au travers de nouvelles expertises ( Chercheurs ITA ) et de collaborations interdisciplinaires entre les diffeacuterents domaines applicatifs les sciences des donneacutees la recherche informatique et les deacuteveloppeurs et fournisseurs drsquoinfrastructures Ces diffeacuterents enjeux

requiegraverent eacutegalement un ensemble drsquoactiviteacutes ainsi que des nouvelles plateformes technologiques ( stockage calcul communication ) complexes agrave geacuterer qui constituent des tacircches lourdes et coucircteuses en effort humain Le deacuteficit drsquoexpertise de moyens humains et de reconnaissance de ces nouvelles activiteacutes que lrsquoon constate dans de nombreux domaines freine lrsquoorganisation des communauteacutes scientifiques et le deacuteveloppement de nouvelles pratiques de recherche et in fine peacutenalise la production scientifique

11 Contexte interne au CNRS le CNRS et ses diffeacuterents Instituts constituent un contexte scientifique et technologique particuliegraverement favorable agrave une maicirctrise des probleacutematiques autour des donneacutees avec des instituts producteurs de donneacutees et des instituts pour lesquels les donneacutees sont des objets de recherche des pratiques interdisciplinaires bien eacutetablies ( coopeacuterations inter-instituts Mission pour lrsquoInterdisciplinariteacute avec en particulier le deacutefi MASTODONS3 lrsquoINIST et des initiatives comme Cat OpiDor4hellip ) ainsi que deux centres nationaux nationalement et internationalement reconnus dans les domaines du HPC ( IDRIS ) et de la gestion et de lrsquoanalyse de donneacutees massives ( CC-IN2P3 )

12 On constate dans tous les domaines des besoins eacutevidents en

bull Plateformes pour lrsquoanalyse de donneacutees agrave grande eacutechelle avec les probleacutematiques du stockage de la gestion et de la valorisation de ces donneacutees

bull Support pour les utilisateurs

bull Data scientists ( chercheurs ou ingeacutenieurs compeacute-tents en analyse de donneacutees )

bull Deacuteploiement de chaicircnes logicielles drsquoanalyse de donneacutees qui passent agrave lrsquoeacutechelle

3 Grandes masses de donneacutees scientifiques ( httpwwwcnrsfrmispipphparticle53 )4 Catalogue des services franccedilais deacutedieacutes aux donneacutees scientifiques ( httpscatopidorfr )

SYNTHESE

6

Livre Blanc sur les Donneacutees au CNRS Eacutetat des Lieux et Pratiques - 2018

bull Effort interdisciplinaire entre les communauteacutes produisant des donneacutees et les communauteacutes dont crsquoest lrsquoobjet de recherche

bull Valorisation et peacuterennisation des donneacutees beau-coup de donneacutees sont creacuteeacutees pour un besoin preacutecis puis in fine perdues alors qursquoelles pourraient parfois ecirctre reacuteutiliseacutees ( expeacuteriences comme simulations ) ce qui suppose la promotion des pratiques autour de lrsquoarchivage lrsquoindexation la mise agrave disposition etc

bull Deacutefinitions de plans de gestion des donneacutees ( DMP Data Management Plan ) loin drsquoecirctre geacuteneacuterali-seacutes aujourdrsquohui

13 Accompagner de maniegravere efficace toutes ces eacutevolutions requiert donc de multiples efforts dont

bull Le deacuteploiement de plateformes drsquoanalyse de donneacutees performantes le rapprochement entre les communauteacutes HTC et HPC le deacuteveloppement de lrsquoactiviteacute et des compeacutetences autour de lrsquoanalyse de donneacutees au sein des centres HPC nationaux et reacutegionaux en soulignant que les volumes sont tels que les donneacutees deviennent tregraves coucircteuses agrave deacuteplacerhellip

bull La conceptionexploitation efficace drsquoarchitectures et drsquoenvironnements orienteacutes donneacutees

bull Lrsquoanalyse de lrsquoimpact des technologies du type GPU Cloud computinghellip

bull La multiplication de lrsquousage des meacutethodes drsquoanalyse de donneacutees et drsquoaide agrave la deacutecision machine learning retour de lrsquoIntelligence Artificielle au premier planhellip

bull La maicirctrise du passage agrave lrsquoeacutechelle pour les outils drsquoanalyse de donneacutees ainsi que lrsquoeacutevolution des meacutethodes drsquoanalyse

bull Deacuteveloppement des recherches interdisciplinaires et des compeacutetences autour des donneacutees au sein du CNRS ainsi que celui du support aux utilisateurs

bull La sensibilisation au coucirct eacutenergeacutetique croissant induit par le traitement et la gestion des donneacutees au sein des communauteacutes pour aller vers une informatique durable et une minimisation de lrsquoempreinte carbone de nos activiteacutes

7

Livre Blanc sur les Donneacutees au CNRS Eacutetat des Lieux et Pratiques - 2018

A une peacuteriode ougrave la science est de plus en plus compeacutetitive interdisciplinaire et internationale les nouveaux enjeux associeacutes aux donneacutees requiegraverent une eacutevolution des pratiques de recherche et une nouvelle strateacutegie agrave lrsquoeacutechelle du CNRS

Fort de sa multidisciplinariteacute de ses deux centres nationaux avec une expertise internationalement reconnue en HPC ( IDRIS ) et en gestion et analyse de donneacutees massives ( CC-IN2P3 ) ainsi que de sa preacutesence dans un grand nombre de TGIRs et drsquoIRs le CNRS doit se doter aujourdrsquohui drsquoune strateacutegie plus active autour des nouvelles probleacutematiques lieacutees aux donneacutees

Cette strateacutegie doit ecirctre co-formuleacutee co-deacuteveloppeacutee et co-impleacutementeacutee avec les diffeacuterents instituts et les communauteacutes scientifiques en phase avec leurs pratiques de recherche et la diversiteacute de leurs chaicircnes de production drsquoutilisation et de valorisation des donneacutees Elle doit prendre en compte la logistique des donneacutees tout au long de ces chaicircnes afin drsquoacceacuteleacuterer lrsquoextraction de nouvelles connaissances Elle doit enfin faciliter et transformer les pratiques de recherche en mutualisant les expertises au sein des diffeacuterentes communauteacutes scientifiques et de leurs instituts ainsi que reacutepondre aux nouveaux enjeux de la recherche interdisciplinaire inteacutegrant des donneacutees multi-source

Sur la base de ce document un certain nombre de recommandations sont proposeacutees pour cette strateacutegie

bull R1 Politique et gestion des donneacutees Le CNRS doit promouvoir une laquo culture des donneacutees raquo dans et entre ses instituts et mieux valoriser toutes les donneacutees que ses eacutequipes de recherche produisent Cela implique une reacuteflexion en matiegravere de politique de donneacutees ( Open Data et FAIR Data5 ) tout au long du cycle de vie des donneacutees de gestion des donneacutees avec en particulier lrsquoeacutelaboration drsquoun Data Management Plan6 en collaboration avec les diffeacuterents instituts et possiblement lrsquoINIST et drsquoOpen science7 inteacutegrant la publication des donneacutees et de nouveaux objets interfaccedilant donneacutees et reacutesultats scientifiques Cette reacuteflexion doit srsquoappuyer sur et harmoniser les expertises acquises dans ce domaine par un certain nombre drsquoinstituts tant au niveau national qursquointernational ( p ex IN2P3 INSU INSB INSHS ) Dans ce contexte il doit jouer un rocircle moteur dans les initiatives europeacuteennes comme EOSC8 et GoFAIR9 dans un certain nombre drsquoactiviteacutes drsquoorganisation non gouvernementale comme RDA10 et drsquoinitiatives internationales comme le Belmont Forum11

bull R2 Accroitre les expertises interdisciplinaires pour lrsquoanalyse et lrsquoutilisation des donneacutees Le CNRS fort des acquis reacutealiseacutes au travers de la Mission pour lrsquoInterdisciplinariteacute ( p ex programme MASTODONS ) et de plusieurs Groupements de Recherche ( p ex MADICS ) devrait lancer une initiative transversale srsquoappuyant sur un certain nombre de TGIRs et IRs pour favoriser des collaborations interdisciplinaires au travers des instituts du CNRS rassemblant des experts des diffeacuterents domaines scientifiques des diffeacuterents domaines meacutethodologiques en sciences des donneacutees ( matheacutematiques statistiques informatiques ) et deacuteveloppeurs drsquoinfrastructures Ceci afin de creacuteer un veacuteritable hub scientifique et drsquoexpertise pour le deacuteveloppement de nouvelles meacutethodes de gestion de traitement et drsquoanalyse de donneacutees de nouveaux algorithmes et leur impleacutementation au travers de logiciels modulaires de librairies de services et drsquooutils partageacutes et pouvant servir les besoins de diffeacuterentes communauteacutes sur le modegravele du Berkeley Institute

5 Findable Accessible Interoperable Reusable data6 Voir par exemple dmpopidorfr7 Open Science in Europe8 European Open Science Cloud declaration et EOSC pilot9 GoFair Initiative10 Research Data Alliance11 Belmont Forum

RECOMMANDATIONS

8

Livre Blanc sur les Donneacutees au CNRS Eacutetat des Lieux et Pratiques - 2018

for Data Science12 ( BIDS ) du Data Science Institute de Imperial College ou de lrsquoUniversiteacute de Maastricht Le CNRS pourrait ainsi encourager la collaboration de scientifiques de diffeacuterents domaines autour de lrsquoameacutelioration des algorithmes utiliseacutes dans lrsquoanalyse de donneacutees par exemple pour les synchrotrons sur le modegravele de CAMERA ( httpwwwcameralblgov ) aux Eacutetats-Unis Un tel Hub pourrait eacutegalement constituer un instrument preacutecieux pour la prise en compte des probleacutematiques associeacutees aux donneacutees en amont lors de lrsquoeacutelaboration de grands projets internationaux de TGIRs et drsquoIRs et ainsi faciliter lrsquoorganisation et accroitre la visibiliteacute des contributions franccedilaises dans ces initiatives Dans ce contexte le CNRS pourrait financer des ETPTs chercheurs et ingeacutenieurs en appui agrave ces deacuteveloppements interdisciplinaires eacuteventuellement en collaboration avec des pocircles universitaires et drsquoautres organismes pour par exemple deacutevelopper des logiciels de traitement de donneacutees tels XSOCS ( httpssourceforgenetprojectsxsocs ) sur les synchrotrons

bull R3 Architecture et Infrastructures pour lrsquoanalyse des donneacutees Le CNRS devrait en srsquoappuyant sur les expertises de ses deux centres nationaux de France Grilles de certains meacuteso-centres TGIRs et IRs mener des expeacuteriences relatives agrave lrsquoarchitecture et agrave la feacutedeacuteration de plateformes distribueacutees de services de calcul et de stockage et de plateformes centraliseacutees ( HPC Cloud ) dans le cadre de chaicircnes pilotes de production et drsquoutilisation de donneacutees et de leur logistique des donneacutees refleacutetant la diversiteacute des utilisateurs et des pratiques de recherche Ces expeacuteriences permettraient de mieux eacutevaluer les performances des traitements en flux de type Cloud les protocoles de transferts et les configurations reacuteseaux ainsi qursquoameacuteliorer radicalement lrsquoexploitation des ressources HPC pour des workflows combinant HPC HDA et machine learning Le CNRS pourrait ainsi accroitre son rocircle au niveau europeacuteen agrave lrsquointerface entre EOSC et EDI ( European Data Infrastructure ) Il serait possible drsquoeacutetudier lrsquoaccegraves agrave des moyens informatiques de type Cloud aux TGIR du CNRS au travers par exemple drsquoun accord avec le CC-IN2P3 ou France Grilles

12 httpsbidsberkeleyeduabout

bull R4 Archivage curation et distribution des donneacutees Le CNRS pourrait eacutegalement en srsquoappuyant sur des expertises internationalement reconnues telles celles du Centre de Donneacutees de Strasbourg et ses contributions agrave lrsquoIVOA soutenir et mener des expeacuteriences pilotes pour lrsquoorganisation de plateformes distribueacutees drsquoarchivage drsquoindexation et de curation de donneacutees multi-source mutualisant des ressources ( stockage calcul ) ainsi que pour leur inteacutegration au sein de pocircles de donneacutees ( systegraveme drsquoinformation portail services ) facilitant la deacutecouverte et lrsquoaccegraves fluide agrave ces donneacutees issues de domaines diffeacuterents avec des outils laquo translationnels raquo pour les combiner les croiser et les syntheacutetiser Ces expeacuteriences permettraient au CNRS de mieux deacutefinir sa politique drsquoOpenData et de jouer un rocircle moteur pour la creacuteation drsquoarchives OpenData certifieacutees et de portail OpenScience inteacutegrant de nouveaux objets associant donneacutees et reacutesultats de recherche tel que le Centre de Donneacutees astronomiques de Strasbourg ( httpcdswebu-strasbgfr ) auxquelles les TGIR PaN pourraient participer

bull R5 Nouvelles expertises et moyens humains Le CNRS pour maicirctriser les nouveaux enjeux associeacutes aux donneacutees doit mettre en place une reacuteponse coordonneacutee face aux nouveaux besoins en termes drsquoexpertise de moyens humains et de reconnaissance de ces nouvelles activiteacutes interdisciplinaires Cette reacuteponse doit ecirctre attractive pour des recrutements ( chercheurs ITA ) pour les eacutevolutions de carriegravere et srsquoappuyer sur des actions de formation adapteacutees reacutepondant agrave ces nouvelles expertises Cette reacuteponse est essentielle afin de faciliter lrsquoorganisation des communauteacutes scientifiques et le deacuteveloppement de nouvelles pratiques de recherche permettant drsquoacceacuteleacuterer lrsquoextraction de nouvelles connaissances agrave partir des donneacutees et ainsi renforcer la visibiliteacute internationale du CNRS et des communauteacutes scientifiques franccedilaises

9

Livre Blanc sur les Donneacutees au CNRS Eacutetat des Lieux et Pratiques - 2018

Sur la base de ce rapport la mission Calcul et Donneacutees du CNRS ( MiCaDo ) pourrait se voir confier la mission drsquoouvrir une reacuteflexion inter-instituts associant eacutetroitement lrsquoIDRIS et le CC-IN2P3 en lien avec nos tutelles nos partenaires et les infrastructures de services concerneacutes pour la recherche ( GENCI RENATER ) afin de prolonger ce rapport avec des groupes de travail deacutefinis autour de trois axes permettant de preacuteciser cette strateacutegie

bull Lrsquoorganisation territoriale et la mutualisation de lrsquoheacutebergement des plateformes drsquoarchivage et de curation de donneacutees des plateformes de calcul et drsquoanalyse des donneacutees en liaison avec le processus de labellisation des datacentres nationaux et reacutegionaux organiseacute par la DGRI et les initiatives locales et reacutegionales soutenues par des IDEX ou drsquoautres organismes permettant de faire eacutemerger des sites de reacutefeacuterences en appui agrave des grands projets Cette reacuteflexion devra prendre en compte lrsquoorganisation des communauteacutes scientifiques pour le stewardship des donneacutees et des ressources ( calcul stockage services ) afin drsquoeacutevaluer les ressources humaines et les expertises neacutecessaires agrave cette nouvelle structuration territoriale et organisation des communauteacutes scientifiques

bull Lrsquoarchitecture et la feacutedeacuteration des plateformes distribueacutees de calcul et drsquoanalyse de donneacutees drsquoarchivage et de curation des donneacutees et des plateformes centraliseacutees ( HPC Cloud ) avec des services de donneacutees Cette reacuteflexion devra prendre en compte la diversiteacute et les caracteacuteristiques des chaicircnes de production et drsquoutilisation des donneacutees la logistique des donneacutees tout au long de ces chaicircnes ainsi que les pratiques de recherche des communauteacutes scientifiques au niveau national et international

bull Les architectures de ressources de calcul et de stockage adapteacutees aux diffeacuterentes phases des workflows combinant HPC et HDA ainsi que les environnements drsquoexploitation de ces ressources inteacutegrant les besoins de traitement et drsquoanalyse en flux de type Cloud En particulier cette reacuteflexion devra inteacutegrer les nouveaux besoins associeacutes au machine learning et plus largement agrave lrsquoIntelligence Artificielle qui joue un rocircle de plus en plus important dans le contexte du Big Data avec en particulier les nouveaux enjeux associeacutes aux meacutethodes de type Deep Neural Network ( DNN ) en termes de scalabiliteacute et drsquoarchitecture ( GPU meacutemoire non volatile NVRAM )

La mission Calcul et Donneacutees du CNRS ( MiCaDo ) pourrait avec des moyens suppleacutementaires contribuer agrave lrsquoeacutemergence de plateformes de gestion et drsquoanalyse de donneacutees en y positionnant des ingeacutenieurs et des data scientists capables drsquooffrir un service technique de haut niveau et drsquoaccompagner les chercheurs dans leurs expeacuterimentations Cette action pourrait contribuer agrave faire eacutemerger sur le territoire quelques sites de reacutefeacuterence autour desquels peuvent graviter plusieurs projets de recherche en sciences des donneacutees ou srsquointeacuteresser agrave des communauteacutes scientifiques speacutecifiques De telles initiatives peuvent et doivent ecirctre compleacutementaires des autres initiatives locales ou reacutegionales soutenues par des IDEX ou drsquoautres organismes de recherche par exemple

RECOMMANDATIONS

10

Livre Blanc sur les Donneacutees au CNRS Eacutetat des Lieux et Pratiques - 2018

Ce Livre Blanc a eacuteteacute reacutealiseacute agrave la suite drsquoune seacuterie de preacutesentations autour des donneacutees meneacutees au sein du COCIN entre 2014 et 2016 par ailleurs eacutetayeacutees par des informations compleacutementaires issues de divers documents rapports drsquoactiviteacutes et sites Web avec la contribution et la mise en forme des repreacutesentants des divers instituts et centres informatiques du CNRS

Ce Livre Blanc srsquoest notamment appuyeacute sur les preacutesentations suivantes ( par ordre chronologique )

bull Simulation et cycle de vie des donneacutees dans la communauteacute du climat J-L Dufresne et S Denvil 2 septembre 2014

bull Eleacutements de reacuteflexion sur le stockage des donneacutees O Porte ( DSI ) 4 deacutecembre 2014

bull Les donneacutees au CC-IN2P3 P-E Macchi 8 janvier 2015

bull Institut Franccedilais de Bioinformatique ( IFB ) mettre en place une infrastructure informatique deacutedieacutee aux sciences de la vie J-F Gibrat 5 feacutevrier 2015

bull Stockage et gestion des donneacutees agrave lrsquoIDRIS D Girou 5 mars 2015

bull Research Data Access F Genova 10 avril 2015

bull Gestion des donneacutees au CINES F Daumas et M Galez 5 mai 2015

bull Preacutesentation de CIMENT E Chaljub 2 juin 2015

bull Les donneacutees agrave lrsquoINEE C Callou 7 juillet 2015

bull Les donneacutees agrave lrsquoINC et lrsquoINP D Borgis et L Lellouch 7 juillet 2015

bull Preacutesentation du Belmont Forum J-P Vilotte 1er septembre 2015

bull GRICAD Grenoble Alpes Recherche - Infrastructure de Calcul Intensif et de Donneacutees V Louvet 1er deacutecembre 2015

bull Calcul et donneacutees agrave lrsquoINSU J-P Vilotte 5 janvier 2016 et 2 feacutevrier 2016

bull Les donneacutees et le calcul en bioinformatique G Perriegravere 1 mars 2016

bull Le meacutesocentre CALMIP un Tier2 au service des recherches acadeacutemique et priveacutee B Dintrans 5 avril 2016

bull Preacutesentation de la TGIR Huma-Num O Baude et S Pouyllau 3 mai 2016

bull Preacutesentation ESRF R Dimper et A Goetz 8 novembre 2016

bull Gestion des donneacutees agrave ILL J-F Perrin 5 deacutecembre 2016

bull Synchrotron SOLEIL Les Donneacutees Scientifiques B Gagey et P Martinez 10 janvier 2017

Ce rapport mecircme srsquoil est loin drsquoecirctre exhaustif vise agrave mieux cerner les pratiques et les besoins en matiegravere de donneacutees ainsi qursquoagrave identifier les voies de promotion drsquoune synergie transdisciplinaire autour des donneacutees au sein du CNRS

Lrsquoenquecircte a deacutemarreacute en 2014 agrave la demande de Michel Bidoit Preacutesident du COCIN avec agrave ce jour

1 INTRODUCTION

11

Livre Blanc sur les Donneacutees au CNRS Eacutetat des Lieux et Pratiques - 2018

bull Des preacutesentations lors de reacuteunions du COCIN de tous les instituts confronteacutes agrave la production et au traitement de donneacutees agrave grande eacutechelle ie tous les instituts excepteacutes INS2I INSMI et INSIS13

bull Des centres nationaux orienteacutes calcul et donneacutees du CNRS

- CC-IN2P3 - IDRIS

bull De certains meacutesocentres - CALMIP - GRICAD

bull Et drsquoun certain nombre drsquoinitiatives et de TGIR dont

- LrsquoInstitut Franccedilais de Bioinformatique ( IFB ) - RENABI

bull Les synchrotrons ESRF ILL et SOLEIL

Ce Livre Blanc aborde aussi la probleacutematique des infrastructures requises pour lrsquoexploitation des grands volumes de donneacutees issues de simulations numeacuteriques de grande taille de systegravemes drsquoobservations ou de plateformes expeacuterimentales neacutecessitant des traitements coucircteux pour en extraire de lrsquoinformation

Les enjeux lieacutes au Big Data sont colossaux et ne sont pas seulement scientifiques car ils ont aussi un impact socieacutetal consideacuterable ( santeacute environnement biologie ) eacuteconomique et financier ( p ex compeacutetitiviteacute industrielle ) et eacutethique ( p ex santeacute biologie ) Le Big Data est ainsi devenu un outil drsquoaide agrave la deacutecision incontournable pour un certain nombre de situations critiques ( preacutevision des catastrophes naturelles eacutepideacutemiologiehellip )

La maicirctrise de tous les aspects du Big Data relegraveve drsquoune deacutemarche fondamentalement interdisciplinaire

Les eacutechelles de volumes de donneacutees agrave traiter nrsquoont fait que croicirctre de faccedilon spectaculaire On parle drsquoExaoctets ( 10^18 octets ) pour eacutevoquer les besoins actuels pour se projeter vers des eacutechelles de lrsquoordre du Zettaoctets ( 10^21 ) drsquoici quelques anneacutees

Cette eacutevolution constante induit de multiples preacuteoccupations autour des besoins en puissance de traitement pour de tels volumes de donneacutees ce qui contribue agrave rapprocher les communauteacutes du Calcul Haute Performance et du High Throughput Computing ( autour de lrsquoIN2P3 p ex ) et explique lrsquointeacuterecirct susciteacute par les GPUs en particulier pour le machine learning

13 Les donneacutees sont plus un objet de recherche pour INS2I et INSMI et ils sont peu impliqueacutes dans la production de donneacutees alors que INSIS nrsquoa pas aujourdrsquohui drsquoaction drsquoenvergure dans le domaine

puisqursquoil existe un certain nombre de codes open source tregraves performants sur les GPU

On constate dans tous les domaines des besoins eacutevidents en

bull Plateformes pour lrsquoanalyse de donneacutees agrave grande eacutechelle avec les probleacutematiques du stockage de la gestion et de la valorisation de ces donneacutees

bull Support pour les utilisateurs

bull Data scientists ( chercheurs ou ingeacutenieurs compeacutetents en analyse de donneacutees )

bull Deacuteploiement de chaicircnes logicielles drsquoanalyse de donneacutees qui passent agrave lrsquoeacutechelle

bull Effort interdisciplinaire entre les communauteacutes produisant des donneacutees et les communauteacutes dont crsquoest lrsquoobjet de recherche ( essentiellement au sein drsquoINS2I et drsquoINSMI )

bull Valorisation et peacuterennisation des donneacutees beaucoup de donneacutees sont creacuteeacutees pour un besoin preacutecis puis in fine perdues alors qursquoelles pourraient parfois ecirctre reacuteutiliseacutees ( expeacuteriences comme simulations ) ce qui suppose de lrsquoarchivage indexation mise agrave disposition etc

bull Deacutefinition de plan de gestion des donneacutees ( DMP ) loin drsquoecirctre geacuteneacuteraliseacute aujourdrsquohui alors que les volumes explosent

bull hellip

Le traitement des donneacutees massives issues ou non de la simulation numeacuterique avec des sources eacuteventuellement multiples distribueacuteesreacuteparties agrave grande eacutechelle et heacuteteacuterogegravenes ( structures formats logiciels serveurshellip ) et une volumeacutetrie en donneacutees allant de centaines de teacuteraoctets agrave quelques dizaines de peacutetaoctets ( et agrave lrsquoExaoctets dans un futur proche ) est donc devenu fondamental Il en reacutesulte des probleacutematiques autour de la gestion de ces donneacutees ( indexation stockage local ou distant avec BD centraliseacutees ou distribueacutees entrepocircts de donneacutees virtualisation du stockagehellip ) de leur traitement avec de lrsquoextraction de connaissances sur des infrastructures souvent distribueacutees ( machine learning fouille de donneacutees classification assimilation de donneacutees ) et enfin du post-traitement permettant drsquoexploitervisualiser ces informations etou de lrsquoaide agrave la deacutecision par exemple

12

Livre Blanc sur les Donneacutees au CNRS Eacutetat des Lieux et Pratiques - 2018

INTRODUCTION

Tirer parti de maniegravere efficace de toutes ces eacutevolutions requiert donc des efforts sur ( entre autres )

bull Deacuteploiement de plateformes drsquoanalyse de donneacutees performantes et rapprochement entre les communauteacutes HTC et HPC deacuteveloppement de lrsquoactiviteacute et des compeacutetences autour de lrsquoanalyse de donneacutees au sein des centres HPC nationaux et reacutegionaux

bull Conceptionexploitation efficace drsquoarchitectures et drsquoenvironnements orienteacutes donneacutees

bull Impact des technologies du type GPU Cloud computinghellip

bull Meacutethodes drsquoanalyse de donneacutees et drsquoaide agrave la deacutecision machine learning retour de lrsquoIntelligence Artificielle au premier planhellip

bull Maicirctrise du passage agrave lrsquoeacutechelle des outils drsquoanalyse de donneacutees

bull Deacuteveloppement des recherches interdisciplinaires et des compeacutetences autour des donneacutees au sein du CNRS ainsi que du support aux utilisateurs

Les pratiques et les besoins autour des donneacutees font deacutejagrave lrsquoobjet drsquoune attention consideacuterable au sein du CNRS On peut citer par exemple le remarquable ouvrage laquo Les Big Data agrave deacutecouvert14 raquo eacutediteacute sous la direction de sous la direction de Mokrane Bouzeghoub et Reacutemy Mosseri agrave CNRS EDITIONS ainsi que les reacutesultats de lrsquoenquecircte de 2014 meneacutee par la Direction de lrsquoInformation Scientifique et Technique ( DIST ) aupregraves des uniteacutes15 qui corroborent certains des constats effectueacutes ici

Le CNRS a aussi deacuteveloppeacute de multiples programmes de recherche sur les donneacutees scientifique tant au sein de la Mission pour lrsquoInterdisciplinariteacute qursquoau sein des instituts INS2I et INSMI avec

bull Le Deacutefi Mastodons16 depuis 2012 ( plus de 60 projets )

bull Deacutefi ImagrsquoIn17 depuis 2015 ( plus de 40 projets )

bull Le PEPS FaScido en 2015 et 2016 ( plus de 20 projets )

bull Le PEPS AstroInformatique18 en 2018 ( une dizaine de projets )

Enfin un soutien significatif aux plateformes de recherche sur les donneacutees a eacuteteacute apporteacute par lrsquoINS2I agrave la fois en eacutequipement et en ingeacutenieur ( permanents ou CDD )

14 httpwwwcnrseditionsfrsociete7429-les-big-data-a-decou-verthtml15 httpwwwcnrsfrdistz-outilsdocumentsenquete-du_bro-chure-couverture_032015pdf16 httpwwwcnrsfrmispipphparticle5317 httpwwwcnrsfrmispipphparticle64518 httpwwwcnrsfrmispipphparticle1325

13

Livre Blanc sur les Donneacutees au CNRS Eacutetat des Lieux et Pratiques - 2018

21 INSTITUT DE CHIMIE ( INC )

211 Introduction

La deacutemarche de cette eacutetude a eacuteteacute drsquoeacutetudier les donneacutees agrave lrsquoINC agrave diffeacuterents niveaux de granulariteacute Nous commencerons par les grandes infrastructures de calcul ou expeacuterimentales puis nous nous inteacuteresserons agrave lrsquoeacutechelle typique drsquoun institut puis au grain fin du laboratoire Nous finirons agrave lrsquoautre extrecircme par la dimension europeacuteenne

212 La probleacutematique des donneacutees agrave lrsquoINC

Pour ce qui concerne le calcul sur les centres nationaux ( GENCI ) et le stockage de donneacutees affeacuterent les chercheurs de lrsquoInstitut de Chimie soumettent leurs demandes aux Comiteacutes Scientifiques Theacutematiques nationaux ( CT ) suivants

bull CT7 Dynamique moleacuteculaire appliqueacutee agrave la biologie avec une reacutepartition INC-NSB de 60 40

bull CT8 Chimie quantique et modeacutelisation moleacuteculaire ( majoritairement INC )

bull CT9 Physique chimie et proprieacuteteacutes des mateacuteriaux avec une reacutepartition INC-INP de 50 50

Il faut rappeler que ces 3 CT eacutetiqueteacutes laquo chimie raquo centreacutes majoritairement sur les simulations de dynamique moleacuteculaire et les calculs de structure eacutelectronique repreacutesentent une part importante des projets seacutelectionneacutes et du temps de calcul alloueacute sur les machines GENCI A lrsquoIDRIS par exemple la chimie au sens large compte pour ~40 des projets ~30 du temps CPU sur Ada et 7 sur Turing

Comme il apparaicirct sur les diagrammes de lrsquoIDRIS preacutesenteacutes agrave la section 322 lrsquoutilisation du stockage est beaucoup plus reacuteduite pour ces CT laquo chimie raquo par rapport agrave drsquoautres theacutematiques avec quelques dizaines de To sur Ada et quelques To seulement sur Turing pour environ 50 To sur cartouches On note une forte surestimation des besoins par les utilisateurs

Sur le TGCC lrsquoINC occupe pour lrsquoensemble des CTs qui le concerne de lrsquoordre de 450 To en cumulant tous les espaces de disques ( storedir scratch et workdir ) Cela repreacutesente une occupation relative de lrsquoordre du pour cent sur le stockage longue dureacutee ( storedir ) et de la dizaine de pour cent sur lrsquoespace de travail Les besoins sont cependant appeleacutes agrave augmenter fortement avec lrsquoaccroissement de la taille des systegravemes eacutetudieacutes ou de leur temps de simulation si lrsquoon se fixe aux niveaux correspondant actuellement agrave des grands challenges ou des projets PRACE En modeacutelisation biomoleacuteculaire par exemple la simulation dynamique drsquoun systegraveme biologique complet comportant plusieurs millions drsquoatomes comme un virus pendant quelques dizaines voire une centaine de nanosecondes ( actuellement un tour de force ) geacutenegravere facilement un film de quelques Po si lrsquoon veut garder la trajectoire pour exploitation ulteacuterieure

Lrsquooccupation en stockage de la chimie sur les quelques meacutesocentres qui ont eacuteteacute sondeacutes ( Unistra CRIANN CALMIP ) apparaicirct elle aussi relativement limiteacutee de lrsquoordre de la dizaine de To par centre

En ce qui concerne les Infrastructures de Recherche expeacuterimentale il faut noter que la chimie est tregraves impliqueacutee dans des TGIR relevant de lrsquoINP ( ESRF ILL SOLEILhellip ) pour lesquelles une politique des donneacutees massives est eacutetablie ou en cours drsquoeacutelaboration ( voir lrsquoanalyse de lrsquoINP ) Une analyse des besoins et des pratiques de stockage des Infrastructures de Recherche relevant de lrsquoINC a eacuteteacute effectueacutee cela implique la TGIR reacutesonance magneacutetique nucleacuteaire agrave tregraves hauts champs ( RMN-THC ) lrsquoIR RENARD ( REseau NAtional de Reacutesonance paramagneacutetique interDisciplinaire ) et

2 Les donneacutees au sein des instituts du CNRS

14

Livre Blanc sur les Donneacutees au CNRS Eacutetat des Lieux et Pratiques - 2018

le tregraves grand eacutequipement FT-ICR agrave haut champ Quelques points cleacutes en ressortent en matiegravere de politique de donneacutees

bull Gestion locale des donneacutees chaque laboratoire ou site achegravete ses disques durs

bull La politique des donneacutees ( partage ou non ) est laisseacutee aux utilisateurs

bull En utilisation laquo plateforme raquo les utilisateurs viennent et repartent avec leur cleacute USB

bull Frilositeacute vis-agrave-vis du partage de donneacutees ( maicirctrise de ses donneacutees confidentialiteacute )

bull Une mutualisation des donneacutees est envisageacutee en RMN et RPE

Pour ce qui concerne la nature et le volume des donneacutees

bull Spectres 1D ou 2D fichiers de 10-100 ko jusqursquoagrave 10-100 Goansite

bull Format proprieacutetaire ( Bruckerhellip ) eacuteventuellement transformable drsquoougrave des problegravemes drsquointeropeacuterabiliteacute et de temps de relecturesauvegarde

bull Des flux plus importants peuvent ecirctre envisageacutes avec des expeacuteriences drsquoimagerie deacutependant du temps mais les volumes ne sont pas encore vraiment anticipeacutes

On peut faire les mecircmes constats par exemple pour le reacuteseau METSA en laquo Microscopie Electronique et Sonde Atomique raquo

bull Pas de politique de stockage globale au niveau du reacuteseau

bull Sur le site parisien ( MPQ ) la quantiteacute de donneacutees produites est typiquement 64 Moimage soit 4 Toan stockeacutes sur des disques durs locaux avec en plus une passerelle sur lrsquouniversiteacute

bull Des expeacuteriences en temps reacuteel commencent agrave se monter engendrant 300 imagesseconde soit de lrsquoordre de 20 Goseconde

bull Il y aura donc un reacuteel besoin de compeacutetences solides agrave terme

Pour illustration nous descendons encore en granulariteacute dans les infrastructures de recherche et prenons le cas drsquoune feacutedeacuteration lrsquoInstitut pour les Sciences Moleacuteculaires drsquoOrsay ( ISMO ) pour lequel le

problegraveme des donneacutees srsquoest poseacute reacutecemment Cet institut regroupe trois laboratoires le Laboratoire de Photophysique Moleacuteculaire ( UPR3361 ) le Laboratoire des Collisions Atomiques et Moleacuteculaires ( UMR8625 ) et le Laboratoire drsquoInteraction du rayonnement X avec la Matiegravere ( UMR8624 ) Il est installeacute depuis peu dans un bacirctiment unique agrave Paris-Saclay Il dispose drsquoune grappe de calcul avec 1 ingeacutenieur drsquoeacutetudes et un technicien

bull Il y a un besoin de stockage pour des expeacuteriences ( en particulier en microscopie ) et en ressources de calcul

bull Le mateacuteriel est disparate et vieillissant sans systegraveme de sauvegarde global

bull Une enquecircte aupregraves des laboratoires de la feacutedeacuteration a reacuteveacuteleacute un besoin de lrsquoordre de 160 To

Drsquoougrave la recherche drsquoune solution eacuteconomique de stockage et baseacutee sur des logiciels libres chaque chercheur achetant ses propres disques On a convergeacute vers lrsquoachat de 2 racks de 40 disques avec un systegraveme ZFS plus la solution libre SUN Le coucirct total estimeacute de cette solution de stockage est de lrsquoordre de 40 keuro alors qursquoune solution cleacute en main serait de lrsquoordre de 100 keuro aupregraves des speacutecialistes des solutions de stockage

Enfin penchons-nous sur une granulariteacute encore plus fine celle drsquoun laboratoire Un exemple significatif est celui du laboratoire Physicochimie des Electrolytes et Systegravemes Interfaciaux ( PHENIX ) agrave lrsquoUPMC et plus speacutecifiquement de lrsquoeacutequipe modeacutelisation composeacutee de 5 permanents pour un total de 15 personnes qui calculent agrave la fois en local sur GENCI et PRACE

bull Le parc drsquoinformatique scientifique de 15-20 stations de travail est geacutereacute par les chercheurs

bull Le systegraveme de stockage est composeacute drsquoun server NFS ( 30 To ) plus un serveur LDAP

bull Les ressources de calcul sont constitueacutees de 4 machines PersonalHPC 64 cœurs agrave meacutemoire partageacutee ( 10 keuromachine )

bull Un stockage de sauvegarde de 150 To est effectueacute sur une machine deacutedieacutee PersonalHPC Sigma ( valeur environ 30 keuro )

On retrouve donc le mecircme ordre de grandeur de coucirct pour le mateacuteriel local de stockage avec des solutions laquo cousues main raquo ( quelques dizaines de keuro pour la centaine de To hors coucirct de personnel eacutevidemment et avec le niveau de seacutecuriteacute qursquoune gestion locale implique )

INC

15

Livre Blanc sur les Donneacutees au CNRS Eacutetat des Lieux et Pratiques - 2018

Enfin si lrsquoon remonte la granulariteacute agrave son autre extrecircme il faut signaler qursquoau niveau europeacuteen sur lrsquoappel H2020 Centre of Excellence for Computing Applications 3 CoE sur les 8 seacutelectionneacutes sont consacreacutes aux mateacuteriaux au cœur donc des theacutematiques des CT 7-9 Lrsquoun drsquoeux le CoE NoMad ( Novel Material Discovery httpsnomad-coeeu ) est un dispositif multigrille de deacutepocirct et de fouille de donneacutees Il est eacutetabli pour heacuteberger organiser et partager agrave lrsquoeacutechelle internationale les donneacutees et reacutesultats de calcul et de simulation en physique et chimie des mateacuteriaux

Alors que la France est bien repreacutesenteacutee dans plusieurs CoE par exemple EoCoE ( httpwwweocoeeu ) ou E-CAM ( httpswwwe-cam2020eu ) elle apparaicirct malheureusement tregraves peu dans NoMaD et encore trop peu dans ce genre de deacutemarche type collectionexploitation de donneacutees comme les initiatives Material Genomics ( httpswwwmgigov ) aux Etats-Unis ou AIIDA en Suisse ( Automated Interactive Infrastructure and Database for Computational Science httpwwwaiidanet )

213 Conclusion

LrsquoINC a actuellement plus des problegravemes drsquoorganisation interne des donneacutees que des problegravemes relevant vraiment du Big Data Il nrsquoen reste pas moins qursquoil y a un reacuteel besoin de compeacutetences et de politique drsquoeacutequipement Les besoins peuvent srsquoaccroicirctre rapidement dans les TGIR degraves que lrsquoon touche agrave de lrsquoacquisition massive drsquoimages ( p ex pour des processus en temps reacuteel ) Lrsquoacquisition des donneacutees de simulations numeacuteriques est ameneacutee agrave croicirctre aussi avec lrsquoaugmentation de la taille des systegravemes eacutetudieacutes et des deacutemarches collectives de type Material Genomics crsquoest-agrave-dire conservation et mutualisation des donneacutees de simulations et deacutemarche systeacutematique de fouille de donneacutees Des deacutemarches de ce type eacutemergent de plus en plus dans les appels drsquooffre

LrsquoINC a engageacute depuis deacutebut 2018 une reacuteflexion sur la politique des donneacutees au sein de ces trois TGIRIR ( RMN-THC RENARD FT-ICR ) avec comme objectif de se conformer rapidement aux directives europeacuteennes en termes de science ouverte et de partage des donneacutees et rejoindre ce qui se fait dans drsquoautres infrastructures de recherche comme SOLEIL

16

Livre Blanc sur les Donneacutees au CNRS Eacutetat des Lieux et Pratiques - 2018

22 INSTITUT ECOLOGIE ET ENVIRONNEMENT ( INEE )

221 Introduction

Degraves sa creacuteation consideacuterant drsquoune part lrsquoimportance des donneacutees dans le triptyque fondateur de lrsquoINEE ( Observation ndash Expeacuterimentation ndash Modeacutelisation ) et drsquoautre part une reacuteelle meacuteconnaissance du nombre de jeux de donneacutees existants dans le peacuterimegravetre de lrsquoInstitut ( sa creacuteation datant du 1er novembre 2009 ) deux enquecirctes autour des donneacutees en eacutecologie et environnement eacutetaient meneacutees sur le peacuterimegravetre scientifique de lrsquoINEE

bull La premiegravere adresseacutee agrave lrsquoensemble des instituts du CNRS sur le thegraveme laquo Etude de cas sur les systegravemes de donneacutees numeacuteriques de recherche raquo ( Ministegravere de lrsquoEnseignement supeacuterieur et de la Recherche 2009 )

bull La seconde meneacutee sous la responsabiliteacute de S Thieacutebault et Y Lagadeuc plus speacutecifique et exhaustive aupregraves des directeurs drsquouniteacutes

La synthegravese de ces deux enquecirctes mettait en exergue les points suivants

bull Des diffeacuterents projets de recherche collaboratifs meneacutes par la communauteacute scientifique de lrsquoINEE reacutesulte un accroissement tregraves important et tregraves rapide du nombre de bases de donneacutees deacuteveloppeacutees au sein des laboratoires Cependant ces bases de donneacutees restent tregraves heacuteteacuterogegravenes dans leur forme ( allant du fichier Word ou Excel pour certains agrave un systegraveme de gestion de base de donneacutees complexe pour drsquoautres ) et aussi dans leur fond

bull La communauteacute scientifique de lrsquoINEE se doit de faire un effort particulier pour coordonner et diversifier la collecte des donneacutees en eacutecologie en menant une reacuteflexion neacutecessaire pour deacutefinir dans quels cas la theacuteorie doit deacuteterminer lrsquoobjet et les outils de mesure Il srsquoagit degraves lors drsquoeacuteviter une collecte de donneacutees agrave des eacutechelles spatiales et temporelles prenant plus en consideacuteration des contingences techniques ou historiques qui les eacuteloignent parfois des exigences optimales neacutecessaires pour appreacutehender les pheacutenomegravenes eacutetudieacutes

Aujourdrsquohui la communauteacute scientifique du CNRS-INEE est en train de vivre une veacuteritable reacutevolution de

lrsquoinformation Si pendant tregraves longtemps une des limitations a eacuteteacute la quantiteacute de donneacutees disponibles pour tester des modegraveles preacutedictifs en quelques anneacutees les sciences de lrsquoenvironnement ont pu disposer des jeux de donneacutees de plus en plus importants inteacutegrant diffeacuterentes eacutechelles temporelles et spatiales pour des milliers drsquoorganismes ainsi que pour de nombreux gegravenes et eacutecosystegravemes Ces nouveaux jeux de donneacutees allieacutes agrave une puissance de calcul et agrave une sophistication des logiciels ( rendues possibles notamment par la mise en place de plateformes collaboratives comme le logiciel R ) permettent aujourdrsquohui une profondeur drsquoanalyse qui nrsquoeacutetait pas possible il y a encore dix ans

Toutefois des efforts doivent ecirctre maintenus afin de faire basculer lrsquoeacutecologie dans lrsquoegravere de lrsquoinformation en eacutevitant que ces diffeacuterentes sources drsquoinformations soient stockeacutees et codeacutees suivant des normes contingentes agrave chaque milieu scientifique sans souci drsquointerfaccedilage avec les autres disciplines

222 La probleacutematique des donneacutees agrave lrsquoINEE

La collecte des donneacutees neacutecessite des systegravemes drsquoobservation et drsquoexpeacuterimentation depuis le niveau geacuteneacutetique jusqursquoaux eacutecosystegravemes Il srsquoagit drsquoabord de disposer drsquoeacutequipements compleacutementaires organiseacutes le long de gradients de controcircle ou de confinement consideacuterant des complexiteacutes eacutecologiques diffeacuterentes

La communauteacute de lrsquoINEE dispose deacutesormais drsquoune infrastructure expeacuterimentale partageacutee et ouverte ( AnaEE pour Analyse et Expeacuterimentation sur les Ecosystegravemes ) qui rassemble des moyens expeacuterimentaux in situ en conditions semi-naturelles et en conditions controcircleacutees

En geacutenomique les programmes concernant le meacutetageacutenome humain ( httpwwwmetahiteu httpnihroadmapnihgov ) ou lrsquoeacutetude des sols ( httpwwwterragenomeorg httpwwwearthmicrobiomeorg ) promeuvent des approches collaboratives inteacutegreacutees

Drsquoautres approches exploratoires agrave large eacutechelle ont aussi montreacute toute leur richesse ( p ex Tara-Oceans ) en inteacutegrant des donneacutees de diffeacuterents champs disciplinaires

INEE

17

Livre Blanc sur les Donneacutees au CNRS Eacutetat des Lieux et Pratiques - 2018

Lrsquoeacutetude des maladies infectieuses beacuteneacuteficie eacutegalement au plan national drsquoun institut theacutematique multi-organismes ( Institut de Microbiologie et Maladies Infectieuses )

Enfin au niveau des eacutecosystegravemes il faut noter les travaux entrepris au sein des Zones Ateliers ou encore des services drsquoobservation que le CNRS coordonne

Ces diffeacuterentes initiatives sont agrave lrsquoorigine de la production drsquoune quantiteacute de donneacutees sans preacuteceacutedent dans nos disciplines Par contre une grande part de la collecte est encore conduite par des eacutequipes etou des chercheurs individuels travaillant sur des sites expeacuterimentaux ou drsquoobservation qui ne font actuellement lrsquoobjet drsquoaucune coordination particuliegravere ou drsquoune coordination probablement insuffisante

Le panorama des initiatives dans le domaine EcologieBiodiversiteacute est extrecircmement large comme le montre la figure suivante avec une multipliciteacute des acteurs et des interactions

Il est organiseacute autour de trois niveaux

bull des dispositifs de production et de collecte des donneacutees incluant par exemple les plateformes -omiques ( geacutenomiques transcriptomiques p roteacuteomiques meacutetabo lomiqueshellip ) des collections des systegravemes drsquoobservation etou drsquoexpeacuterimentation

bull des bases de donneacutees

bull des centres de synthegravese geacuteneacuteraux ou theacutematiques deacutedieacutes agrave la valorisation et agrave la diffusion des donneacutees

Aussi face agrave cette laquo datavalanche raquo il apparaissait neacutecessaire pour lrsquoinstitut de mener un effort important pour aider les entiteacutes productrices de donneacutees de lrsquoINEE agrave aller vers une normalisation du codage et de la mise en forme des donneacutees pour mieux les rendre interopeacuterables exploitables et visibles

18

Livre Blanc sur les Donneacutees au CNRS Eacutetat des Lieux et Pratiques - 2018

223 La mise en place de lrsquouniteacute mixte de services BBEES

La creacuteation de lrsquoUMS 3468 laquo Bases de donneacutees Biodiversiteacute Ecologie Environnements Socieacuteteacutes ( BBEES ) raquo souhaiteacutee par le CNRS-INEE et le Museacuteum national drsquoHistoire naturelle et acteacutee le 1er septembre 2011 a pour objectif de structurer et drsquooptimiser le travail autour des bases de donneacutees de recherche sur la Biodiversiteacute naturelle et culturelle actuelle et passeacutee

Elle constitue un soutien technique et scientifique aupregraves des uniteacutes et des chercheurs du CNRS-INEE et du MNHN souhaitant structurer peacuterenniser ou mutualiser leurs bases de donneacutees de recherche avec pour objectifs finaux

bull de faire interagir lrsquoensemble de ces bases diverses et heacuteteacuterogegravenes dans leur forme et dans leur fond

bull de preacutevoir leur sauvegarde agrave tregraves long terme prenant en compte lrsquoeacutevolution des supports

bull de participer agrave la mise en place drsquoontologies et de theacutesaurus concerteacutes

Ses interventions se traduisent par des conseils ou une intervention au sein des uniteacutes pour aider agrave concevoir relancer ou restructurer une base de donneacutees Installeacutee au Museacuteum elle beacuteneacuteficie de lrsquoenvironnement en place et de son expeacuterience dans le domaine des bases de donneacutees ( Service du Patrimoine Naturel Inventaire National du Patrimoine Naturel collections patrimoniales Pocircle application scientifique de la DSI etc ) Elle nrsquoa pas vocation agrave administrer les bases de donneacutees qui restent sous la responsabiliteacute des eacutequipes qui les produisent ni agrave leur fournir un heacutebergement Toutefois elle peut apporter des conseils sur ces points

Afin de faciliter lrsquoinsertion des bases de donneacutees dans des dispositifs nationaux et internationaux lrsquoUMS BBEES propose un certain nombre de recommandations sur

bull la constitution des corpus et le traitement des donneacutees

bull le choix des outils

bull la structuration des donneacutees

bull les meacutetadonneacutees

bull etc

Ces recommandations sont en lien avec les standards et les normes en vigueur comme la directive europeacuteenne INSPIRE ( 20072CE du 14 mars 2007 ) pour les informations geacuteographiques ou le choix drsquoun reacutefeacuterentiel taxonomique commun aux bases de donneacutees existantes sur la biodiversiteacute ( TaxRef ) et obeacuteissent aux reacuteglementations concernant la proprieacuteteacute intellectuelle dans le domaine particulier des bases de donneacutees

La question de lrsquoidentification et de lrsquoaccessibiliteacute des bases de donneacutees est eacutegalement au cœur des preacuteoccupations de lrsquoUMS BBEES En particulier pour ce qui concerne les bases inactives ( les bases de donneacutees deacuteveloppeacutees dans le cadre de programmes nationaux et stockeacutees sur des ordinateurs personnels p ex ) et les bases en veille ( bases de donneacutees accessibles mais qui ne sont plus alimenteacutees ni exploiteacutees ) Des enquecirctes sont reacuteguliegraverement meneacutees aupregraves des directeurs drsquouniteacutes de recherche dans le but drsquoidentifier lrsquoensemble des bases de donneacutees produites par les uniteacutes ( inactives en veille en deacuteveloppement et actives ) mais aussi pour anticiper et accompagner les demandes de deacuteveloppement de bases dans le cadre de programmes de recherche nationaux et internationaux

LrsquoUMS srsquoattache en outre agrave favoriser la diffusion des bases de donneacutees par leur administrateur au travers drsquoun portail deacutedieacute accessible agrave tous httpwwwbdd-ineecnrsfr Aujourdrsquohui ce portail a permis de recenser et rendre visibles environ 200 bases de donneacutees issues de lrsquoactiviteacute des laboratoires du CNRS-INEE

BBEES est aussi tregraves fortement impliqueacutee dans lrsquoanimation du reacuteseau meacutetier laquo bases de donneacutees raquo creacuteeacute en mai 2012 en collaboration avec la MRCT puis la Mission pour lrsquoInterdisciplinariteacute ( MI ) Lrsquoanimation de ce reacuteseau aujourdrsquohui composeacute de 170 personnes de diffeacuterentes origines institutionnelles ( CNRS-INEE et CNRS-INSHS principalement mais aussi MNHN INRA IRD CIRAD FRB ) permet

bull lrsquoorganisation de reacuteunions theacutematiques

bull lrsquoeacutechange et le partage via la mise en place drsquoune liste de diffusion

INEE

19

Livre Blanc sur les Donneacutees au CNRS Eacutetat des Lieux et Pratiques - 2018

bull la mise en place de formations

bull la reacutealisation de journeacutees de sensibilisation agrave la seacutecurisation et agrave la peacuterennisation des donneacutees

bull et enfin bien eacutevidemment une activiteacute de veille technologique

BBEES est aussi partenaire de plusieurs grands programmes sur le long terme ( description des meacutetadonneacutees des bases deacutejagrave opeacuterationnelles eacutetat des lieux technique creacuteation de nouvelles basesSI ) et participe aux reacuteseaux des Zones Ateliers ( RZA ) et des Observatoires Hommes-Milieux ( ROHM ) ainsi qursquoau projet drsquoinfrastructures nationales en biologie et santeacute AnaEE-France laquo Infrastructure Analyse et drsquoexpeacuterimentation sur les eacutecosystegravemes raquo en srsquoappuyant sur les Ecotrons et les Stations drsquoEcologie expeacuterimentale ( ReNSEE )

Enfin BBEES megravene une activiteacute drsquointervention et de conseil au sein de lrsquoinstitut et est membre du groupe de travail sur les standards de donneacutees du SINP et du groupe utilisateurs du GBIF France

224 La creacuteation drsquoun centre de donneacutees et drsquoexpertise sur la nature

Dans une optique de valorisation de certaines donneacutees le CNRS-INEE a aussi eacuteteacute partenaire de la creacuteation drsquoun centre de donneacutees et drsquoexpertise sur la nature Creacuteeacutee en janvier 2017 lrsquoUniteacute Mixte de Service 2006 Patrimoine naturel ( PatriNat ) assure des missions drsquoexpertise et de gestion des connaissances pour ses trois tutelles que sont le Museacuteum national drsquohistoire naturelle ( MNHN ) lrsquoAgence Franccedilaise de la Biodiversiteacute et le CNRS

Issue drsquoun renforcement des eacutequipes du Service du patrimoine naturel cette uniteacute implanteacutee dans plusieurs sites du MNHN a pour objectif de fournir une expertise scientifique et technique sur la biodiversiteacute et la geacuteodiversiteacute franccedilaise au profit des politiques de connaissance et de conservation Cette mission nationale concerne la meacutetropole et lrsquooutre-mer ainsi que les theacutematiques terrestres et marines Elle est conduite en lien eacutetroit avec les partenaires impliqueacutes sur les enjeux de conservation et de protection de la nature En srsquoappuyant sur les reacutesultats issus des activiteacutes de recherche elle doit contribuer agrave faire eacutemerger des questions scientifiques et des besoins de connaissances partageacutees pour favoriser la prise en compte de la nature dans la socieacuteteacute

Agrave travers ses missions elle srsquoengage agrave diffuser former et sensibiliser les diffeacuterents publics sur les enjeux de biodiversiteacute et de preacuteservation de la nature

Ses trois principales missions concernent

bull La consolidation et la valorisation des donneacutees de biodiversiteacute de geacuteodiversiteacute et des collections naturalistes

LrsquoUMS srsquoattache agrave travailler avec les reacuteseaux naturalistes gestionnaires et de recherche pour deacutevelopper le partage des donneacutees les techniques informatiques et les meacutethodologies neacutecessaires agrave lrsquointeropeacuterabiliteacute des eacutechanges de donneacutees au niveau national et international Elle gegravere ainsi les bases de donneacutees nationales concernant les espegraveces les eacutecosystegravemes les espaces proteacutegeacutes et la geacuteodiversiteacute Elle participe eacutegalement agrave lrsquoidentification des besoins de connaissances naturalistes sur les diffeacuterents territoires La diffusion de cette information brute ou eacutelaboreacutee se fait au niveau national via deux portails principaux que sont lrsquoInventaire National du Patrimoine Naturel ( INPN ) et le GBIF-France pour les liens internationaux

bull La production et la diffusion de reacutefeacuterentiels de meacutethodes de protocoles et drsquoindicateurs

LrsquoUMS pilote ou participe aux travaux scientifiques de construction des reacutefeacuterentiels et bases de connaissance sur les espegraveces et les habitats qui sont neacutecessaires agrave la construction et la diffusion drsquoun savoir structureacute Cette structuration permet agrave lrsquoUMS drsquoagreacuteger ces informations nationales sur la nature ( inventaires eacutevaluations statuts reacuteglementaires etc ) afin de les valoriser par la production de cartes de synthegraveses et drsquoindicateurs drsquoeacutetat de la biodiversiteacute

bull Lrsquoappui scientifique aux politiques publiques et priveacutees en matiegravere drsquoenvironnement

LrsquoUMS apporte dans le cadre de polit iques publiques nationales des directives europeacuteennes sur la biodiversiteacute et des rapportages un appui pour lrsquoanimation technique et scientifique aux services de lrsquoEacutetat aux collectiviteacutes territoriales et aux eacutetablissements publics chargeacutes de la biodiversiteacute et des espaces naturels Elle apporte eacutegalement son expertise scientifique aupregraves des acteurs socio-eacuteconomiques qui mettent en place des actions en faveur de la biodiversiteacute dans leur politique environnementale en particulier dans le cadre de deacutemarche drsquoengagement dans la Strateacutegie nationale pour la biodiversiteacute

20

Livre Blanc sur les Donneacutees au CNRS Eacutetat des Lieux et Pratiques - 2018

225 Conclusion

La probleacutematique des donneacutees est centrale au sein de lrsquoINEE et couvre un tregraves large spectre de probleacutematiques Si un premier effort de recensement et de structuration a pu ecirctre meneacute au cours des derniegraveres anneacutees beaucoup de travail reste cependant agrave faire lrsquoenjeu fondamental eacutetant de promouvoir une veacuteritable laquo culture de la donneacutee raquo de la part des acteurs de la recherche en eacutecologie

En effet le deacuteveloppement drsquoune eacutecologie preacutedictive neacutecessite aujourdrsquohui de pouvoir rassembler ces donneacutees heacuteteacuterogegravenes par nature en un ensemble coheacuterent qui puisse ecirctre analyseacute de faccedilon robuste et reacutepeacutetable Il srsquoagit donc encore drsquoameacuteliorer la pertinence de la collecte des donneacutees dans une deacutemarche drsquoaller et retour entre theacuteorie et donneacutees ( cohabitation entre une eacutecologie theory-driven et data-driven )

Lrsquointeacutegration des donneacutees aux diffeacuterentes eacutechelles drsquoorganisation en eacutecologie reste aussi un enjeu Il srsquoagit maintenant de favoriser le dialogue entre disciplines non seulement entre sciences de la nature et sciences humaines et sociales mais aussi entre sciences de la nature matheacutematiques et sciences de lrsquoinformation

INEE

21

Livre Blanc sur les Donneacutees au CNRS Eacutetat des Lieux et Pratiques - 2018

23 INSTITUT DE PHYSIQUE ( INP )

231 Introduction

La probleacutematique des donneacutees prend plusieurs formes agrave lrsquoINP Celles-ci deacutependent du volume et de la nature des donneacutees Ces derniegraveres vont de quelques dizaines de meacutegaoctets geacuteneacutereacutes par une expeacuterience de laboratoire aux peacutetaoctets produits annuellement dans les TGIR de lrsquoinstitut en passant par les teacuteraoctets issus de simulations dans les grands centres de calcul nationaux ou ceux geacuteneacutereacutes sur la toile et les reacuteseaux sociaux Dans ce qui suit nous eacutevoquerons les questions qui se posent autour des donneacutees agrave lrsquoINP et certaines des solutions envisageacutees dans ces diffeacuterents contextes Nous proceacutederons par ordre deacutecroissant en commenccedilant par les TGIR ougrave la probleacutematique des donneacutees est particuliegraverement aiguumle puis par les grands centres de calcul nationaux les meacutesocentres et les laboratoires Nous terminerons avec quelques mots sur lrsquoimplication de lrsquoINP dans des projets sur les donneacutees de la Commission europeacuteenne

23 2 Les donneacutees dans les infrastructures synchrotrons neutrons et laser agrave eacutelectrons libres de lrsquoINP

Aujourdrsquohui la probleacutematique des grands volumes de donneacutees agrave lrsquoINP se pose de faccedilon particuliegraverement aiguumle dans ses tregraves grands instruments Il srsquoagit drsquoinfrastructures synchrotron neutron et laser agrave eacutelectrons libres certaines ayant une dimension europeacuteenne ou mecircme mondiale Ces infrastructures portent collectivement le nom de PaN pour

le CNRS sont les synchrotrons SOLEIL ( httpwwwsynchrotron-SOLEILfr ) et ESRF ( httpwwwesrfeu ) les infrastructures de diffusion neutronique ILL ( httpwwwilleu ) et Orpheacutee ( httpwww-centre-saclayceafrfrReacteur-Orphee ) et dans le futur lrsquoESS ( httpseuropeanspallationsourcese ) ainsi que depuis peu le laser agrave eacutelectrons libres X-FEL ( httpswwwxfeleu )

Le degreacute drsquoimplication du CNRS dans ces infrastructures et leur statut national ou international sont deacutetailleacutes dans le tableau (p 24) Bien que ces instruments soient ouverts agrave toutes les communauteacutes scientifiques et le sont pour la plupart agrave lrsquointernational crsquoest lrsquoINP qui est leur interlocuteur pour le CNRS Par ailleurs cette diversiteacute drsquoutilisateurs et de pratiques scientifiques fait de ces infrastructures de tregraves inteacuteressants laboratoires pour la gestion et le traitement de donneacutees et des modegraveles pour ce qui pourrait ecirctre fait au niveau de lrsquoINP et plus geacuteneacuteralement du CNRS

SOLEIL

Instruments agrave lrsquoILL

ESRF

22

Livre Blanc sur les Donneacutees au CNRS Eacutetat des Lieux et Pratiques - 2018

Face au fort accroissement du volume des donneacutees geacuteneacutereacutees et la diversiteacute croissante des utilisateurs les infrastructures PaN ont mis en place entre 2008 et 2010 une collaboration europeacuteenne sur les donneacutees nommeacutee laquo PaNdata raquo Elle concerne treize instruments europeacuteens avec pour objectif drsquoeacutetablir une infrastructure commune aux installations PaN qui permet un accegraves commun aux donneacutees et agrave des outils drsquoanalyse et de partage de donneacutees

Sur 2010-2011 cette collaboration a eacuteteacute soutenue par une action de support de lrsquoUnion europeacuteenne laquo PaNdata Europe raquo comprenant des ateliers autour de la standardisation des formats de lrsquoeacutechange drsquoinformation sur les utilisateurs de lrsquointeropeacuterabiliteacute des logiciels drsquoanalyse du reacutefeacuterencement des reacutesultats et de la politique des donneacutees

Srsquoen est suivi un projet INFRA de la Commission PaNdata Open Data Infrastructure ( ODI ) Celui-ci a permis la mise en place drsquoun systegraveme drsquoidentification commun nommeacute laquo Umbrella raquo pour six des treize installations Il a eacutegalement meneacute au choix drsquoun format binaire commun des donneacutees NeXusHDF5 et drsquoun systegraveme de gestion des meacutetadonneacutees laquo ICAT raquo utiliseacute dans trois des infrastructures

INP

23

Livre Blanc sur les Donneacutees au CNRS Eacutetat des Lieux et Pratiques - 2018

Afin de consolider ces avanceacutees et de preacuteparer lrsquoavenir en 2015 le projet laquo PaNDaaS raquo ( data analysis as a service ) a eacuteteacute proposeacute dans le cadre de lrsquoappel INFRADEV-4 de la Commission Plus preacuteciseacutement ce projet de 12 millions drsquoeuros avec vingt partenaires et porteacute par lrsquoESRF avait pour but de proposer aux utilisateurs des infrastructures PaN une plateforme mateacuterielle et logicielle unifieacutee permettant lrsquoanalyse la visualisation et la navigation au travers des donneacutees geacuteneacutereacutees par les instruments sur site ou agrave distance La solution envisageacutee eacutetait de type laquo cloud raquo avec appel possible agrave des infrastructures commerciales Le projet nrsquoa pas eacuteteacute retenu Toutefois un certain nombre des activiteacutes preacutevues dans ce projet continuent agrave avancer sur fonds propres

Parmi celles-ci lrsquoILL megravene lrsquoeffort de mise en place drsquoune politique des donneacutees Une telle politique est devenue indispensable pour la visibiliteacute des TGIR En 2013 lrsquoILL a deacuteployeacute un ensemble complet de services des donneacutees accessible aux utilisateurs au travers drsquoune interface web

Ces services permettent la recherche lrsquoaccegraves lrsquoannotation lrsquoarchivage lrsquoidentification et la publication des donneacutees La mise en place de cette politique a pris cinq ans pour des raisons eacutevoqueacutees ci-dessous Elle est baseacutee sur le cadre donneacute par PaNData selon lequel lrsquoinfrastructure est responsable de la preacuteservation des donneacutees geacuteneacutereacutees sur ses instruments Drsquoautre part gracircce agrave une collaboration avec DataCite et lrsquoINIST les donneacutees brutes sont indexeacutees par un DOI ( Digital Object Identifier ) propre avec un lien sur les scientifiques qui les ont geacuteneacutereacutees au travers drsquoun Research ID drsquoORCID Les meacutetadonneacutees instrumentales sont automatiquement ajouteacutees aux donneacutees brutes par lrsquointerface De plus cette interface relie les projets aux donneacutees et fournit aux utilisateurs des e-logbooks qui permettent de preacuteciser les conditions de lrsquoexpeacuterience et drsquoannoter les donneacutees Le systegraveme fournit une archive centrale en ligne organiseacutee par projet instrument et dates avec un accegraves initialement controcircleacute Les utilisateurs peuvent rendre leurs donneacutees publiques agrave tout moment et doivent le faire dans les trois ans sauf exception accordeacutee par la direction de

Synthegravese des TGIR PaN de lrsquoINP du volume de donneacutees geacuteneacutereacute et de leur politique des donneacutees

24

Livre Blanc sur les Donneacutees au CNRS Eacutetat des Lieux et Pratiques - 2018

lrsquoinfrastructure Elles deviennent alors accessibles au travers drsquoun portail qui les relient aux meacutetadonneacutees logs DOIs etc Elles sont utilisables sous les conditions de la licence CC-BY 40 Toute publication baseacutee sur ces donneacutees doit en citer le DOI et devrait agrave terme figurer dans lrsquoarchive avec ces donneacutees

La mise en place de cette politique des donneacutees a ducirc faire face agrave plusieurs difficulteacutes La premiegravere et peut-ecirctre la plus importante sont les habitudes et mentaliteacutes des utilisateurs qui conccediloivent ces donneacutees fruit de leurs ideacutees et de leur travail comme leur appartenant dans le sens ougrave ils veulent pouvoir les exploiter scientifiquement agrave plein avant de les rendre publiques On peut les comprendre Une autre difficulteacute a eacuteteacute drsquoassocier et de recevoir le soutien des nombreux organismes de recherche associeacutes agrave lrsquoILL Drsquoun point de vue plus technique la collecte drsquoarticles utilisant les donneacutees geacuteneacutereacutees au sein de lrsquoinfrastructure est compliqueacutee du fait des reacutefeacuterencements incomplets ou difficiles agrave identifier dans des recherches automatiseacutees ( p ex DOI des donneacutees inclus dans une figure ) et par le manque drsquooutils de collecte De faccedilon plus geacuteneacuterale une politique des donneacutees est un processus long agrave mettre en place et qui est ralenti par le temps de la science Neacuteanmoins les progregraves sont mesurables comme dans la figure ci-apregraves

A son tour LrsquoESRF mettra en place une politique des donneacutees tregraves similaire agrave celle de lrsquoILL sur toutes ses lignes expeacuterimentales agrave partir de 2020 Cette mise en place a un coucirct non neacutegligeable Par exemple la preacuteservation sur dix ans des donneacutees brutes requiert 100 keuroan de lecteurs et de bandes magneacutetiques suppleacutementaires De plus son implantation occupera 25 ETPsan sur quatre ans

Entre temps le service IT de lrsquoESRF a attaqueacute de front la probleacutematique PaNDaaS du fait de la forte exposition de lrsquoESRF aux gros volumes de donneacutees qui ne fera qursquoaugmenter avec la seconde phase du programme de modernisation de ses lignes qui se terminera en 2022 En effet le volume des donneacutees geacuteneacutereacute par les nouveaux instruments sera tel qursquoil ne sera plus possible de retourner au laboratoire avec ses donneacutees sur un disque Les donneacutees et les outils drsquoanalyse devront donc ecirctre au mecircme endroit Il sera aussi important de preacuteserver et de coupler le workflow des analyses avec les donneacutees elles-mecircmes afin de rendre lrsquoextraction des reacutesultats reproductible

INP

25

Livre Blanc sur les Donneacutees au CNRS Eacutetat des Lieux et Pratiques - 2018

Le but que poursuivent lrsquoESRF et ses collaborateurs PaN est de proposer un service complet allant des donneacutees agrave lrsquoanalyse qui comprend des moyens de calcul des logiciels et de lrsquoexpertise IT tout cela accessible au travers drsquoune interface web Les avantages sont de donner agrave des utilisateurs pas neacutecessairement experts en meacutethodes numeacuteriques non seulement lrsquoaccegraves agrave une infrastructure performante mais aussi agrave des outils drsquoanalyse homogegravenes et certifieacutes Cela permettra drsquoacceacuteleacuterer le processus drsquoanalyse mais aussi de faciliter la collaboration lors de ce processus ainsi que la preacuteservation du workflow Le tout renforcera eacutegalement lrsquoattractiviteacute de lrsquoinfrastructure de recherche Pour mener cette vision agrave terme lrsquoESRF aura investi 3 millions drsquoeuros en ressources humaines entre 2015 et 2020

Lrsquoapproche suivie par lrsquoESRF est de recruter des ingeacutenieurs logiciels pour deacutevelopper une bibliothegraveque qui implante des fonctionnaliteacutes communes agrave de nombreux types drsquoanalyses et de construire les applications scientifiques au-dessus en Open Source sous licence GSL au sein de collaborations geacutereacutees agrave travers Github La vision du service DaaS de lrsquoESRF est illustreacutee par le graphique ci-dessous

Pour conclure sur les TGIR de lrsquoINP les scientifiques du CNRS geacutenegraverent ~800 Toan de donneacutees sur ces instruments un chiffre qui croicirct drsquoanneacutee en anneacutee et de faccedilon encore plus significative avec la modernisation en cours des lignes de SOLEIL et de lrsquoESRF et le deacutemarrage drsquoE-XFEL Malgreacute lrsquoeacutechec en 2015 de la demande INFRADEV-4 laquo PaNDaaS raquo et les nombreux challenges poseacutes par la quantiteacute de donneacutees geacuteneacutereacutees par la varieacuteteacute des instruments et par la diversiteacute des pratiques des communauteacutes qui les utilisent le travail neacutecessaire autour de la probleacutematique de lrsquoorganisation du stockage de la mise agrave disposition et de lrsquoanalyse des donneacutees des infrastructures PaN se poursuit avec succegraves sous lrsquoinitiative efficace de lrsquoESRF de lrsquoILL de SOLEIL et de leurs collaborateurs Ce travail demande des moyens humains et informatiques ainsi qursquoun soutien institutionnel en prioriteacute en ce qui concerne les aspects de proprieacuteteacute intellectuelle

Le CNRS fort de sa multidisciplinariteacute et de sa preacutesence dans ces TGIR pourrait contribuer de plusieurs faccedilons agrave cet effort Le CNRS au travers de projets type Mastodons de la Mission pour lrsquointerdisciplinariteacute etou de Groupements de recherche pourrait encourager la collaboration de scientifiques de diffeacuterents domaines autour de

26

Livre Blanc sur les Donneacutees au CNRS Eacutetat des Lieux et Pratiques - 2018

lrsquoameacutelioration des algorithmes utiliseacutes dans lrsquoanalyse de donneacutees synchrotron par exemple sur le modegravele de CAMERA ( httpwwwcameralblgov ) aux Eacutetats-Unis Plus concregravetement le CNRS pourrait financer des postes ou mois drsquoingeacutenieur pour deacutevelopper des logiciels de traitement de donneacutees synchrotron tels XSOCS ( httpssourceforgenetprojectsxsocs ) Il pourrait eacutegalement donner accegraves agrave des moyens informatiques de type cloud agrave ces TGIR au travers par exemple drsquoun accord avec le CC-IN2P3 ou France Grilles De surcroicirct agrave lrsquoavenir le CNRS pourrait ecirctre le moteur derriegravere la creacuteation drsquoune archive Open Data et le deacuteveloppement drsquoun portail Open Science tel que le Centre de Donneacutees astronomiques de Strasbourg ( httpcdswebu-strasbgfr ) auxquelles les TGIR PaN participeraient

Outre les retours en termes de science aupregraves des TGIR PaN ces expeacuteriences dans lrsquoorganisation le stockage la mise agrave disposition et lrsquoanalyse des donneacutees dans un environnement de diversiteacute drsquoutilisateurs et de

pratiques scientifiques qui restent neacuteanmoins limiteacutees aux probleacutematiques PaN pourraient servir de tremplin agrave la mise en place drsquoune politique de la conservation et de lrsquoexploitation des donneacutees au CNRS

234 Les donneacutees de lrsquoINP dans les centres de calcul nationaux

Si on se place au niveau des centres nationaux de calcul les projets de physique ( CT 5 et 9 ) geacutenegraverent et utilisent au moins temporairement beaucoup de donneacutees avec un total de lrsquoordre de 500 To eacutequivalent au climat hors CMIP6 ( CT1 ) et supeacuterieur agrave lrsquoastrophysique et agrave la geacuteophysique ( CT 4 ) cf figures ci-dessous qui rapportent la quantiteacute de donneacutees preacutesentes sur les disques de travail en feacutevrier 2015 sur les deux calculateurs de lrsquoIDRIS

Donneacutees non peacuterennes agrave lrsquoIDRIS ($WORKDIR)

INP

27

Livre Blanc sur les Donneacutees au CNRS Eacutetat des Lieux et Pratiques - 2018

Neacuteanmoins une grande partie de ces donneacutees ne sont neacutecessaires que dans des eacutetapes intermeacutediaires des calculs ou alors sont preacuteserveacutees ailleurs En effet si lrsquoon considegravere les donneacutees conserveacutees agrave long terme sur bandes magneacutetiques agrave lrsquoIDRIS les physiciens sont des utilisateurs moyens et se retrouvent loin derriegravere les climatologues avec plus de 300 To sur bandes comme lrsquoindique la figure suivante

Pour analyser cette situation de plus pregraves nous prenons comme exemple dans le CT 5 la QCD sur reacuteseau dont les objectifs sont

bull Deacuteterminer les proprieacuteteacutes fondamentales de ces constituants eacuteleacutementaires que sont les quarks

bull Calculer les nombreuses proprieacuteteacutes des protons neutrons et autres hadrons

bull Aider agrave reacuteveacuteler de nouvelles particules eacuteleacutementaires etou interactions fondamentales

bull Agrave plus long terme calculer les proprieacuteteacutes de noyaux atomiques ab initio

Lrsquoapproche consiste agrave reacutesoudre numeacuteriquement les eacutequations de la chromodynamique quantique ( QCD ) parfois coupleacutees agrave celles de lrsquoeacutelectrodynamique quantique ( QED ) dans leur reacutegime hautement non lineacuteaire Une telle approche induit de gros calculs massivement parallegraveles sur des infrastructures nationales et internationales En France 2 eacutequipes contribuent agrave cet effort mondial

bull La European Twisted Mass collaboration ( LPT Orsay LPC Clermont )

bull La Budapest-Marseille-Wuppertal collaboration ( CPT Marseille SPhN Saclay )

Donneacutees preacuteserveacutees sur bandes magneacutetiques agrave lrsquoIDRIS

28

Livre Blanc sur les Donneacutees au CNRS Eacutetat des Lieux et Pratiques - 2018

Du point de vue des donneacutees dans cette activiteacute de recherche ces collaborations repreacutesentent aujourdrsquohui

bull $WORKDIR

o Typiquement 10 To sur Turing

o ETMC pic agrave 23 Po en post-traitement au CC-IN2P3

bull Sauvegarde laquo peacuterenne raquo

o ETMC ~130 To au CC-IN2P3

o BMWc ~50 To au FZ Julich

Il est important de noter que dans ce domaine drsquoactiviteacute des donneacutees acircgeacutees de plus drsquoenviron cinq ans sont pour la plupart obsolegravetes et il devient plus facile de les recalculer si on en a vraiment besoin Bien sucircr il en va autrement pour les donneacutees expeacuterimentales obtenues aupregraves drsquoacceacuteleacuterateurs qui elles ne sont geacuteneacuteralement pas faciles agrave reproduire

Un certain nombre des donneacutees obtenues en QCD sur reacuteseau sont partageacutees au travers de lrsquoInternational Lattice Data Grid ( ILDG ) avec des formats et des meacutetadonneacutees standardiseacutes des protocoles et outils drsquoeacutechange entre grilles reacutegionales et enfin des catalogues sur les grilles reacutegionales Il srsquoagit principalement des configurations de jauge qui sont agrave la base de tout calcul en QCD sur reacuteseau et qui reacutesultent drsquoun processus markovien coucircteux numeacuteriquement

Dans ce domaine on peut eacutegalement faire une projection sur les besoins en matiegravere de donneacutees agrave lrsquoavenir

bull Pour les eacutetudes dont la vocation est la deacutetermination des proprieacuteteacutes fondamentales des quarks les calculs de proprieacuteteacutes de hadrons ou lrsquoaide agrave la reacuteveacutelation drsquoune nouvelle physique fondamentale on anticipe une croissance modeacutereacutee absorbeacutee par le renouvellement des infrastructures de calcul intensif

bull Par contre en ce qui concerne lrsquoeacutetude ab initio des noyaux atomiques qui nrsquoest actuellement qursquoau niveau de balbutiements la croissance du volume des donneacutees sera potentiellement exponentielle dans 5 agrave 10 ans

235 Les donneacutees dans les laboratoires de lrsquoINP

En mars 2015 la DIST a publieacute les reacutesultats drsquoune enquecircte aupregraves des Directrices et Directeurs drsquouniteacutes du CNRS concernant les usages et les besoins drsquoinformation scientifique et technique des laboratoires En srsquoappuyant sur cette enquecircte ainsi que sur des consultations au sein de lrsquoINP nous avons tireacute les conclusions suivantes concernant les donneacutees dans les laboratoires de lrsquoINP

bull Les eacutequipes dans les laboratoires de lrsquoINP engendrent des donneacutees drsquoexpeacuterience et de simulation avec des volumes geacuteneacuteralement geacuterables au niveau local

bull Les eacutequipes de lrsquoINP peuvent aussi contribuer agrave geacuterer des bases de donneacutees par exemple en physique atomique et moleacuteculaire ( typiquement sur un site web un serveur de laboratoire ou un serveur international )

bull Les donneacutees sont geacuteneacuteralement sous la responsabiliteacute des eacutequipes qui les produisent

bull Il y a peu de financements externes lieacutes agrave la gestion de ces donneacutees

bull Peu de demandes eacutemanent des laboratoires sur les donneacutees ( beaucoup plus sur le calcul )

bull Tregraves peu de laboratoires ont un plan de gestion de donneacutees

bull Sur certains sites geacuteographiques il y a une participation minoritaire agrave la mutualisation des infrastructures de donneacutees par exemple dans les salles informatiques du datacentre Virtual Data du LabEx P2IO ( Paris-Saclay ) et au Dark Energy Data Center du LabEx OCEVU ( MarseilleMontpellierToulouse )hellip

bull Il nrsquoy a pas encore de politique sur la gestion des donneacutees dans les laboratoires ni de mutualisation au niveau de lrsquoinstitut

INP

29

Livre Blanc sur les Donneacutees au CNRS Eacutetat des Lieux et Pratiques - 2018

Il y a neacuteanmoins des theacutematiques eacutemergentes dans les laboratoires de lrsquoINP qui pourraient ecirctre confronteacutees agrave la probleacutematique du Big Data telle qursquoelle apparaicirct en lien avec par exemple les reacuteseaux sociaux En effet de petites eacutequipes ( au CPT agrave Marseille ou agrave lrsquoIXXI de Lyon ) eacutetudient les donneacutees de reacuteseaux sociaux ( p ex Twitter ) avec pour but par exemple de comprendre diffeacuterents comportements humains agrave lrsquoaide drsquooutils de physique et de lrsquointelligence artificielle ( p ex analyse des dialectes espagnols ) Dans ce genre drsquoeacutetude on procegravede typiquement agrave lrsquoanalyse de 10-20 To de donneacutees de flux de reacuteseau social qui doivent ecirctre laquo filtreacutees raquo agrave lrsquoaide de fermes de PCs de type Hadoop Les quelques Go de donneacutees obtenues peuvent ensuite ecirctre analyseacutes en local

Dans ce domaine les volumes de donneacutees ont une croissance exponentielle qursquoil sera difficile de suivre Un besoin drsquoacceacuteder agrave des fermes de PCs de type Hadoop se manifeste ainsi qursquoun besoin de formation dans lrsquoutilisation de techniques de data mining et dans la gestion de systegravemes Hadoop La possibiliteacute drsquoutiliser des plateformes commerciales ( Amazon Numergy Cloudwatt ) est une possibiliteacute Ces theacutematiques de recherche sont plus reacutepandues dans drsquoautres instituts ( INS2I INSHS ) et il est souhaitable que les solutions agrave ces challenges soient envisageacutees avec ces instituts

236 Participation aux initiatives europeacuteennes sur les donneacutees

Au travers de lrsquoimplication de ses chercheurs dans les activiteacutes du Centre Europeacuteen de Calcul Atomique et Moleacuteculaire ( CECAM ) lrsquoINP participe au Centre of Excellence for Computing Applications ( CoE ) E-CECAM ( httpswwwe-cam2020eu ) qui a pour vocation la creacuteation de codes modulaires open source la formation de jeunes scientifiques et de personnels de lrsquoindustrie dans le deacuteveloppement et lrsquoutilisation de logiciels deacutedieacutes et le conseil au monde industriel dans les domaines de la structure eacutelectronique la dynamique quantique et moleacuteculaire et la modeacutelisation multi-eacutechelles Par contre il est regrettable que lrsquoimplication de ses chercheurs dans des initiatives telles que le CoE NoMad ( Novel Material Discovery httpsnomad-coeeu ) soit tregraves faible alors qursquoil srsquoagit de mettre en place un dispositif pour heacuteberger organiser et partager agrave lrsquoeacutechelle internationale les donneacutees et reacutesultats de calculs et de simulations en physique et chimie des mateacuteriaux

237 Conclusions

La probleacutematique des donneacutees agrave lrsquoINP se pose surtout au travers des TGIR PaN Geacutereacutees par lrsquoINP ces infrastructures servent des communauteacutes qui vont bien au-delagrave de lrsquoINP et de la France

De gros efforts drsquoharmonisation et de mise en place drsquoune politique des donneacutees et de mutualisation ont eacuteteacute effectueacutes ( PaNdata PaNDaaS ) mais nrsquoempecircchent pas drsquoecirctre confronteacutes agrave diverses difficulteacutes Devant lrsquoaccroissement des donneacutees ces efforts deviennent incontournables Ils pourraient aussi servir de base au deacuteveloppement drsquoune politique de la conservation et de lrsquoexploitation des donneacutees au niveau du CNRS

Drsquoun point de vue stockage de donneacutees sur disques dans les centres de calcul nationaux lrsquoINP occupe de lrsquoordre de 200 Toctets par site en scratch et en laquo peacuterenne raquo le rapport entre Toctets engendreacutes et volume de calcul eacutetant petit Dans les meacutesocentres le stockage des donneacutees INP ne semble pas ecirctre un problegraveme important Au niveau des laboratoires les donneacutees sont geacutereacutees par les eacutequipes qui les geacutenegraverent et qui les utilisent

Il nrsquoy a pas encore de politique des donneacutees de lrsquoINP vis-agrave-vis des donneacutees dans les laboratoires la demande nrsquoeacutetant pas particuliegraverement forte LrsquoINP participe au travers de petites eacutequipes agrave lrsquoexploitation de grandes masses de donneacutees sociales meacutedicales etc en appliquant des meacutethodes de modeacutelisation en partie issues de la physique mais pour lrsquoinstant de faccedilon minoritaire

Drsquoautre part LrsquoINP participe aux deacutefis de la Mission pour lrsquointerdisciplinariteacute sur les donneacutees ( p ex Mastodons ) et au GDR MaDICS mais cela reste marginal aussi

30

Livre Blanc sur les Donneacutees au CNRS Eacutetat des Lieux et Pratiques - 2018

24 INSTITUT DES SCIENCES BIOLOGIQUES ( INSB )

241 Introduction

Crsquoest lrsquoassociation de biologistes comme James Watson de chimistes et de physiciens comme R Franklin et F Crick qui a permis de comprendre en 1953 les bases du fonctionnement de lrsquoADN support de lrsquoinformation geacuteneacutetique entraicircnant une premiegravere reacutevolution celle de la biologie moleacuteculaire La deuxiegraveme reacutevolution celle de la geacutenomique a commenceacute au milieu des anneacutees 1990 et a eacuteteacute marqueacutee par le seacutequenccedilage du geacutenome humain un code de plus de 3 milliards de lettres Ce succegraves a neacutecessiteacute des deacuteveloppements technologiques consideacuterables dans les domaines de la physique de lrsquoeacutelectronique de lrsquoinformatique de la chimie et de la biologie

Pour reacutepondre aux besoins de stockage et drsquoanalyse des seacutequences biologiques ( composeacutees drsquoune succession de 4 nucleacuteotides A C G T pour les seacutequences nucleacuteiques et drsquoune succession de 20 acides amineacutes pour les seacutequences proteacuteiques ) les premiegraveres collections de donneacutees en biologie sont apparues sous la forme de livres ( Atlas of Protein Sequences de Dayhoff et al ( 1965-1978 ) Nucleic Acid Sequences Handbook de Gautier et al ( 1981 ) qui contenait 1095 seacutequences et 525506 nucleacuteotides ) puis de banques de donneacutees informatiseacutees au deacutebut des anneacutees 1980 Trois grands centres se chargent de la collecte des seacutequences nucleacuteiques aux Etats-Unis Los Alamos Sequence Database puis GenBank ( depuis 1979 ) au Japon DNA Data Bank of Japan - DDBJ ( depuis 1984 ) et en Europe European Molecular Biology Laboratory Sequence Database - EMBL-Bank ( depuis 1981 ) Ces banques de donneacutees ont un format de donneacutees qui leur est propre mais une collaboration internationale a eacuteteacute mise en place afin drsquoassurer que le contenu de ces ressources soit pratiquement identique Les seacutequences proteacuteiques quant agrave elles ont eacuteteacute reacutepertorieacutees au NCBI ( National Center for Biotechnology Information Etats-Unis ) dans la PIR ( Protein Information Resource - 1984-2004 ) Aujourdrsquohui une seule ressource est maintenue en Europe UniProt dont la fraction contenant des donneacutees laquocureacuteesraquo Swiss-Prot est prise en charge par lrsquoInstitut Suisse de Bioinformatique ( SIB )

La bioinformatique a eacutemergeacute avec la disponibiliteacute des premiegraveres seacutequences proteacuteiques Lrsquoarticle fondateur de Zukerkandl et Pauling ( 1965 ) preacutesente des analyses informatiques etou matheacutematiques et statistiques sur des seacutequences biologiques pour reconstituer lrsquohistoire eacutevolutive des ecirctres vivants Le terme laquobioinformatiqueraquo srsquoest populariseacute dans les anneacutees 1990 autour de la deacutefinition suivante informatique appliqueacutee agrave la biologie Il srsquoagit de lrsquoensemble des meacutethodes informatiques permettant de ( i ) geacuterer les donneacutees produites en masse par la biologie ( ii ) analyser ces donneacutees brutes pour en extraire de lrsquoinformation ( iii ) organiser et structurer cette information ( iv ) infeacuterer des connaissances biologiques ( agrave lrsquoaide de modegraveles et de theacuteories ) agrave partir des informations stockeacutees dans des collections et ( v ) eacutenoncer des hypothegraveses geacuteneacuteralisatrices et de formuler des preacutedictions En pratique les theacutematiques principales de la bioinformatique sont les suivantes

bull Lrsquoanalyse des seacutequences ( ADN ou proteacuteines ) annotation des geacutenomes phylogeacutenie et eacutevolution geacutenomique comparative analyse de variants dans le cadre de maladies geacuteneacutetiques geacutenomique du cancer

bull Les donneacutees drsquoexpression ( ARN et proteacuteines )

bull La structure des macromoleacutecules ( ARN et proteacuteines )

bull Les reacuteseaux de reacutegulation et lrsquoanalyse du meacutetabolisme

bull La meacutetageacutenomique et meacutetabarcoding

bull Lrsquoanalyse drsquoimages

On assiste agrave un changement drsquoeacutechelle en biologie depuis une dizaine drsquoanneacutees et la biologie est entreacutee avec lrsquoavegravenement des approches ndashomiques ( cf 242 ) dans lrsquoegravere du Big Data En effet le deacuteveloppement des technologies agrave haut deacutebit permet par exemple de collecter les donneacutees agrave lrsquoeacutechelle de la cellule entiegravere et drsquoenvisager une deacutemarche encyclopeacutedique en collectant tous les gegravenes tous les transcrits toutes les proteacuteines toutes les interactions tous les meacutetabolites et les flux etc Les conseacutequences sont consideacuterables tant pour notre compreacutehension du vivant que pour les applications

INSB

31

Livre Blanc sur les Donneacutees au CNRS Eacutetat des Lieux et Pratiques - 2018

Nous pouvons maintenant aborder la complexiteacute du vivant non plus uniquement de maniegravere analytique mais de maniegravere globale agrave lrsquoeacutechelle des dizaines de milliers de macromoleacutecules qui interagissent entre elles pour faire fonctionner une cellule un tissu un organisme entier une communauteacute drsquoorganismes La gestion et lrsquoanalyse de ces gros volumes de donneacutees geacuteneacutereacutees par la biologie est donc un enjeu majeur

242 La probleacutematique des donneacutees agrave lrsquoINSB

Lrsquoavegravenement des approches -omiques ( transcriptomique geacutenomique proteacuteomique et meacutetabolomique ) a tregraves largement contribueacute agrave lrsquoacquisition de connaissances sur les organismes vivants aussi bien modegraveles que non modegraveles Depuis 2007 nous assistons au deacuteveloppement de nouvelles technologies de seacutequenccedilage agrave tregraves haut deacutebit ( NGS Next Generation Sequencing ) qui permettent de produire drsquoimportantes quantiteacutes de seacutequences drsquoADN et ARN

De fait la taille des geacutenomes seacutequenceacutes est extrecircmement variable le plus petit geacutenome ( non viral ) connu est Carsonella ruddii 016 Mbp ( millions or mega of base pairs ) et le plus grand Amoeba dubia une amibe microscopique qui preacutesente un geacutenome 100 fois plus gros que le geacutenome humain ( 675 Giga base pairs )

Une eacutetape preacutealable au seacutequenccedilage des geacutenomes drsquoorganismes vivants consiste agrave deacutecouper ces derniers en millions de fragments ( shotgun sequencing ) La taille des lectures varie de 35 bp jusqursquoagrave 2 x 200 bp pour les seacutequenceurs de 2egraveme geacuteneacuteration ( seacutequences courtes mais de tregraves bonne qualiteacute ) et de 14 kbp agrave 47 kbp pour les seacutequenceurs de 3egraveme geacuteneacuteration ( seacutequences beaucoup plus longues mais contenant un taux drsquoerreur autour de 10 aujourdrsquohui ) Un run de seacutequenccedilage produit 3 milliards de lectures apparieacutees de 2 x 100 bp soit 600 Gbp qui repreacutesentent 48 To de donneacutees laquo brutes raquo et environ 10 To avec les meacutetadonneacutees Les coucircts de seacutequenccedilage sont passeacutes de 10 000 $ agrave 003 $ par million de nucleacuteotides seacutequenceacutes Alors que la croissance de la banque geacuteneacuteraliste EMBL a doubleacute sa taille tous les 187 mois La deacutecroissance du coucirct de seacutequenccedilage nrsquoest plus proportionnelle depuis 2007 agrave la deacutecroissance exponentielle des coucircts de stockage et drsquoanalyse informatique ( loi de Moore )

32

Livre Blanc sur les Donneacutees au CNRS Eacutetat des Lieux et Pratiques - 2018

Ces deux facteurs induisent de multiples problegravemes Des fichiers de donneacutees de plusieurs dizaines ( voire plusieurs centaines ) de Go contenant des dizaines de millions de seacutequences sont geacuteneacutereacutes et engendrent des problegravemes de transfert de stockage et des traitements gourmands en meacutemoire vive espace disque et temps de calcul Il y a donc de plus en plus une neacutecessiteacute impeacuterative drsquoutiliser des clusters de calcul ( meacutesocentres CC-IN2P3 IDRIS CCRT ) Drsquoautre part de moins en moins de seacutequences effectivement produites dans les laboratoires sont soumises aux banques de donneacutees publiques En conseacutequence les trois collections geacuteneacuteralistes ne sont plus exhaustives et lrsquoon assiste agrave un foisonnement de collections locales et de banques de donneacutees speacutecialiseacutees qui pose seacuterieusement la question de la dureacutee de validiteacute de ces systegravemes Au niveau europeacuteen la mise en place

drsquoELIXIR a eacuteteacute une reacuteponse aux difficulteacutes croissantes de lrsquoEBI ( European Bioinformatics Institute ) agrave geacuterer toutes ces donneacutees Il srsquoagit drsquoune initiative lanceacutee en 2007 dans le cadre du programme ESFRI ( infrastructures de recherche europeacuteennes ) lrsquoinfrastructure ELIXIR est constitueacutee drsquoun hub central et de nœuds associeacutes ( 23 pays partenaires aujourdrsquohui ) Les biologistes sont noyeacutes sous une avalanche de donneacutees On estime que lrsquoon passe aujourdrsquohui 25 du temps agrave engendrer les donneacutees et 75 du temps agrave les analyser Aux donneacutees de seacutequences geacutenomiques viennent tout naturellement srsquoajouter celles geacuteneacutereacutees par drsquoautres technologies -omiques transcriptomique proteacuteomique meacutetabolomique structuromique et les donneacutees drsquoimages qui geacutenegraverent des quantiteacutes eacutenormes de donneacutees agrave des niveaux biologiques multiples

INSB

33

Livre Blanc sur les Donneacutees au CNRS Eacutetat des Lieux et Pratiques - 2018

Au niveau national le ministegravere a lanceacute en 2010 les premiers appels agrave projets du Plan drsquoInvestissement drsquoAvenir ( PIA ) qui doit entre autres doter la France de plusieurs grandes infrastructures drsquoenvergure nationale et tregraves compeacutetitives internationalement Les mots-cleacutes derriegravere ces infrastructures distribueacutees recouvrent la mutualisation un service ouvert agrave la communauteacute et une expertise pointue dans une technologie du domaine en eacutemergence

bull France Geacutenomique ( FG ) est lrsquoinfrastructure de production de seacutequences geacutenomiques ( ADN ARN ) Les ordres de grandeur des technologies de seacutequenccedilage ont eacuteteacute donneacutes ci-dessus Les donneacutees des appels agrave grands projets de FG sont geacuteneacuteralement traiteacutees au CCRT ougrave lrsquoeacutecosystegraveme neacutecessaire aux traitements bio-informatiques a eacuteteacute mis en place ( cf ci-dessous )

bull ProFI produit des donneacutees de proteacuteomique la volumeacutetrie associeacutee agrave chaque eacutetude est de lrsquoordre de quelques centaines de Mo qui multiplieacutes par le nombre drsquoeacutetudes meneacutees simultaneacutement repreacutesente de lrsquoordre de 100 To mobiliseacutes

bull FRISBI est une infrastructure deacutedieacutee agrave la biologie structurale inteacutegrative dont les besoins informatiques relegravevent surtout du temps de calcul ( programmes de dynamique moleacuteculaire qui peuvent ecirctre exeacutecuteacutes dans les grands centres de calcul nationaux )

bull MetaboHUB produit des donneacutees de meacutetabolomique et de fluxomique chaque plateforme gegravere ses donneacutees ( environ 20 Toan ) de faccedilon diffeacuterente et opportuniste

bull France-BioImaging produit des donneacutees drsquoimages dans un large panel de modegraveles biologiques ( de la cellule unique au petit animal en condition pathologique ) Les diffeacuterents nœuds de lrsquoinfrastructure produisent annuellement 2 Peacutetaoctets de donneacutees avec des donneacutees par projet unitaire de 100 Go agrave 10 To Le flux de donneacutees neacutecessite de laisser les systegravemes de stockage au plus pregraves des systegravemes drsquoacquisition et des moyens de calcul Il est eacutegalement plus efficace de deacuteplacer les algorithmes et logiciels drsquoanalyse au plus pregraves des donneacutees France-BioImaging a deacuteveloppeacute une solution laquo pilote raquo open source de gestion des donneacutees images qui se precircte agrave cette infrastructure distribueacutee ( httpsstrandlsgithubioopenimadis )

Pour reacutepondre aux besoins bioinformatiques engendreacutes par ces quantiteacutes croissantes de donneacutees de nature tregraves diffeacuterente lrsquoInstitut Franccedilais de Bioinformatique ( IFB ) projet laureacuteat de la seconde vague des appels du PIA ( 2012-2019 ) a eacuteteacute mis en place en 2013 Il est

organiseacute en six centres reacutegionaux ( APLIBIO IFB-GO IFB-SO IFB-GS PRABI et IFB-NE ) qui sont des regroupements de plateformes et drsquoeacutequipes de recherche en bioinformatique et en un nœud national ( IFB-core ) qui a une structure de type UMS IFB-core est localiseacute aujourdrsquohui agrave lrsquoIDRIS ( Orsay ) qui heacuteberge aussi les moyens de calcul de lrsquoIFB Sa mission geacuteneacuterale est de fournir des ressources de base et des services en bio-informatique agrave la communauteacute des sciences de la vie autrement dit

bull Fournir un appui aux programmes de la communauteacute des sciences du vivant

bull Mettre agrave disposition une infrastructure informatique deacutedieacutee agrave la gestion et lrsquoanalyse des donneacutees biologiques

bull Agir comme un laquo intermeacutediaire raquo entre la communauteacute des sciences du vivant et celle de la recherche en ( bio )informatique

LrsquoIFB est le nœud franccedilais du reacuteseau europeacuteen ELIXIR et participe agrave de nombreuses actions et projets de cette infrastructure en termes de deacutefinition de standards et drsquoontologies de contribution agrave la FAIRication des donneacutees ( Findable Accessible Interoperable Reusable ) de mise en place de formation ( e-learning )

Dans sa nouvelle feuille de route lrsquoIFB a deacutecideacute de renforcer les liens avec les autres infrastructures ndashomiques ( c-agrave-d service agrave la communauteacute ) et de deacutevelopper un axe drsquoinnovation de laquo bioinformatique inteacutegrative raquo agrave travers la mise en place de projets pilotes transverses puis dans un second temps drsquoappels agrave deacutefis Le constat global est que le verrou majeur de la production scientifique et donc de sa compeacutetitiviteacute se situe largement du cocircteacute de la gestion de la diffusion et de lrsquointerpreacutetation des donneacutees geacuteneacutereacutees au sein de ces infrastructures LrsquoIFB a un rocircle majeur agrave jouer dans lrsquoaccompagnement de ces besoins en mettant au service de ces infrastructures ses ressources et savoir-faire dans le domaine des technologies du numeacuterique pour la biologie et la santeacute

LrsquoIFB va donc amplifier ces collaborations transversales au service des infrastructures productrices de donneacutees autour de trois axes

bull Mise en place de lrsquoinfrastructure de stockage distribueacute des donneacutees massives et leur mise agrave disposition

bull Mise en place de meacutethodes associeacutees de lrsquointeacutegration de ces donneacutees heacuteteacuterogegravenes et du data mining

34

Livre Blanc sur les Donneacutees au CNRS Eacutetat des Lieux et Pratiques - 2018

bull Deacuteveloppement drsquooutils drsquointerpreacutetation et de visualisation de donneacutees biologiques pour accroicirctre leur utiliteacute et faciliter leur interpreacutetation

Compareacute aux traitements des donneacutees en physique chimie sciences de la Terre etc le traitement des donneacutees biologiques ( notamment lrsquoanalyse des seacutequences ) revecirct plusieurs caracteacuteristiques tregraves diffeacuterentes qui expliquent lrsquoutilisation faible des grands centres de calcul nationaux par cette communauteacute ( i ) beaucoup drsquoanalyses de donneacutees sont distribuables ( paralleacutelisables au niveau les donneacutees ) ( ii ) elles neacutecessitent des enchaicircnements de traitements diffeacuterents ( pipelines workflows ) lrsquoutilisation de collections de donneacutees reacuteguliegraverement mises agrave jour et lrsquointeacutegration de donneacutees heacuteteacuterogegravenes ( iii ) dans la pratique une grande varieacuteteacute de langages est utiliseacutee ( Perl Python Java ) et les nombreux logiciels employeacutes ( c-agrave-d 98 logiciels drsquoalignement de lectures sur un geacutenome ) ont souvent beaucoup de deacutependances ( bibliothegraveques versions ) Typiquement une plateforme de bio-informatique met agrave disposition plusieurs centaines de logiciels diffeacuterents La mise en œuvre de ces logiciels neacutecessite le deacuteveloppement drsquointerfaces conviviales ( web GUI ) de suivre lrsquoeacutevolution tregraves rapide des technologies de production de donneacutees et de mettre agrave jour de faccedilon tregraves reacuteguliegravere de nombreuses collections de donneacutees

A titre drsquoillustration la premiegravere version de la banque de donneacutees de familles de domaines proteacuteiques ProDom a eacuteteacute distribueacutee en 1994 en utilisant comme source primaire de donneacutees celles de la banque UniProtKB ( Swiss-Prot + TrEMBL ) La construction de ProDom srsquoeffectue en deux temps geacuteneacuteration des familles proprement dites puis post-traitements et annotation des familles La construction des familles srsquoeffectue par clustering de segments homologues de proteacuteines Initialement les traitements reposaient sur MkDom2 un algorithme reacutecursif en O( n2 ) baseacute sur lrsquoutilisation du programme PSI-BLAST ProDom en 2002 neacutecessitait 2 mois de temps CPU puis 15 mois en 2006 pour passer agrave plus de 20 anneacutees de temps CPU en 2020 On voit bien ici la neacutecessiteacute de repenser la meacutethode en introduisant une paralleacutelisation des calculs et une compression des donneacutees A partir de lagrave un nouvel algorithme MPI-MkDom3 a eacuteteacute introduit avec diverses ameacuteliorations dont une paralleacutelisation agrave base de MPI La construction des familles de ProDom 2010 avec cette nouvelle version prend moins drsquoune semaine aujourdrsquohui au lieu de plus de 20 ans Les diverses optimisations reacutealiseacutees ont imposeacute entre autres de prendre en compte les probleacutematiques de lrsquoeacutequilibrage de charge entre les processeurs et ont conduit au deacuteveloppement de Paraload un outil drsquoeacutequilibrage de charge dynamique agrave base de modegravele client-serveur

Cette illustration constitue un exemple drsquoutilisation de donneacutees massives en biologie qui neacutecessite des temps de calcul tregraves importants et dont la valeur ajouteacutee provient des reacutesultats des calculs effectueacutes sur les donneacutees laquo brutes raquo que sont les seacutequences proteacuteiques

On peut ainsi constater que la bioinformatique a eu tendance par le passeacute agrave deacutevelopper ses propres infrastructures et affiche une faible utilisation des centres de calcul HPC ( excepteacute pour les simulations de dynamique moleacuteculaire ) De mecircme lrsquoutilisation des meacutesocentres reacutegionaux reste modeacutereacutee Cependant la communauteacute est consciente des difficulteacutes de passage agrave lrsquoeacutechelle des plateformes de bioinformatique et explore lrsquointeacuterecirct de lrsquoutilisation de la grille avec le projet GRISBI sur Grenoble et srsquoimplique dans le deacuteveloppement drsquoun Cloud acadeacutemique ( avec le soutien de lrsquoIBCP de GenOuest et de lrsquoIFB ) qui repose sur les infrastructures nationales de lrsquoIFB et les plateformes reacutegionales Ces plateformes de bioinformatique fournissent un accegraves gratuit agrave leurs infrastructures soit environ 10 000 cœurs et 1 Po de stockage ( sur 20 localisations diffeacuterentes ) alors que le nœud national de lrsquoIFB heacutebergeacute agrave lrsquoIDRIS apporte de lrsquoordre de 10 000 cœurs et 2 Po de stockage

243 Conclusion

Lrsquoensemble de la biologie est impacteacute par la disponibiliteacute des meacutethodes agrave haut deacutebit qui induisent des changements profonds dans les pratiques ( objectifs plans expeacuterimentaux ) Toute analyse neacutecessite deacutesormais de disposer de moyens de calcul conseacutequents ( validations statistiques ) qui doivent ecirctre disponibles aussi bien au niveau national que local

On assiste agrave un veacuteritable changement de paradigme au sein de la biologie avec un besoin deacutecroissant en techniciens sur les paillasses et croissant en analystes de donneacutees qui sont actuellement une denreacutee rare

Il y a obligation de deacutevelopper de nouvelles approches pour la gestion le partage et le traitement des donneacutees en franchissant le seuil de la paralleacutelisation des calculs et en travaillant sur la reacuteduction de la taille des jeux de donneacutees ( eacutechantillonnage compression clustering )

Du point de vue des infrastructures -omiques en compleacutement du rapprochement existant aupregraves de lrsquoinfrastructure national de lrsquoIFB il faudrait inciter les plateformes reacutegionales agrave srsquoappuyer plus fortement sur les meacutesocentres de calcul

INSB

35

Livre Blanc sur les Donneacutees au CNRS Eacutetat des Lieux et Pratiques - 2018

25 INSTITUT DES SCIENCES HUMAINES ET SOCIALES ( INSHS )

251 Introduction

Les donneacutees sont devenues au niveau international un facteur cleacute pour nombre de disciplines SHS ainsi qursquoun domaine en soi Les donneacutees sont une matiegravere convoiteacutee pour la recherche en SHS comme pour drsquoautres secteurs drsquoactiviteacute Produire diffuser tirer de la connaissance des donneacutees est donc une question strateacutegique pour lrsquoInSHS

LrsquoInSHS regroupe des disciplines dans lesquelles les analyses quantitatives baseacutees sur des jeux importants de donneacutees sont depuis longtemps fondamentales ( lrsquoeacuteconomie la sociologie la deacutemographie ) et drsquoautres qui sans ignorer lrsquousage des donneacutees ont vu de maniegravere plus reacutecente lrsquoeacutemergence de probleacutematiques propres au data driven ( litteacuterature histoire )

Une des caracteacuteristiques majeures de la donneacutee en SHS reacuteside dans la tregraves grande heacuteteacuterogeacuteneacuteiteacute des types de donneacutees utiliseacutes par les chercheurs qui vont des donneacutees agreacutegeacutees de la statistique publique jusqursquoagrave des corpus textuels ou drsquoimages en passant par les donneacutees individuelles et nominatives ou pour lrsquoarcheacuteologie par des donneacutees 3D

Cette heacuteteacuterogeacuteneacuteiteacute est renforceacutee par le fait que les chercheurs en SHS disposent de donneacutees de deux origines principales les donneacutees qursquoils ont produites par eux-mecircmes mais aussi de donneacutees produites par la socieacuteteacute comme les donneacutees fournies par la statistique publique ainsi que par le mouvement drsquoopen data ou les corpus fournis par les bibliothegraveques qui peuvent ecirctre interrogeacutes ou combineacutes de maniegravere novatrice

Lrsquoapparition de ces vastes corpus de sources par exemple archeacuteologiques artistiques ou textuelles ou la constitution de grandes bases de donneacutees donnant accegraves aux comportements personnels et sociaux des personnes dans une vaste gamme de domaines modifient en effet la maniegravere dont les chercheurs SHS abordent les objets scientifiques sur lesquels ils travaillent elles leur donnent accegraves agrave un ensemble drsquoinformations qui peuvent ecirctre fouilleacutees automatiquement et appareilleacutees les unes aux autres elles permettent de construire de nouvelles modaliteacutes de validation scientifique agrave cocircteacute des techniques fondeacutees sur lrsquoeacutechantillonnage lrsquoeacutetude de cas ou encore

la veacuterification drsquohypothegraveses ou de theacuteories construites indeacutependamment des donneacutees Ces nouvelles pratiques reacuteinterrogent les cateacutegorisations et grilles drsquoanalyse SHS en mecircme temps qursquoelles posent une seacuterie de questions de nature eacutethique degraves qursquoil srsquoagit de donneacutees individuelles

Cette datafication des sciences sociales et des humaniteacutes est un fait dont les implications ne sont pas toujours bien appreacutehendeacutees par les communauteacutes Elle impose des contraintes nouvelles reacuteflexion sur les standards plan de gestion des donneacutees promulgation de bonnes pratiques prise de recul meacutethodologique et eacutepisteacutemologique LrsquoInSHS agrave travers diffeacuterents dispositifs srsquoemploie agrave diffuser ces bonnes pratiques

Cela passe par un travail de diffusion des probleacutematiques des meacutethodologies lieacutees agrave lrsquousage des donneacutees au sein des diverses communauteacutes scientifiques Cela passe aussi par une articulation forte entre les dispositifs de production drsquoarchivage et de traitement des donneacutees et les communauteacutes scientifiques susceptibles de les utiliser en particulier par le biais de relais locaux sur les sites notamment par les MSH

252 Le dispositif des TGIR SHS

Pour reacutepondre agrave ces deacutefis eacuteviter la dispersion et lrsquoobsolescence des donneacutees produites accompagner les eacutequipes et les chercheurs lrsquoInSHS srsquoappuie sur les deux TGIR SHS dont le CNRS a eacuteteacute deacutesigneacute opeacuterateur par le MESRI la TGIR Huma-Num en charge des humaniteacutes numeacuteriques et la TGIR Progedo en charge de lrsquoaccegraves aux donneacutees de sciences sociales ( statistique publique donneacutees drsquoenquecirctes )

Les deux TGIR se situent agrave lrsquoarticulation des dispositifs europeacuteens de donneacutees en SHS et des dispositifs sur les sites destineacutes agrave favoriser et agrave promouvoir lrsquoaccegraves aux donneacutees de sciences sociales et aux humaniteacutes numeacuteriques

36

Livre Blanc sur les Donneacutees au CNRS Eacutetat des Lieux et Pratiques - 2018

INSHS

Huma-Num

Lrsquoaction de la TGIR Huma-Num ( UMS du CNRS ) est de faciliter le laquo tournant numeacuterique raquo de la recherche en sciences humaines et sociales dans la production et la reacuteutilisation de donneacutees numeacuteriques Il srsquoagit de

bull Deacutevelopper lrsquoappropriation par les communauteacutes scientifiques du cycle de vie des donneacutees numeacuteriques

bull Proposer des services pour les donneacutees au juste niveau et au bon moment

Huma-Num srsquoorganise autour drsquoun certain nombre drsquooutils et de services de projets de recherche de consortiums et de reacuteseaux europeacuteens comme indiqueacute dans la figure ci-dessous

LrsquoUMS Huma-Num est localiseacutee agrave Paris et agrave Lyon au CC-IN2P3 depuis 10 ans

Elle propose un ensemble de services pour les donneacutees numeacuteriques produites en SHS avec des partenariats avec le CC IN2P3 le CINES ( Centre Informatique National de lrsquoEnseignement Supeacuterieur ) et le CCSD ( Centre pour la Communication Scientifique Directe )

A chaque eacutetape du cycle de vie des donneacutees correspond un service deacutedieacute par exemple iRods pour le stockage en coopeacuteration avec le CC-IN2P3 des logiciels drsquoanalyse de donneacutees et de gestions de bases de donneacutees un ensemble drsquooutils de diffusion sur le Web ( p ex pack Nakalona et service de machines virtuelles ) un service drsquoarchivage agrave long terme avec le CINES un service de signalement des donneacutees avec ISIDORE et un service drsquoexposition de donneacutees NAKALA

A cocircteacute de cet ensemble de services Huma-Num seacutelectionne finance et accompagne des consortiums au nombre de 8 agrave 12 destineacutes agrave favoriser lrsquoeacutemergence ou lrsquoimpleacutementation drsquooutils au plus pregraves des besoins des communauteacutes disciplinaires Actuellement les 10 consortiums de Huma-Num repreacutesentent

bull 120 eacutequipes de recherche ( UMR EA )

bull Un reacuteseau de + de 300 chercheurs ingeacutenieurs etc

bull Plus de 50 actions publiques ( formations ateliers seacuteminaireshellip )

Entre 2011 et 2015 plus de 230 actions de coordination nationales dans 16 disciplines majeures des SHS ont eacuteteacute meneacutees plus de 350 fonds drsquoarchivescorpus mis aux normes mis agrave disposition etou signaleacutes 500000 documents issus drsquoarchives scientifiques ont eacuteteacute mis en open access

37

Livre Blanc sur les Donneacutees au CNRS Eacutetat des Lieux et Pratiques - 2018

Enfin Huma-Num constitue la brique franccedilaise de deux dispositifs drsquoinfrastructures europeacuteennes de recherche ( ERIC European Research Infrastructure Consortium ) lieacutees aux donneacutees

bull DARIAH-EU ( Digital Research Infrastructure for the Arts and Humanities )

bull CLARIN ( European Research Infrastructure for Language Resources and Technology )

Un certain nombre drsquooutils deacuteveloppeacutes par Huma-Num sont aujourdrsquohui impleacutementeacutes au niveau europeacuteen via diffeacuterents programmes H2020 en relation avec ces deux ERIC La TGIR dispose donc drsquoune reconnaissance internationale attesteacutee par de nombreuses demandes drsquoexpertise ou de coopeacuteration venues des ERIC et de diffeacuterents pays ( Queacutebec Argentine )

Progedo

La TGIR Progedo opeacutereacutee par lrsquoUMS Progedo ( CNRS-Ehess ) est lrsquoacteur central en matiegravere de production et de gestion de donneacutees en sciences sociales Lrsquoinfrastructure a pour mission de hausser le niveau de structuration nationale des communauteacutes de recherche en deacuteployant une strateacutegie de deacuteveloppement entre les organismes de recherche les grands eacutetablissements et les universiteacutes et de renforcer la position de la France dans lrsquoespace europeacuteen de la recherche

Pour ce faire Progedo organise lrsquoappui agrave la collecte agrave la documentation agrave la preacuteservation et agrave la promotion drsquoun vaste ensemble de donneacutees neacutecessaires aux disciplines des sciences humaines et sociales dans un cadre conforme agrave la leacutegislation et la regraveglementation en vigueur concernant la protection des donneacutees individuelles Elle favorise la diffusion de ces donneacutees pour la recherche soutient la reacutealisation de grandes enquecirctes et bases de donneacutees repreacutesentatives neacutecessaires agrave la recherche et participe agrave la mise en place des dispositifs seacutecuriseacutes drsquoaccegraves aux donneacutees individuelles

38

Livre Blanc sur les Donneacutees au CNRS Eacutetat des Lieux et Pratiques - 2018

Progedo constitue la tecircte de reacuteseau de diffusion nationale des donneacutees produites Elle srsquoappuie actuellement sur quatre entiteacutes

bull Deux eacutequipes lieacutees au CNRS

o lrsquoADISP qui met agrave disposition les donneacutees de la statistique publique agreacutegeacutees

o le CDSP avec Sciences Po Paris qui deacuteploie la mise agrave disposition des donneacutees produites par les chercheurs en sciences politiques principalement

bull Le service des enquecirctes de lrsquoINED

bull LrsquoEquipex CASD porteacute par le GENES ( INSEE ) pour lrsquoaccegraves seacutecuriseacute aux donneacutees en particulier aux donneacutees individuelles en les anonymisant

Progedo est la seule structure nationale de mise agrave disposition des donneacutees en sciences sociales Elle est construite comme une ombrelle destineacutee agrave couvrir tout le champ neacutecessaire autour des donneacutees drsquoenquecirctes pour la recherche Elle srsquoorganise en quatre deacutepartements qui correspondent agrave quatre grands types de donneacutees en sciences sociales

Ces quatre deacutepartements regroupent les activiteacutes correspondant agrave trois ERIC

bull CESSDA ( donneacutees de la recherche et de la statistique publique )

bull ESS ( donneacutees de sciences politiques et enquecirctes drsquoopinion )

bull SHARE ( donneacutees de santeacute )

et un ERIC en projet GGP ( relations familiales approches longitudinales des dynamiques familiales )

En tant que structure de coordination son peacuterimegravetre peut donc ecirctre appeleacute agrave srsquoeacutetendre agrave drsquoautres types de donneacutees de sciences sociales Cette position surplombante assure agrave terme la coheacuterence de lrsquoensemble des dispositifs franccedilais de mise agrave disposition des donneacutees et leur parfaite articulation avec un eacutechelon europeacuteen dont les contours sont encore agrave deacutefinir Progedo est donc destineacutee agrave ecirctre le relais franccedilais vis-agrave-vis de toutes les infrastructures europeacuteennes de donneacutees de sciences sociales existantes et agrave venir Cette organisation qui donne une visibiliteacute sur tous les dispositifs ERIC centres de compeacutetences et services nationaux ne se retrouve pas ailleurs en Europe et est un atout face agrave des modes drsquoorganisation nationaux geacuteneacuteralement plus cloisonneacutes geacuteneacuterateurs de coucircts suppleacutementaires et de doublons et un paysage europeacuteen des donneacutees non stabiliseacute

INSHS

PLATES-FORMES UNIVERSITAIRES DE DONNEacuteESavec le RnMSH les MSH et Universiteacutes de Lille Caen Lyon Nantes Strasbourg Dijon

ANIMATION SCIENTIFIQUE

PRODUCTIONENQUEcircTE

DEPARTEMENT GGP-FRANCE

DIFFUSION

ANIMATION SCIENTIFIQUE

DEPARTEMENT QUETELET PROGEDO DIFFUSION(Cessda - FranCe)

ANIMATION SCIENTIFIQUE

PRODUCTIONENQUEcircTE

DEPARTEMENT ESS-FRANCE

ANIMATION SCIENTIFIQUE

PRODUCTIONENQUEcircTE

DEPARTEMENT SHARE-FRANCE

UMS PROGEDO ANIMATION GEacuteNEacuteRALE

CONSEIL SCIENTIFIQUE

COMITEacute DE PILOTAGE

tutelles EHESSCNRS

39

Livre Blanc sur les Donneacutees au CNRS Eacutetat des Lieux et Pratiques - 2018

Implanteacutee en reacutegion gracircce agrave ses plateformes universitaires de donneacutees ( PUD ) Progedo est un acteur essentiel pour la formation agrave lrsquousage des donneacutees de la recherche Ces PUD sont des portes drsquoentreacutee dans le monde des donneacutees pour des publics parfois tregraves eacuteloigneacutes par leur parcours universitaire et leurs pratiques scientifiques des techniques statistiques Avec la mise en reacuteseau des PUD la TGIR srsquoattache agrave deacutevelopper conjointement lrsquoaccegraves aux ressources et agrave la compeacutetence collective des utilisateurs une double condition neacutecessaire pour permettre agrave la France drsquoecirctre au bon niveau international Les PUD installeacutees au sein des communauteacutes sur les sites universitaires dans les MSH lieu de deacutecloisonnement par excellence constituent un levier essentiel Lrsquoobjectif est drsquoouvrir 20 nouvelles PUD dans les trois ans 9 le sont actuellement

Articulation avec les autres producteursdiffuseur de donneacutees

Le dispositif de donneacutees SHS se construit autour de ces deux pocircles majeurs que sont Huma-Num et Progedo mais aussi en articulation avec une seacuterie drsquoautres infrastructures ou de dispositifs qui soit mettent agrave disposition des donneacutees soit assurent leur diffusion aupregraves des communauteacutes de recherche Les TGIR travaillent donc agrave favoriser la conservation agrave garantir lrsquointeropeacuterabiliteacute le moissonnage la diffusion de donneacutees ou de standards produits par drsquoautres infrastructures de nature speacutecifique telles que

bull Open Edition

bull Perseacutee

bull la chaicircne eacuteditoriale XML-TEI METOPES19

Les deux TGIR sont donc fortement articuleacutees autour de ces 3 IR inscrites sur la feuille de route nationale des infrastructures

Elles travaillent eacutegalement en eacutetroite collaboration avec les 23 MSH reacuteparties sur les sites ougrave elles trouvent des relais efficaces agrave la fois pour la mise agrave disposition des donneacutees la diffusion de la pratique des donneacutees et du numeacuterique dans les communauteacutes de chercheurs

19 httpwwwunicaenfrrecherchemrshdocument_numeriqueprojetsmetopes

253 Conclusion

Les enjeux pour lrsquoInSHS en matiegravere de donneacutees sont au moins au nombre de quatre

- Organiser des dispositifs de gestion des donneacutees qui assurent leur peacuterenniteacute leur interopeacuterabiliteacute et leur large diffusion et qui tiennent compte en mecircme temps de la tregraves grande varieacuteteacute des types de donneacutees SHS

- Encourager le tournant numeacuterique et conduire les chercheurs agrave prendre la mesure du tournant eacutepisteacutemologique que constitue le deacuteveloppement des donneacutees pour tous les champs disciplinaires SHS Il srsquoagit de deacutevelopper dans les communauteacutes une laquo culture de la donneacutee raquo propre agrave reacutesoudre ce paradoxe qui fait que la France est un des plus importants producteurs de donneacutees ( du fait notamment de lrsquoancienneteacute de sa statistique publique ) mais qursquoelles sont sous-utiliseacutees par ses chercheurs

- Contribuer agrave aider la socieacuteteacute agrave construire des reacuteponses adapteacutees aux deacutefis poseacutes par la constitution de grandes bases de donneacutees dont les possibiliteacutes de traitement automatique drsquoappariement et de croisement interrogent les dispositifs de protection des donneacutees personnelles les liberteacutes individuelles et le droit agrave la vie priveacutee Ce rocircle doit ecirctre mieux identifieacute par les speacutecialistes des autres sciences et par les deacutecideurs publics

- Contribuer au deacuteveloppement des initiatives autour de lrsquoopen data et agrave la reacuteflexion sur leurs impacts sur les sciences et sur la socieacuteteacute qui sont au cœur de la strateacutegie nationale de recherche ( Deacutefi 7 Socieacuteteacute de lrsquoinformation et de la communication - Orientation 25 Systegravemes sucircrs drsquoexploitation des grandes masses de donneacutees Deacutefi 8 Socieacuteteacutes innovantes inteacutegratives et adaptatives - Orientation 29 Seacutecurisation et optimisation de lrsquoextraction des donneacutees )

40

Livre Blanc sur les Donneacutees au CNRS Eacutetat des Lieux et Pratiques - 2018

26 INSTITUT DES SCIENCES DE LrsquoINGENIERIE ET DES SYSTEMES ( INSIS )

261 Introduction

LrsquoInstitut des Sciences de lrsquoIngeacutenierie et des Systegravemes ( INSIS ) rassemble environ 6000 chercheurs et enseignants-chercheurs ( dont 961 chercheurs CNRS et 5026 enseignants-chercheurs ) reacutepartis dans une centaine drsquouniteacutes de recherche Ses theacutematiques couvrent une partie des sections 4 ( fusion par confinement magneacutetique ITER ) 7 ( signal image automatique robotique ) 30 ( bio ingeacutenierie ) la totaliteacute des sections 8 ( micro et nano-technologies eacutelectronique photonique eacutelectromagneacutetisme eacutenergie eacutelectrique ) 9 ( ingeacutenierie des mateacuteriaux et des structures meacutecanique des solides acoustique ) et 10 ( milieux fluides et reacuteactifs transports transferts proceacutedeacutes de transformation ) du Comiteacute National

LrsquoInstitut est donc multi-theacutematiques et comporte de nombreuses disciplines qui utilisent agrave peu pregraves toutes lrsquooutil de simulation Cependant les ingeacutenieurs se sont lanceacutes tregraves tocirct dans la simulation avec des moyens et des deacuteveloppements algorithmiques propres adapteacutes aux laquo systegravemes raquo ce qui fait que les pratiques en matiegravere de simulation sont heacuteteacuterogegravenes Il y a notamment une asymeacutetrie entre la proportion de recherche impliquant la simulation en meacutecanique des fluides au sens large ( incluant la combustion ) et les autres disciplines

En ingeacutenierie des systegravemes la numeacuterisation entre en jeu non seulement pour la simulation mais pour les expeacuteriences ou les modegraveles ainsi les donneacutees numeacuteriques sont manipuleacutees dans de nombreux contextes En voilagrave quelques-uns agrave titre drsquoexemple

bull Capteurs en reacuteseau les eacutechanges drsquoinformation issus de mesures provenant de diffeacuterents capteurs notamment pour le controcircle des systegravemes neacutecessitent des techniques et algorithmes speacutecifiques de gestion de flots de donneacutees ainsi que pour le post-traitement des masses de donneacutees qursquoil srsquoagit aussi de stocker ou archiver

bull Reacuteseaux en geacutenie eacutelectrique des probleacutematiques similaires de mise en place de strateacutegies de gestion des donneacutees pour la production et la distribution de lrsquoeacutenergie eacutelectrique

bull Meacutecanique pour le vivant cela concerne lrsquoimagerie meacutedicale pour les tissus vivants avec de nombreuses questions pour les donneacutees concernant leur qualiteacute leur stockage leur confidentialiteacute Des volumes de donneacutees importants peuvent ecirctre produits notamment en eacutelastographie transitoire baseacutee sur le couplage drsquoun prototype drsquoimagerie eacutechographique capable drsquoatteindre des cadences eacutechographiques supeacuterieures agrave 5000 images par seconde

bull Acoustique il srsquoagit principalement des questions drsquoingeacutenierie des ondes acoustiques concernant leur propagation et transmission mais les donneacutees en aeacuteroacoustique ont un lien direct avec la meacutecanique des fluides et cette theacutematique est aussi relieacutee avec la meacutecanique des vibrations au travers de lrsquointeraction fluide-structure

bull Meacutecanique des solides structures et mateacuteriaux la prise en compte des non lineacuteariteacutes comportementales des mateacuteriaux dans les meacutethodes de changement drsquoeacutechelle est effectueacutee au moyen de modeacutelisations theacuteoriques associeacutees agrave des outils numeacuteriques innovants ( eacuteleacutements finis eacutetendus transformations de Fourier rapides ou FFT techniques de reacuteduction de modegraveles etc ) Pour les mateacuteriaux et les structures les mesures de deacuteplacement ou de champs sont de nos jours baseacutees sur de lrsquoimagerie 2D et 3D notamment en tomographie avec des techniques multiples utilisant la lumiegravere visible les infrarouges les rayons X etc Ceci est tout particuliegraverement utile pour le controcircle des deacutefauts ou de lrsquousure des mateacuteriaux

bull Meacutecanique des fluides la theacutematique couvre tous les pheacutenomegravenes fluides agrave toutes les eacutechelles allant de la microfluidique aux eacutechelles geacuteophysiques et astrophysiques Les simulations numeacuteriques directes notamment en turbulence qui y sont reacutealiseacutees sont parmi les plus consommatrices de temps de calcul et productrices de donneacutees comme illustreacute plus en deacutetail ci-apregraves

INSIS

41

Livre Blanc sur les Donneacutees au CNRS Eacutetat des Lieux et Pratiques - 2018

On se rend donc bien compte que les questions scientifiques agrave lrsquoINSIS portent sur des probleacutematiques multi-physiques qui sont reacutesolues numeacuteriquement par lrsquoapplication drsquoalgorithmes pour le calcul haute performance crsquoest-agrave-dire le calcul parallegravele mais aussi le Cloud computing Le passage agrave lrsquoeacutechelle pour des systegravemes complexes reacuteels en ingeacutenierie neacutecessite ainsi une hieacuterarchie drsquoapplications qui permet en outre drsquoaborder explicitement les aspects multi-eacutechelles Les systegravemes multi-physiques neacutecessitent notamment le couplage entre codes de nature diffeacuterente Crsquoest la probleacutematique geacuteneacuterique des intergiciels ( parmi lesquels les logiciels de couplage comme OpenPALM ) mais ceci introduit la difficulteacute suppleacutementaire poseacutee par lrsquoheacuteteacuterogeacuteneacuteiteacute des donneacutees agrave stocker et agrave analyser

Lrsquoinstitut est donc un des principaux utilisateurs du calcul haute performance au CNRS comme lrsquoattestent notamment les attributions drsquoheures de calcul par GENCI dans deux comiteacutes theacutematiques parmi dix concernant seacutepareacutement les eacutecoulements reacuteactifs drsquoune part et les eacutecoulements non reacuteactifs drsquoautre part

Ce poids de lrsquoINSIS cache en fait une tregraves grosse dispariteacute selon les theacutematiques plus de 90 des ressources sur les centres nationaux sont consommeacutees par la meacutecanique des fluides au sens large du terme deacutefinie ici comme reacutesolution des eacutequations de Navier-Stokes et des eacutequations associeacutees ( meacutecanique des fluides combustion eacutecoulements diphasiques transferts thermiques plasmas magneacutetohydrodynamique aeacuteroacoustique transport seacutedimentairehellip ) par un petit nombre de laboratoires ( moins drsquoune dizaine ) et de chercheurs rattacheacutes pour la plupart agrave la section 10 du Comiteacute National Les communauteacutes laquo meacutecanique des solides raquo et laquo mateacuteriaux et structures raquo bien que revendiquant une activiteacute calcul intensif sont absentes un seul projet tandis que les quelques projets interaction fluidestructure sont le fait de laboratoires nettement identifieacutes laquo meacutecanique des fluides raquo Les projets restants concernent lrsquoeacutelectromagneacutetisme lrsquointeraction lasermatiegravere et la chimie ( calculs ab-initio diagramme de phasehellip )

262 La probleacutematique des donneacutees agrave lrsquoINSIS

La probleacutematique des donneacutees agrave lrsquoINSIS est donc principalement lieacutee agrave la gestion des gros volumes de donneacutees qui sont produits dans le domaine de la simulation numeacuterique et a pour enjeux

bull La modeacutelisation de pheacutenomegravenes avec eacutevolution dans le temps ce qui implique quatre dimensions agrave traiter pour des pheacutenomegravenes spatiaux tridimensionnels ( 3D )

bull Le caractegravere aleacuteatoire de certains comportements qui neacutecessite donc une approche probabiliste La repreacutesentation fidegravele de ces pheacutenomegravenes dans toute leur variabiliteacute reacuteclame de nombreuses reacutealisations drsquoune mecircme expeacuterience ou simulation drsquoougrave la neacutecessiteacute drsquoun stockage et drsquoun traitement statistique a posteriori

bull La visualisation de pheacutenomegravenes complexes multidimensionnels passe par un rendu visuel pour une compreacutehension des pheacutenomegravenes instationnaires avec plus ou moins de reacutealisme dans le rendu spatial En revanche la simulation en temps reacuteel de pheacutenomegravenes rapides nrsquoest que tregraves rarement possible Ainsi le suivi de calculs instationnaires passe par la mise en place de techniques de visualisation agrave la voleacutee qui ne permettent qursquoune observation partielle de lrsquoinstationnariteacute

bull Lrsquoadaptation des codes aux nouveaux algorithmes lieacutes agrave lrsquoeacutevolution technologique et aux nouvelles architectures mateacuterielles notamment les acceacuteleacuterateurs de type GPU dont lrsquoutilisation requiert une adaptation des formats de repreacutesentation des donneacutees internes au calculateur afin de tirer parti de lrsquoarchitecture vectorielle du processeur

bull La creacuteation de formats drsquoenregistrement de donneacutees non seulement compatibles avec la nature de celles-ci selon les disciplines mais aussi lrsquoutilisation de formats compatibles avec des entreacutees-sorties adapteacutees agrave des transferts massifs de champs en simultaneacute par des dizaines voire des centaines de milliers de processeurs dans le cadre de systegravemes de fichiers paralleacuteliseacutes

42

Livre Blanc sur les Donneacutees au CNRS Eacutetat des Lieux et Pratiques - 2018

263 Illustration la question des donneacutees en meacutecanique des fluides

Comme mentionneacute en introduction la meacutecanique des fluides inertes et reacuteactifs repreacutesente une partie tregraves importante dans la production de donneacutees au travers drsquoune repreacutesentation majoritaire des heures de calcul sur les calculateurs nationaux au niveau Tier 1

La simulation produit ainsi des quantiteacutes importantes de donneacutees mais il en va de mecircme pour certaines expeacuteriences dans lesquelles la meacutetrologie a fait un tel progregraves qursquoelle aboutit agrave des volumes de donneacutees aussi importants que les plus grosses simulations Il srsquoagit par exemple de la technique de veacutelocimeacutetrie par imagerie de particules ( Digital Particle Image Velocimetry ou DPIV ) qui permet agrave preacutesent drsquoacqueacuterir agrave des freacutequences tregraves eacuteleveacutees des champs de vitesse reacutesolus spatialement et en temps Les expeacuteriences utilisent des cameacuteras rapides agrave haute reacutesolution et haute freacutequence qui enregistrent les donneacutees brutes directement sur des systegravemes de meacutemoires rapides ( disques de type SSD ) agrave la voleacutee Une seule expeacuterience est capable de produire en une journeacutee jusqursquoagrave 400 To de donneacutees

De mecircme les simulations numeacuteriques directes en turbulence utilisent des algorithmes pseudo-spectraux agrave mecircme de repreacutesenter toutes les eacutechelles drsquoun eacutecoulement Si la puissance actuelle des calculateurs ne permet pas encore de couvrir des gammes drsquoeacutechelles aussi larges que celles rencontreacutees dans les eacutecoulements geacuteophysiques mdash allant du centimegravetre agrave des centaines de kilomegravetres pour lrsquoatmosphegravere mdash les reacutesolutions les plus grandes possible sont rechercheacutees pour une bonne repreacutesentation des pheacutenomegravenes de transfert drsquoeacutenergie et de dispersion Des simulations utilisant des maillages de 40963 points produisent un volume drsquoenviron 15To par iteacuteration de calcul qui se comptent en milliers pour repreacutesenter correctement les fluctuations rapides temporelles Ceci deacutepasse la capaciteacute de stockage alloueacutee agrave un utilisateur sur les grands centres de calcul nationaux Cette difficulteacute impose un stockage drsquoun petit nombre de champs pour lrsquoanalyse exhaustive des indicateurs statistiques des signaux et seules des statistiques choisies en petit nombre sont calculeacutees agrave la voleacutee afin de ne pas impacter la performance du calcul

Par ailleurs les instabiliteacutes hydrodynamiques qui peuvent se produire dans des eacutecoulements complexes utilisent des meacutethodes de continuation selon de nombreux paramegravetres relatifs agrave lrsquoinstabiliteacute eacutetudieacutee Lrsquoalgorithme de suivi est efficace srsquoil utilise

une infrastructure de grille de calcul qui permet drsquoeffectuer un tregraves grand nombre de calculs de taille reacuteduite chacun pour un jeu de paramegravetres diffeacuterents Ceci se reacutealise par le biais de reacuteseaux drsquointerconnexion au travers desquels sont envoyeacutes le code et les paramegravetres sur chaque nœud de calcul qui renvoient les reacutesultats agrave lrsquoissue de la simulation Plusieurs milliers de nœuds peuvent ecirctre impliqueacutes Cette technique est notamment utiliseacutee pour la stabiliteacute drsquoeacutecoulements cisailleacutes eacutetudieacutee gracircce aux moyens du CC-IN2P3 ougrave un environnement de calcul tregraves favorable adapteacute au traitement des donneacutees des collisionneurs est mis en œuvre

Plusieurs questions se posent concernant le statut et le devenir des donneacutees produites

- Quelle est la dureacutee de vie des donneacutees Par exemple concernant leur reacutealisation au niveau technique des simulations agrave reacutesolution 10243 avaient un caractegravere exceptionnel il y a 7 ans mais peuvent ecirctre reproduites aiseacutement avec les moyens actuels Faut-il donc stocker des donneacutees au-delagrave drsquoune peacuteriode relativement courte apregraves laquelle les moyens de calcul permettront leur reproduction agrave un coucirct neacutegligeable

- De nombreuses eacutequipes produisent des bases de donneacutees importantes en quantiteacute et en qualiteacute qui sont sous-exploiteacutees mais qui peuvent ecirctre utiles agrave une eacutequipe srsquointeacuteressant agrave la dynamique du fluide sous un point de vue diffeacuterent Comment peut-on eacuteviter de dupliquer les mecircmes expeacuteriences ou simulations Et dans une logique eacutetendue comment peut-on mettre ces donneacutees agrave disposition de la communauteacute scientifique globale Quelle dureacutee drsquoembargo doit-on imposer avant diffusion geacuteneacuterale

- Quelles sont alors les modaliteacutes de stockage et drsquoeacutechange agrave adopter Ceci pose agrave la fois la question du format des fichiers mais aussi des meacutetadonneacutees agrave lui associer

- Faut-il archiver des donneacutees et pour quelle peacuteriode

Au niveau national au-delagrave des stockages temporaires deacutedieacutes agrave des projets attributaires drsquoheures de calcul sur les grands centres nationaux ou meacutesocentres il nrsquoexiste pas agrave notre connaissance drsquoinitiative globale pour la gestion des donneacutees en meacutecanique des fluides En outre sur les grands centres les politiques de reacutetention de donneacutees et les capaciteacutes des serveurs ne permettent pas le stockage sur des longues dureacutees ou le partage large des donneacutees massives

INSIS

43

Livre Blanc sur les Donneacutees au CNRS Eacutetat des Lieux et Pratiques - 2018

Au niveau europeacuteen on peut mentionner la base de donneacutees Turbase ( httpsturbasecinecait ) qui porte sur les donneacutees en turbulence Cette base utilise lrsquoinfrastructure italienne CINECA situeacutee agrave Bologne qui est un des grands centres europeacuteens participant agrave PRACE20 Des moyens ont eacuteteacute alloueacutes par EuHIT ( projet europeacuteen visant principalement agrave deacutevelopper lrsquoouverture des expeacuteriences de grande taille en turbulence mais avec aussi un volet laquo donneacutees raquo ) pour deacutevelopper Turbase

Agrave lrsquointernational on peut mentionner la base ouverte agrave lrsquouniversiteacute de Johns Hopkins ( Baltimore Etat du Maryland aux USA httpturbulencephajhuedu ) qui outre le stockage et le partage des donneacutees brutes offre une fonctionnaliteacute suppleacutementaire pour extraire une sous-partie de lrsquoinformation ou produire des statistiques associeacutees

On constate cependant lrsquoabsence de standard commun drsquoorganisation des donneacutees ( ( usage de HDF5 VTK donneacutees brutes ou compresseacuteeshellip ) ou des meacutetadonneacutees qui permettent drsquoidentifier exactement la nature et la qualiteacute des donneacutees

20 Partnership for Advanced Computing in Europe ( httpwwwprace-rieu )

264 Conclusion

Lrsquoingeacutenierie srsquoest empareacutee tregraves tocirct de lrsquooutil de simulation avec un modegravele de deacuteveloppement de meacutethodes au niveau de chaque laboratoire voire eacutequipe notamment en meacutecanique des fluides Gracircce agrave une monteacutee en compeacutetence importante due agrave lrsquoattribution de moyens aux laboratoires acadeacutemiques agrave la fois humains et mateacuteriels ce modegravele a eacuteteacute favorable au deacuteveloppement drsquoune reacuteelle expertise en simulation La gestion des donneacutees a susciteacute moins de reacuteflexion et drsquoorganisation en profondeur ce qui fait que lrsquoaugmentation des capaciteacutes de simulation mdash et agrave preacutesent des nouvelles meacutetrologies expeacuterimentales mdash nrsquoa pas eacuteteacute suivie drsquoune augmentation des capaciteacutes de stockage de traitement et drsquoarchivage des donneacutees On se trouve agrave preacutesent dans une situation dans laquelle on est en capaciteacute de reacutealiser des simulations agrave tregraves haute reacutesolution sans savoir complegravetement en traiter les reacutesultats ni ougrave les entreposer

Il srsquoagit donc agrave preacutesent de faire progresser les structures fonctionnelles et mateacuterielles pour geacuterer le patrimoine scientifique que constituent les donneacutees issues de simulations numeacuteriques mais aussi de reacutealisations expeacuterimentales qui sont confronteacutees aux mecircmes probleacutematiques

44

Livre Blanc sur les Donneacutees au CNRS Eacutetat des Lieux et Pratiques - 2018

27 INSTITUT NATIONAL DES SCIENCES MATHEMATIQUES ET DE LEURS INTERACTIONS ( INSMI )

271 Introduction

La mission de lrsquoInsmi est de deacutevelopper et de coordonner les recherches dans les diffeacuterentes branches des matheacutematiques allant des aspects fondamentaux aux applications LrsquoInsmi contribue agrave la structuration de la communauteacute matheacutematique franccedilaise et agrave son insertion dans la communauteacute internationale Elle rassemble 3600 chercheurs et enseignants-chercheurs dont plus de 400 chercheurs CNRS

Tout en soutenant les diffeacuterents domaines des matheacutematiques lrsquoInsmi cherche agrave promouvoir les recherches agrave lrsquointerface avec les autres disciplines scientifiques ainsi que les interactions avec la socieacuteteacute et le monde industriel Comme le souligne un reacutecent rapport ameacutericain ( The mathematical sciences in 2025 The National Academies Press Etats-Unis ) les possibiliteacutes drsquointeraction entre les matheacutematiques et le monde exteacuterieur sont consideacuterablement accrues drsquoune part par la geacuteneacuteralisation de simulations numeacuteriques baseacutees sur des concepts matheacutematiques et rendues possibles par des outils informatiques de plus en plus puissants drsquoautre part par lrsquoaccroissement exponentiel de donneacutees massives agrave traiter La communauteacute matheacutematique est donc fortement solliciteacutee et mobiliseacutee pour reacutepondre aux enjeux lieacutes aux traitements des donneacutees et au calcul scientifique

Comme lrsquoa souligneacute une eacutetude de lrsquoimpact socio-eacuteconomique des Matheacutematiques en France reacutealiseacutee en 2015 la contribution primordiale des matheacutematiques dans le deacuteveloppement de technologies cleacutes sera appeleacutee agrave se renforcer via la maicirctrise par les entreprises de plusieurs champs de compeacutetences strateacutegiques fondeacutes au moins partiellement sur les matheacutematiques

bull Traitement du signal et analyse drsquoimages

bull Data Mining ( statistiques analyse de donneacutees et apprentissage )

bull MSO ( Modeacutelisation - Simulation -Optimisation )

bull HPC ( High Performance Computing ou calcul haute performance )

bull Seacutecuriteacute des systegravemes drsquoinformations et Cryptographie

La maicirctrise de ces champs de compeacutetences par le tissu industriel national est vue comme essentielle pour permettre de relever les deacutefis socio-eacuteconomiques actuels et futurs speacutecifiques ou non aux secteurs drsquoactiviteacute des industries concerneacutees et rester compeacutetitif

Les matheacutematiciens se retrouvent freacutequemment confronteacutes au traitement des donneacutees lorsqursquoils travaillent sur des sujets interdisciplinaires Par exemple la simulation de modegraveles avec une reacutesolution extrecircmement fine amegravene agrave des problegravemes de gestion de grandes masses de donneacutees pouvant atteindre plusieurs To On peut notamment citer les interactions avec

bull La physique et la meacutecanique ( p ex avec les travaux sur les plasmas de tokamak )

bull Lrsquoautomatique et la robotique

bull Lrsquoinformatique notamment en ce qui concerne les recherches en imagerie traitement du signal fouille de donneacutees calcul haute performancehellip

bull Les sciences du vivant Sans ecirctre exhaustif les domaines concerneacutes par ces interactions sont la biologie cellulaire systeacutemique et du deacuteveloppement les neurosciences la geacuteneacutetique lrsquoeacutecologie la bio-informatique la meacutedecinehellip

bull Lrsquoeacuteconomie et les sciences humaines et sociales

Se posent eacutegalement les questions de paralleacuteliser les calculs de communiquer des volumes de donneacutees gigantesques entre les dizaines de milliers de processeurs drsquoun supercalculateur de compresser stocker ou exploiter les donneacuteeshellip Toutes ces questions neacutecessitent une recherche pluridisciplinaire entre ingeacutenieurs matheacutematiciens informaticiens et chercheurs de la discipline du sujet eacutetudieacute ( physiciens biologisteshellip )

Tous les domaines des matheacutematiques sont concerneacutes par les interfaces mentionneacutees preacuteceacutedemment Les plus visibles sont la statistique le calcul scientifique et haute performance les probabiliteacutes les systegravemes dynamiques les eacutequations diffeacuterentielles et aux deacuteriveacutees partielles lrsquooptimisation lrsquoimageriehellip

INSMI

45

Livre Blanc sur les Donneacutees au CNRS Eacutetat des Lieux et Pratiques - 2018

272 La probleacutematique des donneacutees agrave lrsquoINSMI

Le traitement des donneacutees a reacutecemment impacteacute la communauteacute matheacutematique Afin de reacutepondre aux probleacutematiques souleveacutees plusieurs champs de recherche se sont deacuteveloppeacutes dans diffeacuterentes branches des matheacutematiques allant de la recherche fondamentale aux applications21

Lrsquoanalyse

Mecircme si les lois de la physique matheacutematique sont deacutecrites par des eacutequations diffeacuterentielles et des eacutequations aux deacuteriveacutees partielles lrsquoanalyse matheacutematique aborde aujourdrsquohui des domaines moins structureacutes ougrave les lois sont absentes et ougrave il convient de traiter des masses de donneacutees en apparence incoheacuterentes Agrave titre drsquoexemple les problegravemes poseacutes par le changement climatique sont particuliegraverement ardus En conseacutequence une nouvelle analyse matheacutematique est neacutecessaire pour maicirctriser des domaines aussi varieacutes que le changement climatique la geacutenomique la meacutedecine computationnelle la recherche seacutecuritaire agrave lrsquointeacuterieur des donneacutees du webhellip

Les statistiques

Lrsquoeacutevolution actuelle de la discipline est fortement influenceacutee par le deacuteveloppement de lrsquoinformatique aussi bien en termes de moyens de calcul ou de capaciteacute meacutemoire des ordinateurs qursquoen termes drsquoavanceacutees dans le domaine de lrsquoalgorithmique de la theacuteorie de lrsquoinformation ou du codage Les nouvelles capaciteacutes de recueil et de stockage provoquent une veacuteritable avalanche de donneacutees dont le gigantisme rend obsolegravete lrsquoemploi des outils drsquoanalyse des donneacutees traditionnels et dont le traitement requiert de nouvelles compeacutetences pour les statisticiens Ceci est vrai dans plusieurs domaines drsquoapplications en geacutenomique tout autant qursquoen eacuteconomie ou en traitement du signal ou de lrsquoimage Dans le mecircme temps les outils de calcul de plus en plus puissants et performants stimulent lrsquoimagination car ils permettent de mettre en œuvre des strateacutegies drsquoinfeacuterence toujours plus sophistiqueacutees dont lrsquoutilisation aurait eacuteteacute impensable voire absurde au siegravecle dernier Les theacutematiques statistiques lieacutees agrave lrsquoanalyse des donneacutees de grande dimension se deacuteveloppent de faccedilon rapide au sein drsquoeacutequipes de recherche qui sont heacutebergeacutees tantocirct par des laboratoires de matheacutematiques tantocirct

21 Cf Rapport de prospective du Conseil Scientifique drsquoInstitut de lrsquoInsmi mandat 2010-2014

par des laboratoires drsquoinformatique ou les eacutequipes Inria et dont les leaders sont fort heureusement visibles dans les deux disciplines Ces dix derniegraveres anneacutees ont ainsi vu lrsquoeacutemergence drsquoune communauteacute machine learning ( ou laquo apprentissage statistique raquo ) agrave lrsquointerface entre statistique et informatique

Classer des donneacutees en grande dimension analyser des donneacutees massives et souvent heacuteteacuterogegravenes ( Big Data ) bacirctir des preacutevisions agrave partir de donneacutees fonctionnelles analyser des donneacutees structureacutees en grands reacuteseaux voici autant de deacutefis auxquels les statisticiens seront confronteacutes dans les anneacutees agrave venir

Que ce soit pour la conception lrsquoexpeacuterimentation ou lrsquoapplication des meacutethodes statistiques la reacuteflexion matheacutematique est aujourdrsquohui indissociable de la reacuteflexion sur les algorithmes permettant son expression et sa mise en application Lrsquoavenir de la discipline passe donc par le deacuteveloppement harmonieux et les eacutechanges entre les trois grandes branches drsquoactiviteacute que sont la statistique matheacutematique la statistique computationnelle et le traitement de donneacutees

La modeacutelisation et le calcul

Le calcul scientifique consiste agrave mettre en œuvre de la faccedilon la plus efficace possible les algorithmes de calcul sur ordinateur des solutions du modegravele La fameuse loi de Moore preacutedit un doublement de la capaciteacute mateacuterielle de calcul des ordinateurs tous les dix-huit mois Cette loi empirique est veacuterifieacutee depuis plus de quarante ans Si lrsquoon tient aussi compte de lrsquoameacutelioration des algorithmes matheacutematiques de calcul on observe en fait un doublement de la puissance de calcul tous les huit mois seulement Aujourdrsquohui le calcul scientifique est partout dans les teacuteleacutephones portables pour traiter des images ou des videacuteos dans les voitures pour optimiser le freinage ou encore chez les architectes qui doivent preacutevoir la soliditeacute des structures qursquoils dessinent Certains calculs neacutecessitent peu de puissance et peuvent ecirctre reacutealiseacutes sur un ordinateur personnel Mais dans de nombreux domaines de la science la reacutealisation drsquoune simulation impose lrsquousage drsquoun supercalculateur Elle est alors souvent le travail drsquoeacutequipes multidisciplinaires matheacutematiciens informaticiens speacutecialistes du domaine modeacuteliseacute Un deacutefi important attend les speacutecialistes du calcul dans les anneacutees agrave venir Pour faire face agrave la consommation eacutenergeacutetique on assiste agrave une eacutevolution de lrsquoarchitecture des superordinateurs vers des assemblages de centaines de milliers de processeurs relieacutes entre eux par des connexions de vitesses variables Cette eacutevolution neacutecessite de

46

Livre Blanc sur les Donneacutees au CNRS Eacutetat des Lieux et Pratiques - 2018

deacutevelopper de nouveaux algorithmes qui tiennent agrave la fois compte des opeacuterations agrave effectuer mais aussi des deacuteplacements des donneacutees neacutecessaires agrave ces opeacuterations

De plus les calculs peuvent geacuteneacuterer des donneacutees massives ( Big Data ) qursquoil faut ecirctre capable de stocker de compresser et drsquoanalyser En effet avec lrsquoaugmentation de la puissance de calcul les modegraveles sont reacutesolus sur des maillages drsquoune tregraves grande preacutecision Cela neacutecessite le traitement de tregraves grandes masses de donneacutees pour les preacute- et post-traitements des calculs Par exemple les entreacutees utiliseacutees pour lrsquoassimilation de donneacutees dans des modegraveles drsquooceacuteanographie et de meacuteteacuteorologie proviennent drsquoinstruments de mesure ( satellites sondeshellip ) fournissant des masses de donneacutees de plusieurs peacutetaoctets De mecircme lors des post-traitements des simulations la visualisation de donneacutees de tregraves grande taille soulegraveve de nombreuses difficulteacutes Lagrave aussi lrsquoinvention de nouveaux algorithmes est indispensable

Lrsquoimagerie

En deux deacutecennies lrsquoimagerie est devenue un domaine de recherche majeur Les applications sont multiples et la demande socieacutetale forte dans des domaines aussi varieacutes que les sciences du vivant dont les neurosciences la vision la conception assisteacutee par ordinateur la physique des ondes lrsquoastronomie lrsquoeacutelaboration de diagnostics automatiques la deacutetection de situations ou de comportements Les sciences de lrsquoimagerie posent de nouvelles questions matheacutematiques associeacutees aux problegravemes de formation drsquoacquisition de compression de transmission de modeacutelisation drsquoanalyse de traitement drsquointerpreacutetation de restauration drsquoarchivage des images

Les modes drsquoacquisition et de diffusion des images sont multiples et en constante eacutevolution ( teacuteleacutevision numeacuterique HD ou 3D p ex ) Des informations et signaux aussi varieacutes que le niveau de gris la couleur lrsquoinfrarouge proche ou thermique lrsquoimagerie agrave grande gamme dynamique ( high dynamic range ) lrsquoimagerie multispectrale lrsquoimagerie par reacutesonance magneacutetique de diffusion ( diffusion tensor image ) les signaux radarhellip forment des images pluriformes Modeacuteliser manipuler et traiter ces masses de donneacutees heacuteteacuterogegravenes et multidimensionnelles ( images videacuteos surfaces graphes ) est un enjeu scientifique et socio-eacuteconomique majeur Nombre de problegravemes en matheacutematiques de lrsquoimagerie neacutecessitent lrsquooptimisation de fonctionnelles tregraves complexes souvent non lisses parfois non convexes et toujours en tregraves grande dimension ( de

lrsquoordre de plusieurs millions de variables ) engendrant ainsi le traitement drsquoimportantes masses de donneacutees

Geacuteomeacutetrie et topologie

La gestion des donneacutees a eacutegalement impacteacute les matheacutematiques fondamentales telles que la geacuteomeacutetrie ou la topologie Gracircce aux performances accrues des moyens techniques certains problegravemes ont reacutecemment pris une ampleur diffeacuterente et profitent grandement de ces avanceacutees dans le traitement des donneacutees de tregraves grande taille Par exemple crsquoest le cas de lrsquoanalyse topologique des donneacutees En effet il srsquoagit drsquoextraire des informations geacuteomeacutetriques ( courbure ) et topologiques ( pattern ) drsquoun nuage de points dans un espace meacutetrique Lrsquoapproche consideacutereacutee repose sur les descripteurs homologiques persistants Lrsquoutilisation de nuages de points de tregraves grandes tailles en dimension eacuteleveacutee a mis en eacutevidence la pertinence de ces approches aux extensions et applications multiples systegravemes dynamiques astrophysique physique de mateacuteriaux nanomateacuteriaux

Un autre enjeu concerne les expeacuterimentations meneacutees sur des suites entiegraveres multi-indexeacutees correspondant agrave des quantiteacutes geacuteomeacutetriques associeacutees agrave certaines varieacuteteacutes ( algeacutebriques ou symplectiques ) Il srsquoagit dans un premier temps de calculer une eacutenorme quantiteacute de termes de la suite Cette importante masse de donneacutees permet alors pour les suites consideacutereacutees drsquoeacutetudier les proprieacuteteacutes remarquables de comprendre les relations entre ces nombres et drsquoextraire des relations avec drsquoautres proprieacuteteacutes geacuteomeacutetriques

273 Conclusion

Agrave lrsquoheure actuelle les chercheurs de lrsquoInsmi sont essentiellement des utilisateurs de donneacutees plutocirct que des producteurs de donneacutees mais cette tendance peut eacutevoluer tregraves rapidement Lrsquoaccessibiliteacute de donneacutees de plus en plus riches conduit les chercheurs en matheacutematiques agrave faire eacutemerger de nouvelles approches et agrave envisager des changements de paradigmes Cela ne peut ecirctre envisageable qursquoavec un accompagnement humain et mateacuteriel Cet accompagnement doit aussi permettre un accegraves agrave la formation et apporter un soutien agrave la transversaliteacute qui est un des fondements de la notion de laquo donneacutee raquo

LrsquoInsmi est un acteur essentiel dans lrsquoanalyse la modeacutelisation et lrsquointerpreacutetation des donneacutees

INSMI

47

Livre Blanc sur les Donneacutees au CNRS Eacutetat des Lieux et Pratiques - 2018

28 INSTITUT DES SCIENCES DE LrsquoUNIVERS ( INSU )

281 Introduction

LrsquoInstitut National des Sciences de lrsquoUnivers est un institut pluridisciplinaire regroupant les domaines drsquoastronomie et drsquoastrophysique de lrsquooceacutean de lrsquoatmosphegravere des sciences de la Terre des surfaces et interfaces continentales Comprendre et preacutevoir le fonctionnement et lrsquoeacutevolution de ces systegravemes dans leurs environnements est un enjeu scientifique fondamental avec de nombreuses applications socio-eacuteconomiques

Les disciplines de lrsquoINSU partagent une culture scientifique et des pratiques de recherche fondeacutees sur lrsquoobservation ( sol air mer spatial ) agrave long terme ( gt 30 ans ) des systegravemes naturels inteacutegrant un large spectre drsquoeacutechelles spatiales et temporelles et incluant une vaste palette drsquooutils drsquoanalyse in situ drsquoeacutechantillons issus des milieux naturels terrestres ou extraterrestres Ces disciplines integravegrent

bull La conception le deacuteveloppement et lrsquoopeacuteration de grands instruments et systegravemes drsquoobservation ( sol air mer spatial ) agrave lrsquoeacutechelle nationale et internationale

bull La simulation numeacuterique de lrsquoeacutevolution des systegravemes naturels permettant dans un cadre probabiliste drsquoeacutechantillonner des espaces de modegraveles complexes et de les mapper dans lrsquoespace des donneacutees ainsi que drsquoen quantifier les incertitudes et les eacuteveacutenements extrecircmes

bull Lrsquoarchivage la curation et la mise agrave disposition drsquoune grande diversiteacute de donneacutees ( observations simulations analyses ) et de modegraveles avec des standards de repreacutesentation et drsquoeacutechange de donneacutees de provenance de certification ( qualiteacute inteacutegriteacute veacuteraciteacute )

bull Le traitement et lrsquoanalyse de grands jeux de donneacutees multi-sources pour en extraire de nouvelles informations et les distiller sous des formes reacuteutilisables

bull La combinaison drsquoobservations et de simulations numeacuteriques dans un cadre probabiliste drsquoinfeacuterence et drsquoassimilation de donneacutees pour ameacuteliorer la description des modegraveles ainsi que leur capaciteacute preacutedictive

Les missions nationales drsquoobservation et de surveillance des aleacuteas naturels de lrsquoINSU srsquoappuient sur une organisation territoriale originale structureacutee autour des Observatoires des Sciences de lrsquoUnivers ( OSU ) qui deacuteploient des Services Nationaux drsquoObservation ( SNO ) A ces missions srsquoajoutent des missions programmatiques au travers de prospectives nationales pour deacutefinir une strateacutegie scientifique et drsquoobservation agrave long terme et identifier les eacutequipements nationaux et internationaux neacutecessaires agrave sa mise en œuvre

Les communauteacutes de lrsquoINSU sont inteacutegreacutees et organiseacutees aux niveaux national et international au travers de grandes missions spatiales de grands instruments et systegravemes drsquoobservation ainsi que drsquoinfrastructures distribueacutees et feacutedeacutereacutees drsquoarchivage et de distribution des donneacutees Lrsquoimportance des donneacutees a conduit les communauteacutes de lrsquoINSU agrave jouer un rocircle pionnier dans la promotion de donneacutees ouvertes partageacutees interopeacuterables et reacuteutilisables ainsi que du stewardship de ces donneacutees par les communauteacutes

Les pratiques de recherche reposent sur de larges workflows qui sont piloteacutes par les donneacutees et orchestrent leur analyse de pointe ( HDA pour High-end Data Analysis ) et calcul haute performance ( HPC pour High-Performance Computing ) Elles ont permis ces derniegraveres anneacutees des avanceacutees spectaculaires sur des problegravemes fondamentaux lieacutes agrave la compreacutehension de la formation des structures et de lrsquoeacutevolution des systegravemes Terre-Planegravetes-Univers ainsi que sur de grands enjeux socio-eacuteconomiques changements climatiques et environnementaux meacuteteacuteorologie spatiale surveillance et preacutevention des aleacuteas et risques naturels ( volcaniques sismiques ) exploration et gestion des nouvelles ressources eacutenergeacutetiques

48

Livre Blanc sur les Donneacutees au CNRS Eacutetat des Lieux et Pratiques - 2018

282 Contexte des donneacutees agrave lrsquoINSU

La probleacutematique des donneacutees agrave lrsquoINSU srsquoappuie sur un dispositif original

bull Les Observatoires des Sciences de lrsquoUnivers ( OSU )

Communs aux universiteacutes et au CNRS ils organisent reacutegionalement souvent en partenariat avec drsquoautres acteurs de la recherche ( p ex CEA CNES IFSTTAR IFREMER IPEV IRD IRSTEA Meacuteteacuteo-France ) les moyens neacutecessaires pour la reacutealisation et lrsquoopeacuteration drsquoinstruments et systegravemes drsquoobservation le traitement la curation et la mise agrave disposition de donneacutees ainsi que leur exploitation scientifique Ils feacutedegraverent des laboratoires mutualisent des ressources et des compeacutetences ( meacutethodologiques et technologiques ) et stimulent des recherches interdisciplinaires aux interfaces entre diffeacuterents domaines ( p ex astronomie sciences du climat geacuteophysique interne physique des particules eacutecologie sciences biologiques physique des mateacuteriaux santeacute ) A ces missions srsquoajoute le deacuteveloppement drsquoactions internationales

bull Les Services Nationaux drsquoObservations ( SNO )

Labeacuteliseacutes par lrsquoINSU ils sont deacuteployeacutes dans les OSU et deacuteclineacutes suivant les diffeacuterentes theacutematiques de lrsquoinstitut Ils couvrent diffeacuterents aspects des donneacutees meacutetrologie extrecircme de lrsquoespace et du temps instrumentation et opeacuteration de dispositifs drsquoobservation ( sol air mer espace ) et de sites instrumenteacutes archivage curation et distribution des donneacutees deacuteveloppement et distribution de codes et de bibliothegraveques numeacuteriques communautaires formation et diffusion des connaissances Leur peacuterimegravetre est celui sur lequel le Conseil National des Astronomes et Physiciens ( CNAP ) srsquoappuie pour eacutevaluer les missions drsquoobservation des personnels du corps des astronomes et physiciens

Les SNO sont rassembleacutes et structureacutes au sein drsquoActions Nationales pour lrsquoObservation ( ANO ) en lien avec des actions nationales et internationales du Ministegravere de lrsquoenseignement supeacuterieur de la recherche et de lrsquoinnovation ( SOERE IR TGIR ) notamment pour les infrastructures de recherche europeacuteennes ( inscrites sur la liste du forum ESFRI ) et les organisations internationales Les actions dans lesquelles lrsquoINSU est mobiliseacute reflegravetent la diversiteacute des dispositifs drsquoacquisition de donneacutees en sciences de lrsquoUnivers avec pour exemple

bull Infrastructures de Recherche

- En astronomie Centre de Donneacutees astronomiques de Strasbourg ( CDS ) contribution franccedilaise agrave lrsquoObservatoire Virtuel International en Astronomie ( IVOA ) instrumentation pour les grands teacutelescopes de lrsquoESO ( INSTRUM-ESO ) contribution franccedilaise au systegraveme de radioteacutelescope international LOw Frequency ARray ( LOFAR ) et son extension ( ENUFAR contribution au teacutelescope gamma High-Energy Stereoscopic System ( HESS en partenariat avec lrsquoIN2P3 )

- Pour les sciences de la planegravete Aerosols Clouds and Trace Gases Research Infrastructure ( ACTRIS en partenariat avec le CNES CEA IRD Meacuteteacuteo-Francehellip ) infrastructure nationale de modeacutelisation du systegraveme climatique de la Terre ( CLIMERI en partenariat avec le CEA Meacuteteacuteo-France IRD Cerfacs GENCI ) base antarctique franco-italienne ( CONCORDIA en partenariat avec IPEVhellip ) European Multidisciplinary Subsea Observatory ( EMSO en partenariat avec lrsquoIfremer ) In-service Aircraft for a Global Observing System ( IAGOS partenariat avec Meacuteteacuteo-France ) infrastructure de recherche littorale et cocirctiegravere ( ILICO en partenariat avec IFREMER IGN IRD et SHOM ) observatoire de la zone critique ( OZCAR en partenariat avec BRGM CNES IFSTTAR INRA IRD IRSTEA hellip ) reacuteseau sismologique et geacuteodeacutesique franccedilais ( RESIF partenariat avec BRGM CNES IRD IFSTTARhellip ) pocircle de donneacutees et services pour le systegraveme Terre ( en partenariat avec CNES IRD IFREMER IGN IRSTEA Meacuteteacuteo-Francehellip ) Service des Avions Franccedilais Instrumenteacutes pour la Recherche en Environnement ( SAFIRE en partenariat avec le CNES et Meacuteteacuteo-France ) les infrastructures analytiques comme la ligne FRAME de lrsquoESF et les instruments nationaux INSU qui seront coordonneacutes par le Reacuteseau Geacuteochimique et Expeacuterimental Franccedilais ( REGEF )

bull Tregraves Grandes Infrastructures de Recherche

Canada-France-Hawaiuml Teacutelescope ( CFHT ) Cherenkov Telescope Array ( CTA en partenariat IN2P3 et CEA ) Institut de radioastronomie millimeacutetrique ( IRAM ) European Gravitational Observatory ( EGO-Virgo en partenariat avec IN2P3 et INP ) reacuteseau de flotteurs profilants autonomes ( Euro-Argo ) contribution europeacuteenne au reacuteseau international Argo European Consortium for Drilling Research - Integrated Ocean Drilling Project ( ECORD-IODP ) Integrated Carbon Observation System ( ICOS ) Flotte oceacuteanographique franccedilaise ( avec Ifremer IPEV IRD )

INSU

49

Livre Blanc sur les Donneacutees au CNRS Eacutetat des Lieux et Pratiques - 2018

bull Organisations Internationales

laquo European Southern Observatory raquo ( ESO ) centre europeacuteen de preacutevision meacuteteacuteorologique-CPMMT ( ECWWF ) Intergovernmental Panel on Climate Change ( IPCC ) hellip

bull Insertion europeacuteenne

- Forum ESFRI European Research Infrastructure Consortium ( ERIC ) et clusters les infrastructures de lrsquoINSU sont pour la plupart inscrites sur la liste ESFRI soit comme projet soit comme landmark Crsquoest notamment le cas pour ACTRIS le projet ELT de lrsquoESO CTA EPOS IAGOS SKAhellip Euro-Argo EMSO ICOS et bientocirct EPOS ont le statut drsquoERIC

- Le cluster ASTERICS Astronomy ESFRI and Research Infrastructure Cluster a pour objectif la facilitation et la coordination de deacuteveloppements pour ELT SKA CTA et KM3NET tandis que le reacuteseau AENEAS est speacutecifiquement deacutedieacute au traitement des donneacutees issues du teacutelescope geacuteant Square Kilometer Array ( SKA )

Lrsquoimportance des observations spatiales dans les sciences de lrsquoUnivers se traduit par lrsquoimplication de lrsquoINSU dans de grands projets spatiaux deacutefinis et soutenus par le CNES en lien avec lrsquoAgence Spatiale Europeacuteenne ( ESA ) et drsquoautres agences internationales comme la NASA pour ( i ) la conception et le deacuteveloppement drsquoinstruments et de systegravemes drsquoacquisition embarqueacutes ( p ex satellites sondes interplaneacutetaires ballons ) ( ii ) des chaicircnes de traitement et de reacuteduction de donneacutees ( iii ) lrsquoexploitation scientifique de ces missions On peut citer par exemple ( i ) SOHO ( structure interne et atmosphegravere externe du SOLEIL vent solaire ) ( ii ) Solar Orbiter ( observation du SOLEIL ) iii ) Planck ( fond diffus cosmologique ) ( iv ) Gaia ( cartographie 3D de la Voie lacteacutee ) ( v ) RosettaPhilae ( eacutetude drsquoune comegravete et de son comportement agrave lrsquoapproche du SOLEIL ) ( vi ) CopernicusSentinel ( observation et surveillance de la Terre pour lrsquoenvironnement et la seacutecuriteacute ) ( vii ) et dans le futur Euclid ( caracteacuterisation de la nature de lrsquoeacutenergie noire ) ( viii ) Plato ( deacutetection et eacutetude de nouveaux systegravemes eacutetoiles-planegravetes ) ( ix ) InSight ( eacutetude de la structure interne de Mars )hellip

283 Probleacutematique des donneacutees agrave lrsquoINSU

Environnements de production de donneacutees

Les flux de donneacutees en sciences de lrsquoUnivers explosent Ils sont geacuteneacutereacutes aujourdrsquohui agrave la fois dans des edge-environments grands instruments et systegravemes drsquoobservation ( sol air mer espace ) ougrave les ressources ( eacutenergie communication stockage calcul ) sont rares et dans des centralised-environnements de type HPC grandes simulations numeacuteriques ougrave est concentreacute lrsquoessentiel des ressources de tregraves haute performance

Les principales caracteacuteristiques de ces flux ( continus sporadiques ) sont les volumes les vitesses ( geacuteneacuteration transmission preacutetraitement ) la varieacuteteacute ( structureacutee non-structureacutee mixte ) et la veacuteraciteacute des donneacutees

Ce double contexte creacutee aujourdrsquohui une collection de problegravemes dont le principal deacutefi est la logistique des donneacutees tout au long de leurs chaicircnes drsquoacquisition et drsquoutilisation gestion du positionnement et de lrsquoencodageagencement des donneacutees au cours du temps transmission distribution de ressources ( caching-bufferisation-stockage calcul ) et des services

Grands instruments et systegravemes drsquoobservation

Les flux agreacutegeacutes de donneacutees geacuteneacutereacutees par les dispositifs observationnels en sciences de lrsquoUnivers ont franchi aujourdrsquohui lrsquoeacutechelle de la dizaine de Poan ~30 Gojour pour les grands reacuteseaux de capteurs ( p ex RESIFEPOS ) ~ 50-100 Gojour pour les grandes missions spatiales ( p ex GAIA Euclid CopernicusSentinel ) gt 1 Tojour pour les grands teacutelescopes au sol actuels et futurs ( p ex ALMA ELThellip ) ~1 Pojour ( p ex LOFAR ) et prochainement ~100 Pojour ( p ex SKA ) nouvelle geacuteneacuteration de grands interfeacuteromegravetres dans le domaine des radio-freacutequences

La logistique des donneacutees varie en fonction des dispositifs de mesure ( sol air mer spatial in situ ) de plus en plus complexes ( multi-capteurs multi-freacutequences multi-pixels ) et de leur geacuteomeacutetrie centraliseacutee ( p ex teacutelescopes satellites ) ou distribueacutee globalement ou reacutegionalement ( reacuteseaux drsquoantennes et de capteurs ) Avec lrsquoexplosion des volumes et des vitesses des donneacutees associeacutees aux nouvelles geacuteneacuterations de grands instruments et systegravemes drsquoobservation il devient impossible de transfeacuterer et drsquoarchiver

50

Livre Blanc sur les Donneacutees au CNRS Eacutetat des Lieux et Pratiques - 2018

lrsquoensemble des donneacutees et la reacuteduction des donneacutees est devenue un enjeu critique ( particuliegraverement pour les observations spatiales ) La logistique des donneacutees implique de deacuteplacer lrsquointelligence vers la peacuteripheacuterie au plus proche de leurs sources souvent multiples afin de ( i ) preacutetraiter ( synchronisation agreacutegation combinaison ) et reacuteduire ces flux en continu au cours de leur transport au travers de reacuteseaux ( statiques ou dynamiques ) de bandes passantes heacuteteacuterogegravenes et une varieacuteteacute de edge-technologies ( cachingbufferisation calcul ) ( ii ) agreacuteger en bout de chaicircne ces flux dans des plateformes centraliseacutees de plus en plus proches des sources disposant de larges ressources ( stockage calcul communication ) afin de permettre des traitements locaux ( tels que calibration transformation extractionreconstruction ) des constructions et reacuteductions intelligentes de nouveaux objets de donneacutees ( p ex eacuteveacutenements sources imagesvisibiliteacutes faisceaux ) ainsi que leur archivage ( iii ) redistribuer de larges sous-ensembles de donneacutees vers des plateformes distribueacutees et feacutedeacutereacutees de ressources et de services pour leur exploitation scientifique par les communauteacutes

La reacuteduction et la logistique des donneacutees des tregraves grands instruments et systegravemes drsquoobservation sont deacutefinies dans le cadre drsquoorganisations internationales associant souvent au cocircteacute des partenaires eacutetrangers drsquoautres instituts du CNRS ( p ex IN2P3 ) et drsquoautres acteurs franccedilais de la recherche ( p ex CNES CEA Ifremer etc ) Un autre deacutefi ( plus proceacutedural que scientifique ou technologique ) est drsquoassurer la coheacuterence et drsquoidentifier les niveaux possibles de feacutedeacuteration et de mutualisation entre diffeacuterents projets en phase avec les applications et les pratiques de recherche des communauteacutes utilisatrices de ces donneacutees

Grandes simulations numeacuteriques

Les simulations numeacuteriques HPC sont aujourdrsquohui de grands instruments scientifiques agrave part entiegravere pour nombre de disciplines des sciences de lrsquoUnivers ( p ex climat oceacutean atmosphegravere cosmologie et astrophysique astrophysique des hautes eacutenergies geacuteophysique ) Elles permettent de deacuteduire lrsquoeacutevolution de systegravemes naturels complexes agrave partir de modegraveles multi-eacutechelles et multi-physiques souvent coupleacutes et au travers de reacutealisations drsquoensembles drsquoeacutechantillonner des espaces de modegraveles complexes et de les mapper dans lrsquoespace des donneacutees

Ces simulations geacutenegraverent des flux ( volumes vitesses ) tregraves importants de donneacutees au sein des environnements HPC centraliseacutes Les volumes de donneacutees produits ont deacutepasseacute aujourdrsquohui lrsquoeacutechelle de la dizaine de peacutetaoctets ( p ex modeacutelisation du climat cosmologie numeacuterique sismologie ) En retour ces simulations permettent la conception de grands instruments et systegravemes drsquoobservation de plus en plus complexes ainsi que de leurs chaicircnes de traitement et de reacuteduction de donneacutees via la modeacutelisation de leur fonctionnement dans les environnements drsquoacquisition

LrsquoINSU est aujourdrsquohui un des principaux utilisateurs des grands centres de calcul nationaux ( GENCI ) Pour lrsquoanneacutee 2017 les disciplines de lrsquoINSU repreacutesentaient ( hors exercice CMIP6 ) 25 des heures attribueacutees ( CT1 environnement et CT4 astrophysique-geacuteophysique ) ainsi que ~80 des ressources de stockage alloueacutees Certaines communauteacutes utilisent eacutegalement les grands centres de calcul europeacuteens ( Tiers-0 Prace ) et internationaux ( DOE-NSF aux Etats-Unis JAMSTEC au Japon )

La logistique des donneacutees au cours de ces simulations ( positionnement des donneacutees au travers de la hieacuterarchie de meacutemoire couplages entre modegraveles reacuteduction des entreacuteessorties agencement et repreacutesentation des donneacutees ) est devenue critique Lrsquoanalyse in situ des flux de donneacutees via des meacutethodes de type laquo apprentissage machine raquo et des environnements immersifs intelligents ( capteurs virtuels ) renforce les besoins drsquoune convergence entre HPC et HDA Elle doit ecirctre coupleacutee avec des systegravemes fins de provenance pour le controcircle dynamique de ces simulations le pilotage de workflows orchestrant des ensembles de simulations ainsi que pour lrsquooptimisation ( latence ) des mouvements des donneacutees la reacuteduction des entreacuteessorties et des volumes de donneacutees agrave stocker

Cette logistique est eacutegalement complexe en raison du cycle de vie des reacutesultats de ces simulations qui impliquent de les redistribuer et de les archiver avec leurs modegraveles vers la peacuteripheacuterie pour leur exploitation par les communauteacutes scientifiques agrave lrsquoeacutechelle nationale ou internationale intercomparaison de modegraveles analyse combineacutee avec les observations Un exemple type est fourni dans la communauteacute de modeacutelisation du climat ( p ex exercices de simulations CMIP Coupled Model Intercomparison Project ) Un autre exemple est fourni par la communauteacute de la cosmologie numeacuterique ( p ex consortium national DEUS Dark Energy Universe Simulation )

INSU

51

Livre Blanc sur les Donneacutees au CNRS Eacutetat des Lieux et Pratiques - 2018

Workflows et exploitation scientifique des donneacutees

Un autre aspect critique est la logistique des donneacutees tout au long de larges chaicircnes drsquoexploitation scientifique qui sont piloteacutees par les donneacutees elles-mecircmes et orchestrent des eacutetapes de calcul intensif et drsquoanalyse

Ces workflows ne sont pas des outils logiciels isoleacutes ou des codes applicatifs mais des configurations complexes et variables de logiciel de mateacuteriel et de flux de donneacutees qui traduisent des phases de processus drsquoinfeacuterence en sciences de lrsquoUnivers Lrsquoespace multidimensionnel de donneacutees que ces workflows deacutefinissent implique que chacune de ces eacutetapes doit acceacuteder manipuler et combiner de maniegravere coordonneacutee de larges volumes et une grande diversiteacute de donneacutees

Traiter et analyser de larges volumes de donneacutees ( observations simulations )

Ces workflows orchestrent typiquement des eacutetapes drsquoingestionagreacutegation de traitement et drsquoanalyse de donneacutees afin drsquoen extraire de nouvelles informations

La phase drsquoingestion implique le stockage temporaire ( p ex bufferisation caching ) de larges volumes de donneacutees multi-sources sur des dureacutees variables ( mois anneacutees ) en fonction du cycle drsquoutilisation des donneacutees ainsi que des services ( p ex indexation bases de donneacutees et de meacutetadonneacutees provenance ) et des systegravemes de documentation ( p ex donneacutees modegraveles ) Elle varie suivant la provenance des donneacutees en continu depuis la peacuteripheacuterie sur requecircte depuis des feacutedeacuterations drsquoarchives et en combinaison observations et reacutesultats de simulations

Les phases de traitement et drsquoanalyse concernent diffeacuterentes eacutetapes de complexiteacute variable le plus souvent ( i ) filtrage reacuteduction de bruit reconstruction bas niveau ( ii ) deacutetection ( p ex eacuteveacutenements transitoires anomalies ) ( iii ) segmentation ( iv ) extraction ( p ex objets caracteacuteristiques statistiques ) ( v ) classificationagreacutegation ( vi ) transformations complexes ( p ex images correacutelations croiseacutees steering functions ) Les phases drsquoanalyse mettent souvent en jeu des meacutethodes statistiques ( p ex Monte Carlo ) et drsquolaquo apprentissage machine raquo

La logistique des donneacutees et la diversiteacute de ces workflows exploitent des plateformes de services de calcul et drsquoanalyse disposant drsquoenvironnements flexibles et reacuteactifs qui feacutedegraverent et mutualisent des services ( stockage bufferisation caching calcul HTC calcul parallegravele hybride communication logiciel ) Elles assurent des flux de traitement proches des vitesses drsquoaccegraves aux donneacutees Elles supportent des modegraveles de langage et drsquoexeacutecution en streaming avec des systegravemes fins de provenance coupleacutes agrave des technologies de virtualisation ( conteneurs ) et adapteacutes au Big Data ( p ex Spark Storm ) Elles permettent eacutegalement la mutualisation et lrsquoutilisation de meacutethodes et drsquooutils logiciels de traitement adeacutequatement organiseacutes et modulables dans diffeacuterents contextes ( p ex librairies Python modules de traitements Jupyter Notebooks )

Ces plateformes sont heacutebergeacutees dans des infrastructures Tiers-2-Tiers-3 adosseacutees agrave des OSU ou des feacutedeacuterations de recherche ( p ex Observatoire de Paris OCA IPSL IPGP OSUG OMP ) souvent en lien avec des meacutesocentres reacutegionaux ( p ex IDRIS Gricad Calmip Meso-PSL ) Elles offrent des capaciteacutes de stockage de plusieurs peacutetaoctets et des puissances de calcul proches de la centaine de teacuteraflops Un exemple de feacutedeacuteration internationale est lrsquoESGF ( Earth System Grid Federation ) en modeacutelisation du climat avec le nœud national ( CICLAD-CLIMSERV-IDRIS ) de lrsquoIPSL ESGF permet de distribuer cataloguer des dizaines de peacutetaoctets de donneacutees geacuteneacutereacutees par les simulations CMIP drsquoy acceacuteder de maniegravere seacutecuriseacutee et de les analyser avec des observations multi sources

Infeacuterence et assimilation de donneacutees combinant observations et simulations

Ces workflows combinent preacutedictions ( simulations numeacuteriques ) et observations multi-sources au sein drsquoenvironnements centraliseacutes de type HPC Les approches de type infeacuterenceinversion ( p ex cosmologie et astrophysique sismologie geacuteodeacutesie gravimeacutetrie ) permettent dans un cadre probabiliste drsquoameacuteliorer la description des modegraveles de systegravemes naturels ainsi que la reconstruction de leurs eacutetats Les approches drsquoassimilation de donneacutees ( p ex climat et meacuteteacuteorologie champs magneacutetiques terrestres et planeacutetaires ) dans un cadre variationnel ou statistique permettent drsquoameacuteliorer les preacutevisions de lrsquoeacutevolution de ces modegraveles en reconstruisant un eacutetat initial aussi consistant que possible avec leur dynamique

52

Livre Blanc sur les Donneacutees au CNRS Eacutetat des Lieux et Pratiques - 2018

Infeacuterence et assimilation de donneacutees sont des workflows complexes orchestrant de multiples phases HPC ( simulation numeacuterique ) et HDA ( traitement et analyse de donneacutees ) Avec lrsquoeacutevolution rapide des capaciteacutes de calcul et des meacutethodes numeacuteriques ils exploitent aujourdrsquohui des approches probabilistes au travers drsquoensembles de simulations numeacuteriques permettant drsquoexplorer des espaces de modegraveles complexes et leurs conditions initiales ainsi que de quantifier les incertitudes directes et inverses Ils combinent souvent laquo apprentissage machine raquo optimisation stochastique theacuteorie de lrsquoinformation et transport optimal

Cette convergence entre HPC et HDA deacutefie les environnements de type HPC ( accegravescommunications stockage calcul et meacutemoire ) ainsi que leur exploitation ( c-agrave-d ordonnancement par lots ) Un aspect critique est la logistique des flux ( volumes vitesses ) de donneacutees transmis ( souvent en continu ) depuis des sources peacuteripheacuteriques et geacuteneacutereacutes au sein des environnements HPC au cours des eacutetapes de simulation et drsquoanalyse ( combinant observations et reacutesultats de simulation ) Par exemple pour chaque preacutevision meacuteteacuteorologique reacutegionale une grande diversiteacute et un grand volume de donneacutees doivent ecirctre collecteacutes depuis des sources peacuteripheacuteriques ( satellites catasondes stations au sol boueacutees observations actuelles et historiques ) et centraliseacutes ( simulations des caracteacuteristiques et des processus des modegraveles du systegraveme Terre ) Toutes ces informations sont assimileacutees dans des moteurs drsquoassimilation complexes et non-lineacuteaires pour preacutevoir des caracteacuteristiques meacuteteacuteorologiques et les distiller pour leur utilisation par diffeacuterents acteurs

Ces workflows requiegraverent les capaciteacutes haute-performance ( stockage calcul communication ) des grands centres europeacuteens et nationaux ( Tier-0 et Tier-1 ) voire reacutegionaux ( Tier-2 ) qui doivent offrir des politiques drsquoaccegraves et drsquoexploitation adapteacutees ( HPCHDA ) et ecirctre feacutedeacutereacutes avec des plateformes distribueacutees ( archivage edge-computing ) pour la transmission et le traitement en cours de transport des flux de donneacutees depuis des sources peacuteripheacuteriques

Archivage curation accegraves et geacuterance des donneacutees

Une mission importante de lrsquoINSU est de rendre publiques eacuteventuellement apregraves une courte peacuteriode drsquoexclusiviteacute les donneacutees issues des grands instruments et systegravemes drsquoobservation et des simulations numeacuteriques Cette diffusion rapide agrave lrsquoensemble de la communauteacute vise

agrave maximiser le retour scientifique drsquoinvestissements lourds Cela nrsquoa de sens que si les donneacutees peuvent ecirctre facilement deacutecouvertes acceacutedeacutees interopeacutereacutees et reacuteutiliseacutees dans une vision inteacutegreacutee des pheacutenomegravenes et des systegravemes observeacutes au cours du temps

Les missions essentielles des OSU des services nationaux drsquoobservation et des actions nationales drsquoobservation sont lrsquointeacutegrationagreacutegation la curation la documentation la publication et la diffusion de ces donneacutees ainsi que leur apporter de la valeur ajouteacutee au sein de structures deacutedieacutees qui mutualisent les expertises et les ressources neacutecessaires Cela recouvre un certain nombre drsquoactiviteacutes sur le cycle de vie des donneacutees qui va bien au-delagrave de la dureacutee de vie des instruments et systegravemes drsquoobservation

bull Le traitement et calibration des donneacutees recouvrent des chaicircnes de traitement systeacutematique et la production de donneacutees de haut niveau pour les communauteacutes

bull La curation des donneacutees recouvre lrsquoorganisation lrsquo inteacutegration lrsquoagreacutegation lrsquoannotation la documentation et le reacutefeacuterencement des donneacutees Elle integravegre des chaicircnes de controcircle et des protocoles de certification des qualiteacute inteacutegriteacute veacuteraciteacute et pertinence des donneacutees sur leur cycle de vie ainsi que des systegravemes permettant de tracer leur provenance et leurs changements

bull Lrsquoarchivage et le reacutefeacuterencement des donneacutees avec des services avanceacutes ( indexation bases de donneacutees et de meacutetadonneacutees provenance ) assurent la persistance des donneacutees et des meacutetadonneacutees sur leur cycle de vie

bull La diffusion et la publication des donneacutees reposent sur une description standardiseacutee des donneacutees ( observations reacutesultats de simulations ) et des modegraveles avec des standards de meacutetadonneacutees drsquoaccegraves et drsquoeacutechange des identificateurs agreacuteeacutes ainsi que des services avanceacutes pour en faciliter la deacutecouverte lrsquoaccegraves lrsquointeropeacuterabiliteacute et la manipulation via les observatoires virtuels les pocircles de donneacutees et leurs deacuteveloppements Ces standards sont deacutefinis au niveau des diffeacuterentes disciplines dans le cadre de structures internationales ( p ex IVOA FDSN UNAVCO GEOGEOSS ESGF )

Ces activiteacutes concernent eacutegalement agrave des degreacutes divers selon les communauteacutes ( astronomie amp astrophysique oceacutean-atmosphegraverehellip ) la mise agrave disposition le deacuteveloppement et la maintenance de codes numeacuteriques des bibliothegraveques de traitement et drsquoanalyse de reacutefeacuterence ou communautaires

INSU

53

Livre Blanc sur les Donneacutees au CNRS Eacutetat des Lieux et Pratiques - 2018

Plus reacutecemment elles concernent de nouveaux objets associeacutes agrave des identificateurs agreacuteeacutes ( projets ou publications ) qui permettent de laquo conteneuriser raquo donneacutees description des dispositifs expeacuterimentaux et chaicircnes de traitement et drsquoanalyse afin de preacuteserver lrsquoexpertise des donneacutees faciliter leur reacuteutilisation dans et en dehors du contexte de leur acquisition et permettre la reproductibiliteacute des reacutesultats scientifiques

Un nombre croissant drsquoenjeux scientifiques ( modeacutelisation du climat physique solaire et stellaire eacutetude du champ magneacutetique terrestre signatures des ondes gravitationnelles et des grands tremblements de terre surveillance des aleacuteas naturels changements environnementaux ) impliquent une compreacutehension preacutedictive drsquoun mecircme objet ou systegraveme Ces approches interdisciplinaires avec des meacutethodes de type multi-messagers requiegraverent un accegraves fluide agrave des donneacutees multi-sources issues de contextes scientifiques et de modaliteacutes observationnelles ( sol air mer spatial ) diffeacuterents ainsi que des outils translationnels pour les combiner les croiser et les syntheacutetiser au sein de chaicircnes de traitement et drsquoanalyse souvent coupleacutees agrave des simulations numeacuteriques Deacutecouvrir ces donneacutees ainsi que les ressources et services associeacutes demande une harmonisation ( agrave travers diffeacuterentes disciplines ) des modegraveles de donneacutees et une standardisation ( au sein des disciplines ) en particulier pour ( i ) les proceacutedures de controcircle de qualiteacute drsquointeacutegriteacute et de veacuteraciteacute des donneacutees ainsi que leur documentation ( ii ) les meacutetadonneacutees les systegravemes drsquoinformation et les registres

Les volumes et la diversiteacute des donneacutees ainsi que les pratiques de recherche de plus en plus interdisciplinaires ont conduit lrsquoINSU agrave reacuteorganiser les donneacutees autour de

bull Plateformes reacutegionales de ressources et de services Adosseacutees aux OSU elles feacutedegraverent et mutualisent des ressources ( stockage calcul ) des services ( bases de donneacutees et de meacutetadonneacutees web-services ) et une masse critique drsquoexpertises pour lrsquoarchivage la curation et la distribution des donneacutees Elles sont associeacutees agrave des programmes et instruments labeacuteliseacutes par lrsquoINSU et peuvent ecirctre multitheacutematiques Ces infrastructures Tier-3 souvent doteacutees drsquoune structure de pilotage heacutebergent des ressources de stockage ( de quelques centaines de teacuteraoctets agrave quelques peacutetaoctets ) et de calcul pour les phases de traitement systeacutematique et de curation Avec lrsquoaugmentation des volumes et de la diversiteacute des donneacutees ainsi que la complexiteacute

croissante des activiteacutes de traitement et de curation les besoins de stockage et de calcul croissent rapidement En synergie avec les plateformes de calcul et drsquoanalyse elles ont pour vocation de se rapprocher de Tier-2 reacutegionaux deacutesireux drsquoexplorer de nouveaux modegraveles drsquoarchitectures centreacutees sur les donneacutees de langage et drsquoexeacutecution de services et drsquoenvironnements drsquoaccegraves et drsquoutilisation

bull Pocircles theacutematiques de services et de donneacutees Ils ont pour vocation de fournir un portail unique au niveau national et des plateformes de services avanceacutes facilitant la deacutecouverte lrsquoaccegraves la combinaison et lrsquoutilisation scientifique drsquoensembles de donneacutees multi-types multi-sources issus drsquoexpeacuteriences et de dispositifs observationnels ( sol air mer spatial ) diffeacuterents Ils srsquoappuient sur les plateformes reacutegionales et les feacutedegraverent nationalement Ils sont doteacutes drsquoune structure de pilotage et drsquoutilisateurs et leur gestion associe souvent drsquoautres organismes ( p ex CNES CEA Ifremer IRD Meacuteteacuteo-France ) On peut citer ( i ) en astronomie et astrophysique les pocircles de physique des plasmas physique solaire et stellaire et de matiegravere interstellaire ( ii ) en oceacutean-atmosphegravere les pocircles Aeris et Odatis respectivement pour les donneacutees et services atmospheacuteriques et oceacuteaniques ( iii ) en sciences de la Terre le pocircle de donneacutees ForMTer ( avec RESIFEPOS ) pour les donneacutees drsquoobservation ( sol spatial ) de la terre solide ( iv ) en surfaces et interfaces continentales le pocircle Theia incluant notamment DINAMIS le dispositif de mise agrave disposition des images satellites haute deacutefinition

Un exemple phare est le centre de donneacutees de Strasbourg ( CDS ) en astronomie contribution franccedilaise agrave lrsquoIVOA ( International Virtual Observatory Alliance ) qui fournit des standards de web-services de repreacutesentation et drsquointeropeacuterabiliteacute de donneacutees et de meacutetadonneacutees avec drsquoautres standards pour le reacutefeacuterencement lrsquoaccegraves lrsquoeacutechange la provenance des donneacutees et leur publication ainsi que des outils drsquoexploration et de visualisation de ces donneacutees Le reacutesultat est que plus de 90 des donneacutees astronomiques mondiales sont accessibles et utilisables scientifiquement aujourdrsquohui avec des outils et des logiciels partageacutes internationalement et avec une tregraves forte visibiliteacute franccedilaise gracircce au CDS mais aussi agrave des projets comme VAMDC22 pour la distribution des donneacutees atomiques et moleacuteculaires

Pour les tregraves grands instruments et systegravemes drsquoobservation la strateacutegie drsquoarchivage et la politique drsquoaccegraves aux donneacutees sont deacutefinies dans le cadre

22 httpwwwvamdcorg

54

Livre Blanc sur les Donneacutees au CNRS Eacutetat des Lieux et Pratiques - 2018

des projets internationaux et des organisations internationales qui les portent Elles reposent sur des plateformes de ressources et de services distribueacutees et feacutedeacutereacutees agrave lrsquoeacutechelle internationale comme dans le cas ( i ) des grands projets spatiaux ( Euclid Gaia Planck Copernicus ) ( ii ) des tregraves grands teacutelescopes ( ESO CFHT IRAM SKA ) ( iii ) des grands systegravemes drsquoobservation ( RESIFEPOS Euro-Argo ICOS IAGOS ACTRIS OZCAR EmodNet ) ( iv ) des intercomparaisons de modegraveles coupleacutes ( CLIMERI ) en modeacutelisation du climat ( ESGF ) La vocation du pocircle de donneacutees et services pour le systegraveme Terre est notamment de faciliter lrsquoaccegraves et lrsquousage des donneacutees issues de ses diffeacuterents compartiments Ces strateacutegies srsquoappuient au niveau national sur des nœuds heacutebergeacutes geacuteneacuteralement dans de grands centres nationaux ( CC-IN2P3 IDRIS ) ou meacutesocentres reacutegionaux ( Meso-PSLObservatoire de Paris OCA IPSL IPGP GricadOSUP ) souvent en partenariat avec drsquoautres instituts du CNRS ( p ex IN2P3 ) et organismes de recherche ( CNES CEA Meacuteteacuteo France Ifremer )

283 Conclusions et eacuteleacutements de reacuteflexion

De nouvelles deacutecouvertes scientifiques en sciences de lrsquoUnivers ainsi que de grands enjeux sociaux et eacuteconomiques ( p ex changement climatique aleacuteas naturels et environnementaux ressources eacutenergeacutetiques et deacuteveloppement durable ) requiegraverent une grande diversiteacute de donneacutees dont les reacutesolutions integravegrent un tregraves large spectre drsquoeacutechelles ( temps espace freacutequence ) ainsi que des meacutethodes drsquoanalyse et de modeacutelisation pour en extraire et inteacutegrer de nouvelles informations sur la formation des structures et lrsquoeacutevolution des systegravemes Terre-planegravetes-univers ainsi que leurs eacuteveacutenements transitoires et extrecircmes

Avec les nouvelles geacuteneacuterations drsquoinstruments et de systegravemes drsquoobservation ( sol air mer spatial ) et de simulations numeacuteriques les flux de donneacutees explosent aujourdrsquohui agrave la fois dans des edge-environments globalement distribueacutes et des environnements centraliseacutes ( HPC Cloud ) Ce changement de paradigme constitue un deacutefi pour la logistique des donneacutees tout au long de workflows qui traversent la diversiteacute de ces systegravemes drsquoacquisition et un continuum de bandes passantes et de plateformes technologiques

Un enjeu concomitant commun agrave ces deux environnements est la reacuteduction laquo intelligente raquo des donneacutees en continu au cours de leur transport

La strateacutegie agrave suivre est incertaine dans un paysage national ( enseignement-recherche infrastructures ) et europeacuteen ( EOSC European Open Science Cloud ) et des technologies en pleine eacutevolution Elle tend agrave se formuler comme la co-conception drsquoun instrument scientifique piloteacutee par la logistique des donneacutees et les caracteacuteristiques des workflows qui au travers drsquoun modegravele drsquoarchitecture de type sablier ( c-agrave-d hourglass architecture ) permettrait drsquoaccommoder la grande diversiteacute de ces workflows et de leurs impleacutementations Avec lrsquoideacutee qursquoau centre de ce modegravele une interface commune ou spanning layer peut ecirctre eacutetroitement conccedilue et implanteacutee afin drsquoabstraire ces workflows et leur flux de donneacutees et les instancier ( via des technologies de virtualisation ) au travers drsquoune varieacuteteacute croissante et des configurations complexes de ressources ( stockage calcul communication ) de plateformes technologiques et drsquoenvironnements comprenant en particulier

bull Edge-infrastructures qui via une diversiteacute croissante de edge-technologies ( p ex cache buffer stockage calcul communication ) permettent de traiter agreacuteger reacuteduire les flux ( volumes vitesses ) de donneacutees geacuteneacutereacutees par les nouveaux grands instruments et systegravemes drsquoobservation de plus en plus complexes ( multi-capteurs multifreacutequences ) ainsi que de piloter leurs systegravemes drsquoacquisition ( antenne optique ) au plus proche et dans des environnements reculeacutes

bull Plateformes de services de calcul et drsquoanalyse de donneacutees qui feacutedegraverent et mutualisent des services flexibles de stockage de calcul ( HTC HPC ) de communication et de logiciel permettant des flux de traitement proches des vitesses drsquoaccegraves aux donneacutees Ces infrastructures de type edge-computing supportent des utilisateurs et des applications multiples ( p ex le service labelliseacute Terapix agrave lrsquoIAP pour lrsquoexploitation des donneacutees MegaCAM du CFHT ou encore lrsquoARC node ALMA agrave lrsquoIRAM pour la reacuteduction des donneacutees de lrsquointerfeacuteromegravetre millimeacutetrique ALMA de lrsquoESO ) dans un environnement collaboratif reacuteactif et reacutesilient qui integravegre des eacuteleacutements de HPC et HDA avec des services Cloud de traitement en flux des technologies de virtualisation ( conteneurs ) et drsquoexeacutecution adapteacutes au Big Data ( p ex Spark Storm ) Adosseacutees agrave des OSU ou feacutedeacuterations de recherche elles peuvent ecirctre feacutedeacutereacutees ( p ex ESGF )

INSU

55

Livre Blanc sur les Donneacutees au CNRS Eacutetat des Lieux et Pratiques - 2018

bull Plateformes centraliseacutees ( HPC ) qui concentrent des ressources de tregraves haute performance et par deacutefinition rares dont lrsquoutilisation est maximiseacutee pour servir des communauteacutes multiples Si lrsquooptimisation des applications en sciences de lrsquoUnivers pour lrsquoexploitation des nouvelles architectures hybrides et massivement parallegraveles demeure un enjeu important ces applications ( ensembles de simulations numeacuteriques infeacuterenceinversion assimilation de donneacutees ) ainsi que lrsquoutilisation croissante de meacutethodes type laquo apprentissage machine raquo requiegraverent une convergence toujours plus fine entre HPC et HDA avec de meilleurs support et interopeacuterabiliteacute de leurs modegraveles drsquoexploitation ( batch et streaming processing ) des technologies de virtualisation ainsi qursquoune gestion des ressources avec des systegravemes centraliseacutes intelligents piloteacutes par la provenance des flux de donneacutees permettant le controcircle de workflows complexes Lrsquoingestion drsquoeacutenormes flux de donneacutees depuis la peacuteripheacuterie reste un enjeu qui deacutefie leurs capaciteacutes

bull Plateformes drsquoarchivages curation et distribution des donneacutees Ces plateformes adosseacutees aux OSU feacutedegraverent et mutualisent les ressources services et expertises pour le stockage la curation et la mise agrave disposition drsquoune grande diversiteacute de donneacutees ( tels que eacuteveacutenements objets images seacuteries temporelles ) dont le cycle de vie en sciences de lrsquoUnivers est bien plus long que la dureacutee de vie des instruments et systegravemes drsquoobservation Les volumes et la diversiteacute de ces donneacutees impliquent des capaciteacutes croissantes de calcul pour leur traitement et leur curation

Le mouvement des donneacutees et des informations a un coucirct drsquoautant plus important que ces transferts doivent ecirctre rapides et traverser des frontiegraveres drsquoun site agrave lrsquoautre drsquoun systegraveme HPC vers des plateformes drsquoanalyse au sein drsquoun mecircme site entre nœuds drsquoun mecircme systegraveme drsquoun systegraveme de stockage agrave un autre

Un enjeu commun est lrsquoefficience eacutenergeacutetique la reacuteduction des coucircts de fonctionnement et la durabiliteacute ce qui passe entre autres par ( i ) utiliser des plateformes ( HPC calcul et analyse ) adapteacutees agrave chacune des eacutetapes de ces workflows ( ii ) eacuteviter des reacutepeacutetitions inutiles de transferts ( cachingbufferisation ) et reacuteduire leurs vitesses ( pre-fetching ) et leurs volumes ( compression ) ( iii ) reacuteduire les distances et mutualiser les environnements drsquoheacutebergement ( colocalisation des plateformes HPC et des services drsquoanalyse des plateformes drsquoarchivage et de curation de donneacutees et

des plateformes de calcul et drsquoanalyse ) ( iv ) faciliter la reacuteutilisation des calculs et des donneacutees au sein et entre domaines ( observations et reacutesultats de simulations meacutetadonneacutees catalogues )

Lrsquoorganisation territoriale de lrsquoINSU structureacutee autour des OSU et les ANO permet de reacutepondre aux points souleveacutes preacuteceacutedemment ( i ) centraliser logiquement lrsquoaccegraves et lrsquoutilisation de donneacutees via les observatoires virtuels et les pocircles de donneacutees associant plateformes de services et feacutedeacuteration de plateformes drsquoarchivage et de curation de donneacutees en liaison avec drsquoautres organismes ( CNES Ifremer Meacuteteacuteo-France CEAhellip ) ( ii ) rapprocher plateformes drsquoarchivage et de curation de donneacutees plateformes de calcul et drsquoanalyse et centres nationaux ( CC-IN2P3 IDRIS ) et meacutesocentres reacutegionaux ( Gricad Calmiphellip ) ( iii ) rapprocher plateformes HPC et services drsquoanalyse dans le cadre de GENCI ( p ex IDRIS TGCC CINES ) ( iv ) faciliter lrsquoaccegraves seacutecuriseacute le partage lrsquoexploitation de reacutesultats de simulations et drsquoobservations par une large communauteacute ( p ex CLIMERI IPGP )

Un autre aspect concerne les tregraves grands instruments et systegravemes drsquoobservation ( sol air mer spatial ) porteacutes par des projets et des organisations internationaux Dans ce cadre explorer avec drsquoautres instituts du CNRS ( p ex IN2P3 ) et organismes ( CNES CEAhellip ) les niveaux de feacutedeacuteration et de mutualisation possibles des plateformes scientifiques et drsquoarchivage en leur sein ( Euclid Gaiahellip ) et entre ces projets ( CTA SKAhellip ) est un nouvel enjeu

Une telle strateacutegie doit ecirctre en phase avec les pratiques et les applications scientifiques Elle srsquoaccompagne drsquoenjeux proceacuteduraux et humains associeacutes agrave lrsquoorganisation et la mutualisation des expertises scientifiques meacutethodologiques et technologiques neacutecessaires pour le stewardship des donneacutees et des plateformes de ressources et de services dans ce nouveau contexte Elle implique eacutegalement une eacutevolution des politiques drsquoaccegraves drsquoutilisation et drsquoexploitation des centres nationaux et reacutegionaux qui doivent offrir les services neacutecessaires agrave ces environnements data-centric

Il y a des limites agrave ce qui peut en ecirctre obtenu en sciences de lrsquoUnivers ougrave les efforts drsquoobservation sont fondamentalement globalement distribueacutes internationalement structureacutes et financeacutes par diffeacuterents projets et organisations

56

Livre Blanc sur les Donneacutees au CNRS Eacutetat des Lieux et Pratiques - 2018

Par exemple les instituts de recherche en charge de services de reacuteponse rapide de surveillance et drsquoeacutevaluation drsquoaleacuteas naturels ainsi que les grandes universiteacutes de recherche ont besoin de deacutemontrer des ressources qui leur permettent drsquoattirer des chercheurs et des ingeacutenieurs de premier plan ainsi que des contrats et des financements Il y a donc des pressions pour maintenir la visibiliteacute et une diversiteacute de ressources indeacutependantes Une strateacutegie recouvrant des ressources autonomes doit minimiser les coucircts tout en respectant ces problegravemes organisationnels et sociologiques

Pour relever ces nouveaux deacutefis le dispositif des OSU ANO et SNO ainsi que les expertises scientifiques meacutethodologiques et technologiques qursquoil feacutedegravere et mutualise constitue un atout original majeur Ces expertises de plus en plus interdisciplinaires doivent eacutevoluer en phase avec les technologies de plus en plus complexes des grands instruments et des systegravemes drsquoobservation de la logistique des donneacutees de nouvelles meacutethodes et technologies de calcul et drsquoanalyse de donneacutees Les communauteacutes de lrsquoINSU collaborent aujourdrsquohui activement agrave lrsquoeacutechelle nationale et internationale avec drsquoautres disciplines ( sciences des donneacutees matheacutematiques appliqueacutees statistiques physique des particules et physique statistique

eacutecologie biologie santeacute recherche informatique ) et avec les fournisseurs et les deacuteveloppeurs drsquoinfrastructures de communication de calcul et de donneacutees Ces collaborations sont favoriseacutees au sein du CNRS par la Mission pour lrsquoInterdisciplinariteacute et se traduisent aux niveaux national et europeacuteen par de nombreux projets ANR et H2020 Les communauteacutes de lrsquoINSU contribuent eacutegalement activement agrave des ONG en lien avec les donneacutees ( p ex RDA GEOGEOSS Belmont Forum )

En comparaison avec les pratiques internationales ( p ex aux Etats-Unis ) ougrave le deacuteveloppement de codes et de bibliothegraveques ( traitement analyse ) communautaires est structureacute sous forme de projets depuis plus drsquoune dizaine drsquoanneacutees avec un support ingeacutenieur important et speacutecialiseacute il reste des efforts importants agrave accomplir et agrave reconnaicirctre aux niveaux national et europeacuteen Un enjeu concomitant et important reste encore aujourdrsquohui une meilleure reconnaissance de ces expertises scientifiques meacutethodologiques et technologiques souvent interdisciplinaires et des nouvelles tacircches drsquoobservation au niveau des recrutements et des promotions des personnels chercheurs astronomes et physiciens du CNAP23 ingeacutenieurs et techniciens

23 httpwwwcnapobspmfr

INSU

57

Livre Blanc sur les Donneacutees au CNRS Eacutetat des Lieux et Pratiques - 2018

29 INSTITUT DES SCIENCES DE LrsquoINFORMATION ET DE LEURS INTERACTIONS ( INS2I )

Cette section a eacuteteacute reacutedigeacutee avec Mokrane Bouzeghoub DAS agrave INS2I

291 Introduction

LrsquoInstitut des Sciences de lrsquoInformation et de leurs Interactions ( INS2I ) rassemble environ 600 chercheurs CNRS sur un total de lrsquoordre de 4500 permanents dans une cinquantaine drsquouniteacutes de recherche Ses theacutematiques couvrent une partie des sections 6 ( fondements de lrsquoinformatique calculs algorithmes repreacutesentations exploitations ) et 7 ( signal image automatique robotique ) du Comiteacute National

Dans de nombreux domaines scientifiques et socio-eacuteconomiques la volumeacutetrie et la varieacuteteacute des donneacutees existantes ainsi que le coucirct et les contraintes de temps de traitement ont fait apparaicirctre de nouveaux deacutefis De multiples domaines sont concerneacutes les sciences fondamentales ( physique des hautes eacutenergies fusion sciences de la Terre et de lrsquoUnivers bio-informatique neurosciences ) les secteurs de lrsquoeacuteconomie numeacuterique ( business intelligence web e-commerce reacuteseaux sociaux e-gouvernement santeacute conception des meacutedicaments teacuteleacutecommunications et meacutedias transports terrestre et aeacuterien marcheacutes financiers ) lrsquoenvironnement ( climat risques naturels ressources eacutenergeacutetiques smart cities maison connecteacutee ) la seacutecuriteacute ( cyber-seacutecuriteacute seacutecuriteacute nationale ) ou lrsquoindustrie ( smart industry produits sur mesure chaicircne de conceptionreacutealisation des produits inteacutegreacutee de bout en bout )

Lrsquoextraction de connaissances agrave partir de grands volumes de donneacutees lrsquoapprentissage statistique lrsquoagreacutegation de donneacutees heacuteteacuterogegravenes la visualisation et la navigation dans de grands espaces de donneacutees et de connaissances sont de veacuteritables instruments numeacuteriques qui permettent agrave des meacutedecins des ingeacutenieurs des chercheurs etc drsquoobserver des pheacutenomegravenes de valider des hypothegraveses drsquoeacutelaborer de nouveaux modegraveles ou de prendre des deacutecisions en situation critique La maicirctrise de ces instruments au niveau des entreprises des collectiviteacutes ou du gouvernement devient un reacuteel enjeu de pouvoir eacuteconomique politique et socieacutetal Drsquoougrave lrsquoimportance du Big Data de lrsquoOpen Data et du Linked Data tant aux Eacutetats-Unis qursquoen Europe24

24 httpwwwnitrdgovSubcommitteebigdataaspx httpcom-monfundnihgovInnovationBrainstorm httpwwwaeranet

Internet et le Web jouent aussi un rocircle capital puisqursquoils concentrent une grande part des donneacutees et des connaissances et qursquoils concernent des centaines de millions drsquoutilisateurs

Le traitement des grands volumes de donneacutees est fortement connecteacute au calcul intensif lorsque les donneacutees sont issues de simulations de grande taille mais aussi lorsque provenant drsquoobservations ou drsquoexpeacuterimentations elles sont utiliseacutees pour la modeacutelisation de systegravemes complexes ( oceacutean meacuteteacuteo formation des galaxieshellip ) Les communications constituent elles aussi un aspect essentiel du traitement et de lrsquoacquisition des donneacutees massives Lrsquoanalyse de donneacutees massives induit des calculs intensifs souvent effectueacutes sur des infrastructures distribueacutees agrave grande eacutechelle ( clusters grilles ou cloud ) mais que lrsquoon trouve de plus en plus freacutequemment sur des plateformes du type HPC ( p ex en deep learning avec lrsquoexploitation de GPU )Le traitement des donneacutees eacutetant au cœur de la discipline il est donc tout naturel que les recherches en informatique aient investi le domaine des Big Data bien avant qursquoelles ne deviennent un enjeu et une preacuteoccupation pour les autres sciences et pour la socieacuteteacute Le stockage distribueacute et agrave grande eacutechelle lrsquooptimisation des accegraves la deacutefinition de langages de requecirctes de haut niveau la fouille de donneacutees la reacutesilience aux pannes et la protection des donneacutees sont des thegravemes de recherche reacutecurrents et reacuteguliegraverement revisiteacutes pour inteacutegrer les nouvelles technologies de stockage les nouvelles architectures de calcul et les nouveaux besoins de diversification des types de donneacutees et de passage agrave lrsquoeacutechelle des applications La fertilisation croiseacutee avec les matheacutematiques notamment en statistique en optimisation et en modeacutelisation a abouti agrave lrsquoeacutemergence des sciences de donneacutees comme un sous-domaine de recherche avec ses propres objets drsquoinvestigation La majoriteacute des uniteacutes de lrsquoINS2I ont des eacutequipes de recherche actives et visibles sur ce domaine

Les activiteacutes de recherche de INS2I autour des masses de donneacutees concernaient de lrsquoordre de 500 chercheursenseignants-chercheurs en 2012 lors du recensement effectueacute dans le Livre Blanc sur le Calcul Intensif

grantsprogramres_trainingres_grantsrgflyhtml

58

Livre Blanc sur les Donneacutees au CNRS Eacutetat des Lieux et Pratiques - 2018

292 La probleacutematique des donneacutees agrave IrsquoINS2I

Le traitement des donneacutees agrave grande eacutechelle avec des sources de donneacutees eacuteventuellement multiples distribueacuteesreacuteparties et heacuteteacuterogegravenes ( structures formats logiciels serveurshellip ) et une volumeacutetrie en donneacutees allant du teacuteraoctet au peacutetaoctet ( et agrave lrsquoExaoctet dans un futur proche ) est central agrave de multiples domaines allant du Web seacutemantique agrave la simulation numeacuterique avec des applications en biologiesanteacute sciences de lrsquounivers et ingeacutenierie etc

Les grandes tendances de la recherche en Big Data deacuteveloppeacutees agrave INS2I portent sur des meacutethodes innovantes de traitement et drsquoanalyse sur toute la chaicircne de valeur de la donneacutee collecte indexation stockage gestion exploitation valorisation accessibiliteacute et visualisation Les meacutecanismes de collecte drsquointeacutegration de donneacutees multi-sources de distribution des donneacutees et des calculs ( Spark25 MongoDB26 Hadoop27 implantation de MapReduce introduit par Google QServ systegraveme drsquointerrogation de base de donneacutees deacuteveloppeacute pour le LSST28hellip ) dans des environnements Cloud neacutecessitent le deacuteveloppement et lrsquooptimisation de nouvelles techniques ou le portage drsquoalgorithmes existants pour le traitement et lrsquoanalyse des donneacutees En particulier les travaux portent sur lrsquoextraction des connaissances des meacutetadonneacutees et des ontologies sur les bases de donneacutees NoSql ou graphes et sur la paralleacutelisation des algorithmes Le deacuteveloppement drsquoapplications verticales inteacutegreacutees accessibles sur tous supports mobiles et commercialisables deacuteployeacutees en mode SaaS par exemple sera sans doute dans lrsquoavenir un des principaux axes de valorisation Lrsquousine digitale permettant de deacuteployer des applications drsquooptimisation de la production industrielle et la transformation digitale sont drsquoautres points importants pour la recherche informatique tant dans la modeacutelisation des process industriels que dans lrsquooptimisation de ces process gracircce aux donneacutees eacutemises par des milliers de capteurs Lrsquoacceptabiliteacute des applications par les utilisateurs est un point crucial et de nombreux travaux srsquointeacuteressent aux modes drsquointeraction et aux meacutecanismes de protection de la vie priveacutee

25 httpssparkapacheorg26 httpswwwmongodbcom27 httphadoopapacheorg28 httpdmlsstorg

Les donneacutees massives sont souvent traiteacutees sur des infrastructures distribueacutees agrave grande eacutechelle ( p ex traitement des donneacutees du LHC ) Les stocker les indexer et effectuer un post-traitement pour extraire de lrsquoinformation ou en vue drsquoune aide agrave la deacutecision est la plupart du temps un challenge et neacutecessite des interactions entre les diverses communauteacutes qui produisent les donneacutees mais aussi speacutecialistes du cloudHPC de la visualisation des basesentrepocircts de donneacutees

Le High Performance Data Analytics ( HPDA ) est devenu central dans de multiples disciplines et constitue une prioriteacute dans les programmes nationaux de pays comme la Chine ougrave il repreacutesente une part importante des applications sur les supercalculateurs avec des applications en biologie meacutedecine personnaliseacutee preacutediction des catastrophes naturelles transports Le HPDA est drsquoailleurs devenu lrsquoun des moteurs importants de vente de supercalculateurs sur le marcheacute La meacutedecine personnaliseacutee par exemple induit de veacuteritables challenges en termes de volume de donneacutees agrave analyser avec des millions de patients

Les besoins en data analytics sont en train drsquoexploser renforccedilant la neacutecessiteacute de disposer de meacutethodes drsquoanalyse de donneacutees qui passent agrave lrsquoeacutechelle de chaines complegravetes de traitement et drsquooutils drsquoaide agrave la deacutecision le tout en srsquoappuyant sur des plateformes de calcul performantes du type HPC

Ce constat autour des masses de donneacutees agrave analyser et les multiples applications dans les secteurs socio-eacuteconomiques ( finance industrie santeacutehellip ) expliquent le retour au premier plan des meacutethodes drsquoIntelligence Artificielle que ce soit pour lrsquoanalyse de donneacutees ( apprentissage superviseacute ou non dont le Deep Learning classificationhellip ) la logique formelle lrsquoaide agrave la deacutecision le traitement du langage naturel et lrsquoargumentationhellip deacuteveloppeacutees dans les anneacutees 80 mais souvent trop coucircteuses qui deviennent des outils incontournables gracircce aux capaciteacutes de calcul disponibles Il nrsquoest qursquoagrave constater que les GAFAM mais aussi IBM et les marcheacutes financiers ont eacuteteacute parmi les premiers agrave reacuteafficher toute lrsquoimportance de lrsquoIA

INS2I

59

Livre Blanc sur les Donneacutees au CNRS Eacutetat des Lieux et Pratiques - 2018

Exemple de la plateforme Galactica utiliseacutee pour la cosmologie ( Prof F Toumani Universiteacute Clermont Auvergne Laboratoire LIMOS - UMR 6158 )

La plateforme Galactica ( httpsgalacticaisimafr ) mise en place en septembre 2015 dans le cadre du programme PlaSciDo de lrsquoINS2I vise le deacuteveloppement et la mise agrave disposition de services drsquoingeacutenierie et drsquoexpeacuterimentation agrave grande eacutechelle pour les chercheurs dans le domaine des grandes masses de donneacutees Galactica est un cluster composeacute de nœuds de calcul et de nœuds de stockage preacutesentant une puissance de calcul totale de 128 cœurs ( 256 vCPU ) agrave 240 GHz 38 To de RAM et une capaciteacute de stockage de 143 To reposant sur le logiciel Ceph Les nœuds du cluster sont interconnecteacutes gracircce agrave un reacuteseau agrave 10 et 40 Gos Lrsquoeacutequipement de la plateforme a beacuteneacuteficieacute drsquoun financement de lrsquoINS2I et du Contrat Plan Etat Reacutegion ( CPER ) de la reacutegion Auvergne Un objectif important de la plateforme Galactica est de mettre agrave la disposition des chercheurs en informatique une infrastructure de stockage et de calcul drsquoenvergure suffisante qui reste flexible et facile agrave configurer pour srsquoadapter aux besoins speacutecifiques des expeacuterimentations dans ce domaine Galactica offre pour cela trois niveaux de services Un premier niveau concerne lrsquoinfrastructure en tant que service deacuteployeacutee gracircce agrave la suite logicielle OpenStack qui permet agrave un chercheur de creacuteer de maniegravere aiseacutee au sein drsquoun environnement virtualiseacute les ressources informatiques ( calcul stockage reacuteseau etc ) adapteacutees agrave ses besoins Le deuxiegraveme niveau de service concerne la possibiliteacute pour un chercheur de creacuteer un cluster de traitement de donneacutees gracircce agrave lrsquoutilisation de modegraveles preacutedeacutefinis ( templates ) Les modegraveles disponibles actuellement sur la plateforme concernent les principales technologies modernes drsquoanalyse et de gestion de donneacutees massives comme par exemple Apache Hive ( httpshiveapacheorg ) Apache Hadoop ( httphadoopapacheorg ) Hortonworks Data Platform ( httpsfrhortonworkscom ) Cloudera ( httpswwwclouderacom ) et Apache Spark ( httpssparkapacheorg ) De plus gracircce au service Elastic Data Processing ( EDP ) il est possible pour un chercheur de creacuteer et drsquoexeacutecuter des jobs sur des clusters de traitement de donneacutees deacuteployeacutes au sein de la plateforme Enfin le dernier niveau de service concerne la mise agrave disposition de jeux de donneacutees soit sous forme brute par exemple les jeux de donneacutees astronomiques LSST ( 2 To et 35 To ) GAIA DR1 ( 730 Go compresseacutes httpswwwcosmosesaintwebgaiadr1 ) et SDSS DR9 ( 8 To httpwwwsdss3orgdr9 ) ou bien sous forme de laquo source de donneacutees raquo Une source de donneacutees est deacutefinie comme eacutetant une collection de donneacutees associeacutee agrave une infrastructure logicielle permettant drsquoexploiter ces donneacutees Un exemple de source de donneacutees est une machine virtuelle heacutebergeant MySQL et une base de

donneacutees MySQL contenant le catalogue associeacute au jeu de donneacutees SDSS DR9 Une source de donneacutees peut ecirctre reacutepliqueacutee facilement pour ecirctre exploiteacutee par des utilisateurs diffeacuterents dans des contextes diffeacuterents Srsquoinscrivant degraves sa creacuteation dans une dynamique de mutualisation des moyens et des compeacutetences Galactica se veut comme une plateforme ouverte aux chercheurs dans le domaine de lrsquoanalyse et de la gestion des grandes masses de donneacutees Preacutevue dans un premier temps en appui aux travaux du projet PetaSky ( httpcomisimafrPetasky ) la plateforme a eacuteteacute ouverte ensuite agrave la communauteacute de recherche en Science des Donneacutees pour accueillir actuellement 19 projets impliquant plus drsquoune soixantaine drsquoutilisateurs provenant de 12 laboratoires de recherche

Exemple de plateforme autour de la recherche drsquoinformation installeacutee agrave lrsquoInstitut de Recherche en Informatique de Toulouse ( IRIT ) OSIRIM

OSIRIM est une plateforme de stockage de forte volumeacutetrie ( 1 Po ) conccedilue pour lrsquoheacutebergement de projets scientifiques abordant les probleacutematiques lieacutees aux laquo meacutegadonneacutees raquo Cette plateforme administreacutee par lrsquoIRIT a eacuteteacute financeacutee par le gouvernement franccedilais la reacutegion Midi-Pyreacuteneacutees le Centre National de la Recherche Scientifique et le Fonds Europeacuteen de Deacuteveloppement Reacutegional dans le cadre drsquoun Contrat-Plan EtatReacutegion Elle est opeacuterationnelle depuis septembre 2013 et propose des ressources de stockage et de calcul pour la recherche sur lrsquoindexation et la recherche drsquoinformation dans des contenus multimeacutedias

La plateforme permet lrsquoheacutebergement de projets scientifiques neacutecessitant le stockage et le partage de plusieurs teacuteraoctets de donneacutees pour la reacutealisation drsquoexpeacuterimentations sur de grands volumes le partage de corpus de donneacutees issues par exemple de reacuteseaux sociaux donneacutees drsquoobservations donneacutees meacutedicales anonymiseacutees donneacutees audio ou videacuteohellip et partage drsquooutils logiciels par exemple pour lrsquoeacutevaluation de technologies Hadoop Sparkhellip OSIRIM est ouverte agrave la communauteacute informatique et autres domaines scientifiques souhaitant utiliser ses moyens mateacuteriels ou logiciels Lrsquoaccegraves agrave la plateforme srsquoeffectue directement agrave partir drsquoInternet Lrsquoheacutebergement des projets est gratuit Elle dispose drsquoun cluster Hadoop de Spark et drsquoun certain nombre drsquoautres logiciels ainsi que MongoDB en compleacutement du gestionnaire de tacircches SLURM seule offre initialement disponible sur la plateforme OSIRIM a eacutegalement eacuteteacute utiliseacutee en 2016 en soutien pour lrsquoinitiation agrave la recherche dans certaines

60

Livre Blanc sur les Donneacutees au CNRS Eacutetat des Lieux et Pratiques - 2018

formations de master toulousaines essentiellement autour de lrsquoapprentissage des technologies Hadoop En matiegravere de corpus il est agrave noter que la plateforme OSIRIM heacuteberge depuis septembre 2015 1 des tweets mondiaux ( via un flux temps reacuteel ) qursquoelle met agrave disposition des eacutequipes inteacuteresseacutees par lrsquoanalyse et lrsquoexploitation de ce corpus

Lrsquoarchitecture drsquoOSIRIM srsquoarticule autour

bull Drsquoun cluster de calcul de 640 cœurs comprenant des nœuds deacutedieacutes agrave la gestion de la plateforme agrave lrsquoheacutebergement des composants pilotant les architectures logicielles deacuteployeacutees ( gestionnaire de tacircches SLURM distribution Hadoop Spark Mongodbhellip ) ainsi que les nœuds permettant aux utilisateurs de se connecter sur la plateforme pour geacuterer leurs donneacutees et lancer lrsquoexeacutecution de leurs traitements et des nœuds deacutedieacutes aux calculs Il srsquoagit de 10 serveurs IBM X3755 M3 comprenant chacun 4 processeurs AMD Opteron 6262HE de 16 cœurs agrave 16Ghz 512 Go de RAM 2 disques de 300 Go en RAID1 et 2 liaisons agrave 10Gbs Le lancement des traitements srsquoeffectue via le gestionnaire de tacircches SLURM ( Simple Linux Utility for Resource Management ) ou par le gestionnaire de ressources Hadoop YARN

bull Drsquoune zone de stockage drsquoune capaciteacute utile drsquoenviron 1 Po Ce stockage est assureacute par une baie EMC Isilon Les donneacutees sont acceacutedeacutees en NFS et HDFS La baie est composeacutee de 12 nœuds X 400 de 36 disques SATA de 3 To chacun raccordeacutes au reacuteseau via 2 liens de 10Gbs

OSIRIM a permis cette anneacutee de reacutepondre agrave diverses demandes drsquoheacutebergement de projets tant au sein du laboratoire qursquoagrave lrsquoexteacuterieur dont

bull Grid5000 mise agrave disposition drsquoun espace de stockage de 100 To suite au raccordement drsquoOSIRIM au reacuteseau de grille de calcul Grid5000

bull Polemic avec lrsquoUAM Mexico analyse du comportement des utilisateurs dans les reacuteseaux sociaux

bull CompuBioMed avec lrsquoINSERM metamining pour la recommandation en bio-santeacute

bull Petasky avec le LIRIS techniques de partitionnement de donneacutees dans le domaine de la cosmologie

bull Musk avec lrsquouniversiteacute Paris Est ndash LISIS traitement de grands corpus textuels ( publications scientifiques tweets et actualiteacutes videacuteo )

bull SemDis avec le CLLE-ERSS creacuteation et eacutevaluation de bases distributionnelles du franccedilais

bull CAIR avec le LIRIS recherche agreacutegative de donneacutees

bull Tweet Contextualization avec lrsquouniversiteacute drsquoAvignon contextualisation de tweets autour drsquoeacuteveacutenements

Lrsquooffre logicielle proposeacutee sur la plateforme permet drsquoaccueillir depuis le deacutebut de lrsquoanneacutee 2017 de nouveaux projets dont certains neacutecessitent un heacutebergement de type cloud se traduisant par le deacuteploiement drsquoenvironnements speacutecifiques deacutedieacutes sous forme de machines virtuelles et exploitant des corpus de donneacutees heacutebergeacutes sur la plateforme OSIRIM

Enfin OSIRIM offre aussi un espace drsquoheacutebergement pour les travaux de recherche drsquoeacutequipes locales de lrsquoIRIT avec des activiteacutes lieacutees agrave

bull Lrsquoindexation de grandes masses de donneacutees heacuteteacuterogegravenes pour notamment concourir agrave des benchmarks internationaux en recherche drsquoinformation TREC29 CLEF30

bull Lrsquoeacutevaluation drsquooutils drsquoindexation de contenus musicaux indexation de grands volumes drsquoenregistrements drsquoeacutemissions de teacuteleacutevision internationales

bull Lrsquoindexation et recherche drsquoinformations dans de grandes masses de textes

bull Lrsquoanalyse de corpora textuels et ontologies

bull Le traitement complexe drsquoimages

29 Text REtrieval Conference30 Conference and Labs of the Evaluation Forum

INS2I

61

Livre Blanc sur les Donneacutees au CNRS Eacutetat des Lieux et Pratiques - 2018

293 Conclusion

La Science des Donneacutees est au cœur des pratiques de la recherche meneacutee agrave INS2I LrsquoIntelligence Artificielle quant agrave elle est revenue en force ( entre autres chez Google Microsoft IBM Amazonhellip ) avec des approches souvent deacuteveloppeacutees par les chercheurs informaticiens dans les anneacutees 80 ( mais trop coucircteuses agrave lrsquoeacutepoque ) car elle permet drsquoanalyser ces masses de donneacutees produites dans de multiples domaines et drsquoen tirer des informations eacuteventuellement pour de lrsquoaide agrave la deacutecision Dans ce domaine la France affiche un potentiel qui peut en faire lrsquoun des acteurs majeurs au niveau mondial

On peut srsquoattendre agrave des eacutevolutions rapides sur plusieurs points dont ( i ) lrsquoautomatisation des processus drsquoextraction ( meacutetadonneacutees connaissances ontologies ) et drsquointeacutegration des donneacutees et de gestion de la qualiteacute le deacuteveloppement de nouvelles meacutethodes drsquoanalyse de donneacutees multi-sources ( textes reacuteseaux sociaux audio videacuteo geacuteolocalisationhellip ) et lrsquoameacutelioration des performances ( passage agrave lrsquoeacutechelle ) ( ii ) une meilleure exploitation drsquoarchitectures adapteacutees au Big Data ( iii ) lrsquoameacutelioration de la seacutecuriteacute des infrastructures mateacuterielles et logicielles des collectes et des analyses ( iv ) lrsquooptimisation des meacutecanismes drsquoanonymisation et de cryptage garantissant la protection de la vie priveacutee ( v ) lrsquointeacutegration des donneacutees et des analyses pour la seacutecuriteacute ( cyber-seacutecuriteacute gestion de crises controcircle aux frontiegraveres ) ( vi ) lrsquointeacutegration et lrsquoexploitation des open data ( e-gouvernement santeacute impocircts )

Il reste cependant de multiples deacutefis agrave relever pour la recherche tels que

bull La maicirctrise de lrsquoheacuteteacuterogeacuteneacuteiteacute des donneacutees lors de leur inteacutegration et de leur agreacutegation en les confrontant agrave des donneacutees de reacutefeacuterences ou agrave des ontologies de domaines La deacutefinition notamment de meacutethodes de raisonnement sur des donneacutees incertaines ou incomplegravetes constitue un preacutealable fort agrave lrsquointeacutegration seacutemantique des donneacutees

bull Aller vers une theacuteorie de la deacutecision qualitative les systegravemes deacutecisionnels exploitent ces connaissances et offrent aux experts une palette drsquooutils qui ameacuteliorent non seulement leurs connaissances et leurs productiviteacutes mais leur offrent eacutegalement les meacuteta-connaissances neacutecessaires agrave une meilleure interpreacutetation des pheacutenomegravenes qursquoils observent ou surveillent De faccedilon plus geacuteneacuterale lrsquoaide agrave la deacutecision doit tenir compte autant des connaissances produites par les processus meacutetiers que des

informations qualitatives qui doivent accompagner cette connaissance Lrsquoorigine des informations la confiance en leurs producteurs leur coheacuterence leur compleacutetude leur exactitude leur fraicirccheur ainsi que la chaicircne de transformations qursquoelles ont subies sont autant drsquoeacuteleacutements indispensables agrave connaicirctre avant toute prise de deacutecision rationnelle

bull Lrsquoaide agrave la deacutecision pour les systegravemes complexes le terme Policy Analytics est utiliseacute depuis quelques anneacutees pour deacutesigner les activiteacutes drsquoexploration de tregraves grandes masses de donneacutees ( fouille extraction de connaissances ) pour la construction drsquoindicateurs syntheacutetiques et de modegraveles drsquoaide agrave la deacutecision utiliseacutes en support de pilotage de systegravemes complexes ( particuliegraverement des entreprises ou des organismes publics ) Les processus de deacutecision publique sont souvent soumis agrave drsquoimportantes exigences de leacutegitimiteacute et de sens Lrsquoaspect meacutethodologique en deacutecision est donc un problegraveme majeur ougrave la multipliciteacute des acteurs et lrsquoheacuteteacuterogeacuteneacuteiteacute seacutemantique sont des verrous agrave lever Les deacuteveloppements de systegravemes drsquoexplication ou de recommandations argumenteacutees sont des pistes agrave explorer

bull Lrsquoaide agrave la deacutecision dans un environnement ambiant ou ubiquitaire les reacuteseaux de capteurs lrsquoInternet des objets les eacutequipements mobiles produisent quantiteacute drsquoinformations correspondant agrave des releveacutes drsquoobservation ( meacuteteacuteo trafic crowdsourcing ) des donneacutees de surveillance ( santeacute ville ) des eacuteveacutenements environnementaux ( pollution tsunami ) Ces informations dites ambiantes sont pleacutethoriques heacuteteacuterogegravenes et parcellaires Elles doivent ecirctre rapprocheacutees avec des reacutefeacuterentiels pour les compleacuteter ou en deacuteterminer la seacutemantique Elles neacutecessitent souvent un traitement agrave la voleacutee pour produire des indicateurs qui serviront agrave la prise de deacutecision ou agrave la supervision agrave distance de tacircches ou de controcircle drsquoeacutequipements Ces travaux doivent tenir compte du contexte de lrsquoutilisateur de son activiteacute passeacutee de ses preacutefeacuterences et des interactions qursquoil a avec drsquoautres utilisateurs ou des communauteacutes drsquoutilisateurs

bull La preacuteservation des connaissances pour les geacuteneacuterations futures souligne lrsquoimportance de la peacuterenniteacute du stockage et le problegraveme drsquointerpreacutetation des contenus Les problegravemes souleveacutes sont agrave la fois drsquoordre technologique ( migration drsquoune technologie agrave une autre ) eacuteconomique ( coucircts de la migration et coucircts drsquoarchivage ) et seacutemantique ( eacutevolution des modegraveles de repreacutesentation de connaissances nouveaux standards de meacutetadonneacutees )

62

Livre Blanc sur les Donneacutees au CNRS Eacutetat des Lieux et Pratiques - 2018

Les sciences de lrsquoinformation irriguent et feacutecondent tout le champ scientifique gracircce agrave de nouveaux outils de modeacutelisation et de simulation de nouveaux modegraveles de calcul intensif la gestion et lrsquoanalyse de donneacutees massives le traitement du signal et de lrsquoimage la robotique les objets communicants et lrsquointeraction Lrsquoactiviteacute scientifique subit un bouleversement eacutepisteacutemologique qui conduit agrave de nouvelles formes de production de la connaissance et agrave lrsquoeacutemergence de plusieurs sous-disciplines Ainsi de nouveaux champs drsquoinvestigation sont neacutes aux interfaces des sciences de lrsquoinformation comme la bioinformatique les neurosciences computationnelles la cyber-seacutecuriteacute les humaniteacutes numeacuteriques la geacuteoinformatique lrsquoe-santeacute Lrsquoastroinformatique en est une parfaite illustration Elle integravegre lrsquoastronomie lrsquoastrophysique les statistiques lrsquoinformatique et le traitement du signal

A lrsquoimage de la bioinformatique elle est sur la voie de deacutefinir ses propres objets de recherche ses propres meacutethodes et ses propres innovations Lrsquoastrophysique a eacutemergeacute agrave la fin des anneacutees 2000 en eacutecho aux travaux de Jim Gray sur lrsquousage intensif des donneacutees en sciences Lors drsquoune confeacuterence en 2007 lrsquoinformaticien Jim Gray Prix Turing en 1998 eacutenonccedila lrsquoideacutee drsquoun nouveau paradigme de la science construit autour du traitement intensif et de lrsquoanalyse agrave grande eacutechelle des donneacutees ( data-intensive science )31 Lrsquoideacutee a depuis fait son chemin srsquoinspirant souvent du succegraves de la bioinformatique et srsquoacceacutelegravere reacutecemment sous la pression de projets drsquoenvergure comme SDSS GAIA et LSST encourageacutee aussi par les reacutecents progregraves en science des donneacutees ( requecirctes complexes apprentissage calcul distribueacute optimisation et passage agrave lrsquoeacutechelle )

31 [4] eScience -- A Transformed Scientific Method Jim Gray eScience Talk at NRC-CSTB meeting Mountain View CA 11 January 2007

INS2I

63

Livre Blanc sur les Donneacutees au CNRS Eacutetat des Lieux et Pratiques - 2018

210 INSTITUT NATIONAL DE PHYSIQUE NUCLEAIRE ET DE PHYSIQUE DES PARTICULES ( IN2P3 )

2101 Introduction

Creacuteeacute en 1971 lrsquoInstitut National de Physique Nucleacuteaire et de Physique des Particules ( IN2P3 ) du CNRS exerce les missions nationales drsquoanimation et de coordination dans les domaines de la physique nucleacuteaire de la physique des particules et des astroparticules des deacuteveloppements technologiques et des applications associeacutees Il conccediloit coordonne et anime les programmes de recherche nationaux et internationaux dans ces domaines Ses missions incluent eacutegalement la coordination de la mise en place de systegravemes drsquoinformation permettant le stockage la mise agrave disposition aupregraves de la communauteacute scientifique le traitement et la valorisation de lrsquoensemble des donneacutees scientifiques concerneacutees ainsi que leur archivage

Ces recherches ont pour but drsquoexplorer la physique des particules eacuteleacutementaires leurs interactions fondamentales ainsi que leurs assemblages en noyaux atomiques drsquoeacutetudier les proprieacuteteacutes de ces noyaux et drsquoexplorer les connexions entre lrsquoinfiniment petit et lrsquoinfiniment grand

Que ce soit avec la physique des particules aupregraves des grands acceacuteleacuterateurs la physique des astroparticules avec les expeacuteriences embarqueacutees sur satellites les teacutelescopes et autres deacutetecteurs terrestres ou encore dans une moindre mesure la physique nucleacuteaire les eacutequipes de lrsquoIN2P3 et du CEAIrfu doivent faire face agrave des masses de donneacutees consideacuterables qursquoil faut stocker distribuer et analyser Bien qursquohistoriquement lrsquoinformatique agrave lrsquoIN2P3 ait eacuteteacute fortement domineacutee par les besoins de la communauteacute de la physique des particules de nouveaux deacutefis sont apparus Des expeacuteriences de physique des astroparticules sont actuellement en cours avec des exigences qui atteindront une fraction significative de celle des expeacuteriences du Large Hadron Collider ( LHC ) au CERN dans les 5 prochaines anneacutees Un changement de paradigme est eacutegalement en cours en calcul pour la physique nucleacuteaire Compte tenu des grandes expeacuteriences agrave venir par exemple au GANIL la communauteacute veut centraliser le calcul et le stockage des donneacutees

Lrsquoensemble des expeacuteriences neacutecessite eacutegalement des modeacutelisations par technique de Monte-Carlo qui sont elles-mecircmes geacuteneacuteratrices de grandes quantiteacutes de donneacutees Lrsquoaspect donneacutees et traitement statistique est donc la caracteacuteristique principale de lrsquoinformatique pour la physique corpusculaire

Le traitement statistique global sur une multitude de jeux de donneacutees indeacutependants mdash une collision de particules correspond agrave un jeu de donneacutees mdash srsquoadapte tregraves bien agrave des architectures informatiques constitueacutees de ferme de calculateurs Drsquoune maniegravere geacuteneacuterale en dehors des calculs de chromodynamique quantique sur reacuteseau ( QCD ) la physique subatomique a tregraves peu besoin de calculateurs parallegraveles Cette caracteacuteristique lrsquoa distingueacutee de bon nombre drsquoautres disciplines scientifiques pour lesquelles le HPC est une neacutecessiteacute La principale complexiteacute du calcul pour la physique corpusculaire provient des masses de donneacutees consideacuterables qursquoil faut geacuterer et distribuer sur le reacuteseau mondial puis traiter au niveau local

Lrsquoensemble des laboratoires de lrsquoIN2P3 utilise les ressources informatiques du CC-IN2P3 ( Section 31 ) et des grilles WLCG et EGI

2102 La probleacutematique des donneacutees agrave lrsquoIN2P3

Depuis la creacuteation de lrsquoIN2P3 le plus grand deacutefi en termes de traitement de donneacutees a eacuteteacute le calcul et le stockage des donneacutees de la physique des particules issues des expeacuteriences du CERN

Dans le grand collisionneur de hadrons ( LHC ) des particules entrent en collision environ 600 millions de fois par seconde Chaque collision produit des particules qui se deacutecomposent souvent de faccedilon tregraves complexe en formant des particules plus nombreuses

64

Livre Blanc sur les Donneacutees au CNRS Eacutetat des Lieux et Pratiques - 2018

Pour chaque eacuteveacutenement qui passe par la proceacutedure de filtrage rigoureuse des deacutetecteurs du LHC il faut en moyenne simuler 1 agrave 15 eacuteveacutenement afin de pouvoir calibrer et finalement comprendre les donneacutees des expeacuteriences

Le traitement des donneacutees agrave lrsquoIN2P3 est aujourdrsquohui eacutetroitement lieacute et influenceacute par le modegravele de calcul du LHC et aligneacute sur la grille de calcul mondiale du LHC ( WLCG ) Le deacutefi consiste agrave passer au crible les 50 peacutetaoctets de donneacutees produites chaque anneacutee pour deacuteterminer si les collisions ont souleveacute une physique inteacuteressante Le WLCG est une infrastructure informatique distribueacutee organiseacutee en plusieurs niveaux ( tiers ) et offre agrave une communauteacute de plus de 8000 physiciens un accegraves en temps reacuteel aux donneacutees du LHC

Ainsi la plus grande partie de lrsquoinfrastructure de calcul drsquoIN2P3 est organiseacutee par LCG-France32 selon une structuration par Tier33 avec CC-IN2P3 eacutetant le Tier-1 franccedilais accompagneacute de 7 Tier-2 drsquoIN2P3 Cela inclut le centre Tier-2 GRIF34 ( Grille au service de la Recherche en Icircle-de-France ) avec une forte participation du CEAIrfu

Pour donner une ideacutee du deacutefi de la gestion des donneacutees en 2017 LCG-France a une capaciteacute de stockage sur disque de 17 Po au niveau Tier-1 ( crsquoest-agrave-dire agrave CC-IN2P3 ) et 14 Po au niveau Tier-2 et une capaciteacute de stockage sur bande de 40 Po au CC-IN2P3 Pour le traitement en France environ 18 000 cœurs sont reacuteserveacutes au Tier-1 et encore environ 18000 cœurs dans les centres Tier-2

32 httplcgin2p3fr33 ldquoThe Grid A system of tiersrdquo httpshomecernaboutcompu-tinggrid-system-tiers34 httpsgriffr

IN2P3

Infrastructure principale pour le calcul IN2P3

65

Livre Blanc sur les Donneacutees au CNRS Eacutetat des Lieux et Pratiques - 2018

Bien que le traitement des donneacutees pour LCG-France soit de loin le plus grand utilisateur de lrsquoinfrastructure de calcul de lrsquoIN2P3 drsquoautres communauteacutes au sein drsquoIN2P3 progressent rapidement

Par exemple en 2016 le CC-IN2P3 a fourni en moyenne 2 800 cœurs de calcul 12 To drsquoespace disque et 25 To de stockage sur bande agrave des expeacuteriences astrophysiques spatiales ( AMS-2 Planck Fermi ) Toute la communauteacute des astroparticules a utiliseacute en 2016 environ 3 Po de disque et 8 Po de bande au CC-IN2P3 Nous beacuteneacuteficions indeacuteniablement drsquoune culture et drsquoune sensibilisation aux deacutefis du traitement des donneacutees dans la communauteacute de la physique des particules et de lrsquoastrophysique Dans ce contexte les expeacuteriences du LHC filtrent leurs donneacutees autant que possible deacutejagrave au niveau du deacutetecteur De plus le nombre de copies de donneacutees est maintenu au minimum absolu neacutecessaire et les donneacutees intermeacutediaires sont effaceacutees autant que possible Dans lrsquoastrophysique spatiale le flux de donneacutees est principalement limiteacute par la largeur de bande de teacuteleacutemeacutetrie des satellites ce qui signifie qursquoun effort important est entrepris pour reacuteduire les donneacutees deacutejagrave agrave bord du satellite

Dans les anneacutees agrave venir un grand nombre de projets importants stockeront leurs donneacutees dans lrsquoinfrastructure de lrsquoIN2P3 En physique des particules lrsquoinstitut participe agrave lrsquoexpeacuterience Belle-235 de lrsquoacceacuteleacuterateur japonais SuperKEKB En physique des astroparticules agrave tregraves haute eacutenergie le Cherenkov Telescope Array ( CTA ) produira environ 8 Po de donneacutees par an dont 4 Po sont des donneacutees brutes et 2 Po sont des donneacutees simuleacutees neacutecessaires agrave lrsquoeacutetalonnage En cosmologie nous verrons le deacutemarrage de lrsquoexploitation de deux projets majeurs au deacutebut des anneacutees 2020 la mission Euclid de lrsquoESA et le Large Synoptic Survey Telescope ( LSST ) Les deux sont extrecircmement difficiles en matiegravere de quantiteacute et de qualiteacute des donneacutees Alors que pour Euclid lrsquoIN2P3 est responsable de 30 du traitement des donneacutees pour LSST nous fournirons 50 de la puissance de calcul et conserverons une archive complegravete de toutes les donneacutees LSST ( brutes et reacuteduites ) au CC-IN2P3 Les deux LSST et Euclid produiront chacun environ 100 Po de donneacutees

Dans le domaine de la physique nucleacuteaire le traitement des donneacutees a eacuteteacute jusqursquoici deacutecentraliseacute principalement au sein des groupes chargeacutes des expeacuteriences Dans le contexte de la mise en service du nouvel acceacuteleacuterateur Spiral-2 au Ganil et de lrsquoeacutevolution simultaneacutee de deacutetecteurs tels que S3 une approche plus centraliseacutee est eacutegalement neacutecessaire pour cette communauteacute

35 httpswwwbelle2org

Un groupe de travail eacutetudie les possibiliteacutes de centraliser le stockage des donneacutees et eacuteventuellement le traitement des donneacutees pour les expeacuteriences existantes et futures dans ce domaine

LrsquoIN2P3 est le principal et de loin le plus gros contributeur de France Grilles la NGI ( National Grid Infrastructure ) franccedilaise qui fait partie de lrsquoinfrastructure de reacuteseau europeacuteen ( EGI36 ) Lrsquoactiviteacute srsquoorganise autour de trois axes pour reacutealiser la strateacutegie geacuteneacuterale de France Grilles

bull Le deacuteploiement et lrsquoopeacuteration drsquoune infrastructure distribueacutee de grille et de cloud au niveau national

bull Lrsquoapplication drsquoune politique drsquoaccegraves permettant de rendre cette infrastructure disponible aux utilisateurs de toutes les disciplines

bull Lrsquointeacutegration de cette infrastructure dans EGI

France Grilles est organiseacute en un Groupement drsquoInteacuterecirct Scientifique ( GIS ) avec un grand nombre de partenaires ( CNRS MENESR CEA CPU INRA INRIA INSERM et RENATER ) et devrait jouer un rocircle de premier plan au sein de la structure laquo FR-T2 raquo actuellement en gestation et qui devrait coordonner les e-infrastructures franccedilaises de maniegravere distribueacutee et nationale

Pour permettre une utilisation efficace des donneacutees distribueacutees en plusieurs endroits ( p ex dans les diffeacuterents centres Tier en France ) France Grilles et lrsquoIN2P3 srsquoappuient notamment sur iRODS iRODS37 pour Integrated Rule-Oriented Data System est un outil de distribution de donneacutees permettant lrsquoaccegraves agrave des donneacutees se trouvant reacuteparties sur diffeacuterents sites et sur des supports heacuteteacuterogegravenes ( systegraveme de fichiers sur disques bases de donneacutees bandes magneacutetiques etc )

En outre lrsquoIN2P3 est engageacute dans le principe FAIR38pour les donneacutees Cela signifie que les donneacutees de notre recherche doivent ecirctre trouvables accessibles interopeacuterables et reacuteutilisables Dans ce contexte nous entreprenons plusieurs actions Par exemple un modegravele de plan de gestion de donneacutees commun a eacuteteacute creacuteeacute et nous avons lrsquointention drsquoen rendre obligatoire la fourniture pour tous les projets IN2P3

36 httpswwwegieu37 httpsirodsorg iRODS IN2P3 service httpsirodsin2p3fr38 par exemple Mons et al 2017

66

Livre Blanc sur les Donneacutees au CNRS Eacutetat des Lieux et Pratiques - 2018

Concernant lrsquoaspect de trouvabiliteacute des donneacutees nous recommandons lrsquoutilisation de Digital Object Identifiers39 ce qui permet drsquoeacutetablir un lien exploitable interopeacuterable et persistant vers des donneacutees par exemple dans le contexte drsquoune publication scientifique Afin drsquoassurer la reacuteutilisabiliteacute des donneacutees un projet a eacuteteacute mis en place agrave lrsquoIN2P3 en 2016 pour eacutetudier les possibiliteacutes de preacuteservation des logiciels et la valeur ajouteacutee drsquoun plan geacuteneacuteral de gestion des logiciels

Dans le contexte europeacuteen lrsquoIN2P3 suit une approche similaire agrave travers sa participation agrave des projets lieacutes agrave lrsquoEuropean Open Science Cloud ( EOSC ) LrsquoEOSC vise agrave donner aux scientifiques en Europe un accegraves transparent au calcul au stockage et aux services agrave travers les frontiegraveres et les communauteacutes Dans le cadre du projet EOSC-Pilot lrsquoIN2P3 dirige lrsquoeffort drsquointeropeacuterabiliteacute des donneacutees et des e-infrastructures crsquoest-agrave-dire que nous essayons de trouver et de proposer des solutions qui permettront agrave lrsquoEOSC drsquoatteindre ses objectifs

Lrsquoinstitut est eacutegalement impliqueacute dans deux projets europeacuteens qui eacutetudient les possibiliteacutes offertes par le cloud et les infrastructures distribueacutees Au sein drsquoHelix Nebula Science Cloud ( HNSciCloud ) nous eacutetudions une plateforme de cloud hybride rassemblant des fournisseurs de services de cloud computing des e-infrastructures financeacutees par des fonds publics et des ressources internes Et dans le projet eXtreme DataCloud ( XDC ) des systegravemes de donneacutees distribueacutees sont exploreacutes y compris des fournisseurs priveacutes et publics et eacutetudient des aspects de la gestion des donneacutees pour la physique des astroparticules et des hautes eacutenergies

2103 Conclusion

LrsquoIN2P3 a une longue histoire dans la gestion de grands flux de donneacutees ainsi que dans lrsquoorganisation et la distribution du stockage Neacuteanmoins les deacutefis agrave venir dans les 5-10 prochaines anneacutees sont importants Nous nrsquoy verrons pas seulement un grand nombre de nouveaux projets avec des volumes de donneacutees tregraves importants ( de lrsquoordre de la dizaine de peacutetaoctets par an ) entrer dans le jeu mais la deacuteferlante de donneacutees qui reacutesultera de la mise agrave niveau du LHC et de ses expeacuteriences sera encore plus significative

39 httpswwwdoiorg

En raison de lrsquointensiteacute plus eacuteleveacutee du faisceau au LHC et des deacutetecteurs ayant une reacutesolution spatiale et temporelle plus eacuteleveacutee le volume de donneacutees au LHC devrait augmenter drsquoun facteur 100 drsquoici 2025 Diffeacuterentes solutions concernant le modegravele de calcul pour le LHC sont actuellement discuteacutees Il demeure cependant eacutevident que lrsquoIN2P3 fera encore face agrave une augmentation significative des exigences de traitement des donneacutees

Pour poursuivre son approche reacuteussie de la gestion des donneacutees lrsquoinstitut poursuit plusieurs approches

bull Etudier de nouvelles approches afin drsquooptimiser les flux de donneacutees Ceci inclut lrsquoutilisation de systegravemes comme iRODS mais aussi le deacuteveloppement de nouveaux systegravemes de gestion de ressources comme DIRAC

bull Travailler sur des systegravemes de calcul en ligne qui reacuteduisent la quantiteacute de donneacutees agrave traiter en reacuteduisant les donneacutees directement sur le site drsquoexpeacuterimentation Ceci est appliqueacute par exemple dans lrsquoinfrastructure de calcul O2 pour lrsquoexpeacuterience Alice au LHC ou dans lrsquoapproche de reacuteduction de donneacutees sur site de Cherenkov Telescope Array ( CTA )

bull Continuer agrave promouvoir des systegravemes de stockage de donneacutees qui permettent lrsquoutilisation transparente de diffeacuterentes ressources

bull Coordonner lrsquoapproche pour un accegraves transparent aux donneacutees avec les initiatives au niveau franccedilais ( p ex MiCaDo COCIN FR-T2 ) et dans le contexte europeacuteen ( p ex EOSC EDI EGI EUDAT )

bull Poursuivre la centralisation de lrsquoinfrastructure informatique de lrsquoIN2P3 ce qui permet un investissement plus efficace tout en maintenant le haut niveau drsquoexpertise distribueacutee dans les laboratoires

bull Poursuivre lrsquoapproche de formation continue agrave travers des programmes de formation pour le personnel IN2P3 former la prochaine geacuteneacuteration de scientifiques de donneacutees et maintenir lrsquoIN2P3 en tant qursquoinstitut attractif pour lrsquoensemble de la communauteacute du calcul scientifique et des infrastructures associeacutees

IN2P3

67

Livre Blanc sur les Donneacutees au CNRS Eacutetat des Lieux et Pratiques - 2018

31 LE CC-IN2P3

311 Mission du CC-IN2P3

LrsquoIN2P3 srsquoappuie sur lrsquoinfrastructure de recherche Centre de Calcul de lrsquoIN2P3 ( CC-IN2P3 ) pour accomplir sa mission de mise en place de systegravemes drsquoinformation permettant le stockage la mise agrave disposition aupregraves de la communauteacute scientifique le traitement et la valorisation de lrsquoensemble des donneacutees scientifiques concerneacutees ainsi que leur archivage

Le CC-IN2P3 dispose pour cela drsquoun datacenter abritant les services informatiques neacutecessaires agrave lrsquoanalyse et agrave lrsquointerpreacutetation des processus fondamentaux de la physique subatomique Du fait de la rareteacute de ces processus ce travail requiert lrsquoanalyse statistique de millions voire de milliards drsquointeractions entre particules Cette analyse neacutecessite le transport le stockage et le traitement drsquoeacutenormes quantiteacutes de donneacutees Les analyses physiques sont meneacutees par un grand nombre de chercheurs reacutepartis dans le monde entier

Le CC-IN2P3 fournit des ressources non seulement pour la physique nucleacuteaire et la physique des particules mais aussi pour lrsquoastrophysique et les astroparticules Parmi les collaborations scientifiques majeures qui utilisent ses services on trouve le LHC40 GANILSpiral 241 LSST42 CTA43 KM3NeT44 tous figurant sur la feuille de route des TGIRIR45 ou celle de lrsquoESFRI46 Par ailleurs les technologies informatiques deacuteployeacutees pour ces besoins ont deacutemontreacute une totale adeacutequation avec les besoins drsquoautres domaines ( sciences humaines

40 Large Hadron Collider ( httphomecerntopicslarge-hadron-collider )41 Grand Acceacuteleacuterateur National drsquoIons Lourds ( httpswwwganil-spiral2eu )42 Large Synoptic Survey Telescope ( httpwwwlsstorg )43 Cherenkov Telescope Array ( httpwwwcta-observatoryorg )44 Neutrino telescopes ( httpwwwkm3netorg )45 Tregraves grandes infrastructures de recherche Infrastructures de recherche46 European Strategy Forum on Research Infrastructures ( httpseceuropaeuresearchinfrastructurespdfesfriesfri_roadmapesfri_roadmap_2016_fullpdf )

bio-informatique eacutecologiehellip ) domaines qui utilisent aujourdrsquohui modestement les services du CC-IN2P3

En premiegravere approche le calcul scientifique reacutealiseacute par les collaborations de recherche auxquelles participe lrsquoIN2P3 correspond agrave un traitement statistique global sur une multitude de jeux de donneacutees indeacutependants ( une collision de particules correspond agrave un jeu de donneacutees ) traitement qui srsquoadapte tregraves bien agrave des architectures informatiques constitueacutees de ferme de calculateurs Drsquoune maniegravere geacuteneacuterale en dehors des calculs de chromodynamique quantique sur reacuteseau ( QCD ) la physique corpusculaire a tregraves peu besoin de calculateurs parallegraveles Cette caracteacuteristique lrsquoa distingueacutee de bon nombre drsquoautres disciplines scientifiques pour lesquelles le HPC est une neacutecessiteacute

La principale complexiteacute du calcul pour la physique corpusculaire provient des masses de donneacutees consideacuterables qursquoil faut geacuterer et distribuer sur le reacuteseau mondial puis traiter au niveau local Crsquoest pourquoi le CC-IN2P3 opegravere des moyens de calcul haut deacutebit ( ou HTC pour High Throughput Computing ) en constante eacutevolution

312 Eacutequipements du CC-IN2P3 ( oct 2017 )

Ces moyens de traitement de donneacutees agrave haut deacutebit sont scheacutematiseacutes ci-contre Ils sont constitueacutes de

bull Une ferme de calcul de 16 000 cœurs physiques fonctionnant avec le gestionnaire de tacircches Univa Grid Engine

bull Un systegraveme de stockage sur disques de 15 Peacutetaoctets deacutedieacute agrave 80 aux expeacuteriences LHC Ce stockage est accessible au travers de divers logiciels ou systegravemes de fichiers

o GPFS ( IBM General Parallel File System ) fournit aux utilisateurs un espace de travail en mode

3 LES DONNEacuteES AU SEIN DES CENTRES NATIONAUX DU CNRS CC-IN2P3 ET IDRIS

68

Livre Blanc sur les Donneacutees au CNRS Eacutetat des Lieux et Pratiques - 2018

fichier flexible et accessible depuis les machines interactives ou le systegraveme de traitement par lot drsquoune capaciteacute de 2 peacutetaoctets

o AFS ( Andrew File System ) drsquoune capaciteacute de 40 teacuteraoctets permet de partager les espaces home et lrsquoessentiel des distributions de logiciels

o Le systegraveme de stockage hieacuterarchique HPSS ( High Performance Storage System ) dispose drsquoun cache sur disques permettant de geacuterer la reacutecupeacuteration et les migrations de donneacutees depuis et vers le systegraveme de stockage de masse ( cartouches magneacutetiques ) Ce systegraveme drsquoune capaciteacute de stockage actuelle totale de 340 peacutetaoctets contient agrave ce jour 59 peacutetaoctets de donneacutees scientifiques

o SRMdCache et Xrootd sont des systegravemes speacutecifiques de gestion de donneacutees deacuteveloppeacutes par la communauteacute de la physique des hautes eacutenergies et capables drsquoabsorber des charges tregraves importantes en termes drsquoentreacuteessorties Ils constituent lrsquoessentiel du stockage au CC-IN2P3

o iRods est un systegraveme de gestion de donneacutees distribueacute flexible et capable de geacuterer facilement

des meacutetadonneacutees La faciliteacute de mise en œuvre notamment pour des donneacutees distribueacutees geacuteographiquement a rendu iRods populaire et a contribueacute agrave son deacuteveloppement

bull Un ensemble de 4 silos robotiseacutes STKOracle SL8500 pour le stockage sur cartouches magneacutetiques Drsquoune capaciteacute totale de 4 times 10 000 cartouches ces silos peuvent heacuteberger jusqursquoagrave 340 peacutetaoctets avec la derniegravere technologie de lecteurs T10kD ( 85 Tocartouche )

bull Un ensemble de systegravemes de bases de donneacutees sous diverses technologies ( mySQL PostgreSQL et Oracle ) Le CC-IN2P3 a deacuteveloppeacute une expertise consideacuterable dans ce domaine et met en œuvre des architectures de clusters de bases de donneacutees particuliegraverement complexes

Lrsquoensemble des ressources informatiques est interconnecteacute sur un reacuteseau dont lrsquoeacutepine dorsale supporte une bande passante de 400 Gbs Les serveurs individuels sont connecteacutes en Ethernet agrave 1 Gbs ou 10 Gbs selon les applications Une partie du stockage exploite aussi la technologie de reacuteseau de donneacutees Fibre Channel

CENTRES NATIONAUX

69

Livre Blanc sur les Donneacutees au CNRS Eacutetat des Lieux et Pratiques - 2018

Lrsquoeacutevolution de ces ressources au cours des 6 derniegraveres anneacutees est reacutesumeacutee par les graphes suivants

313 Usages du CC-IN2P3

En 2016 lrsquousage des ressources se reacutepartit selon le graphique suivant

Bien que repreacutesentant en nombre une proportion significative de lrsquoensemble des groupes utilisant le CC-IN2P3 la part du CPU utiliseacutee par des activiteacutes de recherche ne deacutependant pas de la politique scientifique

de lrsquoIN2P3 ne repreacutesente que 2 du CPU consommeacute en 2016 ( qui srsquoeacutelegraveve agrave 17 milliard de HS06h ) et moins de 1 des capaciteacutes de stockage utiliseacutees ( qui eacutetaient de 619 Po )

70

Livre Blanc sur les Donneacutees au CNRS Eacutetat des Lieux et Pratiques - 2018

314 Preacutevisions

Depuis 2011 le CC-IN2P3 a mis en service une seconde salle machine drsquoune superficie de 850 m2 et capable agrave terme de fournir une puissance eacutelectrique de 34 MW pour le mateacuteriel informatique hors refroidissement Cette puissance vient en compleacutement des 1 MW de la premiegravere salle La conception tregraves moderne de la nouvelle salle ( pas de faux plancher organisation des serveurs en alleacutees avec confinement de la chaleur et traitement de celle-ci par la technique dite InRow double alimentation EDF redondante etc ) en fait un eacutequipement de tout premier plan capable drsquoaccueillir les moyens de calcul et de traitement des donneacutees des futures grandes expeacuteriences de physique corpusculaire

En 2017 la production de donneacutees des 4 deacutetecteurs installeacutes sur le Large Hadron Collider ( LHC ) au CERN repreacutesente un volume de 50 Peacutetaoctets par an malgreacute un filtrage eacuteliminant 99 des eacuteveacutenements observeacutes Crsquoest trois fois plus que les donneacutees produites chaque anneacutee lors de la premiegravere anneacutee drsquoexploitation Le traitement global de ces donneacutees repose sur lrsquoutilisation de la grille mondiale W-LCG composeacutee de 250 centres de calcul avec 1 Tier 0 ( au CERN ) 12 Tier 1 ( dont le CC-IN2P3 ) et plus de 200 Tier 2 Dans ce contexte lrsquoobjectif du CC-IN2P3 est de fournir 10 des ressources de calcul pour LHC Il est agrave noter que les accegraves reacuteseau du CC-IN2P3 pour lrsquoeacutechange des donneacutees de ces seules expeacuteriences repreacutesentent pregraves de 46 du trafic RENATERLe CCndashIN2P3 heacuteberge eacutegalement les donneacutees issues drsquoautres expeacuteriences HESS47 AMS48 Planck49 ANTARES50 Auger51

47 Observatoire des tregraves hautes eacutenergies ( httpswwwobspmfrhess-ii-observatoire-des-treshtml ) 48 Spectromegravetre magneacutetique alpha ( httpshomecernfraboutexperimentsams )49 Satellite drsquoobservation du fond cosmologique de la voucircte ceacuteleste ( httpsplanckcnesfr )50 Deacutetecteur sous-marin de neutrinos ( httpantaresin2p3fr ) 51 Deacutetection de rayons cosmiques de tregraves haute eacutenergie ( httpwwwin2p3frrechercheactualites19991999_augerdetecteurshtm )

VIRGO52 Supernovae53hellip qui comme celles du LHC ont chacune leur politique de gestion de donneacutees Un point commun toutefois est que les donneacutees drsquoune expeacuterience doivent pouvoir ecirctre exploiteacutees sur des dureacutees tregraves significatives avec donc des probleacutematiques de stockage peacuterenne de ces donneacutees Des processus dit de stockage intermeacutediaire sont ainsi mis en œuvre

Les besoins futurs en matiegravere de stockage de donneacutees sont agrave la hauteur de lrsquoambition des expeacuteriences qursquoheacuteberge le CC-IN2P3 En particulier les futurs deacuteveloppements du LHC ( HL-LHC ) vont provoquer une explosion du volume de donneacutees produites Parallegravelement lrsquoIN2P3 est engageacute dans les expeacuteriences majeures drsquoastroparticules et cosmologie que sont EUCLID54 LSST et CTA

La projection de ces besoins agrave lrsquoeacutecheacuteance de 2030 va ecirctre synonyme de deacuteploiement drsquoinfrastructures de dimensions tregraves significatives

A lrsquohorizon 2030 le CC-IN2P3 stockera plus de 1 200 Po de donneacutees et offrira une capaciteacute de calcul de lrsquoordre de 6 millions de HEPSpec0655 ( MHS06 )

52 Deacutetection des ondes gravitationnelles ( httpwwwvirgo-gweu )53 httpssnovaein2p3fr54 Teacutelescope spatial pour lrsquoanalyse de lrsquoeacutenergie noire ( httpwwweuclid-ecorg )55 httpswikiegieuwikiFAQ_HEP_SPEC06 1 HEPSpec06 ~= 1 GFlops

CENTRES NATIONAUX

71

Livre Blanc sur les Donneacutees au CNRS Eacutetat des Lieux et Pratiques - 2018

32 LrsquoIDRIS

321 Introduction

LrsquoIDRIS est le centre majeur du CNRS pour le calcul numeacuterique intensif de tregraves haute performance Agrave la fois centre de ressources informatiques et pocircle de compeacutetences en calcul de haute performance lrsquoIDRIS est une uniteacute propre de service du CNRS deacutependant de la Mission Calcul-Donneacutees ( MiCaDo ) du CNRS et rattacheacutee administrativement agrave lrsquoInstitut des sciences de lrsquoinformation et de leurs interactions ( INS2I ) mais dont la vocation agrave lrsquointeacuterieur du CNRS est pluridisciplinaire

Les supercalculateurs opeacutereacutes par lrsquoIDRIS proprieacuteteacute de la socieacuteteacute GENCI ( Grand Equipement National de Calcul Intensif httpwwwgencifr ) ont geacuteneacuteralement une dureacutee de vie de cinq agrave six ans Ils sont donc renouveleacutes freacutequemment avec leurs moyens de stockage associeacutes en entraicircnant agrave chaque fois des frais drsquoinstallation et parfois des frais de fonctionnement en hausse ( essentiellement dus aux consommations eacutelectriques de ces eacutequipements )

Lrsquoutilisation des ressources opeacutereacutees par lrsquoIDRIS srsquoeffectue au travers des allocations effectueacutees par GENCI soit pregraves de trois cents projets scientifiques dans tous les domaines utilisant la simulation numeacuterique dans leurs theacutematiques de recherche respectives

Suite agrave lrsquoappel drsquooffres lanceacute agrave lrsquoautomne 2011 par GENCI en partenariat avec lrsquoIDRIS deux nouveaux supercalculateurs drsquoarchitectures compleacutementaires ont eacuteteacute acquis aupregraves de la socieacuteteacute IBM en mai 2012 Lrsquoun eacutetait une machine dite massivement parallegravele de type Blue GeneQ composeacutee de quatre cabinets de chacun 16 384 cœurs pour un total de 65 536 cœurs avec 65 To de meacutemoire globale et qui deacutelivrait une puissance crecircte cumuleacutee de 839 TFlops placcedilant cette machine au 30e rang mondial en novembre 2012 Cette configuration a eacuteteacute eacutetendue en novembre 2014 par lrsquoajout de deux cabinets suppleacutementaires portant la configuration complegravete agrave 98 304 cœurs pour une capaciteacute meacutemoire totale atteignant doreacutenavant 98 To et une puissance crecircte cumuleacutee porteacutee maintenant agrave 126 PFlops ce qui a replaceacute cette machine au 42e rang mondial en novembre 2014 En novembre 2017 cette machine occupait encore le 146e rang Lrsquoautre supercalculateur est une machine dite agrave nœuds larges composeacutee de 332 nœuds de 32 cœurs pour un total de 10 624 cœurs avec 46 To de meacutemoire globale et qui

deacutelivre une puissance crecircte cumuleacutee de 230 TFlops lrsquoayant placeacute au 123e rang mondial en novembre 2012 Agrave cette configuration srsquoadjoint quatre nœuds de preacute et post-traitements de chacun 32 cœurs et 1 To de meacutemoire partageacutee ainsi qursquoun espace disques partageacute

Par ailleurs lrsquoextension des capaciteacutes de stockage a eacuteteacute reacutealiseacutee en 2014 en deux phases Drsquoune part le serveur drsquoarchives acquis en 2009 et arriveacute en fin de vie a eacuteteacute remplaceacute sur financement CNRS ce qui permettra agrave lrsquoIDRIS de faire face agrave un fort accroissement de la capaciteacute drsquoarchivage sur cartouches magneacutetiques en preacutevision de la croissance attendue de ces besoins dans les prochaines anneacutees Drsquoautre part la capaciteacute de stockage de donneacutees actives sur disques magneacutetiques agrave tregraves forte bande passante a eacuteteacute fortement accrue en 2015 avec une extension de 3 Po ( deux financeacutes par le CNRS et un par GENCI ) ajouteacutes aux 22 Po initiaux

Le remplacement de la geacuteneacuteration actuelle des supercalculateurs est maintenant preacutevu fin 2018 pour une mise en production au deacutebut de 2019 Agrave cet effet GENCI a lanceacute un appel drsquooffres en novembre 2017

LrsquoIDRIS heacuteberge en plus un certain nombre de calculateurs pour des acteurs locaux du Plateau de Saclay tel le calculateur de la Maison de la Simulation et celui du meacutesocentre CentraleSupeacutelecENS-Paris Saclay ainsi que la machine nationale de lrsquoIFB ( Institut Franccedilais de la Bioinformatique )

322 Configuration actuelle agrave lrsquoIDRIS

En janvier 2018 les moyens de calcul de GENCI heacutebergeacutes agrave lrsquoIDRIS sont constitueacutes de

bull Turing un IBM Blue GeneQ avec 98 306 cœurs PowerPC A2 agrave 16 Ghz ( soit 1644 nœuds ayant chacun 16 cœurs ) La machine est constitueacutee de 6 racks avec au total 96 Toctets de meacutemoire et une performance de crecircte de 1258 PFlops

bull Ada un IBM X3750M4 avec 10 624 cœurs SandyBridge agrave 27 Ghz ( soit 332 nœuds de 32 cœurs chacun ) La machine possegravede 49 Toctets de meacutemoire et affiche une performance de crecircte de 233 TFlops

72

Livre Blanc sur les Donneacutees au CNRS Eacutetat des Lieux et Pratiques - 2018

CENTRES NATIONAUX

Lrsquoespace disque est organiseacute en

bull Home

o Volumeacutetrie tregraves faible ( essentiellement fichiers drsquoenvironnement et sources des applications )

o Performance sans impact

o Fonctionnaliteacutes

Dureacutee de vie non limiteacutee

Soumis agrave quotas

Sauvegardeacute automatiquement ( chaque nuit )

bull Scratch

o Volumeacutetrie tregraves importante ( fonction de la puissance des calculateurs )

o Performance la plus grande possible

o Fonctionnaliteacutes

Dureacutee de vie limiteacutee agrave lrsquoexeacutecution de chaque travail ou soumis agrave des purges sur des dates drsquoancienneteacute

bull Work

o Volumeacutetrie tregraves importante ( fonction de la puissance des calculateurs )

o Performance grande

o Fonctionnaliteacutes

Dureacutee de vie non limiteacutee

Soumis agrave quotas

Pas sauvegardeacute aujourdrsquohui ( mais snapshots possibles )

73

Livre Blanc sur les Donneacutees au CNRS Eacutetat des Lieux et Pratiques - 2018

Evolution des espaces sur disques

bull De 2008 agrave 2012 12 Po agrave 6 Gos

bull Configuration acheteacutee en 2012

o 22 Po agrave 50 Gos ( deacutebit soutenu maximum )

o Compromis financier agrave lrsquoachat entre puissance de calcul et capaciteacutes de stockage

o Agrave la fois HomeScratchWork

bull A partir de 2015

o 52 Po

- Les 22 Po preacuteceacutedents

- 1 Po drsquoextension disques lieacutee agrave lrsquoextension BGQ ( 32 000 cœurs ajouteacutes en novembre 2014 )

- 2 Po extension disques

o 3 Po agrave 90 Gos

o Le scratch a eacuteteacute transfeacutereacute sur les disques de nouvelle geacuteneacuteration

o Conservation possible de versions de fichiers dans lrsquoespace Work ( snapshots )

bull Technologie GPFS drsquoIBM

bull Tous ces espaces seront redeacutefinis avec des augmentations significatives agrave la fois en volumeacutetrie et en performance pour servir la nouvelle configuration de calcul qui sera installeacutee au second semestre 2018

Au 25 aoucirct 2017 il y avait 55 millions de fichiers sur le Work 70 millions sur le Scratch et 35 millions Home + systegraveme

Les espaces sur cartouches

bull Piloteacutes par une machine drsquoarchives

o Remplaceacutee mi-2014

o Technologie TSMHSM drsquoIBM ( preacuteceacutedemment DMF de SGI )

o 11 serveurs

- 3 frontales

- 6 serveurs GPFS ( 4 pour les donneacutees 2 pour les meacutetadonneacutees )

- 2 serveurs TSMHSM ( gestion migration et robotique )

o Disques cache

- transparent pour les utilisateurs

- 2 Po agrave 24 Gos

- laquo petits raquo fichiers ( jusqursquoagrave 39 Ko ) jamais migreacutes sur cartouches

- cache pour les fichiers rechargeacutes depuis les cartouches

- purges reacuteguliegraveres en fonction de lrsquoacircge et de la taille des fichiers

o Format des donneacutees proprieacutetaire

o 4 Po migreacutes entre lrsquoancien format et le nouveau agrave lrsquoissue de 6 mois de recopies au second semestre 2014 en parallegravele avec lrsquoexploitation du nouveau serveur

bull Robot StorageTek SL8500 ( Oracle )

Il est instructif de mener un examen de lrsquoespace disque occupeacute par les diverses communauteacutes regroupeacutees en Comiteacutes theacutematiques La liste des Comiteacutes scientifiques theacutematiques nationaux est la suivante

1 Environnement

2a Eacutecoulements non reacuteactifs

2b Eacutecoulements reacuteactifs ouet multiphasiques

3 Biologie et santeacute

4 Astrophysique et geacuteophysique

5 Physique theacuteorique et physique des plasmas

6 Informatique algorithmique et matheacutematiques

7 Dynamique moleacuteculaire appliqueacutee agrave la biologie

8 Chimie quantique et modeacutelisation moleacuteculaire

9 Physique chimie et proprieacuteteacute des mateacuteriaux

10 Nouvelles applications et applications transversales du calcul

En termes de stockage sur Ada et dans une moindre mesure Turing on constate la preacutedominance des comiteacutes theacutematiques CT-1 ( Environnement hors projet CMIP6 ) CT-4 ( Astrophysique et geacuteophysique ) et CT-5 ( Physique theacuteorique et physique des plasmas ) ce qui ne reflegravete pas toujours les allocations drsquoheures de calcul par exemple sur Turing ougrave le volume drsquoheures alloueacute agrave lrsquoenvironnement est relativement faible ( 32 en 2017 )

74

Livre Blanc sur les Donneacutees au CNRS Eacutetat des Lieux et Pratiques - 2018

CENTRES NATIONAUX

75

Livre Blanc sur les Donneacutees au CNRS Eacutetat des Lieux et Pratiques - 2018

Lrsquoeacutevolution du stockage sur cartouches est en croissance reacuteguliegravere ainsi que le montre la figure ci-dessous Lrsquoessentiel du stockage sur cartouches est utiliseacute par le CT-1 avec de lrsquoordre de 80 du total ( 51 des 64 Poctets de donneacutees utilisateurs en deacutecembre 2017 )

LrsquoIDRIS est aussi impliqueacute dans la mise agrave disposition des donneacutees pour la communauteacute du climat avec le service DODS ( Distributed Oceanographic Data System ) opeacuterationnel depuis 2003 Ce serveur effectue la publication ( mondiale ) des donneacutees stockeacutees sur le serveur drsquoarchives ( potentiellement migreacutees ) avec un accegraves en lecture seule ( sauf eacutevidemment par les fournisseurs de donneacutees ) Deux espaces cohabitent sur ce serveur un espace priveacute reacuteserveacute agrave une communauteacute identifieacutee et un espace public

Il heacuteberge actuellement 25 millions de fichiers pour 407 Toctets de donneacutees stockeacutees

Depuis 2017 ce service est inteacutegreacute au sein des services du projet ESGF56 ( Earth System Grid Federation ) dans le cadre des projets CMIP57 ( Coupled Model Intercomparison Project ) pour environ 600 To fin 2017 De plus lrsquoIDRIS opeacuterera agrave partir du deacutebut de lrsquoanneacutee 2018 une archive multi-modegraveles des donneacutees les plus utiliseacutees du projet CMIP6 ( provenant drsquoenviron 50 modegraveles ) drsquoune volumeacutetrie de 4 Po afin drsquoen faciliter lrsquoexploitation et drsquooffrir un service national drsquoaccegraves agrave ces donneacutees

56 httpsesgfllnlgov57 httpswwwwcrp-climateorgwgcm-cmip

76

Livre Blanc sur les Donneacutees au CNRS Eacutetat des Lieux et Pratiques - 2018

41 INTRODUCTION

La Mission Calcul Donneacutees du CNRS (MiCaDo) soutient un certain nombre drsquoinitiatives et drsquoinfrastructures reacutegionales ou nationales au travers de lrsquoaffectation de personnels (ingeacutenieurs drsquoeacutetudes ou de recherche) dont le Centre de Calcul de lrsquoIN2P3 le Centre National de Calcul Intensif du CNRS (IDRIS) la Maison de la Simulation sur le Plateau de Saclay et les deux Uniteacutes Mixtes de Recherche CALMIP et GRICAD respectivement meacutesocentres de Toulouse et Grenoble Ces deux meacutesocentres ont des actions lieacutees agrave la fois au calcul et aux donneacutees drsquoougrave leur preacutesence dans ce Livre Blanc

42 CALMIP

Cette section a eacuteteacute eacutecrite avec Jean-Luc Estivalegravezes Directeur de lrsquoUMS CALMIP

421 Introduction

Le meacutesocentre toulousain CALMIP (CALcul en MIdi Pyreacuteneacutees) a eacuteteacute creacuteeacute en 1994 sous la forme drsquoun groupement scientifique et son premier calculateur a eacuteteacute installeacute en 1999 Depuis 2014 CALMIP est devenu une Uniteacute Mixte de Service du CNRS (UMS CNRS 3667) heacutebergeacutee actuellement agrave lrsquoEspace Cleacutement Ader dans une salle de calcul partageacutee avec le calculateur de Meacuteteacuteo-France Il beacuteneacuteficie ainsi drsquoun environnement technologique de haut niveau avec une seacutecurisation des accegraves et de lrsquoalimentation eacutelectrique et un reacuteseau de reacutecupeacuteration de chaleur

Le meacutesocentre CALMIP est ouvert agrave lrsquoensemble de la communauteacute scientifique membre de lrsquoUniversiteacute Feacutedeacuterale de Toulouse Midi-Pyreacuteneacutees ou des EPST En 2016 CALMIP a permis agrave environ 500 chercheurs dont 130 doctorants venant de 30 laboratoires de reacutealiser plus de 200 projets de recherche repreacutesentant 70 millions drsquoheures de calcul 8 grandes theacutematiques scientifiques utilisent ces moyens de calcul physico-chimie des mateacuteriaux meacutecanique des fluides sciences de lrsquoUnivers chimie quantique physique theacuteorique et moleacuteculaire bioinformatique et meacutethodes numeacuteriques

Depuis 2008 le meacutesocentre CALMIP est ouvert aux entreprises (TPE PME et ETI) pour leurs activiteacutes

innovantes et 10 des ressources du systegraveme de calcul de CALMIP sont reacuteserveacutees agrave cette activiteacuteUne eacutequipe de 6 ingeacutenieurs assure actuellement lrsquoexploitation du calculateur et le support technique et scientifique aux utilisateurs

422 Description

Les moyens de calcul sont renouveleacutes tous les 4 ans environ Le prochain renouvellement est preacutevu agrave lrsquoeacuteteacute 2018 Eos la machine actuellement en production a eacuteteacute classeacutee 183e au TOP 500 lors de sa mise en service en juin 2014 Ses caracteacuteristiques sont les suivantes

- 612 nœuds avec 2 processeurs Intel IVYBRIDGE 28 Ghz 10-cores soit un total de 12240 cœurs

- Meacutemoire 64 Go par nœud soit 39 To de RAM au total

- Puissance crecircte theacuteorique totale 274 TF

- Stockage disque 891 To de disque + 7 Po additionnels de stockage de grande capaciteacute

- Pour la partie visualisation 4 GPU (Nvidia Quadro 6000)

4 LES DONNEacuteES AU SEIN DES STRUCTURES MUTUALISEacuteES SOUTENUES PAR MICADO

STRUCTURES MUTUALISEacuteES

77

Livre Blanc sur les Donneacutees au CNRS Eacutetat des Lieux et Pratiques - 2018

CALMIP a installeacute en 2016 une infrastructure de stockage appeleacutee ATLAS pour reacutepondre agrave la convergence des besoins en calcul intensif et en traitement massif de donneacutees Un poste IR CNRS a eacuteteacute afficheacute en soutien agrave cette infrastructure Elle se compose

bull Drsquoun espace de stockage de 3 Po utiles sur systegraveme de fichiers parallegravele GPFS sur lequel les utilisateurs vont pouvoir deacuteposer agrave la fois les donneacutees de simulation produites par le supercalculateur Eacuteos mais aussi le cas eacutecheacuteant les donneacutees drsquoentreacutee neacutecessaires agrave ces simulations (fonctionnaliteacute de type workdir)

bull Drsquoun espace de stockage objet drsquoun volume utile de 4 Po ayant pour principale fonction de seacutecuriser lrsquoespace de stockage preacuteceacutedent

Le prochain renouvellement est preacutevu agrave lrsquoeacuteteacute 2018 Dans le cadre du projet CADAMIP (CPER 2015-2020 financement Etat Reacutegion Occitanie Toulouse Meacutetropole IDEX) CALMIP a choisi son nouveau supercalculateur pour la peacuteriode 2018-2022 Ce nouveau systegraveme de calcul Atos-BULL baptiseacute OLYMPE propose une puissance de 1365 Peacutetaflops

bull Un supercalculateur massivement parallegravele formeacute de 13 464 cores Intel(r) SKYLAKE 6140 interconnecteacutes via un reacuteseau Infiniband EDR (100 Gbs) dont la puissance de calcul et de traitement est 5 fois supeacuterieure agrave celle du supercalculateur actuel EOS pour la mecircme enveloppe eacutenergeacutetique

bull Un espace disque de travail drsquoune capaciteacute de 15 Po dont les performances (40 Gos) sont multiplieacutees par 4 par rapport agrave EOS afin de reacutepondre aux besoins lieacutes au traitement massif de donneacutees drsquoentreacutee et de sortie Cet espace est relieacute aux nœuds de calcul du supercalculateur

bull 2 nœuds de calcul SMP de 15 To de meacutemoire vive inteacutegreacutes au supercalculateur

bull Une connexion au systegraveme de stockage capacitif et seacutecuriseacute ATLAS afin drsquooffrir aux porteurs de projets un espace permettant de seacutecuriser leurs donneacutees sur la continuiteacute

bull Une partition GPU significative associeacutee au supercalculateur en vue drsquoapplications sur le traitement massif de la donneacutee

La mise en production est preacutevue pour septembre 2018

43 GRICAD

Cette section a eacuteteacute eacutecrite avec Violaine Louvet Directrice de lrsquoUMS GRICAD

431 Contexte

La rationalisation des infrastructures (immobiliegraveres et plateformes) pour reacuteduire les coucircts augmenter le niveau de service et gagner en fiabiliteacute et seacutecuriteacute dans une deacutemarche de deacuteveloppement durable et soutenable neacutecessite de repenser lrsquourbanisation des infrastructures de calcul et de donneacutees ainsi que lrsquoorganisation des moyens humains en synergie avec les laboratoires de recherche et les services communs Ces enjeux srsquoinscrivent agrave Grenoble dans un contexte de mutation forte du paysage de la recherche fusion des universiteacutes obtention drsquoun IdeX mais srsquoappuient eacutegalement sur un terreau de collaborations historiques entre les acteurs du numeacuterique (DSI des eacutetablissements structure interuniversitaire laboratoires) tregraves fertile

432 LrsquoUMS GRICAD

LrsquoUniteacute mixte de services GRICAD (Grenoble Alpes Recherche - Infrastructure de CAlcul intensif et de Donneacutees) a eacuteteacute creacuteeacutee dans ce contexte en 2016 comme une structure transversale mutualiseacutee autour du calcul et des donneacutees au service des personnels de lrsquoensemble des pocircles de recherche du site grenoblois Sous la tutelle du CNRS de lrsquoUGA de Grenoble-INP et drsquoINRIA elle regroupe des compeacutetences en interne autour de lrsquoadministration systegraveme speacutecifique des machines de calcul et des plateformes lieacutees aux donneacutees du calcul scientifique et intensif et du Big Data Elle feacutedegravere eacutegalement les forces du site dans une deacutemarche plus globale en srsquoappuyant sur les expertises preacutesentes dans les laboratoires les DSI et les structures drsquoenseignement

Cette mutualisation de moyens humains externes autour drsquoinfrastructures de site a lrsquoeacutenorme avantage de favoriser la proximiteacute avec les eacutequipes de recherche et donc drsquoecirctre au plus pregraves des besoins des communauteacutes

78

Livre Blanc sur les Donneacutees au CNRS Eacutetat des Lieux et Pratiques - 2018

Les missions de GRICAD recouvrent

bull Lrsquoaccompagnement et le conseil aux communauteacutes scientifiques identification et aide agrave la speacutecification du besoin autour du calcul et des donneacutees support agrave lrsquoutilisation des plateformes soutien au montage de projet sur la partie technique

bull Le calcul intensif avec un accegraves agrave diffeacuterents types de calculateurs

bull Le traitement la valorisation la diffusion le stockage des donneacutees de la recherche avec un accegraves agrave plusieurs plateformes (stockage cloudhellip)

bull Lrsquoheacutebergement sec de serveurs avec la coordination de la gestion des datacentres mutualiseacutes du site grenoblois

bull Lrsquoanimation la formation et le reacuteseautage en collaboration avec les autres acteurs du site (en particulier la maison de la modeacutelisation MaiMoSiNE le reacuteseau des informaticiens SARI et le Data Institute de Grenoble)

433 Les services autour de la donneacutee

La creacuteation de GRICAD srsquoest appuyeacutee sur un existant solide et historique autour du calcul intensif le meacutesocentre CIMENT Les services autour de la donneacutee ont eacuteteacute construits ex nihilo agrave partir des besoins exprimeacutes par les communauteacutes scientifiques

Les caracteacuteristiques principales sont une tregraves grande diversiteacute des donneacutees et un rapprochement important avec le calcul intensif sous la forme de besoins en traitement tregraves varieacutes Les difficulteacutes rencontreacutees concernent drsquoune part une connaissance et une appropriation technique tregraves heacuteteacuterogegravenes des technologies et des infrastructures drsquoune communauteacute agrave lrsquoautre voire drsquoun individu agrave lrsquoautre et drsquoautre part un accompagnement interne (dans les laboratoires) tregraves diffeacuterent drsquoune structure agrave lrsquoautre neacutecessitant la mise en place drsquoun support laquo agrave la carte raquo Le deacuteploiement des services autour de la donneacutee doit aussi srsquointeacutegrer dans un environnement existant de structures de recherche drsquoaccompagnement de projets aux niveaux local national et europeacuteen

GRICAD participe ainsi au projet europeacuteen EOSCPilot par exemple

Lrsquooffre de service proposeacutee par GRICAD inclut lrsquoaccegraves agrave diffeacuterents environnements de stockage drsquoinfrastructures de cloud de Big Data de traitements de donneacutees et piles logicielles lieacutees agrave la manipulation de la donneacutee LrsquoUMS collabore eacutetroitement avec la recherche en informatique en particulier lrsquoinfrastructure nationale Gridrsquo5000 avec laquelle elle partage une nouvelle machine de calcul notamment deacutedieacutee aux Data Analytics Les services et plateformes proposeacutes sont dynamiques et eacutevolutifs en fonction des demandes des scientifiques

GRICAD accompagne tout particuliegraverement certaines communauteacutes Drsquoune part pour les aider agrave aborder le tournant du numeacuterique et drsquoautre part pour faire monter en compeacutetences ses eacutequipes propres sur les technologies agrave la pointe LrsquoUMS est ainsi tregraves active dans le projet drsquoentrepocirct de donneacutees du CHU de Grenoble et dans plusieurs projets avec la communauteacute SHS (collecte de donneacutees du web deep learning)

434 Description des ressources de calcul et de stockage

GRICAD offre une diversiteacute de plateformes deacuteployeacutees en fonction des besoins exprimeacutes par les communauteacutes scientifiques

bull Froggy calcul intensif (reacuteseau Infiniband) constitueacute de 3236 coeurs de calcul et drsquoun stockage Lustre de 90 To Froggy integravegre quelques nœuds GPU

bull Luke traitement massif de donneacutees 906 coeurs de calcul

bull Dahu machine de convergence HPC - Data Analytics mutualiseacutee avec Gridrsquo5000 2560 coeurs de calcul reacuteseau Omnipath avec nœuds burst buffers (NVMe) et scratch SSD

bull Stockage IRODS drsquoenviron 1 Po mutualiseacute distribueacute et accessible depuis lrsquoensemble des plateformes

bull Bettik Stockage BeeGFS de 292 To utiles fournissant aux machines Luke et Dahu un scratch distribueacute et performant

STRUCTURES MUTUALISEacuteES

79

Livre Blanc sur les Donneacutees au CNRS Eacutetat des Lieux et Pratiques - 2018

bull SUMMER Stockage NetApp de plus de 3 Po de volumeacutetrie brute proposant diffeacuterents niveaux de seacutecurisation (sauvegarde reacuteplication) et diffeacuterents niveaux de performance (stockage capacitif ou performant)

bull WINTER Plateforme VMWare de virtualisation

bull Cloud openstack sur stockage CEPH

bull Plateforme JupyterHub de notebooks

bull Plateforme Big Data Hadoop

435 Interactions et cross-fertilisation

La transversaliteacute intrinsegraveque des infrastructures de calcul et de donneacutees fait de lrsquoUMS GRICAD un lieu naturel de lrsquointerdisciplinariteacute et de rencontres des diffeacuterentes communauteacutes scientifiques Lrsquoobjectif afficheacute est de deacutepasser les speacutecificiteacutes disciplinaires afin de pouvoir offrir des solutions mateacuterielles et technologiques partageacutees et co-construites

GRICAD srsquoefforce de deacutevelopper une logique de mutualisation drsquoexpeacuteriences autour de la deacutefinition et lrsquoappropriation des services numeacuteriques proposeacutes en diffusant les pratiques existantes dans les disciplines les plus avanceacutees dans le domaine et en incitant au transfert de technologie drsquoune communauteacute agrave lrsquoautre Les missions autour de lrsquoanimation et de la formation sont en cela particuliegraverement critiques

Le deacuteveloppement de liens entre les chercheurs autour de theacutematiques neacutecessairement communes est essentiel Ainsi des groupes de travail interdisciplinaires ont eacuteteacute formeacutes pour reacutepondre au questionnement autour du cycle de vie de la donneacutee et de la nouvelle reacuteglementation europeacuteenne sur les donneacutees personnelles (RGPD) par exemple

La valeur ajouteacutee drsquoune uniteacute de services agrave lrsquoeacutechelle drsquoun site comme Grenoble est fondamentalement la proximiteacute avec les eacutequipes de recherche et la souplesse pour reacutepondre aux besoins des scientifiques

80

Livre Blanc sur les Donneacutees au CNRS Eacutetat des Lieux et Pratiques - 2018

Le traitement des donneacutees agrave grande eacutechelle (Big Data) est un reacuteel enjeu strateacutegique pour le CNRS et concerne tous les instituts mecircme si les pratiques au sein de chaque institut sont tregraves variables en fonction de lrsquohistorique de chaque discipline en matiegravere de donneacutees La maicirctrise de tous les aspects du Big Data relegraveve drsquoune deacutemarche fondamentalement interdisciplinaire dans laquelle le CNRS se doit drsquoexceller

Lrsquoenjeu fondamental pour le CNRS est de promouvoir une veacuteritable laquo culture de la donneacutee raquo au sein du CNRS Le CNRS doit mieux valoriser toutes les donneacutees que ses eacutequipes de recherches produisent se doter drsquoune strateacutegie en matiegravere de donneacutees et afficher son rocircle moteur dans des initiatives comme EOSC58 ou lieacutees agrave lrsquoOpen Science lrsquoOpen Data et agrave RDA59 et agrave des principes comme le FAIR Data60 Le CNRS se doit de mettre en place une reacuteponse coordonneacutee face aux besoins eacutemergeants en termes de donneacutees drsquoecirctre plus attractif pour des recrutements drsquoanalystes de donneacutees et drsquointensifier ses actions de formation au niveau des outils dans le domaine Il doit aussi ecirctre attentif agrave lrsquoeacutevolution de carriegravere des personnels ITA (ingeacutenieurs essentiellement) impliqueacutes dans ces actions interdisciplinaires Il est aussi souhaitable de mener une reacuteflexion sur une politique des donneacutees au sein du CNRS relative agrave leur cycle de vie utilisation creacuteation collection preacuteservation partage reacuteutilisation et publication interopeacuterabiliteacute deacutefinition de Data Management Plan61 proprieacuteteacute ouverture adoption des principes FAIR consommation eacutenergeacutetique et empreinte carbonehellip

Lrsquoavalanche de donneacutees qui ne fait que se confirmer dans de multiples domaines doit inciter le CNRS agrave se doter drsquoune strateacutegie forte agrave la hauteur des enjeux scientifiques en

bull Reacutepondant aux besoins des communauteacutes en matiegravere de plateformes pour lrsquoanalyse de donneacutees agrave grande eacutechelle le cas eacutecheacuteant en lien

58 The European Open Science Cloud (httpseoscpiloteu)59 Research Data Alliance (wwwrd-allianceorg)60 Findable Accessible Interoperable Reusable data61 Voir par exemple dmpopidorfr

avec les systegravemes drsquoobservation les plateformes expeacuterimentales ou les grandes simulations numeacuteriques qui les produisent avec les probleacutematiques du stockage de la gestion et de la valorisation de ces donneacutees du support pour les utilisateurs de la formation de Data scientists (chercheurs ou ingeacutenieurs compeacutetents en analyse de donneacutees) et du deacuteploiement de chaicircnes logicielles drsquoanalyse de donneacutees passant agrave lrsquoeacutechelle

bull Favorisant lrsquointerdisciplinaire entre les communauteacutes produisant des donneacutees et les communauteacutes dont crsquoest lrsquoobjet de recherche en particulier en capitalisant sur les multiples compeacutetences en apprentissage et Intelligence Artificielle au CNRS

bull Mettant en place une politique de gestion de valorisation et de peacuterennisation des donneacutees au sein du CNRS

Le CNRS pourrait srsquoappuyer sur la mission Calcul et Donneacutees du CNRS (MICADO) pour deacutefinir et mettre en œuvre une telle strateacutegie autour de lrsquoorganisation de la gestion de lrsquoexploitation des donneacutees scientifiques et avec des moyens suppleacutementaires contribuer agrave lrsquoeacutemergence de plateformes de gestion et drsquoanalyse de donneacutees en y positionnant des ingeacutenieurs et des data scientists capables drsquooffrir un service technique de haut niveau et drsquoaccompagner les chercheurs dans leurs expeacuterimentations Cette action pourrait contribuer agrave faire eacutemerger sur le territoire quelques sites de reacutefeacuterences autour desquels peuvent graviter plusieurs projets de recherche en sciences des donneacutees ou srsquointeacuteresser agrave des communauteacutes scientifiques speacutecifiques De telles initiatives peuvent et doivent ecirctre compleacutementaires des autres initiatives locales ou reacutegionales soutenues par des IDEX ou drsquoautres organismes de recherche par exemple

5 CONCLUSION

81

Page 6: Livre Blanc sur les Données au CNRS État des Lieux et

Livre Blanc sur les Donneacutees au CNRS Eacutetat des Lieux et Pratiques - 2018

Big Data ( p ex Spark Storm ) et aux nouvelles technologies de virtualisation ainsi qursquoagrave lrsquoutilisation croissante de meacutethodes de type statistique et apprentissage machine avec des flux de traitement et drsquoanalyse proches des vitesses drsquoaccegraves aux donneacutees

bull Plateformes centraliseacutees de type HPC et Cloud crsquoest-agrave-dire agrave lrsquoeacutechelle des grands centres nationaux et reacutegionaux Elles concentrent des ressources de tregraves haute performance dont lrsquoutilisation doit ecirctre maximiseacutee pour servir des communauteacutes multiples avec de nouveaux environnements ( p ex OpenHPC ) permettant de supporter les technologies de virtualisation et adapteacutes agrave des configurations complexes de workflows couplant HPC et HDA ainsi que lrsquoutilisation croissante des meacutethodes de type Intelligence Artificielle ( pour lrsquoanalyse de donneacutees la repreacutesentation des connaissances et lrsquoaide agrave la deacutecision ) grands ensembles de simulations numeacuteriques coupleacutees ingestion et assimilation de grands jeux de donneacutees multi-source

bull Plateformes feacutedeacutereacutees drsquoarchivage de curation et de distribution des donneacutees mutualisant ressources services et expertises pour le stockage la curation et la mise agrave disposition de donneacutees durant leur cycle de vie et dont les volumes et la diversiteacute impliquent aujourdrsquohui des capaciteacutes croissantes de stockage et de calcul

9 Efficience eacutenergeacutetique lrsquoefficience eacutenergeacutetique est aujourdrsquohui un deacutefi transversal majeur Le mouvement et le traitement des donneacutees et des informations ont un coucirct dont la reacuteduction passe notamment par ( i ) lrsquoutilisation de plateformes ( HPC calcul et analyse ) ( ii ) eacuteviter des reacutepeacutetitions inutiles de transferts ( cachingbufferisation ) et les optimiser ( pre-fetching compression ) ( iii ) reacuteduire les distances et mutualiser les environnements drsquoheacutebergement ( colocalisation des plateformes drsquoarchivage et de curation et des plateformes de calcul et drsquoanalyse des donneacutees ) ( iv ) faciliter la reacuteutilisation des calculs et des donneacutees au sein et entre domaines ( observations et reacutesultats de simulations meacutetadonneacutees catalogues )

10 Nouvelles expertises et activiteacutes maitriser les enjeux associeacutes aux donneacutees et accompagner toutes ces eacutevolutions requiert aujourdrsquohui drsquoassocier raisonnement scientifique et innovation technologique au travers de nouvelles expertises ( Chercheurs ITA ) et de collaborations interdisciplinaires entre les diffeacuterents domaines applicatifs les sciences des donneacutees la recherche informatique et les deacuteveloppeurs et fournisseurs drsquoinfrastructures Ces diffeacuterents enjeux

requiegraverent eacutegalement un ensemble drsquoactiviteacutes ainsi que des nouvelles plateformes technologiques ( stockage calcul communication ) complexes agrave geacuterer qui constituent des tacircches lourdes et coucircteuses en effort humain Le deacuteficit drsquoexpertise de moyens humains et de reconnaissance de ces nouvelles activiteacutes que lrsquoon constate dans de nombreux domaines freine lrsquoorganisation des communauteacutes scientifiques et le deacuteveloppement de nouvelles pratiques de recherche et in fine peacutenalise la production scientifique

11 Contexte interne au CNRS le CNRS et ses diffeacuterents Instituts constituent un contexte scientifique et technologique particuliegraverement favorable agrave une maicirctrise des probleacutematiques autour des donneacutees avec des instituts producteurs de donneacutees et des instituts pour lesquels les donneacutees sont des objets de recherche des pratiques interdisciplinaires bien eacutetablies ( coopeacuterations inter-instituts Mission pour lrsquoInterdisciplinariteacute avec en particulier le deacutefi MASTODONS3 lrsquoINIST et des initiatives comme Cat OpiDor4hellip ) ainsi que deux centres nationaux nationalement et internationalement reconnus dans les domaines du HPC ( IDRIS ) et de la gestion et de lrsquoanalyse de donneacutees massives ( CC-IN2P3 )

12 On constate dans tous les domaines des besoins eacutevidents en

bull Plateformes pour lrsquoanalyse de donneacutees agrave grande eacutechelle avec les probleacutematiques du stockage de la gestion et de la valorisation de ces donneacutees

bull Support pour les utilisateurs

bull Data scientists ( chercheurs ou ingeacutenieurs compeacute-tents en analyse de donneacutees )

bull Deacuteploiement de chaicircnes logicielles drsquoanalyse de donneacutees qui passent agrave lrsquoeacutechelle

3 Grandes masses de donneacutees scientifiques ( httpwwwcnrsfrmispipphparticle53 )4 Catalogue des services franccedilais deacutedieacutes aux donneacutees scientifiques ( httpscatopidorfr )

SYNTHESE

6

Livre Blanc sur les Donneacutees au CNRS Eacutetat des Lieux et Pratiques - 2018

bull Effort interdisciplinaire entre les communauteacutes produisant des donneacutees et les communauteacutes dont crsquoest lrsquoobjet de recherche

bull Valorisation et peacuterennisation des donneacutees beau-coup de donneacutees sont creacuteeacutees pour un besoin preacutecis puis in fine perdues alors qursquoelles pourraient parfois ecirctre reacuteutiliseacutees ( expeacuteriences comme simulations ) ce qui suppose la promotion des pratiques autour de lrsquoarchivage lrsquoindexation la mise agrave disposition etc

bull Deacutefinitions de plans de gestion des donneacutees ( DMP Data Management Plan ) loin drsquoecirctre geacuteneacuterali-seacutes aujourdrsquohui

13 Accompagner de maniegravere efficace toutes ces eacutevolutions requiert donc de multiples efforts dont

bull Le deacuteploiement de plateformes drsquoanalyse de donneacutees performantes le rapprochement entre les communauteacutes HTC et HPC le deacuteveloppement de lrsquoactiviteacute et des compeacutetences autour de lrsquoanalyse de donneacutees au sein des centres HPC nationaux et reacutegionaux en soulignant que les volumes sont tels que les donneacutees deviennent tregraves coucircteuses agrave deacuteplacerhellip

bull La conceptionexploitation efficace drsquoarchitectures et drsquoenvironnements orienteacutes donneacutees

bull Lrsquoanalyse de lrsquoimpact des technologies du type GPU Cloud computinghellip

bull La multiplication de lrsquousage des meacutethodes drsquoanalyse de donneacutees et drsquoaide agrave la deacutecision machine learning retour de lrsquoIntelligence Artificielle au premier planhellip

bull La maicirctrise du passage agrave lrsquoeacutechelle pour les outils drsquoanalyse de donneacutees ainsi que lrsquoeacutevolution des meacutethodes drsquoanalyse

bull Deacuteveloppement des recherches interdisciplinaires et des compeacutetences autour des donneacutees au sein du CNRS ainsi que celui du support aux utilisateurs

bull La sensibilisation au coucirct eacutenergeacutetique croissant induit par le traitement et la gestion des donneacutees au sein des communauteacutes pour aller vers une informatique durable et une minimisation de lrsquoempreinte carbone de nos activiteacutes

7

Livre Blanc sur les Donneacutees au CNRS Eacutetat des Lieux et Pratiques - 2018

A une peacuteriode ougrave la science est de plus en plus compeacutetitive interdisciplinaire et internationale les nouveaux enjeux associeacutes aux donneacutees requiegraverent une eacutevolution des pratiques de recherche et une nouvelle strateacutegie agrave lrsquoeacutechelle du CNRS

Fort de sa multidisciplinariteacute de ses deux centres nationaux avec une expertise internationalement reconnue en HPC ( IDRIS ) et en gestion et analyse de donneacutees massives ( CC-IN2P3 ) ainsi que de sa preacutesence dans un grand nombre de TGIRs et drsquoIRs le CNRS doit se doter aujourdrsquohui drsquoune strateacutegie plus active autour des nouvelles probleacutematiques lieacutees aux donneacutees

Cette strateacutegie doit ecirctre co-formuleacutee co-deacuteveloppeacutee et co-impleacutementeacutee avec les diffeacuterents instituts et les communauteacutes scientifiques en phase avec leurs pratiques de recherche et la diversiteacute de leurs chaicircnes de production drsquoutilisation et de valorisation des donneacutees Elle doit prendre en compte la logistique des donneacutees tout au long de ces chaicircnes afin drsquoacceacuteleacuterer lrsquoextraction de nouvelles connaissances Elle doit enfin faciliter et transformer les pratiques de recherche en mutualisant les expertises au sein des diffeacuterentes communauteacutes scientifiques et de leurs instituts ainsi que reacutepondre aux nouveaux enjeux de la recherche interdisciplinaire inteacutegrant des donneacutees multi-source

Sur la base de ce document un certain nombre de recommandations sont proposeacutees pour cette strateacutegie

bull R1 Politique et gestion des donneacutees Le CNRS doit promouvoir une laquo culture des donneacutees raquo dans et entre ses instituts et mieux valoriser toutes les donneacutees que ses eacutequipes de recherche produisent Cela implique une reacuteflexion en matiegravere de politique de donneacutees ( Open Data et FAIR Data5 ) tout au long du cycle de vie des donneacutees de gestion des donneacutees avec en particulier lrsquoeacutelaboration drsquoun Data Management Plan6 en collaboration avec les diffeacuterents instituts et possiblement lrsquoINIST et drsquoOpen science7 inteacutegrant la publication des donneacutees et de nouveaux objets interfaccedilant donneacutees et reacutesultats scientifiques Cette reacuteflexion doit srsquoappuyer sur et harmoniser les expertises acquises dans ce domaine par un certain nombre drsquoinstituts tant au niveau national qursquointernational ( p ex IN2P3 INSU INSB INSHS ) Dans ce contexte il doit jouer un rocircle moteur dans les initiatives europeacuteennes comme EOSC8 et GoFAIR9 dans un certain nombre drsquoactiviteacutes drsquoorganisation non gouvernementale comme RDA10 et drsquoinitiatives internationales comme le Belmont Forum11

bull R2 Accroitre les expertises interdisciplinaires pour lrsquoanalyse et lrsquoutilisation des donneacutees Le CNRS fort des acquis reacutealiseacutes au travers de la Mission pour lrsquoInterdisciplinariteacute ( p ex programme MASTODONS ) et de plusieurs Groupements de Recherche ( p ex MADICS ) devrait lancer une initiative transversale srsquoappuyant sur un certain nombre de TGIRs et IRs pour favoriser des collaborations interdisciplinaires au travers des instituts du CNRS rassemblant des experts des diffeacuterents domaines scientifiques des diffeacuterents domaines meacutethodologiques en sciences des donneacutees ( matheacutematiques statistiques informatiques ) et deacuteveloppeurs drsquoinfrastructures Ceci afin de creacuteer un veacuteritable hub scientifique et drsquoexpertise pour le deacuteveloppement de nouvelles meacutethodes de gestion de traitement et drsquoanalyse de donneacutees de nouveaux algorithmes et leur impleacutementation au travers de logiciels modulaires de librairies de services et drsquooutils partageacutes et pouvant servir les besoins de diffeacuterentes communauteacutes sur le modegravele du Berkeley Institute

5 Findable Accessible Interoperable Reusable data6 Voir par exemple dmpopidorfr7 Open Science in Europe8 European Open Science Cloud declaration et EOSC pilot9 GoFair Initiative10 Research Data Alliance11 Belmont Forum

RECOMMANDATIONS

8

Livre Blanc sur les Donneacutees au CNRS Eacutetat des Lieux et Pratiques - 2018

for Data Science12 ( BIDS ) du Data Science Institute de Imperial College ou de lrsquoUniversiteacute de Maastricht Le CNRS pourrait ainsi encourager la collaboration de scientifiques de diffeacuterents domaines autour de lrsquoameacutelioration des algorithmes utiliseacutes dans lrsquoanalyse de donneacutees par exemple pour les synchrotrons sur le modegravele de CAMERA ( httpwwwcameralblgov ) aux Eacutetats-Unis Un tel Hub pourrait eacutegalement constituer un instrument preacutecieux pour la prise en compte des probleacutematiques associeacutees aux donneacutees en amont lors de lrsquoeacutelaboration de grands projets internationaux de TGIRs et drsquoIRs et ainsi faciliter lrsquoorganisation et accroitre la visibiliteacute des contributions franccedilaises dans ces initiatives Dans ce contexte le CNRS pourrait financer des ETPTs chercheurs et ingeacutenieurs en appui agrave ces deacuteveloppements interdisciplinaires eacuteventuellement en collaboration avec des pocircles universitaires et drsquoautres organismes pour par exemple deacutevelopper des logiciels de traitement de donneacutees tels XSOCS ( httpssourceforgenetprojectsxsocs ) sur les synchrotrons

bull R3 Architecture et Infrastructures pour lrsquoanalyse des donneacutees Le CNRS devrait en srsquoappuyant sur les expertises de ses deux centres nationaux de France Grilles de certains meacuteso-centres TGIRs et IRs mener des expeacuteriences relatives agrave lrsquoarchitecture et agrave la feacutedeacuteration de plateformes distribueacutees de services de calcul et de stockage et de plateformes centraliseacutees ( HPC Cloud ) dans le cadre de chaicircnes pilotes de production et drsquoutilisation de donneacutees et de leur logistique des donneacutees refleacutetant la diversiteacute des utilisateurs et des pratiques de recherche Ces expeacuteriences permettraient de mieux eacutevaluer les performances des traitements en flux de type Cloud les protocoles de transferts et les configurations reacuteseaux ainsi qursquoameacuteliorer radicalement lrsquoexploitation des ressources HPC pour des workflows combinant HPC HDA et machine learning Le CNRS pourrait ainsi accroitre son rocircle au niveau europeacuteen agrave lrsquointerface entre EOSC et EDI ( European Data Infrastructure ) Il serait possible drsquoeacutetudier lrsquoaccegraves agrave des moyens informatiques de type Cloud aux TGIR du CNRS au travers par exemple drsquoun accord avec le CC-IN2P3 ou France Grilles

12 httpsbidsberkeleyeduabout

bull R4 Archivage curation et distribution des donneacutees Le CNRS pourrait eacutegalement en srsquoappuyant sur des expertises internationalement reconnues telles celles du Centre de Donneacutees de Strasbourg et ses contributions agrave lrsquoIVOA soutenir et mener des expeacuteriences pilotes pour lrsquoorganisation de plateformes distribueacutees drsquoarchivage drsquoindexation et de curation de donneacutees multi-source mutualisant des ressources ( stockage calcul ) ainsi que pour leur inteacutegration au sein de pocircles de donneacutees ( systegraveme drsquoinformation portail services ) facilitant la deacutecouverte et lrsquoaccegraves fluide agrave ces donneacutees issues de domaines diffeacuterents avec des outils laquo translationnels raquo pour les combiner les croiser et les syntheacutetiser Ces expeacuteriences permettraient au CNRS de mieux deacutefinir sa politique drsquoOpenData et de jouer un rocircle moteur pour la creacuteation drsquoarchives OpenData certifieacutees et de portail OpenScience inteacutegrant de nouveaux objets associant donneacutees et reacutesultats de recherche tel que le Centre de Donneacutees astronomiques de Strasbourg ( httpcdswebu-strasbgfr ) auxquelles les TGIR PaN pourraient participer

bull R5 Nouvelles expertises et moyens humains Le CNRS pour maicirctriser les nouveaux enjeux associeacutes aux donneacutees doit mettre en place une reacuteponse coordonneacutee face aux nouveaux besoins en termes drsquoexpertise de moyens humains et de reconnaissance de ces nouvelles activiteacutes interdisciplinaires Cette reacuteponse doit ecirctre attractive pour des recrutements ( chercheurs ITA ) pour les eacutevolutions de carriegravere et srsquoappuyer sur des actions de formation adapteacutees reacutepondant agrave ces nouvelles expertises Cette reacuteponse est essentielle afin de faciliter lrsquoorganisation des communauteacutes scientifiques et le deacuteveloppement de nouvelles pratiques de recherche permettant drsquoacceacuteleacuterer lrsquoextraction de nouvelles connaissances agrave partir des donneacutees et ainsi renforcer la visibiliteacute internationale du CNRS et des communauteacutes scientifiques franccedilaises

9

Livre Blanc sur les Donneacutees au CNRS Eacutetat des Lieux et Pratiques - 2018

Sur la base de ce rapport la mission Calcul et Donneacutees du CNRS ( MiCaDo ) pourrait se voir confier la mission drsquoouvrir une reacuteflexion inter-instituts associant eacutetroitement lrsquoIDRIS et le CC-IN2P3 en lien avec nos tutelles nos partenaires et les infrastructures de services concerneacutes pour la recherche ( GENCI RENATER ) afin de prolonger ce rapport avec des groupes de travail deacutefinis autour de trois axes permettant de preacuteciser cette strateacutegie

bull Lrsquoorganisation territoriale et la mutualisation de lrsquoheacutebergement des plateformes drsquoarchivage et de curation de donneacutees des plateformes de calcul et drsquoanalyse des donneacutees en liaison avec le processus de labellisation des datacentres nationaux et reacutegionaux organiseacute par la DGRI et les initiatives locales et reacutegionales soutenues par des IDEX ou drsquoautres organismes permettant de faire eacutemerger des sites de reacutefeacuterences en appui agrave des grands projets Cette reacuteflexion devra prendre en compte lrsquoorganisation des communauteacutes scientifiques pour le stewardship des donneacutees et des ressources ( calcul stockage services ) afin drsquoeacutevaluer les ressources humaines et les expertises neacutecessaires agrave cette nouvelle structuration territoriale et organisation des communauteacutes scientifiques

bull Lrsquoarchitecture et la feacutedeacuteration des plateformes distribueacutees de calcul et drsquoanalyse de donneacutees drsquoarchivage et de curation des donneacutees et des plateformes centraliseacutees ( HPC Cloud ) avec des services de donneacutees Cette reacuteflexion devra prendre en compte la diversiteacute et les caracteacuteristiques des chaicircnes de production et drsquoutilisation des donneacutees la logistique des donneacutees tout au long de ces chaicircnes ainsi que les pratiques de recherche des communauteacutes scientifiques au niveau national et international

bull Les architectures de ressources de calcul et de stockage adapteacutees aux diffeacuterentes phases des workflows combinant HPC et HDA ainsi que les environnements drsquoexploitation de ces ressources inteacutegrant les besoins de traitement et drsquoanalyse en flux de type Cloud En particulier cette reacuteflexion devra inteacutegrer les nouveaux besoins associeacutes au machine learning et plus largement agrave lrsquoIntelligence Artificielle qui joue un rocircle de plus en plus important dans le contexte du Big Data avec en particulier les nouveaux enjeux associeacutes aux meacutethodes de type Deep Neural Network ( DNN ) en termes de scalabiliteacute et drsquoarchitecture ( GPU meacutemoire non volatile NVRAM )

La mission Calcul et Donneacutees du CNRS ( MiCaDo ) pourrait avec des moyens suppleacutementaires contribuer agrave lrsquoeacutemergence de plateformes de gestion et drsquoanalyse de donneacutees en y positionnant des ingeacutenieurs et des data scientists capables drsquooffrir un service technique de haut niveau et drsquoaccompagner les chercheurs dans leurs expeacuterimentations Cette action pourrait contribuer agrave faire eacutemerger sur le territoire quelques sites de reacutefeacuterence autour desquels peuvent graviter plusieurs projets de recherche en sciences des donneacutees ou srsquointeacuteresser agrave des communauteacutes scientifiques speacutecifiques De telles initiatives peuvent et doivent ecirctre compleacutementaires des autres initiatives locales ou reacutegionales soutenues par des IDEX ou drsquoautres organismes de recherche par exemple

RECOMMANDATIONS

10

Livre Blanc sur les Donneacutees au CNRS Eacutetat des Lieux et Pratiques - 2018

Ce Livre Blanc a eacuteteacute reacutealiseacute agrave la suite drsquoune seacuterie de preacutesentations autour des donneacutees meneacutees au sein du COCIN entre 2014 et 2016 par ailleurs eacutetayeacutees par des informations compleacutementaires issues de divers documents rapports drsquoactiviteacutes et sites Web avec la contribution et la mise en forme des repreacutesentants des divers instituts et centres informatiques du CNRS

Ce Livre Blanc srsquoest notamment appuyeacute sur les preacutesentations suivantes ( par ordre chronologique )

bull Simulation et cycle de vie des donneacutees dans la communauteacute du climat J-L Dufresne et S Denvil 2 septembre 2014

bull Eleacutements de reacuteflexion sur le stockage des donneacutees O Porte ( DSI ) 4 deacutecembre 2014

bull Les donneacutees au CC-IN2P3 P-E Macchi 8 janvier 2015

bull Institut Franccedilais de Bioinformatique ( IFB ) mettre en place une infrastructure informatique deacutedieacutee aux sciences de la vie J-F Gibrat 5 feacutevrier 2015

bull Stockage et gestion des donneacutees agrave lrsquoIDRIS D Girou 5 mars 2015

bull Research Data Access F Genova 10 avril 2015

bull Gestion des donneacutees au CINES F Daumas et M Galez 5 mai 2015

bull Preacutesentation de CIMENT E Chaljub 2 juin 2015

bull Les donneacutees agrave lrsquoINEE C Callou 7 juillet 2015

bull Les donneacutees agrave lrsquoINC et lrsquoINP D Borgis et L Lellouch 7 juillet 2015

bull Preacutesentation du Belmont Forum J-P Vilotte 1er septembre 2015

bull GRICAD Grenoble Alpes Recherche - Infrastructure de Calcul Intensif et de Donneacutees V Louvet 1er deacutecembre 2015

bull Calcul et donneacutees agrave lrsquoINSU J-P Vilotte 5 janvier 2016 et 2 feacutevrier 2016

bull Les donneacutees et le calcul en bioinformatique G Perriegravere 1 mars 2016

bull Le meacutesocentre CALMIP un Tier2 au service des recherches acadeacutemique et priveacutee B Dintrans 5 avril 2016

bull Preacutesentation de la TGIR Huma-Num O Baude et S Pouyllau 3 mai 2016

bull Preacutesentation ESRF R Dimper et A Goetz 8 novembre 2016

bull Gestion des donneacutees agrave ILL J-F Perrin 5 deacutecembre 2016

bull Synchrotron SOLEIL Les Donneacutees Scientifiques B Gagey et P Martinez 10 janvier 2017

Ce rapport mecircme srsquoil est loin drsquoecirctre exhaustif vise agrave mieux cerner les pratiques et les besoins en matiegravere de donneacutees ainsi qursquoagrave identifier les voies de promotion drsquoune synergie transdisciplinaire autour des donneacutees au sein du CNRS

Lrsquoenquecircte a deacutemarreacute en 2014 agrave la demande de Michel Bidoit Preacutesident du COCIN avec agrave ce jour

1 INTRODUCTION

11

Livre Blanc sur les Donneacutees au CNRS Eacutetat des Lieux et Pratiques - 2018

bull Des preacutesentations lors de reacuteunions du COCIN de tous les instituts confronteacutes agrave la production et au traitement de donneacutees agrave grande eacutechelle ie tous les instituts excepteacutes INS2I INSMI et INSIS13

bull Des centres nationaux orienteacutes calcul et donneacutees du CNRS

- CC-IN2P3 - IDRIS

bull De certains meacutesocentres - CALMIP - GRICAD

bull Et drsquoun certain nombre drsquoinitiatives et de TGIR dont

- LrsquoInstitut Franccedilais de Bioinformatique ( IFB ) - RENABI

bull Les synchrotrons ESRF ILL et SOLEIL

Ce Livre Blanc aborde aussi la probleacutematique des infrastructures requises pour lrsquoexploitation des grands volumes de donneacutees issues de simulations numeacuteriques de grande taille de systegravemes drsquoobservations ou de plateformes expeacuterimentales neacutecessitant des traitements coucircteux pour en extraire de lrsquoinformation

Les enjeux lieacutes au Big Data sont colossaux et ne sont pas seulement scientifiques car ils ont aussi un impact socieacutetal consideacuterable ( santeacute environnement biologie ) eacuteconomique et financier ( p ex compeacutetitiviteacute industrielle ) et eacutethique ( p ex santeacute biologie ) Le Big Data est ainsi devenu un outil drsquoaide agrave la deacutecision incontournable pour un certain nombre de situations critiques ( preacutevision des catastrophes naturelles eacutepideacutemiologiehellip )

La maicirctrise de tous les aspects du Big Data relegraveve drsquoune deacutemarche fondamentalement interdisciplinaire

Les eacutechelles de volumes de donneacutees agrave traiter nrsquoont fait que croicirctre de faccedilon spectaculaire On parle drsquoExaoctets ( 10^18 octets ) pour eacutevoquer les besoins actuels pour se projeter vers des eacutechelles de lrsquoordre du Zettaoctets ( 10^21 ) drsquoici quelques anneacutees

Cette eacutevolution constante induit de multiples preacuteoccupations autour des besoins en puissance de traitement pour de tels volumes de donneacutees ce qui contribue agrave rapprocher les communauteacutes du Calcul Haute Performance et du High Throughput Computing ( autour de lrsquoIN2P3 p ex ) et explique lrsquointeacuterecirct susciteacute par les GPUs en particulier pour le machine learning

13 Les donneacutees sont plus un objet de recherche pour INS2I et INSMI et ils sont peu impliqueacutes dans la production de donneacutees alors que INSIS nrsquoa pas aujourdrsquohui drsquoaction drsquoenvergure dans le domaine

puisqursquoil existe un certain nombre de codes open source tregraves performants sur les GPU

On constate dans tous les domaines des besoins eacutevidents en

bull Plateformes pour lrsquoanalyse de donneacutees agrave grande eacutechelle avec les probleacutematiques du stockage de la gestion et de la valorisation de ces donneacutees

bull Support pour les utilisateurs

bull Data scientists ( chercheurs ou ingeacutenieurs compeacutetents en analyse de donneacutees )

bull Deacuteploiement de chaicircnes logicielles drsquoanalyse de donneacutees qui passent agrave lrsquoeacutechelle

bull Effort interdisciplinaire entre les communauteacutes produisant des donneacutees et les communauteacutes dont crsquoest lrsquoobjet de recherche ( essentiellement au sein drsquoINS2I et drsquoINSMI )

bull Valorisation et peacuterennisation des donneacutees beaucoup de donneacutees sont creacuteeacutees pour un besoin preacutecis puis in fine perdues alors qursquoelles pourraient parfois ecirctre reacuteutiliseacutees ( expeacuteriences comme simulations ) ce qui suppose de lrsquoarchivage indexation mise agrave disposition etc

bull Deacutefinition de plan de gestion des donneacutees ( DMP ) loin drsquoecirctre geacuteneacuteraliseacute aujourdrsquohui alors que les volumes explosent

bull hellip

Le traitement des donneacutees massives issues ou non de la simulation numeacuterique avec des sources eacuteventuellement multiples distribueacuteesreacuteparties agrave grande eacutechelle et heacuteteacuterogegravenes ( structures formats logiciels serveurshellip ) et une volumeacutetrie en donneacutees allant de centaines de teacuteraoctets agrave quelques dizaines de peacutetaoctets ( et agrave lrsquoExaoctets dans un futur proche ) est donc devenu fondamental Il en reacutesulte des probleacutematiques autour de la gestion de ces donneacutees ( indexation stockage local ou distant avec BD centraliseacutees ou distribueacutees entrepocircts de donneacutees virtualisation du stockagehellip ) de leur traitement avec de lrsquoextraction de connaissances sur des infrastructures souvent distribueacutees ( machine learning fouille de donneacutees classification assimilation de donneacutees ) et enfin du post-traitement permettant drsquoexploitervisualiser ces informations etou de lrsquoaide agrave la deacutecision par exemple

12

Livre Blanc sur les Donneacutees au CNRS Eacutetat des Lieux et Pratiques - 2018

INTRODUCTION

Tirer parti de maniegravere efficace de toutes ces eacutevolutions requiert donc des efforts sur ( entre autres )

bull Deacuteploiement de plateformes drsquoanalyse de donneacutees performantes et rapprochement entre les communauteacutes HTC et HPC deacuteveloppement de lrsquoactiviteacute et des compeacutetences autour de lrsquoanalyse de donneacutees au sein des centres HPC nationaux et reacutegionaux

bull Conceptionexploitation efficace drsquoarchitectures et drsquoenvironnements orienteacutes donneacutees

bull Impact des technologies du type GPU Cloud computinghellip

bull Meacutethodes drsquoanalyse de donneacutees et drsquoaide agrave la deacutecision machine learning retour de lrsquoIntelligence Artificielle au premier planhellip

bull Maicirctrise du passage agrave lrsquoeacutechelle des outils drsquoanalyse de donneacutees

bull Deacuteveloppement des recherches interdisciplinaires et des compeacutetences autour des donneacutees au sein du CNRS ainsi que du support aux utilisateurs

Les pratiques et les besoins autour des donneacutees font deacutejagrave lrsquoobjet drsquoune attention consideacuterable au sein du CNRS On peut citer par exemple le remarquable ouvrage laquo Les Big Data agrave deacutecouvert14 raquo eacutediteacute sous la direction de sous la direction de Mokrane Bouzeghoub et Reacutemy Mosseri agrave CNRS EDITIONS ainsi que les reacutesultats de lrsquoenquecircte de 2014 meneacutee par la Direction de lrsquoInformation Scientifique et Technique ( DIST ) aupregraves des uniteacutes15 qui corroborent certains des constats effectueacutes ici

Le CNRS a aussi deacuteveloppeacute de multiples programmes de recherche sur les donneacutees scientifique tant au sein de la Mission pour lrsquoInterdisciplinariteacute qursquoau sein des instituts INS2I et INSMI avec

bull Le Deacutefi Mastodons16 depuis 2012 ( plus de 60 projets )

bull Deacutefi ImagrsquoIn17 depuis 2015 ( plus de 40 projets )

bull Le PEPS FaScido en 2015 et 2016 ( plus de 20 projets )

bull Le PEPS AstroInformatique18 en 2018 ( une dizaine de projets )

Enfin un soutien significatif aux plateformes de recherche sur les donneacutees a eacuteteacute apporteacute par lrsquoINS2I agrave la fois en eacutequipement et en ingeacutenieur ( permanents ou CDD )

14 httpwwwcnrseditionsfrsociete7429-les-big-data-a-decou-verthtml15 httpwwwcnrsfrdistz-outilsdocumentsenquete-du_bro-chure-couverture_032015pdf16 httpwwwcnrsfrmispipphparticle5317 httpwwwcnrsfrmispipphparticle64518 httpwwwcnrsfrmispipphparticle1325

13

Livre Blanc sur les Donneacutees au CNRS Eacutetat des Lieux et Pratiques - 2018

21 INSTITUT DE CHIMIE ( INC )

211 Introduction

La deacutemarche de cette eacutetude a eacuteteacute drsquoeacutetudier les donneacutees agrave lrsquoINC agrave diffeacuterents niveaux de granulariteacute Nous commencerons par les grandes infrastructures de calcul ou expeacuterimentales puis nous nous inteacuteresserons agrave lrsquoeacutechelle typique drsquoun institut puis au grain fin du laboratoire Nous finirons agrave lrsquoautre extrecircme par la dimension europeacuteenne

212 La probleacutematique des donneacutees agrave lrsquoINC

Pour ce qui concerne le calcul sur les centres nationaux ( GENCI ) et le stockage de donneacutees affeacuterent les chercheurs de lrsquoInstitut de Chimie soumettent leurs demandes aux Comiteacutes Scientifiques Theacutematiques nationaux ( CT ) suivants

bull CT7 Dynamique moleacuteculaire appliqueacutee agrave la biologie avec une reacutepartition INC-NSB de 60 40

bull CT8 Chimie quantique et modeacutelisation moleacuteculaire ( majoritairement INC )

bull CT9 Physique chimie et proprieacuteteacutes des mateacuteriaux avec une reacutepartition INC-INP de 50 50

Il faut rappeler que ces 3 CT eacutetiqueteacutes laquo chimie raquo centreacutes majoritairement sur les simulations de dynamique moleacuteculaire et les calculs de structure eacutelectronique repreacutesentent une part importante des projets seacutelectionneacutes et du temps de calcul alloueacute sur les machines GENCI A lrsquoIDRIS par exemple la chimie au sens large compte pour ~40 des projets ~30 du temps CPU sur Ada et 7 sur Turing

Comme il apparaicirct sur les diagrammes de lrsquoIDRIS preacutesenteacutes agrave la section 322 lrsquoutilisation du stockage est beaucoup plus reacuteduite pour ces CT laquo chimie raquo par rapport agrave drsquoautres theacutematiques avec quelques dizaines de To sur Ada et quelques To seulement sur Turing pour environ 50 To sur cartouches On note une forte surestimation des besoins par les utilisateurs

Sur le TGCC lrsquoINC occupe pour lrsquoensemble des CTs qui le concerne de lrsquoordre de 450 To en cumulant tous les espaces de disques ( storedir scratch et workdir ) Cela repreacutesente une occupation relative de lrsquoordre du pour cent sur le stockage longue dureacutee ( storedir ) et de la dizaine de pour cent sur lrsquoespace de travail Les besoins sont cependant appeleacutes agrave augmenter fortement avec lrsquoaccroissement de la taille des systegravemes eacutetudieacutes ou de leur temps de simulation si lrsquoon se fixe aux niveaux correspondant actuellement agrave des grands challenges ou des projets PRACE En modeacutelisation biomoleacuteculaire par exemple la simulation dynamique drsquoun systegraveme biologique complet comportant plusieurs millions drsquoatomes comme un virus pendant quelques dizaines voire une centaine de nanosecondes ( actuellement un tour de force ) geacutenegravere facilement un film de quelques Po si lrsquoon veut garder la trajectoire pour exploitation ulteacuterieure

Lrsquooccupation en stockage de la chimie sur les quelques meacutesocentres qui ont eacuteteacute sondeacutes ( Unistra CRIANN CALMIP ) apparaicirct elle aussi relativement limiteacutee de lrsquoordre de la dizaine de To par centre

En ce qui concerne les Infrastructures de Recherche expeacuterimentale il faut noter que la chimie est tregraves impliqueacutee dans des TGIR relevant de lrsquoINP ( ESRF ILL SOLEILhellip ) pour lesquelles une politique des donneacutees massives est eacutetablie ou en cours drsquoeacutelaboration ( voir lrsquoanalyse de lrsquoINP ) Une analyse des besoins et des pratiques de stockage des Infrastructures de Recherche relevant de lrsquoINC a eacuteteacute effectueacutee cela implique la TGIR reacutesonance magneacutetique nucleacuteaire agrave tregraves hauts champs ( RMN-THC ) lrsquoIR RENARD ( REseau NAtional de Reacutesonance paramagneacutetique interDisciplinaire ) et

2 Les donneacutees au sein des instituts du CNRS

14

Livre Blanc sur les Donneacutees au CNRS Eacutetat des Lieux et Pratiques - 2018

le tregraves grand eacutequipement FT-ICR agrave haut champ Quelques points cleacutes en ressortent en matiegravere de politique de donneacutees

bull Gestion locale des donneacutees chaque laboratoire ou site achegravete ses disques durs

bull La politique des donneacutees ( partage ou non ) est laisseacutee aux utilisateurs

bull En utilisation laquo plateforme raquo les utilisateurs viennent et repartent avec leur cleacute USB

bull Frilositeacute vis-agrave-vis du partage de donneacutees ( maicirctrise de ses donneacutees confidentialiteacute )

bull Une mutualisation des donneacutees est envisageacutee en RMN et RPE

Pour ce qui concerne la nature et le volume des donneacutees

bull Spectres 1D ou 2D fichiers de 10-100 ko jusqursquoagrave 10-100 Goansite

bull Format proprieacutetaire ( Bruckerhellip ) eacuteventuellement transformable drsquoougrave des problegravemes drsquointeropeacuterabiliteacute et de temps de relecturesauvegarde

bull Des flux plus importants peuvent ecirctre envisageacutes avec des expeacuteriences drsquoimagerie deacutependant du temps mais les volumes ne sont pas encore vraiment anticipeacutes

On peut faire les mecircmes constats par exemple pour le reacuteseau METSA en laquo Microscopie Electronique et Sonde Atomique raquo

bull Pas de politique de stockage globale au niveau du reacuteseau

bull Sur le site parisien ( MPQ ) la quantiteacute de donneacutees produites est typiquement 64 Moimage soit 4 Toan stockeacutes sur des disques durs locaux avec en plus une passerelle sur lrsquouniversiteacute

bull Des expeacuteriences en temps reacuteel commencent agrave se monter engendrant 300 imagesseconde soit de lrsquoordre de 20 Goseconde

bull Il y aura donc un reacuteel besoin de compeacutetences solides agrave terme

Pour illustration nous descendons encore en granulariteacute dans les infrastructures de recherche et prenons le cas drsquoune feacutedeacuteration lrsquoInstitut pour les Sciences Moleacuteculaires drsquoOrsay ( ISMO ) pour lequel le

problegraveme des donneacutees srsquoest poseacute reacutecemment Cet institut regroupe trois laboratoires le Laboratoire de Photophysique Moleacuteculaire ( UPR3361 ) le Laboratoire des Collisions Atomiques et Moleacuteculaires ( UMR8625 ) et le Laboratoire drsquoInteraction du rayonnement X avec la Matiegravere ( UMR8624 ) Il est installeacute depuis peu dans un bacirctiment unique agrave Paris-Saclay Il dispose drsquoune grappe de calcul avec 1 ingeacutenieur drsquoeacutetudes et un technicien

bull Il y a un besoin de stockage pour des expeacuteriences ( en particulier en microscopie ) et en ressources de calcul

bull Le mateacuteriel est disparate et vieillissant sans systegraveme de sauvegarde global

bull Une enquecircte aupregraves des laboratoires de la feacutedeacuteration a reacuteveacuteleacute un besoin de lrsquoordre de 160 To

Drsquoougrave la recherche drsquoune solution eacuteconomique de stockage et baseacutee sur des logiciels libres chaque chercheur achetant ses propres disques On a convergeacute vers lrsquoachat de 2 racks de 40 disques avec un systegraveme ZFS plus la solution libre SUN Le coucirct total estimeacute de cette solution de stockage est de lrsquoordre de 40 keuro alors qursquoune solution cleacute en main serait de lrsquoordre de 100 keuro aupregraves des speacutecialistes des solutions de stockage

Enfin penchons-nous sur une granulariteacute encore plus fine celle drsquoun laboratoire Un exemple significatif est celui du laboratoire Physicochimie des Electrolytes et Systegravemes Interfaciaux ( PHENIX ) agrave lrsquoUPMC et plus speacutecifiquement de lrsquoeacutequipe modeacutelisation composeacutee de 5 permanents pour un total de 15 personnes qui calculent agrave la fois en local sur GENCI et PRACE

bull Le parc drsquoinformatique scientifique de 15-20 stations de travail est geacutereacute par les chercheurs

bull Le systegraveme de stockage est composeacute drsquoun server NFS ( 30 To ) plus un serveur LDAP

bull Les ressources de calcul sont constitueacutees de 4 machines PersonalHPC 64 cœurs agrave meacutemoire partageacutee ( 10 keuromachine )

bull Un stockage de sauvegarde de 150 To est effectueacute sur une machine deacutedieacutee PersonalHPC Sigma ( valeur environ 30 keuro )

On retrouve donc le mecircme ordre de grandeur de coucirct pour le mateacuteriel local de stockage avec des solutions laquo cousues main raquo ( quelques dizaines de keuro pour la centaine de To hors coucirct de personnel eacutevidemment et avec le niveau de seacutecuriteacute qursquoune gestion locale implique )

INC

15

Livre Blanc sur les Donneacutees au CNRS Eacutetat des Lieux et Pratiques - 2018

Enfin si lrsquoon remonte la granulariteacute agrave son autre extrecircme il faut signaler qursquoau niveau europeacuteen sur lrsquoappel H2020 Centre of Excellence for Computing Applications 3 CoE sur les 8 seacutelectionneacutes sont consacreacutes aux mateacuteriaux au cœur donc des theacutematiques des CT 7-9 Lrsquoun drsquoeux le CoE NoMad ( Novel Material Discovery httpsnomad-coeeu ) est un dispositif multigrille de deacutepocirct et de fouille de donneacutees Il est eacutetabli pour heacuteberger organiser et partager agrave lrsquoeacutechelle internationale les donneacutees et reacutesultats de calcul et de simulation en physique et chimie des mateacuteriaux

Alors que la France est bien repreacutesenteacutee dans plusieurs CoE par exemple EoCoE ( httpwwweocoeeu ) ou E-CAM ( httpswwwe-cam2020eu ) elle apparaicirct malheureusement tregraves peu dans NoMaD et encore trop peu dans ce genre de deacutemarche type collectionexploitation de donneacutees comme les initiatives Material Genomics ( httpswwwmgigov ) aux Etats-Unis ou AIIDA en Suisse ( Automated Interactive Infrastructure and Database for Computational Science httpwwwaiidanet )

213 Conclusion

LrsquoINC a actuellement plus des problegravemes drsquoorganisation interne des donneacutees que des problegravemes relevant vraiment du Big Data Il nrsquoen reste pas moins qursquoil y a un reacuteel besoin de compeacutetences et de politique drsquoeacutequipement Les besoins peuvent srsquoaccroicirctre rapidement dans les TGIR degraves que lrsquoon touche agrave de lrsquoacquisition massive drsquoimages ( p ex pour des processus en temps reacuteel ) Lrsquoacquisition des donneacutees de simulations numeacuteriques est ameneacutee agrave croicirctre aussi avec lrsquoaugmentation de la taille des systegravemes eacutetudieacutes et des deacutemarches collectives de type Material Genomics crsquoest-agrave-dire conservation et mutualisation des donneacutees de simulations et deacutemarche systeacutematique de fouille de donneacutees Des deacutemarches de ce type eacutemergent de plus en plus dans les appels drsquooffre

LrsquoINC a engageacute depuis deacutebut 2018 une reacuteflexion sur la politique des donneacutees au sein de ces trois TGIRIR ( RMN-THC RENARD FT-ICR ) avec comme objectif de se conformer rapidement aux directives europeacuteennes en termes de science ouverte et de partage des donneacutees et rejoindre ce qui se fait dans drsquoautres infrastructures de recherche comme SOLEIL

16

Livre Blanc sur les Donneacutees au CNRS Eacutetat des Lieux et Pratiques - 2018

22 INSTITUT ECOLOGIE ET ENVIRONNEMENT ( INEE )

221 Introduction

Degraves sa creacuteation consideacuterant drsquoune part lrsquoimportance des donneacutees dans le triptyque fondateur de lrsquoINEE ( Observation ndash Expeacuterimentation ndash Modeacutelisation ) et drsquoautre part une reacuteelle meacuteconnaissance du nombre de jeux de donneacutees existants dans le peacuterimegravetre de lrsquoInstitut ( sa creacuteation datant du 1er novembre 2009 ) deux enquecirctes autour des donneacutees en eacutecologie et environnement eacutetaient meneacutees sur le peacuterimegravetre scientifique de lrsquoINEE

bull La premiegravere adresseacutee agrave lrsquoensemble des instituts du CNRS sur le thegraveme laquo Etude de cas sur les systegravemes de donneacutees numeacuteriques de recherche raquo ( Ministegravere de lrsquoEnseignement supeacuterieur et de la Recherche 2009 )

bull La seconde meneacutee sous la responsabiliteacute de S Thieacutebault et Y Lagadeuc plus speacutecifique et exhaustive aupregraves des directeurs drsquouniteacutes

La synthegravese de ces deux enquecirctes mettait en exergue les points suivants

bull Des diffeacuterents projets de recherche collaboratifs meneacutes par la communauteacute scientifique de lrsquoINEE reacutesulte un accroissement tregraves important et tregraves rapide du nombre de bases de donneacutees deacuteveloppeacutees au sein des laboratoires Cependant ces bases de donneacutees restent tregraves heacuteteacuterogegravenes dans leur forme ( allant du fichier Word ou Excel pour certains agrave un systegraveme de gestion de base de donneacutees complexe pour drsquoautres ) et aussi dans leur fond

bull La communauteacute scientifique de lrsquoINEE se doit de faire un effort particulier pour coordonner et diversifier la collecte des donneacutees en eacutecologie en menant une reacuteflexion neacutecessaire pour deacutefinir dans quels cas la theacuteorie doit deacuteterminer lrsquoobjet et les outils de mesure Il srsquoagit degraves lors drsquoeacuteviter une collecte de donneacutees agrave des eacutechelles spatiales et temporelles prenant plus en consideacuteration des contingences techniques ou historiques qui les eacuteloignent parfois des exigences optimales neacutecessaires pour appreacutehender les pheacutenomegravenes eacutetudieacutes

Aujourdrsquohui la communauteacute scientifique du CNRS-INEE est en train de vivre une veacuteritable reacutevolution de

lrsquoinformation Si pendant tregraves longtemps une des limitations a eacuteteacute la quantiteacute de donneacutees disponibles pour tester des modegraveles preacutedictifs en quelques anneacutees les sciences de lrsquoenvironnement ont pu disposer des jeux de donneacutees de plus en plus importants inteacutegrant diffeacuterentes eacutechelles temporelles et spatiales pour des milliers drsquoorganismes ainsi que pour de nombreux gegravenes et eacutecosystegravemes Ces nouveaux jeux de donneacutees allieacutes agrave une puissance de calcul et agrave une sophistication des logiciels ( rendues possibles notamment par la mise en place de plateformes collaboratives comme le logiciel R ) permettent aujourdrsquohui une profondeur drsquoanalyse qui nrsquoeacutetait pas possible il y a encore dix ans

Toutefois des efforts doivent ecirctre maintenus afin de faire basculer lrsquoeacutecologie dans lrsquoegravere de lrsquoinformation en eacutevitant que ces diffeacuterentes sources drsquoinformations soient stockeacutees et codeacutees suivant des normes contingentes agrave chaque milieu scientifique sans souci drsquointerfaccedilage avec les autres disciplines

222 La probleacutematique des donneacutees agrave lrsquoINEE

La collecte des donneacutees neacutecessite des systegravemes drsquoobservation et drsquoexpeacuterimentation depuis le niveau geacuteneacutetique jusqursquoaux eacutecosystegravemes Il srsquoagit drsquoabord de disposer drsquoeacutequipements compleacutementaires organiseacutes le long de gradients de controcircle ou de confinement consideacuterant des complexiteacutes eacutecologiques diffeacuterentes

La communauteacute de lrsquoINEE dispose deacutesormais drsquoune infrastructure expeacuterimentale partageacutee et ouverte ( AnaEE pour Analyse et Expeacuterimentation sur les Ecosystegravemes ) qui rassemble des moyens expeacuterimentaux in situ en conditions semi-naturelles et en conditions controcircleacutees

En geacutenomique les programmes concernant le meacutetageacutenome humain ( httpwwwmetahiteu httpnihroadmapnihgov ) ou lrsquoeacutetude des sols ( httpwwwterragenomeorg httpwwwearthmicrobiomeorg ) promeuvent des approches collaboratives inteacutegreacutees

Drsquoautres approches exploratoires agrave large eacutechelle ont aussi montreacute toute leur richesse ( p ex Tara-Oceans ) en inteacutegrant des donneacutees de diffeacuterents champs disciplinaires

INEE

17

Livre Blanc sur les Donneacutees au CNRS Eacutetat des Lieux et Pratiques - 2018

Lrsquoeacutetude des maladies infectieuses beacuteneacuteficie eacutegalement au plan national drsquoun institut theacutematique multi-organismes ( Institut de Microbiologie et Maladies Infectieuses )

Enfin au niveau des eacutecosystegravemes il faut noter les travaux entrepris au sein des Zones Ateliers ou encore des services drsquoobservation que le CNRS coordonne

Ces diffeacuterentes initiatives sont agrave lrsquoorigine de la production drsquoune quantiteacute de donneacutees sans preacuteceacutedent dans nos disciplines Par contre une grande part de la collecte est encore conduite par des eacutequipes etou des chercheurs individuels travaillant sur des sites expeacuterimentaux ou drsquoobservation qui ne font actuellement lrsquoobjet drsquoaucune coordination particuliegravere ou drsquoune coordination probablement insuffisante

Le panorama des initiatives dans le domaine EcologieBiodiversiteacute est extrecircmement large comme le montre la figure suivante avec une multipliciteacute des acteurs et des interactions

Il est organiseacute autour de trois niveaux

bull des dispositifs de production et de collecte des donneacutees incluant par exemple les plateformes -omiques ( geacutenomiques transcriptomiques p roteacuteomiques meacutetabo lomiqueshellip ) des collections des systegravemes drsquoobservation etou drsquoexpeacuterimentation

bull des bases de donneacutees

bull des centres de synthegravese geacuteneacuteraux ou theacutematiques deacutedieacutes agrave la valorisation et agrave la diffusion des donneacutees

Aussi face agrave cette laquo datavalanche raquo il apparaissait neacutecessaire pour lrsquoinstitut de mener un effort important pour aider les entiteacutes productrices de donneacutees de lrsquoINEE agrave aller vers une normalisation du codage et de la mise en forme des donneacutees pour mieux les rendre interopeacuterables exploitables et visibles

18

Livre Blanc sur les Donneacutees au CNRS Eacutetat des Lieux et Pratiques - 2018

223 La mise en place de lrsquouniteacute mixte de services BBEES

La creacuteation de lrsquoUMS 3468 laquo Bases de donneacutees Biodiversiteacute Ecologie Environnements Socieacuteteacutes ( BBEES ) raquo souhaiteacutee par le CNRS-INEE et le Museacuteum national drsquoHistoire naturelle et acteacutee le 1er septembre 2011 a pour objectif de structurer et drsquooptimiser le travail autour des bases de donneacutees de recherche sur la Biodiversiteacute naturelle et culturelle actuelle et passeacutee

Elle constitue un soutien technique et scientifique aupregraves des uniteacutes et des chercheurs du CNRS-INEE et du MNHN souhaitant structurer peacuterenniser ou mutualiser leurs bases de donneacutees de recherche avec pour objectifs finaux

bull de faire interagir lrsquoensemble de ces bases diverses et heacuteteacuterogegravenes dans leur forme et dans leur fond

bull de preacutevoir leur sauvegarde agrave tregraves long terme prenant en compte lrsquoeacutevolution des supports

bull de participer agrave la mise en place drsquoontologies et de theacutesaurus concerteacutes

Ses interventions se traduisent par des conseils ou une intervention au sein des uniteacutes pour aider agrave concevoir relancer ou restructurer une base de donneacutees Installeacutee au Museacuteum elle beacuteneacuteficie de lrsquoenvironnement en place et de son expeacuterience dans le domaine des bases de donneacutees ( Service du Patrimoine Naturel Inventaire National du Patrimoine Naturel collections patrimoniales Pocircle application scientifique de la DSI etc ) Elle nrsquoa pas vocation agrave administrer les bases de donneacutees qui restent sous la responsabiliteacute des eacutequipes qui les produisent ni agrave leur fournir un heacutebergement Toutefois elle peut apporter des conseils sur ces points

Afin de faciliter lrsquoinsertion des bases de donneacutees dans des dispositifs nationaux et internationaux lrsquoUMS BBEES propose un certain nombre de recommandations sur

bull la constitution des corpus et le traitement des donneacutees

bull le choix des outils

bull la structuration des donneacutees

bull les meacutetadonneacutees

bull etc

Ces recommandations sont en lien avec les standards et les normes en vigueur comme la directive europeacuteenne INSPIRE ( 20072CE du 14 mars 2007 ) pour les informations geacuteographiques ou le choix drsquoun reacutefeacuterentiel taxonomique commun aux bases de donneacutees existantes sur la biodiversiteacute ( TaxRef ) et obeacuteissent aux reacuteglementations concernant la proprieacuteteacute intellectuelle dans le domaine particulier des bases de donneacutees

La question de lrsquoidentification et de lrsquoaccessibiliteacute des bases de donneacutees est eacutegalement au cœur des preacuteoccupations de lrsquoUMS BBEES En particulier pour ce qui concerne les bases inactives ( les bases de donneacutees deacuteveloppeacutees dans le cadre de programmes nationaux et stockeacutees sur des ordinateurs personnels p ex ) et les bases en veille ( bases de donneacutees accessibles mais qui ne sont plus alimenteacutees ni exploiteacutees ) Des enquecirctes sont reacuteguliegraverement meneacutees aupregraves des directeurs drsquouniteacutes de recherche dans le but drsquoidentifier lrsquoensemble des bases de donneacutees produites par les uniteacutes ( inactives en veille en deacuteveloppement et actives ) mais aussi pour anticiper et accompagner les demandes de deacuteveloppement de bases dans le cadre de programmes de recherche nationaux et internationaux

LrsquoUMS srsquoattache en outre agrave favoriser la diffusion des bases de donneacutees par leur administrateur au travers drsquoun portail deacutedieacute accessible agrave tous httpwwwbdd-ineecnrsfr Aujourdrsquohui ce portail a permis de recenser et rendre visibles environ 200 bases de donneacutees issues de lrsquoactiviteacute des laboratoires du CNRS-INEE

BBEES est aussi tregraves fortement impliqueacutee dans lrsquoanimation du reacuteseau meacutetier laquo bases de donneacutees raquo creacuteeacute en mai 2012 en collaboration avec la MRCT puis la Mission pour lrsquoInterdisciplinariteacute ( MI ) Lrsquoanimation de ce reacuteseau aujourdrsquohui composeacute de 170 personnes de diffeacuterentes origines institutionnelles ( CNRS-INEE et CNRS-INSHS principalement mais aussi MNHN INRA IRD CIRAD FRB ) permet

bull lrsquoorganisation de reacuteunions theacutematiques

bull lrsquoeacutechange et le partage via la mise en place drsquoune liste de diffusion

INEE

19

Livre Blanc sur les Donneacutees au CNRS Eacutetat des Lieux et Pratiques - 2018

bull la mise en place de formations

bull la reacutealisation de journeacutees de sensibilisation agrave la seacutecurisation et agrave la peacuterennisation des donneacutees

bull et enfin bien eacutevidemment une activiteacute de veille technologique

BBEES est aussi partenaire de plusieurs grands programmes sur le long terme ( description des meacutetadonneacutees des bases deacutejagrave opeacuterationnelles eacutetat des lieux technique creacuteation de nouvelles basesSI ) et participe aux reacuteseaux des Zones Ateliers ( RZA ) et des Observatoires Hommes-Milieux ( ROHM ) ainsi qursquoau projet drsquoinfrastructures nationales en biologie et santeacute AnaEE-France laquo Infrastructure Analyse et drsquoexpeacuterimentation sur les eacutecosystegravemes raquo en srsquoappuyant sur les Ecotrons et les Stations drsquoEcologie expeacuterimentale ( ReNSEE )

Enfin BBEES megravene une activiteacute drsquointervention et de conseil au sein de lrsquoinstitut et est membre du groupe de travail sur les standards de donneacutees du SINP et du groupe utilisateurs du GBIF France

224 La creacuteation drsquoun centre de donneacutees et drsquoexpertise sur la nature

Dans une optique de valorisation de certaines donneacutees le CNRS-INEE a aussi eacuteteacute partenaire de la creacuteation drsquoun centre de donneacutees et drsquoexpertise sur la nature Creacuteeacutee en janvier 2017 lrsquoUniteacute Mixte de Service 2006 Patrimoine naturel ( PatriNat ) assure des missions drsquoexpertise et de gestion des connaissances pour ses trois tutelles que sont le Museacuteum national drsquohistoire naturelle ( MNHN ) lrsquoAgence Franccedilaise de la Biodiversiteacute et le CNRS

Issue drsquoun renforcement des eacutequipes du Service du patrimoine naturel cette uniteacute implanteacutee dans plusieurs sites du MNHN a pour objectif de fournir une expertise scientifique et technique sur la biodiversiteacute et la geacuteodiversiteacute franccedilaise au profit des politiques de connaissance et de conservation Cette mission nationale concerne la meacutetropole et lrsquooutre-mer ainsi que les theacutematiques terrestres et marines Elle est conduite en lien eacutetroit avec les partenaires impliqueacutes sur les enjeux de conservation et de protection de la nature En srsquoappuyant sur les reacutesultats issus des activiteacutes de recherche elle doit contribuer agrave faire eacutemerger des questions scientifiques et des besoins de connaissances partageacutees pour favoriser la prise en compte de la nature dans la socieacuteteacute

Agrave travers ses missions elle srsquoengage agrave diffuser former et sensibiliser les diffeacuterents publics sur les enjeux de biodiversiteacute et de preacuteservation de la nature

Ses trois principales missions concernent

bull La consolidation et la valorisation des donneacutees de biodiversiteacute de geacuteodiversiteacute et des collections naturalistes

LrsquoUMS srsquoattache agrave travailler avec les reacuteseaux naturalistes gestionnaires et de recherche pour deacutevelopper le partage des donneacutees les techniques informatiques et les meacutethodologies neacutecessaires agrave lrsquointeropeacuterabiliteacute des eacutechanges de donneacutees au niveau national et international Elle gegravere ainsi les bases de donneacutees nationales concernant les espegraveces les eacutecosystegravemes les espaces proteacutegeacutes et la geacuteodiversiteacute Elle participe eacutegalement agrave lrsquoidentification des besoins de connaissances naturalistes sur les diffeacuterents territoires La diffusion de cette information brute ou eacutelaboreacutee se fait au niveau national via deux portails principaux que sont lrsquoInventaire National du Patrimoine Naturel ( INPN ) et le GBIF-France pour les liens internationaux

bull La production et la diffusion de reacutefeacuterentiels de meacutethodes de protocoles et drsquoindicateurs

LrsquoUMS pilote ou participe aux travaux scientifiques de construction des reacutefeacuterentiels et bases de connaissance sur les espegraveces et les habitats qui sont neacutecessaires agrave la construction et la diffusion drsquoun savoir structureacute Cette structuration permet agrave lrsquoUMS drsquoagreacuteger ces informations nationales sur la nature ( inventaires eacutevaluations statuts reacuteglementaires etc ) afin de les valoriser par la production de cartes de synthegraveses et drsquoindicateurs drsquoeacutetat de la biodiversiteacute

bull Lrsquoappui scientifique aux politiques publiques et priveacutees en matiegravere drsquoenvironnement

LrsquoUMS apporte dans le cadre de polit iques publiques nationales des directives europeacuteennes sur la biodiversiteacute et des rapportages un appui pour lrsquoanimation technique et scientifique aux services de lrsquoEacutetat aux collectiviteacutes territoriales et aux eacutetablissements publics chargeacutes de la biodiversiteacute et des espaces naturels Elle apporte eacutegalement son expertise scientifique aupregraves des acteurs socio-eacuteconomiques qui mettent en place des actions en faveur de la biodiversiteacute dans leur politique environnementale en particulier dans le cadre de deacutemarche drsquoengagement dans la Strateacutegie nationale pour la biodiversiteacute

20

Livre Blanc sur les Donneacutees au CNRS Eacutetat des Lieux et Pratiques - 2018

225 Conclusion

La probleacutematique des donneacutees est centrale au sein de lrsquoINEE et couvre un tregraves large spectre de probleacutematiques Si un premier effort de recensement et de structuration a pu ecirctre meneacute au cours des derniegraveres anneacutees beaucoup de travail reste cependant agrave faire lrsquoenjeu fondamental eacutetant de promouvoir une veacuteritable laquo culture de la donneacutee raquo de la part des acteurs de la recherche en eacutecologie

En effet le deacuteveloppement drsquoune eacutecologie preacutedictive neacutecessite aujourdrsquohui de pouvoir rassembler ces donneacutees heacuteteacuterogegravenes par nature en un ensemble coheacuterent qui puisse ecirctre analyseacute de faccedilon robuste et reacutepeacutetable Il srsquoagit donc encore drsquoameacuteliorer la pertinence de la collecte des donneacutees dans une deacutemarche drsquoaller et retour entre theacuteorie et donneacutees ( cohabitation entre une eacutecologie theory-driven et data-driven )

Lrsquointeacutegration des donneacutees aux diffeacuterentes eacutechelles drsquoorganisation en eacutecologie reste aussi un enjeu Il srsquoagit maintenant de favoriser le dialogue entre disciplines non seulement entre sciences de la nature et sciences humaines et sociales mais aussi entre sciences de la nature matheacutematiques et sciences de lrsquoinformation

INEE

21

Livre Blanc sur les Donneacutees au CNRS Eacutetat des Lieux et Pratiques - 2018

23 INSTITUT DE PHYSIQUE ( INP )

231 Introduction

La probleacutematique des donneacutees prend plusieurs formes agrave lrsquoINP Celles-ci deacutependent du volume et de la nature des donneacutees Ces derniegraveres vont de quelques dizaines de meacutegaoctets geacuteneacutereacutes par une expeacuterience de laboratoire aux peacutetaoctets produits annuellement dans les TGIR de lrsquoinstitut en passant par les teacuteraoctets issus de simulations dans les grands centres de calcul nationaux ou ceux geacuteneacutereacutes sur la toile et les reacuteseaux sociaux Dans ce qui suit nous eacutevoquerons les questions qui se posent autour des donneacutees agrave lrsquoINP et certaines des solutions envisageacutees dans ces diffeacuterents contextes Nous proceacutederons par ordre deacutecroissant en commenccedilant par les TGIR ougrave la probleacutematique des donneacutees est particuliegraverement aiguumle puis par les grands centres de calcul nationaux les meacutesocentres et les laboratoires Nous terminerons avec quelques mots sur lrsquoimplication de lrsquoINP dans des projets sur les donneacutees de la Commission europeacuteenne

23 2 Les donneacutees dans les infrastructures synchrotrons neutrons et laser agrave eacutelectrons libres de lrsquoINP

Aujourdrsquohui la probleacutematique des grands volumes de donneacutees agrave lrsquoINP se pose de faccedilon particuliegraverement aiguumle dans ses tregraves grands instruments Il srsquoagit drsquoinfrastructures synchrotron neutron et laser agrave eacutelectrons libres certaines ayant une dimension europeacuteenne ou mecircme mondiale Ces infrastructures portent collectivement le nom de PaN pour

le CNRS sont les synchrotrons SOLEIL ( httpwwwsynchrotron-SOLEILfr ) et ESRF ( httpwwwesrfeu ) les infrastructures de diffusion neutronique ILL ( httpwwwilleu ) et Orpheacutee ( httpwww-centre-saclayceafrfrReacteur-Orphee ) et dans le futur lrsquoESS ( httpseuropeanspallationsourcese ) ainsi que depuis peu le laser agrave eacutelectrons libres X-FEL ( httpswwwxfeleu )

Le degreacute drsquoimplication du CNRS dans ces infrastructures et leur statut national ou international sont deacutetailleacutes dans le tableau (p 24) Bien que ces instruments soient ouverts agrave toutes les communauteacutes scientifiques et le sont pour la plupart agrave lrsquointernational crsquoest lrsquoINP qui est leur interlocuteur pour le CNRS Par ailleurs cette diversiteacute drsquoutilisateurs et de pratiques scientifiques fait de ces infrastructures de tregraves inteacuteressants laboratoires pour la gestion et le traitement de donneacutees et des modegraveles pour ce qui pourrait ecirctre fait au niveau de lrsquoINP et plus geacuteneacuteralement du CNRS

SOLEIL

Instruments agrave lrsquoILL

ESRF

22

Livre Blanc sur les Donneacutees au CNRS Eacutetat des Lieux et Pratiques - 2018

Face au fort accroissement du volume des donneacutees geacuteneacutereacutees et la diversiteacute croissante des utilisateurs les infrastructures PaN ont mis en place entre 2008 et 2010 une collaboration europeacuteenne sur les donneacutees nommeacutee laquo PaNdata raquo Elle concerne treize instruments europeacuteens avec pour objectif drsquoeacutetablir une infrastructure commune aux installations PaN qui permet un accegraves commun aux donneacutees et agrave des outils drsquoanalyse et de partage de donneacutees

Sur 2010-2011 cette collaboration a eacuteteacute soutenue par une action de support de lrsquoUnion europeacuteenne laquo PaNdata Europe raquo comprenant des ateliers autour de la standardisation des formats de lrsquoeacutechange drsquoinformation sur les utilisateurs de lrsquointeropeacuterabiliteacute des logiciels drsquoanalyse du reacutefeacuterencement des reacutesultats et de la politique des donneacutees

Srsquoen est suivi un projet INFRA de la Commission PaNdata Open Data Infrastructure ( ODI ) Celui-ci a permis la mise en place drsquoun systegraveme drsquoidentification commun nommeacute laquo Umbrella raquo pour six des treize installations Il a eacutegalement meneacute au choix drsquoun format binaire commun des donneacutees NeXusHDF5 et drsquoun systegraveme de gestion des meacutetadonneacutees laquo ICAT raquo utiliseacute dans trois des infrastructures

INP

23

Livre Blanc sur les Donneacutees au CNRS Eacutetat des Lieux et Pratiques - 2018

Afin de consolider ces avanceacutees et de preacuteparer lrsquoavenir en 2015 le projet laquo PaNDaaS raquo ( data analysis as a service ) a eacuteteacute proposeacute dans le cadre de lrsquoappel INFRADEV-4 de la Commission Plus preacuteciseacutement ce projet de 12 millions drsquoeuros avec vingt partenaires et porteacute par lrsquoESRF avait pour but de proposer aux utilisateurs des infrastructures PaN une plateforme mateacuterielle et logicielle unifieacutee permettant lrsquoanalyse la visualisation et la navigation au travers des donneacutees geacuteneacutereacutees par les instruments sur site ou agrave distance La solution envisageacutee eacutetait de type laquo cloud raquo avec appel possible agrave des infrastructures commerciales Le projet nrsquoa pas eacuteteacute retenu Toutefois un certain nombre des activiteacutes preacutevues dans ce projet continuent agrave avancer sur fonds propres

Parmi celles-ci lrsquoILL megravene lrsquoeffort de mise en place drsquoune politique des donneacutees Une telle politique est devenue indispensable pour la visibiliteacute des TGIR En 2013 lrsquoILL a deacuteployeacute un ensemble complet de services des donneacutees accessible aux utilisateurs au travers drsquoune interface web

Ces services permettent la recherche lrsquoaccegraves lrsquoannotation lrsquoarchivage lrsquoidentification et la publication des donneacutees La mise en place de cette politique a pris cinq ans pour des raisons eacutevoqueacutees ci-dessous Elle est baseacutee sur le cadre donneacute par PaNData selon lequel lrsquoinfrastructure est responsable de la preacuteservation des donneacutees geacuteneacutereacutees sur ses instruments Drsquoautre part gracircce agrave une collaboration avec DataCite et lrsquoINIST les donneacutees brutes sont indexeacutees par un DOI ( Digital Object Identifier ) propre avec un lien sur les scientifiques qui les ont geacuteneacutereacutees au travers drsquoun Research ID drsquoORCID Les meacutetadonneacutees instrumentales sont automatiquement ajouteacutees aux donneacutees brutes par lrsquointerface De plus cette interface relie les projets aux donneacutees et fournit aux utilisateurs des e-logbooks qui permettent de preacuteciser les conditions de lrsquoexpeacuterience et drsquoannoter les donneacutees Le systegraveme fournit une archive centrale en ligne organiseacutee par projet instrument et dates avec un accegraves initialement controcircleacute Les utilisateurs peuvent rendre leurs donneacutees publiques agrave tout moment et doivent le faire dans les trois ans sauf exception accordeacutee par la direction de

Synthegravese des TGIR PaN de lrsquoINP du volume de donneacutees geacuteneacutereacute et de leur politique des donneacutees

24

Livre Blanc sur les Donneacutees au CNRS Eacutetat des Lieux et Pratiques - 2018

lrsquoinfrastructure Elles deviennent alors accessibles au travers drsquoun portail qui les relient aux meacutetadonneacutees logs DOIs etc Elles sont utilisables sous les conditions de la licence CC-BY 40 Toute publication baseacutee sur ces donneacutees doit en citer le DOI et devrait agrave terme figurer dans lrsquoarchive avec ces donneacutees

La mise en place de cette politique des donneacutees a ducirc faire face agrave plusieurs difficulteacutes La premiegravere et peut-ecirctre la plus importante sont les habitudes et mentaliteacutes des utilisateurs qui conccediloivent ces donneacutees fruit de leurs ideacutees et de leur travail comme leur appartenant dans le sens ougrave ils veulent pouvoir les exploiter scientifiquement agrave plein avant de les rendre publiques On peut les comprendre Une autre difficulteacute a eacuteteacute drsquoassocier et de recevoir le soutien des nombreux organismes de recherche associeacutes agrave lrsquoILL Drsquoun point de vue plus technique la collecte drsquoarticles utilisant les donneacutees geacuteneacutereacutees au sein de lrsquoinfrastructure est compliqueacutee du fait des reacutefeacuterencements incomplets ou difficiles agrave identifier dans des recherches automatiseacutees ( p ex DOI des donneacutees inclus dans une figure ) et par le manque drsquooutils de collecte De faccedilon plus geacuteneacuterale une politique des donneacutees est un processus long agrave mettre en place et qui est ralenti par le temps de la science Neacuteanmoins les progregraves sont mesurables comme dans la figure ci-apregraves

A son tour LrsquoESRF mettra en place une politique des donneacutees tregraves similaire agrave celle de lrsquoILL sur toutes ses lignes expeacuterimentales agrave partir de 2020 Cette mise en place a un coucirct non neacutegligeable Par exemple la preacuteservation sur dix ans des donneacutees brutes requiert 100 keuroan de lecteurs et de bandes magneacutetiques suppleacutementaires De plus son implantation occupera 25 ETPsan sur quatre ans

Entre temps le service IT de lrsquoESRF a attaqueacute de front la probleacutematique PaNDaaS du fait de la forte exposition de lrsquoESRF aux gros volumes de donneacutees qui ne fera qursquoaugmenter avec la seconde phase du programme de modernisation de ses lignes qui se terminera en 2022 En effet le volume des donneacutees geacuteneacutereacute par les nouveaux instruments sera tel qursquoil ne sera plus possible de retourner au laboratoire avec ses donneacutees sur un disque Les donneacutees et les outils drsquoanalyse devront donc ecirctre au mecircme endroit Il sera aussi important de preacuteserver et de coupler le workflow des analyses avec les donneacutees elles-mecircmes afin de rendre lrsquoextraction des reacutesultats reproductible

INP

25

Livre Blanc sur les Donneacutees au CNRS Eacutetat des Lieux et Pratiques - 2018

Le but que poursuivent lrsquoESRF et ses collaborateurs PaN est de proposer un service complet allant des donneacutees agrave lrsquoanalyse qui comprend des moyens de calcul des logiciels et de lrsquoexpertise IT tout cela accessible au travers drsquoune interface web Les avantages sont de donner agrave des utilisateurs pas neacutecessairement experts en meacutethodes numeacuteriques non seulement lrsquoaccegraves agrave une infrastructure performante mais aussi agrave des outils drsquoanalyse homogegravenes et certifieacutes Cela permettra drsquoacceacuteleacuterer le processus drsquoanalyse mais aussi de faciliter la collaboration lors de ce processus ainsi que la preacuteservation du workflow Le tout renforcera eacutegalement lrsquoattractiviteacute de lrsquoinfrastructure de recherche Pour mener cette vision agrave terme lrsquoESRF aura investi 3 millions drsquoeuros en ressources humaines entre 2015 et 2020

Lrsquoapproche suivie par lrsquoESRF est de recruter des ingeacutenieurs logiciels pour deacutevelopper une bibliothegraveque qui implante des fonctionnaliteacutes communes agrave de nombreux types drsquoanalyses et de construire les applications scientifiques au-dessus en Open Source sous licence GSL au sein de collaborations geacutereacutees agrave travers Github La vision du service DaaS de lrsquoESRF est illustreacutee par le graphique ci-dessous

Pour conclure sur les TGIR de lrsquoINP les scientifiques du CNRS geacutenegraverent ~800 Toan de donneacutees sur ces instruments un chiffre qui croicirct drsquoanneacutee en anneacutee et de faccedilon encore plus significative avec la modernisation en cours des lignes de SOLEIL et de lrsquoESRF et le deacutemarrage drsquoE-XFEL Malgreacute lrsquoeacutechec en 2015 de la demande INFRADEV-4 laquo PaNDaaS raquo et les nombreux challenges poseacutes par la quantiteacute de donneacutees geacuteneacutereacutees par la varieacuteteacute des instruments et par la diversiteacute des pratiques des communauteacutes qui les utilisent le travail neacutecessaire autour de la probleacutematique de lrsquoorganisation du stockage de la mise agrave disposition et de lrsquoanalyse des donneacutees des infrastructures PaN se poursuit avec succegraves sous lrsquoinitiative efficace de lrsquoESRF de lrsquoILL de SOLEIL et de leurs collaborateurs Ce travail demande des moyens humains et informatiques ainsi qursquoun soutien institutionnel en prioriteacute en ce qui concerne les aspects de proprieacuteteacute intellectuelle

Le CNRS fort de sa multidisciplinariteacute et de sa preacutesence dans ces TGIR pourrait contribuer de plusieurs faccedilons agrave cet effort Le CNRS au travers de projets type Mastodons de la Mission pour lrsquointerdisciplinariteacute etou de Groupements de recherche pourrait encourager la collaboration de scientifiques de diffeacuterents domaines autour de

26

Livre Blanc sur les Donneacutees au CNRS Eacutetat des Lieux et Pratiques - 2018

lrsquoameacutelioration des algorithmes utiliseacutes dans lrsquoanalyse de donneacutees synchrotron par exemple sur le modegravele de CAMERA ( httpwwwcameralblgov ) aux Eacutetats-Unis Plus concregravetement le CNRS pourrait financer des postes ou mois drsquoingeacutenieur pour deacutevelopper des logiciels de traitement de donneacutees synchrotron tels XSOCS ( httpssourceforgenetprojectsxsocs ) Il pourrait eacutegalement donner accegraves agrave des moyens informatiques de type cloud agrave ces TGIR au travers par exemple drsquoun accord avec le CC-IN2P3 ou France Grilles De surcroicirct agrave lrsquoavenir le CNRS pourrait ecirctre le moteur derriegravere la creacuteation drsquoune archive Open Data et le deacuteveloppement drsquoun portail Open Science tel que le Centre de Donneacutees astronomiques de Strasbourg ( httpcdswebu-strasbgfr ) auxquelles les TGIR PaN participeraient

Outre les retours en termes de science aupregraves des TGIR PaN ces expeacuteriences dans lrsquoorganisation le stockage la mise agrave disposition et lrsquoanalyse des donneacutees dans un environnement de diversiteacute drsquoutilisateurs et de

pratiques scientifiques qui restent neacuteanmoins limiteacutees aux probleacutematiques PaN pourraient servir de tremplin agrave la mise en place drsquoune politique de la conservation et de lrsquoexploitation des donneacutees au CNRS

234 Les donneacutees de lrsquoINP dans les centres de calcul nationaux

Si on se place au niveau des centres nationaux de calcul les projets de physique ( CT 5 et 9 ) geacutenegraverent et utilisent au moins temporairement beaucoup de donneacutees avec un total de lrsquoordre de 500 To eacutequivalent au climat hors CMIP6 ( CT1 ) et supeacuterieur agrave lrsquoastrophysique et agrave la geacuteophysique ( CT 4 ) cf figures ci-dessous qui rapportent la quantiteacute de donneacutees preacutesentes sur les disques de travail en feacutevrier 2015 sur les deux calculateurs de lrsquoIDRIS

Donneacutees non peacuterennes agrave lrsquoIDRIS ($WORKDIR)

INP

27

Livre Blanc sur les Donneacutees au CNRS Eacutetat des Lieux et Pratiques - 2018

Neacuteanmoins une grande partie de ces donneacutees ne sont neacutecessaires que dans des eacutetapes intermeacutediaires des calculs ou alors sont preacuteserveacutees ailleurs En effet si lrsquoon considegravere les donneacutees conserveacutees agrave long terme sur bandes magneacutetiques agrave lrsquoIDRIS les physiciens sont des utilisateurs moyens et se retrouvent loin derriegravere les climatologues avec plus de 300 To sur bandes comme lrsquoindique la figure suivante

Pour analyser cette situation de plus pregraves nous prenons comme exemple dans le CT 5 la QCD sur reacuteseau dont les objectifs sont

bull Deacuteterminer les proprieacuteteacutes fondamentales de ces constituants eacuteleacutementaires que sont les quarks

bull Calculer les nombreuses proprieacuteteacutes des protons neutrons et autres hadrons

bull Aider agrave reacuteveacuteler de nouvelles particules eacuteleacutementaires etou interactions fondamentales

bull Agrave plus long terme calculer les proprieacuteteacutes de noyaux atomiques ab initio

Lrsquoapproche consiste agrave reacutesoudre numeacuteriquement les eacutequations de la chromodynamique quantique ( QCD ) parfois coupleacutees agrave celles de lrsquoeacutelectrodynamique quantique ( QED ) dans leur reacutegime hautement non lineacuteaire Une telle approche induit de gros calculs massivement parallegraveles sur des infrastructures nationales et internationales En France 2 eacutequipes contribuent agrave cet effort mondial

bull La European Twisted Mass collaboration ( LPT Orsay LPC Clermont )

bull La Budapest-Marseille-Wuppertal collaboration ( CPT Marseille SPhN Saclay )

Donneacutees preacuteserveacutees sur bandes magneacutetiques agrave lrsquoIDRIS

28

Livre Blanc sur les Donneacutees au CNRS Eacutetat des Lieux et Pratiques - 2018

Du point de vue des donneacutees dans cette activiteacute de recherche ces collaborations repreacutesentent aujourdrsquohui

bull $WORKDIR

o Typiquement 10 To sur Turing

o ETMC pic agrave 23 Po en post-traitement au CC-IN2P3

bull Sauvegarde laquo peacuterenne raquo

o ETMC ~130 To au CC-IN2P3

o BMWc ~50 To au FZ Julich

Il est important de noter que dans ce domaine drsquoactiviteacute des donneacutees acircgeacutees de plus drsquoenviron cinq ans sont pour la plupart obsolegravetes et il devient plus facile de les recalculer si on en a vraiment besoin Bien sucircr il en va autrement pour les donneacutees expeacuterimentales obtenues aupregraves drsquoacceacuteleacuterateurs qui elles ne sont geacuteneacuteralement pas faciles agrave reproduire

Un certain nombre des donneacutees obtenues en QCD sur reacuteseau sont partageacutees au travers de lrsquoInternational Lattice Data Grid ( ILDG ) avec des formats et des meacutetadonneacutees standardiseacutes des protocoles et outils drsquoeacutechange entre grilles reacutegionales et enfin des catalogues sur les grilles reacutegionales Il srsquoagit principalement des configurations de jauge qui sont agrave la base de tout calcul en QCD sur reacuteseau et qui reacutesultent drsquoun processus markovien coucircteux numeacuteriquement

Dans ce domaine on peut eacutegalement faire une projection sur les besoins en matiegravere de donneacutees agrave lrsquoavenir

bull Pour les eacutetudes dont la vocation est la deacutetermination des proprieacuteteacutes fondamentales des quarks les calculs de proprieacuteteacutes de hadrons ou lrsquoaide agrave la reacuteveacutelation drsquoune nouvelle physique fondamentale on anticipe une croissance modeacutereacutee absorbeacutee par le renouvellement des infrastructures de calcul intensif

bull Par contre en ce qui concerne lrsquoeacutetude ab initio des noyaux atomiques qui nrsquoest actuellement qursquoau niveau de balbutiements la croissance du volume des donneacutees sera potentiellement exponentielle dans 5 agrave 10 ans

235 Les donneacutees dans les laboratoires de lrsquoINP

En mars 2015 la DIST a publieacute les reacutesultats drsquoune enquecircte aupregraves des Directrices et Directeurs drsquouniteacutes du CNRS concernant les usages et les besoins drsquoinformation scientifique et technique des laboratoires En srsquoappuyant sur cette enquecircte ainsi que sur des consultations au sein de lrsquoINP nous avons tireacute les conclusions suivantes concernant les donneacutees dans les laboratoires de lrsquoINP

bull Les eacutequipes dans les laboratoires de lrsquoINP engendrent des donneacutees drsquoexpeacuterience et de simulation avec des volumes geacuteneacuteralement geacuterables au niveau local

bull Les eacutequipes de lrsquoINP peuvent aussi contribuer agrave geacuterer des bases de donneacutees par exemple en physique atomique et moleacuteculaire ( typiquement sur un site web un serveur de laboratoire ou un serveur international )

bull Les donneacutees sont geacuteneacuteralement sous la responsabiliteacute des eacutequipes qui les produisent

bull Il y a peu de financements externes lieacutes agrave la gestion de ces donneacutees

bull Peu de demandes eacutemanent des laboratoires sur les donneacutees ( beaucoup plus sur le calcul )

bull Tregraves peu de laboratoires ont un plan de gestion de donneacutees

bull Sur certains sites geacuteographiques il y a une participation minoritaire agrave la mutualisation des infrastructures de donneacutees par exemple dans les salles informatiques du datacentre Virtual Data du LabEx P2IO ( Paris-Saclay ) et au Dark Energy Data Center du LabEx OCEVU ( MarseilleMontpellierToulouse )hellip

bull Il nrsquoy a pas encore de politique sur la gestion des donneacutees dans les laboratoires ni de mutualisation au niveau de lrsquoinstitut

INP

29

Livre Blanc sur les Donneacutees au CNRS Eacutetat des Lieux et Pratiques - 2018

Il y a neacuteanmoins des theacutematiques eacutemergentes dans les laboratoires de lrsquoINP qui pourraient ecirctre confronteacutees agrave la probleacutematique du Big Data telle qursquoelle apparaicirct en lien avec par exemple les reacuteseaux sociaux En effet de petites eacutequipes ( au CPT agrave Marseille ou agrave lrsquoIXXI de Lyon ) eacutetudient les donneacutees de reacuteseaux sociaux ( p ex Twitter ) avec pour but par exemple de comprendre diffeacuterents comportements humains agrave lrsquoaide drsquooutils de physique et de lrsquointelligence artificielle ( p ex analyse des dialectes espagnols ) Dans ce genre drsquoeacutetude on procegravede typiquement agrave lrsquoanalyse de 10-20 To de donneacutees de flux de reacuteseau social qui doivent ecirctre laquo filtreacutees raquo agrave lrsquoaide de fermes de PCs de type Hadoop Les quelques Go de donneacutees obtenues peuvent ensuite ecirctre analyseacutes en local

Dans ce domaine les volumes de donneacutees ont une croissance exponentielle qursquoil sera difficile de suivre Un besoin drsquoacceacuteder agrave des fermes de PCs de type Hadoop se manifeste ainsi qursquoun besoin de formation dans lrsquoutilisation de techniques de data mining et dans la gestion de systegravemes Hadoop La possibiliteacute drsquoutiliser des plateformes commerciales ( Amazon Numergy Cloudwatt ) est une possibiliteacute Ces theacutematiques de recherche sont plus reacutepandues dans drsquoautres instituts ( INS2I INSHS ) et il est souhaitable que les solutions agrave ces challenges soient envisageacutees avec ces instituts

236 Participation aux initiatives europeacuteennes sur les donneacutees

Au travers de lrsquoimplication de ses chercheurs dans les activiteacutes du Centre Europeacuteen de Calcul Atomique et Moleacuteculaire ( CECAM ) lrsquoINP participe au Centre of Excellence for Computing Applications ( CoE ) E-CECAM ( httpswwwe-cam2020eu ) qui a pour vocation la creacuteation de codes modulaires open source la formation de jeunes scientifiques et de personnels de lrsquoindustrie dans le deacuteveloppement et lrsquoutilisation de logiciels deacutedieacutes et le conseil au monde industriel dans les domaines de la structure eacutelectronique la dynamique quantique et moleacuteculaire et la modeacutelisation multi-eacutechelles Par contre il est regrettable que lrsquoimplication de ses chercheurs dans des initiatives telles que le CoE NoMad ( Novel Material Discovery httpsnomad-coeeu ) soit tregraves faible alors qursquoil srsquoagit de mettre en place un dispositif pour heacuteberger organiser et partager agrave lrsquoeacutechelle internationale les donneacutees et reacutesultats de calculs et de simulations en physique et chimie des mateacuteriaux

237 Conclusions

La probleacutematique des donneacutees agrave lrsquoINP se pose surtout au travers des TGIR PaN Geacutereacutees par lrsquoINP ces infrastructures servent des communauteacutes qui vont bien au-delagrave de lrsquoINP et de la France

De gros efforts drsquoharmonisation et de mise en place drsquoune politique des donneacutees et de mutualisation ont eacuteteacute effectueacutes ( PaNdata PaNDaaS ) mais nrsquoempecircchent pas drsquoecirctre confronteacutes agrave diverses difficulteacutes Devant lrsquoaccroissement des donneacutees ces efforts deviennent incontournables Ils pourraient aussi servir de base au deacuteveloppement drsquoune politique de la conservation et de lrsquoexploitation des donneacutees au niveau du CNRS

Drsquoun point de vue stockage de donneacutees sur disques dans les centres de calcul nationaux lrsquoINP occupe de lrsquoordre de 200 Toctets par site en scratch et en laquo peacuterenne raquo le rapport entre Toctets engendreacutes et volume de calcul eacutetant petit Dans les meacutesocentres le stockage des donneacutees INP ne semble pas ecirctre un problegraveme important Au niveau des laboratoires les donneacutees sont geacutereacutees par les eacutequipes qui les geacutenegraverent et qui les utilisent

Il nrsquoy a pas encore de politique des donneacutees de lrsquoINP vis-agrave-vis des donneacutees dans les laboratoires la demande nrsquoeacutetant pas particuliegraverement forte LrsquoINP participe au travers de petites eacutequipes agrave lrsquoexploitation de grandes masses de donneacutees sociales meacutedicales etc en appliquant des meacutethodes de modeacutelisation en partie issues de la physique mais pour lrsquoinstant de faccedilon minoritaire

Drsquoautre part LrsquoINP participe aux deacutefis de la Mission pour lrsquointerdisciplinariteacute sur les donneacutees ( p ex Mastodons ) et au GDR MaDICS mais cela reste marginal aussi

30

Livre Blanc sur les Donneacutees au CNRS Eacutetat des Lieux et Pratiques - 2018

24 INSTITUT DES SCIENCES BIOLOGIQUES ( INSB )

241 Introduction

Crsquoest lrsquoassociation de biologistes comme James Watson de chimistes et de physiciens comme R Franklin et F Crick qui a permis de comprendre en 1953 les bases du fonctionnement de lrsquoADN support de lrsquoinformation geacuteneacutetique entraicircnant une premiegravere reacutevolution celle de la biologie moleacuteculaire La deuxiegraveme reacutevolution celle de la geacutenomique a commenceacute au milieu des anneacutees 1990 et a eacuteteacute marqueacutee par le seacutequenccedilage du geacutenome humain un code de plus de 3 milliards de lettres Ce succegraves a neacutecessiteacute des deacuteveloppements technologiques consideacuterables dans les domaines de la physique de lrsquoeacutelectronique de lrsquoinformatique de la chimie et de la biologie

Pour reacutepondre aux besoins de stockage et drsquoanalyse des seacutequences biologiques ( composeacutees drsquoune succession de 4 nucleacuteotides A C G T pour les seacutequences nucleacuteiques et drsquoune succession de 20 acides amineacutes pour les seacutequences proteacuteiques ) les premiegraveres collections de donneacutees en biologie sont apparues sous la forme de livres ( Atlas of Protein Sequences de Dayhoff et al ( 1965-1978 ) Nucleic Acid Sequences Handbook de Gautier et al ( 1981 ) qui contenait 1095 seacutequences et 525506 nucleacuteotides ) puis de banques de donneacutees informatiseacutees au deacutebut des anneacutees 1980 Trois grands centres se chargent de la collecte des seacutequences nucleacuteiques aux Etats-Unis Los Alamos Sequence Database puis GenBank ( depuis 1979 ) au Japon DNA Data Bank of Japan - DDBJ ( depuis 1984 ) et en Europe European Molecular Biology Laboratory Sequence Database - EMBL-Bank ( depuis 1981 ) Ces banques de donneacutees ont un format de donneacutees qui leur est propre mais une collaboration internationale a eacuteteacute mise en place afin drsquoassurer que le contenu de ces ressources soit pratiquement identique Les seacutequences proteacuteiques quant agrave elles ont eacuteteacute reacutepertorieacutees au NCBI ( National Center for Biotechnology Information Etats-Unis ) dans la PIR ( Protein Information Resource - 1984-2004 ) Aujourdrsquohui une seule ressource est maintenue en Europe UniProt dont la fraction contenant des donneacutees laquocureacuteesraquo Swiss-Prot est prise en charge par lrsquoInstitut Suisse de Bioinformatique ( SIB )

La bioinformatique a eacutemergeacute avec la disponibiliteacute des premiegraveres seacutequences proteacuteiques Lrsquoarticle fondateur de Zukerkandl et Pauling ( 1965 ) preacutesente des analyses informatiques etou matheacutematiques et statistiques sur des seacutequences biologiques pour reconstituer lrsquohistoire eacutevolutive des ecirctres vivants Le terme laquobioinformatiqueraquo srsquoest populariseacute dans les anneacutees 1990 autour de la deacutefinition suivante informatique appliqueacutee agrave la biologie Il srsquoagit de lrsquoensemble des meacutethodes informatiques permettant de ( i ) geacuterer les donneacutees produites en masse par la biologie ( ii ) analyser ces donneacutees brutes pour en extraire de lrsquoinformation ( iii ) organiser et structurer cette information ( iv ) infeacuterer des connaissances biologiques ( agrave lrsquoaide de modegraveles et de theacuteories ) agrave partir des informations stockeacutees dans des collections et ( v ) eacutenoncer des hypothegraveses geacuteneacuteralisatrices et de formuler des preacutedictions En pratique les theacutematiques principales de la bioinformatique sont les suivantes

bull Lrsquoanalyse des seacutequences ( ADN ou proteacuteines ) annotation des geacutenomes phylogeacutenie et eacutevolution geacutenomique comparative analyse de variants dans le cadre de maladies geacuteneacutetiques geacutenomique du cancer

bull Les donneacutees drsquoexpression ( ARN et proteacuteines )

bull La structure des macromoleacutecules ( ARN et proteacuteines )

bull Les reacuteseaux de reacutegulation et lrsquoanalyse du meacutetabolisme

bull La meacutetageacutenomique et meacutetabarcoding

bull Lrsquoanalyse drsquoimages

On assiste agrave un changement drsquoeacutechelle en biologie depuis une dizaine drsquoanneacutees et la biologie est entreacutee avec lrsquoavegravenement des approches ndashomiques ( cf 242 ) dans lrsquoegravere du Big Data En effet le deacuteveloppement des technologies agrave haut deacutebit permet par exemple de collecter les donneacutees agrave lrsquoeacutechelle de la cellule entiegravere et drsquoenvisager une deacutemarche encyclopeacutedique en collectant tous les gegravenes tous les transcrits toutes les proteacuteines toutes les interactions tous les meacutetabolites et les flux etc Les conseacutequences sont consideacuterables tant pour notre compreacutehension du vivant que pour les applications

INSB

31

Livre Blanc sur les Donneacutees au CNRS Eacutetat des Lieux et Pratiques - 2018

Nous pouvons maintenant aborder la complexiteacute du vivant non plus uniquement de maniegravere analytique mais de maniegravere globale agrave lrsquoeacutechelle des dizaines de milliers de macromoleacutecules qui interagissent entre elles pour faire fonctionner une cellule un tissu un organisme entier une communauteacute drsquoorganismes La gestion et lrsquoanalyse de ces gros volumes de donneacutees geacuteneacutereacutees par la biologie est donc un enjeu majeur

242 La probleacutematique des donneacutees agrave lrsquoINSB

Lrsquoavegravenement des approches -omiques ( transcriptomique geacutenomique proteacuteomique et meacutetabolomique ) a tregraves largement contribueacute agrave lrsquoacquisition de connaissances sur les organismes vivants aussi bien modegraveles que non modegraveles Depuis 2007 nous assistons au deacuteveloppement de nouvelles technologies de seacutequenccedilage agrave tregraves haut deacutebit ( NGS Next Generation Sequencing ) qui permettent de produire drsquoimportantes quantiteacutes de seacutequences drsquoADN et ARN

De fait la taille des geacutenomes seacutequenceacutes est extrecircmement variable le plus petit geacutenome ( non viral ) connu est Carsonella ruddii 016 Mbp ( millions or mega of base pairs ) et le plus grand Amoeba dubia une amibe microscopique qui preacutesente un geacutenome 100 fois plus gros que le geacutenome humain ( 675 Giga base pairs )

Une eacutetape preacutealable au seacutequenccedilage des geacutenomes drsquoorganismes vivants consiste agrave deacutecouper ces derniers en millions de fragments ( shotgun sequencing ) La taille des lectures varie de 35 bp jusqursquoagrave 2 x 200 bp pour les seacutequenceurs de 2egraveme geacuteneacuteration ( seacutequences courtes mais de tregraves bonne qualiteacute ) et de 14 kbp agrave 47 kbp pour les seacutequenceurs de 3egraveme geacuteneacuteration ( seacutequences beaucoup plus longues mais contenant un taux drsquoerreur autour de 10 aujourdrsquohui ) Un run de seacutequenccedilage produit 3 milliards de lectures apparieacutees de 2 x 100 bp soit 600 Gbp qui repreacutesentent 48 To de donneacutees laquo brutes raquo et environ 10 To avec les meacutetadonneacutees Les coucircts de seacutequenccedilage sont passeacutes de 10 000 $ agrave 003 $ par million de nucleacuteotides seacutequenceacutes Alors que la croissance de la banque geacuteneacuteraliste EMBL a doubleacute sa taille tous les 187 mois La deacutecroissance du coucirct de seacutequenccedilage nrsquoest plus proportionnelle depuis 2007 agrave la deacutecroissance exponentielle des coucircts de stockage et drsquoanalyse informatique ( loi de Moore )

32

Livre Blanc sur les Donneacutees au CNRS Eacutetat des Lieux et Pratiques - 2018

Ces deux facteurs induisent de multiples problegravemes Des fichiers de donneacutees de plusieurs dizaines ( voire plusieurs centaines ) de Go contenant des dizaines de millions de seacutequences sont geacuteneacutereacutes et engendrent des problegravemes de transfert de stockage et des traitements gourmands en meacutemoire vive espace disque et temps de calcul Il y a donc de plus en plus une neacutecessiteacute impeacuterative drsquoutiliser des clusters de calcul ( meacutesocentres CC-IN2P3 IDRIS CCRT ) Drsquoautre part de moins en moins de seacutequences effectivement produites dans les laboratoires sont soumises aux banques de donneacutees publiques En conseacutequence les trois collections geacuteneacuteralistes ne sont plus exhaustives et lrsquoon assiste agrave un foisonnement de collections locales et de banques de donneacutees speacutecialiseacutees qui pose seacuterieusement la question de la dureacutee de validiteacute de ces systegravemes Au niveau europeacuteen la mise en place

drsquoELIXIR a eacuteteacute une reacuteponse aux difficulteacutes croissantes de lrsquoEBI ( European Bioinformatics Institute ) agrave geacuterer toutes ces donneacutees Il srsquoagit drsquoune initiative lanceacutee en 2007 dans le cadre du programme ESFRI ( infrastructures de recherche europeacuteennes ) lrsquoinfrastructure ELIXIR est constitueacutee drsquoun hub central et de nœuds associeacutes ( 23 pays partenaires aujourdrsquohui ) Les biologistes sont noyeacutes sous une avalanche de donneacutees On estime que lrsquoon passe aujourdrsquohui 25 du temps agrave engendrer les donneacutees et 75 du temps agrave les analyser Aux donneacutees de seacutequences geacutenomiques viennent tout naturellement srsquoajouter celles geacuteneacutereacutees par drsquoautres technologies -omiques transcriptomique proteacuteomique meacutetabolomique structuromique et les donneacutees drsquoimages qui geacutenegraverent des quantiteacutes eacutenormes de donneacutees agrave des niveaux biologiques multiples

INSB

33

Livre Blanc sur les Donneacutees au CNRS Eacutetat des Lieux et Pratiques - 2018

Au niveau national le ministegravere a lanceacute en 2010 les premiers appels agrave projets du Plan drsquoInvestissement drsquoAvenir ( PIA ) qui doit entre autres doter la France de plusieurs grandes infrastructures drsquoenvergure nationale et tregraves compeacutetitives internationalement Les mots-cleacutes derriegravere ces infrastructures distribueacutees recouvrent la mutualisation un service ouvert agrave la communauteacute et une expertise pointue dans une technologie du domaine en eacutemergence

bull France Geacutenomique ( FG ) est lrsquoinfrastructure de production de seacutequences geacutenomiques ( ADN ARN ) Les ordres de grandeur des technologies de seacutequenccedilage ont eacuteteacute donneacutes ci-dessus Les donneacutees des appels agrave grands projets de FG sont geacuteneacuteralement traiteacutees au CCRT ougrave lrsquoeacutecosystegraveme neacutecessaire aux traitements bio-informatiques a eacuteteacute mis en place ( cf ci-dessous )

bull ProFI produit des donneacutees de proteacuteomique la volumeacutetrie associeacutee agrave chaque eacutetude est de lrsquoordre de quelques centaines de Mo qui multiplieacutes par le nombre drsquoeacutetudes meneacutees simultaneacutement repreacutesente de lrsquoordre de 100 To mobiliseacutes

bull FRISBI est une infrastructure deacutedieacutee agrave la biologie structurale inteacutegrative dont les besoins informatiques relegravevent surtout du temps de calcul ( programmes de dynamique moleacuteculaire qui peuvent ecirctre exeacutecuteacutes dans les grands centres de calcul nationaux )

bull MetaboHUB produit des donneacutees de meacutetabolomique et de fluxomique chaque plateforme gegravere ses donneacutees ( environ 20 Toan ) de faccedilon diffeacuterente et opportuniste

bull France-BioImaging produit des donneacutees drsquoimages dans un large panel de modegraveles biologiques ( de la cellule unique au petit animal en condition pathologique ) Les diffeacuterents nœuds de lrsquoinfrastructure produisent annuellement 2 Peacutetaoctets de donneacutees avec des donneacutees par projet unitaire de 100 Go agrave 10 To Le flux de donneacutees neacutecessite de laisser les systegravemes de stockage au plus pregraves des systegravemes drsquoacquisition et des moyens de calcul Il est eacutegalement plus efficace de deacuteplacer les algorithmes et logiciels drsquoanalyse au plus pregraves des donneacutees France-BioImaging a deacuteveloppeacute une solution laquo pilote raquo open source de gestion des donneacutees images qui se precircte agrave cette infrastructure distribueacutee ( httpsstrandlsgithubioopenimadis )

Pour reacutepondre aux besoins bioinformatiques engendreacutes par ces quantiteacutes croissantes de donneacutees de nature tregraves diffeacuterente lrsquoInstitut Franccedilais de Bioinformatique ( IFB ) projet laureacuteat de la seconde vague des appels du PIA ( 2012-2019 ) a eacuteteacute mis en place en 2013 Il est

organiseacute en six centres reacutegionaux ( APLIBIO IFB-GO IFB-SO IFB-GS PRABI et IFB-NE ) qui sont des regroupements de plateformes et drsquoeacutequipes de recherche en bioinformatique et en un nœud national ( IFB-core ) qui a une structure de type UMS IFB-core est localiseacute aujourdrsquohui agrave lrsquoIDRIS ( Orsay ) qui heacuteberge aussi les moyens de calcul de lrsquoIFB Sa mission geacuteneacuterale est de fournir des ressources de base et des services en bio-informatique agrave la communauteacute des sciences de la vie autrement dit

bull Fournir un appui aux programmes de la communauteacute des sciences du vivant

bull Mettre agrave disposition une infrastructure informatique deacutedieacutee agrave la gestion et lrsquoanalyse des donneacutees biologiques

bull Agir comme un laquo intermeacutediaire raquo entre la communauteacute des sciences du vivant et celle de la recherche en ( bio )informatique

LrsquoIFB est le nœud franccedilais du reacuteseau europeacuteen ELIXIR et participe agrave de nombreuses actions et projets de cette infrastructure en termes de deacutefinition de standards et drsquoontologies de contribution agrave la FAIRication des donneacutees ( Findable Accessible Interoperable Reusable ) de mise en place de formation ( e-learning )

Dans sa nouvelle feuille de route lrsquoIFB a deacutecideacute de renforcer les liens avec les autres infrastructures ndashomiques ( c-agrave-d service agrave la communauteacute ) et de deacutevelopper un axe drsquoinnovation de laquo bioinformatique inteacutegrative raquo agrave travers la mise en place de projets pilotes transverses puis dans un second temps drsquoappels agrave deacutefis Le constat global est que le verrou majeur de la production scientifique et donc de sa compeacutetitiviteacute se situe largement du cocircteacute de la gestion de la diffusion et de lrsquointerpreacutetation des donneacutees geacuteneacutereacutees au sein de ces infrastructures LrsquoIFB a un rocircle majeur agrave jouer dans lrsquoaccompagnement de ces besoins en mettant au service de ces infrastructures ses ressources et savoir-faire dans le domaine des technologies du numeacuterique pour la biologie et la santeacute

LrsquoIFB va donc amplifier ces collaborations transversales au service des infrastructures productrices de donneacutees autour de trois axes

bull Mise en place de lrsquoinfrastructure de stockage distribueacute des donneacutees massives et leur mise agrave disposition

bull Mise en place de meacutethodes associeacutees de lrsquointeacutegration de ces donneacutees heacuteteacuterogegravenes et du data mining

34

Livre Blanc sur les Donneacutees au CNRS Eacutetat des Lieux et Pratiques - 2018

bull Deacuteveloppement drsquooutils drsquointerpreacutetation et de visualisation de donneacutees biologiques pour accroicirctre leur utiliteacute et faciliter leur interpreacutetation

Compareacute aux traitements des donneacutees en physique chimie sciences de la Terre etc le traitement des donneacutees biologiques ( notamment lrsquoanalyse des seacutequences ) revecirct plusieurs caracteacuteristiques tregraves diffeacuterentes qui expliquent lrsquoutilisation faible des grands centres de calcul nationaux par cette communauteacute ( i ) beaucoup drsquoanalyses de donneacutees sont distribuables ( paralleacutelisables au niveau les donneacutees ) ( ii ) elles neacutecessitent des enchaicircnements de traitements diffeacuterents ( pipelines workflows ) lrsquoutilisation de collections de donneacutees reacuteguliegraverement mises agrave jour et lrsquointeacutegration de donneacutees heacuteteacuterogegravenes ( iii ) dans la pratique une grande varieacuteteacute de langages est utiliseacutee ( Perl Python Java ) et les nombreux logiciels employeacutes ( c-agrave-d 98 logiciels drsquoalignement de lectures sur un geacutenome ) ont souvent beaucoup de deacutependances ( bibliothegraveques versions ) Typiquement une plateforme de bio-informatique met agrave disposition plusieurs centaines de logiciels diffeacuterents La mise en œuvre de ces logiciels neacutecessite le deacuteveloppement drsquointerfaces conviviales ( web GUI ) de suivre lrsquoeacutevolution tregraves rapide des technologies de production de donneacutees et de mettre agrave jour de faccedilon tregraves reacuteguliegravere de nombreuses collections de donneacutees

A titre drsquoillustration la premiegravere version de la banque de donneacutees de familles de domaines proteacuteiques ProDom a eacuteteacute distribueacutee en 1994 en utilisant comme source primaire de donneacutees celles de la banque UniProtKB ( Swiss-Prot + TrEMBL ) La construction de ProDom srsquoeffectue en deux temps geacuteneacuteration des familles proprement dites puis post-traitements et annotation des familles La construction des familles srsquoeffectue par clustering de segments homologues de proteacuteines Initialement les traitements reposaient sur MkDom2 un algorithme reacutecursif en O( n2 ) baseacute sur lrsquoutilisation du programme PSI-BLAST ProDom en 2002 neacutecessitait 2 mois de temps CPU puis 15 mois en 2006 pour passer agrave plus de 20 anneacutees de temps CPU en 2020 On voit bien ici la neacutecessiteacute de repenser la meacutethode en introduisant une paralleacutelisation des calculs et une compression des donneacutees A partir de lagrave un nouvel algorithme MPI-MkDom3 a eacuteteacute introduit avec diverses ameacuteliorations dont une paralleacutelisation agrave base de MPI La construction des familles de ProDom 2010 avec cette nouvelle version prend moins drsquoune semaine aujourdrsquohui au lieu de plus de 20 ans Les diverses optimisations reacutealiseacutees ont imposeacute entre autres de prendre en compte les probleacutematiques de lrsquoeacutequilibrage de charge entre les processeurs et ont conduit au deacuteveloppement de Paraload un outil drsquoeacutequilibrage de charge dynamique agrave base de modegravele client-serveur

Cette illustration constitue un exemple drsquoutilisation de donneacutees massives en biologie qui neacutecessite des temps de calcul tregraves importants et dont la valeur ajouteacutee provient des reacutesultats des calculs effectueacutes sur les donneacutees laquo brutes raquo que sont les seacutequences proteacuteiques

On peut ainsi constater que la bioinformatique a eu tendance par le passeacute agrave deacutevelopper ses propres infrastructures et affiche une faible utilisation des centres de calcul HPC ( excepteacute pour les simulations de dynamique moleacuteculaire ) De mecircme lrsquoutilisation des meacutesocentres reacutegionaux reste modeacutereacutee Cependant la communauteacute est consciente des difficulteacutes de passage agrave lrsquoeacutechelle des plateformes de bioinformatique et explore lrsquointeacuterecirct de lrsquoutilisation de la grille avec le projet GRISBI sur Grenoble et srsquoimplique dans le deacuteveloppement drsquoun Cloud acadeacutemique ( avec le soutien de lrsquoIBCP de GenOuest et de lrsquoIFB ) qui repose sur les infrastructures nationales de lrsquoIFB et les plateformes reacutegionales Ces plateformes de bioinformatique fournissent un accegraves gratuit agrave leurs infrastructures soit environ 10 000 cœurs et 1 Po de stockage ( sur 20 localisations diffeacuterentes ) alors que le nœud national de lrsquoIFB heacutebergeacute agrave lrsquoIDRIS apporte de lrsquoordre de 10 000 cœurs et 2 Po de stockage

243 Conclusion

Lrsquoensemble de la biologie est impacteacute par la disponibiliteacute des meacutethodes agrave haut deacutebit qui induisent des changements profonds dans les pratiques ( objectifs plans expeacuterimentaux ) Toute analyse neacutecessite deacutesormais de disposer de moyens de calcul conseacutequents ( validations statistiques ) qui doivent ecirctre disponibles aussi bien au niveau national que local

On assiste agrave un veacuteritable changement de paradigme au sein de la biologie avec un besoin deacutecroissant en techniciens sur les paillasses et croissant en analystes de donneacutees qui sont actuellement une denreacutee rare

Il y a obligation de deacutevelopper de nouvelles approches pour la gestion le partage et le traitement des donneacutees en franchissant le seuil de la paralleacutelisation des calculs et en travaillant sur la reacuteduction de la taille des jeux de donneacutees ( eacutechantillonnage compression clustering )

Du point de vue des infrastructures -omiques en compleacutement du rapprochement existant aupregraves de lrsquoinfrastructure national de lrsquoIFB il faudrait inciter les plateformes reacutegionales agrave srsquoappuyer plus fortement sur les meacutesocentres de calcul

INSB

35

Livre Blanc sur les Donneacutees au CNRS Eacutetat des Lieux et Pratiques - 2018

25 INSTITUT DES SCIENCES HUMAINES ET SOCIALES ( INSHS )

251 Introduction

Les donneacutees sont devenues au niveau international un facteur cleacute pour nombre de disciplines SHS ainsi qursquoun domaine en soi Les donneacutees sont une matiegravere convoiteacutee pour la recherche en SHS comme pour drsquoautres secteurs drsquoactiviteacute Produire diffuser tirer de la connaissance des donneacutees est donc une question strateacutegique pour lrsquoInSHS

LrsquoInSHS regroupe des disciplines dans lesquelles les analyses quantitatives baseacutees sur des jeux importants de donneacutees sont depuis longtemps fondamentales ( lrsquoeacuteconomie la sociologie la deacutemographie ) et drsquoautres qui sans ignorer lrsquousage des donneacutees ont vu de maniegravere plus reacutecente lrsquoeacutemergence de probleacutematiques propres au data driven ( litteacuterature histoire )

Une des caracteacuteristiques majeures de la donneacutee en SHS reacuteside dans la tregraves grande heacuteteacuterogeacuteneacuteiteacute des types de donneacutees utiliseacutes par les chercheurs qui vont des donneacutees agreacutegeacutees de la statistique publique jusqursquoagrave des corpus textuels ou drsquoimages en passant par les donneacutees individuelles et nominatives ou pour lrsquoarcheacuteologie par des donneacutees 3D

Cette heacuteteacuterogeacuteneacuteiteacute est renforceacutee par le fait que les chercheurs en SHS disposent de donneacutees de deux origines principales les donneacutees qursquoils ont produites par eux-mecircmes mais aussi de donneacutees produites par la socieacuteteacute comme les donneacutees fournies par la statistique publique ainsi que par le mouvement drsquoopen data ou les corpus fournis par les bibliothegraveques qui peuvent ecirctre interrogeacutes ou combineacutes de maniegravere novatrice

Lrsquoapparition de ces vastes corpus de sources par exemple archeacuteologiques artistiques ou textuelles ou la constitution de grandes bases de donneacutees donnant accegraves aux comportements personnels et sociaux des personnes dans une vaste gamme de domaines modifient en effet la maniegravere dont les chercheurs SHS abordent les objets scientifiques sur lesquels ils travaillent elles leur donnent accegraves agrave un ensemble drsquoinformations qui peuvent ecirctre fouilleacutees automatiquement et appareilleacutees les unes aux autres elles permettent de construire de nouvelles modaliteacutes de validation scientifique agrave cocircteacute des techniques fondeacutees sur lrsquoeacutechantillonnage lrsquoeacutetude de cas ou encore

la veacuterification drsquohypothegraveses ou de theacuteories construites indeacutependamment des donneacutees Ces nouvelles pratiques reacuteinterrogent les cateacutegorisations et grilles drsquoanalyse SHS en mecircme temps qursquoelles posent une seacuterie de questions de nature eacutethique degraves qursquoil srsquoagit de donneacutees individuelles

Cette datafication des sciences sociales et des humaniteacutes est un fait dont les implications ne sont pas toujours bien appreacutehendeacutees par les communauteacutes Elle impose des contraintes nouvelles reacuteflexion sur les standards plan de gestion des donneacutees promulgation de bonnes pratiques prise de recul meacutethodologique et eacutepisteacutemologique LrsquoInSHS agrave travers diffeacuterents dispositifs srsquoemploie agrave diffuser ces bonnes pratiques

Cela passe par un travail de diffusion des probleacutematiques des meacutethodologies lieacutees agrave lrsquousage des donneacutees au sein des diverses communauteacutes scientifiques Cela passe aussi par une articulation forte entre les dispositifs de production drsquoarchivage et de traitement des donneacutees et les communauteacutes scientifiques susceptibles de les utiliser en particulier par le biais de relais locaux sur les sites notamment par les MSH

252 Le dispositif des TGIR SHS

Pour reacutepondre agrave ces deacutefis eacuteviter la dispersion et lrsquoobsolescence des donneacutees produites accompagner les eacutequipes et les chercheurs lrsquoInSHS srsquoappuie sur les deux TGIR SHS dont le CNRS a eacuteteacute deacutesigneacute opeacuterateur par le MESRI la TGIR Huma-Num en charge des humaniteacutes numeacuteriques et la TGIR Progedo en charge de lrsquoaccegraves aux donneacutees de sciences sociales ( statistique publique donneacutees drsquoenquecirctes )

Les deux TGIR se situent agrave lrsquoarticulation des dispositifs europeacuteens de donneacutees en SHS et des dispositifs sur les sites destineacutes agrave favoriser et agrave promouvoir lrsquoaccegraves aux donneacutees de sciences sociales et aux humaniteacutes numeacuteriques

36

Livre Blanc sur les Donneacutees au CNRS Eacutetat des Lieux et Pratiques - 2018

INSHS

Huma-Num

Lrsquoaction de la TGIR Huma-Num ( UMS du CNRS ) est de faciliter le laquo tournant numeacuterique raquo de la recherche en sciences humaines et sociales dans la production et la reacuteutilisation de donneacutees numeacuteriques Il srsquoagit de

bull Deacutevelopper lrsquoappropriation par les communauteacutes scientifiques du cycle de vie des donneacutees numeacuteriques

bull Proposer des services pour les donneacutees au juste niveau et au bon moment

Huma-Num srsquoorganise autour drsquoun certain nombre drsquooutils et de services de projets de recherche de consortiums et de reacuteseaux europeacuteens comme indiqueacute dans la figure ci-dessous

LrsquoUMS Huma-Num est localiseacutee agrave Paris et agrave Lyon au CC-IN2P3 depuis 10 ans

Elle propose un ensemble de services pour les donneacutees numeacuteriques produites en SHS avec des partenariats avec le CC IN2P3 le CINES ( Centre Informatique National de lrsquoEnseignement Supeacuterieur ) et le CCSD ( Centre pour la Communication Scientifique Directe )

A chaque eacutetape du cycle de vie des donneacutees correspond un service deacutedieacute par exemple iRods pour le stockage en coopeacuteration avec le CC-IN2P3 des logiciels drsquoanalyse de donneacutees et de gestions de bases de donneacutees un ensemble drsquooutils de diffusion sur le Web ( p ex pack Nakalona et service de machines virtuelles ) un service drsquoarchivage agrave long terme avec le CINES un service de signalement des donneacutees avec ISIDORE et un service drsquoexposition de donneacutees NAKALA

A cocircteacute de cet ensemble de services Huma-Num seacutelectionne finance et accompagne des consortiums au nombre de 8 agrave 12 destineacutes agrave favoriser lrsquoeacutemergence ou lrsquoimpleacutementation drsquooutils au plus pregraves des besoins des communauteacutes disciplinaires Actuellement les 10 consortiums de Huma-Num repreacutesentent

bull 120 eacutequipes de recherche ( UMR EA )

bull Un reacuteseau de + de 300 chercheurs ingeacutenieurs etc

bull Plus de 50 actions publiques ( formations ateliers seacuteminaireshellip )

Entre 2011 et 2015 plus de 230 actions de coordination nationales dans 16 disciplines majeures des SHS ont eacuteteacute meneacutees plus de 350 fonds drsquoarchivescorpus mis aux normes mis agrave disposition etou signaleacutes 500000 documents issus drsquoarchives scientifiques ont eacuteteacute mis en open access

37

Livre Blanc sur les Donneacutees au CNRS Eacutetat des Lieux et Pratiques - 2018

Enfin Huma-Num constitue la brique franccedilaise de deux dispositifs drsquoinfrastructures europeacuteennes de recherche ( ERIC European Research Infrastructure Consortium ) lieacutees aux donneacutees

bull DARIAH-EU ( Digital Research Infrastructure for the Arts and Humanities )

bull CLARIN ( European Research Infrastructure for Language Resources and Technology )

Un certain nombre drsquooutils deacuteveloppeacutes par Huma-Num sont aujourdrsquohui impleacutementeacutes au niveau europeacuteen via diffeacuterents programmes H2020 en relation avec ces deux ERIC La TGIR dispose donc drsquoune reconnaissance internationale attesteacutee par de nombreuses demandes drsquoexpertise ou de coopeacuteration venues des ERIC et de diffeacuterents pays ( Queacutebec Argentine )

Progedo

La TGIR Progedo opeacutereacutee par lrsquoUMS Progedo ( CNRS-Ehess ) est lrsquoacteur central en matiegravere de production et de gestion de donneacutees en sciences sociales Lrsquoinfrastructure a pour mission de hausser le niveau de structuration nationale des communauteacutes de recherche en deacuteployant une strateacutegie de deacuteveloppement entre les organismes de recherche les grands eacutetablissements et les universiteacutes et de renforcer la position de la France dans lrsquoespace europeacuteen de la recherche

Pour ce faire Progedo organise lrsquoappui agrave la collecte agrave la documentation agrave la preacuteservation et agrave la promotion drsquoun vaste ensemble de donneacutees neacutecessaires aux disciplines des sciences humaines et sociales dans un cadre conforme agrave la leacutegislation et la regraveglementation en vigueur concernant la protection des donneacutees individuelles Elle favorise la diffusion de ces donneacutees pour la recherche soutient la reacutealisation de grandes enquecirctes et bases de donneacutees repreacutesentatives neacutecessaires agrave la recherche et participe agrave la mise en place des dispositifs seacutecuriseacutes drsquoaccegraves aux donneacutees individuelles

38

Livre Blanc sur les Donneacutees au CNRS Eacutetat des Lieux et Pratiques - 2018

Progedo constitue la tecircte de reacuteseau de diffusion nationale des donneacutees produites Elle srsquoappuie actuellement sur quatre entiteacutes

bull Deux eacutequipes lieacutees au CNRS

o lrsquoADISP qui met agrave disposition les donneacutees de la statistique publique agreacutegeacutees

o le CDSP avec Sciences Po Paris qui deacuteploie la mise agrave disposition des donneacutees produites par les chercheurs en sciences politiques principalement

bull Le service des enquecirctes de lrsquoINED

bull LrsquoEquipex CASD porteacute par le GENES ( INSEE ) pour lrsquoaccegraves seacutecuriseacute aux donneacutees en particulier aux donneacutees individuelles en les anonymisant

Progedo est la seule structure nationale de mise agrave disposition des donneacutees en sciences sociales Elle est construite comme une ombrelle destineacutee agrave couvrir tout le champ neacutecessaire autour des donneacutees drsquoenquecirctes pour la recherche Elle srsquoorganise en quatre deacutepartements qui correspondent agrave quatre grands types de donneacutees en sciences sociales

Ces quatre deacutepartements regroupent les activiteacutes correspondant agrave trois ERIC

bull CESSDA ( donneacutees de la recherche et de la statistique publique )

bull ESS ( donneacutees de sciences politiques et enquecirctes drsquoopinion )

bull SHARE ( donneacutees de santeacute )

et un ERIC en projet GGP ( relations familiales approches longitudinales des dynamiques familiales )

En tant que structure de coordination son peacuterimegravetre peut donc ecirctre appeleacute agrave srsquoeacutetendre agrave drsquoautres types de donneacutees de sciences sociales Cette position surplombante assure agrave terme la coheacuterence de lrsquoensemble des dispositifs franccedilais de mise agrave disposition des donneacutees et leur parfaite articulation avec un eacutechelon europeacuteen dont les contours sont encore agrave deacutefinir Progedo est donc destineacutee agrave ecirctre le relais franccedilais vis-agrave-vis de toutes les infrastructures europeacuteennes de donneacutees de sciences sociales existantes et agrave venir Cette organisation qui donne une visibiliteacute sur tous les dispositifs ERIC centres de compeacutetences et services nationaux ne se retrouve pas ailleurs en Europe et est un atout face agrave des modes drsquoorganisation nationaux geacuteneacuteralement plus cloisonneacutes geacuteneacuterateurs de coucircts suppleacutementaires et de doublons et un paysage europeacuteen des donneacutees non stabiliseacute

INSHS

PLATES-FORMES UNIVERSITAIRES DE DONNEacuteESavec le RnMSH les MSH et Universiteacutes de Lille Caen Lyon Nantes Strasbourg Dijon

ANIMATION SCIENTIFIQUE

PRODUCTIONENQUEcircTE

DEPARTEMENT GGP-FRANCE

DIFFUSION

ANIMATION SCIENTIFIQUE

DEPARTEMENT QUETELET PROGEDO DIFFUSION(Cessda - FranCe)

ANIMATION SCIENTIFIQUE

PRODUCTIONENQUEcircTE

DEPARTEMENT ESS-FRANCE

ANIMATION SCIENTIFIQUE

PRODUCTIONENQUEcircTE

DEPARTEMENT SHARE-FRANCE

UMS PROGEDO ANIMATION GEacuteNEacuteRALE

CONSEIL SCIENTIFIQUE

COMITEacute DE PILOTAGE

tutelles EHESSCNRS

39

Livre Blanc sur les Donneacutees au CNRS Eacutetat des Lieux et Pratiques - 2018

Implanteacutee en reacutegion gracircce agrave ses plateformes universitaires de donneacutees ( PUD ) Progedo est un acteur essentiel pour la formation agrave lrsquousage des donneacutees de la recherche Ces PUD sont des portes drsquoentreacutee dans le monde des donneacutees pour des publics parfois tregraves eacuteloigneacutes par leur parcours universitaire et leurs pratiques scientifiques des techniques statistiques Avec la mise en reacuteseau des PUD la TGIR srsquoattache agrave deacutevelopper conjointement lrsquoaccegraves aux ressources et agrave la compeacutetence collective des utilisateurs une double condition neacutecessaire pour permettre agrave la France drsquoecirctre au bon niveau international Les PUD installeacutees au sein des communauteacutes sur les sites universitaires dans les MSH lieu de deacutecloisonnement par excellence constituent un levier essentiel Lrsquoobjectif est drsquoouvrir 20 nouvelles PUD dans les trois ans 9 le sont actuellement

Articulation avec les autres producteursdiffuseur de donneacutees

Le dispositif de donneacutees SHS se construit autour de ces deux pocircles majeurs que sont Huma-Num et Progedo mais aussi en articulation avec une seacuterie drsquoautres infrastructures ou de dispositifs qui soit mettent agrave disposition des donneacutees soit assurent leur diffusion aupregraves des communauteacutes de recherche Les TGIR travaillent donc agrave favoriser la conservation agrave garantir lrsquointeropeacuterabiliteacute le moissonnage la diffusion de donneacutees ou de standards produits par drsquoautres infrastructures de nature speacutecifique telles que

bull Open Edition

bull Perseacutee

bull la chaicircne eacuteditoriale XML-TEI METOPES19

Les deux TGIR sont donc fortement articuleacutees autour de ces 3 IR inscrites sur la feuille de route nationale des infrastructures

Elles travaillent eacutegalement en eacutetroite collaboration avec les 23 MSH reacuteparties sur les sites ougrave elles trouvent des relais efficaces agrave la fois pour la mise agrave disposition des donneacutees la diffusion de la pratique des donneacutees et du numeacuterique dans les communauteacutes de chercheurs

19 httpwwwunicaenfrrecherchemrshdocument_numeriqueprojetsmetopes

253 Conclusion

Les enjeux pour lrsquoInSHS en matiegravere de donneacutees sont au moins au nombre de quatre

- Organiser des dispositifs de gestion des donneacutees qui assurent leur peacuterenniteacute leur interopeacuterabiliteacute et leur large diffusion et qui tiennent compte en mecircme temps de la tregraves grande varieacuteteacute des types de donneacutees SHS

- Encourager le tournant numeacuterique et conduire les chercheurs agrave prendre la mesure du tournant eacutepisteacutemologique que constitue le deacuteveloppement des donneacutees pour tous les champs disciplinaires SHS Il srsquoagit de deacutevelopper dans les communauteacutes une laquo culture de la donneacutee raquo propre agrave reacutesoudre ce paradoxe qui fait que la France est un des plus importants producteurs de donneacutees ( du fait notamment de lrsquoancienneteacute de sa statistique publique ) mais qursquoelles sont sous-utiliseacutees par ses chercheurs

- Contribuer agrave aider la socieacuteteacute agrave construire des reacuteponses adapteacutees aux deacutefis poseacutes par la constitution de grandes bases de donneacutees dont les possibiliteacutes de traitement automatique drsquoappariement et de croisement interrogent les dispositifs de protection des donneacutees personnelles les liberteacutes individuelles et le droit agrave la vie priveacutee Ce rocircle doit ecirctre mieux identifieacute par les speacutecialistes des autres sciences et par les deacutecideurs publics

- Contribuer au deacuteveloppement des initiatives autour de lrsquoopen data et agrave la reacuteflexion sur leurs impacts sur les sciences et sur la socieacuteteacute qui sont au cœur de la strateacutegie nationale de recherche ( Deacutefi 7 Socieacuteteacute de lrsquoinformation et de la communication - Orientation 25 Systegravemes sucircrs drsquoexploitation des grandes masses de donneacutees Deacutefi 8 Socieacuteteacutes innovantes inteacutegratives et adaptatives - Orientation 29 Seacutecurisation et optimisation de lrsquoextraction des donneacutees )

40

Livre Blanc sur les Donneacutees au CNRS Eacutetat des Lieux et Pratiques - 2018

26 INSTITUT DES SCIENCES DE LrsquoINGENIERIE ET DES SYSTEMES ( INSIS )

261 Introduction

LrsquoInstitut des Sciences de lrsquoIngeacutenierie et des Systegravemes ( INSIS ) rassemble environ 6000 chercheurs et enseignants-chercheurs ( dont 961 chercheurs CNRS et 5026 enseignants-chercheurs ) reacutepartis dans une centaine drsquouniteacutes de recherche Ses theacutematiques couvrent une partie des sections 4 ( fusion par confinement magneacutetique ITER ) 7 ( signal image automatique robotique ) 30 ( bio ingeacutenierie ) la totaliteacute des sections 8 ( micro et nano-technologies eacutelectronique photonique eacutelectromagneacutetisme eacutenergie eacutelectrique ) 9 ( ingeacutenierie des mateacuteriaux et des structures meacutecanique des solides acoustique ) et 10 ( milieux fluides et reacuteactifs transports transferts proceacutedeacutes de transformation ) du Comiteacute National

LrsquoInstitut est donc multi-theacutematiques et comporte de nombreuses disciplines qui utilisent agrave peu pregraves toutes lrsquooutil de simulation Cependant les ingeacutenieurs se sont lanceacutes tregraves tocirct dans la simulation avec des moyens et des deacuteveloppements algorithmiques propres adapteacutes aux laquo systegravemes raquo ce qui fait que les pratiques en matiegravere de simulation sont heacuteteacuterogegravenes Il y a notamment une asymeacutetrie entre la proportion de recherche impliquant la simulation en meacutecanique des fluides au sens large ( incluant la combustion ) et les autres disciplines

En ingeacutenierie des systegravemes la numeacuterisation entre en jeu non seulement pour la simulation mais pour les expeacuteriences ou les modegraveles ainsi les donneacutees numeacuteriques sont manipuleacutees dans de nombreux contextes En voilagrave quelques-uns agrave titre drsquoexemple

bull Capteurs en reacuteseau les eacutechanges drsquoinformation issus de mesures provenant de diffeacuterents capteurs notamment pour le controcircle des systegravemes neacutecessitent des techniques et algorithmes speacutecifiques de gestion de flots de donneacutees ainsi que pour le post-traitement des masses de donneacutees qursquoil srsquoagit aussi de stocker ou archiver

bull Reacuteseaux en geacutenie eacutelectrique des probleacutematiques similaires de mise en place de strateacutegies de gestion des donneacutees pour la production et la distribution de lrsquoeacutenergie eacutelectrique

bull Meacutecanique pour le vivant cela concerne lrsquoimagerie meacutedicale pour les tissus vivants avec de nombreuses questions pour les donneacutees concernant leur qualiteacute leur stockage leur confidentialiteacute Des volumes de donneacutees importants peuvent ecirctre produits notamment en eacutelastographie transitoire baseacutee sur le couplage drsquoun prototype drsquoimagerie eacutechographique capable drsquoatteindre des cadences eacutechographiques supeacuterieures agrave 5000 images par seconde

bull Acoustique il srsquoagit principalement des questions drsquoingeacutenierie des ondes acoustiques concernant leur propagation et transmission mais les donneacutees en aeacuteroacoustique ont un lien direct avec la meacutecanique des fluides et cette theacutematique est aussi relieacutee avec la meacutecanique des vibrations au travers de lrsquointeraction fluide-structure

bull Meacutecanique des solides structures et mateacuteriaux la prise en compte des non lineacuteariteacutes comportementales des mateacuteriaux dans les meacutethodes de changement drsquoeacutechelle est effectueacutee au moyen de modeacutelisations theacuteoriques associeacutees agrave des outils numeacuteriques innovants ( eacuteleacutements finis eacutetendus transformations de Fourier rapides ou FFT techniques de reacuteduction de modegraveles etc ) Pour les mateacuteriaux et les structures les mesures de deacuteplacement ou de champs sont de nos jours baseacutees sur de lrsquoimagerie 2D et 3D notamment en tomographie avec des techniques multiples utilisant la lumiegravere visible les infrarouges les rayons X etc Ceci est tout particuliegraverement utile pour le controcircle des deacutefauts ou de lrsquousure des mateacuteriaux

bull Meacutecanique des fluides la theacutematique couvre tous les pheacutenomegravenes fluides agrave toutes les eacutechelles allant de la microfluidique aux eacutechelles geacuteophysiques et astrophysiques Les simulations numeacuteriques directes notamment en turbulence qui y sont reacutealiseacutees sont parmi les plus consommatrices de temps de calcul et productrices de donneacutees comme illustreacute plus en deacutetail ci-apregraves

INSIS

41

Livre Blanc sur les Donneacutees au CNRS Eacutetat des Lieux et Pratiques - 2018

On se rend donc bien compte que les questions scientifiques agrave lrsquoINSIS portent sur des probleacutematiques multi-physiques qui sont reacutesolues numeacuteriquement par lrsquoapplication drsquoalgorithmes pour le calcul haute performance crsquoest-agrave-dire le calcul parallegravele mais aussi le Cloud computing Le passage agrave lrsquoeacutechelle pour des systegravemes complexes reacuteels en ingeacutenierie neacutecessite ainsi une hieacuterarchie drsquoapplications qui permet en outre drsquoaborder explicitement les aspects multi-eacutechelles Les systegravemes multi-physiques neacutecessitent notamment le couplage entre codes de nature diffeacuterente Crsquoest la probleacutematique geacuteneacuterique des intergiciels ( parmi lesquels les logiciels de couplage comme OpenPALM ) mais ceci introduit la difficulteacute suppleacutementaire poseacutee par lrsquoheacuteteacuterogeacuteneacuteiteacute des donneacutees agrave stocker et agrave analyser

Lrsquoinstitut est donc un des principaux utilisateurs du calcul haute performance au CNRS comme lrsquoattestent notamment les attributions drsquoheures de calcul par GENCI dans deux comiteacutes theacutematiques parmi dix concernant seacutepareacutement les eacutecoulements reacuteactifs drsquoune part et les eacutecoulements non reacuteactifs drsquoautre part

Ce poids de lrsquoINSIS cache en fait une tregraves grosse dispariteacute selon les theacutematiques plus de 90 des ressources sur les centres nationaux sont consommeacutees par la meacutecanique des fluides au sens large du terme deacutefinie ici comme reacutesolution des eacutequations de Navier-Stokes et des eacutequations associeacutees ( meacutecanique des fluides combustion eacutecoulements diphasiques transferts thermiques plasmas magneacutetohydrodynamique aeacuteroacoustique transport seacutedimentairehellip ) par un petit nombre de laboratoires ( moins drsquoune dizaine ) et de chercheurs rattacheacutes pour la plupart agrave la section 10 du Comiteacute National Les communauteacutes laquo meacutecanique des solides raquo et laquo mateacuteriaux et structures raquo bien que revendiquant une activiteacute calcul intensif sont absentes un seul projet tandis que les quelques projets interaction fluidestructure sont le fait de laboratoires nettement identifieacutes laquo meacutecanique des fluides raquo Les projets restants concernent lrsquoeacutelectromagneacutetisme lrsquointeraction lasermatiegravere et la chimie ( calculs ab-initio diagramme de phasehellip )

262 La probleacutematique des donneacutees agrave lrsquoINSIS

La probleacutematique des donneacutees agrave lrsquoINSIS est donc principalement lieacutee agrave la gestion des gros volumes de donneacutees qui sont produits dans le domaine de la simulation numeacuterique et a pour enjeux

bull La modeacutelisation de pheacutenomegravenes avec eacutevolution dans le temps ce qui implique quatre dimensions agrave traiter pour des pheacutenomegravenes spatiaux tridimensionnels ( 3D )

bull Le caractegravere aleacuteatoire de certains comportements qui neacutecessite donc une approche probabiliste La repreacutesentation fidegravele de ces pheacutenomegravenes dans toute leur variabiliteacute reacuteclame de nombreuses reacutealisations drsquoune mecircme expeacuterience ou simulation drsquoougrave la neacutecessiteacute drsquoun stockage et drsquoun traitement statistique a posteriori

bull La visualisation de pheacutenomegravenes complexes multidimensionnels passe par un rendu visuel pour une compreacutehension des pheacutenomegravenes instationnaires avec plus ou moins de reacutealisme dans le rendu spatial En revanche la simulation en temps reacuteel de pheacutenomegravenes rapides nrsquoest que tregraves rarement possible Ainsi le suivi de calculs instationnaires passe par la mise en place de techniques de visualisation agrave la voleacutee qui ne permettent qursquoune observation partielle de lrsquoinstationnariteacute

bull Lrsquoadaptation des codes aux nouveaux algorithmes lieacutes agrave lrsquoeacutevolution technologique et aux nouvelles architectures mateacuterielles notamment les acceacuteleacuterateurs de type GPU dont lrsquoutilisation requiert une adaptation des formats de repreacutesentation des donneacutees internes au calculateur afin de tirer parti de lrsquoarchitecture vectorielle du processeur

bull La creacuteation de formats drsquoenregistrement de donneacutees non seulement compatibles avec la nature de celles-ci selon les disciplines mais aussi lrsquoutilisation de formats compatibles avec des entreacutees-sorties adapteacutees agrave des transferts massifs de champs en simultaneacute par des dizaines voire des centaines de milliers de processeurs dans le cadre de systegravemes de fichiers paralleacuteliseacutes

42

Livre Blanc sur les Donneacutees au CNRS Eacutetat des Lieux et Pratiques - 2018

263 Illustration la question des donneacutees en meacutecanique des fluides

Comme mentionneacute en introduction la meacutecanique des fluides inertes et reacuteactifs repreacutesente une partie tregraves importante dans la production de donneacutees au travers drsquoune repreacutesentation majoritaire des heures de calcul sur les calculateurs nationaux au niveau Tier 1

La simulation produit ainsi des quantiteacutes importantes de donneacutees mais il en va de mecircme pour certaines expeacuteriences dans lesquelles la meacutetrologie a fait un tel progregraves qursquoelle aboutit agrave des volumes de donneacutees aussi importants que les plus grosses simulations Il srsquoagit par exemple de la technique de veacutelocimeacutetrie par imagerie de particules ( Digital Particle Image Velocimetry ou DPIV ) qui permet agrave preacutesent drsquoacqueacuterir agrave des freacutequences tregraves eacuteleveacutees des champs de vitesse reacutesolus spatialement et en temps Les expeacuteriences utilisent des cameacuteras rapides agrave haute reacutesolution et haute freacutequence qui enregistrent les donneacutees brutes directement sur des systegravemes de meacutemoires rapides ( disques de type SSD ) agrave la voleacutee Une seule expeacuterience est capable de produire en une journeacutee jusqursquoagrave 400 To de donneacutees

De mecircme les simulations numeacuteriques directes en turbulence utilisent des algorithmes pseudo-spectraux agrave mecircme de repreacutesenter toutes les eacutechelles drsquoun eacutecoulement Si la puissance actuelle des calculateurs ne permet pas encore de couvrir des gammes drsquoeacutechelles aussi larges que celles rencontreacutees dans les eacutecoulements geacuteophysiques mdash allant du centimegravetre agrave des centaines de kilomegravetres pour lrsquoatmosphegravere mdash les reacutesolutions les plus grandes possible sont rechercheacutees pour une bonne repreacutesentation des pheacutenomegravenes de transfert drsquoeacutenergie et de dispersion Des simulations utilisant des maillages de 40963 points produisent un volume drsquoenviron 15To par iteacuteration de calcul qui se comptent en milliers pour repreacutesenter correctement les fluctuations rapides temporelles Ceci deacutepasse la capaciteacute de stockage alloueacutee agrave un utilisateur sur les grands centres de calcul nationaux Cette difficulteacute impose un stockage drsquoun petit nombre de champs pour lrsquoanalyse exhaustive des indicateurs statistiques des signaux et seules des statistiques choisies en petit nombre sont calculeacutees agrave la voleacutee afin de ne pas impacter la performance du calcul

Par ailleurs les instabiliteacutes hydrodynamiques qui peuvent se produire dans des eacutecoulements complexes utilisent des meacutethodes de continuation selon de nombreux paramegravetres relatifs agrave lrsquoinstabiliteacute eacutetudieacutee Lrsquoalgorithme de suivi est efficace srsquoil utilise

une infrastructure de grille de calcul qui permet drsquoeffectuer un tregraves grand nombre de calculs de taille reacuteduite chacun pour un jeu de paramegravetres diffeacuterents Ceci se reacutealise par le biais de reacuteseaux drsquointerconnexion au travers desquels sont envoyeacutes le code et les paramegravetres sur chaque nœud de calcul qui renvoient les reacutesultats agrave lrsquoissue de la simulation Plusieurs milliers de nœuds peuvent ecirctre impliqueacutes Cette technique est notamment utiliseacutee pour la stabiliteacute drsquoeacutecoulements cisailleacutes eacutetudieacutee gracircce aux moyens du CC-IN2P3 ougrave un environnement de calcul tregraves favorable adapteacute au traitement des donneacutees des collisionneurs est mis en œuvre

Plusieurs questions se posent concernant le statut et le devenir des donneacutees produites

- Quelle est la dureacutee de vie des donneacutees Par exemple concernant leur reacutealisation au niveau technique des simulations agrave reacutesolution 10243 avaient un caractegravere exceptionnel il y a 7 ans mais peuvent ecirctre reproduites aiseacutement avec les moyens actuels Faut-il donc stocker des donneacutees au-delagrave drsquoune peacuteriode relativement courte apregraves laquelle les moyens de calcul permettront leur reproduction agrave un coucirct neacutegligeable

- De nombreuses eacutequipes produisent des bases de donneacutees importantes en quantiteacute et en qualiteacute qui sont sous-exploiteacutees mais qui peuvent ecirctre utiles agrave une eacutequipe srsquointeacuteressant agrave la dynamique du fluide sous un point de vue diffeacuterent Comment peut-on eacuteviter de dupliquer les mecircmes expeacuteriences ou simulations Et dans une logique eacutetendue comment peut-on mettre ces donneacutees agrave disposition de la communauteacute scientifique globale Quelle dureacutee drsquoembargo doit-on imposer avant diffusion geacuteneacuterale

- Quelles sont alors les modaliteacutes de stockage et drsquoeacutechange agrave adopter Ceci pose agrave la fois la question du format des fichiers mais aussi des meacutetadonneacutees agrave lui associer

- Faut-il archiver des donneacutees et pour quelle peacuteriode

Au niveau national au-delagrave des stockages temporaires deacutedieacutes agrave des projets attributaires drsquoheures de calcul sur les grands centres nationaux ou meacutesocentres il nrsquoexiste pas agrave notre connaissance drsquoinitiative globale pour la gestion des donneacutees en meacutecanique des fluides En outre sur les grands centres les politiques de reacutetention de donneacutees et les capaciteacutes des serveurs ne permettent pas le stockage sur des longues dureacutees ou le partage large des donneacutees massives

INSIS

43

Livre Blanc sur les Donneacutees au CNRS Eacutetat des Lieux et Pratiques - 2018

Au niveau europeacuteen on peut mentionner la base de donneacutees Turbase ( httpsturbasecinecait ) qui porte sur les donneacutees en turbulence Cette base utilise lrsquoinfrastructure italienne CINECA situeacutee agrave Bologne qui est un des grands centres europeacuteens participant agrave PRACE20 Des moyens ont eacuteteacute alloueacutes par EuHIT ( projet europeacuteen visant principalement agrave deacutevelopper lrsquoouverture des expeacuteriences de grande taille en turbulence mais avec aussi un volet laquo donneacutees raquo ) pour deacutevelopper Turbase

Agrave lrsquointernational on peut mentionner la base ouverte agrave lrsquouniversiteacute de Johns Hopkins ( Baltimore Etat du Maryland aux USA httpturbulencephajhuedu ) qui outre le stockage et le partage des donneacutees brutes offre une fonctionnaliteacute suppleacutementaire pour extraire une sous-partie de lrsquoinformation ou produire des statistiques associeacutees

On constate cependant lrsquoabsence de standard commun drsquoorganisation des donneacutees ( ( usage de HDF5 VTK donneacutees brutes ou compresseacuteeshellip ) ou des meacutetadonneacutees qui permettent drsquoidentifier exactement la nature et la qualiteacute des donneacutees

20 Partnership for Advanced Computing in Europe ( httpwwwprace-rieu )

264 Conclusion

Lrsquoingeacutenierie srsquoest empareacutee tregraves tocirct de lrsquooutil de simulation avec un modegravele de deacuteveloppement de meacutethodes au niveau de chaque laboratoire voire eacutequipe notamment en meacutecanique des fluides Gracircce agrave une monteacutee en compeacutetence importante due agrave lrsquoattribution de moyens aux laboratoires acadeacutemiques agrave la fois humains et mateacuteriels ce modegravele a eacuteteacute favorable au deacuteveloppement drsquoune reacuteelle expertise en simulation La gestion des donneacutees a susciteacute moins de reacuteflexion et drsquoorganisation en profondeur ce qui fait que lrsquoaugmentation des capaciteacutes de simulation mdash et agrave preacutesent des nouvelles meacutetrologies expeacuterimentales mdash nrsquoa pas eacuteteacute suivie drsquoune augmentation des capaciteacutes de stockage de traitement et drsquoarchivage des donneacutees On se trouve agrave preacutesent dans une situation dans laquelle on est en capaciteacute de reacutealiser des simulations agrave tregraves haute reacutesolution sans savoir complegravetement en traiter les reacutesultats ni ougrave les entreposer

Il srsquoagit donc agrave preacutesent de faire progresser les structures fonctionnelles et mateacuterielles pour geacuterer le patrimoine scientifique que constituent les donneacutees issues de simulations numeacuteriques mais aussi de reacutealisations expeacuterimentales qui sont confronteacutees aux mecircmes probleacutematiques

44

Livre Blanc sur les Donneacutees au CNRS Eacutetat des Lieux et Pratiques - 2018

27 INSTITUT NATIONAL DES SCIENCES MATHEMATIQUES ET DE LEURS INTERACTIONS ( INSMI )

271 Introduction

La mission de lrsquoInsmi est de deacutevelopper et de coordonner les recherches dans les diffeacuterentes branches des matheacutematiques allant des aspects fondamentaux aux applications LrsquoInsmi contribue agrave la structuration de la communauteacute matheacutematique franccedilaise et agrave son insertion dans la communauteacute internationale Elle rassemble 3600 chercheurs et enseignants-chercheurs dont plus de 400 chercheurs CNRS

Tout en soutenant les diffeacuterents domaines des matheacutematiques lrsquoInsmi cherche agrave promouvoir les recherches agrave lrsquointerface avec les autres disciplines scientifiques ainsi que les interactions avec la socieacuteteacute et le monde industriel Comme le souligne un reacutecent rapport ameacutericain ( The mathematical sciences in 2025 The National Academies Press Etats-Unis ) les possibiliteacutes drsquointeraction entre les matheacutematiques et le monde exteacuterieur sont consideacuterablement accrues drsquoune part par la geacuteneacuteralisation de simulations numeacuteriques baseacutees sur des concepts matheacutematiques et rendues possibles par des outils informatiques de plus en plus puissants drsquoautre part par lrsquoaccroissement exponentiel de donneacutees massives agrave traiter La communauteacute matheacutematique est donc fortement solliciteacutee et mobiliseacutee pour reacutepondre aux enjeux lieacutes aux traitements des donneacutees et au calcul scientifique

Comme lrsquoa souligneacute une eacutetude de lrsquoimpact socio-eacuteconomique des Matheacutematiques en France reacutealiseacutee en 2015 la contribution primordiale des matheacutematiques dans le deacuteveloppement de technologies cleacutes sera appeleacutee agrave se renforcer via la maicirctrise par les entreprises de plusieurs champs de compeacutetences strateacutegiques fondeacutes au moins partiellement sur les matheacutematiques

bull Traitement du signal et analyse drsquoimages

bull Data Mining ( statistiques analyse de donneacutees et apprentissage )

bull MSO ( Modeacutelisation - Simulation -Optimisation )

bull HPC ( High Performance Computing ou calcul haute performance )

bull Seacutecuriteacute des systegravemes drsquoinformations et Cryptographie

La maicirctrise de ces champs de compeacutetences par le tissu industriel national est vue comme essentielle pour permettre de relever les deacutefis socio-eacuteconomiques actuels et futurs speacutecifiques ou non aux secteurs drsquoactiviteacute des industries concerneacutees et rester compeacutetitif

Les matheacutematiciens se retrouvent freacutequemment confronteacutes au traitement des donneacutees lorsqursquoils travaillent sur des sujets interdisciplinaires Par exemple la simulation de modegraveles avec une reacutesolution extrecircmement fine amegravene agrave des problegravemes de gestion de grandes masses de donneacutees pouvant atteindre plusieurs To On peut notamment citer les interactions avec

bull La physique et la meacutecanique ( p ex avec les travaux sur les plasmas de tokamak )

bull Lrsquoautomatique et la robotique

bull Lrsquoinformatique notamment en ce qui concerne les recherches en imagerie traitement du signal fouille de donneacutees calcul haute performancehellip

bull Les sciences du vivant Sans ecirctre exhaustif les domaines concerneacutes par ces interactions sont la biologie cellulaire systeacutemique et du deacuteveloppement les neurosciences la geacuteneacutetique lrsquoeacutecologie la bio-informatique la meacutedecinehellip

bull Lrsquoeacuteconomie et les sciences humaines et sociales

Se posent eacutegalement les questions de paralleacuteliser les calculs de communiquer des volumes de donneacutees gigantesques entre les dizaines de milliers de processeurs drsquoun supercalculateur de compresser stocker ou exploiter les donneacuteeshellip Toutes ces questions neacutecessitent une recherche pluridisciplinaire entre ingeacutenieurs matheacutematiciens informaticiens et chercheurs de la discipline du sujet eacutetudieacute ( physiciens biologisteshellip )

Tous les domaines des matheacutematiques sont concerneacutes par les interfaces mentionneacutees preacuteceacutedemment Les plus visibles sont la statistique le calcul scientifique et haute performance les probabiliteacutes les systegravemes dynamiques les eacutequations diffeacuterentielles et aux deacuteriveacutees partielles lrsquooptimisation lrsquoimageriehellip

INSMI

45

Livre Blanc sur les Donneacutees au CNRS Eacutetat des Lieux et Pratiques - 2018

272 La probleacutematique des donneacutees agrave lrsquoINSMI

Le traitement des donneacutees a reacutecemment impacteacute la communauteacute matheacutematique Afin de reacutepondre aux probleacutematiques souleveacutees plusieurs champs de recherche se sont deacuteveloppeacutes dans diffeacuterentes branches des matheacutematiques allant de la recherche fondamentale aux applications21

Lrsquoanalyse

Mecircme si les lois de la physique matheacutematique sont deacutecrites par des eacutequations diffeacuterentielles et des eacutequations aux deacuteriveacutees partielles lrsquoanalyse matheacutematique aborde aujourdrsquohui des domaines moins structureacutes ougrave les lois sont absentes et ougrave il convient de traiter des masses de donneacutees en apparence incoheacuterentes Agrave titre drsquoexemple les problegravemes poseacutes par le changement climatique sont particuliegraverement ardus En conseacutequence une nouvelle analyse matheacutematique est neacutecessaire pour maicirctriser des domaines aussi varieacutes que le changement climatique la geacutenomique la meacutedecine computationnelle la recherche seacutecuritaire agrave lrsquointeacuterieur des donneacutees du webhellip

Les statistiques

Lrsquoeacutevolution actuelle de la discipline est fortement influenceacutee par le deacuteveloppement de lrsquoinformatique aussi bien en termes de moyens de calcul ou de capaciteacute meacutemoire des ordinateurs qursquoen termes drsquoavanceacutees dans le domaine de lrsquoalgorithmique de la theacuteorie de lrsquoinformation ou du codage Les nouvelles capaciteacutes de recueil et de stockage provoquent une veacuteritable avalanche de donneacutees dont le gigantisme rend obsolegravete lrsquoemploi des outils drsquoanalyse des donneacutees traditionnels et dont le traitement requiert de nouvelles compeacutetences pour les statisticiens Ceci est vrai dans plusieurs domaines drsquoapplications en geacutenomique tout autant qursquoen eacuteconomie ou en traitement du signal ou de lrsquoimage Dans le mecircme temps les outils de calcul de plus en plus puissants et performants stimulent lrsquoimagination car ils permettent de mettre en œuvre des strateacutegies drsquoinfeacuterence toujours plus sophistiqueacutees dont lrsquoutilisation aurait eacuteteacute impensable voire absurde au siegravecle dernier Les theacutematiques statistiques lieacutees agrave lrsquoanalyse des donneacutees de grande dimension se deacuteveloppent de faccedilon rapide au sein drsquoeacutequipes de recherche qui sont heacutebergeacutees tantocirct par des laboratoires de matheacutematiques tantocirct

21 Cf Rapport de prospective du Conseil Scientifique drsquoInstitut de lrsquoInsmi mandat 2010-2014

par des laboratoires drsquoinformatique ou les eacutequipes Inria et dont les leaders sont fort heureusement visibles dans les deux disciplines Ces dix derniegraveres anneacutees ont ainsi vu lrsquoeacutemergence drsquoune communauteacute machine learning ( ou laquo apprentissage statistique raquo ) agrave lrsquointerface entre statistique et informatique

Classer des donneacutees en grande dimension analyser des donneacutees massives et souvent heacuteteacuterogegravenes ( Big Data ) bacirctir des preacutevisions agrave partir de donneacutees fonctionnelles analyser des donneacutees structureacutees en grands reacuteseaux voici autant de deacutefis auxquels les statisticiens seront confronteacutes dans les anneacutees agrave venir

Que ce soit pour la conception lrsquoexpeacuterimentation ou lrsquoapplication des meacutethodes statistiques la reacuteflexion matheacutematique est aujourdrsquohui indissociable de la reacuteflexion sur les algorithmes permettant son expression et sa mise en application Lrsquoavenir de la discipline passe donc par le deacuteveloppement harmonieux et les eacutechanges entre les trois grandes branches drsquoactiviteacute que sont la statistique matheacutematique la statistique computationnelle et le traitement de donneacutees

La modeacutelisation et le calcul

Le calcul scientifique consiste agrave mettre en œuvre de la faccedilon la plus efficace possible les algorithmes de calcul sur ordinateur des solutions du modegravele La fameuse loi de Moore preacutedit un doublement de la capaciteacute mateacuterielle de calcul des ordinateurs tous les dix-huit mois Cette loi empirique est veacuterifieacutee depuis plus de quarante ans Si lrsquoon tient aussi compte de lrsquoameacutelioration des algorithmes matheacutematiques de calcul on observe en fait un doublement de la puissance de calcul tous les huit mois seulement Aujourdrsquohui le calcul scientifique est partout dans les teacuteleacutephones portables pour traiter des images ou des videacuteos dans les voitures pour optimiser le freinage ou encore chez les architectes qui doivent preacutevoir la soliditeacute des structures qursquoils dessinent Certains calculs neacutecessitent peu de puissance et peuvent ecirctre reacutealiseacutes sur un ordinateur personnel Mais dans de nombreux domaines de la science la reacutealisation drsquoune simulation impose lrsquousage drsquoun supercalculateur Elle est alors souvent le travail drsquoeacutequipes multidisciplinaires matheacutematiciens informaticiens speacutecialistes du domaine modeacuteliseacute Un deacutefi important attend les speacutecialistes du calcul dans les anneacutees agrave venir Pour faire face agrave la consommation eacutenergeacutetique on assiste agrave une eacutevolution de lrsquoarchitecture des superordinateurs vers des assemblages de centaines de milliers de processeurs relieacutes entre eux par des connexions de vitesses variables Cette eacutevolution neacutecessite de

46

Livre Blanc sur les Donneacutees au CNRS Eacutetat des Lieux et Pratiques - 2018

deacutevelopper de nouveaux algorithmes qui tiennent agrave la fois compte des opeacuterations agrave effectuer mais aussi des deacuteplacements des donneacutees neacutecessaires agrave ces opeacuterations

De plus les calculs peuvent geacuteneacuterer des donneacutees massives ( Big Data ) qursquoil faut ecirctre capable de stocker de compresser et drsquoanalyser En effet avec lrsquoaugmentation de la puissance de calcul les modegraveles sont reacutesolus sur des maillages drsquoune tregraves grande preacutecision Cela neacutecessite le traitement de tregraves grandes masses de donneacutees pour les preacute- et post-traitements des calculs Par exemple les entreacutees utiliseacutees pour lrsquoassimilation de donneacutees dans des modegraveles drsquooceacuteanographie et de meacuteteacuteorologie proviennent drsquoinstruments de mesure ( satellites sondeshellip ) fournissant des masses de donneacutees de plusieurs peacutetaoctets De mecircme lors des post-traitements des simulations la visualisation de donneacutees de tregraves grande taille soulegraveve de nombreuses difficulteacutes Lagrave aussi lrsquoinvention de nouveaux algorithmes est indispensable

Lrsquoimagerie

En deux deacutecennies lrsquoimagerie est devenue un domaine de recherche majeur Les applications sont multiples et la demande socieacutetale forte dans des domaines aussi varieacutes que les sciences du vivant dont les neurosciences la vision la conception assisteacutee par ordinateur la physique des ondes lrsquoastronomie lrsquoeacutelaboration de diagnostics automatiques la deacutetection de situations ou de comportements Les sciences de lrsquoimagerie posent de nouvelles questions matheacutematiques associeacutees aux problegravemes de formation drsquoacquisition de compression de transmission de modeacutelisation drsquoanalyse de traitement drsquointerpreacutetation de restauration drsquoarchivage des images

Les modes drsquoacquisition et de diffusion des images sont multiples et en constante eacutevolution ( teacuteleacutevision numeacuterique HD ou 3D p ex ) Des informations et signaux aussi varieacutes que le niveau de gris la couleur lrsquoinfrarouge proche ou thermique lrsquoimagerie agrave grande gamme dynamique ( high dynamic range ) lrsquoimagerie multispectrale lrsquoimagerie par reacutesonance magneacutetique de diffusion ( diffusion tensor image ) les signaux radarhellip forment des images pluriformes Modeacuteliser manipuler et traiter ces masses de donneacutees heacuteteacuterogegravenes et multidimensionnelles ( images videacuteos surfaces graphes ) est un enjeu scientifique et socio-eacuteconomique majeur Nombre de problegravemes en matheacutematiques de lrsquoimagerie neacutecessitent lrsquooptimisation de fonctionnelles tregraves complexes souvent non lisses parfois non convexes et toujours en tregraves grande dimension ( de

lrsquoordre de plusieurs millions de variables ) engendrant ainsi le traitement drsquoimportantes masses de donneacutees

Geacuteomeacutetrie et topologie

La gestion des donneacutees a eacutegalement impacteacute les matheacutematiques fondamentales telles que la geacuteomeacutetrie ou la topologie Gracircce aux performances accrues des moyens techniques certains problegravemes ont reacutecemment pris une ampleur diffeacuterente et profitent grandement de ces avanceacutees dans le traitement des donneacutees de tregraves grande taille Par exemple crsquoest le cas de lrsquoanalyse topologique des donneacutees En effet il srsquoagit drsquoextraire des informations geacuteomeacutetriques ( courbure ) et topologiques ( pattern ) drsquoun nuage de points dans un espace meacutetrique Lrsquoapproche consideacutereacutee repose sur les descripteurs homologiques persistants Lrsquoutilisation de nuages de points de tregraves grandes tailles en dimension eacuteleveacutee a mis en eacutevidence la pertinence de ces approches aux extensions et applications multiples systegravemes dynamiques astrophysique physique de mateacuteriaux nanomateacuteriaux

Un autre enjeu concerne les expeacuterimentations meneacutees sur des suites entiegraveres multi-indexeacutees correspondant agrave des quantiteacutes geacuteomeacutetriques associeacutees agrave certaines varieacuteteacutes ( algeacutebriques ou symplectiques ) Il srsquoagit dans un premier temps de calculer une eacutenorme quantiteacute de termes de la suite Cette importante masse de donneacutees permet alors pour les suites consideacutereacutees drsquoeacutetudier les proprieacuteteacutes remarquables de comprendre les relations entre ces nombres et drsquoextraire des relations avec drsquoautres proprieacuteteacutes geacuteomeacutetriques

273 Conclusion

Agrave lrsquoheure actuelle les chercheurs de lrsquoInsmi sont essentiellement des utilisateurs de donneacutees plutocirct que des producteurs de donneacutees mais cette tendance peut eacutevoluer tregraves rapidement Lrsquoaccessibiliteacute de donneacutees de plus en plus riches conduit les chercheurs en matheacutematiques agrave faire eacutemerger de nouvelles approches et agrave envisager des changements de paradigmes Cela ne peut ecirctre envisageable qursquoavec un accompagnement humain et mateacuteriel Cet accompagnement doit aussi permettre un accegraves agrave la formation et apporter un soutien agrave la transversaliteacute qui est un des fondements de la notion de laquo donneacutee raquo

LrsquoInsmi est un acteur essentiel dans lrsquoanalyse la modeacutelisation et lrsquointerpreacutetation des donneacutees

INSMI

47

Livre Blanc sur les Donneacutees au CNRS Eacutetat des Lieux et Pratiques - 2018

28 INSTITUT DES SCIENCES DE LrsquoUNIVERS ( INSU )

281 Introduction

LrsquoInstitut National des Sciences de lrsquoUnivers est un institut pluridisciplinaire regroupant les domaines drsquoastronomie et drsquoastrophysique de lrsquooceacutean de lrsquoatmosphegravere des sciences de la Terre des surfaces et interfaces continentales Comprendre et preacutevoir le fonctionnement et lrsquoeacutevolution de ces systegravemes dans leurs environnements est un enjeu scientifique fondamental avec de nombreuses applications socio-eacuteconomiques

Les disciplines de lrsquoINSU partagent une culture scientifique et des pratiques de recherche fondeacutees sur lrsquoobservation ( sol air mer spatial ) agrave long terme ( gt 30 ans ) des systegravemes naturels inteacutegrant un large spectre drsquoeacutechelles spatiales et temporelles et incluant une vaste palette drsquooutils drsquoanalyse in situ drsquoeacutechantillons issus des milieux naturels terrestres ou extraterrestres Ces disciplines integravegrent

bull La conception le deacuteveloppement et lrsquoopeacuteration de grands instruments et systegravemes drsquoobservation ( sol air mer spatial ) agrave lrsquoeacutechelle nationale et internationale

bull La simulation numeacuterique de lrsquoeacutevolution des systegravemes naturels permettant dans un cadre probabiliste drsquoeacutechantillonner des espaces de modegraveles complexes et de les mapper dans lrsquoespace des donneacutees ainsi que drsquoen quantifier les incertitudes et les eacuteveacutenements extrecircmes

bull Lrsquoarchivage la curation et la mise agrave disposition drsquoune grande diversiteacute de donneacutees ( observations simulations analyses ) et de modegraveles avec des standards de repreacutesentation et drsquoeacutechange de donneacutees de provenance de certification ( qualiteacute inteacutegriteacute veacuteraciteacute )

bull Le traitement et lrsquoanalyse de grands jeux de donneacutees multi-sources pour en extraire de nouvelles informations et les distiller sous des formes reacuteutilisables

bull La combinaison drsquoobservations et de simulations numeacuteriques dans un cadre probabiliste drsquoinfeacuterence et drsquoassimilation de donneacutees pour ameacuteliorer la description des modegraveles ainsi que leur capaciteacute preacutedictive

Les missions nationales drsquoobservation et de surveillance des aleacuteas naturels de lrsquoINSU srsquoappuient sur une organisation territoriale originale structureacutee autour des Observatoires des Sciences de lrsquoUnivers ( OSU ) qui deacuteploient des Services Nationaux drsquoObservation ( SNO ) A ces missions srsquoajoutent des missions programmatiques au travers de prospectives nationales pour deacutefinir une strateacutegie scientifique et drsquoobservation agrave long terme et identifier les eacutequipements nationaux et internationaux neacutecessaires agrave sa mise en œuvre

Les communauteacutes de lrsquoINSU sont inteacutegreacutees et organiseacutees aux niveaux national et international au travers de grandes missions spatiales de grands instruments et systegravemes drsquoobservation ainsi que drsquoinfrastructures distribueacutees et feacutedeacutereacutees drsquoarchivage et de distribution des donneacutees Lrsquoimportance des donneacutees a conduit les communauteacutes de lrsquoINSU agrave jouer un rocircle pionnier dans la promotion de donneacutees ouvertes partageacutees interopeacuterables et reacuteutilisables ainsi que du stewardship de ces donneacutees par les communauteacutes

Les pratiques de recherche reposent sur de larges workflows qui sont piloteacutes par les donneacutees et orchestrent leur analyse de pointe ( HDA pour High-end Data Analysis ) et calcul haute performance ( HPC pour High-Performance Computing ) Elles ont permis ces derniegraveres anneacutees des avanceacutees spectaculaires sur des problegravemes fondamentaux lieacutes agrave la compreacutehension de la formation des structures et de lrsquoeacutevolution des systegravemes Terre-Planegravetes-Univers ainsi que sur de grands enjeux socio-eacuteconomiques changements climatiques et environnementaux meacuteteacuteorologie spatiale surveillance et preacutevention des aleacuteas et risques naturels ( volcaniques sismiques ) exploration et gestion des nouvelles ressources eacutenergeacutetiques

48

Livre Blanc sur les Donneacutees au CNRS Eacutetat des Lieux et Pratiques - 2018

282 Contexte des donneacutees agrave lrsquoINSU

La probleacutematique des donneacutees agrave lrsquoINSU srsquoappuie sur un dispositif original

bull Les Observatoires des Sciences de lrsquoUnivers ( OSU )

Communs aux universiteacutes et au CNRS ils organisent reacutegionalement souvent en partenariat avec drsquoautres acteurs de la recherche ( p ex CEA CNES IFSTTAR IFREMER IPEV IRD IRSTEA Meacuteteacuteo-France ) les moyens neacutecessaires pour la reacutealisation et lrsquoopeacuteration drsquoinstruments et systegravemes drsquoobservation le traitement la curation et la mise agrave disposition de donneacutees ainsi que leur exploitation scientifique Ils feacutedegraverent des laboratoires mutualisent des ressources et des compeacutetences ( meacutethodologiques et technologiques ) et stimulent des recherches interdisciplinaires aux interfaces entre diffeacuterents domaines ( p ex astronomie sciences du climat geacuteophysique interne physique des particules eacutecologie sciences biologiques physique des mateacuteriaux santeacute ) A ces missions srsquoajoute le deacuteveloppement drsquoactions internationales

bull Les Services Nationaux drsquoObservations ( SNO )

Labeacuteliseacutes par lrsquoINSU ils sont deacuteployeacutes dans les OSU et deacuteclineacutes suivant les diffeacuterentes theacutematiques de lrsquoinstitut Ils couvrent diffeacuterents aspects des donneacutees meacutetrologie extrecircme de lrsquoespace et du temps instrumentation et opeacuteration de dispositifs drsquoobservation ( sol air mer espace ) et de sites instrumenteacutes archivage curation et distribution des donneacutees deacuteveloppement et distribution de codes et de bibliothegraveques numeacuteriques communautaires formation et diffusion des connaissances Leur peacuterimegravetre est celui sur lequel le Conseil National des Astronomes et Physiciens ( CNAP ) srsquoappuie pour eacutevaluer les missions drsquoobservation des personnels du corps des astronomes et physiciens

Les SNO sont rassembleacutes et structureacutes au sein drsquoActions Nationales pour lrsquoObservation ( ANO ) en lien avec des actions nationales et internationales du Ministegravere de lrsquoenseignement supeacuterieur de la recherche et de lrsquoinnovation ( SOERE IR TGIR ) notamment pour les infrastructures de recherche europeacuteennes ( inscrites sur la liste du forum ESFRI ) et les organisations internationales Les actions dans lesquelles lrsquoINSU est mobiliseacute reflegravetent la diversiteacute des dispositifs drsquoacquisition de donneacutees en sciences de lrsquoUnivers avec pour exemple

bull Infrastructures de Recherche

- En astronomie Centre de Donneacutees astronomiques de Strasbourg ( CDS ) contribution franccedilaise agrave lrsquoObservatoire Virtuel International en Astronomie ( IVOA ) instrumentation pour les grands teacutelescopes de lrsquoESO ( INSTRUM-ESO ) contribution franccedilaise au systegraveme de radioteacutelescope international LOw Frequency ARray ( LOFAR ) et son extension ( ENUFAR contribution au teacutelescope gamma High-Energy Stereoscopic System ( HESS en partenariat avec lrsquoIN2P3 )

- Pour les sciences de la planegravete Aerosols Clouds and Trace Gases Research Infrastructure ( ACTRIS en partenariat avec le CNES CEA IRD Meacuteteacuteo-Francehellip ) infrastructure nationale de modeacutelisation du systegraveme climatique de la Terre ( CLIMERI en partenariat avec le CEA Meacuteteacuteo-France IRD Cerfacs GENCI ) base antarctique franco-italienne ( CONCORDIA en partenariat avec IPEVhellip ) European Multidisciplinary Subsea Observatory ( EMSO en partenariat avec lrsquoIfremer ) In-service Aircraft for a Global Observing System ( IAGOS partenariat avec Meacuteteacuteo-France ) infrastructure de recherche littorale et cocirctiegravere ( ILICO en partenariat avec IFREMER IGN IRD et SHOM ) observatoire de la zone critique ( OZCAR en partenariat avec BRGM CNES IFSTTAR INRA IRD IRSTEA hellip ) reacuteseau sismologique et geacuteodeacutesique franccedilais ( RESIF partenariat avec BRGM CNES IRD IFSTTARhellip ) pocircle de donneacutees et services pour le systegraveme Terre ( en partenariat avec CNES IRD IFREMER IGN IRSTEA Meacuteteacuteo-Francehellip ) Service des Avions Franccedilais Instrumenteacutes pour la Recherche en Environnement ( SAFIRE en partenariat avec le CNES et Meacuteteacuteo-France ) les infrastructures analytiques comme la ligne FRAME de lrsquoESF et les instruments nationaux INSU qui seront coordonneacutes par le Reacuteseau Geacuteochimique et Expeacuterimental Franccedilais ( REGEF )

bull Tregraves Grandes Infrastructures de Recherche

Canada-France-Hawaiuml Teacutelescope ( CFHT ) Cherenkov Telescope Array ( CTA en partenariat IN2P3 et CEA ) Institut de radioastronomie millimeacutetrique ( IRAM ) European Gravitational Observatory ( EGO-Virgo en partenariat avec IN2P3 et INP ) reacuteseau de flotteurs profilants autonomes ( Euro-Argo ) contribution europeacuteenne au reacuteseau international Argo European Consortium for Drilling Research - Integrated Ocean Drilling Project ( ECORD-IODP ) Integrated Carbon Observation System ( ICOS ) Flotte oceacuteanographique franccedilaise ( avec Ifremer IPEV IRD )

INSU

49

Livre Blanc sur les Donneacutees au CNRS Eacutetat des Lieux et Pratiques - 2018

bull Organisations Internationales

laquo European Southern Observatory raquo ( ESO ) centre europeacuteen de preacutevision meacuteteacuteorologique-CPMMT ( ECWWF ) Intergovernmental Panel on Climate Change ( IPCC ) hellip

bull Insertion europeacuteenne

- Forum ESFRI European Research Infrastructure Consortium ( ERIC ) et clusters les infrastructures de lrsquoINSU sont pour la plupart inscrites sur la liste ESFRI soit comme projet soit comme landmark Crsquoest notamment le cas pour ACTRIS le projet ELT de lrsquoESO CTA EPOS IAGOS SKAhellip Euro-Argo EMSO ICOS et bientocirct EPOS ont le statut drsquoERIC

- Le cluster ASTERICS Astronomy ESFRI and Research Infrastructure Cluster a pour objectif la facilitation et la coordination de deacuteveloppements pour ELT SKA CTA et KM3NET tandis que le reacuteseau AENEAS est speacutecifiquement deacutedieacute au traitement des donneacutees issues du teacutelescope geacuteant Square Kilometer Array ( SKA )

Lrsquoimportance des observations spatiales dans les sciences de lrsquoUnivers se traduit par lrsquoimplication de lrsquoINSU dans de grands projets spatiaux deacutefinis et soutenus par le CNES en lien avec lrsquoAgence Spatiale Europeacuteenne ( ESA ) et drsquoautres agences internationales comme la NASA pour ( i ) la conception et le deacuteveloppement drsquoinstruments et de systegravemes drsquoacquisition embarqueacutes ( p ex satellites sondes interplaneacutetaires ballons ) ( ii ) des chaicircnes de traitement et de reacuteduction de donneacutees ( iii ) lrsquoexploitation scientifique de ces missions On peut citer par exemple ( i ) SOHO ( structure interne et atmosphegravere externe du SOLEIL vent solaire ) ( ii ) Solar Orbiter ( observation du SOLEIL ) iii ) Planck ( fond diffus cosmologique ) ( iv ) Gaia ( cartographie 3D de la Voie lacteacutee ) ( v ) RosettaPhilae ( eacutetude drsquoune comegravete et de son comportement agrave lrsquoapproche du SOLEIL ) ( vi ) CopernicusSentinel ( observation et surveillance de la Terre pour lrsquoenvironnement et la seacutecuriteacute ) ( vii ) et dans le futur Euclid ( caracteacuterisation de la nature de lrsquoeacutenergie noire ) ( viii ) Plato ( deacutetection et eacutetude de nouveaux systegravemes eacutetoiles-planegravetes ) ( ix ) InSight ( eacutetude de la structure interne de Mars )hellip

283 Probleacutematique des donneacutees agrave lrsquoINSU

Environnements de production de donneacutees

Les flux de donneacutees en sciences de lrsquoUnivers explosent Ils sont geacuteneacutereacutes aujourdrsquohui agrave la fois dans des edge-environments grands instruments et systegravemes drsquoobservation ( sol air mer espace ) ougrave les ressources ( eacutenergie communication stockage calcul ) sont rares et dans des centralised-environnements de type HPC grandes simulations numeacuteriques ougrave est concentreacute lrsquoessentiel des ressources de tregraves haute performance

Les principales caracteacuteristiques de ces flux ( continus sporadiques ) sont les volumes les vitesses ( geacuteneacuteration transmission preacutetraitement ) la varieacuteteacute ( structureacutee non-structureacutee mixte ) et la veacuteraciteacute des donneacutees

Ce double contexte creacutee aujourdrsquohui une collection de problegravemes dont le principal deacutefi est la logistique des donneacutees tout au long de leurs chaicircnes drsquoacquisition et drsquoutilisation gestion du positionnement et de lrsquoencodageagencement des donneacutees au cours du temps transmission distribution de ressources ( caching-bufferisation-stockage calcul ) et des services

Grands instruments et systegravemes drsquoobservation

Les flux agreacutegeacutes de donneacutees geacuteneacutereacutees par les dispositifs observationnels en sciences de lrsquoUnivers ont franchi aujourdrsquohui lrsquoeacutechelle de la dizaine de Poan ~30 Gojour pour les grands reacuteseaux de capteurs ( p ex RESIFEPOS ) ~ 50-100 Gojour pour les grandes missions spatiales ( p ex GAIA Euclid CopernicusSentinel ) gt 1 Tojour pour les grands teacutelescopes au sol actuels et futurs ( p ex ALMA ELThellip ) ~1 Pojour ( p ex LOFAR ) et prochainement ~100 Pojour ( p ex SKA ) nouvelle geacuteneacuteration de grands interfeacuteromegravetres dans le domaine des radio-freacutequences

La logistique des donneacutees varie en fonction des dispositifs de mesure ( sol air mer spatial in situ ) de plus en plus complexes ( multi-capteurs multi-freacutequences multi-pixels ) et de leur geacuteomeacutetrie centraliseacutee ( p ex teacutelescopes satellites ) ou distribueacutee globalement ou reacutegionalement ( reacuteseaux drsquoantennes et de capteurs ) Avec lrsquoexplosion des volumes et des vitesses des donneacutees associeacutees aux nouvelles geacuteneacuterations de grands instruments et systegravemes drsquoobservation il devient impossible de transfeacuterer et drsquoarchiver

50

Livre Blanc sur les Donneacutees au CNRS Eacutetat des Lieux et Pratiques - 2018

lrsquoensemble des donneacutees et la reacuteduction des donneacutees est devenue un enjeu critique ( particuliegraverement pour les observations spatiales ) La logistique des donneacutees implique de deacuteplacer lrsquointelligence vers la peacuteripheacuterie au plus proche de leurs sources souvent multiples afin de ( i ) preacutetraiter ( synchronisation agreacutegation combinaison ) et reacuteduire ces flux en continu au cours de leur transport au travers de reacuteseaux ( statiques ou dynamiques ) de bandes passantes heacuteteacuterogegravenes et une varieacuteteacute de edge-technologies ( cachingbufferisation calcul ) ( ii ) agreacuteger en bout de chaicircne ces flux dans des plateformes centraliseacutees de plus en plus proches des sources disposant de larges ressources ( stockage calcul communication ) afin de permettre des traitements locaux ( tels que calibration transformation extractionreconstruction ) des constructions et reacuteductions intelligentes de nouveaux objets de donneacutees ( p ex eacuteveacutenements sources imagesvisibiliteacutes faisceaux ) ainsi que leur archivage ( iii ) redistribuer de larges sous-ensembles de donneacutees vers des plateformes distribueacutees et feacutedeacutereacutees de ressources et de services pour leur exploitation scientifique par les communauteacutes

La reacuteduction et la logistique des donneacutees des tregraves grands instruments et systegravemes drsquoobservation sont deacutefinies dans le cadre drsquoorganisations internationales associant souvent au cocircteacute des partenaires eacutetrangers drsquoautres instituts du CNRS ( p ex IN2P3 ) et drsquoautres acteurs franccedilais de la recherche ( p ex CNES CEA Ifremer etc ) Un autre deacutefi ( plus proceacutedural que scientifique ou technologique ) est drsquoassurer la coheacuterence et drsquoidentifier les niveaux possibles de feacutedeacuteration et de mutualisation entre diffeacuterents projets en phase avec les applications et les pratiques de recherche des communauteacutes utilisatrices de ces donneacutees

Grandes simulations numeacuteriques

Les simulations numeacuteriques HPC sont aujourdrsquohui de grands instruments scientifiques agrave part entiegravere pour nombre de disciplines des sciences de lrsquoUnivers ( p ex climat oceacutean atmosphegravere cosmologie et astrophysique astrophysique des hautes eacutenergies geacuteophysique ) Elles permettent de deacuteduire lrsquoeacutevolution de systegravemes naturels complexes agrave partir de modegraveles multi-eacutechelles et multi-physiques souvent coupleacutes et au travers de reacutealisations drsquoensembles drsquoeacutechantillonner des espaces de modegraveles complexes et de les mapper dans lrsquoespace des donneacutees

Ces simulations geacutenegraverent des flux ( volumes vitesses ) tregraves importants de donneacutees au sein des environnements HPC centraliseacutes Les volumes de donneacutees produits ont deacutepasseacute aujourdrsquohui lrsquoeacutechelle de la dizaine de peacutetaoctets ( p ex modeacutelisation du climat cosmologie numeacuterique sismologie ) En retour ces simulations permettent la conception de grands instruments et systegravemes drsquoobservation de plus en plus complexes ainsi que de leurs chaicircnes de traitement et de reacuteduction de donneacutees via la modeacutelisation de leur fonctionnement dans les environnements drsquoacquisition

LrsquoINSU est aujourdrsquohui un des principaux utilisateurs des grands centres de calcul nationaux ( GENCI ) Pour lrsquoanneacutee 2017 les disciplines de lrsquoINSU repreacutesentaient ( hors exercice CMIP6 ) 25 des heures attribueacutees ( CT1 environnement et CT4 astrophysique-geacuteophysique ) ainsi que ~80 des ressources de stockage alloueacutees Certaines communauteacutes utilisent eacutegalement les grands centres de calcul europeacuteens ( Tiers-0 Prace ) et internationaux ( DOE-NSF aux Etats-Unis JAMSTEC au Japon )

La logistique des donneacutees au cours de ces simulations ( positionnement des donneacutees au travers de la hieacuterarchie de meacutemoire couplages entre modegraveles reacuteduction des entreacuteessorties agencement et repreacutesentation des donneacutees ) est devenue critique Lrsquoanalyse in situ des flux de donneacutees via des meacutethodes de type laquo apprentissage machine raquo et des environnements immersifs intelligents ( capteurs virtuels ) renforce les besoins drsquoune convergence entre HPC et HDA Elle doit ecirctre coupleacutee avec des systegravemes fins de provenance pour le controcircle dynamique de ces simulations le pilotage de workflows orchestrant des ensembles de simulations ainsi que pour lrsquooptimisation ( latence ) des mouvements des donneacutees la reacuteduction des entreacuteessorties et des volumes de donneacutees agrave stocker

Cette logistique est eacutegalement complexe en raison du cycle de vie des reacutesultats de ces simulations qui impliquent de les redistribuer et de les archiver avec leurs modegraveles vers la peacuteripheacuterie pour leur exploitation par les communauteacutes scientifiques agrave lrsquoeacutechelle nationale ou internationale intercomparaison de modegraveles analyse combineacutee avec les observations Un exemple type est fourni dans la communauteacute de modeacutelisation du climat ( p ex exercices de simulations CMIP Coupled Model Intercomparison Project ) Un autre exemple est fourni par la communauteacute de la cosmologie numeacuterique ( p ex consortium national DEUS Dark Energy Universe Simulation )

INSU

51

Livre Blanc sur les Donneacutees au CNRS Eacutetat des Lieux et Pratiques - 2018

Workflows et exploitation scientifique des donneacutees

Un autre aspect critique est la logistique des donneacutees tout au long de larges chaicircnes drsquoexploitation scientifique qui sont piloteacutees par les donneacutees elles-mecircmes et orchestrent des eacutetapes de calcul intensif et drsquoanalyse

Ces workflows ne sont pas des outils logiciels isoleacutes ou des codes applicatifs mais des configurations complexes et variables de logiciel de mateacuteriel et de flux de donneacutees qui traduisent des phases de processus drsquoinfeacuterence en sciences de lrsquoUnivers Lrsquoespace multidimensionnel de donneacutees que ces workflows deacutefinissent implique que chacune de ces eacutetapes doit acceacuteder manipuler et combiner de maniegravere coordonneacutee de larges volumes et une grande diversiteacute de donneacutees

Traiter et analyser de larges volumes de donneacutees ( observations simulations )

Ces workflows orchestrent typiquement des eacutetapes drsquoingestionagreacutegation de traitement et drsquoanalyse de donneacutees afin drsquoen extraire de nouvelles informations

La phase drsquoingestion implique le stockage temporaire ( p ex bufferisation caching ) de larges volumes de donneacutees multi-sources sur des dureacutees variables ( mois anneacutees ) en fonction du cycle drsquoutilisation des donneacutees ainsi que des services ( p ex indexation bases de donneacutees et de meacutetadonneacutees provenance ) et des systegravemes de documentation ( p ex donneacutees modegraveles ) Elle varie suivant la provenance des donneacutees en continu depuis la peacuteripheacuterie sur requecircte depuis des feacutedeacuterations drsquoarchives et en combinaison observations et reacutesultats de simulations

Les phases de traitement et drsquoanalyse concernent diffeacuterentes eacutetapes de complexiteacute variable le plus souvent ( i ) filtrage reacuteduction de bruit reconstruction bas niveau ( ii ) deacutetection ( p ex eacuteveacutenements transitoires anomalies ) ( iii ) segmentation ( iv ) extraction ( p ex objets caracteacuteristiques statistiques ) ( v ) classificationagreacutegation ( vi ) transformations complexes ( p ex images correacutelations croiseacutees steering functions ) Les phases drsquoanalyse mettent souvent en jeu des meacutethodes statistiques ( p ex Monte Carlo ) et drsquolaquo apprentissage machine raquo

La logistique des donneacutees et la diversiteacute de ces workflows exploitent des plateformes de services de calcul et drsquoanalyse disposant drsquoenvironnements flexibles et reacuteactifs qui feacutedegraverent et mutualisent des services ( stockage bufferisation caching calcul HTC calcul parallegravele hybride communication logiciel ) Elles assurent des flux de traitement proches des vitesses drsquoaccegraves aux donneacutees Elles supportent des modegraveles de langage et drsquoexeacutecution en streaming avec des systegravemes fins de provenance coupleacutes agrave des technologies de virtualisation ( conteneurs ) et adapteacutes au Big Data ( p ex Spark Storm ) Elles permettent eacutegalement la mutualisation et lrsquoutilisation de meacutethodes et drsquooutils logiciels de traitement adeacutequatement organiseacutes et modulables dans diffeacuterents contextes ( p ex librairies Python modules de traitements Jupyter Notebooks )

Ces plateformes sont heacutebergeacutees dans des infrastructures Tiers-2-Tiers-3 adosseacutees agrave des OSU ou des feacutedeacuterations de recherche ( p ex Observatoire de Paris OCA IPSL IPGP OSUG OMP ) souvent en lien avec des meacutesocentres reacutegionaux ( p ex IDRIS Gricad Calmip Meso-PSL ) Elles offrent des capaciteacutes de stockage de plusieurs peacutetaoctets et des puissances de calcul proches de la centaine de teacuteraflops Un exemple de feacutedeacuteration internationale est lrsquoESGF ( Earth System Grid Federation ) en modeacutelisation du climat avec le nœud national ( CICLAD-CLIMSERV-IDRIS ) de lrsquoIPSL ESGF permet de distribuer cataloguer des dizaines de peacutetaoctets de donneacutees geacuteneacutereacutees par les simulations CMIP drsquoy acceacuteder de maniegravere seacutecuriseacutee et de les analyser avec des observations multi sources

Infeacuterence et assimilation de donneacutees combinant observations et simulations

Ces workflows combinent preacutedictions ( simulations numeacuteriques ) et observations multi-sources au sein drsquoenvironnements centraliseacutes de type HPC Les approches de type infeacuterenceinversion ( p ex cosmologie et astrophysique sismologie geacuteodeacutesie gravimeacutetrie ) permettent dans un cadre probabiliste drsquoameacuteliorer la description des modegraveles de systegravemes naturels ainsi que la reconstruction de leurs eacutetats Les approches drsquoassimilation de donneacutees ( p ex climat et meacuteteacuteorologie champs magneacutetiques terrestres et planeacutetaires ) dans un cadre variationnel ou statistique permettent drsquoameacuteliorer les preacutevisions de lrsquoeacutevolution de ces modegraveles en reconstruisant un eacutetat initial aussi consistant que possible avec leur dynamique

52

Livre Blanc sur les Donneacutees au CNRS Eacutetat des Lieux et Pratiques - 2018

Infeacuterence et assimilation de donneacutees sont des workflows complexes orchestrant de multiples phases HPC ( simulation numeacuterique ) et HDA ( traitement et analyse de donneacutees ) Avec lrsquoeacutevolution rapide des capaciteacutes de calcul et des meacutethodes numeacuteriques ils exploitent aujourdrsquohui des approches probabilistes au travers drsquoensembles de simulations numeacuteriques permettant drsquoexplorer des espaces de modegraveles complexes et leurs conditions initiales ainsi que de quantifier les incertitudes directes et inverses Ils combinent souvent laquo apprentissage machine raquo optimisation stochastique theacuteorie de lrsquoinformation et transport optimal

Cette convergence entre HPC et HDA deacutefie les environnements de type HPC ( accegravescommunications stockage calcul et meacutemoire ) ainsi que leur exploitation ( c-agrave-d ordonnancement par lots ) Un aspect critique est la logistique des flux ( volumes vitesses ) de donneacutees transmis ( souvent en continu ) depuis des sources peacuteripheacuteriques et geacuteneacutereacutes au sein des environnements HPC au cours des eacutetapes de simulation et drsquoanalyse ( combinant observations et reacutesultats de simulation ) Par exemple pour chaque preacutevision meacuteteacuteorologique reacutegionale une grande diversiteacute et un grand volume de donneacutees doivent ecirctre collecteacutes depuis des sources peacuteripheacuteriques ( satellites catasondes stations au sol boueacutees observations actuelles et historiques ) et centraliseacutes ( simulations des caracteacuteristiques et des processus des modegraveles du systegraveme Terre ) Toutes ces informations sont assimileacutees dans des moteurs drsquoassimilation complexes et non-lineacuteaires pour preacutevoir des caracteacuteristiques meacuteteacuteorologiques et les distiller pour leur utilisation par diffeacuterents acteurs

Ces workflows requiegraverent les capaciteacutes haute-performance ( stockage calcul communication ) des grands centres europeacuteens et nationaux ( Tier-0 et Tier-1 ) voire reacutegionaux ( Tier-2 ) qui doivent offrir des politiques drsquoaccegraves et drsquoexploitation adapteacutees ( HPCHDA ) et ecirctre feacutedeacutereacutes avec des plateformes distribueacutees ( archivage edge-computing ) pour la transmission et le traitement en cours de transport des flux de donneacutees depuis des sources peacuteripheacuteriques

Archivage curation accegraves et geacuterance des donneacutees

Une mission importante de lrsquoINSU est de rendre publiques eacuteventuellement apregraves une courte peacuteriode drsquoexclusiviteacute les donneacutees issues des grands instruments et systegravemes drsquoobservation et des simulations numeacuteriques Cette diffusion rapide agrave lrsquoensemble de la communauteacute vise

agrave maximiser le retour scientifique drsquoinvestissements lourds Cela nrsquoa de sens que si les donneacutees peuvent ecirctre facilement deacutecouvertes acceacutedeacutees interopeacutereacutees et reacuteutiliseacutees dans une vision inteacutegreacutee des pheacutenomegravenes et des systegravemes observeacutes au cours du temps

Les missions essentielles des OSU des services nationaux drsquoobservation et des actions nationales drsquoobservation sont lrsquointeacutegrationagreacutegation la curation la documentation la publication et la diffusion de ces donneacutees ainsi que leur apporter de la valeur ajouteacutee au sein de structures deacutedieacutees qui mutualisent les expertises et les ressources neacutecessaires Cela recouvre un certain nombre drsquoactiviteacutes sur le cycle de vie des donneacutees qui va bien au-delagrave de la dureacutee de vie des instruments et systegravemes drsquoobservation

bull Le traitement et calibration des donneacutees recouvrent des chaicircnes de traitement systeacutematique et la production de donneacutees de haut niveau pour les communauteacutes

bull La curation des donneacutees recouvre lrsquoorganisation lrsquo inteacutegration lrsquoagreacutegation lrsquoannotation la documentation et le reacutefeacuterencement des donneacutees Elle integravegre des chaicircnes de controcircle et des protocoles de certification des qualiteacute inteacutegriteacute veacuteraciteacute et pertinence des donneacutees sur leur cycle de vie ainsi que des systegravemes permettant de tracer leur provenance et leurs changements

bull Lrsquoarchivage et le reacutefeacuterencement des donneacutees avec des services avanceacutes ( indexation bases de donneacutees et de meacutetadonneacutees provenance ) assurent la persistance des donneacutees et des meacutetadonneacutees sur leur cycle de vie

bull La diffusion et la publication des donneacutees reposent sur une description standardiseacutee des donneacutees ( observations reacutesultats de simulations ) et des modegraveles avec des standards de meacutetadonneacutees drsquoaccegraves et drsquoeacutechange des identificateurs agreacuteeacutes ainsi que des services avanceacutes pour en faciliter la deacutecouverte lrsquoaccegraves lrsquointeropeacuterabiliteacute et la manipulation via les observatoires virtuels les pocircles de donneacutees et leurs deacuteveloppements Ces standards sont deacutefinis au niveau des diffeacuterentes disciplines dans le cadre de structures internationales ( p ex IVOA FDSN UNAVCO GEOGEOSS ESGF )

Ces activiteacutes concernent eacutegalement agrave des degreacutes divers selon les communauteacutes ( astronomie amp astrophysique oceacutean-atmosphegraverehellip ) la mise agrave disposition le deacuteveloppement et la maintenance de codes numeacuteriques des bibliothegraveques de traitement et drsquoanalyse de reacutefeacuterence ou communautaires

INSU

53

Livre Blanc sur les Donneacutees au CNRS Eacutetat des Lieux et Pratiques - 2018

Plus reacutecemment elles concernent de nouveaux objets associeacutes agrave des identificateurs agreacuteeacutes ( projets ou publications ) qui permettent de laquo conteneuriser raquo donneacutees description des dispositifs expeacuterimentaux et chaicircnes de traitement et drsquoanalyse afin de preacuteserver lrsquoexpertise des donneacutees faciliter leur reacuteutilisation dans et en dehors du contexte de leur acquisition et permettre la reproductibiliteacute des reacutesultats scientifiques

Un nombre croissant drsquoenjeux scientifiques ( modeacutelisation du climat physique solaire et stellaire eacutetude du champ magneacutetique terrestre signatures des ondes gravitationnelles et des grands tremblements de terre surveillance des aleacuteas naturels changements environnementaux ) impliquent une compreacutehension preacutedictive drsquoun mecircme objet ou systegraveme Ces approches interdisciplinaires avec des meacutethodes de type multi-messagers requiegraverent un accegraves fluide agrave des donneacutees multi-sources issues de contextes scientifiques et de modaliteacutes observationnelles ( sol air mer spatial ) diffeacuterents ainsi que des outils translationnels pour les combiner les croiser et les syntheacutetiser au sein de chaicircnes de traitement et drsquoanalyse souvent coupleacutees agrave des simulations numeacuteriques Deacutecouvrir ces donneacutees ainsi que les ressources et services associeacutes demande une harmonisation ( agrave travers diffeacuterentes disciplines ) des modegraveles de donneacutees et une standardisation ( au sein des disciplines ) en particulier pour ( i ) les proceacutedures de controcircle de qualiteacute drsquointeacutegriteacute et de veacuteraciteacute des donneacutees ainsi que leur documentation ( ii ) les meacutetadonneacutees les systegravemes drsquoinformation et les registres

Les volumes et la diversiteacute des donneacutees ainsi que les pratiques de recherche de plus en plus interdisciplinaires ont conduit lrsquoINSU agrave reacuteorganiser les donneacutees autour de

bull Plateformes reacutegionales de ressources et de services Adosseacutees aux OSU elles feacutedegraverent et mutualisent des ressources ( stockage calcul ) des services ( bases de donneacutees et de meacutetadonneacutees web-services ) et une masse critique drsquoexpertises pour lrsquoarchivage la curation et la distribution des donneacutees Elles sont associeacutees agrave des programmes et instruments labeacuteliseacutes par lrsquoINSU et peuvent ecirctre multitheacutematiques Ces infrastructures Tier-3 souvent doteacutees drsquoune structure de pilotage heacutebergent des ressources de stockage ( de quelques centaines de teacuteraoctets agrave quelques peacutetaoctets ) et de calcul pour les phases de traitement systeacutematique et de curation Avec lrsquoaugmentation des volumes et de la diversiteacute des donneacutees ainsi que la complexiteacute

croissante des activiteacutes de traitement et de curation les besoins de stockage et de calcul croissent rapidement En synergie avec les plateformes de calcul et drsquoanalyse elles ont pour vocation de se rapprocher de Tier-2 reacutegionaux deacutesireux drsquoexplorer de nouveaux modegraveles drsquoarchitectures centreacutees sur les donneacutees de langage et drsquoexeacutecution de services et drsquoenvironnements drsquoaccegraves et drsquoutilisation

bull Pocircles theacutematiques de services et de donneacutees Ils ont pour vocation de fournir un portail unique au niveau national et des plateformes de services avanceacutes facilitant la deacutecouverte lrsquoaccegraves la combinaison et lrsquoutilisation scientifique drsquoensembles de donneacutees multi-types multi-sources issus drsquoexpeacuteriences et de dispositifs observationnels ( sol air mer spatial ) diffeacuterents Ils srsquoappuient sur les plateformes reacutegionales et les feacutedegraverent nationalement Ils sont doteacutes drsquoune structure de pilotage et drsquoutilisateurs et leur gestion associe souvent drsquoautres organismes ( p ex CNES CEA Ifremer IRD Meacuteteacuteo-France ) On peut citer ( i ) en astronomie et astrophysique les pocircles de physique des plasmas physique solaire et stellaire et de matiegravere interstellaire ( ii ) en oceacutean-atmosphegravere les pocircles Aeris et Odatis respectivement pour les donneacutees et services atmospheacuteriques et oceacuteaniques ( iii ) en sciences de la Terre le pocircle de donneacutees ForMTer ( avec RESIFEPOS ) pour les donneacutees drsquoobservation ( sol spatial ) de la terre solide ( iv ) en surfaces et interfaces continentales le pocircle Theia incluant notamment DINAMIS le dispositif de mise agrave disposition des images satellites haute deacutefinition

Un exemple phare est le centre de donneacutees de Strasbourg ( CDS ) en astronomie contribution franccedilaise agrave lrsquoIVOA ( International Virtual Observatory Alliance ) qui fournit des standards de web-services de repreacutesentation et drsquointeropeacuterabiliteacute de donneacutees et de meacutetadonneacutees avec drsquoautres standards pour le reacutefeacuterencement lrsquoaccegraves lrsquoeacutechange la provenance des donneacutees et leur publication ainsi que des outils drsquoexploration et de visualisation de ces donneacutees Le reacutesultat est que plus de 90 des donneacutees astronomiques mondiales sont accessibles et utilisables scientifiquement aujourdrsquohui avec des outils et des logiciels partageacutes internationalement et avec une tregraves forte visibiliteacute franccedilaise gracircce au CDS mais aussi agrave des projets comme VAMDC22 pour la distribution des donneacutees atomiques et moleacuteculaires

Pour les tregraves grands instruments et systegravemes drsquoobservation la strateacutegie drsquoarchivage et la politique drsquoaccegraves aux donneacutees sont deacutefinies dans le cadre

22 httpwwwvamdcorg

54

Livre Blanc sur les Donneacutees au CNRS Eacutetat des Lieux et Pratiques - 2018

des projets internationaux et des organisations internationales qui les portent Elles reposent sur des plateformes de ressources et de services distribueacutees et feacutedeacutereacutees agrave lrsquoeacutechelle internationale comme dans le cas ( i ) des grands projets spatiaux ( Euclid Gaia Planck Copernicus ) ( ii ) des tregraves grands teacutelescopes ( ESO CFHT IRAM SKA ) ( iii ) des grands systegravemes drsquoobservation ( RESIFEPOS Euro-Argo ICOS IAGOS ACTRIS OZCAR EmodNet ) ( iv ) des intercomparaisons de modegraveles coupleacutes ( CLIMERI ) en modeacutelisation du climat ( ESGF ) La vocation du pocircle de donneacutees et services pour le systegraveme Terre est notamment de faciliter lrsquoaccegraves et lrsquousage des donneacutees issues de ses diffeacuterents compartiments Ces strateacutegies srsquoappuient au niveau national sur des nœuds heacutebergeacutes geacuteneacuteralement dans de grands centres nationaux ( CC-IN2P3 IDRIS ) ou meacutesocentres reacutegionaux ( Meso-PSLObservatoire de Paris OCA IPSL IPGP GricadOSUP ) souvent en partenariat avec drsquoautres instituts du CNRS ( p ex IN2P3 ) et organismes de recherche ( CNES CEA Meacuteteacuteo France Ifremer )

283 Conclusions et eacuteleacutements de reacuteflexion

De nouvelles deacutecouvertes scientifiques en sciences de lrsquoUnivers ainsi que de grands enjeux sociaux et eacuteconomiques ( p ex changement climatique aleacuteas naturels et environnementaux ressources eacutenergeacutetiques et deacuteveloppement durable ) requiegraverent une grande diversiteacute de donneacutees dont les reacutesolutions integravegrent un tregraves large spectre drsquoeacutechelles ( temps espace freacutequence ) ainsi que des meacutethodes drsquoanalyse et de modeacutelisation pour en extraire et inteacutegrer de nouvelles informations sur la formation des structures et lrsquoeacutevolution des systegravemes Terre-planegravetes-univers ainsi que leurs eacuteveacutenements transitoires et extrecircmes

Avec les nouvelles geacuteneacuterations drsquoinstruments et de systegravemes drsquoobservation ( sol air mer spatial ) et de simulations numeacuteriques les flux de donneacutees explosent aujourdrsquohui agrave la fois dans des edge-environments globalement distribueacutes et des environnements centraliseacutes ( HPC Cloud ) Ce changement de paradigme constitue un deacutefi pour la logistique des donneacutees tout au long de workflows qui traversent la diversiteacute de ces systegravemes drsquoacquisition et un continuum de bandes passantes et de plateformes technologiques

Un enjeu concomitant commun agrave ces deux environnements est la reacuteduction laquo intelligente raquo des donneacutees en continu au cours de leur transport

La strateacutegie agrave suivre est incertaine dans un paysage national ( enseignement-recherche infrastructures ) et europeacuteen ( EOSC European Open Science Cloud ) et des technologies en pleine eacutevolution Elle tend agrave se formuler comme la co-conception drsquoun instrument scientifique piloteacutee par la logistique des donneacutees et les caracteacuteristiques des workflows qui au travers drsquoun modegravele drsquoarchitecture de type sablier ( c-agrave-d hourglass architecture ) permettrait drsquoaccommoder la grande diversiteacute de ces workflows et de leurs impleacutementations Avec lrsquoideacutee qursquoau centre de ce modegravele une interface commune ou spanning layer peut ecirctre eacutetroitement conccedilue et implanteacutee afin drsquoabstraire ces workflows et leur flux de donneacutees et les instancier ( via des technologies de virtualisation ) au travers drsquoune varieacuteteacute croissante et des configurations complexes de ressources ( stockage calcul communication ) de plateformes technologiques et drsquoenvironnements comprenant en particulier

bull Edge-infrastructures qui via une diversiteacute croissante de edge-technologies ( p ex cache buffer stockage calcul communication ) permettent de traiter agreacuteger reacuteduire les flux ( volumes vitesses ) de donneacutees geacuteneacutereacutees par les nouveaux grands instruments et systegravemes drsquoobservation de plus en plus complexes ( multi-capteurs multifreacutequences ) ainsi que de piloter leurs systegravemes drsquoacquisition ( antenne optique ) au plus proche et dans des environnements reculeacutes

bull Plateformes de services de calcul et drsquoanalyse de donneacutees qui feacutedegraverent et mutualisent des services flexibles de stockage de calcul ( HTC HPC ) de communication et de logiciel permettant des flux de traitement proches des vitesses drsquoaccegraves aux donneacutees Ces infrastructures de type edge-computing supportent des utilisateurs et des applications multiples ( p ex le service labelliseacute Terapix agrave lrsquoIAP pour lrsquoexploitation des donneacutees MegaCAM du CFHT ou encore lrsquoARC node ALMA agrave lrsquoIRAM pour la reacuteduction des donneacutees de lrsquointerfeacuteromegravetre millimeacutetrique ALMA de lrsquoESO ) dans un environnement collaboratif reacuteactif et reacutesilient qui integravegre des eacuteleacutements de HPC et HDA avec des services Cloud de traitement en flux des technologies de virtualisation ( conteneurs ) et drsquoexeacutecution adapteacutes au Big Data ( p ex Spark Storm ) Adosseacutees agrave des OSU ou feacutedeacuterations de recherche elles peuvent ecirctre feacutedeacutereacutees ( p ex ESGF )

INSU

55

Livre Blanc sur les Donneacutees au CNRS Eacutetat des Lieux et Pratiques - 2018

bull Plateformes centraliseacutees ( HPC ) qui concentrent des ressources de tregraves haute performance et par deacutefinition rares dont lrsquoutilisation est maximiseacutee pour servir des communauteacutes multiples Si lrsquooptimisation des applications en sciences de lrsquoUnivers pour lrsquoexploitation des nouvelles architectures hybrides et massivement parallegraveles demeure un enjeu important ces applications ( ensembles de simulations numeacuteriques infeacuterenceinversion assimilation de donneacutees ) ainsi que lrsquoutilisation croissante de meacutethodes type laquo apprentissage machine raquo requiegraverent une convergence toujours plus fine entre HPC et HDA avec de meilleurs support et interopeacuterabiliteacute de leurs modegraveles drsquoexploitation ( batch et streaming processing ) des technologies de virtualisation ainsi qursquoune gestion des ressources avec des systegravemes centraliseacutes intelligents piloteacutes par la provenance des flux de donneacutees permettant le controcircle de workflows complexes Lrsquoingestion drsquoeacutenormes flux de donneacutees depuis la peacuteripheacuterie reste un enjeu qui deacutefie leurs capaciteacutes

bull Plateformes drsquoarchivages curation et distribution des donneacutees Ces plateformes adosseacutees aux OSU feacutedegraverent et mutualisent les ressources services et expertises pour le stockage la curation et la mise agrave disposition drsquoune grande diversiteacute de donneacutees ( tels que eacuteveacutenements objets images seacuteries temporelles ) dont le cycle de vie en sciences de lrsquoUnivers est bien plus long que la dureacutee de vie des instruments et systegravemes drsquoobservation Les volumes et la diversiteacute de ces donneacutees impliquent des capaciteacutes croissantes de calcul pour leur traitement et leur curation

Le mouvement des donneacutees et des informations a un coucirct drsquoautant plus important que ces transferts doivent ecirctre rapides et traverser des frontiegraveres drsquoun site agrave lrsquoautre drsquoun systegraveme HPC vers des plateformes drsquoanalyse au sein drsquoun mecircme site entre nœuds drsquoun mecircme systegraveme drsquoun systegraveme de stockage agrave un autre

Un enjeu commun est lrsquoefficience eacutenergeacutetique la reacuteduction des coucircts de fonctionnement et la durabiliteacute ce qui passe entre autres par ( i ) utiliser des plateformes ( HPC calcul et analyse ) adapteacutees agrave chacune des eacutetapes de ces workflows ( ii ) eacuteviter des reacutepeacutetitions inutiles de transferts ( cachingbufferisation ) et reacuteduire leurs vitesses ( pre-fetching ) et leurs volumes ( compression ) ( iii ) reacuteduire les distances et mutualiser les environnements drsquoheacutebergement ( colocalisation des plateformes HPC et des services drsquoanalyse des plateformes drsquoarchivage et de curation de donneacutees et

des plateformes de calcul et drsquoanalyse ) ( iv ) faciliter la reacuteutilisation des calculs et des donneacutees au sein et entre domaines ( observations et reacutesultats de simulations meacutetadonneacutees catalogues )

Lrsquoorganisation territoriale de lrsquoINSU structureacutee autour des OSU et les ANO permet de reacutepondre aux points souleveacutes preacuteceacutedemment ( i ) centraliser logiquement lrsquoaccegraves et lrsquoutilisation de donneacutees via les observatoires virtuels et les pocircles de donneacutees associant plateformes de services et feacutedeacuteration de plateformes drsquoarchivage et de curation de donneacutees en liaison avec drsquoautres organismes ( CNES Ifremer Meacuteteacuteo-France CEAhellip ) ( ii ) rapprocher plateformes drsquoarchivage et de curation de donneacutees plateformes de calcul et drsquoanalyse et centres nationaux ( CC-IN2P3 IDRIS ) et meacutesocentres reacutegionaux ( Gricad Calmiphellip ) ( iii ) rapprocher plateformes HPC et services drsquoanalyse dans le cadre de GENCI ( p ex IDRIS TGCC CINES ) ( iv ) faciliter lrsquoaccegraves seacutecuriseacute le partage lrsquoexploitation de reacutesultats de simulations et drsquoobservations par une large communauteacute ( p ex CLIMERI IPGP )

Un autre aspect concerne les tregraves grands instruments et systegravemes drsquoobservation ( sol air mer spatial ) porteacutes par des projets et des organisations internationaux Dans ce cadre explorer avec drsquoautres instituts du CNRS ( p ex IN2P3 ) et organismes ( CNES CEAhellip ) les niveaux de feacutedeacuteration et de mutualisation possibles des plateformes scientifiques et drsquoarchivage en leur sein ( Euclid Gaiahellip ) et entre ces projets ( CTA SKAhellip ) est un nouvel enjeu

Une telle strateacutegie doit ecirctre en phase avec les pratiques et les applications scientifiques Elle srsquoaccompagne drsquoenjeux proceacuteduraux et humains associeacutes agrave lrsquoorganisation et la mutualisation des expertises scientifiques meacutethodologiques et technologiques neacutecessaires pour le stewardship des donneacutees et des plateformes de ressources et de services dans ce nouveau contexte Elle implique eacutegalement une eacutevolution des politiques drsquoaccegraves drsquoutilisation et drsquoexploitation des centres nationaux et reacutegionaux qui doivent offrir les services neacutecessaires agrave ces environnements data-centric

Il y a des limites agrave ce qui peut en ecirctre obtenu en sciences de lrsquoUnivers ougrave les efforts drsquoobservation sont fondamentalement globalement distribueacutes internationalement structureacutes et financeacutes par diffeacuterents projets et organisations

56

Livre Blanc sur les Donneacutees au CNRS Eacutetat des Lieux et Pratiques - 2018

Par exemple les instituts de recherche en charge de services de reacuteponse rapide de surveillance et drsquoeacutevaluation drsquoaleacuteas naturels ainsi que les grandes universiteacutes de recherche ont besoin de deacutemontrer des ressources qui leur permettent drsquoattirer des chercheurs et des ingeacutenieurs de premier plan ainsi que des contrats et des financements Il y a donc des pressions pour maintenir la visibiliteacute et une diversiteacute de ressources indeacutependantes Une strateacutegie recouvrant des ressources autonomes doit minimiser les coucircts tout en respectant ces problegravemes organisationnels et sociologiques

Pour relever ces nouveaux deacutefis le dispositif des OSU ANO et SNO ainsi que les expertises scientifiques meacutethodologiques et technologiques qursquoil feacutedegravere et mutualise constitue un atout original majeur Ces expertises de plus en plus interdisciplinaires doivent eacutevoluer en phase avec les technologies de plus en plus complexes des grands instruments et des systegravemes drsquoobservation de la logistique des donneacutees de nouvelles meacutethodes et technologies de calcul et drsquoanalyse de donneacutees Les communauteacutes de lrsquoINSU collaborent aujourdrsquohui activement agrave lrsquoeacutechelle nationale et internationale avec drsquoautres disciplines ( sciences des donneacutees matheacutematiques appliqueacutees statistiques physique des particules et physique statistique

eacutecologie biologie santeacute recherche informatique ) et avec les fournisseurs et les deacuteveloppeurs drsquoinfrastructures de communication de calcul et de donneacutees Ces collaborations sont favoriseacutees au sein du CNRS par la Mission pour lrsquoInterdisciplinariteacute et se traduisent aux niveaux national et europeacuteen par de nombreux projets ANR et H2020 Les communauteacutes de lrsquoINSU contribuent eacutegalement activement agrave des ONG en lien avec les donneacutees ( p ex RDA GEOGEOSS Belmont Forum )

En comparaison avec les pratiques internationales ( p ex aux Etats-Unis ) ougrave le deacuteveloppement de codes et de bibliothegraveques ( traitement analyse ) communautaires est structureacute sous forme de projets depuis plus drsquoune dizaine drsquoanneacutees avec un support ingeacutenieur important et speacutecialiseacute il reste des efforts importants agrave accomplir et agrave reconnaicirctre aux niveaux national et europeacuteen Un enjeu concomitant et important reste encore aujourdrsquohui une meilleure reconnaissance de ces expertises scientifiques meacutethodologiques et technologiques souvent interdisciplinaires et des nouvelles tacircches drsquoobservation au niveau des recrutements et des promotions des personnels chercheurs astronomes et physiciens du CNAP23 ingeacutenieurs et techniciens

23 httpwwwcnapobspmfr

INSU

57

Livre Blanc sur les Donneacutees au CNRS Eacutetat des Lieux et Pratiques - 2018

29 INSTITUT DES SCIENCES DE LrsquoINFORMATION ET DE LEURS INTERACTIONS ( INS2I )

Cette section a eacuteteacute reacutedigeacutee avec Mokrane Bouzeghoub DAS agrave INS2I

291 Introduction

LrsquoInstitut des Sciences de lrsquoInformation et de leurs Interactions ( INS2I ) rassemble environ 600 chercheurs CNRS sur un total de lrsquoordre de 4500 permanents dans une cinquantaine drsquouniteacutes de recherche Ses theacutematiques couvrent une partie des sections 6 ( fondements de lrsquoinformatique calculs algorithmes repreacutesentations exploitations ) et 7 ( signal image automatique robotique ) du Comiteacute National

Dans de nombreux domaines scientifiques et socio-eacuteconomiques la volumeacutetrie et la varieacuteteacute des donneacutees existantes ainsi que le coucirct et les contraintes de temps de traitement ont fait apparaicirctre de nouveaux deacutefis De multiples domaines sont concerneacutes les sciences fondamentales ( physique des hautes eacutenergies fusion sciences de la Terre et de lrsquoUnivers bio-informatique neurosciences ) les secteurs de lrsquoeacuteconomie numeacuterique ( business intelligence web e-commerce reacuteseaux sociaux e-gouvernement santeacute conception des meacutedicaments teacuteleacutecommunications et meacutedias transports terrestre et aeacuterien marcheacutes financiers ) lrsquoenvironnement ( climat risques naturels ressources eacutenergeacutetiques smart cities maison connecteacutee ) la seacutecuriteacute ( cyber-seacutecuriteacute seacutecuriteacute nationale ) ou lrsquoindustrie ( smart industry produits sur mesure chaicircne de conceptionreacutealisation des produits inteacutegreacutee de bout en bout )

Lrsquoextraction de connaissances agrave partir de grands volumes de donneacutees lrsquoapprentissage statistique lrsquoagreacutegation de donneacutees heacuteteacuterogegravenes la visualisation et la navigation dans de grands espaces de donneacutees et de connaissances sont de veacuteritables instruments numeacuteriques qui permettent agrave des meacutedecins des ingeacutenieurs des chercheurs etc drsquoobserver des pheacutenomegravenes de valider des hypothegraveses drsquoeacutelaborer de nouveaux modegraveles ou de prendre des deacutecisions en situation critique La maicirctrise de ces instruments au niveau des entreprises des collectiviteacutes ou du gouvernement devient un reacuteel enjeu de pouvoir eacuteconomique politique et socieacutetal Drsquoougrave lrsquoimportance du Big Data de lrsquoOpen Data et du Linked Data tant aux Eacutetats-Unis qursquoen Europe24

24 httpwwwnitrdgovSubcommitteebigdataaspx httpcom-monfundnihgovInnovationBrainstorm httpwwwaeranet

Internet et le Web jouent aussi un rocircle capital puisqursquoils concentrent une grande part des donneacutees et des connaissances et qursquoils concernent des centaines de millions drsquoutilisateurs

Le traitement des grands volumes de donneacutees est fortement connecteacute au calcul intensif lorsque les donneacutees sont issues de simulations de grande taille mais aussi lorsque provenant drsquoobservations ou drsquoexpeacuterimentations elles sont utiliseacutees pour la modeacutelisation de systegravemes complexes ( oceacutean meacuteteacuteo formation des galaxieshellip ) Les communications constituent elles aussi un aspect essentiel du traitement et de lrsquoacquisition des donneacutees massives Lrsquoanalyse de donneacutees massives induit des calculs intensifs souvent effectueacutes sur des infrastructures distribueacutees agrave grande eacutechelle ( clusters grilles ou cloud ) mais que lrsquoon trouve de plus en plus freacutequemment sur des plateformes du type HPC ( p ex en deep learning avec lrsquoexploitation de GPU )Le traitement des donneacutees eacutetant au cœur de la discipline il est donc tout naturel que les recherches en informatique aient investi le domaine des Big Data bien avant qursquoelles ne deviennent un enjeu et une preacuteoccupation pour les autres sciences et pour la socieacuteteacute Le stockage distribueacute et agrave grande eacutechelle lrsquooptimisation des accegraves la deacutefinition de langages de requecirctes de haut niveau la fouille de donneacutees la reacutesilience aux pannes et la protection des donneacutees sont des thegravemes de recherche reacutecurrents et reacuteguliegraverement revisiteacutes pour inteacutegrer les nouvelles technologies de stockage les nouvelles architectures de calcul et les nouveaux besoins de diversification des types de donneacutees et de passage agrave lrsquoeacutechelle des applications La fertilisation croiseacutee avec les matheacutematiques notamment en statistique en optimisation et en modeacutelisation a abouti agrave lrsquoeacutemergence des sciences de donneacutees comme un sous-domaine de recherche avec ses propres objets drsquoinvestigation La majoriteacute des uniteacutes de lrsquoINS2I ont des eacutequipes de recherche actives et visibles sur ce domaine

Les activiteacutes de recherche de INS2I autour des masses de donneacutees concernaient de lrsquoordre de 500 chercheursenseignants-chercheurs en 2012 lors du recensement effectueacute dans le Livre Blanc sur le Calcul Intensif

grantsprogramres_trainingres_grantsrgflyhtml

58

Livre Blanc sur les Donneacutees au CNRS Eacutetat des Lieux et Pratiques - 2018

292 La probleacutematique des donneacutees agrave IrsquoINS2I

Le traitement des donneacutees agrave grande eacutechelle avec des sources de donneacutees eacuteventuellement multiples distribueacuteesreacuteparties et heacuteteacuterogegravenes ( structures formats logiciels serveurshellip ) et une volumeacutetrie en donneacutees allant du teacuteraoctet au peacutetaoctet ( et agrave lrsquoExaoctet dans un futur proche ) est central agrave de multiples domaines allant du Web seacutemantique agrave la simulation numeacuterique avec des applications en biologiesanteacute sciences de lrsquounivers et ingeacutenierie etc

Les grandes tendances de la recherche en Big Data deacuteveloppeacutees agrave INS2I portent sur des meacutethodes innovantes de traitement et drsquoanalyse sur toute la chaicircne de valeur de la donneacutee collecte indexation stockage gestion exploitation valorisation accessibiliteacute et visualisation Les meacutecanismes de collecte drsquointeacutegration de donneacutees multi-sources de distribution des donneacutees et des calculs ( Spark25 MongoDB26 Hadoop27 implantation de MapReduce introduit par Google QServ systegraveme drsquointerrogation de base de donneacutees deacuteveloppeacute pour le LSST28hellip ) dans des environnements Cloud neacutecessitent le deacuteveloppement et lrsquooptimisation de nouvelles techniques ou le portage drsquoalgorithmes existants pour le traitement et lrsquoanalyse des donneacutees En particulier les travaux portent sur lrsquoextraction des connaissances des meacutetadonneacutees et des ontologies sur les bases de donneacutees NoSql ou graphes et sur la paralleacutelisation des algorithmes Le deacuteveloppement drsquoapplications verticales inteacutegreacutees accessibles sur tous supports mobiles et commercialisables deacuteployeacutees en mode SaaS par exemple sera sans doute dans lrsquoavenir un des principaux axes de valorisation Lrsquousine digitale permettant de deacuteployer des applications drsquooptimisation de la production industrielle et la transformation digitale sont drsquoautres points importants pour la recherche informatique tant dans la modeacutelisation des process industriels que dans lrsquooptimisation de ces process gracircce aux donneacutees eacutemises par des milliers de capteurs Lrsquoacceptabiliteacute des applications par les utilisateurs est un point crucial et de nombreux travaux srsquointeacuteressent aux modes drsquointeraction et aux meacutecanismes de protection de la vie priveacutee

25 httpssparkapacheorg26 httpswwwmongodbcom27 httphadoopapacheorg28 httpdmlsstorg

Les donneacutees massives sont souvent traiteacutees sur des infrastructures distribueacutees agrave grande eacutechelle ( p ex traitement des donneacutees du LHC ) Les stocker les indexer et effectuer un post-traitement pour extraire de lrsquoinformation ou en vue drsquoune aide agrave la deacutecision est la plupart du temps un challenge et neacutecessite des interactions entre les diverses communauteacutes qui produisent les donneacutees mais aussi speacutecialistes du cloudHPC de la visualisation des basesentrepocircts de donneacutees

Le High Performance Data Analytics ( HPDA ) est devenu central dans de multiples disciplines et constitue une prioriteacute dans les programmes nationaux de pays comme la Chine ougrave il repreacutesente une part importante des applications sur les supercalculateurs avec des applications en biologie meacutedecine personnaliseacutee preacutediction des catastrophes naturelles transports Le HPDA est drsquoailleurs devenu lrsquoun des moteurs importants de vente de supercalculateurs sur le marcheacute La meacutedecine personnaliseacutee par exemple induit de veacuteritables challenges en termes de volume de donneacutees agrave analyser avec des millions de patients

Les besoins en data analytics sont en train drsquoexploser renforccedilant la neacutecessiteacute de disposer de meacutethodes drsquoanalyse de donneacutees qui passent agrave lrsquoeacutechelle de chaines complegravetes de traitement et drsquooutils drsquoaide agrave la deacutecision le tout en srsquoappuyant sur des plateformes de calcul performantes du type HPC

Ce constat autour des masses de donneacutees agrave analyser et les multiples applications dans les secteurs socio-eacuteconomiques ( finance industrie santeacutehellip ) expliquent le retour au premier plan des meacutethodes drsquoIntelligence Artificielle que ce soit pour lrsquoanalyse de donneacutees ( apprentissage superviseacute ou non dont le Deep Learning classificationhellip ) la logique formelle lrsquoaide agrave la deacutecision le traitement du langage naturel et lrsquoargumentationhellip deacuteveloppeacutees dans les anneacutees 80 mais souvent trop coucircteuses qui deviennent des outils incontournables gracircce aux capaciteacutes de calcul disponibles Il nrsquoest qursquoagrave constater que les GAFAM mais aussi IBM et les marcheacutes financiers ont eacuteteacute parmi les premiers agrave reacuteafficher toute lrsquoimportance de lrsquoIA

INS2I

59

Livre Blanc sur les Donneacutees au CNRS Eacutetat des Lieux et Pratiques - 2018

Exemple de la plateforme Galactica utiliseacutee pour la cosmologie ( Prof F Toumani Universiteacute Clermont Auvergne Laboratoire LIMOS - UMR 6158 )

La plateforme Galactica ( httpsgalacticaisimafr ) mise en place en septembre 2015 dans le cadre du programme PlaSciDo de lrsquoINS2I vise le deacuteveloppement et la mise agrave disposition de services drsquoingeacutenierie et drsquoexpeacuterimentation agrave grande eacutechelle pour les chercheurs dans le domaine des grandes masses de donneacutees Galactica est un cluster composeacute de nœuds de calcul et de nœuds de stockage preacutesentant une puissance de calcul totale de 128 cœurs ( 256 vCPU ) agrave 240 GHz 38 To de RAM et une capaciteacute de stockage de 143 To reposant sur le logiciel Ceph Les nœuds du cluster sont interconnecteacutes gracircce agrave un reacuteseau agrave 10 et 40 Gos Lrsquoeacutequipement de la plateforme a beacuteneacuteficieacute drsquoun financement de lrsquoINS2I et du Contrat Plan Etat Reacutegion ( CPER ) de la reacutegion Auvergne Un objectif important de la plateforme Galactica est de mettre agrave la disposition des chercheurs en informatique une infrastructure de stockage et de calcul drsquoenvergure suffisante qui reste flexible et facile agrave configurer pour srsquoadapter aux besoins speacutecifiques des expeacuterimentations dans ce domaine Galactica offre pour cela trois niveaux de services Un premier niveau concerne lrsquoinfrastructure en tant que service deacuteployeacutee gracircce agrave la suite logicielle OpenStack qui permet agrave un chercheur de creacuteer de maniegravere aiseacutee au sein drsquoun environnement virtualiseacute les ressources informatiques ( calcul stockage reacuteseau etc ) adapteacutees agrave ses besoins Le deuxiegraveme niveau de service concerne la possibiliteacute pour un chercheur de creacuteer un cluster de traitement de donneacutees gracircce agrave lrsquoutilisation de modegraveles preacutedeacutefinis ( templates ) Les modegraveles disponibles actuellement sur la plateforme concernent les principales technologies modernes drsquoanalyse et de gestion de donneacutees massives comme par exemple Apache Hive ( httpshiveapacheorg ) Apache Hadoop ( httphadoopapacheorg ) Hortonworks Data Platform ( httpsfrhortonworkscom ) Cloudera ( httpswwwclouderacom ) et Apache Spark ( httpssparkapacheorg ) De plus gracircce au service Elastic Data Processing ( EDP ) il est possible pour un chercheur de creacuteer et drsquoexeacutecuter des jobs sur des clusters de traitement de donneacutees deacuteployeacutes au sein de la plateforme Enfin le dernier niveau de service concerne la mise agrave disposition de jeux de donneacutees soit sous forme brute par exemple les jeux de donneacutees astronomiques LSST ( 2 To et 35 To ) GAIA DR1 ( 730 Go compresseacutes httpswwwcosmosesaintwebgaiadr1 ) et SDSS DR9 ( 8 To httpwwwsdss3orgdr9 ) ou bien sous forme de laquo source de donneacutees raquo Une source de donneacutees est deacutefinie comme eacutetant une collection de donneacutees associeacutee agrave une infrastructure logicielle permettant drsquoexploiter ces donneacutees Un exemple de source de donneacutees est une machine virtuelle heacutebergeant MySQL et une base de

donneacutees MySQL contenant le catalogue associeacute au jeu de donneacutees SDSS DR9 Une source de donneacutees peut ecirctre reacutepliqueacutee facilement pour ecirctre exploiteacutee par des utilisateurs diffeacuterents dans des contextes diffeacuterents Srsquoinscrivant degraves sa creacuteation dans une dynamique de mutualisation des moyens et des compeacutetences Galactica se veut comme une plateforme ouverte aux chercheurs dans le domaine de lrsquoanalyse et de la gestion des grandes masses de donneacutees Preacutevue dans un premier temps en appui aux travaux du projet PetaSky ( httpcomisimafrPetasky ) la plateforme a eacuteteacute ouverte ensuite agrave la communauteacute de recherche en Science des Donneacutees pour accueillir actuellement 19 projets impliquant plus drsquoune soixantaine drsquoutilisateurs provenant de 12 laboratoires de recherche

Exemple de plateforme autour de la recherche drsquoinformation installeacutee agrave lrsquoInstitut de Recherche en Informatique de Toulouse ( IRIT ) OSIRIM

OSIRIM est une plateforme de stockage de forte volumeacutetrie ( 1 Po ) conccedilue pour lrsquoheacutebergement de projets scientifiques abordant les probleacutematiques lieacutees aux laquo meacutegadonneacutees raquo Cette plateforme administreacutee par lrsquoIRIT a eacuteteacute financeacutee par le gouvernement franccedilais la reacutegion Midi-Pyreacuteneacutees le Centre National de la Recherche Scientifique et le Fonds Europeacuteen de Deacuteveloppement Reacutegional dans le cadre drsquoun Contrat-Plan EtatReacutegion Elle est opeacuterationnelle depuis septembre 2013 et propose des ressources de stockage et de calcul pour la recherche sur lrsquoindexation et la recherche drsquoinformation dans des contenus multimeacutedias

La plateforme permet lrsquoheacutebergement de projets scientifiques neacutecessitant le stockage et le partage de plusieurs teacuteraoctets de donneacutees pour la reacutealisation drsquoexpeacuterimentations sur de grands volumes le partage de corpus de donneacutees issues par exemple de reacuteseaux sociaux donneacutees drsquoobservations donneacutees meacutedicales anonymiseacutees donneacutees audio ou videacuteohellip et partage drsquooutils logiciels par exemple pour lrsquoeacutevaluation de technologies Hadoop Sparkhellip OSIRIM est ouverte agrave la communauteacute informatique et autres domaines scientifiques souhaitant utiliser ses moyens mateacuteriels ou logiciels Lrsquoaccegraves agrave la plateforme srsquoeffectue directement agrave partir drsquoInternet Lrsquoheacutebergement des projets est gratuit Elle dispose drsquoun cluster Hadoop de Spark et drsquoun certain nombre drsquoautres logiciels ainsi que MongoDB en compleacutement du gestionnaire de tacircches SLURM seule offre initialement disponible sur la plateforme OSIRIM a eacutegalement eacuteteacute utiliseacutee en 2016 en soutien pour lrsquoinitiation agrave la recherche dans certaines

60

Livre Blanc sur les Donneacutees au CNRS Eacutetat des Lieux et Pratiques - 2018

formations de master toulousaines essentiellement autour de lrsquoapprentissage des technologies Hadoop En matiegravere de corpus il est agrave noter que la plateforme OSIRIM heacuteberge depuis septembre 2015 1 des tweets mondiaux ( via un flux temps reacuteel ) qursquoelle met agrave disposition des eacutequipes inteacuteresseacutees par lrsquoanalyse et lrsquoexploitation de ce corpus

Lrsquoarchitecture drsquoOSIRIM srsquoarticule autour

bull Drsquoun cluster de calcul de 640 cœurs comprenant des nœuds deacutedieacutes agrave la gestion de la plateforme agrave lrsquoheacutebergement des composants pilotant les architectures logicielles deacuteployeacutees ( gestionnaire de tacircches SLURM distribution Hadoop Spark Mongodbhellip ) ainsi que les nœuds permettant aux utilisateurs de se connecter sur la plateforme pour geacuterer leurs donneacutees et lancer lrsquoexeacutecution de leurs traitements et des nœuds deacutedieacutes aux calculs Il srsquoagit de 10 serveurs IBM X3755 M3 comprenant chacun 4 processeurs AMD Opteron 6262HE de 16 cœurs agrave 16Ghz 512 Go de RAM 2 disques de 300 Go en RAID1 et 2 liaisons agrave 10Gbs Le lancement des traitements srsquoeffectue via le gestionnaire de tacircches SLURM ( Simple Linux Utility for Resource Management ) ou par le gestionnaire de ressources Hadoop YARN

bull Drsquoune zone de stockage drsquoune capaciteacute utile drsquoenviron 1 Po Ce stockage est assureacute par une baie EMC Isilon Les donneacutees sont acceacutedeacutees en NFS et HDFS La baie est composeacutee de 12 nœuds X 400 de 36 disques SATA de 3 To chacun raccordeacutes au reacuteseau via 2 liens de 10Gbs

OSIRIM a permis cette anneacutee de reacutepondre agrave diverses demandes drsquoheacutebergement de projets tant au sein du laboratoire qursquoagrave lrsquoexteacuterieur dont

bull Grid5000 mise agrave disposition drsquoun espace de stockage de 100 To suite au raccordement drsquoOSIRIM au reacuteseau de grille de calcul Grid5000

bull Polemic avec lrsquoUAM Mexico analyse du comportement des utilisateurs dans les reacuteseaux sociaux

bull CompuBioMed avec lrsquoINSERM metamining pour la recommandation en bio-santeacute

bull Petasky avec le LIRIS techniques de partitionnement de donneacutees dans le domaine de la cosmologie

bull Musk avec lrsquouniversiteacute Paris Est ndash LISIS traitement de grands corpus textuels ( publications scientifiques tweets et actualiteacutes videacuteo )

bull SemDis avec le CLLE-ERSS creacuteation et eacutevaluation de bases distributionnelles du franccedilais

bull CAIR avec le LIRIS recherche agreacutegative de donneacutees

bull Tweet Contextualization avec lrsquouniversiteacute drsquoAvignon contextualisation de tweets autour drsquoeacuteveacutenements

Lrsquooffre logicielle proposeacutee sur la plateforme permet drsquoaccueillir depuis le deacutebut de lrsquoanneacutee 2017 de nouveaux projets dont certains neacutecessitent un heacutebergement de type cloud se traduisant par le deacuteploiement drsquoenvironnements speacutecifiques deacutedieacutes sous forme de machines virtuelles et exploitant des corpus de donneacutees heacutebergeacutes sur la plateforme OSIRIM

Enfin OSIRIM offre aussi un espace drsquoheacutebergement pour les travaux de recherche drsquoeacutequipes locales de lrsquoIRIT avec des activiteacutes lieacutees agrave

bull Lrsquoindexation de grandes masses de donneacutees heacuteteacuterogegravenes pour notamment concourir agrave des benchmarks internationaux en recherche drsquoinformation TREC29 CLEF30

bull Lrsquoeacutevaluation drsquooutils drsquoindexation de contenus musicaux indexation de grands volumes drsquoenregistrements drsquoeacutemissions de teacuteleacutevision internationales

bull Lrsquoindexation et recherche drsquoinformations dans de grandes masses de textes

bull Lrsquoanalyse de corpora textuels et ontologies

bull Le traitement complexe drsquoimages

29 Text REtrieval Conference30 Conference and Labs of the Evaluation Forum

INS2I

61

Livre Blanc sur les Donneacutees au CNRS Eacutetat des Lieux et Pratiques - 2018

293 Conclusion

La Science des Donneacutees est au cœur des pratiques de la recherche meneacutee agrave INS2I LrsquoIntelligence Artificielle quant agrave elle est revenue en force ( entre autres chez Google Microsoft IBM Amazonhellip ) avec des approches souvent deacuteveloppeacutees par les chercheurs informaticiens dans les anneacutees 80 ( mais trop coucircteuses agrave lrsquoeacutepoque ) car elle permet drsquoanalyser ces masses de donneacutees produites dans de multiples domaines et drsquoen tirer des informations eacuteventuellement pour de lrsquoaide agrave la deacutecision Dans ce domaine la France affiche un potentiel qui peut en faire lrsquoun des acteurs majeurs au niveau mondial

On peut srsquoattendre agrave des eacutevolutions rapides sur plusieurs points dont ( i ) lrsquoautomatisation des processus drsquoextraction ( meacutetadonneacutees connaissances ontologies ) et drsquointeacutegration des donneacutees et de gestion de la qualiteacute le deacuteveloppement de nouvelles meacutethodes drsquoanalyse de donneacutees multi-sources ( textes reacuteseaux sociaux audio videacuteo geacuteolocalisationhellip ) et lrsquoameacutelioration des performances ( passage agrave lrsquoeacutechelle ) ( ii ) une meilleure exploitation drsquoarchitectures adapteacutees au Big Data ( iii ) lrsquoameacutelioration de la seacutecuriteacute des infrastructures mateacuterielles et logicielles des collectes et des analyses ( iv ) lrsquooptimisation des meacutecanismes drsquoanonymisation et de cryptage garantissant la protection de la vie priveacutee ( v ) lrsquointeacutegration des donneacutees et des analyses pour la seacutecuriteacute ( cyber-seacutecuriteacute gestion de crises controcircle aux frontiegraveres ) ( vi ) lrsquointeacutegration et lrsquoexploitation des open data ( e-gouvernement santeacute impocircts )

Il reste cependant de multiples deacutefis agrave relever pour la recherche tels que

bull La maicirctrise de lrsquoheacuteteacuterogeacuteneacuteiteacute des donneacutees lors de leur inteacutegration et de leur agreacutegation en les confrontant agrave des donneacutees de reacutefeacuterences ou agrave des ontologies de domaines La deacutefinition notamment de meacutethodes de raisonnement sur des donneacutees incertaines ou incomplegravetes constitue un preacutealable fort agrave lrsquointeacutegration seacutemantique des donneacutees

bull Aller vers une theacuteorie de la deacutecision qualitative les systegravemes deacutecisionnels exploitent ces connaissances et offrent aux experts une palette drsquooutils qui ameacuteliorent non seulement leurs connaissances et leurs productiviteacutes mais leur offrent eacutegalement les meacuteta-connaissances neacutecessaires agrave une meilleure interpreacutetation des pheacutenomegravenes qursquoils observent ou surveillent De faccedilon plus geacuteneacuterale lrsquoaide agrave la deacutecision doit tenir compte autant des connaissances produites par les processus meacutetiers que des

informations qualitatives qui doivent accompagner cette connaissance Lrsquoorigine des informations la confiance en leurs producteurs leur coheacuterence leur compleacutetude leur exactitude leur fraicirccheur ainsi que la chaicircne de transformations qursquoelles ont subies sont autant drsquoeacuteleacutements indispensables agrave connaicirctre avant toute prise de deacutecision rationnelle

bull Lrsquoaide agrave la deacutecision pour les systegravemes complexes le terme Policy Analytics est utiliseacute depuis quelques anneacutees pour deacutesigner les activiteacutes drsquoexploration de tregraves grandes masses de donneacutees ( fouille extraction de connaissances ) pour la construction drsquoindicateurs syntheacutetiques et de modegraveles drsquoaide agrave la deacutecision utiliseacutes en support de pilotage de systegravemes complexes ( particuliegraverement des entreprises ou des organismes publics ) Les processus de deacutecision publique sont souvent soumis agrave drsquoimportantes exigences de leacutegitimiteacute et de sens Lrsquoaspect meacutethodologique en deacutecision est donc un problegraveme majeur ougrave la multipliciteacute des acteurs et lrsquoheacuteteacuterogeacuteneacuteiteacute seacutemantique sont des verrous agrave lever Les deacuteveloppements de systegravemes drsquoexplication ou de recommandations argumenteacutees sont des pistes agrave explorer

bull Lrsquoaide agrave la deacutecision dans un environnement ambiant ou ubiquitaire les reacuteseaux de capteurs lrsquoInternet des objets les eacutequipements mobiles produisent quantiteacute drsquoinformations correspondant agrave des releveacutes drsquoobservation ( meacuteteacuteo trafic crowdsourcing ) des donneacutees de surveillance ( santeacute ville ) des eacuteveacutenements environnementaux ( pollution tsunami ) Ces informations dites ambiantes sont pleacutethoriques heacuteteacuterogegravenes et parcellaires Elles doivent ecirctre rapprocheacutees avec des reacutefeacuterentiels pour les compleacuteter ou en deacuteterminer la seacutemantique Elles neacutecessitent souvent un traitement agrave la voleacutee pour produire des indicateurs qui serviront agrave la prise de deacutecision ou agrave la supervision agrave distance de tacircches ou de controcircle drsquoeacutequipements Ces travaux doivent tenir compte du contexte de lrsquoutilisateur de son activiteacute passeacutee de ses preacutefeacuterences et des interactions qursquoil a avec drsquoautres utilisateurs ou des communauteacutes drsquoutilisateurs

bull La preacuteservation des connaissances pour les geacuteneacuterations futures souligne lrsquoimportance de la peacuterenniteacute du stockage et le problegraveme drsquointerpreacutetation des contenus Les problegravemes souleveacutes sont agrave la fois drsquoordre technologique ( migration drsquoune technologie agrave une autre ) eacuteconomique ( coucircts de la migration et coucircts drsquoarchivage ) et seacutemantique ( eacutevolution des modegraveles de repreacutesentation de connaissances nouveaux standards de meacutetadonneacutees )

62

Livre Blanc sur les Donneacutees au CNRS Eacutetat des Lieux et Pratiques - 2018

Les sciences de lrsquoinformation irriguent et feacutecondent tout le champ scientifique gracircce agrave de nouveaux outils de modeacutelisation et de simulation de nouveaux modegraveles de calcul intensif la gestion et lrsquoanalyse de donneacutees massives le traitement du signal et de lrsquoimage la robotique les objets communicants et lrsquointeraction Lrsquoactiviteacute scientifique subit un bouleversement eacutepisteacutemologique qui conduit agrave de nouvelles formes de production de la connaissance et agrave lrsquoeacutemergence de plusieurs sous-disciplines Ainsi de nouveaux champs drsquoinvestigation sont neacutes aux interfaces des sciences de lrsquoinformation comme la bioinformatique les neurosciences computationnelles la cyber-seacutecuriteacute les humaniteacutes numeacuteriques la geacuteoinformatique lrsquoe-santeacute Lrsquoastroinformatique en est une parfaite illustration Elle integravegre lrsquoastronomie lrsquoastrophysique les statistiques lrsquoinformatique et le traitement du signal

A lrsquoimage de la bioinformatique elle est sur la voie de deacutefinir ses propres objets de recherche ses propres meacutethodes et ses propres innovations Lrsquoastrophysique a eacutemergeacute agrave la fin des anneacutees 2000 en eacutecho aux travaux de Jim Gray sur lrsquousage intensif des donneacutees en sciences Lors drsquoune confeacuterence en 2007 lrsquoinformaticien Jim Gray Prix Turing en 1998 eacutenonccedila lrsquoideacutee drsquoun nouveau paradigme de la science construit autour du traitement intensif et de lrsquoanalyse agrave grande eacutechelle des donneacutees ( data-intensive science )31 Lrsquoideacutee a depuis fait son chemin srsquoinspirant souvent du succegraves de la bioinformatique et srsquoacceacutelegravere reacutecemment sous la pression de projets drsquoenvergure comme SDSS GAIA et LSST encourageacutee aussi par les reacutecents progregraves en science des donneacutees ( requecirctes complexes apprentissage calcul distribueacute optimisation et passage agrave lrsquoeacutechelle )

31 [4] eScience -- A Transformed Scientific Method Jim Gray eScience Talk at NRC-CSTB meeting Mountain View CA 11 January 2007

INS2I

63

Livre Blanc sur les Donneacutees au CNRS Eacutetat des Lieux et Pratiques - 2018

210 INSTITUT NATIONAL DE PHYSIQUE NUCLEAIRE ET DE PHYSIQUE DES PARTICULES ( IN2P3 )

2101 Introduction

Creacuteeacute en 1971 lrsquoInstitut National de Physique Nucleacuteaire et de Physique des Particules ( IN2P3 ) du CNRS exerce les missions nationales drsquoanimation et de coordination dans les domaines de la physique nucleacuteaire de la physique des particules et des astroparticules des deacuteveloppements technologiques et des applications associeacutees Il conccediloit coordonne et anime les programmes de recherche nationaux et internationaux dans ces domaines Ses missions incluent eacutegalement la coordination de la mise en place de systegravemes drsquoinformation permettant le stockage la mise agrave disposition aupregraves de la communauteacute scientifique le traitement et la valorisation de lrsquoensemble des donneacutees scientifiques concerneacutees ainsi que leur archivage

Ces recherches ont pour but drsquoexplorer la physique des particules eacuteleacutementaires leurs interactions fondamentales ainsi que leurs assemblages en noyaux atomiques drsquoeacutetudier les proprieacuteteacutes de ces noyaux et drsquoexplorer les connexions entre lrsquoinfiniment petit et lrsquoinfiniment grand

Que ce soit avec la physique des particules aupregraves des grands acceacuteleacuterateurs la physique des astroparticules avec les expeacuteriences embarqueacutees sur satellites les teacutelescopes et autres deacutetecteurs terrestres ou encore dans une moindre mesure la physique nucleacuteaire les eacutequipes de lrsquoIN2P3 et du CEAIrfu doivent faire face agrave des masses de donneacutees consideacuterables qursquoil faut stocker distribuer et analyser Bien qursquohistoriquement lrsquoinformatique agrave lrsquoIN2P3 ait eacuteteacute fortement domineacutee par les besoins de la communauteacute de la physique des particules de nouveaux deacutefis sont apparus Des expeacuteriences de physique des astroparticules sont actuellement en cours avec des exigences qui atteindront une fraction significative de celle des expeacuteriences du Large Hadron Collider ( LHC ) au CERN dans les 5 prochaines anneacutees Un changement de paradigme est eacutegalement en cours en calcul pour la physique nucleacuteaire Compte tenu des grandes expeacuteriences agrave venir par exemple au GANIL la communauteacute veut centraliser le calcul et le stockage des donneacutees

Lrsquoensemble des expeacuteriences neacutecessite eacutegalement des modeacutelisations par technique de Monte-Carlo qui sont elles-mecircmes geacuteneacuteratrices de grandes quantiteacutes de donneacutees Lrsquoaspect donneacutees et traitement statistique est donc la caracteacuteristique principale de lrsquoinformatique pour la physique corpusculaire

Le traitement statistique global sur une multitude de jeux de donneacutees indeacutependants mdash une collision de particules correspond agrave un jeu de donneacutees mdash srsquoadapte tregraves bien agrave des architectures informatiques constitueacutees de ferme de calculateurs Drsquoune maniegravere geacuteneacuterale en dehors des calculs de chromodynamique quantique sur reacuteseau ( QCD ) la physique subatomique a tregraves peu besoin de calculateurs parallegraveles Cette caracteacuteristique lrsquoa distingueacutee de bon nombre drsquoautres disciplines scientifiques pour lesquelles le HPC est une neacutecessiteacute La principale complexiteacute du calcul pour la physique corpusculaire provient des masses de donneacutees consideacuterables qursquoil faut geacuterer et distribuer sur le reacuteseau mondial puis traiter au niveau local

Lrsquoensemble des laboratoires de lrsquoIN2P3 utilise les ressources informatiques du CC-IN2P3 ( Section 31 ) et des grilles WLCG et EGI

2102 La probleacutematique des donneacutees agrave lrsquoIN2P3

Depuis la creacuteation de lrsquoIN2P3 le plus grand deacutefi en termes de traitement de donneacutees a eacuteteacute le calcul et le stockage des donneacutees de la physique des particules issues des expeacuteriences du CERN

Dans le grand collisionneur de hadrons ( LHC ) des particules entrent en collision environ 600 millions de fois par seconde Chaque collision produit des particules qui se deacutecomposent souvent de faccedilon tregraves complexe en formant des particules plus nombreuses

64

Livre Blanc sur les Donneacutees au CNRS Eacutetat des Lieux et Pratiques - 2018

Pour chaque eacuteveacutenement qui passe par la proceacutedure de filtrage rigoureuse des deacutetecteurs du LHC il faut en moyenne simuler 1 agrave 15 eacuteveacutenement afin de pouvoir calibrer et finalement comprendre les donneacutees des expeacuteriences

Le traitement des donneacutees agrave lrsquoIN2P3 est aujourdrsquohui eacutetroitement lieacute et influenceacute par le modegravele de calcul du LHC et aligneacute sur la grille de calcul mondiale du LHC ( WLCG ) Le deacutefi consiste agrave passer au crible les 50 peacutetaoctets de donneacutees produites chaque anneacutee pour deacuteterminer si les collisions ont souleveacute une physique inteacuteressante Le WLCG est une infrastructure informatique distribueacutee organiseacutee en plusieurs niveaux ( tiers ) et offre agrave une communauteacute de plus de 8000 physiciens un accegraves en temps reacuteel aux donneacutees du LHC

Ainsi la plus grande partie de lrsquoinfrastructure de calcul drsquoIN2P3 est organiseacutee par LCG-France32 selon une structuration par Tier33 avec CC-IN2P3 eacutetant le Tier-1 franccedilais accompagneacute de 7 Tier-2 drsquoIN2P3 Cela inclut le centre Tier-2 GRIF34 ( Grille au service de la Recherche en Icircle-de-France ) avec une forte participation du CEAIrfu

Pour donner une ideacutee du deacutefi de la gestion des donneacutees en 2017 LCG-France a une capaciteacute de stockage sur disque de 17 Po au niveau Tier-1 ( crsquoest-agrave-dire agrave CC-IN2P3 ) et 14 Po au niveau Tier-2 et une capaciteacute de stockage sur bande de 40 Po au CC-IN2P3 Pour le traitement en France environ 18 000 cœurs sont reacuteserveacutes au Tier-1 et encore environ 18000 cœurs dans les centres Tier-2

32 httplcgin2p3fr33 ldquoThe Grid A system of tiersrdquo httpshomecernaboutcompu-tinggrid-system-tiers34 httpsgriffr

IN2P3

Infrastructure principale pour le calcul IN2P3

65

Livre Blanc sur les Donneacutees au CNRS Eacutetat des Lieux et Pratiques - 2018

Bien que le traitement des donneacutees pour LCG-France soit de loin le plus grand utilisateur de lrsquoinfrastructure de calcul de lrsquoIN2P3 drsquoautres communauteacutes au sein drsquoIN2P3 progressent rapidement

Par exemple en 2016 le CC-IN2P3 a fourni en moyenne 2 800 cœurs de calcul 12 To drsquoespace disque et 25 To de stockage sur bande agrave des expeacuteriences astrophysiques spatiales ( AMS-2 Planck Fermi ) Toute la communauteacute des astroparticules a utiliseacute en 2016 environ 3 Po de disque et 8 Po de bande au CC-IN2P3 Nous beacuteneacuteficions indeacuteniablement drsquoune culture et drsquoune sensibilisation aux deacutefis du traitement des donneacutees dans la communauteacute de la physique des particules et de lrsquoastrophysique Dans ce contexte les expeacuteriences du LHC filtrent leurs donneacutees autant que possible deacutejagrave au niveau du deacutetecteur De plus le nombre de copies de donneacutees est maintenu au minimum absolu neacutecessaire et les donneacutees intermeacutediaires sont effaceacutees autant que possible Dans lrsquoastrophysique spatiale le flux de donneacutees est principalement limiteacute par la largeur de bande de teacuteleacutemeacutetrie des satellites ce qui signifie qursquoun effort important est entrepris pour reacuteduire les donneacutees deacutejagrave agrave bord du satellite

Dans les anneacutees agrave venir un grand nombre de projets importants stockeront leurs donneacutees dans lrsquoinfrastructure de lrsquoIN2P3 En physique des particules lrsquoinstitut participe agrave lrsquoexpeacuterience Belle-235 de lrsquoacceacuteleacuterateur japonais SuperKEKB En physique des astroparticules agrave tregraves haute eacutenergie le Cherenkov Telescope Array ( CTA ) produira environ 8 Po de donneacutees par an dont 4 Po sont des donneacutees brutes et 2 Po sont des donneacutees simuleacutees neacutecessaires agrave lrsquoeacutetalonnage En cosmologie nous verrons le deacutemarrage de lrsquoexploitation de deux projets majeurs au deacutebut des anneacutees 2020 la mission Euclid de lrsquoESA et le Large Synoptic Survey Telescope ( LSST ) Les deux sont extrecircmement difficiles en matiegravere de quantiteacute et de qualiteacute des donneacutees Alors que pour Euclid lrsquoIN2P3 est responsable de 30 du traitement des donneacutees pour LSST nous fournirons 50 de la puissance de calcul et conserverons une archive complegravete de toutes les donneacutees LSST ( brutes et reacuteduites ) au CC-IN2P3 Les deux LSST et Euclid produiront chacun environ 100 Po de donneacutees

Dans le domaine de la physique nucleacuteaire le traitement des donneacutees a eacuteteacute jusqursquoici deacutecentraliseacute principalement au sein des groupes chargeacutes des expeacuteriences Dans le contexte de la mise en service du nouvel acceacuteleacuterateur Spiral-2 au Ganil et de lrsquoeacutevolution simultaneacutee de deacutetecteurs tels que S3 une approche plus centraliseacutee est eacutegalement neacutecessaire pour cette communauteacute

35 httpswwwbelle2org

Un groupe de travail eacutetudie les possibiliteacutes de centraliser le stockage des donneacutees et eacuteventuellement le traitement des donneacutees pour les expeacuteriences existantes et futures dans ce domaine

LrsquoIN2P3 est le principal et de loin le plus gros contributeur de France Grilles la NGI ( National Grid Infrastructure ) franccedilaise qui fait partie de lrsquoinfrastructure de reacuteseau europeacuteen ( EGI36 ) Lrsquoactiviteacute srsquoorganise autour de trois axes pour reacutealiser la strateacutegie geacuteneacuterale de France Grilles

bull Le deacuteploiement et lrsquoopeacuteration drsquoune infrastructure distribueacutee de grille et de cloud au niveau national

bull Lrsquoapplication drsquoune politique drsquoaccegraves permettant de rendre cette infrastructure disponible aux utilisateurs de toutes les disciplines

bull Lrsquointeacutegration de cette infrastructure dans EGI

France Grilles est organiseacute en un Groupement drsquoInteacuterecirct Scientifique ( GIS ) avec un grand nombre de partenaires ( CNRS MENESR CEA CPU INRA INRIA INSERM et RENATER ) et devrait jouer un rocircle de premier plan au sein de la structure laquo FR-T2 raquo actuellement en gestation et qui devrait coordonner les e-infrastructures franccedilaises de maniegravere distribueacutee et nationale

Pour permettre une utilisation efficace des donneacutees distribueacutees en plusieurs endroits ( p ex dans les diffeacuterents centres Tier en France ) France Grilles et lrsquoIN2P3 srsquoappuient notamment sur iRODS iRODS37 pour Integrated Rule-Oriented Data System est un outil de distribution de donneacutees permettant lrsquoaccegraves agrave des donneacutees se trouvant reacuteparties sur diffeacuterents sites et sur des supports heacuteteacuterogegravenes ( systegraveme de fichiers sur disques bases de donneacutees bandes magneacutetiques etc )

En outre lrsquoIN2P3 est engageacute dans le principe FAIR38pour les donneacutees Cela signifie que les donneacutees de notre recherche doivent ecirctre trouvables accessibles interopeacuterables et reacuteutilisables Dans ce contexte nous entreprenons plusieurs actions Par exemple un modegravele de plan de gestion de donneacutees commun a eacuteteacute creacuteeacute et nous avons lrsquointention drsquoen rendre obligatoire la fourniture pour tous les projets IN2P3

36 httpswwwegieu37 httpsirodsorg iRODS IN2P3 service httpsirodsin2p3fr38 par exemple Mons et al 2017

66

Livre Blanc sur les Donneacutees au CNRS Eacutetat des Lieux et Pratiques - 2018

Concernant lrsquoaspect de trouvabiliteacute des donneacutees nous recommandons lrsquoutilisation de Digital Object Identifiers39 ce qui permet drsquoeacutetablir un lien exploitable interopeacuterable et persistant vers des donneacutees par exemple dans le contexte drsquoune publication scientifique Afin drsquoassurer la reacuteutilisabiliteacute des donneacutees un projet a eacuteteacute mis en place agrave lrsquoIN2P3 en 2016 pour eacutetudier les possibiliteacutes de preacuteservation des logiciels et la valeur ajouteacutee drsquoun plan geacuteneacuteral de gestion des logiciels

Dans le contexte europeacuteen lrsquoIN2P3 suit une approche similaire agrave travers sa participation agrave des projets lieacutes agrave lrsquoEuropean Open Science Cloud ( EOSC ) LrsquoEOSC vise agrave donner aux scientifiques en Europe un accegraves transparent au calcul au stockage et aux services agrave travers les frontiegraveres et les communauteacutes Dans le cadre du projet EOSC-Pilot lrsquoIN2P3 dirige lrsquoeffort drsquointeropeacuterabiliteacute des donneacutees et des e-infrastructures crsquoest-agrave-dire que nous essayons de trouver et de proposer des solutions qui permettront agrave lrsquoEOSC drsquoatteindre ses objectifs

Lrsquoinstitut est eacutegalement impliqueacute dans deux projets europeacuteens qui eacutetudient les possibiliteacutes offertes par le cloud et les infrastructures distribueacutees Au sein drsquoHelix Nebula Science Cloud ( HNSciCloud ) nous eacutetudions une plateforme de cloud hybride rassemblant des fournisseurs de services de cloud computing des e-infrastructures financeacutees par des fonds publics et des ressources internes Et dans le projet eXtreme DataCloud ( XDC ) des systegravemes de donneacutees distribueacutees sont exploreacutes y compris des fournisseurs priveacutes et publics et eacutetudient des aspects de la gestion des donneacutees pour la physique des astroparticules et des hautes eacutenergies

2103 Conclusion

LrsquoIN2P3 a une longue histoire dans la gestion de grands flux de donneacutees ainsi que dans lrsquoorganisation et la distribution du stockage Neacuteanmoins les deacutefis agrave venir dans les 5-10 prochaines anneacutees sont importants Nous nrsquoy verrons pas seulement un grand nombre de nouveaux projets avec des volumes de donneacutees tregraves importants ( de lrsquoordre de la dizaine de peacutetaoctets par an ) entrer dans le jeu mais la deacuteferlante de donneacutees qui reacutesultera de la mise agrave niveau du LHC et de ses expeacuteriences sera encore plus significative

39 httpswwwdoiorg

En raison de lrsquointensiteacute plus eacuteleveacutee du faisceau au LHC et des deacutetecteurs ayant une reacutesolution spatiale et temporelle plus eacuteleveacutee le volume de donneacutees au LHC devrait augmenter drsquoun facteur 100 drsquoici 2025 Diffeacuterentes solutions concernant le modegravele de calcul pour le LHC sont actuellement discuteacutees Il demeure cependant eacutevident que lrsquoIN2P3 fera encore face agrave une augmentation significative des exigences de traitement des donneacutees

Pour poursuivre son approche reacuteussie de la gestion des donneacutees lrsquoinstitut poursuit plusieurs approches

bull Etudier de nouvelles approches afin drsquooptimiser les flux de donneacutees Ceci inclut lrsquoutilisation de systegravemes comme iRODS mais aussi le deacuteveloppement de nouveaux systegravemes de gestion de ressources comme DIRAC

bull Travailler sur des systegravemes de calcul en ligne qui reacuteduisent la quantiteacute de donneacutees agrave traiter en reacuteduisant les donneacutees directement sur le site drsquoexpeacuterimentation Ceci est appliqueacute par exemple dans lrsquoinfrastructure de calcul O2 pour lrsquoexpeacuterience Alice au LHC ou dans lrsquoapproche de reacuteduction de donneacutees sur site de Cherenkov Telescope Array ( CTA )

bull Continuer agrave promouvoir des systegravemes de stockage de donneacutees qui permettent lrsquoutilisation transparente de diffeacuterentes ressources

bull Coordonner lrsquoapproche pour un accegraves transparent aux donneacutees avec les initiatives au niveau franccedilais ( p ex MiCaDo COCIN FR-T2 ) et dans le contexte europeacuteen ( p ex EOSC EDI EGI EUDAT )

bull Poursuivre la centralisation de lrsquoinfrastructure informatique de lrsquoIN2P3 ce qui permet un investissement plus efficace tout en maintenant le haut niveau drsquoexpertise distribueacutee dans les laboratoires

bull Poursuivre lrsquoapproche de formation continue agrave travers des programmes de formation pour le personnel IN2P3 former la prochaine geacuteneacuteration de scientifiques de donneacutees et maintenir lrsquoIN2P3 en tant qursquoinstitut attractif pour lrsquoensemble de la communauteacute du calcul scientifique et des infrastructures associeacutees

IN2P3

67

Livre Blanc sur les Donneacutees au CNRS Eacutetat des Lieux et Pratiques - 2018

31 LE CC-IN2P3

311 Mission du CC-IN2P3

LrsquoIN2P3 srsquoappuie sur lrsquoinfrastructure de recherche Centre de Calcul de lrsquoIN2P3 ( CC-IN2P3 ) pour accomplir sa mission de mise en place de systegravemes drsquoinformation permettant le stockage la mise agrave disposition aupregraves de la communauteacute scientifique le traitement et la valorisation de lrsquoensemble des donneacutees scientifiques concerneacutees ainsi que leur archivage

Le CC-IN2P3 dispose pour cela drsquoun datacenter abritant les services informatiques neacutecessaires agrave lrsquoanalyse et agrave lrsquointerpreacutetation des processus fondamentaux de la physique subatomique Du fait de la rareteacute de ces processus ce travail requiert lrsquoanalyse statistique de millions voire de milliards drsquointeractions entre particules Cette analyse neacutecessite le transport le stockage et le traitement drsquoeacutenormes quantiteacutes de donneacutees Les analyses physiques sont meneacutees par un grand nombre de chercheurs reacutepartis dans le monde entier

Le CC-IN2P3 fournit des ressources non seulement pour la physique nucleacuteaire et la physique des particules mais aussi pour lrsquoastrophysique et les astroparticules Parmi les collaborations scientifiques majeures qui utilisent ses services on trouve le LHC40 GANILSpiral 241 LSST42 CTA43 KM3NeT44 tous figurant sur la feuille de route des TGIRIR45 ou celle de lrsquoESFRI46 Par ailleurs les technologies informatiques deacuteployeacutees pour ces besoins ont deacutemontreacute une totale adeacutequation avec les besoins drsquoautres domaines ( sciences humaines

40 Large Hadron Collider ( httphomecerntopicslarge-hadron-collider )41 Grand Acceacuteleacuterateur National drsquoIons Lourds ( httpswwwganil-spiral2eu )42 Large Synoptic Survey Telescope ( httpwwwlsstorg )43 Cherenkov Telescope Array ( httpwwwcta-observatoryorg )44 Neutrino telescopes ( httpwwwkm3netorg )45 Tregraves grandes infrastructures de recherche Infrastructures de recherche46 European Strategy Forum on Research Infrastructures ( httpseceuropaeuresearchinfrastructurespdfesfriesfri_roadmapesfri_roadmap_2016_fullpdf )

bio-informatique eacutecologiehellip ) domaines qui utilisent aujourdrsquohui modestement les services du CC-IN2P3

En premiegravere approche le calcul scientifique reacutealiseacute par les collaborations de recherche auxquelles participe lrsquoIN2P3 correspond agrave un traitement statistique global sur une multitude de jeux de donneacutees indeacutependants ( une collision de particules correspond agrave un jeu de donneacutees ) traitement qui srsquoadapte tregraves bien agrave des architectures informatiques constitueacutees de ferme de calculateurs Drsquoune maniegravere geacuteneacuterale en dehors des calculs de chromodynamique quantique sur reacuteseau ( QCD ) la physique corpusculaire a tregraves peu besoin de calculateurs parallegraveles Cette caracteacuteristique lrsquoa distingueacutee de bon nombre drsquoautres disciplines scientifiques pour lesquelles le HPC est une neacutecessiteacute

La principale complexiteacute du calcul pour la physique corpusculaire provient des masses de donneacutees consideacuterables qursquoil faut geacuterer et distribuer sur le reacuteseau mondial puis traiter au niveau local Crsquoest pourquoi le CC-IN2P3 opegravere des moyens de calcul haut deacutebit ( ou HTC pour High Throughput Computing ) en constante eacutevolution

312 Eacutequipements du CC-IN2P3 ( oct 2017 )

Ces moyens de traitement de donneacutees agrave haut deacutebit sont scheacutematiseacutes ci-contre Ils sont constitueacutes de

bull Une ferme de calcul de 16 000 cœurs physiques fonctionnant avec le gestionnaire de tacircches Univa Grid Engine

bull Un systegraveme de stockage sur disques de 15 Peacutetaoctets deacutedieacute agrave 80 aux expeacuteriences LHC Ce stockage est accessible au travers de divers logiciels ou systegravemes de fichiers

o GPFS ( IBM General Parallel File System ) fournit aux utilisateurs un espace de travail en mode

3 LES DONNEacuteES AU SEIN DES CENTRES NATIONAUX DU CNRS CC-IN2P3 ET IDRIS

68

Livre Blanc sur les Donneacutees au CNRS Eacutetat des Lieux et Pratiques - 2018

fichier flexible et accessible depuis les machines interactives ou le systegraveme de traitement par lot drsquoune capaciteacute de 2 peacutetaoctets

o AFS ( Andrew File System ) drsquoune capaciteacute de 40 teacuteraoctets permet de partager les espaces home et lrsquoessentiel des distributions de logiciels

o Le systegraveme de stockage hieacuterarchique HPSS ( High Performance Storage System ) dispose drsquoun cache sur disques permettant de geacuterer la reacutecupeacuteration et les migrations de donneacutees depuis et vers le systegraveme de stockage de masse ( cartouches magneacutetiques ) Ce systegraveme drsquoune capaciteacute de stockage actuelle totale de 340 peacutetaoctets contient agrave ce jour 59 peacutetaoctets de donneacutees scientifiques

o SRMdCache et Xrootd sont des systegravemes speacutecifiques de gestion de donneacutees deacuteveloppeacutes par la communauteacute de la physique des hautes eacutenergies et capables drsquoabsorber des charges tregraves importantes en termes drsquoentreacuteessorties Ils constituent lrsquoessentiel du stockage au CC-IN2P3

o iRods est un systegraveme de gestion de donneacutees distribueacute flexible et capable de geacuterer facilement

des meacutetadonneacutees La faciliteacute de mise en œuvre notamment pour des donneacutees distribueacutees geacuteographiquement a rendu iRods populaire et a contribueacute agrave son deacuteveloppement

bull Un ensemble de 4 silos robotiseacutes STKOracle SL8500 pour le stockage sur cartouches magneacutetiques Drsquoune capaciteacute totale de 4 times 10 000 cartouches ces silos peuvent heacuteberger jusqursquoagrave 340 peacutetaoctets avec la derniegravere technologie de lecteurs T10kD ( 85 Tocartouche )

bull Un ensemble de systegravemes de bases de donneacutees sous diverses technologies ( mySQL PostgreSQL et Oracle ) Le CC-IN2P3 a deacuteveloppeacute une expertise consideacuterable dans ce domaine et met en œuvre des architectures de clusters de bases de donneacutees particuliegraverement complexes

Lrsquoensemble des ressources informatiques est interconnecteacute sur un reacuteseau dont lrsquoeacutepine dorsale supporte une bande passante de 400 Gbs Les serveurs individuels sont connecteacutes en Ethernet agrave 1 Gbs ou 10 Gbs selon les applications Une partie du stockage exploite aussi la technologie de reacuteseau de donneacutees Fibre Channel

CENTRES NATIONAUX

69

Livre Blanc sur les Donneacutees au CNRS Eacutetat des Lieux et Pratiques - 2018

Lrsquoeacutevolution de ces ressources au cours des 6 derniegraveres anneacutees est reacutesumeacutee par les graphes suivants

313 Usages du CC-IN2P3

En 2016 lrsquousage des ressources se reacutepartit selon le graphique suivant

Bien que repreacutesentant en nombre une proportion significative de lrsquoensemble des groupes utilisant le CC-IN2P3 la part du CPU utiliseacutee par des activiteacutes de recherche ne deacutependant pas de la politique scientifique

de lrsquoIN2P3 ne repreacutesente que 2 du CPU consommeacute en 2016 ( qui srsquoeacutelegraveve agrave 17 milliard de HS06h ) et moins de 1 des capaciteacutes de stockage utiliseacutees ( qui eacutetaient de 619 Po )

70

Livre Blanc sur les Donneacutees au CNRS Eacutetat des Lieux et Pratiques - 2018

314 Preacutevisions

Depuis 2011 le CC-IN2P3 a mis en service une seconde salle machine drsquoune superficie de 850 m2 et capable agrave terme de fournir une puissance eacutelectrique de 34 MW pour le mateacuteriel informatique hors refroidissement Cette puissance vient en compleacutement des 1 MW de la premiegravere salle La conception tregraves moderne de la nouvelle salle ( pas de faux plancher organisation des serveurs en alleacutees avec confinement de la chaleur et traitement de celle-ci par la technique dite InRow double alimentation EDF redondante etc ) en fait un eacutequipement de tout premier plan capable drsquoaccueillir les moyens de calcul et de traitement des donneacutees des futures grandes expeacuteriences de physique corpusculaire

En 2017 la production de donneacutees des 4 deacutetecteurs installeacutes sur le Large Hadron Collider ( LHC ) au CERN repreacutesente un volume de 50 Peacutetaoctets par an malgreacute un filtrage eacuteliminant 99 des eacuteveacutenements observeacutes Crsquoest trois fois plus que les donneacutees produites chaque anneacutee lors de la premiegravere anneacutee drsquoexploitation Le traitement global de ces donneacutees repose sur lrsquoutilisation de la grille mondiale W-LCG composeacutee de 250 centres de calcul avec 1 Tier 0 ( au CERN ) 12 Tier 1 ( dont le CC-IN2P3 ) et plus de 200 Tier 2 Dans ce contexte lrsquoobjectif du CC-IN2P3 est de fournir 10 des ressources de calcul pour LHC Il est agrave noter que les accegraves reacuteseau du CC-IN2P3 pour lrsquoeacutechange des donneacutees de ces seules expeacuteriences repreacutesentent pregraves de 46 du trafic RENATERLe CCndashIN2P3 heacuteberge eacutegalement les donneacutees issues drsquoautres expeacuteriences HESS47 AMS48 Planck49 ANTARES50 Auger51

47 Observatoire des tregraves hautes eacutenergies ( httpswwwobspmfrhess-ii-observatoire-des-treshtml ) 48 Spectromegravetre magneacutetique alpha ( httpshomecernfraboutexperimentsams )49 Satellite drsquoobservation du fond cosmologique de la voucircte ceacuteleste ( httpsplanckcnesfr )50 Deacutetecteur sous-marin de neutrinos ( httpantaresin2p3fr ) 51 Deacutetection de rayons cosmiques de tregraves haute eacutenergie ( httpwwwin2p3frrechercheactualites19991999_augerdetecteurshtm )

VIRGO52 Supernovae53hellip qui comme celles du LHC ont chacune leur politique de gestion de donneacutees Un point commun toutefois est que les donneacutees drsquoune expeacuterience doivent pouvoir ecirctre exploiteacutees sur des dureacutees tregraves significatives avec donc des probleacutematiques de stockage peacuterenne de ces donneacutees Des processus dit de stockage intermeacutediaire sont ainsi mis en œuvre

Les besoins futurs en matiegravere de stockage de donneacutees sont agrave la hauteur de lrsquoambition des expeacuteriences qursquoheacuteberge le CC-IN2P3 En particulier les futurs deacuteveloppements du LHC ( HL-LHC ) vont provoquer une explosion du volume de donneacutees produites Parallegravelement lrsquoIN2P3 est engageacute dans les expeacuteriences majeures drsquoastroparticules et cosmologie que sont EUCLID54 LSST et CTA

La projection de ces besoins agrave lrsquoeacutecheacuteance de 2030 va ecirctre synonyme de deacuteploiement drsquoinfrastructures de dimensions tregraves significatives

A lrsquohorizon 2030 le CC-IN2P3 stockera plus de 1 200 Po de donneacutees et offrira une capaciteacute de calcul de lrsquoordre de 6 millions de HEPSpec0655 ( MHS06 )

52 Deacutetection des ondes gravitationnelles ( httpwwwvirgo-gweu )53 httpssnovaein2p3fr54 Teacutelescope spatial pour lrsquoanalyse de lrsquoeacutenergie noire ( httpwwweuclid-ecorg )55 httpswikiegieuwikiFAQ_HEP_SPEC06 1 HEPSpec06 ~= 1 GFlops

CENTRES NATIONAUX

71

Livre Blanc sur les Donneacutees au CNRS Eacutetat des Lieux et Pratiques - 2018

32 LrsquoIDRIS

321 Introduction

LrsquoIDRIS est le centre majeur du CNRS pour le calcul numeacuterique intensif de tregraves haute performance Agrave la fois centre de ressources informatiques et pocircle de compeacutetences en calcul de haute performance lrsquoIDRIS est une uniteacute propre de service du CNRS deacutependant de la Mission Calcul-Donneacutees ( MiCaDo ) du CNRS et rattacheacutee administrativement agrave lrsquoInstitut des sciences de lrsquoinformation et de leurs interactions ( INS2I ) mais dont la vocation agrave lrsquointeacuterieur du CNRS est pluridisciplinaire

Les supercalculateurs opeacutereacutes par lrsquoIDRIS proprieacuteteacute de la socieacuteteacute GENCI ( Grand Equipement National de Calcul Intensif httpwwwgencifr ) ont geacuteneacuteralement une dureacutee de vie de cinq agrave six ans Ils sont donc renouveleacutes freacutequemment avec leurs moyens de stockage associeacutes en entraicircnant agrave chaque fois des frais drsquoinstallation et parfois des frais de fonctionnement en hausse ( essentiellement dus aux consommations eacutelectriques de ces eacutequipements )

Lrsquoutilisation des ressources opeacutereacutees par lrsquoIDRIS srsquoeffectue au travers des allocations effectueacutees par GENCI soit pregraves de trois cents projets scientifiques dans tous les domaines utilisant la simulation numeacuterique dans leurs theacutematiques de recherche respectives

Suite agrave lrsquoappel drsquooffres lanceacute agrave lrsquoautomne 2011 par GENCI en partenariat avec lrsquoIDRIS deux nouveaux supercalculateurs drsquoarchitectures compleacutementaires ont eacuteteacute acquis aupregraves de la socieacuteteacute IBM en mai 2012 Lrsquoun eacutetait une machine dite massivement parallegravele de type Blue GeneQ composeacutee de quatre cabinets de chacun 16 384 cœurs pour un total de 65 536 cœurs avec 65 To de meacutemoire globale et qui deacutelivrait une puissance crecircte cumuleacutee de 839 TFlops placcedilant cette machine au 30e rang mondial en novembre 2012 Cette configuration a eacuteteacute eacutetendue en novembre 2014 par lrsquoajout de deux cabinets suppleacutementaires portant la configuration complegravete agrave 98 304 cœurs pour une capaciteacute meacutemoire totale atteignant doreacutenavant 98 To et une puissance crecircte cumuleacutee porteacutee maintenant agrave 126 PFlops ce qui a replaceacute cette machine au 42e rang mondial en novembre 2014 En novembre 2017 cette machine occupait encore le 146e rang Lrsquoautre supercalculateur est une machine dite agrave nœuds larges composeacutee de 332 nœuds de 32 cœurs pour un total de 10 624 cœurs avec 46 To de meacutemoire globale et qui

deacutelivre une puissance crecircte cumuleacutee de 230 TFlops lrsquoayant placeacute au 123e rang mondial en novembre 2012 Agrave cette configuration srsquoadjoint quatre nœuds de preacute et post-traitements de chacun 32 cœurs et 1 To de meacutemoire partageacutee ainsi qursquoun espace disques partageacute

Par ailleurs lrsquoextension des capaciteacutes de stockage a eacuteteacute reacutealiseacutee en 2014 en deux phases Drsquoune part le serveur drsquoarchives acquis en 2009 et arriveacute en fin de vie a eacuteteacute remplaceacute sur financement CNRS ce qui permettra agrave lrsquoIDRIS de faire face agrave un fort accroissement de la capaciteacute drsquoarchivage sur cartouches magneacutetiques en preacutevision de la croissance attendue de ces besoins dans les prochaines anneacutees Drsquoautre part la capaciteacute de stockage de donneacutees actives sur disques magneacutetiques agrave tregraves forte bande passante a eacuteteacute fortement accrue en 2015 avec une extension de 3 Po ( deux financeacutes par le CNRS et un par GENCI ) ajouteacutes aux 22 Po initiaux

Le remplacement de la geacuteneacuteration actuelle des supercalculateurs est maintenant preacutevu fin 2018 pour une mise en production au deacutebut de 2019 Agrave cet effet GENCI a lanceacute un appel drsquooffres en novembre 2017

LrsquoIDRIS heacuteberge en plus un certain nombre de calculateurs pour des acteurs locaux du Plateau de Saclay tel le calculateur de la Maison de la Simulation et celui du meacutesocentre CentraleSupeacutelecENS-Paris Saclay ainsi que la machine nationale de lrsquoIFB ( Institut Franccedilais de la Bioinformatique )

322 Configuration actuelle agrave lrsquoIDRIS

En janvier 2018 les moyens de calcul de GENCI heacutebergeacutes agrave lrsquoIDRIS sont constitueacutes de

bull Turing un IBM Blue GeneQ avec 98 306 cœurs PowerPC A2 agrave 16 Ghz ( soit 1644 nœuds ayant chacun 16 cœurs ) La machine est constitueacutee de 6 racks avec au total 96 Toctets de meacutemoire et une performance de crecircte de 1258 PFlops

bull Ada un IBM X3750M4 avec 10 624 cœurs SandyBridge agrave 27 Ghz ( soit 332 nœuds de 32 cœurs chacun ) La machine possegravede 49 Toctets de meacutemoire et affiche une performance de crecircte de 233 TFlops

72

Livre Blanc sur les Donneacutees au CNRS Eacutetat des Lieux et Pratiques - 2018

CENTRES NATIONAUX

Lrsquoespace disque est organiseacute en

bull Home

o Volumeacutetrie tregraves faible ( essentiellement fichiers drsquoenvironnement et sources des applications )

o Performance sans impact

o Fonctionnaliteacutes

Dureacutee de vie non limiteacutee

Soumis agrave quotas

Sauvegardeacute automatiquement ( chaque nuit )

bull Scratch

o Volumeacutetrie tregraves importante ( fonction de la puissance des calculateurs )

o Performance la plus grande possible

o Fonctionnaliteacutes

Dureacutee de vie limiteacutee agrave lrsquoexeacutecution de chaque travail ou soumis agrave des purges sur des dates drsquoancienneteacute

bull Work

o Volumeacutetrie tregraves importante ( fonction de la puissance des calculateurs )

o Performance grande

o Fonctionnaliteacutes

Dureacutee de vie non limiteacutee

Soumis agrave quotas

Pas sauvegardeacute aujourdrsquohui ( mais snapshots possibles )

73

Livre Blanc sur les Donneacutees au CNRS Eacutetat des Lieux et Pratiques - 2018

Evolution des espaces sur disques

bull De 2008 agrave 2012 12 Po agrave 6 Gos

bull Configuration acheteacutee en 2012

o 22 Po agrave 50 Gos ( deacutebit soutenu maximum )

o Compromis financier agrave lrsquoachat entre puissance de calcul et capaciteacutes de stockage

o Agrave la fois HomeScratchWork

bull A partir de 2015

o 52 Po

- Les 22 Po preacuteceacutedents

- 1 Po drsquoextension disques lieacutee agrave lrsquoextension BGQ ( 32 000 cœurs ajouteacutes en novembre 2014 )

- 2 Po extension disques

o 3 Po agrave 90 Gos

o Le scratch a eacuteteacute transfeacutereacute sur les disques de nouvelle geacuteneacuteration

o Conservation possible de versions de fichiers dans lrsquoespace Work ( snapshots )

bull Technologie GPFS drsquoIBM

bull Tous ces espaces seront redeacutefinis avec des augmentations significatives agrave la fois en volumeacutetrie et en performance pour servir la nouvelle configuration de calcul qui sera installeacutee au second semestre 2018

Au 25 aoucirct 2017 il y avait 55 millions de fichiers sur le Work 70 millions sur le Scratch et 35 millions Home + systegraveme

Les espaces sur cartouches

bull Piloteacutes par une machine drsquoarchives

o Remplaceacutee mi-2014

o Technologie TSMHSM drsquoIBM ( preacuteceacutedemment DMF de SGI )

o 11 serveurs

- 3 frontales

- 6 serveurs GPFS ( 4 pour les donneacutees 2 pour les meacutetadonneacutees )

- 2 serveurs TSMHSM ( gestion migration et robotique )

o Disques cache

- transparent pour les utilisateurs

- 2 Po agrave 24 Gos

- laquo petits raquo fichiers ( jusqursquoagrave 39 Ko ) jamais migreacutes sur cartouches

- cache pour les fichiers rechargeacutes depuis les cartouches

- purges reacuteguliegraveres en fonction de lrsquoacircge et de la taille des fichiers

o Format des donneacutees proprieacutetaire

o 4 Po migreacutes entre lrsquoancien format et le nouveau agrave lrsquoissue de 6 mois de recopies au second semestre 2014 en parallegravele avec lrsquoexploitation du nouveau serveur

bull Robot StorageTek SL8500 ( Oracle )

Il est instructif de mener un examen de lrsquoespace disque occupeacute par les diverses communauteacutes regroupeacutees en Comiteacutes theacutematiques La liste des Comiteacutes scientifiques theacutematiques nationaux est la suivante

1 Environnement

2a Eacutecoulements non reacuteactifs

2b Eacutecoulements reacuteactifs ouet multiphasiques

3 Biologie et santeacute

4 Astrophysique et geacuteophysique

5 Physique theacuteorique et physique des plasmas

6 Informatique algorithmique et matheacutematiques

7 Dynamique moleacuteculaire appliqueacutee agrave la biologie

8 Chimie quantique et modeacutelisation moleacuteculaire

9 Physique chimie et proprieacuteteacute des mateacuteriaux

10 Nouvelles applications et applications transversales du calcul

En termes de stockage sur Ada et dans une moindre mesure Turing on constate la preacutedominance des comiteacutes theacutematiques CT-1 ( Environnement hors projet CMIP6 ) CT-4 ( Astrophysique et geacuteophysique ) et CT-5 ( Physique theacuteorique et physique des plasmas ) ce qui ne reflegravete pas toujours les allocations drsquoheures de calcul par exemple sur Turing ougrave le volume drsquoheures alloueacute agrave lrsquoenvironnement est relativement faible ( 32 en 2017 )

74

Livre Blanc sur les Donneacutees au CNRS Eacutetat des Lieux et Pratiques - 2018

CENTRES NATIONAUX

75

Livre Blanc sur les Donneacutees au CNRS Eacutetat des Lieux et Pratiques - 2018

Lrsquoeacutevolution du stockage sur cartouches est en croissance reacuteguliegravere ainsi que le montre la figure ci-dessous Lrsquoessentiel du stockage sur cartouches est utiliseacute par le CT-1 avec de lrsquoordre de 80 du total ( 51 des 64 Poctets de donneacutees utilisateurs en deacutecembre 2017 )

LrsquoIDRIS est aussi impliqueacute dans la mise agrave disposition des donneacutees pour la communauteacute du climat avec le service DODS ( Distributed Oceanographic Data System ) opeacuterationnel depuis 2003 Ce serveur effectue la publication ( mondiale ) des donneacutees stockeacutees sur le serveur drsquoarchives ( potentiellement migreacutees ) avec un accegraves en lecture seule ( sauf eacutevidemment par les fournisseurs de donneacutees ) Deux espaces cohabitent sur ce serveur un espace priveacute reacuteserveacute agrave une communauteacute identifieacutee et un espace public

Il heacuteberge actuellement 25 millions de fichiers pour 407 Toctets de donneacutees stockeacutees

Depuis 2017 ce service est inteacutegreacute au sein des services du projet ESGF56 ( Earth System Grid Federation ) dans le cadre des projets CMIP57 ( Coupled Model Intercomparison Project ) pour environ 600 To fin 2017 De plus lrsquoIDRIS opeacuterera agrave partir du deacutebut de lrsquoanneacutee 2018 une archive multi-modegraveles des donneacutees les plus utiliseacutees du projet CMIP6 ( provenant drsquoenviron 50 modegraveles ) drsquoune volumeacutetrie de 4 Po afin drsquoen faciliter lrsquoexploitation et drsquooffrir un service national drsquoaccegraves agrave ces donneacutees

56 httpsesgfllnlgov57 httpswwwwcrp-climateorgwgcm-cmip

76

Livre Blanc sur les Donneacutees au CNRS Eacutetat des Lieux et Pratiques - 2018

41 INTRODUCTION

La Mission Calcul Donneacutees du CNRS (MiCaDo) soutient un certain nombre drsquoinitiatives et drsquoinfrastructures reacutegionales ou nationales au travers de lrsquoaffectation de personnels (ingeacutenieurs drsquoeacutetudes ou de recherche) dont le Centre de Calcul de lrsquoIN2P3 le Centre National de Calcul Intensif du CNRS (IDRIS) la Maison de la Simulation sur le Plateau de Saclay et les deux Uniteacutes Mixtes de Recherche CALMIP et GRICAD respectivement meacutesocentres de Toulouse et Grenoble Ces deux meacutesocentres ont des actions lieacutees agrave la fois au calcul et aux donneacutees drsquoougrave leur preacutesence dans ce Livre Blanc

42 CALMIP

Cette section a eacuteteacute eacutecrite avec Jean-Luc Estivalegravezes Directeur de lrsquoUMS CALMIP

421 Introduction

Le meacutesocentre toulousain CALMIP (CALcul en MIdi Pyreacuteneacutees) a eacuteteacute creacuteeacute en 1994 sous la forme drsquoun groupement scientifique et son premier calculateur a eacuteteacute installeacute en 1999 Depuis 2014 CALMIP est devenu une Uniteacute Mixte de Service du CNRS (UMS CNRS 3667) heacutebergeacutee actuellement agrave lrsquoEspace Cleacutement Ader dans une salle de calcul partageacutee avec le calculateur de Meacuteteacuteo-France Il beacuteneacuteficie ainsi drsquoun environnement technologique de haut niveau avec une seacutecurisation des accegraves et de lrsquoalimentation eacutelectrique et un reacuteseau de reacutecupeacuteration de chaleur

Le meacutesocentre CALMIP est ouvert agrave lrsquoensemble de la communauteacute scientifique membre de lrsquoUniversiteacute Feacutedeacuterale de Toulouse Midi-Pyreacuteneacutees ou des EPST En 2016 CALMIP a permis agrave environ 500 chercheurs dont 130 doctorants venant de 30 laboratoires de reacutealiser plus de 200 projets de recherche repreacutesentant 70 millions drsquoheures de calcul 8 grandes theacutematiques scientifiques utilisent ces moyens de calcul physico-chimie des mateacuteriaux meacutecanique des fluides sciences de lrsquoUnivers chimie quantique physique theacuteorique et moleacuteculaire bioinformatique et meacutethodes numeacuteriques

Depuis 2008 le meacutesocentre CALMIP est ouvert aux entreprises (TPE PME et ETI) pour leurs activiteacutes

innovantes et 10 des ressources du systegraveme de calcul de CALMIP sont reacuteserveacutees agrave cette activiteacuteUne eacutequipe de 6 ingeacutenieurs assure actuellement lrsquoexploitation du calculateur et le support technique et scientifique aux utilisateurs

422 Description

Les moyens de calcul sont renouveleacutes tous les 4 ans environ Le prochain renouvellement est preacutevu agrave lrsquoeacuteteacute 2018 Eos la machine actuellement en production a eacuteteacute classeacutee 183e au TOP 500 lors de sa mise en service en juin 2014 Ses caracteacuteristiques sont les suivantes

- 612 nœuds avec 2 processeurs Intel IVYBRIDGE 28 Ghz 10-cores soit un total de 12240 cœurs

- Meacutemoire 64 Go par nœud soit 39 To de RAM au total

- Puissance crecircte theacuteorique totale 274 TF

- Stockage disque 891 To de disque + 7 Po additionnels de stockage de grande capaciteacute

- Pour la partie visualisation 4 GPU (Nvidia Quadro 6000)

4 LES DONNEacuteES AU SEIN DES STRUCTURES MUTUALISEacuteES SOUTENUES PAR MICADO

STRUCTURES MUTUALISEacuteES

77

Livre Blanc sur les Donneacutees au CNRS Eacutetat des Lieux et Pratiques - 2018

CALMIP a installeacute en 2016 une infrastructure de stockage appeleacutee ATLAS pour reacutepondre agrave la convergence des besoins en calcul intensif et en traitement massif de donneacutees Un poste IR CNRS a eacuteteacute afficheacute en soutien agrave cette infrastructure Elle se compose

bull Drsquoun espace de stockage de 3 Po utiles sur systegraveme de fichiers parallegravele GPFS sur lequel les utilisateurs vont pouvoir deacuteposer agrave la fois les donneacutees de simulation produites par le supercalculateur Eacuteos mais aussi le cas eacutecheacuteant les donneacutees drsquoentreacutee neacutecessaires agrave ces simulations (fonctionnaliteacute de type workdir)

bull Drsquoun espace de stockage objet drsquoun volume utile de 4 Po ayant pour principale fonction de seacutecuriser lrsquoespace de stockage preacuteceacutedent

Le prochain renouvellement est preacutevu agrave lrsquoeacuteteacute 2018 Dans le cadre du projet CADAMIP (CPER 2015-2020 financement Etat Reacutegion Occitanie Toulouse Meacutetropole IDEX) CALMIP a choisi son nouveau supercalculateur pour la peacuteriode 2018-2022 Ce nouveau systegraveme de calcul Atos-BULL baptiseacute OLYMPE propose une puissance de 1365 Peacutetaflops

bull Un supercalculateur massivement parallegravele formeacute de 13 464 cores Intel(r) SKYLAKE 6140 interconnecteacutes via un reacuteseau Infiniband EDR (100 Gbs) dont la puissance de calcul et de traitement est 5 fois supeacuterieure agrave celle du supercalculateur actuel EOS pour la mecircme enveloppe eacutenergeacutetique

bull Un espace disque de travail drsquoune capaciteacute de 15 Po dont les performances (40 Gos) sont multiplieacutees par 4 par rapport agrave EOS afin de reacutepondre aux besoins lieacutes au traitement massif de donneacutees drsquoentreacutee et de sortie Cet espace est relieacute aux nœuds de calcul du supercalculateur

bull 2 nœuds de calcul SMP de 15 To de meacutemoire vive inteacutegreacutes au supercalculateur

bull Une connexion au systegraveme de stockage capacitif et seacutecuriseacute ATLAS afin drsquooffrir aux porteurs de projets un espace permettant de seacutecuriser leurs donneacutees sur la continuiteacute

bull Une partition GPU significative associeacutee au supercalculateur en vue drsquoapplications sur le traitement massif de la donneacutee

La mise en production est preacutevue pour septembre 2018

43 GRICAD

Cette section a eacuteteacute eacutecrite avec Violaine Louvet Directrice de lrsquoUMS GRICAD

431 Contexte

La rationalisation des infrastructures (immobiliegraveres et plateformes) pour reacuteduire les coucircts augmenter le niveau de service et gagner en fiabiliteacute et seacutecuriteacute dans une deacutemarche de deacuteveloppement durable et soutenable neacutecessite de repenser lrsquourbanisation des infrastructures de calcul et de donneacutees ainsi que lrsquoorganisation des moyens humains en synergie avec les laboratoires de recherche et les services communs Ces enjeux srsquoinscrivent agrave Grenoble dans un contexte de mutation forte du paysage de la recherche fusion des universiteacutes obtention drsquoun IdeX mais srsquoappuient eacutegalement sur un terreau de collaborations historiques entre les acteurs du numeacuterique (DSI des eacutetablissements structure interuniversitaire laboratoires) tregraves fertile

432 LrsquoUMS GRICAD

LrsquoUniteacute mixte de services GRICAD (Grenoble Alpes Recherche - Infrastructure de CAlcul intensif et de Donneacutees) a eacuteteacute creacuteeacutee dans ce contexte en 2016 comme une structure transversale mutualiseacutee autour du calcul et des donneacutees au service des personnels de lrsquoensemble des pocircles de recherche du site grenoblois Sous la tutelle du CNRS de lrsquoUGA de Grenoble-INP et drsquoINRIA elle regroupe des compeacutetences en interne autour de lrsquoadministration systegraveme speacutecifique des machines de calcul et des plateformes lieacutees aux donneacutees du calcul scientifique et intensif et du Big Data Elle feacutedegravere eacutegalement les forces du site dans une deacutemarche plus globale en srsquoappuyant sur les expertises preacutesentes dans les laboratoires les DSI et les structures drsquoenseignement

Cette mutualisation de moyens humains externes autour drsquoinfrastructures de site a lrsquoeacutenorme avantage de favoriser la proximiteacute avec les eacutequipes de recherche et donc drsquoecirctre au plus pregraves des besoins des communauteacutes

78

Livre Blanc sur les Donneacutees au CNRS Eacutetat des Lieux et Pratiques - 2018

Les missions de GRICAD recouvrent

bull Lrsquoaccompagnement et le conseil aux communauteacutes scientifiques identification et aide agrave la speacutecification du besoin autour du calcul et des donneacutees support agrave lrsquoutilisation des plateformes soutien au montage de projet sur la partie technique

bull Le calcul intensif avec un accegraves agrave diffeacuterents types de calculateurs

bull Le traitement la valorisation la diffusion le stockage des donneacutees de la recherche avec un accegraves agrave plusieurs plateformes (stockage cloudhellip)

bull Lrsquoheacutebergement sec de serveurs avec la coordination de la gestion des datacentres mutualiseacutes du site grenoblois

bull Lrsquoanimation la formation et le reacuteseautage en collaboration avec les autres acteurs du site (en particulier la maison de la modeacutelisation MaiMoSiNE le reacuteseau des informaticiens SARI et le Data Institute de Grenoble)

433 Les services autour de la donneacutee

La creacuteation de GRICAD srsquoest appuyeacutee sur un existant solide et historique autour du calcul intensif le meacutesocentre CIMENT Les services autour de la donneacutee ont eacuteteacute construits ex nihilo agrave partir des besoins exprimeacutes par les communauteacutes scientifiques

Les caracteacuteristiques principales sont une tregraves grande diversiteacute des donneacutees et un rapprochement important avec le calcul intensif sous la forme de besoins en traitement tregraves varieacutes Les difficulteacutes rencontreacutees concernent drsquoune part une connaissance et une appropriation technique tregraves heacuteteacuterogegravenes des technologies et des infrastructures drsquoune communauteacute agrave lrsquoautre voire drsquoun individu agrave lrsquoautre et drsquoautre part un accompagnement interne (dans les laboratoires) tregraves diffeacuterent drsquoune structure agrave lrsquoautre neacutecessitant la mise en place drsquoun support laquo agrave la carte raquo Le deacuteploiement des services autour de la donneacutee doit aussi srsquointeacutegrer dans un environnement existant de structures de recherche drsquoaccompagnement de projets aux niveaux local national et europeacuteen

GRICAD participe ainsi au projet europeacuteen EOSCPilot par exemple

Lrsquooffre de service proposeacutee par GRICAD inclut lrsquoaccegraves agrave diffeacuterents environnements de stockage drsquoinfrastructures de cloud de Big Data de traitements de donneacutees et piles logicielles lieacutees agrave la manipulation de la donneacutee LrsquoUMS collabore eacutetroitement avec la recherche en informatique en particulier lrsquoinfrastructure nationale Gridrsquo5000 avec laquelle elle partage une nouvelle machine de calcul notamment deacutedieacutee aux Data Analytics Les services et plateformes proposeacutes sont dynamiques et eacutevolutifs en fonction des demandes des scientifiques

GRICAD accompagne tout particuliegraverement certaines communauteacutes Drsquoune part pour les aider agrave aborder le tournant du numeacuterique et drsquoautre part pour faire monter en compeacutetences ses eacutequipes propres sur les technologies agrave la pointe LrsquoUMS est ainsi tregraves active dans le projet drsquoentrepocirct de donneacutees du CHU de Grenoble et dans plusieurs projets avec la communauteacute SHS (collecte de donneacutees du web deep learning)

434 Description des ressources de calcul et de stockage

GRICAD offre une diversiteacute de plateformes deacuteployeacutees en fonction des besoins exprimeacutes par les communauteacutes scientifiques

bull Froggy calcul intensif (reacuteseau Infiniband) constitueacute de 3236 coeurs de calcul et drsquoun stockage Lustre de 90 To Froggy integravegre quelques nœuds GPU

bull Luke traitement massif de donneacutees 906 coeurs de calcul

bull Dahu machine de convergence HPC - Data Analytics mutualiseacutee avec Gridrsquo5000 2560 coeurs de calcul reacuteseau Omnipath avec nœuds burst buffers (NVMe) et scratch SSD

bull Stockage IRODS drsquoenviron 1 Po mutualiseacute distribueacute et accessible depuis lrsquoensemble des plateformes

bull Bettik Stockage BeeGFS de 292 To utiles fournissant aux machines Luke et Dahu un scratch distribueacute et performant

STRUCTURES MUTUALISEacuteES

79

Livre Blanc sur les Donneacutees au CNRS Eacutetat des Lieux et Pratiques - 2018

bull SUMMER Stockage NetApp de plus de 3 Po de volumeacutetrie brute proposant diffeacuterents niveaux de seacutecurisation (sauvegarde reacuteplication) et diffeacuterents niveaux de performance (stockage capacitif ou performant)

bull WINTER Plateforme VMWare de virtualisation

bull Cloud openstack sur stockage CEPH

bull Plateforme JupyterHub de notebooks

bull Plateforme Big Data Hadoop

435 Interactions et cross-fertilisation

La transversaliteacute intrinsegraveque des infrastructures de calcul et de donneacutees fait de lrsquoUMS GRICAD un lieu naturel de lrsquointerdisciplinariteacute et de rencontres des diffeacuterentes communauteacutes scientifiques Lrsquoobjectif afficheacute est de deacutepasser les speacutecificiteacutes disciplinaires afin de pouvoir offrir des solutions mateacuterielles et technologiques partageacutees et co-construites

GRICAD srsquoefforce de deacutevelopper une logique de mutualisation drsquoexpeacuteriences autour de la deacutefinition et lrsquoappropriation des services numeacuteriques proposeacutes en diffusant les pratiques existantes dans les disciplines les plus avanceacutees dans le domaine et en incitant au transfert de technologie drsquoune communauteacute agrave lrsquoautre Les missions autour de lrsquoanimation et de la formation sont en cela particuliegraverement critiques

Le deacuteveloppement de liens entre les chercheurs autour de theacutematiques neacutecessairement communes est essentiel Ainsi des groupes de travail interdisciplinaires ont eacuteteacute formeacutes pour reacutepondre au questionnement autour du cycle de vie de la donneacutee et de la nouvelle reacuteglementation europeacuteenne sur les donneacutees personnelles (RGPD) par exemple

La valeur ajouteacutee drsquoune uniteacute de services agrave lrsquoeacutechelle drsquoun site comme Grenoble est fondamentalement la proximiteacute avec les eacutequipes de recherche et la souplesse pour reacutepondre aux besoins des scientifiques

80

Livre Blanc sur les Donneacutees au CNRS Eacutetat des Lieux et Pratiques - 2018

Le traitement des donneacutees agrave grande eacutechelle (Big Data) est un reacuteel enjeu strateacutegique pour le CNRS et concerne tous les instituts mecircme si les pratiques au sein de chaque institut sont tregraves variables en fonction de lrsquohistorique de chaque discipline en matiegravere de donneacutees La maicirctrise de tous les aspects du Big Data relegraveve drsquoune deacutemarche fondamentalement interdisciplinaire dans laquelle le CNRS se doit drsquoexceller

Lrsquoenjeu fondamental pour le CNRS est de promouvoir une veacuteritable laquo culture de la donneacutee raquo au sein du CNRS Le CNRS doit mieux valoriser toutes les donneacutees que ses eacutequipes de recherches produisent se doter drsquoune strateacutegie en matiegravere de donneacutees et afficher son rocircle moteur dans des initiatives comme EOSC58 ou lieacutees agrave lrsquoOpen Science lrsquoOpen Data et agrave RDA59 et agrave des principes comme le FAIR Data60 Le CNRS se doit de mettre en place une reacuteponse coordonneacutee face aux besoins eacutemergeants en termes de donneacutees drsquoecirctre plus attractif pour des recrutements drsquoanalystes de donneacutees et drsquointensifier ses actions de formation au niveau des outils dans le domaine Il doit aussi ecirctre attentif agrave lrsquoeacutevolution de carriegravere des personnels ITA (ingeacutenieurs essentiellement) impliqueacutes dans ces actions interdisciplinaires Il est aussi souhaitable de mener une reacuteflexion sur une politique des donneacutees au sein du CNRS relative agrave leur cycle de vie utilisation creacuteation collection preacuteservation partage reacuteutilisation et publication interopeacuterabiliteacute deacutefinition de Data Management Plan61 proprieacuteteacute ouverture adoption des principes FAIR consommation eacutenergeacutetique et empreinte carbonehellip

Lrsquoavalanche de donneacutees qui ne fait que se confirmer dans de multiples domaines doit inciter le CNRS agrave se doter drsquoune strateacutegie forte agrave la hauteur des enjeux scientifiques en

bull Reacutepondant aux besoins des communauteacutes en matiegravere de plateformes pour lrsquoanalyse de donneacutees agrave grande eacutechelle le cas eacutecheacuteant en lien

58 The European Open Science Cloud (httpseoscpiloteu)59 Research Data Alliance (wwwrd-allianceorg)60 Findable Accessible Interoperable Reusable data61 Voir par exemple dmpopidorfr

avec les systegravemes drsquoobservation les plateformes expeacuterimentales ou les grandes simulations numeacuteriques qui les produisent avec les probleacutematiques du stockage de la gestion et de la valorisation de ces donneacutees du support pour les utilisateurs de la formation de Data scientists (chercheurs ou ingeacutenieurs compeacutetents en analyse de donneacutees) et du deacuteploiement de chaicircnes logicielles drsquoanalyse de donneacutees passant agrave lrsquoeacutechelle

bull Favorisant lrsquointerdisciplinaire entre les communauteacutes produisant des donneacutees et les communauteacutes dont crsquoest lrsquoobjet de recherche en particulier en capitalisant sur les multiples compeacutetences en apprentissage et Intelligence Artificielle au CNRS

bull Mettant en place une politique de gestion de valorisation et de peacuterennisation des donneacutees au sein du CNRS

Le CNRS pourrait srsquoappuyer sur la mission Calcul et Donneacutees du CNRS (MICADO) pour deacutefinir et mettre en œuvre une telle strateacutegie autour de lrsquoorganisation de la gestion de lrsquoexploitation des donneacutees scientifiques et avec des moyens suppleacutementaires contribuer agrave lrsquoeacutemergence de plateformes de gestion et drsquoanalyse de donneacutees en y positionnant des ingeacutenieurs et des data scientists capables drsquooffrir un service technique de haut niveau et drsquoaccompagner les chercheurs dans leurs expeacuterimentations Cette action pourrait contribuer agrave faire eacutemerger sur le territoire quelques sites de reacutefeacuterences autour desquels peuvent graviter plusieurs projets de recherche en sciences des donneacutees ou srsquointeacuteresser agrave des communauteacutes scientifiques speacutecifiques De telles initiatives peuvent et doivent ecirctre compleacutementaires des autres initiatives locales ou reacutegionales soutenues par des IDEX ou drsquoautres organismes de recherche par exemple

5 CONCLUSION

81

Page 7: Livre Blanc sur les Données au CNRS État des Lieux et

Livre Blanc sur les Donneacutees au CNRS Eacutetat des Lieux et Pratiques - 2018

bull Effort interdisciplinaire entre les communauteacutes produisant des donneacutees et les communauteacutes dont crsquoest lrsquoobjet de recherche

bull Valorisation et peacuterennisation des donneacutees beau-coup de donneacutees sont creacuteeacutees pour un besoin preacutecis puis in fine perdues alors qursquoelles pourraient parfois ecirctre reacuteutiliseacutees ( expeacuteriences comme simulations ) ce qui suppose la promotion des pratiques autour de lrsquoarchivage lrsquoindexation la mise agrave disposition etc

bull Deacutefinitions de plans de gestion des donneacutees ( DMP Data Management Plan ) loin drsquoecirctre geacuteneacuterali-seacutes aujourdrsquohui

13 Accompagner de maniegravere efficace toutes ces eacutevolutions requiert donc de multiples efforts dont

bull Le deacuteploiement de plateformes drsquoanalyse de donneacutees performantes le rapprochement entre les communauteacutes HTC et HPC le deacuteveloppement de lrsquoactiviteacute et des compeacutetences autour de lrsquoanalyse de donneacutees au sein des centres HPC nationaux et reacutegionaux en soulignant que les volumes sont tels que les donneacutees deviennent tregraves coucircteuses agrave deacuteplacerhellip

bull La conceptionexploitation efficace drsquoarchitectures et drsquoenvironnements orienteacutes donneacutees

bull Lrsquoanalyse de lrsquoimpact des technologies du type GPU Cloud computinghellip

bull La multiplication de lrsquousage des meacutethodes drsquoanalyse de donneacutees et drsquoaide agrave la deacutecision machine learning retour de lrsquoIntelligence Artificielle au premier planhellip

bull La maicirctrise du passage agrave lrsquoeacutechelle pour les outils drsquoanalyse de donneacutees ainsi que lrsquoeacutevolution des meacutethodes drsquoanalyse

bull Deacuteveloppement des recherches interdisciplinaires et des compeacutetences autour des donneacutees au sein du CNRS ainsi que celui du support aux utilisateurs

bull La sensibilisation au coucirct eacutenergeacutetique croissant induit par le traitement et la gestion des donneacutees au sein des communauteacutes pour aller vers une informatique durable et une minimisation de lrsquoempreinte carbone de nos activiteacutes

7

Livre Blanc sur les Donneacutees au CNRS Eacutetat des Lieux et Pratiques - 2018

A une peacuteriode ougrave la science est de plus en plus compeacutetitive interdisciplinaire et internationale les nouveaux enjeux associeacutes aux donneacutees requiegraverent une eacutevolution des pratiques de recherche et une nouvelle strateacutegie agrave lrsquoeacutechelle du CNRS

Fort de sa multidisciplinariteacute de ses deux centres nationaux avec une expertise internationalement reconnue en HPC ( IDRIS ) et en gestion et analyse de donneacutees massives ( CC-IN2P3 ) ainsi que de sa preacutesence dans un grand nombre de TGIRs et drsquoIRs le CNRS doit se doter aujourdrsquohui drsquoune strateacutegie plus active autour des nouvelles probleacutematiques lieacutees aux donneacutees

Cette strateacutegie doit ecirctre co-formuleacutee co-deacuteveloppeacutee et co-impleacutementeacutee avec les diffeacuterents instituts et les communauteacutes scientifiques en phase avec leurs pratiques de recherche et la diversiteacute de leurs chaicircnes de production drsquoutilisation et de valorisation des donneacutees Elle doit prendre en compte la logistique des donneacutees tout au long de ces chaicircnes afin drsquoacceacuteleacuterer lrsquoextraction de nouvelles connaissances Elle doit enfin faciliter et transformer les pratiques de recherche en mutualisant les expertises au sein des diffeacuterentes communauteacutes scientifiques et de leurs instituts ainsi que reacutepondre aux nouveaux enjeux de la recherche interdisciplinaire inteacutegrant des donneacutees multi-source

Sur la base de ce document un certain nombre de recommandations sont proposeacutees pour cette strateacutegie

bull R1 Politique et gestion des donneacutees Le CNRS doit promouvoir une laquo culture des donneacutees raquo dans et entre ses instituts et mieux valoriser toutes les donneacutees que ses eacutequipes de recherche produisent Cela implique une reacuteflexion en matiegravere de politique de donneacutees ( Open Data et FAIR Data5 ) tout au long du cycle de vie des donneacutees de gestion des donneacutees avec en particulier lrsquoeacutelaboration drsquoun Data Management Plan6 en collaboration avec les diffeacuterents instituts et possiblement lrsquoINIST et drsquoOpen science7 inteacutegrant la publication des donneacutees et de nouveaux objets interfaccedilant donneacutees et reacutesultats scientifiques Cette reacuteflexion doit srsquoappuyer sur et harmoniser les expertises acquises dans ce domaine par un certain nombre drsquoinstituts tant au niveau national qursquointernational ( p ex IN2P3 INSU INSB INSHS ) Dans ce contexte il doit jouer un rocircle moteur dans les initiatives europeacuteennes comme EOSC8 et GoFAIR9 dans un certain nombre drsquoactiviteacutes drsquoorganisation non gouvernementale comme RDA10 et drsquoinitiatives internationales comme le Belmont Forum11

bull R2 Accroitre les expertises interdisciplinaires pour lrsquoanalyse et lrsquoutilisation des donneacutees Le CNRS fort des acquis reacutealiseacutes au travers de la Mission pour lrsquoInterdisciplinariteacute ( p ex programme MASTODONS ) et de plusieurs Groupements de Recherche ( p ex MADICS ) devrait lancer une initiative transversale srsquoappuyant sur un certain nombre de TGIRs et IRs pour favoriser des collaborations interdisciplinaires au travers des instituts du CNRS rassemblant des experts des diffeacuterents domaines scientifiques des diffeacuterents domaines meacutethodologiques en sciences des donneacutees ( matheacutematiques statistiques informatiques ) et deacuteveloppeurs drsquoinfrastructures Ceci afin de creacuteer un veacuteritable hub scientifique et drsquoexpertise pour le deacuteveloppement de nouvelles meacutethodes de gestion de traitement et drsquoanalyse de donneacutees de nouveaux algorithmes et leur impleacutementation au travers de logiciels modulaires de librairies de services et drsquooutils partageacutes et pouvant servir les besoins de diffeacuterentes communauteacutes sur le modegravele du Berkeley Institute

5 Findable Accessible Interoperable Reusable data6 Voir par exemple dmpopidorfr7 Open Science in Europe8 European Open Science Cloud declaration et EOSC pilot9 GoFair Initiative10 Research Data Alliance11 Belmont Forum

RECOMMANDATIONS

8

Livre Blanc sur les Donneacutees au CNRS Eacutetat des Lieux et Pratiques - 2018

for Data Science12 ( BIDS ) du Data Science Institute de Imperial College ou de lrsquoUniversiteacute de Maastricht Le CNRS pourrait ainsi encourager la collaboration de scientifiques de diffeacuterents domaines autour de lrsquoameacutelioration des algorithmes utiliseacutes dans lrsquoanalyse de donneacutees par exemple pour les synchrotrons sur le modegravele de CAMERA ( httpwwwcameralblgov ) aux Eacutetats-Unis Un tel Hub pourrait eacutegalement constituer un instrument preacutecieux pour la prise en compte des probleacutematiques associeacutees aux donneacutees en amont lors de lrsquoeacutelaboration de grands projets internationaux de TGIRs et drsquoIRs et ainsi faciliter lrsquoorganisation et accroitre la visibiliteacute des contributions franccedilaises dans ces initiatives Dans ce contexte le CNRS pourrait financer des ETPTs chercheurs et ingeacutenieurs en appui agrave ces deacuteveloppements interdisciplinaires eacuteventuellement en collaboration avec des pocircles universitaires et drsquoautres organismes pour par exemple deacutevelopper des logiciels de traitement de donneacutees tels XSOCS ( httpssourceforgenetprojectsxsocs ) sur les synchrotrons

bull R3 Architecture et Infrastructures pour lrsquoanalyse des donneacutees Le CNRS devrait en srsquoappuyant sur les expertises de ses deux centres nationaux de France Grilles de certains meacuteso-centres TGIRs et IRs mener des expeacuteriences relatives agrave lrsquoarchitecture et agrave la feacutedeacuteration de plateformes distribueacutees de services de calcul et de stockage et de plateformes centraliseacutees ( HPC Cloud ) dans le cadre de chaicircnes pilotes de production et drsquoutilisation de donneacutees et de leur logistique des donneacutees refleacutetant la diversiteacute des utilisateurs et des pratiques de recherche Ces expeacuteriences permettraient de mieux eacutevaluer les performances des traitements en flux de type Cloud les protocoles de transferts et les configurations reacuteseaux ainsi qursquoameacuteliorer radicalement lrsquoexploitation des ressources HPC pour des workflows combinant HPC HDA et machine learning Le CNRS pourrait ainsi accroitre son rocircle au niveau europeacuteen agrave lrsquointerface entre EOSC et EDI ( European Data Infrastructure ) Il serait possible drsquoeacutetudier lrsquoaccegraves agrave des moyens informatiques de type Cloud aux TGIR du CNRS au travers par exemple drsquoun accord avec le CC-IN2P3 ou France Grilles

12 httpsbidsberkeleyeduabout

bull R4 Archivage curation et distribution des donneacutees Le CNRS pourrait eacutegalement en srsquoappuyant sur des expertises internationalement reconnues telles celles du Centre de Donneacutees de Strasbourg et ses contributions agrave lrsquoIVOA soutenir et mener des expeacuteriences pilotes pour lrsquoorganisation de plateformes distribueacutees drsquoarchivage drsquoindexation et de curation de donneacutees multi-source mutualisant des ressources ( stockage calcul ) ainsi que pour leur inteacutegration au sein de pocircles de donneacutees ( systegraveme drsquoinformation portail services ) facilitant la deacutecouverte et lrsquoaccegraves fluide agrave ces donneacutees issues de domaines diffeacuterents avec des outils laquo translationnels raquo pour les combiner les croiser et les syntheacutetiser Ces expeacuteriences permettraient au CNRS de mieux deacutefinir sa politique drsquoOpenData et de jouer un rocircle moteur pour la creacuteation drsquoarchives OpenData certifieacutees et de portail OpenScience inteacutegrant de nouveaux objets associant donneacutees et reacutesultats de recherche tel que le Centre de Donneacutees astronomiques de Strasbourg ( httpcdswebu-strasbgfr ) auxquelles les TGIR PaN pourraient participer

bull R5 Nouvelles expertises et moyens humains Le CNRS pour maicirctriser les nouveaux enjeux associeacutes aux donneacutees doit mettre en place une reacuteponse coordonneacutee face aux nouveaux besoins en termes drsquoexpertise de moyens humains et de reconnaissance de ces nouvelles activiteacutes interdisciplinaires Cette reacuteponse doit ecirctre attractive pour des recrutements ( chercheurs ITA ) pour les eacutevolutions de carriegravere et srsquoappuyer sur des actions de formation adapteacutees reacutepondant agrave ces nouvelles expertises Cette reacuteponse est essentielle afin de faciliter lrsquoorganisation des communauteacutes scientifiques et le deacuteveloppement de nouvelles pratiques de recherche permettant drsquoacceacuteleacuterer lrsquoextraction de nouvelles connaissances agrave partir des donneacutees et ainsi renforcer la visibiliteacute internationale du CNRS et des communauteacutes scientifiques franccedilaises

9

Livre Blanc sur les Donneacutees au CNRS Eacutetat des Lieux et Pratiques - 2018

Sur la base de ce rapport la mission Calcul et Donneacutees du CNRS ( MiCaDo ) pourrait se voir confier la mission drsquoouvrir une reacuteflexion inter-instituts associant eacutetroitement lrsquoIDRIS et le CC-IN2P3 en lien avec nos tutelles nos partenaires et les infrastructures de services concerneacutes pour la recherche ( GENCI RENATER ) afin de prolonger ce rapport avec des groupes de travail deacutefinis autour de trois axes permettant de preacuteciser cette strateacutegie

bull Lrsquoorganisation territoriale et la mutualisation de lrsquoheacutebergement des plateformes drsquoarchivage et de curation de donneacutees des plateformes de calcul et drsquoanalyse des donneacutees en liaison avec le processus de labellisation des datacentres nationaux et reacutegionaux organiseacute par la DGRI et les initiatives locales et reacutegionales soutenues par des IDEX ou drsquoautres organismes permettant de faire eacutemerger des sites de reacutefeacuterences en appui agrave des grands projets Cette reacuteflexion devra prendre en compte lrsquoorganisation des communauteacutes scientifiques pour le stewardship des donneacutees et des ressources ( calcul stockage services ) afin drsquoeacutevaluer les ressources humaines et les expertises neacutecessaires agrave cette nouvelle structuration territoriale et organisation des communauteacutes scientifiques

bull Lrsquoarchitecture et la feacutedeacuteration des plateformes distribueacutees de calcul et drsquoanalyse de donneacutees drsquoarchivage et de curation des donneacutees et des plateformes centraliseacutees ( HPC Cloud ) avec des services de donneacutees Cette reacuteflexion devra prendre en compte la diversiteacute et les caracteacuteristiques des chaicircnes de production et drsquoutilisation des donneacutees la logistique des donneacutees tout au long de ces chaicircnes ainsi que les pratiques de recherche des communauteacutes scientifiques au niveau national et international

bull Les architectures de ressources de calcul et de stockage adapteacutees aux diffeacuterentes phases des workflows combinant HPC et HDA ainsi que les environnements drsquoexploitation de ces ressources inteacutegrant les besoins de traitement et drsquoanalyse en flux de type Cloud En particulier cette reacuteflexion devra inteacutegrer les nouveaux besoins associeacutes au machine learning et plus largement agrave lrsquoIntelligence Artificielle qui joue un rocircle de plus en plus important dans le contexte du Big Data avec en particulier les nouveaux enjeux associeacutes aux meacutethodes de type Deep Neural Network ( DNN ) en termes de scalabiliteacute et drsquoarchitecture ( GPU meacutemoire non volatile NVRAM )

La mission Calcul et Donneacutees du CNRS ( MiCaDo ) pourrait avec des moyens suppleacutementaires contribuer agrave lrsquoeacutemergence de plateformes de gestion et drsquoanalyse de donneacutees en y positionnant des ingeacutenieurs et des data scientists capables drsquooffrir un service technique de haut niveau et drsquoaccompagner les chercheurs dans leurs expeacuterimentations Cette action pourrait contribuer agrave faire eacutemerger sur le territoire quelques sites de reacutefeacuterence autour desquels peuvent graviter plusieurs projets de recherche en sciences des donneacutees ou srsquointeacuteresser agrave des communauteacutes scientifiques speacutecifiques De telles initiatives peuvent et doivent ecirctre compleacutementaires des autres initiatives locales ou reacutegionales soutenues par des IDEX ou drsquoautres organismes de recherche par exemple

RECOMMANDATIONS

10

Livre Blanc sur les Donneacutees au CNRS Eacutetat des Lieux et Pratiques - 2018

Ce Livre Blanc a eacuteteacute reacutealiseacute agrave la suite drsquoune seacuterie de preacutesentations autour des donneacutees meneacutees au sein du COCIN entre 2014 et 2016 par ailleurs eacutetayeacutees par des informations compleacutementaires issues de divers documents rapports drsquoactiviteacutes et sites Web avec la contribution et la mise en forme des repreacutesentants des divers instituts et centres informatiques du CNRS

Ce Livre Blanc srsquoest notamment appuyeacute sur les preacutesentations suivantes ( par ordre chronologique )

bull Simulation et cycle de vie des donneacutees dans la communauteacute du climat J-L Dufresne et S Denvil 2 septembre 2014

bull Eleacutements de reacuteflexion sur le stockage des donneacutees O Porte ( DSI ) 4 deacutecembre 2014

bull Les donneacutees au CC-IN2P3 P-E Macchi 8 janvier 2015

bull Institut Franccedilais de Bioinformatique ( IFB ) mettre en place une infrastructure informatique deacutedieacutee aux sciences de la vie J-F Gibrat 5 feacutevrier 2015

bull Stockage et gestion des donneacutees agrave lrsquoIDRIS D Girou 5 mars 2015

bull Research Data Access F Genova 10 avril 2015

bull Gestion des donneacutees au CINES F Daumas et M Galez 5 mai 2015

bull Preacutesentation de CIMENT E Chaljub 2 juin 2015

bull Les donneacutees agrave lrsquoINEE C Callou 7 juillet 2015

bull Les donneacutees agrave lrsquoINC et lrsquoINP D Borgis et L Lellouch 7 juillet 2015

bull Preacutesentation du Belmont Forum J-P Vilotte 1er septembre 2015

bull GRICAD Grenoble Alpes Recherche - Infrastructure de Calcul Intensif et de Donneacutees V Louvet 1er deacutecembre 2015

bull Calcul et donneacutees agrave lrsquoINSU J-P Vilotte 5 janvier 2016 et 2 feacutevrier 2016

bull Les donneacutees et le calcul en bioinformatique G Perriegravere 1 mars 2016

bull Le meacutesocentre CALMIP un Tier2 au service des recherches acadeacutemique et priveacutee B Dintrans 5 avril 2016

bull Preacutesentation de la TGIR Huma-Num O Baude et S Pouyllau 3 mai 2016

bull Preacutesentation ESRF R Dimper et A Goetz 8 novembre 2016

bull Gestion des donneacutees agrave ILL J-F Perrin 5 deacutecembre 2016

bull Synchrotron SOLEIL Les Donneacutees Scientifiques B Gagey et P Martinez 10 janvier 2017

Ce rapport mecircme srsquoil est loin drsquoecirctre exhaustif vise agrave mieux cerner les pratiques et les besoins en matiegravere de donneacutees ainsi qursquoagrave identifier les voies de promotion drsquoune synergie transdisciplinaire autour des donneacutees au sein du CNRS

Lrsquoenquecircte a deacutemarreacute en 2014 agrave la demande de Michel Bidoit Preacutesident du COCIN avec agrave ce jour

1 INTRODUCTION

11

Livre Blanc sur les Donneacutees au CNRS Eacutetat des Lieux et Pratiques - 2018

bull Des preacutesentations lors de reacuteunions du COCIN de tous les instituts confronteacutes agrave la production et au traitement de donneacutees agrave grande eacutechelle ie tous les instituts excepteacutes INS2I INSMI et INSIS13

bull Des centres nationaux orienteacutes calcul et donneacutees du CNRS

- CC-IN2P3 - IDRIS

bull De certains meacutesocentres - CALMIP - GRICAD

bull Et drsquoun certain nombre drsquoinitiatives et de TGIR dont

- LrsquoInstitut Franccedilais de Bioinformatique ( IFB ) - RENABI

bull Les synchrotrons ESRF ILL et SOLEIL

Ce Livre Blanc aborde aussi la probleacutematique des infrastructures requises pour lrsquoexploitation des grands volumes de donneacutees issues de simulations numeacuteriques de grande taille de systegravemes drsquoobservations ou de plateformes expeacuterimentales neacutecessitant des traitements coucircteux pour en extraire de lrsquoinformation

Les enjeux lieacutes au Big Data sont colossaux et ne sont pas seulement scientifiques car ils ont aussi un impact socieacutetal consideacuterable ( santeacute environnement biologie ) eacuteconomique et financier ( p ex compeacutetitiviteacute industrielle ) et eacutethique ( p ex santeacute biologie ) Le Big Data est ainsi devenu un outil drsquoaide agrave la deacutecision incontournable pour un certain nombre de situations critiques ( preacutevision des catastrophes naturelles eacutepideacutemiologiehellip )

La maicirctrise de tous les aspects du Big Data relegraveve drsquoune deacutemarche fondamentalement interdisciplinaire

Les eacutechelles de volumes de donneacutees agrave traiter nrsquoont fait que croicirctre de faccedilon spectaculaire On parle drsquoExaoctets ( 10^18 octets ) pour eacutevoquer les besoins actuels pour se projeter vers des eacutechelles de lrsquoordre du Zettaoctets ( 10^21 ) drsquoici quelques anneacutees

Cette eacutevolution constante induit de multiples preacuteoccupations autour des besoins en puissance de traitement pour de tels volumes de donneacutees ce qui contribue agrave rapprocher les communauteacutes du Calcul Haute Performance et du High Throughput Computing ( autour de lrsquoIN2P3 p ex ) et explique lrsquointeacuterecirct susciteacute par les GPUs en particulier pour le machine learning

13 Les donneacutees sont plus un objet de recherche pour INS2I et INSMI et ils sont peu impliqueacutes dans la production de donneacutees alors que INSIS nrsquoa pas aujourdrsquohui drsquoaction drsquoenvergure dans le domaine

puisqursquoil existe un certain nombre de codes open source tregraves performants sur les GPU

On constate dans tous les domaines des besoins eacutevidents en

bull Plateformes pour lrsquoanalyse de donneacutees agrave grande eacutechelle avec les probleacutematiques du stockage de la gestion et de la valorisation de ces donneacutees

bull Support pour les utilisateurs

bull Data scientists ( chercheurs ou ingeacutenieurs compeacutetents en analyse de donneacutees )

bull Deacuteploiement de chaicircnes logicielles drsquoanalyse de donneacutees qui passent agrave lrsquoeacutechelle

bull Effort interdisciplinaire entre les communauteacutes produisant des donneacutees et les communauteacutes dont crsquoest lrsquoobjet de recherche ( essentiellement au sein drsquoINS2I et drsquoINSMI )

bull Valorisation et peacuterennisation des donneacutees beaucoup de donneacutees sont creacuteeacutees pour un besoin preacutecis puis in fine perdues alors qursquoelles pourraient parfois ecirctre reacuteutiliseacutees ( expeacuteriences comme simulations ) ce qui suppose de lrsquoarchivage indexation mise agrave disposition etc

bull Deacutefinition de plan de gestion des donneacutees ( DMP ) loin drsquoecirctre geacuteneacuteraliseacute aujourdrsquohui alors que les volumes explosent

bull hellip

Le traitement des donneacutees massives issues ou non de la simulation numeacuterique avec des sources eacuteventuellement multiples distribueacuteesreacuteparties agrave grande eacutechelle et heacuteteacuterogegravenes ( structures formats logiciels serveurshellip ) et une volumeacutetrie en donneacutees allant de centaines de teacuteraoctets agrave quelques dizaines de peacutetaoctets ( et agrave lrsquoExaoctets dans un futur proche ) est donc devenu fondamental Il en reacutesulte des probleacutematiques autour de la gestion de ces donneacutees ( indexation stockage local ou distant avec BD centraliseacutees ou distribueacutees entrepocircts de donneacutees virtualisation du stockagehellip ) de leur traitement avec de lrsquoextraction de connaissances sur des infrastructures souvent distribueacutees ( machine learning fouille de donneacutees classification assimilation de donneacutees ) et enfin du post-traitement permettant drsquoexploitervisualiser ces informations etou de lrsquoaide agrave la deacutecision par exemple

12

Livre Blanc sur les Donneacutees au CNRS Eacutetat des Lieux et Pratiques - 2018

INTRODUCTION

Tirer parti de maniegravere efficace de toutes ces eacutevolutions requiert donc des efforts sur ( entre autres )

bull Deacuteploiement de plateformes drsquoanalyse de donneacutees performantes et rapprochement entre les communauteacutes HTC et HPC deacuteveloppement de lrsquoactiviteacute et des compeacutetences autour de lrsquoanalyse de donneacutees au sein des centres HPC nationaux et reacutegionaux

bull Conceptionexploitation efficace drsquoarchitectures et drsquoenvironnements orienteacutes donneacutees

bull Impact des technologies du type GPU Cloud computinghellip

bull Meacutethodes drsquoanalyse de donneacutees et drsquoaide agrave la deacutecision machine learning retour de lrsquoIntelligence Artificielle au premier planhellip

bull Maicirctrise du passage agrave lrsquoeacutechelle des outils drsquoanalyse de donneacutees

bull Deacuteveloppement des recherches interdisciplinaires et des compeacutetences autour des donneacutees au sein du CNRS ainsi que du support aux utilisateurs

Les pratiques et les besoins autour des donneacutees font deacutejagrave lrsquoobjet drsquoune attention consideacuterable au sein du CNRS On peut citer par exemple le remarquable ouvrage laquo Les Big Data agrave deacutecouvert14 raquo eacutediteacute sous la direction de sous la direction de Mokrane Bouzeghoub et Reacutemy Mosseri agrave CNRS EDITIONS ainsi que les reacutesultats de lrsquoenquecircte de 2014 meneacutee par la Direction de lrsquoInformation Scientifique et Technique ( DIST ) aupregraves des uniteacutes15 qui corroborent certains des constats effectueacutes ici

Le CNRS a aussi deacuteveloppeacute de multiples programmes de recherche sur les donneacutees scientifique tant au sein de la Mission pour lrsquoInterdisciplinariteacute qursquoau sein des instituts INS2I et INSMI avec

bull Le Deacutefi Mastodons16 depuis 2012 ( plus de 60 projets )

bull Deacutefi ImagrsquoIn17 depuis 2015 ( plus de 40 projets )

bull Le PEPS FaScido en 2015 et 2016 ( plus de 20 projets )

bull Le PEPS AstroInformatique18 en 2018 ( une dizaine de projets )

Enfin un soutien significatif aux plateformes de recherche sur les donneacutees a eacuteteacute apporteacute par lrsquoINS2I agrave la fois en eacutequipement et en ingeacutenieur ( permanents ou CDD )

14 httpwwwcnrseditionsfrsociete7429-les-big-data-a-decou-verthtml15 httpwwwcnrsfrdistz-outilsdocumentsenquete-du_bro-chure-couverture_032015pdf16 httpwwwcnrsfrmispipphparticle5317 httpwwwcnrsfrmispipphparticle64518 httpwwwcnrsfrmispipphparticle1325

13

Livre Blanc sur les Donneacutees au CNRS Eacutetat des Lieux et Pratiques - 2018

21 INSTITUT DE CHIMIE ( INC )

211 Introduction

La deacutemarche de cette eacutetude a eacuteteacute drsquoeacutetudier les donneacutees agrave lrsquoINC agrave diffeacuterents niveaux de granulariteacute Nous commencerons par les grandes infrastructures de calcul ou expeacuterimentales puis nous nous inteacuteresserons agrave lrsquoeacutechelle typique drsquoun institut puis au grain fin du laboratoire Nous finirons agrave lrsquoautre extrecircme par la dimension europeacuteenne

212 La probleacutematique des donneacutees agrave lrsquoINC

Pour ce qui concerne le calcul sur les centres nationaux ( GENCI ) et le stockage de donneacutees affeacuterent les chercheurs de lrsquoInstitut de Chimie soumettent leurs demandes aux Comiteacutes Scientifiques Theacutematiques nationaux ( CT ) suivants

bull CT7 Dynamique moleacuteculaire appliqueacutee agrave la biologie avec une reacutepartition INC-NSB de 60 40

bull CT8 Chimie quantique et modeacutelisation moleacuteculaire ( majoritairement INC )

bull CT9 Physique chimie et proprieacuteteacutes des mateacuteriaux avec une reacutepartition INC-INP de 50 50

Il faut rappeler que ces 3 CT eacutetiqueteacutes laquo chimie raquo centreacutes majoritairement sur les simulations de dynamique moleacuteculaire et les calculs de structure eacutelectronique repreacutesentent une part importante des projets seacutelectionneacutes et du temps de calcul alloueacute sur les machines GENCI A lrsquoIDRIS par exemple la chimie au sens large compte pour ~40 des projets ~30 du temps CPU sur Ada et 7 sur Turing

Comme il apparaicirct sur les diagrammes de lrsquoIDRIS preacutesenteacutes agrave la section 322 lrsquoutilisation du stockage est beaucoup plus reacuteduite pour ces CT laquo chimie raquo par rapport agrave drsquoautres theacutematiques avec quelques dizaines de To sur Ada et quelques To seulement sur Turing pour environ 50 To sur cartouches On note une forte surestimation des besoins par les utilisateurs

Sur le TGCC lrsquoINC occupe pour lrsquoensemble des CTs qui le concerne de lrsquoordre de 450 To en cumulant tous les espaces de disques ( storedir scratch et workdir ) Cela repreacutesente une occupation relative de lrsquoordre du pour cent sur le stockage longue dureacutee ( storedir ) et de la dizaine de pour cent sur lrsquoespace de travail Les besoins sont cependant appeleacutes agrave augmenter fortement avec lrsquoaccroissement de la taille des systegravemes eacutetudieacutes ou de leur temps de simulation si lrsquoon se fixe aux niveaux correspondant actuellement agrave des grands challenges ou des projets PRACE En modeacutelisation biomoleacuteculaire par exemple la simulation dynamique drsquoun systegraveme biologique complet comportant plusieurs millions drsquoatomes comme un virus pendant quelques dizaines voire une centaine de nanosecondes ( actuellement un tour de force ) geacutenegravere facilement un film de quelques Po si lrsquoon veut garder la trajectoire pour exploitation ulteacuterieure

Lrsquooccupation en stockage de la chimie sur les quelques meacutesocentres qui ont eacuteteacute sondeacutes ( Unistra CRIANN CALMIP ) apparaicirct elle aussi relativement limiteacutee de lrsquoordre de la dizaine de To par centre

En ce qui concerne les Infrastructures de Recherche expeacuterimentale il faut noter que la chimie est tregraves impliqueacutee dans des TGIR relevant de lrsquoINP ( ESRF ILL SOLEILhellip ) pour lesquelles une politique des donneacutees massives est eacutetablie ou en cours drsquoeacutelaboration ( voir lrsquoanalyse de lrsquoINP ) Une analyse des besoins et des pratiques de stockage des Infrastructures de Recherche relevant de lrsquoINC a eacuteteacute effectueacutee cela implique la TGIR reacutesonance magneacutetique nucleacuteaire agrave tregraves hauts champs ( RMN-THC ) lrsquoIR RENARD ( REseau NAtional de Reacutesonance paramagneacutetique interDisciplinaire ) et

2 Les donneacutees au sein des instituts du CNRS

14

Livre Blanc sur les Donneacutees au CNRS Eacutetat des Lieux et Pratiques - 2018

le tregraves grand eacutequipement FT-ICR agrave haut champ Quelques points cleacutes en ressortent en matiegravere de politique de donneacutees

bull Gestion locale des donneacutees chaque laboratoire ou site achegravete ses disques durs

bull La politique des donneacutees ( partage ou non ) est laisseacutee aux utilisateurs

bull En utilisation laquo plateforme raquo les utilisateurs viennent et repartent avec leur cleacute USB

bull Frilositeacute vis-agrave-vis du partage de donneacutees ( maicirctrise de ses donneacutees confidentialiteacute )

bull Une mutualisation des donneacutees est envisageacutee en RMN et RPE

Pour ce qui concerne la nature et le volume des donneacutees

bull Spectres 1D ou 2D fichiers de 10-100 ko jusqursquoagrave 10-100 Goansite

bull Format proprieacutetaire ( Bruckerhellip ) eacuteventuellement transformable drsquoougrave des problegravemes drsquointeropeacuterabiliteacute et de temps de relecturesauvegarde

bull Des flux plus importants peuvent ecirctre envisageacutes avec des expeacuteriences drsquoimagerie deacutependant du temps mais les volumes ne sont pas encore vraiment anticipeacutes

On peut faire les mecircmes constats par exemple pour le reacuteseau METSA en laquo Microscopie Electronique et Sonde Atomique raquo

bull Pas de politique de stockage globale au niveau du reacuteseau

bull Sur le site parisien ( MPQ ) la quantiteacute de donneacutees produites est typiquement 64 Moimage soit 4 Toan stockeacutes sur des disques durs locaux avec en plus une passerelle sur lrsquouniversiteacute

bull Des expeacuteriences en temps reacuteel commencent agrave se monter engendrant 300 imagesseconde soit de lrsquoordre de 20 Goseconde

bull Il y aura donc un reacuteel besoin de compeacutetences solides agrave terme

Pour illustration nous descendons encore en granulariteacute dans les infrastructures de recherche et prenons le cas drsquoune feacutedeacuteration lrsquoInstitut pour les Sciences Moleacuteculaires drsquoOrsay ( ISMO ) pour lequel le

problegraveme des donneacutees srsquoest poseacute reacutecemment Cet institut regroupe trois laboratoires le Laboratoire de Photophysique Moleacuteculaire ( UPR3361 ) le Laboratoire des Collisions Atomiques et Moleacuteculaires ( UMR8625 ) et le Laboratoire drsquoInteraction du rayonnement X avec la Matiegravere ( UMR8624 ) Il est installeacute depuis peu dans un bacirctiment unique agrave Paris-Saclay Il dispose drsquoune grappe de calcul avec 1 ingeacutenieur drsquoeacutetudes et un technicien

bull Il y a un besoin de stockage pour des expeacuteriences ( en particulier en microscopie ) et en ressources de calcul

bull Le mateacuteriel est disparate et vieillissant sans systegraveme de sauvegarde global

bull Une enquecircte aupregraves des laboratoires de la feacutedeacuteration a reacuteveacuteleacute un besoin de lrsquoordre de 160 To

Drsquoougrave la recherche drsquoune solution eacuteconomique de stockage et baseacutee sur des logiciels libres chaque chercheur achetant ses propres disques On a convergeacute vers lrsquoachat de 2 racks de 40 disques avec un systegraveme ZFS plus la solution libre SUN Le coucirct total estimeacute de cette solution de stockage est de lrsquoordre de 40 keuro alors qursquoune solution cleacute en main serait de lrsquoordre de 100 keuro aupregraves des speacutecialistes des solutions de stockage

Enfin penchons-nous sur une granulariteacute encore plus fine celle drsquoun laboratoire Un exemple significatif est celui du laboratoire Physicochimie des Electrolytes et Systegravemes Interfaciaux ( PHENIX ) agrave lrsquoUPMC et plus speacutecifiquement de lrsquoeacutequipe modeacutelisation composeacutee de 5 permanents pour un total de 15 personnes qui calculent agrave la fois en local sur GENCI et PRACE

bull Le parc drsquoinformatique scientifique de 15-20 stations de travail est geacutereacute par les chercheurs

bull Le systegraveme de stockage est composeacute drsquoun server NFS ( 30 To ) plus un serveur LDAP

bull Les ressources de calcul sont constitueacutees de 4 machines PersonalHPC 64 cœurs agrave meacutemoire partageacutee ( 10 keuromachine )

bull Un stockage de sauvegarde de 150 To est effectueacute sur une machine deacutedieacutee PersonalHPC Sigma ( valeur environ 30 keuro )

On retrouve donc le mecircme ordre de grandeur de coucirct pour le mateacuteriel local de stockage avec des solutions laquo cousues main raquo ( quelques dizaines de keuro pour la centaine de To hors coucirct de personnel eacutevidemment et avec le niveau de seacutecuriteacute qursquoune gestion locale implique )

INC

15

Livre Blanc sur les Donneacutees au CNRS Eacutetat des Lieux et Pratiques - 2018

Enfin si lrsquoon remonte la granulariteacute agrave son autre extrecircme il faut signaler qursquoau niveau europeacuteen sur lrsquoappel H2020 Centre of Excellence for Computing Applications 3 CoE sur les 8 seacutelectionneacutes sont consacreacutes aux mateacuteriaux au cœur donc des theacutematiques des CT 7-9 Lrsquoun drsquoeux le CoE NoMad ( Novel Material Discovery httpsnomad-coeeu ) est un dispositif multigrille de deacutepocirct et de fouille de donneacutees Il est eacutetabli pour heacuteberger organiser et partager agrave lrsquoeacutechelle internationale les donneacutees et reacutesultats de calcul et de simulation en physique et chimie des mateacuteriaux

Alors que la France est bien repreacutesenteacutee dans plusieurs CoE par exemple EoCoE ( httpwwweocoeeu ) ou E-CAM ( httpswwwe-cam2020eu ) elle apparaicirct malheureusement tregraves peu dans NoMaD et encore trop peu dans ce genre de deacutemarche type collectionexploitation de donneacutees comme les initiatives Material Genomics ( httpswwwmgigov ) aux Etats-Unis ou AIIDA en Suisse ( Automated Interactive Infrastructure and Database for Computational Science httpwwwaiidanet )

213 Conclusion

LrsquoINC a actuellement plus des problegravemes drsquoorganisation interne des donneacutees que des problegravemes relevant vraiment du Big Data Il nrsquoen reste pas moins qursquoil y a un reacuteel besoin de compeacutetences et de politique drsquoeacutequipement Les besoins peuvent srsquoaccroicirctre rapidement dans les TGIR degraves que lrsquoon touche agrave de lrsquoacquisition massive drsquoimages ( p ex pour des processus en temps reacuteel ) Lrsquoacquisition des donneacutees de simulations numeacuteriques est ameneacutee agrave croicirctre aussi avec lrsquoaugmentation de la taille des systegravemes eacutetudieacutes et des deacutemarches collectives de type Material Genomics crsquoest-agrave-dire conservation et mutualisation des donneacutees de simulations et deacutemarche systeacutematique de fouille de donneacutees Des deacutemarches de ce type eacutemergent de plus en plus dans les appels drsquooffre

LrsquoINC a engageacute depuis deacutebut 2018 une reacuteflexion sur la politique des donneacutees au sein de ces trois TGIRIR ( RMN-THC RENARD FT-ICR ) avec comme objectif de se conformer rapidement aux directives europeacuteennes en termes de science ouverte et de partage des donneacutees et rejoindre ce qui se fait dans drsquoautres infrastructures de recherche comme SOLEIL

16

Livre Blanc sur les Donneacutees au CNRS Eacutetat des Lieux et Pratiques - 2018

22 INSTITUT ECOLOGIE ET ENVIRONNEMENT ( INEE )

221 Introduction

Degraves sa creacuteation consideacuterant drsquoune part lrsquoimportance des donneacutees dans le triptyque fondateur de lrsquoINEE ( Observation ndash Expeacuterimentation ndash Modeacutelisation ) et drsquoautre part une reacuteelle meacuteconnaissance du nombre de jeux de donneacutees existants dans le peacuterimegravetre de lrsquoInstitut ( sa creacuteation datant du 1er novembre 2009 ) deux enquecirctes autour des donneacutees en eacutecologie et environnement eacutetaient meneacutees sur le peacuterimegravetre scientifique de lrsquoINEE

bull La premiegravere adresseacutee agrave lrsquoensemble des instituts du CNRS sur le thegraveme laquo Etude de cas sur les systegravemes de donneacutees numeacuteriques de recherche raquo ( Ministegravere de lrsquoEnseignement supeacuterieur et de la Recherche 2009 )

bull La seconde meneacutee sous la responsabiliteacute de S Thieacutebault et Y Lagadeuc plus speacutecifique et exhaustive aupregraves des directeurs drsquouniteacutes

La synthegravese de ces deux enquecirctes mettait en exergue les points suivants

bull Des diffeacuterents projets de recherche collaboratifs meneacutes par la communauteacute scientifique de lrsquoINEE reacutesulte un accroissement tregraves important et tregraves rapide du nombre de bases de donneacutees deacuteveloppeacutees au sein des laboratoires Cependant ces bases de donneacutees restent tregraves heacuteteacuterogegravenes dans leur forme ( allant du fichier Word ou Excel pour certains agrave un systegraveme de gestion de base de donneacutees complexe pour drsquoautres ) et aussi dans leur fond

bull La communauteacute scientifique de lrsquoINEE se doit de faire un effort particulier pour coordonner et diversifier la collecte des donneacutees en eacutecologie en menant une reacuteflexion neacutecessaire pour deacutefinir dans quels cas la theacuteorie doit deacuteterminer lrsquoobjet et les outils de mesure Il srsquoagit degraves lors drsquoeacuteviter une collecte de donneacutees agrave des eacutechelles spatiales et temporelles prenant plus en consideacuteration des contingences techniques ou historiques qui les eacuteloignent parfois des exigences optimales neacutecessaires pour appreacutehender les pheacutenomegravenes eacutetudieacutes

Aujourdrsquohui la communauteacute scientifique du CNRS-INEE est en train de vivre une veacuteritable reacutevolution de

lrsquoinformation Si pendant tregraves longtemps une des limitations a eacuteteacute la quantiteacute de donneacutees disponibles pour tester des modegraveles preacutedictifs en quelques anneacutees les sciences de lrsquoenvironnement ont pu disposer des jeux de donneacutees de plus en plus importants inteacutegrant diffeacuterentes eacutechelles temporelles et spatiales pour des milliers drsquoorganismes ainsi que pour de nombreux gegravenes et eacutecosystegravemes Ces nouveaux jeux de donneacutees allieacutes agrave une puissance de calcul et agrave une sophistication des logiciels ( rendues possibles notamment par la mise en place de plateformes collaboratives comme le logiciel R ) permettent aujourdrsquohui une profondeur drsquoanalyse qui nrsquoeacutetait pas possible il y a encore dix ans

Toutefois des efforts doivent ecirctre maintenus afin de faire basculer lrsquoeacutecologie dans lrsquoegravere de lrsquoinformation en eacutevitant que ces diffeacuterentes sources drsquoinformations soient stockeacutees et codeacutees suivant des normes contingentes agrave chaque milieu scientifique sans souci drsquointerfaccedilage avec les autres disciplines

222 La probleacutematique des donneacutees agrave lrsquoINEE

La collecte des donneacutees neacutecessite des systegravemes drsquoobservation et drsquoexpeacuterimentation depuis le niveau geacuteneacutetique jusqursquoaux eacutecosystegravemes Il srsquoagit drsquoabord de disposer drsquoeacutequipements compleacutementaires organiseacutes le long de gradients de controcircle ou de confinement consideacuterant des complexiteacutes eacutecologiques diffeacuterentes

La communauteacute de lrsquoINEE dispose deacutesormais drsquoune infrastructure expeacuterimentale partageacutee et ouverte ( AnaEE pour Analyse et Expeacuterimentation sur les Ecosystegravemes ) qui rassemble des moyens expeacuterimentaux in situ en conditions semi-naturelles et en conditions controcircleacutees

En geacutenomique les programmes concernant le meacutetageacutenome humain ( httpwwwmetahiteu httpnihroadmapnihgov ) ou lrsquoeacutetude des sols ( httpwwwterragenomeorg httpwwwearthmicrobiomeorg ) promeuvent des approches collaboratives inteacutegreacutees

Drsquoautres approches exploratoires agrave large eacutechelle ont aussi montreacute toute leur richesse ( p ex Tara-Oceans ) en inteacutegrant des donneacutees de diffeacuterents champs disciplinaires

INEE

17

Livre Blanc sur les Donneacutees au CNRS Eacutetat des Lieux et Pratiques - 2018

Lrsquoeacutetude des maladies infectieuses beacuteneacuteficie eacutegalement au plan national drsquoun institut theacutematique multi-organismes ( Institut de Microbiologie et Maladies Infectieuses )

Enfin au niveau des eacutecosystegravemes il faut noter les travaux entrepris au sein des Zones Ateliers ou encore des services drsquoobservation que le CNRS coordonne

Ces diffeacuterentes initiatives sont agrave lrsquoorigine de la production drsquoune quantiteacute de donneacutees sans preacuteceacutedent dans nos disciplines Par contre une grande part de la collecte est encore conduite par des eacutequipes etou des chercheurs individuels travaillant sur des sites expeacuterimentaux ou drsquoobservation qui ne font actuellement lrsquoobjet drsquoaucune coordination particuliegravere ou drsquoune coordination probablement insuffisante

Le panorama des initiatives dans le domaine EcologieBiodiversiteacute est extrecircmement large comme le montre la figure suivante avec une multipliciteacute des acteurs et des interactions

Il est organiseacute autour de trois niveaux

bull des dispositifs de production et de collecte des donneacutees incluant par exemple les plateformes -omiques ( geacutenomiques transcriptomiques p roteacuteomiques meacutetabo lomiqueshellip ) des collections des systegravemes drsquoobservation etou drsquoexpeacuterimentation

bull des bases de donneacutees

bull des centres de synthegravese geacuteneacuteraux ou theacutematiques deacutedieacutes agrave la valorisation et agrave la diffusion des donneacutees

Aussi face agrave cette laquo datavalanche raquo il apparaissait neacutecessaire pour lrsquoinstitut de mener un effort important pour aider les entiteacutes productrices de donneacutees de lrsquoINEE agrave aller vers une normalisation du codage et de la mise en forme des donneacutees pour mieux les rendre interopeacuterables exploitables et visibles

18

Livre Blanc sur les Donneacutees au CNRS Eacutetat des Lieux et Pratiques - 2018

223 La mise en place de lrsquouniteacute mixte de services BBEES

La creacuteation de lrsquoUMS 3468 laquo Bases de donneacutees Biodiversiteacute Ecologie Environnements Socieacuteteacutes ( BBEES ) raquo souhaiteacutee par le CNRS-INEE et le Museacuteum national drsquoHistoire naturelle et acteacutee le 1er septembre 2011 a pour objectif de structurer et drsquooptimiser le travail autour des bases de donneacutees de recherche sur la Biodiversiteacute naturelle et culturelle actuelle et passeacutee

Elle constitue un soutien technique et scientifique aupregraves des uniteacutes et des chercheurs du CNRS-INEE et du MNHN souhaitant structurer peacuterenniser ou mutualiser leurs bases de donneacutees de recherche avec pour objectifs finaux

bull de faire interagir lrsquoensemble de ces bases diverses et heacuteteacuterogegravenes dans leur forme et dans leur fond

bull de preacutevoir leur sauvegarde agrave tregraves long terme prenant en compte lrsquoeacutevolution des supports

bull de participer agrave la mise en place drsquoontologies et de theacutesaurus concerteacutes

Ses interventions se traduisent par des conseils ou une intervention au sein des uniteacutes pour aider agrave concevoir relancer ou restructurer une base de donneacutees Installeacutee au Museacuteum elle beacuteneacuteficie de lrsquoenvironnement en place et de son expeacuterience dans le domaine des bases de donneacutees ( Service du Patrimoine Naturel Inventaire National du Patrimoine Naturel collections patrimoniales Pocircle application scientifique de la DSI etc ) Elle nrsquoa pas vocation agrave administrer les bases de donneacutees qui restent sous la responsabiliteacute des eacutequipes qui les produisent ni agrave leur fournir un heacutebergement Toutefois elle peut apporter des conseils sur ces points

Afin de faciliter lrsquoinsertion des bases de donneacutees dans des dispositifs nationaux et internationaux lrsquoUMS BBEES propose un certain nombre de recommandations sur

bull la constitution des corpus et le traitement des donneacutees

bull le choix des outils

bull la structuration des donneacutees

bull les meacutetadonneacutees

bull etc

Ces recommandations sont en lien avec les standards et les normes en vigueur comme la directive europeacuteenne INSPIRE ( 20072CE du 14 mars 2007 ) pour les informations geacuteographiques ou le choix drsquoun reacutefeacuterentiel taxonomique commun aux bases de donneacutees existantes sur la biodiversiteacute ( TaxRef ) et obeacuteissent aux reacuteglementations concernant la proprieacuteteacute intellectuelle dans le domaine particulier des bases de donneacutees

La question de lrsquoidentification et de lrsquoaccessibiliteacute des bases de donneacutees est eacutegalement au cœur des preacuteoccupations de lrsquoUMS BBEES En particulier pour ce qui concerne les bases inactives ( les bases de donneacutees deacuteveloppeacutees dans le cadre de programmes nationaux et stockeacutees sur des ordinateurs personnels p ex ) et les bases en veille ( bases de donneacutees accessibles mais qui ne sont plus alimenteacutees ni exploiteacutees ) Des enquecirctes sont reacuteguliegraverement meneacutees aupregraves des directeurs drsquouniteacutes de recherche dans le but drsquoidentifier lrsquoensemble des bases de donneacutees produites par les uniteacutes ( inactives en veille en deacuteveloppement et actives ) mais aussi pour anticiper et accompagner les demandes de deacuteveloppement de bases dans le cadre de programmes de recherche nationaux et internationaux

LrsquoUMS srsquoattache en outre agrave favoriser la diffusion des bases de donneacutees par leur administrateur au travers drsquoun portail deacutedieacute accessible agrave tous httpwwwbdd-ineecnrsfr Aujourdrsquohui ce portail a permis de recenser et rendre visibles environ 200 bases de donneacutees issues de lrsquoactiviteacute des laboratoires du CNRS-INEE

BBEES est aussi tregraves fortement impliqueacutee dans lrsquoanimation du reacuteseau meacutetier laquo bases de donneacutees raquo creacuteeacute en mai 2012 en collaboration avec la MRCT puis la Mission pour lrsquoInterdisciplinariteacute ( MI ) Lrsquoanimation de ce reacuteseau aujourdrsquohui composeacute de 170 personnes de diffeacuterentes origines institutionnelles ( CNRS-INEE et CNRS-INSHS principalement mais aussi MNHN INRA IRD CIRAD FRB ) permet

bull lrsquoorganisation de reacuteunions theacutematiques

bull lrsquoeacutechange et le partage via la mise en place drsquoune liste de diffusion

INEE

19

Livre Blanc sur les Donneacutees au CNRS Eacutetat des Lieux et Pratiques - 2018

bull la mise en place de formations

bull la reacutealisation de journeacutees de sensibilisation agrave la seacutecurisation et agrave la peacuterennisation des donneacutees

bull et enfin bien eacutevidemment une activiteacute de veille technologique

BBEES est aussi partenaire de plusieurs grands programmes sur le long terme ( description des meacutetadonneacutees des bases deacutejagrave opeacuterationnelles eacutetat des lieux technique creacuteation de nouvelles basesSI ) et participe aux reacuteseaux des Zones Ateliers ( RZA ) et des Observatoires Hommes-Milieux ( ROHM ) ainsi qursquoau projet drsquoinfrastructures nationales en biologie et santeacute AnaEE-France laquo Infrastructure Analyse et drsquoexpeacuterimentation sur les eacutecosystegravemes raquo en srsquoappuyant sur les Ecotrons et les Stations drsquoEcologie expeacuterimentale ( ReNSEE )

Enfin BBEES megravene une activiteacute drsquointervention et de conseil au sein de lrsquoinstitut et est membre du groupe de travail sur les standards de donneacutees du SINP et du groupe utilisateurs du GBIF France

224 La creacuteation drsquoun centre de donneacutees et drsquoexpertise sur la nature

Dans une optique de valorisation de certaines donneacutees le CNRS-INEE a aussi eacuteteacute partenaire de la creacuteation drsquoun centre de donneacutees et drsquoexpertise sur la nature Creacuteeacutee en janvier 2017 lrsquoUniteacute Mixte de Service 2006 Patrimoine naturel ( PatriNat ) assure des missions drsquoexpertise et de gestion des connaissances pour ses trois tutelles que sont le Museacuteum national drsquohistoire naturelle ( MNHN ) lrsquoAgence Franccedilaise de la Biodiversiteacute et le CNRS

Issue drsquoun renforcement des eacutequipes du Service du patrimoine naturel cette uniteacute implanteacutee dans plusieurs sites du MNHN a pour objectif de fournir une expertise scientifique et technique sur la biodiversiteacute et la geacuteodiversiteacute franccedilaise au profit des politiques de connaissance et de conservation Cette mission nationale concerne la meacutetropole et lrsquooutre-mer ainsi que les theacutematiques terrestres et marines Elle est conduite en lien eacutetroit avec les partenaires impliqueacutes sur les enjeux de conservation et de protection de la nature En srsquoappuyant sur les reacutesultats issus des activiteacutes de recherche elle doit contribuer agrave faire eacutemerger des questions scientifiques et des besoins de connaissances partageacutees pour favoriser la prise en compte de la nature dans la socieacuteteacute

Agrave travers ses missions elle srsquoengage agrave diffuser former et sensibiliser les diffeacuterents publics sur les enjeux de biodiversiteacute et de preacuteservation de la nature

Ses trois principales missions concernent

bull La consolidation et la valorisation des donneacutees de biodiversiteacute de geacuteodiversiteacute et des collections naturalistes

LrsquoUMS srsquoattache agrave travailler avec les reacuteseaux naturalistes gestionnaires et de recherche pour deacutevelopper le partage des donneacutees les techniques informatiques et les meacutethodologies neacutecessaires agrave lrsquointeropeacuterabiliteacute des eacutechanges de donneacutees au niveau national et international Elle gegravere ainsi les bases de donneacutees nationales concernant les espegraveces les eacutecosystegravemes les espaces proteacutegeacutes et la geacuteodiversiteacute Elle participe eacutegalement agrave lrsquoidentification des besoins de connaissances naturalistes sur les diffeacuterents territoires La diffusion de cette information brute ou eacutelaboreacutee se fait au niveau national via deux portails principaux que sont lrsquoInventaire National du Patrimoine Naturel ( INPN ) et le GBIF-France pour les liens internationaux

bull La production et la diffusion de reacutefeacuterentiels de meacutethodes de protocoles et drsquoindicateurs

LrsquoUMS pilote ou participe aux travaux scientifiques de construction des reacutefeacuterentiels et bases de connaissance sur les espegraveces et les habitats qui sont neacutecessaires agrave la construction et la diffusion drsquoun savoir structureacute Cette structuration permet agrave lrsquoUMS drsquoagreacuteger ces informations nationales sur la nature ( inventaires eacutevaluations statuts reacuteglementaires etc ) afin de les valoriser par la production de cartes de synthegraveses et drsquoindicateurs drsquoeacutetat de la biodiversiteacute

bull Lrsquoappui scientifique aux politiques publiques et priveacutees en matiegravere drsquoenvironnement

LrsquoUMS apporte dans le cadre de polit iques publiques nationales des directives europeacuteennes sur la biodiversiteacute et des rapportages un appui pour lrsquoanimation technique et scientifique aux services de lrsquoEacutetat aux collectiviteacutes territoriales et aux eacutetablissements publics chargeacutes de la biodiversiteacute et des espaces naturels Elle apporte eacutegalement son expertise scientifique aupregraves des acteurs socio-eacuteconomiques qui mettent en place des actions en faveur de la biodiversiteacute dans leur politique environnementale en particulier dans le cadre de deacutemarche drsquoengagement dans la Strateacutegie nationale pour la biodiversiteacute

20

Livre Blanc sur les Donneacutees au CNRS Eacutetat des Lieux et Pratiques - 2018

225 Conclusion

La probleacutematique des donneacutees est centrale au sein de lrsquoINEE et couvre un tregraves large spectre de probleacutematiques Si un premier effort de recensement et de structuration a pu ecirctre meneacute au cours des derniegraveres anneacutees beaucoup de travail reste cependant agrave faire lrsquoenjeu fondamental eacutetant de promouvoir une veacuteritable laquo culture de la donneacutee raquo de la part des acteurs de la recherche en eacutecologie

En effet le deacuteveloppement drsquoune eacutecologie preacutedictive neacutecessite aujourdrsquohui de pouvoir rassembler ces donneacutees heacuteteacuterogegravenes par nature en un ensemble coheacuterent qui puisse ecirctre analyseacute de faccedilon robuste et reacutepeacutetable Il srsquoagit donc encore drsquoameacuteliorer la pertinence de la collecte des donneacutees dans une deacutemarche drsquoaller et retour entre theacuteorie et donneacutees ( cohabitation entre une eacutecologie theory-driven et data-driven )

Lrsquointeacutegration des donneacutees aux diffeacuterentes eacutechelles drsquoorganisation en eacutecologie reste aussi un enjeu Il srsquoagit maintenant de favoriser le dialogue entre disciplines non seulement entre sciences de la nature et sciences humaines et sociales mais aussi entre sciences de la nature matheacutematiques et sciences de lrsquoinformation

INEE

21

Livre Blanc sur les Donneacutees au CNRS Eacutetat des Lieux et Pratiques - 2018

23 INSTITUT DE PHYSIQUE ( INP )

231 Introduction

La probleacutematique des donneacutees prend plusieurs formes agrave lrsquoINP Celles-ci deacutependent du volume et de la nature des donneacutees Ces derniegraveres vont de quelques dizaines de meacutegaoctets geacuteneacutereacutes par une expeacuterience de laboratoire aux peacutetaoctets produits annuellement dans les TGIR de lrsquoinstitut en passant par les teacuteraoctets issus de simulations dans les grands centres de calcul nationaux ou ceux geacuteneacutereacutes sur la toile et les reacuteseaux sociaux Dans ce qui suit nous eacutevoquerons les questions qui se posent autour des donneacutees agrave lrsquoINP et certaines des solutions envisageacutees dans ces diffeacuterents contextes Nous proceacutederons par ordre deacutecroissant en commenccedilant par les TGIR ougrave la probleacutematique des donneacutees est particuliegraverement aiguumle puis par les grands centres de calcul nationaux les meacutesocentres et les laboratoires Nous terminerons avec quelques mots sur lrsquoimplication de lrsquoINP dans des projets sur les donneacutees de la Commission europeacuteenne

23 2 Les donneacutees dans les infrastructures synchrotrons neutrons et laser agrave eacutelectrons libres de lrsquoINP

Aujourdrsquohui la probleacutematique des grands volumes de donneacutees agrave lrsquoINP se pose de faccedilon particuliegraverement aiguumle dans ses tregraves grands instruments Il srsquoagit drsquoinfrastructures synchrotron neutron et laser agrave eacutelectrons libres certaines ayant une dimension europeacuteenne ou mecircme mondiale Ces infrastructures portent collectivement le nom de PaN pour

le CNRS sont les synchrotrons SOLEIL ( httpwwwsynchrotron-SOLEILfr ) et ESRF ( httpwwwesrfeu ) les infrastructures de diffusion neutronique ILL ( httpwwwilleu ) et Orpheacutee ( httpwww-centre-saclayceafrfrReacteur-Orphee ) et dans le futur lrsquoESS ( httpseuropeanspallationsourcese ) ainsi que depuis peu le laser agrave eacutelectrons libres X-FEL ( httpswwwxfeleu )

Le degreacute drsquoimplication du CNRS dans ces infrastructures et leur statut national ou international sont deacutetailleacutes dans le tableau (p 24) Bien que ces instruments soient ouverts agrave toutes les communauteacutes scientifiques et le sont pour la plupart agrave lrsquointernational crsquoest lrsquoINP qui est leur interlocuteur pour le CNRS Par ailleurs cette diversiteacute drsquoutilisateurs et de pratiques scientifiques fait de ces infrastructures de tregraves inteacuteressants laboratoires pour la gestion et le traitement de donneacutees et des modegraveles pour ce qui pourrait ecirctre fait au niveau de lrsquoINP et plus geacuteneacuteralement du CNRS

SOLEIL

Instruments agrave lrsquoILL

ESRF

22

Livre Blanc sur les Donneacutees au CNRS Eacutetat des Lieux et Pratiques - 2018

Face au fort accroissement du volume des donneacutees geacuteneacutereacutees et la diversiteacute croissante des utilisateurs les infrastructures PaN ont mis en place entre 2008 et 2010 une collaboration europeacuteenne sur les donneacutees nommeacutee laquo PaNdata raquo Elle concerne treize instruments europeacuteens avec pour objectif drsquoeacutetablir une infrastructure commune aux installations PaN qui permet un accegraves commun aux donneacutees et agrave des outils drsquoanalyse et de partage de donneacutees

Sur 2010-2011 cette collaboration a eacuteteacute soutenue par une action de support de lrsquoUnion europeacuteenne laquo PaNdata Europe raquo comprenant des ateliers autour de la standardisation des formats de lrsquoeacutechange drsquoinformation sur les utilisateurs de lrsquointeropeacuterabiliteacute des logiciels drsquoanalyse du reacutefeacuterencement des reacutesultats et de la politique des donneacutees

Srsquoen est suivi un projet INFRA de la Commission PaNdata Open Data Infrastructure ( ODI ) Celui-ci a permis la mise en place drsquoun systegraveme drsquoidentification commun nommeacute laquo Umbrella raquo pour six des treize installations Il a eacutegalement meneacute au choix drsquoun format binaire commun des donneacutees NeXusHDF5 et drsquoun systegraveme de gestion des meacutetadonneacutees laquo ICAT raquo utiliseacute dans trois des infrastructures

INP

23

Livre Blanc sur les Donneacutees au CNRS Eacutetat des Lieux et Pratiques - 2018

Afin de consolider ces avanceacutees et de preacuteparer lrsquoavenir en 2015 le projet laquo PaNDaaS raquo ( data analysis as a service ) a eacuteteacute proposeacute dans le cadre de lrsquoappel INFRADEV-4 de la Commission Plus preacuteciseacutement ce projet de 12 millions drsquoeuros avec vingt partenaires et porteacute par lrsquoESRF avait pour but de proposer aux utilisateurs des infrastructures PaN une plateforme mateacuterielle et logicielle unifieacutee permettant lrsquoanalyse la visualisation et la navigation au travers des donneacutees geacuteneacutereacutees par les instruments sur site ou agrave distance La solution envisageacutee eacutetait de type laquo cloud raquo avec appel possible agrave des infrastructures commerciales Le projet nrsquoa pas eacuteteacute retenu Toutefois un certain nombre des activiteacutes preacutevues dans ce projet continuent agrave avancer sur fonds propres

Parmi celles-ci lrsquoILL megravene lrsquoeffort de mise en place drsquoune politique des donneacutees Une telle politique est devenue indispensable pour la visibiliteacute des TGIR En 2013 lrsquoILL a deacuteployeacute un ensemble complet de services des donneacutees accessible aux utilisateurs au travers drsquoune interface web

Ces services permettent la recherche lrsquoaccegraves lrsquoannotation lrsquoarchivage lrsquoidentification et la publication des donneacutees La mise en place de cette politique a pris cinq ans pour des raisons eacutevoqueacutees ci-dessous Elle est baseacutee sur le cadre donneacute par PaNData selon lequel lrsquoinfrastructure est responsable de la preacuteservation des donneacutees geacuteneacutereacutees sur ses instruments Drsquoautre part gracircce agrave une collaboration avec DataCite et lrsquoINIST les donneacutees brutes sont indexeacutees par un DOI ( Digital Object Identifier ) propre avec un lien sur les scientifiques qui les ont geacuteneacutereacutees au travers drsquoun Research ID drsquoORCID Les meacutetadonneacutees instrumentales sont automatiquement ajouteacutees aux donneacutees brutes par lrsquointerface De plus cette interface relie les projets aux donneacutees et fournit aux utilisateurs des e-logbooks qui permettent de preacuteciser les conditions de lrsquoexpeacuterience et drsquoannoter les donneacutees Le systegraveme fournit une archive centrale en ligne organiseacutee par projet instrument et dates avec un accegraves initialement controcircleacute Les utilisateurs peuvent rendre leurs donneacutees publiques agrave tout moment et doivent le faire dans les trois ans sauf exception accordeacutee par la direction de

Synthegravese des TGIR PaN de lrsquoINP du volume de donneacutees geacuteneacutereacute et de leur politique des donneacutees

24

Livre Blanc sur les Donneacutees au CNRS Eacutetat des Lieux et Pratiques - 2018

lrsquoinfrastructure Elles deviennent alors accessibles au travers drsquoun portail qui les relient aux meacutetadonneacutees logs DOIs etc Elles sont utilisables sous les conditions de la licence CC-BY 40 Toute publication baseacutee sur ces donneacutees doit en citer le DOI et devrait agrave terme figurer dans lrsquoarchive avec ces donneacutees

La mise en place de cette politique des donneacutees a ducirc faire face agrave plusieurs difficulteacutes La premiegravere et peut-ecirctre la plus importante sont les habitudes et mentaliteacutes des utilisateurs qui conccediloivent ces donneacutees fruit de leurs ideacutees et de leur travail comme leur appartenant dans le sens ougrave ils veulent pouvoir les exploiter scientifiquement agrave plein avant de les rendre publiques On peut les comprendre Une autre difficulteacute a eacuteteacute drsquoassocier et de recevoir le soutien des nombreux organismes de recherche associeacutes agrave lrsquoILL Drsquoun point de vue plus technique la collecte drsquoarticles utilisant les donneacutees geacuteneacutereacutees au sein de lrsquoinfrastructure est compliqueacutee du fait des reacutefeacuterencements incomplets ou difficiles agrave identifier dans des recherches automatiseacutees ( p ex DOI des donneacutees inclus dans une figure ) et par le manque drsquooutils de collecte De faccedilon plus geacuteneacuterale une politique des donneacutees est un processus long agrave mettre en place et qui est ralenti par le temps de la science Neacuteanmoins les progregraves sont mesurables comme dans la figure ci-apregraves

A son tour LrsquoESRF mettra en place une politique des donneacutees tregraves similaire agrave celle de lrsquoILL sur toutes ses lignes expeacuterimentales agrave partir de 2020 Cette mise en place a un coucirct non neacutegligeable Par exemple la preacuteservation sur dix ans des donneacutees brutes requiert 100 keuroan de lecteurs et de bandes magneacutetiques suppleacutementaires De plus son implantation occupera 25 ETPsan sur quatre ans

Entre temps le service IT de lrsquoESRF a attaqueacute de front la probleacutematique PaNDaaS du fait de la forte exposition de lrsquoESRF aux gros volumes de donneacutees qui ne fera qursquoaugmenter avec la seconde phase du programme de modernisation de ses lignes qui se terminera en 2022 En effet le volume des donneacutees geacuteneacutereacute par les nouveaux instruments sera tel qursquoil ne sera plus possible de retourner au laboratoire avec ses donneacutees sur un disque Les donneacutees et les outils drsquoanalyse devront donc ecirctre au mecircme endroit Il sera aussi important de preacuteserver et de coupler le workflow des analyses avec les donneacutees elles-mecircmes afin de rendre lrsquoextraction des reacutesultats reproductible

INP

25

Livre Blanc sur les Donneacutees au CNRS Eacutetat des Lieux et Pratiques - 2018

Le but que poursuivent lrsquoESRF et ses collaborateurs PaN est de proposer un service complet allant des donneacutees agrave lrsquoanalyse qui comprend des moyens de calcul des logiciels et de lrsquoexpertise IT tout cela accessible au travers drsquoune interface web Les avantages sont de donner agrave des utilisateurs pas neacutecessairement experts en meacutethodes numeacuteriques non seulement lrsquoaccegraves agrave une infrastructure performante mais aussi agrave des outils drsquoanalyse homogegravenes et certifieacutes Cela permettra drsquoacceacuteleacuterer le processus drsquoanalyse mais aussi de faciliter la collaboration lors de ce processus ainsi que la preacuteservation du workflow Le tout renforcera eacutegalement lrsquoattractiviteacute de lrsquoinfrastructure de recherche Pour mener cette vision agrave terme lrsquoESRF aura investi 3 millions drsquoeuros en ressources humaines entre 2015 et 2020

Lrsquoapproche suivie par lrsquoESRF est de recruter des ingeacutenieurs logiciels pour deacutevelopper une bibliothegraveque qui implante des fonctionnaliteacutes communes agrave de nombreux types drsquoanalyses et de construire les applications scientifiques au-dessus en Open Source sous licence GSL au sein de collaborations geacutereacutees agrave travers Github La vision du service DaaS de lrsquoESRF est illustreacutee par le graphique ci-dessous

Pour conclure sur les TGIR de lrsquoINP les scientifiques du CNRS geacutenegraverent ~800 Toan de donneacutees sur ces instruments un chiffre qui croicirct drsquoanneacutee en anneacutee et de faccedilon encore plus significative avec la modernisation en cours des lignes de SOLEIL et de lrsquoESRF et le deacutemarrage drsquoE-XFEL Malgreacute lrsquoeacutechec en 2015 de la demande INFRADEV-4 laquo PaNDaaS raquo et les nombreux challenges poseacutes par la quantiteacute de donneacutees geacuteneacutereacutees par la varieacuteteacute des instruments et par la diversiteacute des pratiques des communauteacutes qui les utilisent le travail neacutecessaire autour de la probleacutematique de lrsquoorganisation du stockage de la mise agrave disposition et de lrsquoanalyse des donneacutees des infrastructures PaN se poursuit avec succegraves sous lrsquoinitiative efficace de lrsquoESRF de lrsquoILL de SOLEIL et de leurs collaborateurs Ce travail demande des moyens humains et informatiques ainsi qursquoun soutien institutionnel en prioriteacute en ce qui concerne les aspects de proprieacuteteacute intellectuelle

Le CNRS fort de sa multidisciplinariteacute et de sa preacutesence dans ces TGIR pourrait contribuer de plusieurs faccedilons agrave cet effort Le CNRS au travers de projets type Mastodons de la Mission pour lrsquointerdisciplinariteacute etou de Groupements de recherche pourrait encourager la collaboration de scientifiques de diffeacuterents domaines autour de

26

Livre Blanc sur les Donneacutees au CNRS Eacutetat des Lieux et Pratiques - 2018

lrsquoameacutelioration des algorithmes utiliseacutes dans lrsquoanalyse de donneacutees synchrotron par exemple sur le modegravele de CAMERA ( httpwwwcameralblgov ) aux Eacutetats-Unis Plus concregravetement le CNRS pourrait financer des postes ou mois drsquoingeacutenieur pour deacutevelopper des logiciels de traitement de donneacutees synchrotron tels XSOCS ( httpssourceforgenetprojectsxsocs ) Il pourrait eacutegalement donner accegraves agrave des moyens informatiques de type cloud agrave ces TGIR au travers par exemple drsquoun accord avec le CC-IN2P3 ou France Grilles De surcroicirct agrave lrsquoavenir le CNRS pourrait ecirctre le moteur derriegravere la creacuteation drsquoune archive Open Data et le deacuteveloppement drsquoun portail Open Science tel que le Centre de Donneacutees astronomiques de Strasbourg ( httpcdswebu-strasbgfr ) auxquelles les TGIR PaN participeraient

Outre les retours en termes de science aupregraves des TGIR PaN ces expeacuteriences dans lrsquoorganisation le stockage la mise agrave disposition et lrsquoanalyse des donneacutees dans un environnement de diversiteacute drsquoutilisateurs et de

pratiques scientifiques qui restent neacuteanmoins limiteacutees aux probleacutematiques PaN pourraient servir de tremplin agrave la mise en place drsquoune politique de la conservation et de lrsquoexploitation des donneacutees au CNRS

234 Les donneacutees de lrsquoINP dans les centres de calcul nationaux

Si on se place au niveau des centres nationaux de calcul les projets de physique ( CT 5 et 9 ) geacutenegraverent et utilisent au moins temporairement beaucoup de donneacutees avec un total de lrsquoordre de 500 To eacutequivalent au climat hors CMIP6 ( CT1 ) et supeacuterieur agrave lrsquoastrophysique et agrave la geacuteophysique ( CT 4 ) cf figures ci-dessous qui rapportent la quantiteacute de donneacutees preacutesentes sur les disques de travail en feacutevrier 2015 sur les deux calculateurs de lrsquoIDRIS

Donneacutees non peacuterennes agrave lrsquoIDRIS ($WORKDIR)

INP

27

Livre Blanc sur les Donneacutees au CNRS Eacutetat des Lieux et Pratiques - 2018

Neacuteanmoins une grande partie de ces donneacutees ne sont neacutecessaires que dans des eacutetapes intermeacutediaires des calculs ou alors sont preacuteserveacutees ailleurs En effet si lrsquoon considegravere les donneacutees conserveacutees agrave long terme sur bandes magneacutetiques agrave lrsquoIDRIS les physiciens sont des utilisateurs moyens et se retrouvent loin derriegravere les climatologues avec plus de 300 To sur bandes comme lrsquoindique la figure suivante

Pour analyser cette situation de plus pregraves nous prenons comme exemple dans le CT 5 la QCD sur reacuteseau dont les objectifs sont

bull Deacuteterminer les proprieacuteteacutes fondamentales de ces constituants eacuteleacutementaires que sont les quarks

bull Calculer les nombreuses proprieacuteteacutes des protons neutrons et autres hadrons

bull Aider agrave reacuteveacuteler de nouvelles particules eacuteleacutementaires etou interactions fondamentales

bull Agrave plus long terme calculer les proprieacuteteacutes de noyaux atomiques ab initio

Lrsquoapproche consiste agrave reacutesoudre numeacuteriquement les eacutequations de la chromodynamique quantique ( QCD ) parfois coupleacutees agrave celles de lrsquoeacutelectrodynamique quantique ( QED ) dans leur reacutegime hautement non lineacuteaire Une telle approche induit de gros calculs massivement parallegraveles sur des infrastructures nationales et internationales En France 2 eacutequipes contribuent agrave cet effort mondial

bull La European Twisted Mass collaboration ( LPT Orsay LPC Clermont )

bull La Budapest-Marseille-Wuppertal collaboration ( CPT Marseille SPhN Saclay )

Donneacutees preacuteserveacutees sur bandes magneacutetiques agrave lrsquoIDRIS

28

Livre Blanc sur les Donneacutees au CNRS Eacutetat des Lieux et Pratiques - 2018

Du point de vue des donneacutees dans cette activiteacute de recherche ces collaborations repreacutesentent aujourdrsquohui

bull $WORKDIR

o Typiquement 10 To sur Turing

o ETMC pic agrave 23 Po en post-traitement au CC-IN2P3

bull Sauvegarde laquo peacuterenne raquo

o ETMC ~130 To au CC-IN2P3

o BMWc ~50 To au FZ Julich

Il est important de noter que dans ce domaine drsquoactiviteacute des donneacutees acircgeacutees de plus drsquoenviron cinq ans sont pour la plupart obsolegravetes et il devient plus facile de les recalculer si on en a vraiment besoin Bien sucircr il en va autrement pour les donneacutees expeacuterimentales obtenues aupregraves drsquoacceacuteleacuterateurs qui elles ne sont geacuteneacuteralement pas faciles agrave reproduire

Un certain nombre des donneacutees obtenues en QCD sur reacuteseau sont partageacutees au travers de lrsquoInternational Lattice Data Grid ( ILDG ) avec des formats et des meacutetadonneacutees standardiseacutes des protocoles et outils drsquoeacutechange entre grilles reacutegionales et enfin des catalogues sur les grilles reacutegionales Il srsquoagit principalement des configurations de jauge qui sont agrave la base de tout calcul en QCD sur reacuteseau et qui reacutesultent drsquoun processus markovien coucircteux numeacuteriquement

Dans ce domaine on peut eacutegalement faire une projection sur les besoins en matiegravere de donneacutees agrave lrsquoavenir

bull Pour les eacutetudes dont la vocation est la deacutetermination des proprieacuteteacutes fondamentales des quarks les calculs de proprieacuteteacutes de hadrons ou lrsquoaide agrave la reacuteveacutelation drsquoune nouvelle physique fondamentale on anticipe une croissance modeacutereacutee absorbeacutee par le renouvellement des infrastructures de calcul intensif

bull Par contre en ce qui concerne lrsquoeacutetude ab initio des noyaux atomiques qui nrsquoest actuellement qursquoau niveau de balbutiements la croissance du volume des donneacutees sera potentiellement exponentielle dans 5 agrave 10 ans

235 Les donneacutees dans les laboratoires de lrsquoINP

En mars 2015 la DIST a publieacute les reacutesultats drsquoune enquecircte aupregraves des Directrices et Directeurs drsquouniteacutes du CNRS concernant les usages et les besoins drsquoinformation scientifique et technique des laboratoires En srsquoappuyant sur cette enquecircte ainsi que sur des consultations au sein de lrsquoINP nous avons tireacute les conclusions suivantes concernant les donneacutees dans les laboratoires de lrsquoINP

bull Les eacutequipes dans les laboratoires de lrsquoINP engendrent des donneacutees drsquoexpeacuterience et de simulation avec des volumes geacuteneacuteralement geacuterables au niveau local

bull Les eacutequipes de lrsquoINP peuvent aussi contribuer agrave geacuterer des bases de donneacutees par exemple en physique atomique et moleacuteculaire ( typiquement sur un site web un serveur de laboratoire ou un serveur international )

bull Les donneacutees sont geacuteneacuteralement sous la responsabiliteacute des eacutequipes qui les produisent

bull Il y a peu de financements externes lieacutes agrave la gestion de ces donneacutees

bull Peu de demandes eacutemanent des laboratoires sur les donneacutees ( beaucoup plus sur le calcul )

bull Tregraves peu de laboratoires ont un plan de gestion de donneacutees

bull Sur certains sites geacuteographiques il y a une participation minoritaire agrave la mutualisation des infrastructures de donneacutees par exemple dans les salles informatiques du datacentre Virtual Data du LabEx P2IO ( Paris-Saclay ) et au Dark Energy Data Center du LabEx OCEVU ( MarseilleMontpellierToulouse )hellip

bull Il nrsquoy a pas encore de politique sur la gestion des donneacutees dans les laboratoires ni de mutualisation au niveau de lrsquoinstitut

INP

29

Livre Blanc sur les Donneacutees au CNRS Eacutetat des Lieux et Pratiques - 2018

Il y a neacuteanmoins des theacutematiques eacutemergentes dans les laboratoires de lrsquoINP qui pourraient ecirctre confronteacutees agrave la probleacutematique du Big Data telle qursquoelle apparaicirct en lien avec par exemple les reacuteseaux sociaux En effet de petites eacutequipes ( au CPT agrave Marseille ou agrave lrsquoIXXI de Lyon ) eacutetudient les donneacutees de reacuteseaux sociaux ( p ex Twitter ) avec pour but par exemple de comprendre diffeacuterents comportements humains agrave lrsquoaide drsquooutils de physique et de lrsquointelligence artificielle ( p ex analyse des dialectes espagnols ) Dans ce genre drsquoeacutetude on procegravede typiquement agrave lrsquoanalyse de 10-20 To de donneacutees de flux de reacuteseau social qui doivent ecirctre laquo filtreacutees raquo agrave lrsquoaide de fermes de PCs de type Hadoop Les quelques Go de donneacutees obtenues peuvent ensuite ecirctre analyseacutes en local

Dans ce domaine les volumes de donneacutees ont une croissance exponentielle qursquoil sera difficile de suivre Un besoin drsquoacceacuteder agrave des fermes de PCs de type Hadoop se manifeste ainsi qursquoun besoin de formation dans lrsquoutilisation de techniques de data mining et dans la gestion de systegravemes Hadoop La possibiliteacute drsquoutiliser des plateformes commerciales ( Amazon Numergy Cloudwatt ) est une possibiliteacute Ces theacutematiques de recherche sont plus reacutepandues dans drsquoautres instituts ( INS2I INSHS ) et il est souhaitable que les solutions agrave ces challenges soient envisageacutees avec ces instituts

236 Participation aux initiatives europeacuteennes sur les donneacutees

Au travers de lrsquoimplication de ses chercheurs dans les activiteacutes du Centre Europeacuteen de Calcul Atomique et Moleacuteculaire ( CECAM ) lrsquoINP participe au Centre of Excellence for Computing Applications ( CoE ) E-CECAM ( httpswwwe-cam2020eu ) qui a pour vocation la creacuteation de codes modulaires open source la formation de jeunes scientifiques et de personnels de lrsquoindustrie dans le deacuteveloppement et lrsquoutilisation de logiciels deacutedieacutes et le conseil au monde industriel dans les domaines de la structure eacutelectronique la dynamique quantique et moleacuteculaire et la modeacutelisation multi-eacutechelles Par contre il est regrettable que lrsquoimplication de ses chercheurs dans des initiatives telles que le CoE NoMad ( Novel Material Discovery httpsnomad-coeeu ) soit tregraves faible alors qursquoil srsquoagit de mettre en place un dispositif pour heacuteberger organiser et partager agrave lrsquoeacutechelle internationale les donneacutees et reacutesultats de calculs et de simulations en physique et chimie des mateacuteriaux

237 Conclusions

La probleacutematique des donneacutees agrave lrsquoINP se pose surtout au travers des TGIR PaN Geacutereacutees par lrsquoINP ces infrastructures servent des communauteacutes qui vont bien au-delagrave de lrsquoINP et de la France

De gros efforts drsquoharmonisation et de mise en place drsquoune politique des donneacutees et de mutualisation ont eacuteteacute effectueacutes ( PaNdata PaNDaaS ) mais nrsquoempecircchent pas drsquoecirctre confronteacutes agrave diverses difficulteacutes Devant lrsquoaccroissement des donneacutees ces efforts deviennent incontournables Ils pourraient aussi servir de base au deacuteveloppement drsquoune politique de la conservation et de lrsquoexploitation des donneacutees au niveau du CNRS

Drsquoun point de vue stockage de donneacutees sur disques dans les centres de calcul nationaux lrsquoINP occupe de lrsquoordre de 200 Toctets par site en scratch et en laquo peacuterenne raquo le rapport entre Toctets engendreacutes et volume de calcul eacutetant petit Dans les meacutesocentres le stockage des donneacutees INP ne semble pas ecirctre un problegraveme important Au niveau des laboratoires les donneacutees sont geacutereacutees par les eacutequipes qui les geacutenegraverent et qui les utilisent

Il nrsquoy a pas encore de politique des donneacutees de lrsquoINP vis-agrave-vis des donneacutees dans les laboratoires la demande nrsquoeacutetant pas particuliegraverement forte LrsquoINP participe au travers de petites eacutequipes agrave lrsquoexploitation de grandes masses de donneacutees sociales meacutedicales etc en appliquant des meacutethodes de modeacutelisation en partie issues de la physique mais pour lrsquoinstant de faccedilon minoritaire

Drsquoautre part LrsquoINP participe aux deacutefis de la Mission pour lrsquointerdisciplinariteacute sur les donneacutees ( p ex Mastodons ) et au GDR MaDICS mais cela reste marginal aussi

30

Livre Blanc sur les Donneacutees au CNRS Eacutetat des Lieux et Pratiques - 2018

24 INSTITUT DES SCIENCES BIOLOGIQUES ( INSB )

241 Introduction

Crsquoest lrsquoassociation de biologistes comme James Watson de chimistes et de physiciens comme R Franklin et F Crick qui a permis de comprendre en 1953 les bases du fonctionnement de lrsquoADN support de lrsquoinformation geacuteneacutetique entraicircnant une premiegravere reacutevolution celle de la biologie moleacuteculaire La deuxiegraveme reacutevolution celle de la geacutenomique a commenceacute au milieu des anneacutees 1990 et a eacuteteacute marqueacutee par le seacutequenccedilage du geacutenome humain un code de plus de 3 milliards de lettres Ce succegraves a neacutecessiteacute des deacuteveloppements technologiques consideacuterables dans les domaines de la physique de lrsquoeacutelectronique de lrsquoinformatique de la chimie et de la biologie

Pour reacutepondre aux besoins de stockage et drsquoanalyse des seacutequences biologiques ( composeacutees drsquoune succession de 4 nucleacuteotides A C G T pour les seacutequences nucleacuteiques et drsquoune succession de 20 acides amineacutes pour les seacutequences proteacuteiques ) les premiegraveres collections de donneacutees en biologie sont apparues sous la forme de livres ( Atlas of Protein Sequences de Dayhoff et al ( 1965-1978 ) Nucleic Acid Sequences Handbook de Gautier et al ( 1981 ) qui contenait 1095 seacutequences et 525506 nucleacuteotides ) puis de banques de donneacutees informatiseacutees au deacutebut des anneacutees 1980 Trois grands centres se chargent de la collecte des seacutequences nucleacuteiques aux Etats-Unis Los Alamos Sequence Database puis GenBank ( depuis 1979 ) au Japon DNA Data Bank of Japan - DDBJ ( depuis 1984 ) et en Europe European Molecular Biology Laboratory Sequence Database - EMBL-Bank ( depuis 1981 ) Ces banques de donneacutees ont un format de donneacutees qui leur est propre mais une collaboration internationale a eacuteteacute mise en place afin drsquoassurer que le contenu de ces ressources soit pratiquement identique Les seacutequences proteacuteiques quant agrave elles ont eacuteteacute reacutepertorieacutees au NCBI ( National Center for Biotechnology Information Etats-Unis ) dans la PIR ( Protein Information Resource - 1984-2004 ) Aujourdrsquohui une seule ressource est maintenue en Europe UniProt dont la fraction contenant des donneacutees laquocureacuteesraquo Swiss-Prot est prise en charge par lrsquoInstitut Suisse de Bioinformatique ( SIB )

La bioinformatique a eacutemergeacute avec la disponibiliteacute des premiegraveres seacutequences proteacuteiques Lrsquoarticle fondateur de Zukerkandl et Pauling ( 1965 ) preacutesente des analyses informatiques etou matheacutematiques et statistiques sur des seacutequences biologiques pour reconstituer lrsquohistoire eacutevolutive des ecirctres vivants Le terme laquobioinformatiqueraquo srsquoest populariseacute dans les anneacutees 1990 autour de la deacutefinition suivante informatique appliqueacutee agrave la biologie Il srsquoagit de lrsquoensemble des meacutethodes informatiques permettant de ( i ) geacuterer les donneacutees produites en masse par la biologie ( ii ) analyser ces donneacutees brutes pour en extraire de lrsquoinformation ( iii ) organiser et structurer cette information ( iv ) infeacuterer des connaissances biologiques ( agrave lrsquoaide de modegraveles et de theacuteories ) agrave partir des informations stockeacutees dans des collections et ( v ) eacutenoncer des hypothegraveses geacuteneacuteralisatrices et de formuler des preacutedictions En pratique les theacutematiques principales de la bioinformatique sont les suivantes

bull Lrsquoanalyse des seacutequences ( ADN ou proteacuteines ) annotation des geacutenomes phylogeacutenie et eacutevolution geacutenomique comparative analyse de variants dans le cadre de maladies geacuteneacutetiques geacutenomique du cancer

bull Les donneacutees drsquoexpression ( ARN et proteacuteines )

bull La structure des macromoleacutecules ( ARN et proteacuteines )

bull Les reacuteseaux de reacutegulation et lrsquoanalyse du meacutetabolisme

bull La meacutetageacutenomique et meacutetabarcoding

bull Lrsquoanalyse drsquoimages

On assiste agrave un changement drsquoeacutechelle en biologie depuis une dizaine drsquoanneacutees et la biologie est entreacutee avec lrsquoavegravenement des approches ndashomiques ( cf 242 ) dans lrsquoegravere du Big Data En effet le deacuteveloppement des technologies agrave haut deacutebit permet par exemple de collecter les donneacutees agrave lrsquoeacutechelle de la cellule entiegravere et drsquoenvisager une deacutemarche encyclopeacutedique en collectant tous les gegravenes tous les transcrits toutes les proteacuteines toutes les interactions tous les meacutetabolites et les flux etc Les conseacutequences sont consideacuterables tant pour notre compreacutehension du vivant que pour les applications

INSB

31

Livre Blanc sur les Donneacutees au CNRS Eacutetat des Lieux et Pratiques - 2018

Nous pouvons maintenant aborder la complexiteacute du vivant non plus uniquement de maniegravere analytique mais de maniegravere globale agrave lrsquoeacutechelle des dizaines de milliers de macromoleacutecules qui interagissent entre elles pour faire fonctionner une cellule un tissu un organisme entier une communauteacute drsquoorganismes La gestion et lrsquoanalyse de ces gros volumes de donneacutees geacuteneacutereacutees par la biologie est donc un enjeu majeur

242 La probleacutematique des donneacutees agrave lrsquoINSB

Lrsquoavegravenement des approches -omiques ( transcriptomique geacutenomique proteacuteomique et meacutetabolomique ) a tregraves largement contribueacute agrave lrsquoacquisition de connaissances sur les organismes vivants aussi bien modegraveles que non modegraveles Depuis 2007 nous assistons au deacuteveloppement de nouvelles technologies de seacutequenccedilage agrave tregraves haut deacutebit ( NGS Next Generation Sequencing ) qui permettent de produire drsquoimportantes quantiteacutes de seacutequences drsquoADN et ARN

De fait la taille des geacutenomes seacutequenceacutes est extrecircmement variable le plus petit geacutenome ( non viral ) connu est Carsonella ruddii 016 Mbp ( millions or mega of base pairs ) et le plus grand Amoeba dubia une amibe microscopique qui preacutesente un geacutenome 100 fois plus gros que le geacutenome humain ( 675 Giga base pairs )

Une eacutetape preacutealable au seacutequenccedilage des geacutenomes drsquoorganismes vivants consiste agrave deacutecouper ces derniers en millions de fragments ( shotgun sequencing ) La taille des lectures varie de 35 bp jusqursquoagrave 2 x 200 bp pour les seacutequenceurs de 2egraveme geacuteneacuteration ( seacutequences courtes mais de tregraves bonne qualiteacute ) et de 14 kbp agrave 47 kbp pour les seacutequenceurs de 3egraveme geacuteneacuteration ( seacutequences beaucoup plus longues mais contenant un taux drsquoerreur autour de 10 aujourdrsquohui ) Un run de seacutequenccedilage produit 3 milliards de lectures apparieacutees de 2 x 100 bp soit 600 Gbp qui repreacutesentent 48 To de donneacutees laquo brutes raquo et environ 10 To avec les meacutetadonneacutees Les coucircts de seacutequenccedilage sont passeacutes de 10 000 $ agrave 003 $ par million de nucleacuteotides seacutequenceacutes Alors que la croissance de la banque geacuteneacuteraliste EMBL a doubleacute sa taille tous les 187 mois La deacutecroissance du coucirct de seacutequenccedilage nrsquoest plus proportionnelle depuis 2007 agrave la deacutecroissance exponentielle des coucircts de stockage et drsquoanalyse informatique ( loi de Moore )

32

Livre Blanc sur les Donneacutees au CNRS Eacutetat des Lieux et Pratiques - 2018

Ces deux facteurs induisent de multiples problegravemes Des fichiers de donneacutees de plusieurs dizaines ( voire plusieurs centaines ) de Go contenant des dizaines de millions de seacutequences sont geacuteneacutereacutes et engendrent des problegravemes de transfert de stockage et des traitements gourmands en meacutemoire vive espace disque et temps de calcul Il y a donc de plus en plus une neacutecessiteacute impeacuterative drsquoutiliser des clusters de calcul ( meacutesocentres CC-IN2P3 IDRIS CCRT ) Drsquoautre part de moins en moins de seacutequences effectivement produites dans les laboratoires sont soumises aux banques de donneacutees publiques En conseacutequence les trois collections geacuteneacuteralistes ne sont plus exhaustives et lrsquoon assiste agrave un foisonnement de collections locales et de banques de donneacutees speacutecialiseacutees qui pose seacuterieusement la question de la dureacutee de validiteacute de ces systegravemes Au niveau europeacuteen la mise en place

drsquoELIXIR a eacuteteacute une reacuteponse aux difficulteacutes croissantes de lrsquoEBI ( European Bioinformatics Institute ) agrave geacuterer toutes ces donneacutees Il srsquoagit drsquoune initiative lanceacutee en 2007 dans le cadre du programme ESFRI ( infrastructures de recherche europeacuteennes ) lrsquoinfrastructure ELIXIR est constitueacutee drsquoun hub central et de nœuds associeacutes ( 23 pays partenaires aujourdrsquohui ) Les biologistes sont noyeacutes sous une avalanche de donneacutees On estime que lrsquoon passe aujourdrsquohui 25 du temps agrave engendrer les donneacutees et 75 du temps agrave les analyser Aux donneacutees de seacutequences geacutenomiques viennent tout naturellement srsquoajouter celles geacuteneacutereacutees par drsquoautres technologies -omiques transcriptomique proteacuteomique meacutetabolomique structuromique et les donneacutees drsquoimages qui geacutenegraverent des quantiteacutes eacutenormes de donneacutees agrave des niveaux biologiques multiples

INSB

33

Livre Blanc sur les Donneacutees au CNRS Eacutetat des Lieux et Pratiques - 2018

Au niveau national le ministegravere a lanceacute en 2010 les premiers appels agrave projets du Plan drsquoInvestissement drsquoAvenir ( PIA ) qui doit entre autres doter la France de plusieurs grandes infrastructures drsquoenvergure nationale et tregraves compeacutetitives internationalement Les mots-cleacutes derriegravere ces infrastructures distribueacutees recouvrent la mutualisation un service ouvert agrave la communauteacute et une expertise pointue dans une technologie du domaine en eacutemergence

bull France Geacutenomique ( FG ) est lrsquoinfrastructure de production de seacutequences geacutenomiques ( ADN ARN ) Les ordres de grandeur des technologies de seacutequenccedilage ont eacuteteacute donneacutes ci-dessus Les donneacutees des appels agrave grands projets de FG sont geacuteneacuteralement traiteacutees au CCRT ougrave lrsquoeacutecosystegraveme neacutecessaire aux traitements bio-informatiques a eacuteteacute mis en place ( cf ci-dessous )

bull ProFI produit des donneacutees de proteacuteomique la volumeacutetrie associeacutee agrave chaque eacutetude est de lrsquoordre de quelques centaines de Mo qui multiplieacutes par le nombre drsquoeacutetudes meneacutees simultaneacutement repreacutesente de lrsquoordre de 100 To mobiliseacutes

bull FRISBI est une infrastructure deacutedieacutee agrave la biologie structurale inteacutegrative dont les besoins informatiques relegravevent surtout du temps de calcul ( programmes de dynamique moleacuteculaire qui peuvent ecirctre exeacutecuteacutes dans les grands centres de calcul nationaux )

bull MetaboHUB produit des donneacutees de meacutetabolomique et de fluxomique chaque plateforme gegravere ses donneacutees ( environ 20 Toan ) de faccedilon diffeacuterente et opportuniste

bull France-BioImaging produit des donneacutees drsquoimages dans un large panel de modegraveles biologiques ( de la cellule unique au petit animal en condition pathologique ) Les diffeacuterents nœuds de lrsquoinfrastructure produisent annuellement 2 Peacutetaoctets de donneacutees avec des donneacutees par projet unitaire de 100 Go agrave 10 To Le flux de donneacutees neacutecessite de laisser les systegravemes de stockage au plus pregraves des systegravemes drsquoacquisition et des moyens de calcul Il est eacutegalement plus efficace de deacuteplacer les algorithmes et logiciels drsquoanalyse au plus pregraves des donneacutees France-BioImaging a deacuteveloppeacute une solution laquo pilote raquo open source de gestion des donneacutees images qui se precircte agrave cette infrastructure distribueacutee ( httpsstrandlsgithubioopenimadis )

Pour reacutepondre aux besoins bioinformatiques engendreacutes par ces quantiteacutes croissantes de donneacutees de nature tregraves diffeacuterente lrsquoInstitut Franccedilais de Bioinformatique ( IFB ) projet laureacuteat de la seconde vague des appels du PIA ( 2012-2019 ) a eacuteteacute mis en place en 2013 Il est

organiseacute en six centres reacutegionaux ( APLIBIO IFB-GO IFB-SO IFB-GS PRABI et IFB-NE ) qui sont des regroupements de plateformes et drsquoeacutequipes de recherche en bioinformatique et en un nœud national ( IFB-core ) qui a une structure de type UMS IFB-core est localiseacute aujourdrsquohui agrave lrsquoIDRIS ( Orsay ) qui heacuteberge aussi les moyens de calcul de lrsquoIFB Sa mission geacuteneacuterale est de fournir des ressources de base et des services en bio-informatique agrave la communauteacute des sciences de la vie autrement dit

bull Fournir un appui aux programmes de la communauteacute des sciences du vivant

bull Mettre agrave disposition une infrastructure informatique deacutedieacutee agrave la gestion et lrsquoanalyse des donneacutees biologiques

bull Agir comme un laquo intermeacutediaire raquo entre la communauteacute des sciences du vivant et celle de la recherche en ( bio )informatique

LrsquoIFB est le nœud franccedilais du reacuteseau europeacuteen ELIXIR et participe agrave de nombreuses actions et projets de cette infrastructure en termes de deacutefinition de standards et drsquoontologies de contribution agrave la FAIRication des donneacutees ( Findable Accessible Interoperable Reusable ) de mise en place de formation ( e-learning )

Dans sa nouvelle feuille de route lrsquoIFB a deacutecideacute de renforcer les liens avec les autres infrastructures ndashomiques ( c-agrave-d service agrave la communauteacute ) et de deacutevelopper un axe drsquoinnovation de laquo bioinformatique inteacutegrative raquo agrave travers la mise en place de projets pilotes transverses puis dans un second temps drsquoappels agrave deacutefis Le constat global est que le verrou majeur de la production scientifique et donc de sa compeacutetitiviteacute se situe largement du cocircteacute de la gestion de la diffusion et de lrsquointerpreacutetation des donneacutees geacuteneacutereacutees au sein de ces infrastructures LrsquoIFB a un rocircle majeur agrave jouer dans lrsquoaccompagnement de ces besoins en mettant au service de ces infrastructures ses ressources et savoir-faire dans le domaine des technologies du numeacuterique pour la biologie et la santeacute

LrsquoIFB va donc amplifier ces collaborations transversales au service des infrastructures productrices de donneacutees autour de trois axes

bull Mise en place de lrsquoinfrastructure de stockage distribueacute des donneacutees massives et leur mise agrave disposition

bull Mise en place de meacutethodes associeacutees de lrsquointeacutegration de ces donneacutees heacuteteacuterogegravenes et du data mining

34

Livre Blanc sur les Donneacutees au CNRS Eacutetat des Lieux et Pratiques - 2018

bull Deacuteveloppement drsquooutils drsquointerpreacutetation et de visualisation de donneacutees biologiques pour accroicirctre leur utiliteacute et faciliter leur interpreacutetation

Compareacute aux traitements des donneacutees en physique chimie sciences de la Terre etc le traitement des donneacutees biologiques ( notamment lrsquoanalyse des seacutequences ) revecirct plusieurs caracteacuteristiques tregraves diffeacuterentes qui expliquent lrsquoutilisation faible des grands centres de calcul nationaux par cette communauteacute ( i ) beaucoup drsquoanalyses de donneacutees sont distribuables ( paralleacutelisables au niveau les donneacutees ) ( ii ) elles neacutecessitent des enchaicircnements de traitements diffeacuterents ( pipelines workflows ) lrsquoutilisation de collections de donneacutees reacuteguliegraverement mises agrave jour et lrsquointeacutegration de donneacutees heacuteteacuterogegravenes ( iii ) dans la pratique une grande varieacuteteacute de langages est utiliseacutee ( Perl Python Java ) et les nombreux logiciels employeacutes ( c-agrave-d 98 logiciels drsquoalignement de lectures sur un geacutenome ) ont souvent beaucoup de deacutependances ( bibliothegraveques versions ) Typiquement une plateforme de bio-informatique met agrave disposition plusieurs centaines de logiciels diffeacuterents La mise en œuvre de ces logiciels neacutecessite le deacuteveloppement drsquointerfaces conviviales ( web GUI ) de suivre lrsquoeacutevolution tregraves rapide des technologies de production de donneacutees et de mettre agrave jour de faccedilon tregraves reacuteguliegravere de nombreuses collections de donneacutees

A titre drsquoillustration la premiegravere version de la banque de donneacutees de familles de domaines proteacuteiques ProDom a eacuteteacute distribueacutee en 1994 en utilisant comme source primaire de donneacutees celles de la banque UniProtKB ( Swiss-Prot + TrEMBL ) La construction de ProDom srsquoeffectue en deux temps geacuteneacuteration des familles proprement dites puis post-traitements et annotation des familles La construction des familles srsquoeffectue par clustering de segments homologues de proteacuteines Initialement les traitements reposaient sur MkDom2 un algorithme reacutecursif en O( n2 ) baseacute sur lrsquoutilisation du programme PSI-BLAST ProDom en 2002 neacutecessitait 2 mois de temps CPU puis 15 mois en 2006 pour passer agrave plus de 20 anneacutees de temps CPU en 2020 On voit bien ici la neacutecessiteacute de repenser la meacutethode en introduisant une paralleacutelisation des calculs et une compression des donneacutees A partir de lagrave un nouvel algorithme MPI-MkDom3 a eacuteteacute introduit avec diverses ameacuteliorations dont une paralleacutelisation agrave base de MPI La construction des familles de ProDom 2010 avec cette nouvelle version prend moins drsquoune semaine aujourdrsquohui au lieu de plus de 20 ans Les diverses optimisations reacutealiseacutees ont imposeacute entre autres de prendre en compte les probleacutematiques de lrsquoeacutequilibrage de charge entre les processeurs et ont conduit au deacuteveloppement de Paraload un outil drsquoeacutequilibrage de charge dynamique agrave base de modegravele client-serveur

Cette illustration constitue un exemple drsquoutilisation de donneacutees massives en biologie qui neacutecessite des temps de calcul tregraves importants et dont la valeur ajouteacutee provient des reacutesultats des calculs effectueacutes sur les donneacutees laquo brutes raquo que sont les seacutequences proteacuteiques

On peut ainsi constater que la bioinformatique a eu tendance par le passeacute agrave deacutevelopper ses propres infrastructures et affiche une faible utilisation des centres de calcul HPC ( excepteacute pour les simulations de dynamique moleacuteculaire ) De mecircme lrsquoutilisation des meacutesocentres reacutegionaux reste modeacutereacutee Cependant la communauteacute est consciente des difficulteacutes de passage agrave lrsquoeacutechelle des plateformes de bioinformatique et explore lrsquointeacuterecirct de lrsquoutilisation de la grille avec le projet GRISBI sur Grenoble et srsquoimplique dans le deacuteveloppement drsquoun Cloud acadeacutemique ( avec le soutien de lrsquoIBCP de GenOuest et de lrsquoIFB ) qui repose sur les infrastructures nationales de lrsquoIFB et les plateformes reacutegionales Ces plateformes de bioinformatique fournissent un accegraves gratuit agrave leurs infrastructures soit environ 10 000 cœurs et 1 Po de stockage ( sur 20 localisations diffeacuterentes ) alors que le nœud national de lrsquoIFB heacutebergeacute agrave lrsquoIDRIS apporte de lrsquoordre de 10 000 cœurs et 2 Po de stockage

243 Conclusion

Lrsquoensemble de la biologie est impacteacute par la disponibiliteacute des meacutethodes agrave haut deacutebit qui induisent des changements profonds dans les pratiques ( objectifs plans expeacuterimentaux ) Toute analyse neacutecessite deacutesormais de disposer de moyens de calcul conseacutequents ( validations statistiques ) qui doivent ecirctre disponibles aussi bien au niveau national que local

On assiste agrave un veacuteritable changement de paradigme au sein de la biologie avec un besoin deacutecroissant en techniciens sur les paillasses et croissant en analystes de donneacutees qui sont actuellement une denreacutee rare

Il y a obligation de deacutevelopper de nouvelles approches pour la gestion le partage et le traitement des donneacutees en franchissant le seuil de la paralleacutelisation des calculs et en travaillant sur la reacuteduction de la taille des jeux de donneacutees ( eacutechantillonnage compression clustering )

Du point de vue des infrastructures -omiques en compleacutement du rapprochement existant aupregraves de lrsquoinfrastructure national de lrsquoIFB il faudrait inciter les plateformes reacutegionales agrave srsquoappuyer plus fortement sur les meacutesocentres de calcul

INSB

35

Livre Blanc sur les Donneacutees au CNRS Eacutetat des Lieux et Pratiques - 2018

25 INSTITUT DES SCIENCES HUMAINES ET SOCIALES ( INSHS )

251 Introduction

Les donneacutees sont devenues au niveau international un facteur cleacute pour nombre de disciplines SHS ainsi qursquoun domaine en soi Les donneacutees sont une matiegravere convoiteacutee pour la recherche en SHS comme pour drsquoautres secteurs drsquoactiviteacute Produire diffuser tirer de la connaissance des donneacutees est donc une question strateacutegique pour lrsquoInSHS

LrsquoInSHS regroupe des disciplines dans lesquelles les analyses quantitatives baseacutees sur des jeux importants de donneacutees sont depuis longtemps fondamentales ( lrsquoeacuteconomie la sociologie la deacutemographie ) et drsquoautres qui sans ignorer lrsquousage des donneacutees ont vu de maniegravere plus reacutecente lrsquoeacutemergence de probleacutematiques propres au data driven ( litteacuterature histoire )

Une des caracteacuteristiques majeures de la donneacutee en SHS reacuteside dans la tregraves grande heacuteteacuterogeacuteneacuteiteacute des types de donneacutees utiliseacutes par les chercheurs qui vont des donneacutees agreacutegeacutees de la statistique publique jusqursquoagrave des corpus textuels ou drsquoimages en passant par les donneacutees individuelles et nominatives ou pour lrsquoarcheacuteologie par des donneacutees 3D

Cette heacuteteacuterogeacuteneacuteiteacute est renforceacutee par le fait que les chercheurs en SHS disposent de donneacutees de deux origines principales les donneacutees qursquoils ont produites par eux-mecircmes mais aussi de donneacutees produites par la socieacuteteacute comme les donneacutees fournies par la statistique publique ainsi que par le mouvement drsquoopen data ou les corpus fournis par les bibliothegraveques qui peuvent ecirctre interrogeacutes ou combineacutes de maniegravere novatrice

Lrsquoapparition de ces vastes corpus de sources par exemple archeacuteologiques artistiques ou textuelles ou la constitution de grandes bases de donneacutees donnant accegraves aux comportements personnels et sociaux des personnes dans une vaste gamme de domaines modifient en effet la maniegravere dont les chercheurs SHS abordent les objets scientifiques sur lesquels ils travaillent elles leur donnent accegraves agrave un ensemble drsquoinformations qui peuvent ecirctre fouilleacutees automatiquement et appareilleacutees les unes aux autres elles permettent de construire de nouvelles modaliteacutes de validation scientifique agrave cocircteacute des techniques fondeacutees sur lrsquoeacutechantillonnage lrsquoeacutetude de cas ou encore

la veacuterification drsquohypothegraveses ou de theacuteories construites indeacutependamment des donneacutees Ces nouvelles pratiques reacuteinterrogent les cateacutegorisations et grilles drsquoanalyse SHS en mecircme temps qursquoelles posent une seacuterie de questions de nature eacutethique degraves qursquoil srsquoagit de donneacutees individuelles

Cette datafication des sciences sociales et des humaniteacutes est un fait dont les implications ne sont pas toujours bien appreacutehendeacutees par les communauteacutes Elle impose des contraintes nouvelles reacuteflexion sur les standards plan de gestion des donneacutees promulgation de bonnes pratiques prise de recul meacutethodologique et eacutepisteacutemologique LrsquoInSHS agrave travers diffeacuterents dispositifs srsquoemploie agrave diffuser ces bonnes pratiques

Cela passe par un travail de diffusion des probleacutematiques des meacutethodologies lieacutees agrave lrsquousage des donneacutees au sein des diverses communauteacutes scientifiques Cela passe aussi par une articulation forte entre les dispositifs de production drsquoarchivage et de traitement des donneacutees et les communauteacutes scientifiques susceptibles de les utiliser en particulier par le biais de relais locaux sur les sites notamment par les MSH

252 Le dispositif des TGIR SHS

Pour reacutepondre agrave ces deacutefis eacuteviter la dispersion et lrsquoobsolescence des donneacutees produites accompagner les eacutequipes et les chercheurs lrsquoInSHS srsquoappuie sur les deux TGIR SHS dont le CNRS a eacuteteacute deacutesigneacute opeacuterateur par le MESRI la TGIR Huma-Num en charge des humaniteacutes numeacuteriques et la TGIR Progedo en charge de lrsquoaccegraves aux donneacutees de sciences sociales ( statistique publique donneacutees drsquoenquecirctes )

Les deux TGIR se situent agrave lrsquoarticulation des dispositifs europeacuteens de donneacutees en SHS et des dispositifs sur les sites destineacutes agrave favoriser et agrave promouvoir lrsquoaccegraves aux donneacutees de sciences sociales et aux humaniteacutes numeacuteriques

36

Livre Blanc sur les Donneacutees au CNRS Eacutetat des Lieux et Pratiques - 2018

INSHS

Huma-Num

Lrsquoaction de la TGIR Huma-Num ( UMS du CNRS ) est de faciliter le laquo tournant numeacuterique raquo de la recherche en sciences humaines et sociales dans la production et la reacuteutilisation de donneacutees numeacuteriques Il srsquoagit de

bull Deacutevelopper lrsquoappropriation par les communauteacutes scientifiques du cycle de vie des donneacutees numeacuteriques

bull Proposer des services pour les donneacutees au juste niveau et au bon moment

Huma-Num srsquoorganise autour drsquoun certain nombre drsquooutils et de services de projets de recherche de consortiums et de reacuteseaux europeacuteens comme indiqueacute dans la figure ci-dessous

LrsquoUMS Huma-Num est localiseacutee agrave Paris et agrave Lyon au CC-IN2P3 depuis 10 ans

Elle propose un ensemble de services pour les donneacutees numeacuteriques produites en SHS avec des partenariats avec le CC IN2P3 le CINES ( Centre Informatique National de lrsquoEnseignement Supeacuterieur ) et le CCSD ( Centre pour la Communication Scientifique Directe )

A chaque eacutetape du cycle de vie des donneacutees correspond un service deacutedieacute par exemple iRods pour le stockage en coopeacuteration avec le CC-IN2P3 des logiciels drsquoanalyse de donneacutees et de gestions de bases de donneacutees un ensemble drsquooutils de diffusion sur le Web ( p ex pack Nakalona et service de machines virtuelles ) un service drsquoarchivage agrave long terme avec le CINES un service de signalement des donneacutees avec ISIDORE et un service drsquoexposition de donneacutees NAKALA

A cocircteacute de cet ensemble de services Huma-Num seacutelectionne finance et accompagne des consortiums au nombre de 8 agrave 12 destineacutes agrave favoriser lrsquoeacutemergence ou lrsquoimpleacutementation drsquooutils au plus pregraves des besoins des communauteacutes disciplinaires Actuellement les 10 consortiums de Huma-Num repreacutesentent

bull 120 eacutequipes de recherche ( UMR EA )

bull Un reacuteseau de + de 300 chercheurs ingeacutenieurs etc

bull Plus de 50 actions publiques ( formations ateliers seacuteminaireshellip )

Entre 2011 et 2015 plus de 230 actions de coordination nationales dans 16 disciplines majeures des SHS ont eacuteteacute meneacutees plus de 350 fonds drsquoarchivescorpus mis aux normes mis agrave disposition etou signaleacutes 500000 documents issus drsquoarchives scientifiques ont eacuteteacute mis en open access

37

Livre Blanc sur les Donneacutees au CNRS Eacutetat des Lieux et Pratiques - 2018

Enfin Huma-Num constitue la brique franccedilaise de deux dispositifs drsquoinfrastructures europeacuteennes de recherche ( ERIC European Research Infrastructure Consortium ) lieacutees aux donneacutees

bull DARIAH-EU ( Digital Research Infrastructure for the Arts and Humanities )

bull CLARIN ( European Research Infrastructure for Language Resources and Technology )

Un certain nombre drsquooutils deacuteveloppeacutes par Huma-Num sont aujourdrsquohui impleacutementeacutes au niveau europeacuteen via diffeacuterents programmes H2020 en relation avec ces deux ERIC La TGIR dispose donc drsquoune reconnaissance internationale attesteacutee par de nombreuses demandes drsquoexpertise ou de coopeacuteration venues des ERIC et de diffeacuterents pays ( Queacutebec Argentine )

Progedo

La TGIR Progedo opeacutereacutee par lrsquoUMS Progedo ( CNRS-Ehess ) est lrsquoacteur central en matiegravere de production et de gestion de donneacutees en sciences sociales Lrsquoinfrastructure a pour mission de hausser le niveau de structuration nationale des communauteacutes de recherche en deacuteployant une strateacutegie de deacuteveloppement entre les organismes de recherche les grands eacutetablissements et les universiteacutes et de renforcer la position de la France dans lrsquoespace europeacuteen de la recherche

Pour ce faire Progedo organise lrsquoappui agrave la collecte agrave la documentation agrave la preacuteservation et agrave la promotion drsquoun vaste ensemble de donneacutees neacutecessaires aux disciplines des sciences humaines et sociales dans un cadre conforme agrave la leacutegislation et la regraveglementation en vigueur concernant la protection des donneacutees individuelles Elle favorise la diffusion de ces donneacutees pour la recherche soutient la reacutealisation de grandes enquecirctes et bases de donneacutees repreacutesentatives neacutecessaires agrave la recherche et participe agrave la mise en place des dispositifs seacutecuriseacutes drsquoaccegraves aux donneacutees individuelles

38

Livre Blanc sur les Donneacutees au CNRS Eacutetat des Lieux et Pratiques - 2018

Progedo constitue la tecircte de reacuteseau de diffusion nationale des donneacutees produites Elle srsquoappuie actuellement sur quatre entiteacutes

bull Deux eacutequipes lieacutees au CNRS

o lrsquoADISP qui met agrave disposition les donneacutees de la statistique publique agreacutegeacutees

o le CDSP avec Sciences Po Paris qui deacuteploie la mise agrave disposition des donneacutees produites par les chercheurs en sciences politiques principalement

bull Le service des enquecirctes de lrsquoINED

bull LrsquoEquipex CASD porteacute par le GENES ( INSEE ) pour lrsquoaccegraves seacutecuriseacute aux donneacutees en particulier aux donneacutees individuelles en les anonymisant

Progedo est la seule structure nationale de mise agrave disposition des donneacutees en sciences sociales Elle est construite comme une ombrelle destineacutee agrave couvrir tout le champ neacutecessaire autour des donneacutees drsquoenquecirctes pour la recherche Elle srsquoorganise en quatre deacutepartements qui correspondent agrave quatre grands types de donneacutees en sciences sociales

Ces quatre deacutepartements regroupent les activiteacutes correspondant agrave trois ERIC

bull CESSDA ( donneacutees de la recherche et de la statistique publique )

bull ESS ( donneacutees de sciences politiques et enquecirctes drsquoopinion )

bull SHARE ( donneacutees de santeacute )

et un ERIC en projet GGP ( relations familiales approches longitudinales des dynamiques familiales )

En tant que structure de coordination son peacuterimegravetre peut donc ecirctre appeleacute agrave srsquoeacutetendre agrave drsquoautres types de donneacutees de sciences sociales Cette position surplombante assure agrave terme la coheacuterence de lrsquoensemble des dispositifs franccedilais de mise agrave disposition des donneacutees et leur parfaite articulation avec un eacutechelon europeacuteen dont les contours sont encore agrave deacutefinir Progedo est donc destineacutee agrave ecirctre le relais franccedilais vis-agrave-vis de toutes les infrastructures europeacuteennes de donneacutees de sciences sociales existantes et agrave venir Cette organisation qui donne une visibiliteacute sur tous les dispositifs ERIC centres de compeacutetences et services nationaux ne se retrouve pas ailleurs en Europe et est un atout face agrave des modes drsquoorganisation nationaux geacuteneacuteralement plus cloisonneacutes geacuteneacuterateurs de coucircts suppleacutementaires et de doublons et un paysage europeacuteen des donneacutees non stabiliseacute

INSHS

PLATES-FORMES UNIVERSITAIRES DE DONNEacuteESavec le RnMSH les MSH et Universiteacutes de Lille Caen Lyon Nantes Strasbourg Dijon

ANIMATION SCIENTIFIQUE

PRODUCTIONENQUEcircTE

DEPARTEMENT GGP-FRANCE

DIFFUSION

ANIMATION SCIENTIFIQUE

DEPARTEMENT QUETELET PROGEDO DIFFUSION(Cessda - FranCe)

ANIMATION SCIENTIFIQUE

PRODUCTIONENQUEcircTE

DEPARTEMENT ESS-FRANCE

ANIMATION SCIENTIFIQUE

PRODUCTIONENQUEcircTE

DEPARTEMENT SHARE-FRANCE

UMS PROGEDO ANIMATION GEacuteNEacuteRALE

CONSEIL SCIENTIFIQUE

COMITEacute DE PILOTAGE

tutelles EHESSCNRS

39

Livre Blanc sur les Donneacutees au CNRS Eacutetat des Lieux et Pratiques - 2018

Implanteacutee en reacutegion gracircce agrave ses plateformes universitaires de donneacutees ( PUD ) Progedo est un acteur essentiel pour la formation agrave lrsquousage des donneacutees de la recherche Ces PUD sont des portes drsquoentreacutee dans le monde des donneacutees pour des publics parfois tregraves eacuteloigneacutes par leur parcours universitaire et leurs pratiques scientifiques des techniques statistiques Avec la mise en reacuteseau des PUD la TGIR srsquoattache agrave deacutevelopper conjointement lrsquoaccegraves aux ressources et agrave la compeacutetence collective des utilisateurs une double condition neacutecessaire pour permettre agrave la France drsquoecirctre au bon niveau international Les PUD installeacutees au sein des communauteacutes sur les sites universitaires dans les MSH lieu de deacutecloisonnement par excellence constituent un levier essentiel Lrsquoobjectif est drsquoouvrir 20 nouvelles PUD dans les trois ans 9 le sont actuellement

Articulation avec les autres producteursdiffuseur de donneacutees

Le dispositif de donneacutees SHS se construit autour de ces deux pocircles majeurs que sont Huma-Num et Progedo mais aussi en articulation avec une seacuterie drsquoautres infrastructures ou de dispositifs qui soit mettent agrave disposition des donneacutees soit assurent leur diffusion aupregraves des communauteacutes de recherche Les TGIR travaillent donc agrave favoriser la conservation agrave garantir lrsquointeropeacuterabiliteacute le moissonnage la diffusion de donneacutees ou de standards produits par drsquoautres infrastructures de nature speacutecifique telles que

bull Open Edition

bull Perseacutee

bull la chaicircne eacuteditoriale XML-TEI METOPES19

Les deux TGIR sont donc fortement articuleacutees autour de ces 3 IR inscrites sur la feuille de route nationale des infrastructures

Elles travaillent eacutegalement en eacutetroite collaboration avec les 23 MSH reacuteparties sur les sites ougrave elles trouvent des relais efficaces agrave la fois pour la mise agrave disposition des donneacutees la diffusion de la pratique des donneacutees et du numeacuterique dans les communauteacutes de chercheurs

19 httpwwwunicaenfrrecherchemrshdocument_numeriqueprojetsmetopes

253 Conclusion

Les enjeux pour lrsquoInSHS en matiegravere de donneacutees sont au moins au nombre de quatre

- Organiser des dispositifs de gestion des donneacutees qui assurent leur peacuterenniteacute leur interopeacuterabiliteacute et leur large diffusion et qui tiennent compte en mecircme temps de la tregraves grande varieacuteteacute des types de donneacutees SHS

- Encourager le tournant numeacuterique et conduire les chercheurs agrave prendre la mesure du tournant eacutepisteacutemologique que constitue le deacuteveloppement des donneacutees pour tous les champs disciplinaires SHS Il srsquoagit de deacutevelopper dans les communauteacutes une laquo culture de la donneacutee raquo propre agrave reacutesoudre ce paradoxe qui fait que la France est un des plus importants producteurs de donneacutees ( du fait notamment de lrsquoancienneteacute de sa statistique publique ) mais qursquoelles sont sous-utiliseacutees par ses chercheurs

- Contribuer agrave aider la socieacuteteacute agrave construire des reacuteponses adapteacutees aux deacutefis poseacutes par la constitution de grandes bases de donneacutees dont les possibiliteacutes de traitement automatique drsquoappariement et de croisement interrogent les dispositifs de protection des donneacutees personnelles les liberteacutes individuelles et le droit agrave la vie priveacutee Ce rocircle doit ecirctre mieux identifieacute par les speacutecialistes des autres sciences et par les deacutecideurs publics

- Contribuer au deacuteveloppement des initiatives autour de lrsquoopen data et agrave la reacuteflexion sur leurs impacts sur les sciences et sur la socieacuteteacute qui sont au cœur de la strateacutegie nationale de recherche ( Deacutefi 7 Socieacuteteacute de lrsquoinformation et de la communication - Orientation 25 Systegravemes sucircrs drsquoexploitation des grandes masses de donneacutees Deacutefi 8 Socieacuteteacutes innovantes inteacutegratives et adaptatives - Orientation 29 Seacutecurisation et optimisation de lrsquoextraction des donneacutees )

40

Livre Blanc sur les Donneacutees au CNRS Eacutetat des Lieux et Pratiques - 2018

26 INSTITUT DES SCIENCES DE LrsquoINGENIERIE ET DES SYSTEMES ( INSIS )

261 Introduction

LrsquoInstitut des Sciences de lrsquoIngeacutenierie et des Systegravemes ( INSIS ) rassemble environ 6000 chercheurs et enseignants-chercheurs ( dont 961 chercheurs CNRS et 5026 enseignants-chercheurs ) reacutepartis dans une centaine drsquouniteacutes de recherche Ses theacutematiques couvrent une partie des sections 4 ( fusion par confinement magneacutetique ITER ) 7 ( signal image automatique robotique ) 30 ( bio ingeacutenierie ) la totaliteacute des sections 8 ( micro et nano-technologies eacutelectronique photonique eacutelectromagneacutetisme eacutenergie eacutelectrique ) 9 ( ingeacutenierie des mateacuteriaux et des structures meacutecanique des solides acoustique ) et 10 ( milieux fluides et reacuteactifs transports transferts proceacutedeacutes de transformation ) du Comiteacute National

LrsquoInstitut est donc multi-theacutematiques et comporte de nombreuses disciplines qui utilisent agrave peu pregraves toutes lrsquooutil de simulation Cependant les ingeacutenieurs se sont lanceacutes tregraves tocirct dans la simulation avec des moyens et des deacuteveloppements algorithmiques propres adapteacutes aux laquo systegravemes raquo ce qui fait que les pratiques en matiegravere de simulation sont heacuteteacuterogegravenes Il y a notamment une asymeacutetrie entre la proportion de recherche impliquant la simulation en meacutecanique des fluides au sens large ( incluant la combustion ) et les autres disciplines

En ingeacutenierie des systegravemes la numeacuterisation entre en jeu non seulement pour la simulation mais pour les expeacuteriences ou les modegraveles ainsi les donneacutees numeacuteriques sont manipuleacutees dans de nombreux contextes En voilagrave quelques-uns agrave titre drsquoexemple

bull Capteurs en reacuteseau les eacutechanges drsquoinformation issus de mesures provenant de diffeacuterents capteurs notamment pour le controcircle des systegravemes neacutecessitent des techniques et algorithmes speacutecifiques de gestion de flots de donneacutees ainsi que pour le post-traitement des masses de donneacutees qursquoil srsquoagit aussi de stocker ou archiver

bull Reacuteseaux en geacutenie eacutelectrique des probleacutematiques similaires de mise en place de strateacutegies de gestion des donneacutees pour la production et la distribution de lrsquoeacutenergie eacutelectrique

bull Meacutecanique pour le vivant cela concerne lrsquoimagerie meacutedicale pour les tissus vivants avec de nombreuses questions pour les donneacutees concernant leur qualiteacute leur stockage leur confidentialiteacute Des volumes de donneacutees importants peuvent ecirctre produits notamment en eacutelastographie transitoire baseacutee sur le couplage drsquoun prototype drsquoimagerie eacutechographique capable drsquoatteindre des cadences eacutechographiques supeacuterieures agrave 5000 images par seconde

bull Acoustique il srsquoagit principalement des questions drsquoingeacutenierie des ondes acoustiques concernant leur propagation et transmission mais les donneacutees en aeacuteroacoustique ont un lien direct avec la meacutecanique des fluides et cette theacutematique est aussi relieacutee avec la meacutecanique des vibrations au travers de lrsquointeraction fluide-structure

bull Meacutecanique des solides structures et mateacuteriaux la prise en compte des non lineacuteariteacutes comportementales des mateacuteriaux dans les meacutethodes de changement drsquoeacutechelle est effectueacutee au moyen de modeacutelisations theacuteoriques associeacutees agrave des outils numeacuteriques innovants ( eacuteleacutements finis eacutetendus transformations de Fourier rapides ou FFT techniques de reacuteduction de modegraveles etc ) Pour les mateacuteriaux et les structures les mesures de deacuteplacement ou de champs sont de nos jours baseacutees sur de lrsquoimagerie 2D et 3D notamment en tomographie avec des techniques multiples utilisant la lumiegravere visible les infrarouges les rayons X etc Ceci est tout particuliegraverement utile pour le controcircle des deacutefauts ou de lrsquousure des mateacuteriaux

bull Meacutecanique des fluides la theacutematique couvre tous les pheacutenomegravenes fluides agrave toutes les eacutechelles allant de la microfluidique aux eacutechelles geacuteophysiques et astrophysiques Les simulations numeacuteriques directes notamment en turbulence qui y sont reacutealiseacutees sont parmi les plus consommatrices de temps de calcul et productrices de donneacutees comme illustreacute plus en deacutetail ci-apregraves

INSIS

41

Livre Blanc sur les Donneacutees au CNRS Eacutetat des Lieux et Pratiques - 2018

On se rend donc bien compte que les questions scientifiques agrave lrsquoINSIS portent sur des probleacutematiques multi-physiques qui sont reacutesolues numeacuteriquement par lrsquoapplication drsquoalgorithmes pour le calcul haute performance crsquoest-agrave-dire le calcul parallegravele mais aussi le Cloud computing Le passage agrave lrsquoeacutechelle pour des systegravemes complexes reacuteels en ingeacutenierie neacutecessite ainsi une hieacuterarchie drsquoapplications qui permet en outre drsquoaborder explicitement les aspects multi-eacutechelles Les systegravemes multi-physiques neacutecessitent notamment le couplage entre codes de nature diffeacuterente Crsquoest la probleacutematique geacuteneacuterique des intergiciels ( parmi lesquels les logiciels de couplage comme OpenPALM ) mais ceci introduit la difficulteacute suppleacutementaire poseacutee par lrsquoheacuteteacuterogeacuteneacuteiteacute des donneacutees agrave stocker et agrave analyser

Lrsquoinstitut est donc un des principaux utilisateurs du calcul haute performance au CNRS comme lrsquoattestent notamment les attributions drsquoheures de calcul par GENCI dans deux comiteacutes theacutematiques parmi dix concernant seacutepareacutement les eacutecoulements reacuteactifs drsquoune part et les eacutecoulements non reacuteactifs drsquoautre part

Ce poids de lrsquoINSIS cache en fait une tregraves grosse dispariteacute selon les theacutematiques plus de 90 des ressources sur les centres nationaux sont consommeacutees par la meacutecanique des fluides au sens large du terme deacutefinie ici comme reacutesolution des eacutequations de Navier-Stokes et des eacutequations associeacutees ( meacutecanique des fluides combustion eacutecoulements diphasiques transferts thermiques plasmas magneacutetohydrodynamique aeacuteroacoustique transport seacutedimentairehellip ) par un petit nombre de laboratoires ( moins drsquoune dizaine ) et de chercheurs rattacheacutes pour la plupart agrave la section 10 du Comiteacute National Les communauteacutes laquo meacutecanique des solides raquo et laquo mateacuteriaux et structures raquo bien que revendiquant une activiteacute calcul intensif sont absentes un seul projet tandis que les quelques projets interaction fluidestructure sont le fait de laboratoires nettement identifieacutes laquo meacutecanique des fluides raquo Les projets restants concernent lrsquoeacutelectromagneacutetisme lrsquointeraction lasermatiegravere et la chimie ( calculs ab-initio diagramme de phasehellip )

262 La probleacutematique des donneacutees agrave lrsquoINSIS

La probleacutematique des donneacutees agrave lrsquoINSIS est donc principalement lieacutee agrave la gestion des gros volumes de donneacutees qui sont produits dans le domaine de la simulation numeacuterique et a pour enjeux

bull La modeacutelisation de pheacutenomegravenes avec eacutevolution dans le temps ce qui implique quatre dimensions agrave traiter pour des pheacutenomegravenes spatiaux tridimensionnels ( 3D )

bull Le caractegravere aleacuteatoire de certains comportements qui neacutecessite donc une approche probabiliste La repreacutesentation fidegravele de ces pheacutenomegravenes dans toute leur variabiliteacute reacuteclame de nombreuses reacutealisations drsquoune mecircme expeacuterience ou simulation drsquoougrave la neacutecessiteacute drsquoun stockage et drsquoun traitement statistique a posteriori

bull La visualisation de pheacutenomegravenes complexes multidimensionnels passe par un rendu visuel pour une compreacutehension des pheacutenomegravenes instationnaires avec plus ou moins de reacutealisme dans le rendu spatial En revanche la simulation en temps reacuteel de pheacutenomegravenes rapides nrsquoest que tregraves rarement possible Ainsi le suivi de calculs instationnaires passe par la mise en place de techniques de visualisation agrave la voleacutee qui ne permettent qursquoune observation partielle de lrsquoinstationnariteacute

bull Lrsquoadaptation des codes aux nouveaux algorithmes lieacutes agrave lrsquoeacutevolution technologique et aux nouvelles architectures mateacuterielles notamment les acceacuteleacuterateurs de type GPU dont lrsquoutilisation requiert une adaptation des formats de repreacutesentation des donneacutees internes au calculateur afin de tirer parti de lrsquoarchitecture vectorielle du processeur

bull La creacuteation de formats drsquoenregistrement de donneacutees non seulement compatibles avec la nature de celles-ci selon les disciplines mais aussi lrsquoutilisation de formats compatibles avec des entreacutees-sorties adapteacutees agrave des transferts massifs de champs en simultaneacute par des dizaines voire des centaines de milliers de processeurs dans le cadre de systegravemes de fichiers paralleacuteliseacutes

42

Livre Blanc sur les Donneacutees au CNRS Eacutetat des Lieux et Pratiques - 2018

263 Illustration la question des donneacutees en meacutecanique des fluides

Comme mentionneacute en introduction la meacutecanique des fluides inertes et reacuteactifs repreacutesente une partie tregraves importante dans la production de donneacutees au travers drsquoune repreacutesentation majoritaire des heures de calcul sur les calculateurs nationaux au niveau Tier 1

La simulation produit ainsi des quantiteacutes importantes de donneacutees mais il en va de mecircme pour certaines expeacuteriences dans lesquelles la meacutetrologie a fait un tel progregraves qursquoelle aboutit agrave des volumes de donneacutees aussi importants que les plus grosses simulations Il srsquoagit par exemple de la technique de veacutelocimeacutetrie par imagerie de particules ( Digital Particle Image Velocimetry ou DPIV ) qui permet agrave preacutesent drsquoacqueacuterir agrave des freacutequences tregraves eacuteleveacutees des champs de vitesse reacutesolus spatialement et en temps Les expeacuteriences utilisent des cameacuteras rapides agrave haute reacutesolution et haute freacutequence qui enregistrent les donneacutees brutes directement sur des systegravemes de meacutemoires rapides ( disques de type SSD ) agrave la voleacutee Une seule expeacuterience est capable de produire en une journeacutee jusqursquoagrave 400 To de donneacutees

De mecircme les simulations numeacuteriques directes en turbulence utilisent des algorithmes pseudo-spectraux agrave mecircme de repreacutesenter toutes les eacutechelles drsquoun eacutecoulement Si la puissance actuelle des calculateurs ne permet pas encore de couvrir des gammes drsquoeacutechelles aussi larges que celles rencontreacutees dans les eacutecoulements geacuteophysiques mdash allant du centimegravetre agrave des centaines de kilomegravetres pour lrsquoatmosphegravere mdash les reacutesolutions les plus grandes possible sont rechercheacutees pour une bonne repreacutesentation des pheacutenomegravenes de transfert drsquoeacutenergie et de dispersion Des simulations utilisant des maillages de 40963 points produisent un volume drsquoenviron 15To par iteacuteration de calcul qui se comptent en milliers pour repreacutesenter correctement les fluctuations rapides temporelles Ceci deacutepasse la capaciteacute de stockage alloueacutee agrave un utilisateur sur les grands centres de calcul nationaux Cette difficulteacute impose un stockage drsquoun petit nombre de champs pour lrsquoanalyse exhaustive des indicateurs statistiques des signaux et seules des statistiques choisies en petit nombre sont calculeacutees agrave la voleacutee afin de ne pas impacter la performance du calcul

Par ailleurs les instabiliteacutes hydrodynamiques qui peuvent se produire dans des eacutecoulements complexes utilisent des meacutethodes de continuation selon de nombreux paramegravetres relatifs agrave lrsquoinstabiliteacute eacutetudieacutee Lrsquoalgorithme de suivi est efficace srsquoil utilise

une infrastructure de grille de calcul qui permet drsquoeffectuer un tregraves grand nombre de calculs de taille reacuteduite chacun pour un jeu de paramegravetres diffeacuterents Ceci se reacutealise par le biais de reacuteseaux drsquointerconnexion au travers desquels sont envoyeacutes le code et les paramegravetres sur chaque nœud de calcul qui renvoient les reacutesultats agrave lrsquoissue de la simulation Plusieurs milliers de nœuds peuvent ecirctre impliqueacutes Cette technique est notamment utiliseacutee pour la stabiliteacute drsquoeacutecoulements cisailleacutes eacutetudieacutee gracircce aux moyens du CC-IN2P3 ougrave un environnement de calcul tregraves favorable adapteacute au traitement des donneacutees des collisionneurs est mis en œuvre

Plusieurs questions se posent concernant le statut et le devenir des donneacutees produites

- Quelle est la dureacutee de vie des donneacutees Par exemple concernant leur reacutealisation au niveau technique des simulations agrave reacutesolution 10243 avaient un caractegravere exceptionnel il y a 7 ans mais peuvent ecirctre reproduites aiseacutement avec les moyens actuels Faut-il donc stocker des donneacutees au-delagrave drsquoune peacuteriode relativement courte apregraves laquelle les moyens de calcul permettront leur reproduction agrave un coucirct neacutegligeable

- De nombreuses eacutequipes produisent des bases de donneacutees importantes en quantiteacute et en qualiteacute qui sont sous-exploiteacutees mais qui peuvent ecirctre utiles agrave une eacutequipe srsquointeacuteressant agrave la dynamique du fluide sous un point de vue diffeacuterent Comment peut-on eacuteviter de dupliquer les mecircmes expeacuteriences ou simulations Et dans une logique eacutetendue comment peut-on mettre ces donneacutees agrave disposition de la communauteacute scientifique globale Quelle dureacutee drsquoembargo doit-on imposer avant diffusion geacuteneacuterale

- Quelles sont alors les modaliteacutes de stockage et drsquoeacutechange agrave adopter Ceci pose agrave la fois la question du format des fichiers mais aussi des meacutetadonneacutees agrave lui associer

- Faut-il archiver des donneacutees et pour quelle peacuteriode

Au niveau national au-delagrave des stockages temporaires deacutedieacutes agrave des projets attributaires drsquoheures de calcul sur les grands centres nationaux ou meacutesocentres il nrsquoexiste pas agrave notre connaissance drsquoinitiative globale pour la gestion des donneacutees en meacutecanique des fluides En outre sur les grands centres les politiques de reacutetention de donneacutees et les capaciteacutes des serveurs ne permettent pas le stockage sur des longues dureacutees ou le partage large des donneacutees massives

INSIS

43

Livre Blanc sur les Donneacutees au CNRS Eacutetat des Lieux et Pratiques - 2018

Au niveau europeacuteen on peut mentionner la base de donneacutees Turbase ( httpsturbasecinecait ) qui porte sur les donneacutees en turbulence Cette base utilise lrsquoinfrastructure italienne CINECA situeacutee agrave Bologne qui est un des grands centres europeacuteens participant agrave PRACE20 Des moyens ont eacuteteacute alloueacutes par EuHIT ( projet europeacuteen visant principalement agrave deacutevelopper lrsquoouverture des expeacuteriences de grande taille en turbulence mais avec aussi un volet laquo donneacutees raquo ) pour deacutevelopper Turbase

Agrave lrsquointernational on peut mentionner la base ouverte agrave lrsquouniversiteacute de Johns Hopkins ( Baltimore Etat du Maryland aux USA httpturbulencephajhuedu ) qui outre le stockage et le partage des donneacutees brutes offre une fonctionnaliteacute suppleacutementaire pour extraire une sous-partie de lrsquoinformation ou produire des statistiques associeacutees

On constate cependant lrsquoabsence de standard commun drsquoorganisation des donneacutees ( ( usage de HDF5 VTK donneacutees brutes ou compresseacuteeshellip ) ou des meacutetadonneacutees qui permettent drsquoidentifier exactement la nature et la qualiteacute des donneacutees

20 Partnership for Advanced Computing in Europe ( httpwwwprace-rieu )

264 Conclusion

Lrsquoingeacutenierie srsquoest empareacutee tregraves tocirct de lrsquooutil de simulation avec un modegravele de deacuteveloppement de meacutethodes au niveau de chaque laboratoire voire eacutequipe notamment en meacutecanique des fluides Gracircce agrave une monteacutee en compeacutetence importante due agrave lrsquoattribution de moyens aux laboratoires acadeacutemiques agrave la fois humains et mateacuteriels ce modegravele a eacuteteacute favorable au deacuteveloppement drsquoune reacuteelle expertise en simulation La gestion des donneacutees a susciteacute moins de reacuteflexion et drsquoorganisation en profondeur ce qui fait que lrsquoaugmentation des capaciteacutes de simulation mdash et agrave preacutesent des nouvelles meacutetrologies expeacuterimentales mdash nrsquoa pas eacuteteacute suivie drsquoune augmentation des capaciteacutes de stockage de traitement et drsquoarchivage des donneacutees On se trouve agrave preacutesent dans une situation dans laquelle on est en capaciteacute de reacutealiser des simulations agrave tregraves haute reacutesolution sans savoir complegravetement en traiter les reacutesultats ni ougrave les entreposer

Il srsquoagit donc agrave preacutesent de faire progresser les structures fonctionnelles et mateacuterielles pour geacuterer le patrimoine scientifique que constituent les donneacutees issues de simulations numeacuteriques mais aussi de reacutealisations expeacuterimentales qui sont confronteacutees aux mecircmes probleacutematiques

44

Livre Blanc sur les Donneacutees au CNRS Eacutetat des Lieux et Pratiques - 2018

27 INSTITUT NATIONAL DES SCIENCES MATHEMATIQUES ET DE LEURS INTERACTIONS ( INSMI )

271 Introduction

La mission de lrsquoInsmi est de deacutevelopper et de coordonner les recherches dans les diffeacuterentes branches des matheacutematiques allant des aspects fondamentaux aux applications LrsquoInsmi contribue agrave la structuration de la communauteacute matheacutematique franccedilaise et agrave son insertion dans la communauteacute internationale Elle rassemble 3600 chercheurs et enseignants-chercheurs dont plus de 400 chercheurs CNRS

Tout en soutenant les diffeacuterents domaines des matheacutematiques lrsquoInsmi cherche agrave promouvoir les recherches agrave lrsquointerface avec les autres disciplines scientifiques ainsi que les interactions avec la socieacuteteacute et le monde industriel Comme le souligne un reacutecent rapport ameacutericain ( The mathematical sciences in 2025 The National Academies Press Etats-Unis ) les possibiliteacutes drsquointeraction entre les matheacutematiques et le monde exteacuterieur sont consideacuterablement accrues drsquoune part par la geacuteneacuteralisation de simulations numeacuteriques baseacutees sur des concepts matheacutematiques et rendues possibles par des outils informatiques de plus en plus puissants drsquoautre part par lrsquoaccroissement exponentiel de donneacutees massives agrave traiter La communauteacute matheacutematique est donc fortement solliciteacutee et mobiliseacutee pour reacutepondre aux enjeux lieacutes aux traitements des donneacutees et au calcul scientifique

Comme lrsquoa souligneacute une eacutetude de lrsquoimpact socio-eacuteconomique des Matheacutematiques en France reacutealiseacutee en 2015 la contribution primordiale des matheacutematiques dans le deacuteveloppement de technologies cleacutes sera appeleacutee agrave se renforcer via la maicirctrise par les entreprises de plusieurs champs de compeacutetences strateacutegiques fondeacutes au moins partiellement sur les matheacutematiques

bull Traitement du signal et analyse drsquoimages

bull Data Mining ( statistiques analyse de donneacutees et apprentissage )

bull MSO ( Modeacutelisation - Simulation -Optimisation )

bull HPC ( High Performance Computing ou calcul haute performance )

bull Seacutecuriteacute des systegravemes drsquoinformations et Cryptographie

La maicirctrise de ces champs de compeacutetences par le tissu industriel national est vue comme essentielle pour permettre de relever les deacutefis socio-eacuteconomiques actuels et futurs speacutecifiques ou non aux secteurs drsquoactiviteacute des industries concerneacutees et rester compeacutetitif

Les matheacutematiciens se retrouvent freacutequemment confronteacutes au traitement des donneacutees lorsqursquoils travaillent sur des sujets interdisciplinaires Par exemple la simulation de modegraveles avec une reacutesolution extrecircmement fine amegravene agrave des problegravemes de gestion de grandes masses de donneacutees pouvant atteindre plusieurs To On peut notamment citer les interactions avec

bull La physique et la meacutecanique ( p ex avec les travaux sur les plasmas de tokamak )

bull Lrsquoautomatique et la robotique

bull Lrsquoinformatique notamment en ce qui concerne les recherches en imagerie traitement du signal fouille de donneacutees calcul haute performancehellip

bull Les sciences du vivant Sans ecirctre exhaustif les domaines concerneacutes par ces interactions sont la biologie cellulaire systeacutemique et du deacuteveloppement les neurosciences la geacuteneacutetique lrsquoeacutecologie la bio-informatique la meacutedecinehellip

bull Lrsquoeacuteconomie et les sciences humaines et sociales

Se posent eacutegalement les questions de paralleacuteliser les calculs de communiquer des volumes de donneacutees gigantesques entre les dizaines de milliers de processeurs drsquoun supercalculateur de compresser stocker ou exploiter les donneacuteeshellip Toutes ces questions neacutecessitent une recherche pluridisciplinaire entre ingeacutenieurs matheacutematiciens informaticiens et chercheurs de la discipline du sujet eacutetudieacute ( physiciens biologisteshellip )

Tous les domaines des matheacutematiques sont concerneacutes par les interfaces mentionneacutees preacuteceacutedemment Les plus visibles sont la statistique le calcul scientifique et haute performance les probabiliteacutes les systegravemes dynamiques les eacutequations diffeacuterentielles et aux deacuteriveacutees partielles lrsquooptimisation lrsquoimageriehellip

INSMI

45

Livre Blanc sur les Donneacutees au CNRS Eacutetat des Lieux et Pratiques - 2018

272 La probleacutematique des donneacutees agrave lrsquoINSMI

Le traitement des donneacutees a reacutecemment impacteacute la communauteacute matheacutematique Afin de reacutepondre aux probleacutematiques souleveacutees plusieurs champs de recherche se sont deacuteveloppeacutes dans diffeacuterentes branches des matheacutematiques allant de la recherche fondamentale aux applications21

Lrsquoanalyse

Mecircme si les lois de la physique matheacutematique sont deacutecrites par des eacutequations diffeacuterentielles et des eacutequations aux deacuteriveacutees partielles lrsquoanalyse matheacutematique aborde aujourdrsquohui des domaines moins structureacutes ougrave les lois sont absentes et ougrave il convient de traiter des masses de donneacutees en apparence incoheacuterentes Agrave titre drsquoexemple les problegravemes poseacutes par le changement climatique sont particuliegraverement ardus En conseacutequence une nouvelle analyse matheacutematique est neacutecessaire pour maicirctriser des domaines aussi varieacutes que le changement climatique la geacutenomique la meacutedecine computationnelle la recherche seacutecuritaire agrave lrsquointeacuterieur des donneacutees du webhellip

Les statistiques

Lrsquoeacutevolution actuelle de la discipline est fortement influenceacutee par le deacuteveloppement de lrsquoinformatique aussi bien en termes de moyens de calcul ou de capaciteacute meacutemoire des ordinateurs qursquoen termes drsquoavanceacutees dans le domaine de lrsquoalgorithmique de la theacuteorie de lrsquoinformation ou du codage Les nouvelles capaciteacutes de recueil et de stockage provoquent une veacuteritable avalanche de donneacutees dont le gigantisme rend obsolegravete lrsquoemploi des outils drsquoanalyse des donneacutees traditionnels et dont le traitement requiert de nouvelles compeacutetences pour les statisticiens Ceci est vrai dans plusieurs domaines drsquoapplications en geacutenomique tout autant qursquoen eacuteconomie ou en traitement du signal ou de lrsquoimage Dans le mecircme temps les outils de calcul de plus en plus puissants et performants stimulent lrsquoimagination car ils permettent de mettre en œuvre des strateacutegies drsquoinfeacuterence toujours plus sophistiqueacutees dont lrsquoutilisation aurait eacuteteacute impensable voire absurde au siegravecle dernier Les theacutematiques statistiques lieacutees agrave lrsquoanalyse des donneacutees de grande dimension se deacuteveloppent de faccedilon rapide au sein drsquoeacutequipes de recherche qui sont heacutebergeacutees tantocirct par des laboratoires de matheacutematiques tantocirct

21 Cf Rapport de prospective du Conseil Scientifique drsquoInstitut de lrsquoInsmi mandat 2010-2014

par des laboratoires drsquoinformatique ou les eacutequipes Inria et dont les leaders sont fort heureusement visibles dans les deux disciplines Ces dix derniegraveres anneacutees ont ainsi vu lrsquoeacutemergence drsquoune communauteacute machine learning ( ou laquo apprentissage statistique raquo ) agrave lrsquointerface entre statistique et informatique

Classer des donneacutees en grande dimension analyser des donneacutees massives et souvent heacuteteacuterogegravenes ( Big Data ) bacirctir des preacutevisions agrave partir de donneacutees fonctionnelles analyser des donneacutees structureacutees en grands reacuteseaux voici autant de deacutefis auxquels les statisticiens seront confronteacutes dans les anneacutees agrave venir

Que ce soit pour la conception lrsquoexpeacuterimentation ou lrsquoapplication des meacutethodes statistiques la reacuteflexion matheacutematique est aujourdrsquohui indissociable de la reacuteflexion sur les algorithmes permettant son expression et sa mise en application Lrsquoavenir de la discipline passe donc par le deacuteveloppement harmonieux et les eacutechanges entre les trois grandes branches drsquoactiviteacute que sont la statistique matheacutematique la statistique computationnelle et le traitement de donneacutees

La modeacutelisation et le calcul

Le calcul scientifique consiste agrave mettre en œuvre de la faccedilon la plus efficace possible les algorithmes de calcul sur ordinateur des solutions du modegravele La fameuse loi de Moore preacutedit un doublement de la capaciteacute mateacuterielle de calcul des ordinateurs tous les dix-huit mois Cette loi empirique est veacuterifieacutee depuis plus de quarante ans Si lrsquoon tient aussi compte de lrsquoameacutelioration des algorithmes matheacutematiques de calcul on observe en fait un doublement de la puissance de calcul tous les huit mois seulement Aujourdrsquohui le calcul scientifique est partout dans les teacuteleacutephones portables pour traiter des images ou des videacuteos dans les voitures pour optimiser le freinage ou encore chez les architectes qui doivent preacutevoir la soliditeacute des structures qursquoils dessinent Certains calculs neacutecessitent peu de puissance et peuvent ecirctre reacutealiseacutes sur un ordinateur personnel Mais dans de nombreux domaines de la science la reacutealisation drsquoune simulation impose lrsquousage drsquoun supercalculateur Elle est alors souvent le travail drsquoeacutequipes multidisciplinaires matheacutematiciens informaticiens speacutecialistes du domaine modeacuteliseacute Un deacutefi important attend les speacutecialistes du calcul dans les anneacutees agrave venir Pour faire face agrave la consommation eacutenergeacutetique on assiste agrave une eacutevolution de lrsquoarchitecture des superordinateurs vers des assemblages de centaines de milliers de processeurs relieacutes entre eux par des connexions de vitesses variables Cette eacutevolution neacutecessite de

46

Livre Blanc sur les Donneacutees au CNRS Eacutetat des Lieux et Pratiques - 2018

deacutevelopper de nouveaux algorithmes qui tiennent agrave la fois compte des opeacuterations agrave effectuer mais aussi des deacuteplacements des donneacutees neacutecessaires agrave ces opeacuterations

De plus les calculs peuvent geacuteneacuterer des donneacutees massives ( Big Data ) qursquoil faut ecirctre capable de stocker de compresser et drsquoanalyser En effet avec lrsquoaugmentation de la puissance de calcul les modegraveles sont reacutesolus sur des maillages drsquoune tregraves grande preacutecision Cela neacutecessite le traitement de tregraves grandes masses de donneacutees pour les preacute- et post-traitements des calculs Par exemple les entreacutees utiliseacutees pour lrsquoassimilation de donneacutees dans des modegraveles drsquooceacuteanographie et de meacuteteacuteorologie proviennent drsquoinstruments de mesure ( satellites sondeshellip ) fournissant des masses de donneacutees de plusieurs peacutetaoctets De mecircme lors des post-traitements des simulations la visualisation de donneacutees de tregraves grande taille soulegraveve de nombreuses difficulteacutes Lagrave aussi lrsquoinvention de nouveaux algorithmes est indispensable

Lrsquoimagerie

En deux deacutecennies lrsquoimagerie est devenue un domaine de recherche majeur Les applications sont multiples et la demande socieacutetale forte dans des domaines aussi varieacutes que les sciences du vivant dont les neurosciences la vision la conception assisteacutee par ordinateur la physique des ondes lrsquoastronomie lrsquoeacutelaboration de diagnostics automatiques la deacutetection de situations ou de comportements Les sciences de lrsquoimagerie posent de nouvelles questions matheacutematiques associeacutees aux problegravemes de formation drsquoacquisition de compression de transmission de modeacutelisation drsquoanalyse de traitement drsquointerpreacutetation de restauration drsquoarchivage des images

Les modes drsquoacquisition et de diffusion des images sont multiples et en constante eacutevolution ( teacuteleacutevision numeacuterique HD ou 3D p ex ) Des informations et signaux aussi varieacutes que le niveau de gris la couleur lrsquoinfrarouge proche ou thermique lrsquoimagerie agrave grande gamme dynamique ( high dynamic range ) lrsquoimagerie multispectrale lrsquoimagerie par reacutesonance magneacutetique de diffusion ( diffusion tensor image ) les signaux radarhellip forment des images pluriformes Modeacuteliser manipuler et traiter ces masses de donneacutees heacuteteacuterogegravenes et multidimensionnelles ( images videacuteos surfaces graphes ) est un enjeu scientifique et socio-eacuteconomique majeur Nombre de problegravemes en matheacutematiques de lrsquoimagerie neacutecessitent lrsquooptimisation de fonctionnelles tregraves complexes souvent non lisses parfois non convexes et toujours en tregraves grande dimension ( de

lrsquoordre de plusieurs millions de variables ) engendrant ainsi le traitement drsquoimportantes masses de donneacutees

Geacuteomeacutetrie et topologie

La gestion des donneacutees a eacutegalement impacteacute les matheacutematiques fondamentales telles que la geacuteomeacutetrie ou la topologie Gracircce aux performances accrues des moyens techniques certains problegravemes ont reacutecemment pris une ampleur diffeacuterente et profitent grandement de ces avanceacutees dans le traitement des donneacutees de tregraves grande taille Par exemple crsquoest le cas de lrsquoanalyse topologique des donneacutees En effet il srsquoagit drsquoextraire des informations geacuteomeacutetriques ( courbure ) et topologiques ( pattern ) drsquoun nuage de points dans un espace meacutetrique Lrsquoapproche consideacutereacutee repose sur les descripteurs homologiques persistants Lrsquoutilisation de nuages de points de tregraves grandes tailles en dimension eacuteleveacutee a mis en eacutevidence la pertinence de ces approches aux extensions et applications multiples systegravemes dynamiques astrophysique physique de mateacuteriaux nanomateacuteriaux

Un autre enjeu concerne les expeacuterimentations meneacutees sur des suites entiegraveres multi-indexeacutees correspondant agrave des quantiteacutes geacuteomeacutetriques associeacutees agrave certaines varieacuteteacutes ( algeacutebriques ou symplectiques ) Il srsquoagit dans un premier temps de calculer une eacutenorme quantiteacute de termes de la suite Cette importante masse de donneacutees permet alors pour les suites consideacutereacutees drsquoeacutetudier les proprieacuteteacutes remarquables de comprendre les relations entre ces nombres et drsquoextraire des relations avec drsquoautres proprieacuteteacutes geacuteomeacutetriques

273 Conclusion

Agrave lrsquoheure actuelle les chercheurs de lrsquoInsmi sont essentiellement des utilisateurs de donneacutees plutocirct que des producteurs de donneacutees mais cette tendance peut eacutevoluer tregraves rapidement Lrsquoaccessibiliteacute de donneacutees de plus en plus riches conduit les chercheurs en matheacutematiques agrave faire eacutemerger de nouvelles approches et agrave envisager des changements de paradigmes Cela ne peut ecirctre envisageable qursquoavec un accompagnement humain et mateacuteriel Cet accompagnement doit aussi permettre un accegraves agrave la formation et apporter un soutien agrave la transversaliteacute qui est un des fondements de la notion de laquo donneacutee raquo

LrsquoInsmi est un acteur essentiel dans lrsquoanalyse la modeacutelisation et lrsquointerpreacutetation des donneacutees

INSMI

47

Livre Blanc sur les Donneacutees au CNRS Eacutetat des Lieux et Pratiques - 2018

28 INSTITUT DES SCIENCES DE LrsquoUNIVERS ( INSU )

281 Introduction

LrsquoInstitut National des Sciences de lrsquoUnivers est un institut pluridisciplinaire regroupant les domaines drsquoastronomie et drsquoastrophysique de lrsquooceacutean de lrsquoatmosphegravere des sciences de la Terre des surfaces et interfaces continentales Comprendre et preacutevoir le fonctionnement et lrsquoeacutevolution de ces systegravemes dans leurs environnements est un enjeu scientifique fondamental avec de nombreuses applications socio-eacuteconomiques

Les disciplines de lrsquoINSU partagent une culture scientifique et des pratiques de recherche fondeacutees sur lrsquoobservation ( sol air mer spatial ) agrave long terme ( gt 30 ans ) des systegravemes naturels inteacutegrant un large spectre drsquoeacutechelles spatiales et temporelles et incluant une vaste palette drsquooutils drsquoanalyse in situ drsquoeacutechantillons issus des milieux naturels terrestres ou extraterrestres Ces disciplines integravegrent

bull La conception le deacuteveloppement et lrsquoopeacuteration de grands instruments et systegravemes drsquoobservation ( sol air mer spatial ) agrave lrsquoeacutechelle nationale et internationale

bull La simulation numeacuterique de lrsquoeacutevolution des systegravemes naturels permettant dans un cadre probabiliste drsquoeacutechantillonner des espaces de modegraveles complexes et de les mapper dans lrsquoespace des donneacutees ainsi que drsquoen quantifier les incertitudes et les eacuteveacutenements extrecircmes

bull Lrsquoarchivage la curation et la mise agrave disposition drsquoune grande diversiteacute de donneacutees ( observations simulations analyses ) et de modegraveles avec des standards de repreacutesentation et drsquoeacutechange de donneacutees de provenance de certification ( qualiteacute inteacutegriteacute veacuteraciteacute )

bull Le traitement et lrsquoanalyse de grands jeux de donneacutees multi-sources pour en extraire de nouvelles informations et les distiller sous des formes reacuteutilisables

bull La combinaison drsquoobservations et de simulations numeacuteriques dans un cadre probabiliste drsquoinfeacuterence et drsquoassimilation de donneacutees pour ameacuteliorer la description des modegraveles ainsi que leur capaciteacute preacutedictive

Les missions nationales drsquoobservation et de surveillance des aleacuteas naturels de lrsquoINSU srsquoappuient sur une organisation territoriale originale structureacutee autour des Observatoires des Sciences de lrsquoUnivers ( OSU ) qui deacuteploient des Services Nationaux drsquoObservation ( SNO ) A ces missions srsquoajoutent des missions programmatiques au travers de prospectives nationales pour deacutefinir une strateacutegie scientifique et drsquoobservation agrave long terme et identifier les eacutequipements nationaux et internationaux neacutecessaires agrave sa mise en œuvre

Les communauteacutes de lrsquoINSU sont inteacutegreacutees et organiseacutees aux niveaux national et international au travers de grandes missions spatiales de grands instruments et systegravemes drsquoobservation ainsi que drsquoinfrastructures distribueacutees et feacutedeacutereacutees drsquoarchivage et de distribution des donneacutees Lrsquoimportance des donneacutees a conduit les communauteacutes de lrsquoINSU agrave jouer un rocircle pionnier dans la promotion de donneacutees ouvertes partageacutees interopeacuterables et reacuteutilisables ainsi que du stewardship de ces donneacutees par les communauteacutes

Les pratiques de recherche reposent sur de larges workflows qui sont piloteacutes par les donneacutees et orchestrent leur analyse de pointe ( HDA pour High-end Data Analysis ) et calcul haute performance ( HPC pour High-Performance Computing ) Elles ont permis ces derniegraveres anneacutees des avanceacutees spectaculaires sur des problegravemes fondamentaux lieacutes agrave la compreacutehension de la formation des structures et de lrsquoeacutevolution des systegravemes Terre-Planegravetes-Univers ainsi que sur de grands enjeux socio-eacuteconomiques changements climatiques et environnementaux meacuteteacuteorologie spatiale surveillance et preacutevention des aleacuteas et risques naturels ( volcaniques sismiques ) exploration et gestion des nouvelles ressources eacutenergeacutetiques

48

Livre Blanc sur les Donneacutees au CNRS Eacutetat des Lieux et Pratiques - 2018

282 Contexte des donneacutees agrave lrsquoINSU

La probleacutematique des donneacutees agrave lrsquoINSU srsquoappuie sur un dispositif original

bull Les Observatoires des Sciences de lrsquoUnivers ( OSU )

Communs aux universiteacutes et au CNRS ils organisent reacutegionalement souvent en partenariat avec drsquoautres acteurs de la recherche ( p ex CEA CNES IFSTTAR IFREMER IPEV IRD IRSTEA Meacuteteacuteo-France ) les moyens neacutecessaires pour la reacutealisation et lrsquoopeacuteration drsquoinstruments et systegravemes drsquoobservation le traitement la curation et la mise agrave disposition de donneacutees ainsi que leur exploitation scientifique Ils feacutedegraverent des laboratoires mutualisent des ressources et des compeacutetences ( meacutethodologiques et technologiques ) et stimulent des recherches interdisciplinaires aux interfaces entre diffeacuterents domaines ( p ex astronomie sciences du climat geacuteophysique interne physique des particules eacutecologie sciences biologiques physique des mateacuteriaux santeacute ) A ces missions srsquoajoute le deacuteveloppement drsquoactions internationales

bull Les Services Nationaux drsquoObservations ( SNO )

Labeacuteliseacutes par lrsquoINSU ils sont deacuteployeacutes dans les OSU et deacuteclineacutes suivant les diffeacuterentes theacutematiques de lrsquoinstitut Ils couvrent diffeacuterents aspects des donneacutees meacutetrologie extrecircme de lrsquoespace et du temps instrumentation et opeacuteration de dispositifs drsquoobservation ( sol air mer espace ) et de sites instrumenteacutes archivage curation et distribution des donneacutees deacuteveloppement et distribution de codes et de bibliothegraveques numeacuteriques communautaires formation et diffusion des connaissances Leur peacuterimegravetre est celui sur lequel le Conseil National des Astronomes et Physiciens ( CNAP ) srsquoappuie pour eacutevaluer les missions drsquoobservation des personnels du corps des astronomes et physiciens

Les SNO sont rassembleacutes et structureacutes au sein drsquoActions Nationales pour lrsquoObservation ( ANO ) en lien avec des actions nationales et internationales du Ministegravere de lrsquoenseignement supeacuterieur de la recherche et de lrsquoinnovation ( SOERE IR TGIR ) notamment pour les infrastructures de recherche europeacuteennes ( inscrites sur la liste du forum ESFRI ) et les organisations internationales Les actions dans lesquelles lrsquoINSU est mobiliseacute reflegravetent la diversiteacute des dispositifs drsquoacquisition de donneacutees en sciences de lrsquoUnivers avec pour exemple

bull Infrastructures de Recherche

- En astronomie Centre de Donneacutees astronomiques de Strasbourg ( CDS ) contribution franccedilaise agrave lrsquoObservatoire Virtuel International en Astronomie ( IVOA ) instrumentation pour les grands teacutelescopes de lrsquoESO ( INSTRUM-ESO ) contribution franccedilaise au systegraveme de radioteacutelescope international LOw Frequency ARray ( LOFAR ) et son extension ( ENUFAR contribution au teacutelescope gamma High-Energy Stereoscopic System ( HESS en partenariat avec lrsquoIN2P3 )

- Pour les sciences de la planegravete Aerosols Clouds and Trace Gases Research Infrastructure ( ACTRIS en partenariat avec le CNES CEA IRD Meacuteteacuteo-Francehellip ) infrastructure nationale de modeacutelisation du systegraveme climatique de la Terre ( CLIMERI en partenariat avec le CEA Meacuteteacuteo-France IRD Cerfacs GENCI ) base antarctique franco-italienne ( CONCORDIA en partenariat avec IPEVhellip ) European Multidisciplinary Subsea Observatory ( EMSO en partenariat avec lrsquoIfremer ) In-service Aircraft for a Global Observing System ( IAGOS partenariat avec Meacuteteacuteo-France ) infrastructure de recherche littorale et cocirctiegravere ( ILICO en partenariat avec IFREMER IGN IRD et SHOM ) observatoire de la zone critique ( OZCAR en partenariat avec BRGM CNES IFSTTAR INRA IRD IRSTEA hellip ) reacuteseau sismologique et geacuteodeacutesique franccedilais ( RESIF partenariat avec BRGM CNES IRD IFSTTARhellip ) pocircle de donneacutees et services pour le systegraveme Terre ( en partenariat avec CNES IRD IFREMER IGN IRSTEA Meacuteteacuteo-Francehellip ) Service des Avions Franccedilais Instrumenteacutes pour la Recherche en Environnement ( SAFIRE en partenariat avec le CNES et Meacuteteacuteo-France ) les infrastructures analytiques comme la ligne FRAME de lrsquoESF et les instruments nationaux INSU qui seront coordonneacutes par le Reacuteseau Geacuteochimique et Expeacuterimental Franccedilais ( REGEF )

bull Tregraves Grandes Infrastructures de Recherche

Canada-France-Hawaiuml Teacutelescope ( CFHT ) Cherenkov Telescope Array ( CTA en partenariat IN2P3 et CEA ) Institut de radioastronomie millimeacutetrique ( IRAM ) European Gravitational Observatory ( EGO-Virgo en partenariat avec IN2P3 et INP ) reacuteseau de flotteurs profilants autonomes ( Euro-Argo ) contribution europeacuteenne au reacuteseau international Argo European Consortium for Drilling Research - Integrated Ocean Drilling Project ( ECORD-IODP ) Integrated Carbon Observation System ( ICOS ) Flotte oceacuteanographique franccedilaise ( avec Ifremer IPEV IRD )

INSU

49

Livre Blanc sur les Donneacutees au CNRS Eacutetat des Lieux et Pratiques - 2018

bull Organisations Internationales

laquo European Southern Observatory raquo ( ESO ) centre europeacuteen de preacutevision meacuteteacuteorologique-CPMMT ( ECWWF ) Intergovernmental Panel on Climate Change ( IPCC ) hellip

bull Insertion europeacuteenne

- Forum ESFRI European Research Infrastructure Consortium ( ERIC ) et clusters les infrastructures de lrsquoINSU sont pour la plupart inscrites sur la liste ESFRI soit comme projet soit comme landmark Crsquoest notamment le cas pour ACTRIS le projet ELT de lrsquoESO CTA EPOS IAGOS SKAhellip Euro-Argo EMSO ICOS et bientocirct EPOS ont le statut drsquoERIC

- Le cluster ASTERICS Astronomy ESFRI and Research Infrastructure Cluster a pour objectif la facilitation et la coordination de deacuteveloppements pour ELT SKA CTA et KM3NET tandis que le reacuteseau AENEAS est speacutecifiquement deacutedieacute au traitement des donneacutees issues du teacutelescope geacuteant Square Kilometer Array ( SKA )

Lrsquoimportance des observations spatiales dans les sciences de lrsquoUnivers se traduit par lrsquoimplication de lrsquoINSU dans de grands projets spatiaux deacutefinis et soutenus par le CNES en lien avec lrsquoAgence Spatiale Europeacuteenne ( ESA ) et drsquoautres agences internationales comme la NASA pour ( i ) la conception et le deacuteveloppement drsquoinstruments et de systegravemes drsquoacquisition embarqueacutes ( p ex satellites sondes interplaneacutetaires ballons ) ( ii ) des chaicircnes de traitement et de reacuteduction de donneacutees ( iii ) lrsquoexploitation scientifique de ces missions On peut citer par exemple ( i ) SOHO ( structure interne et atmosphegravere externe du SOLEIL vent solaire ) ( ii ) Solar Orbiter ( observation du SOLEIL ) iii ) Planck ( fond diffus cosmologique ) ( iv ) Gaia ( cartographie 3D de la Voie lacteacutee ) ( v ) RosettaPhilae ( eacutetude drsquoune comegravete et de son comportement agrave lrsquoapproche du SOLEIL ) ( vi ) CopernicusSentinel ( observation et surveillance de la Terre pour lrsquoenvironnement et la seacutecuriteacute ) ( vii ) et dans le futur Euclid ( caracteacuterisation de la nature de lrsquoeacutenergie noire ) ( viii ) Plato ( deacutetection et eacutetude de nouveaux systegravemes eacutetoiles-planegravetes ) ( ix ) InSight ( eacutetude de la structure interne de Mars )hellip

283 Probleacutematique des donneacutees agrave lrsquoINSU

Environnements de production de donneacutees

Les flux de donneacutees en sciences de lrsquoUnivers explosent Ils sont geacuteneacutereacutes aujourdrsquohui agrave la fois dans des edge-environments grands instruments et systegravemes drsquoobservation ( sol air mer espace ) ougrave les ressources ( eacutenergie communication stockage calcul ) sont rares et dans des centralised-environnements de type HPC grandes simulations numeacuteriques ougrave est concentreacute lrsquoessentiel des ressources de tregraves haute performance

Les principales caracteacuteristiques de ces flux ( continus sporadiques ) sont les volumes les vitesses ( geacuteneacuteration transmission preacutetraitement ) la varieacuteteacute ( structureacutee non-structureacutee mixte ) et la veacuteraciteacute des donneacutees

Ce double contexte creacutee aujourdrsquohui une collection de problegravemes dont le principal deacutefi est la logistique des donneacutees tout au long de leurs chaicircnes drsquoacquisition et drsquoutilisation gestion du positionnement et de lrsquoencodageagencement des donneacutees au cours du temps transmission distribution de ressources ( caching-bufferisation-stockage calcul ) et des services

Grands instruments et systegravemes drsquoobservation

Les flux agreacutegeacutes de donneacutees geacuteneacutereacutees par les dispositifs observationnels en sciences de lrsquoUnivers ont franchi aujourdrsquohui lrsquoeacutechelle de la dizaine de Poan ~30 Gojour pour les grands reacuteseaux de capteurs ( p ex RESIFEPOS ) ~ 50-100 Gojour pour les grandes missions spatiales ( p ex GAIA Euclid CopernicusSentinel ) gt 1 Tojour pour les grands teacutelescopes au sol actuels et futurs ( p ex ALMA ELThellip ) ~1 Pojour ( p ex LOFAR ) et prochainement ~100 Pojour ( p ex SKA ) nouvelle geacuteneacuteration de grands interfeacuteromegravetres dans le domaine des radio-freacutequences

La logistique des donneacutees varie en fonction des dispositifs de mesure ( sol air mer spatial in situ ) de plus en plus complexes ( multi-capteurs multi-freacutequences multi-pixels ) et de leur geacuteomeacutetrie centraliseacutee ( p ex teacutelescopes satellites ) ou distribueacutee globalement ou reacutegionalement ( reacuteseaux drsquoantennes et de capteurs ) Avec lrsquoexplosion des volumes et des vitesses des donneacutees associeacutees aux nouvelles geacuteneacuterations de grands instruments et systegravemes drsquoobservation il devient impossible de transfeacuterer et drsquoarchiver

50

Livre Blanc sur les Donneacutees au CNRS Eacutetat des Lieux et Pratiques - 2018

lrsquoensemble des donneacutees et la reacuteduction des donneacutees est devenue un enjeu critique ( particuliegraverement pour les observations spatiales ) La logistique des donneacutees implique de deacuteplacer lrsquointelligence vers la peacuteripheacuterie au plus proche de leurs sources souvent multiples afin de ( i ) preacutetraiter ( synchronisation agreacutegation combinaison ) et reacuteduire ces flux en continu au cours de leur transport au travers de reacuteseaux ( statiques ou dynamiques ) de bandes passantes heacuteteacuterogegravenes et une varieacuteteacute de edge-technologies ( cachingbufferisation calcul ) ( ii ) agreacuteger en bout de chaicircne ces flux dans des plateformes centraliseacutees de plus en plus proches des sources disposant de larges ressources ( stockage calcul communication ) afin de permettre des traitements locaux ( tels que calibration transformation extractionreconstruction ) des constructions et reacuteductions intelligentes de nouveaux objets de donneacutees ( p ex eacuteveacutenements sources imagesvisibiliteacutes faisceaux ) ainsi que leur archivage ( iii ) redistribuer de larges sous-ensembles de donneacutees vers des plateformes distribueacutees et feacutedeacutereacutees de ressources et de services pour leur exploitation scientifique par les communauteacutes

La reacuteduction et la logistique des donneacutees des tregraves grands instruments et systegravemes drsquoobservation sont deacutefinies dans le cadre drsquoorganisations internationales associant souvent au cocircteacute des partenaires eacutetrangers drsquoautres instituts du CNRS ( p ex IN2P3 ) et drsquoautres acteurs franccedilais de la recherche ( p ex CNES CEA Ifremer etc ) Un autre deacutefi ( plus proceacutedural que scientifique ou technologique ) est drsquoassurer la coheacuterence et drsquoidentifier les niveaux possibles de feacutedeacuteration et de mutualisation entre diffeacuterents projets en phase avec les applications et les pratiques de recherche des communauteacutes utilisatrices de ces donneacutees

Grandes simulations numeacuteriques

Les simulations numeacuteriques HPC sont aujourdrsquohui de grands instruments scientifiques agrave part entiegravere pour nombre de disciplines des sciences de lrsquoUnivers ( p ex climat oceacutean atmosphegravere cosmologie et astrophysique astrophysique des hautes eacutenergies geacuteophysique ) Elles permettent de deacuteduire lrsquoeacutevolution de systegravemes naturels complexes agrave partir de modegraveles multi-eacutechelles et multi-physiques souvent coupleacutes et au travers de reacutealisations drsquoensembles drsquoeacutechantillonner des espaces de modegraveles complexes et de les mapper dans lrsquoespace des donneacutees

Ces simulations geacutenegraverent des flux ( volumes vitesses ) tregraves importants de donneacutees au sein des environnements HPC centraliseacutes Les volumes de donneacutees produits ont deacutepasseacute aujourdrsquohui lrsquoeacutechelle de la dizaine de peacutetaoctets ( p ex modeacutelisation du climat cosmologie numeacuterique sismologie ) En retour ces simulations permettent la conception de grands instruments et systegravemes drsquoobservation de plus en plus complexes ainsi que de leurs chaicircnes de traitement et de reacuteduction de donneacutees via la modeacutelisation de leur fonctionnement dans les environnements drsquoacquisition

LrsquoINSU est aujourdrsquohui un des principaux utilisateurs des grands centres de calcul nationaux ( GENCI ) Pour lrsquoanneacutee 2017 les disciplines de lrsquoINSU repreacutesentaient ( hors exercice CMIP6 ) 25 des heures attribueacutees ( CT1 environnement et CT4 astrophysique-geacuteophysique ) ainsi que ~80 des ressources de stockage alloueacutees Certaines communauteacutes utilisent eacutegalement les grands centres de calcul europeacuteens ( Tiers-0 Prace ) et internationaux ( DOE-NSF aux Etats-Unis JAMSTEC au Japon )

La logistique des donneacutees au cours de ces simulations ( positionnement des donneacutees au travers de la hieacuterarchie de meacutemoire couplages entre modegraveles reacuteduction des entreacuteessorties agencement et repreacutesentation des donneacutees ) est devenue critique Lrsquoanalyse in situ des flux de donneacutees via des meacutethodes de type laquo apprentissage machine raquo et des environnements immersifs intelligents ( capteurs virtuels ) renforce les besoins drsquoune convergence entre HPC et HDA Elle doit ecirctre coupleacutee avec des systegravemes fins de provenance pour le controcircle dynamique de ces simulations le pilotage de workflows orchestrant des ensembles de simulations ainsi que pour lrsquooptimisation ( latence ) des mouvements des donneacutees la reacuteduction des entreacuteessorties et des volumes de donneacutees agrave stocker

Cette logistique est eacutegalement complexe en raison du cycle de vie des reacutesultats de ces simulations qui impliquent de les redistribuer et de les archiver avec leurs modegraveles vers la peacuteripheacuterie pour leur exploitation par les communauteacutes scientifiques agrave lrsquoeacutechelle nationale ou internationale intercomparaison de modegraveles analyse combineacutee avec les observations Un exemple type est fourni dans la communauteacute de modeacutelisation du climat ( p ex exercices de simulations CMIP Coupled Model Intercomparison Project ) Un autre exemple est fourni par la communauteacute de la cosmologie numeacuterique ( p ex consortium national DEUS Dark Energy Universe Simulation )

INSU

51

Livre Blanc sur les Donneacutees au CNRS Eacutetat des Lieux et Pratiques - 2018

Workflows et exploitation scientifique des donneacutees

Un autre aspect critique est la logistique des donneacutees tout au long de larges chaicircnes drsquoexploitation scientifique qui sont piloteacutees par les donneacutees elles-mecircmes et orchestrent des eacutetapes de calcul intensif et drsquoanalyse

Ces workflows ne sont pas des outils logiciels isoleacutes ou des codes applicatifs mais des configurations complexes et variables de logiciel de mateacuteriel et de flux de donneacutees qui traduisent des phases de processus drsquoinfeacuterence en sciences de lrsquoUnivers Lrsquoespace multidimensionnel de donneacutees que ces workflows deacutefinissent implique que chacune de ces eacutetapes doit acceacuteder manipuler et combiner de maniegravere coordonneacutee de larges volumes et une grande diversiteacute de donneacutees

Traiter et analyser de larges volumes de donneacutees ( observations simulations )

Ces workflows orchestrent typiquement des eacutetapes drsquoingestionagreacutegation de traitement et drsquoanalyse de donneacutees afin drsquoen extraire de nouvelles informations

La phase drsquoingestion implique le stockage temporaire ( p ex bufferisation caching ) de larges volumes de donneacutees multi-sources sur des dureacutees variables ( mois anneacutees ) en fonction du cycle drsquoutilisation des donneacutees ainsi que des services ( p ex indexation bases de donneacutees et de meacutetadonneacutees provenance ) et des systegravemes de documentation ( p ex donneacutees modegraveles ) Elle varie suivant la provenance des donneacutees en continu depuis la peacuteripheacuterie sur requecircte depuis des feacutedeacuterations drsquoarchives et en combinaison observations et reacutesultats de simulations

Les phases de traitement et drsquoanalyse concernent diffeacuterentes eacutetapes de complexiteacute variable le plus souvent ( i ) filtrage reacuteduction de bruit reconstruction bas niveau ( ii ) deacutetection ( p ex eacuteveacutenements transitoires anomalies ) ( iii ) segmentation ( iv ) extraction ( p ex objets caracteacuteristiques statistiques ) ( v ) classificationagreacutegation ( vi ) transformations complexes ( p ex images correacutelations croiseacutees steering functions ) Les phases drsquoanalyse mettent souvent en jeu des meacutethodes statistiques ( p ex Monte Carlo ) et drsquolaquo apprentissage machine raquo

La logistique des donneacutees et la diversiteacute de ces workflows exploitent des plateformes de services de calcul et drsquoanalyse disposant drsquoenvironnements flexibles et reacuteactifs qui feacutedegraverent et mutualisent des services ( stockage bufferisation caching calcul HTC calcul parallegravele hybride communication logiciel ) Elles assurent des flux de traitement proches des vitesses drsquoaccegraves aux donneacutees Elles supportent des modegraveles de langage et drsquoexeacutecution en streaming avec des systegravemes fins de provenance coupleacutes agrave des technologies de virtualisation ( conteneurs ) et adapteacutes au Big Data ( p ex Spark Storm ) Elles permettent eacutegalement la mutualisation et lrsquoutilisation de meacutethodes et drsquooutils logiciels de traitement adeacutequatement organiseacutes et modulables dans diffeacuterents contextes ( p ex librairies Python modules de traitements Jupyter Notebooks )

Ces plateformes sont heacutebergeacutees dans des infrastructures Tiers-2-Tiers-3 adosseacutees agrave des OSU ou des feacutedeacuterations de recherche ( p ex Observatoire de Paris OCA IPSL IPGP OSUG OMP ) souvent en lien avec des meacutesocentres reacutegionaux ( p ex IDRIS Gricad Calmip Meso-PSL ) Elles offrent des capaciteacutes de stockage de plusieurs peacutetaoctets et des puissances de calcul proches de la centaine de teacuteraflops Un exemple de feacutedeacuteration internationale est lrsquoESGF ( Earth System Grid Federation ) en modeacutelisation du climat avec le nœud national ( CICLAD-CLIMSERV-IDRIS ) de lrsquoIPSL ESGF permet de distribuer cataloguer des dizaines de peacutetaoctets de donneacutees geacuteneacutereacutees par les simulations CMIP drsquoy acceacuteder de maniegravere seacutecuriseacutee et de les analyser avec des observations multi sources

Infeacuterence et assimilation de donneacutees combinant observations et simulations

Ces workflows combinent preacutedictions ( simulations numeacuteriques ) et observations multi-sources au sein drsquoenvironnements centraliseacutes de type HPC Les approches de type infeacuterenceinversion ( p ex cosmologie et astrophysique sismologie geacuteodeacutesie gravimeacutetrie ) permettent dans un cadre probabiliste drsquoameacuteliorer la description des modegraveles de systegravemes naturels ainsi que la reconstruction de leurs eacutetats Les approches drsquoassimilation de donneacutees ( p ex climat et meacuteteacuteorologie champs magneacutetiques terrestres et planeacutetaires ) dans un cadre variationnel ou statistique permettent drsquoameacuteliorer les preacutevisions de lrsquoeacutevolution de ces modegraveles en reconstruisant un eacutetat initial aussi consistant que possible avec leur dynamique

52

Livre Blanc sur les Donneacutees au CNRS Eacutetat des Lieux et Pratiques - 2018

Infeacuterence et assimilation de donneacutees sont des workflows complexes orchestrant de multiples phases HPC ( simulation numeacuterique ) et HDA ( traitement et analyse de donneacutees ) Avec lrsquoeacutevolution rapide des capaciteacutes de calcul et des meacutethodes numeacuteriques ils exploitent aujourdrsquohui des approches probabilistes au travers drsquoensembles de simulations numeacuteriques permettant drsquoexplorer des espaces de modegraveles complexes et leurs conditions initiales ainsi que de quantifier les incertitudes directes et inverses Ils combinent souvent laquo apprentissage machine raquo optimisation stochastique theacuteorie de lrsquoinformation et transport optimal

Cette convergence entre HPC et HDA deacutefie les environnements de type HPC ( accegravescommunications stockage calcul et meacutemoire ) ainsi que leur exploitation ( c-agrave-d ordonnancement par lots ) Un aspect critique est la logistique des flux ( volumes vitesses ) de donneacutees transmis ( souvent en continu ) depuis des sources peacuteripheacuteriques et geacuteneacutereacutes au sein des environnements HPC au cours des eacutetapes de simulation et drsquoanalyse ( combinant observations et reacutesultats de simulation ) Par exemple pour chaque preacutevision meacuteteacuteorologique reacutegionale une grande diversiteacute et un grand volume de donneacutees doivent ecirctre collecteacutes depuis des sources peacuteripheacuteriques ( satellites catasondes stations au sol boueacutees observations actuelles et historiques ) et centraliseacutes ( simulations des caracteacuteristiques et des processus des modegraveles du systegraveme Terre ) Toutes ces informations sont assimileacutees dans des moteurs drsquoassimilation complexes et non-lineacuteaires pour preacutevoir des caracteacuteristiques meacuteteacuteorologiques et les distiller pour leur utilisation par diffeacuterents acteurs

Ces workflows requiegraverent les capaciteacutes haute-performance ( stockage calcul communication ) des grands centres europeacuteens et nationaux ( Tier-0 et Tier-1 ) voire reacutegionaux ( Tier-2 ) qui doivent offrir des politiques drsquoaccegraves et drsquoexploitation adapteacutees ( HPCHDA ) et ecirctre feacutedeacutereacutes avec des plateformes distribueacutees ( archivage edge-computing ) pour la transmission et le traitement en cours de transport des flux de donneacutees depuis des sources peacuteripheacuteriques

Archivage curation accegraves et geacuterance des donneacutees

Une mission importante de lrsquoINSU est de rendre publiques eacuteventuellement apregraves une courte peacuteriode drsquoexclusiviteacute les donneacutees issues des grands instruments et systegravemes drsquoobservation et des simulations numeacuteriques Cette diffusion rapide agrave lrsquoensemble de la communauteacute vise

agrave maximiser le retour scientifique drsquoinvestissements lourds Cela nrsquoa de sens que si les donneacutees peuvent ecirctre facilement deacutecouvertes acceacutedeacutees interopeacutereacutees et reacuteutiliseacutees dans une vision inteacutegreacutee des pheacutenomegravenes et des systegravemes observeacutes au cours du temps

Les missions essentielles des OSU des services nationaux drsquoobservation et des actions nationales drsquoobservation sont lrsquointeacutegrationagreacutegation la curation la documentation la publication et la diffusion de ces donneacutees ainsi que leur apporter de la valeur ajouteacutee au sein de structures deacutedieacutees qui mutualisent les expertises et les ressources neacutecessaires Cela recouvre un certain nombre drsquoactiviteacutes sur le cycle de vie des donneacutees qui va bien au-delagrave de la dureacutee de vie des instruments et systegravemes drsquoobservation

bull Le traitement et calibration des donneacutees recouvrent des chaicircnes de traitement systeacutematique et la production de donneacutees de haut niveau pour les communauteacutes

bull La curation des donneacutees recouvre lrsquoorganisation lrsquo inteacutegration lrsquoagreacutegation lrsquoannotation la documentation et le reacutefeacuterencement des donneacutees Elle integravegre des chaicircnes de controcircle et des protocoles de certification des qualiteacute inteacutegriteacute veacuteraciteacute et pertinence des donneacutees sur leur cycle de vie ainsi que des systegravemes permettant de tracer leur provenance et leurs changements

bull Lrsquoarchivage et le reacutefeacuterencement des donneacutees avec des services avanceacutes ( indexation bases de donneacutees et de meacutetadonneacutees provenance ) assurent la persistance des donneacutees et des meacutetadonneacutees sur leur cycle de vie

bull La diffusion et la publication des donneacutees reposent sur une description standardiseacutee des donneacutees ( observations reacutesultats de simulations ) et des modegraveles avec des standards de meacutetadonneacutees drsquoaccegraves et drsquoeacutechange des identificateurs agreacuteeacutes ainsi que des services avanceacutes pour en faciliter la deacutecouverte lrsquoaccegraves lrsquointeropeacuterabiliteacute et la manipulation via les observatoires virtuels les pocircles de donneacutees et leurs deacuteveloppements Ces standards sont deacutefinis au niveau des diffeacuterentes disciplines dans le cadre de structures internationales ( p ex IVOA FDSN UNAVCO GEOGEOSS ESGF )

Ces activiteacutes concernent eacutegalement agrave des degreacutes divers selon les communauteacutes ( astronomie amp astrophysique oceacutean-atmosphegraverehellip ) la mise agrave disposition le deacuteveloppement et la maintenance de codes numeacuteriques des bibliothegraveques de traitement et drsquoanalyse de reacutefeacuterence ou communautaires

INSU

53

Livre Blanc sur les Donneacutees au CNRS Eacutetat des Lieux et Pratiques - 2018

Plus reacutecemment elles concernent de nouveaux objets associeacutes agrave des identificateurs agreacuteeacutes ( projets ou publications ) qui permettent de laquo conteneuriser raquo donneacutees description des dispositifs expeacuterimentaux et chaicircnes de traitement et drsquoanalyse afin de preacuteserver lrsquoexpertise des donneacutees faciliter leur reacuteutilisation dans et en dehors du contexte de leur acquisition et permettre la reproductibiliteacute des reacutesultats scientifiques

Un nombre croissant drsquoenjeux scientifiques ( modeacutelisation du climat physique solaire et stellaire eacutetude du champ magneacutetique terrestre signatures des ondes gravitationnelles et des grands tremblements de terre surveillance des aleacuteas naturels changements environnementaux ) impliquent une compreacutehension preacutedictive drsquoun mecircme objet ou systegraveme Ces approches interdisciplinaires avec des meacutethodes de type multi-messagers requiegraverent un accegraves fluide agrave des donneacutees multi-sources issues de contextes scientifiques et de modaliteacutes observationnelles ( sol air mer spatial ) diffeacuterents ainsi que des outils translationnels pour les combiner les croiser et les syntheacutetiser au sein de chaicircnes de traitement et drsquoanalyse souvent coupleacutees agrave des simulations numeacuteriques Deacutecouvrir ces donneacutees ainsi que les ressources et services associeacutes demande une harmonisation ( agrave travers diffeacuterentes disciplines ) des modegraveles de donneacutees et une standardisation ( au sein des disciplines ) en particulier pour ( i ) les proceacutedures de controcircle de qualiteacute drsquointeacutegriteacute et de veacuteraciteacute des donneacutees ainsi que leur documentation ( ii ) les meacutetadonneacutees les systegravemes drsquoinformation et les registres

Les volumes et la diversiteacute des donneacutees ainsi que les pratiques de recherche de plus en plus interdisciplinaires ont conduit lrsquoINSU agrave reacuteorganiser les donneacutees autour de

bull Plateformes reacutegionales de ressources et de services Adosseacutees aux OSU elles feacutedegraverent et mutualisent des ressources ( stockage calcul ) des services ( bases de donneacutees et de meacutetadonneacutees web-services ) et une masse critique drsquoexpertises pour lrsquoarchivage la curation et la distribution des donneacutees Elles sont associeacutees agrave des programmes et instruments labeacuteliseacutes par lrsquoINSU et peuvent ecirctre multitheacutematiques Ces infrastructures Tier-3 souvent doteacutees drsquoune structure de pilotage heacutebergent des ressources de stockage ( de quelques centaines de teacuteraoctets agrave quelques peacutetaoctets ) et de calcul pour les phases de traitement systeacutematique et de curation Avec lrsquoaugmentation des volumes et de la diversiteacute des donneacutees ainsi que la complexiteacute

croissante des activiteacutes de traitement et de curation les besoins de stockage et de calcul croissent rapidement En synergie avec les plateformes de calcul et drsquoanalyse elles ont pour vocation de se rapprocher de Tier-2 reacutegionaux deacutesireux drsquoexplorer de nouveaux modegraveles drsquoarchitectures centreacutees sur les donneacutees de langage et drsquoexeacutecution de services et drsquoenvironnements drsquoaccegraves et drsquoutilisation

bull Pocircles theacutematiques de services et de donneacutees Ils ont pour vocation de fournir un portail unique au niveau national et des plateformes de services avanceacutes facilitant la deacutecouverte lrsquoaccegraves la combinaison et lrsquoutilisation scientifique drsquoensembles de donneacutees multi-types multi-sources issus drsquoexpeacuteriences et de dispositifs observationnels ( sol air mer spatial ) diffeacuterents Ils srsquoappuient sur les plateformes reacutegionales et les feacutedegraverent nationalement Ils sont doteacutes drsquoune structure de pilotage et drsquoutilisateurs et leur gestion associe souvent drsquoautres organismes ( p ex CNES CEA Ifremer IRD Meacuteteacuteo-France ) On peut citer ( i ) en astronomie et astrophysique les pocircles de physique des plasmas physique solaire et stellaire et de matiegravere interstellaire ( ii ) en oceacutean-atmosphegravere les pocircles Aeris et Odatis respectivement pour les donneacutees et services atmospheacuteriques et oceacuteaniques ( iii ) en sciences de la Terre le pocircle de donneacutees ForMTer ( avec RESIFEPOS ) pour les donneacutees drsquoobservation ( sol spatial ) de la terre solide ( iv ) en surfaces et interfaces continentales le pocircle Theia incluant notamment DINAMIS le dispositif de mise agrave disposition des images satellites haute deacutefinition

Un exemple phare est le centre de donneacutees de Strasbourg ( CDS ) en astronomie contribution franccedilaise agrave lrsquoIVOA ( International Virtual Observatory Alliance ) qui fournit des standards de web-services de repreacutesentation et drsquointeropeacuterabiliteacute de donneacutees et de meacutetadonneacutees avec drsquoautres standards pour le reacutefeacuterencement lrsquoaccegraves lrsquoeacutechange la provenance des donneacutees et leur publication ainsi que des outils drsquoexploration et de visualisation de ces donneacutees Le reacutesultat est que plus de 90 des donneacutees astronomiques mondiales sont accessibles et utilisables scientifiquement aujourdrsquohui avec des outils et des logiciels partageacutes internationalement et avec une tregraves forte visibiliteacute franccedilaise gracircce au CDS mais aussi agrave des projets comme VAMDC22 pour la distribution des donneacutees atomiques et moleacuteculaires

Pour les tregraves grands instruments et systegravemes drsquoobservation la strateacutegie drsquoarchivage et la politique drsquoaccegraves aux donneacutees sont deacutefinies dans le cadre

22 httpwwwvamdcorg

54

Livre Blanc sur les Donneacutees au CNRS Eacutetat des Lieux et Pratiques - 2018

des projets internationaux et des organisations internationales qui les portent Elles reposent sur des plateformes de ressources et de services distribueacutees et feacutedeacutereacutees agrave lrsquoeacutechelle internationale comme dans le cas ( i ) des grands projets spatiaux ( Euclid Gaia Planck Copernicus ) ( ii ) des tregraves grands teacutelescopes ( ESO CFHT IRAM SKA ) ( iii ) des grands systegravemes drsquoobservation ( RESIFEPOS Euro-Argo ICOS IAGOS ACTRIS OZCAR EmodNet ) ( iv ) des intercomparaisons de modegraveles coupleacutes ( CLIMERI ) en modeacutelisation du climat ( ESGF ) La vocation du pocircle de donneacutees et services pour le systegraveme Terre est notamment de faciliter lrsquoaccegraves et lrsquousage des donneacutees issues de ses diffeacuterents compartiments Ces strateacutegies srsquoappuient au niveau national sur des nœuds heacutebergeacutes geacuteneacuteralement dans de grands centres nationaux ( CC-IN2P3 IDRIS ) ou meacutesocentres reacutegionaux ( Meso-PSLObservatoire de Paris OCA IPSL IPGP GricadOSUP ) souvent en partenariat avec drsquoautres instituts du CNRS ( p ex IN2P3 ) et organismes de recherche ( CNES CEA Meacuteteacuteo France Ifremer )

283 Conclusions et eacuteleacutements de reacuteflexion

De nouvelles deacutecouvertes scientifiques en sciences de lrsquoUnivers ainsi que de grands enjeux sociaux et eacuteconomiques ( p ex changement climatique aleacuteas naturels et environnementaux ressources eacutenergeacutetiques et deacuteveloppement durable ) requiegraverent une grande diversiteacute de donneacutees dont les reacutesolutions integravegrent un tregraves large spectre drsquoeacutechelles ( temps espace freacutequence ) ainsi que des meacutethodes drsquoanalyse et de modeacutelisation pour en extraire et inteacutegrer de nouvelles informations sur la formation des structures et lrsquoeacutevolution des systegravemes Terre-planegravetes-univers ainsi que leurs eacuteveacutenements transitoires et extrecircmes

Avec les nouvelles geacuteneacuterations drsquoinstruments et de systegravemes drsquoobservation ( sol air mer spatial ) et de simulations numeacuteriques les flux de donneacutees explosent aujourdrsquohui agrave la fois dans des edge-environments globalement distribueacutes et des environnements centraliseacutes ( HPC Cloud ) Ce changement de paradigme constitue un deacutefi pour la logistique des donneacutees tout au long de workflows qui traversent la diversiteacute de ces systegravemes drsquoacquisition et un continuum de bandes passantes et de plateformes technologiques

Un enjeu concomitant commun agrave ces deux environnements est la reacuteduction laquo intelligente raquo des donneacutees en continu au cours de leur transport

La strateacutegie agrave suivre est incertaine dans un paysage national ( enseignement-recherche infrastructures ) et europeacuteen ( EOSC European Open Science Cloud ) et des technologies en pleine eacutevolution Elle tend agrave se formuler comme la co-conception drsquoun instrument scientifique piloteacutee par la logistique des donneacutees et les caracteacuteristiques des workflows qui au travers drsquoun modegravele drsquoarchitecture de type sablier ( c-agrave-d hourglass architecture ) permettrait drsquoaccommoder la grande diversiteacute de ces workflows et de leurs impleacutementations Avec lrsquoideacutee qursquoau centre de ce modegravele une interface commune ou spanning layer peut ecirctre eacutetroitement conccedilue et implanteacutee afin drsquoabstraire ces workflows et leur flux de donneacutees et les instancier ( via des technologies de virtualisation ) au travers drsquoune varieacuteteacute croissante et des configurations complexes de ressources ( stockage calcul communication ) de plateformes technologiques et drsquoenvironnements comprenant en particulier

bull Edge-infrastructures qui via une diversiteacute croissante de edge-technologies ( p ex cache buffer stockage calcul communication ) permettent de traiter agreacuteger reacuteduire les flux ( volumes vitesses ) de donneacutees geacuteneacutereacutees par les nouveaux grands instruments et systegravemes drsquoobservation de plus en plus complexes ( multi-capteurs multifreacutequences ) ainsi que de piloter leurs systegravemes drsquoacquisition ( antenne optique ) au plus proche et dans des environnements reculeacutes

bull Plateformes de services de calcul et drsquoanalyse de donneacutees qui feacutedegraverent et mutualisent des services flexibles de stockage de calcul ( HTC HPC ) de communication et de logiciel permettant des flux de traitement proches des vitesses drsquoaccegraves aux donneacutees Ces infrastructures de type edge-computing supportent des utilisateurs et des applications multiples ( p ex le service labelliseacute Terapix agrave lrsquoIAP pour lrsquoexploitation des donneacutees MegaCAM du CFHT ou encore lrsquoARC node ALMA agrave lrsquoIRAM pour la reacuteduction des donneacutees de lrsquointerfeacuteromegravetre millimeacutetrique ALMA de lrsquoESO ) dans un environnement collaboratif reacuteactif et reacutesilient qui integravegre des eacuteleacutements de HPC et HDA avec des services Cloud de traitement en flux des technologies de virtualisation ( conteneurs ) et drsquoexeacutecution adapteacutes au Big Data ( p ex Spark Storm ) Adosseacutees agrave des OSU ou feacutedeacuterations de recherche elles peuvent ecirctre feacutedeacutereacutees ( p ex ESGF )

INSU

55

Livre Blanc sur les Donneacutees au CNRS Eacutetat des Lieux et Pratiques - 2018

bull Plateformes centraliseacutees ( HPC ) qui concentrent des ressources de tregraves haute performance et par deacutefinition rares dont lrsquoutilisation est maximiseacutee pour servir des communauteacutes multiples Si lrsquooptimisation des applications en sciences de lrsquoUnivers pour lrsquoexploitation des nouvelles architectures hybrides et massivement parallegraveles demeure un enjeu important ces applications ( ensembles de simulations numeacuteriques infeacuterenceinversion assimilation de donneacutees ) ainsi que lrsquoutilisation croissante de meacutethodes type laquo apprentissage machine raquo requiegraverent une convergence toujours plus fine entre HPC et HDA avec de meilleurs support et interopeacuterabiliteacute de leurs modegraveles drsquoexploitation ( batch et streaming processing ) des technologies de virtualisation ainsi qursquoune gestion des ressources avec des systegravemes centraliseacutes intelligents piloteacutes par la provenance des flux de donneacutees permettant le controcircle de workflows complexes Lrsquoingestion drsquoeacutenormes flux de donneacutees depuis la peacuteripheacuterie reste un enjeu qui deacutefie leurs capaciteacutes

bull Plateformes drsquoarchivages curation et distribution des donneacutees Ces plateformes adosseacutees aux OSU feacutedegraverent et mutualisent les ressources services et expertises pour le stockage la curation et la mise agrave disposition drsquoune grande diversiteacute de donneacutees ( tels que eacuteveacutenements objets images seacuteries temporelles ) dont le cycle de vie en sciences de lrsquoUnivers est bien plus long que la dureacutee de vie des instruments et systegravemes drsquoobservation Les volumes et la diversiteacute de ces donneacutees impliquent des capaciteacutes croissantes de calcul pour leur traitement et leur curation

Le mouvement des donneacutees et des informations a un coucirct drsquoautant plus important que ces transferts doivent ecirctre rapides et traverser des frontiegraveres drsquoun site agrave lrsquoautre drsquoun systegraveme HPC vers des plateformes drsquoanalyse au sein drsquoun mecircme site entre nœuds drsquoun mecircme systegraveme drsquoun systegraveme de stockage agrave un autre

Un enjeu commun est lrsquoefficience eacutenergeacutetique la reacuteduction des coucircts de fonctionnement et la durabiliteacute ce qui passe entre autres par ( i ) utiliser des plateformes ( HPC calcul et analyse ) adapteacutees agrave chacune des eacutetapes de ces workflows ( ii ) eacuteviter des reacutepeacutetitions inutiles de transferts ( cachingbufferisation ) et reacuteduire leurs vitesses ( pre-fetching ) et leurs volumes ( compression ) ( iii ) reacuteduire les distances et mutualiser les environnements drsquoheacutebergement ( colocalisation des plateformes HPC et des services drsquoanalyse des plateformes drsquoarchivage et de curation de donneacutees et

des plateformes de calcul et drsquoanalyse ) ( iv ) faciliter la reacuteutilisation des calculs et des donneacutees au sein et entre domaines ( observations et reacutesultats de simulations meacutetadonneacutees catalogues )

Lrsquoorganisation territoriale de lrsquoINSU structureacutee autour des OSU et les ANO permet de reacutepondre aux points souleveacutes preacuteceacutedemment ( i ) centraliser logiquement lrsquoaccegraves et lrsquoutilisation de donneacutees via les observatoires virtuels et les pocircles de donneacutees associant plateformes de services et feacutedeacuteration de plateformes drsquoarchivage et de curation de donneacutees en liaison avec drsquoautres organismes ( CNES Ifremer Meacuteteacuteo-France CEAhellip ) ( ii ) rapprocher plateformes drsquoarchivage et de curation de donneacutees plateformes de calcul et drsquoanalyse et centres nationaux ( CC-IN2P3 IDRIS ) et meacutesocentres reacutegionaux ( Gricad Calmiphellip ) ( iii ) rapprocher plateformes HPC et services drsquoanalyse dans le cadre de GENCI ( p ex IDRIS TGCC CINES ) ( iv ) faciliter lrsquoaccegraves seacutecuriseacute le partage lrsquoexploitation de reacutesultats de simulations et drsquoobservations par une large communauteacute ( p ex CLIMERI IPGP )

Un autre aspect concerne les tregraves grands instruments et systegravemes drsquoobservation ( sol air mer spatial ) porteacutes par des projets et des organisations internationaux Dans ce cadre explorer avec drsquoautres instituts du CNRS ( p ex IN2P3 ) et organismes ( CNES CEAhellip ) les niveaux de feacutedeacuteration et de mutualisation possibles des plateformes scientifiques et drsquoarchivage en leur sein ( Euclid Gaiahellip ) et entre ces projets ( CTA SKAhellip ) est un nouvel enjeu

Une telle strateacutegie doit ecirctre en phase avec les pratiques et les applications scientifiques Elle srsquoaccompagne drsquoenjeux proceacuteduraux et humains associeacutes agrave lrsquoorganisation et la mutualisation des expertises scientifiques meacutethodologiques et technologiques neacutecessaires pour le stewardship des donneacutees et des plateformes de ressources et de services dans ce nouveau contexte Elle implique eacutegalement une eacutevolution des politiques drsquoaccegraves drsquoutilisation et drsquoexploitation des centres nationaux et reacutegionaux qui doivent offrir les services neacutecessaires agrave ces environnements data-centric

Il y a des limites agrave ce qui peut en ecirctre obtenu en sciences de lrsquoUnivers ougrave les efforts drsquoobservation sont fondamentalement globalement distribueacutes internationalement structureacutes et financeacutes par diffeacuterents projets et organisations

56

Livre Blanc sur les Donneacutees au CNRS Eacutetat des Lieux et Pratiques - 2018

Par exemple les instituts de recherche en charge de services de reacuteponse rapide de surveillance et drsquoeacutevaluation drsquoaleacuteas naturels ainsi que les grandes universiteacutes de recherche ont besoin de deacutemontrer des ressources qui leur permettent drsquoattirer des chercheurs et des ingeacutenieurs de premier plan ainsi que des contrats et des financements Il y a donc des pressions pour maintenir la visibiliteacute et une diversiteacute de ressources indeacutependantes Une strateacutegie recouvrant des ressources autonomes doit minimiser les coucircts tout en respectant ces problegravemes organisationnels et sociologiques

Pour relever ces nouveaux deacutefis le dispositif des OSU ANO et SNO ainsi que les expertises scientifiques meacutethodologiques et technologiques qursquoil feacutedegravere et mutualise constitue un atout original majeur Ces expertises de plus en plus interdisciplinaires doivent eacutevoluer en phase avec les technologies de plus en plus complexes des grands instruments et des systegravemes drsquoobservation de la logistique des donneacutees de nouvelles meacutethodes et technologies de calcul et drsquoanalyse de donneacutees Les communauteacutes de lrsquoINSU collaborent aujourdrsquohui activement agrave lrsquoeacutechelle nationale et internationale avec drsquoautres disciplines ( sciences des donneacutees matheacutematiques appliqueacutees statistiques physique des particules et physique statistique

eacutecologie biologie santeacute recherche informatique ) et avec les fournisseurs et les deacuteveloppeurs drsquoinfrastructures de communication de calcul et de donneacutees Ces collaborations sont favoriseacutees au sein du CNRS par la Mission pour lrsquoInterdisciplinariteacute et se traduisent aux niveaux national et europeacuteen par de nombreux projets ANR et H2020 Les communauteacutes de lrsquoINSU contribuent eacutegalement activement agrave des ONG en lien avec les donneacutees ( p ex RDA GEOGEOSS Belmont Forum )

En comparaison avec les pratiques internationales ( p ex aux Etats-Unis ) ougrave le deacuteveloppement de codes et de bibliothegraveques ( traitement analyse ) communautaires est structureacute sous forme de projets depuis plus drsquoune dizaine drsquoanneacutees avec un support ingeacutenieur important et speacutecialiseacute il reste des efforts importants agrave accomplir et agrave reconnaicirctre aux niveaux national et europeacuteen Un enjeu concomitant et important reste encore aujourdrsquohui une meilleure reconnaissance de ces expertises scientifiques meacutethodologiques et technologiques souvent interdisciplinaires et des nouvelles tacircches drsquoobservation au niveau des recrutements et des promotions des personnels chercheurs astronomes et physiciens du CNAP23 ingeacutenieurs et techniciens

23 httpwwwcnapobspmfr

INSU

57

Livre Blanc sur les Donneacutees au CNRS Eacutetat des Lieux et Pratiques - 2018

29 INSTITUT DES SCIENCES DE LrsquoINFORMATION ET DE LEURS INTERACTIONS ( INS2I )

Cette section a eacuteteacute reacutedigeacutee avec Mokrane Bouzeghoub DAS agrave INS2I

291 Introduction

LrsquoInstitut des Sciences de lrsquoInformation et de leurs Interactions ( INS2I ) rassemble environ 600 chercheurs CNRS sur un total de lrsquoordre de 4500 permanents dans une cinquantaine drsquouniteacutes de recherche Ses theacutematiques couvrent une partie des sections 6 ( fondements de lrsquoinformatique calculs algorithmes repreacutesentations exploitations ) et 7 ( signal image automatique robotique ) du Comiteacute National

Dans de nombreux domaines scientifiques et socio-eacuteconomiques la volumeacutetrie et la varieacuteteacute des donneacutees existantes ainsi que le coucirct et les contraintes de temps de traitement ont fait apparaicirctre de nouveaux deacutefis De multiples domaines sont concerneacutes les sciences fondamentales ( physique des hautes eacutenergies fusion sciences de la Terre et de lrsquoUnivers bio-informatique neurosciences ) les secteurs de lrsquoeacuteconomie numeacuterique ( business intelligence web e-commerce reacuteseaux sociaux e-gouvernement santeacute conception des meacutedicaments teacuteleacutecommunications et meacutedias transports terrestre et aeacuterien marcheacutes financiers ) lrsquoenvironnement ( climat risques naturels ressources eacutenergeacutetiques smart cities maison connecteacutee ) la seacutecuriteacute ( cyber-seacutecuriteacute seacutecuriteacute nationale ) ou lrsquoindustrie ( smart industry produits sur mesure chaicircne de conceptionreacutealisation des produits inteacutegreacutee de bout en bout )

Lrsquoextraction de connaissances agrave partir de grands volumes de donneacutees lrsquoapprentissage statistique lrsquoagreacutegation de donneacutees heacuteteacuterogegravenes la visualisation et la navigation dans de grands espaces de donneacutees et de connaissances sont de veacuteritables instruments numeacuteriques qui permettent agrave des meacutedecins des ingeacutenieurs des chercheurs etc drsquoobserver des pheacutenomegravenes de valider des hypothegraveses drsquoeacutelaborer de nouveaux modegraveles ou de prendre des deacutecisions en situation critique La maicirctrise de ces instruments au niveau des entreprises des collectiviteacutes ou du gouvernement devient un reacuteel enjeu de pouvoir eacuteconomique politique et socieacutetal Drsquoougrave lrsquoimportance du Big Data de lrsquoOpen Data et du Linked Data tant aux Eacutetats-Unis qursquoen Europe24

24 httpwwwnitrdgovSubcommitteebigdataaspx httpcom-monfundnihgovInnovationBrainstorm httpwwwaeranet

Internet et le Web jouent aussi un rocircle capital puisqursquoils concentrent une grande part des donneacutees et des connaissances et qursquoils concernent des centaines de millions drsquoutilisateurs

Le traitement des grands volumes de donneacutees est fortement connecteacute au calcul intensif lorsque les donneacutees sont issues de simulations de grande taille mais aussi lorsque provenant drsquoobservations ou drsquoexpeacuterimentations elles sont utiliseacutees pour la modeacutelisation de systegravemes complexes ( oceacutean meacuteteacuteo formation des galaxieshellip ) Les communications constituent elles aussi un aspect essentiel du traitement et de lrsquoacquisition des donneacutees massives Lrsquoanalyse de donneacutees massives induit des calculs intensifs souvent effectueacutes sur des infrastructures distribueacutees agrave grande eacutechelle ( clusters grilles ou cloud ) mais que lrsquoon trouve de plus en plus freacutequemment sur des plateformes du type HPC ( p ex en deep learning avec lrsquoexploitation de GPU )Le traitement des donneacutees eacutetant au cœur de la discipline il est donc tout naturel que les recherches en informatique aient investi le domaine des Big Data bien avant qursquoelles ne deviennent un enjeu et une preacuteoccupation pour les autres sciences et pour la socieacuteteacute Le stockage distribueacute et agrave grande eacutechelle lrsquooptimisation des accegraves la deacutefinition de langages de requecirctes de haut niveau la fouille de donneacutees la reacutesilience aux pannes et la protection des donneacutees sont des thegravemes de recherche reacutecurrents et reacuteguliegraverement revisiteacutes pour inteacutegrer les nouvelles technologies de stockage les nouvelles architectures de calcul et les nouveaux besoins de diversification des types de donneacutees et de passage agrave lrsquoeacutechelle des applications La fertilisation croiseacutee avec les matheacutematiques notamment en statistique en optimisation et en modeacutelisation a abouti agrave lrsquoeacutemergence des sciences de donneacutees comme un sous-domaine de recherche avec ses propres objets drsquoinvestigation La majoriteacute des uniteacutes de lrsquoINS2I ont des eacutequipes de recherche actives et visibles sur ce domaine

Les activiteacutes de recherche de INS2I autour des masses de donneacutees concernaient de lrsquoordre de 500 chercheursenseignants-chercheurs en 2012 lors du recensement effectueacute dans le Livre Blanc sur le Calcul Intensif

grantsprogramres_trainingres_grantsrgflyhtml

58

Livre Blanc sur les Donneacutees au CNRS Eacutetat des Lieux et Pratiques - 2018

292 La probleacutematique des donneacutees agrave IrsquoINS2I

Le traitement des donneacutees agrave grande eacutechelle avec des sources de donneacutees eacuteventuellement multiples distribueacuteesreacuteparties et heacuteteacuterogegravenes ( structures formats logiciels serveurshellip ) et une volumeacutetrie en donneacutees allant du teacuteraoctet au peacutetaoctet ( et agrave lrsquoExaoctet dans un futur proche ) est central agrave de multiples domaines allant du Web seacutemantique agrave la simulation numeacuterique avec des applications en biologiesanteacute sciences de lrsquounivers et ingeacutenierie etc

Les grandes tendances de la recherche en Big Data deacuteveloppeacutees agrave INS2I portent sur des meacutethodes innovantes de traitement et drsquoanalyse sur toute la chaicircne de valeur de la donneacutee collecte indexation stockage gestion exploitation valorisation accessibiliteacute et visualisation Les meacutecanismes de collecte drsquointeacutegration de donneacutees multi-sources de distribution des donneacutees et des calculs ( Spark25 MongoDB26 Hadoop27 implantation de MapReduce introduit par Google QServ systegraveme drsquointerrogation de base de donneacutees deacuteveloppeacute pour le LSST28hellip ) dans des environnements Cloud neacutecessitent le deacuteveloppement et lrsquooptimisation de nouvelles techniques ou le portage drsquoalgorithmes existants pour le traitement et lrsquoanalyse des donneacutees En particulier les travaux portent sur lrsquoextraction des connaissances des meacutetadonneacutees et des ontologies sur les bases de donneacutees NoSql ou graphes et sur la paralleacutelisation des algorithmes Le deacuteveloppement drsquoapplications verticales inteacutegreacutees accessibles sur tous supports mobiles et commercialisables deacuteployeacutees en mode SaaS par exemple sera sans doute dans lrsquoavenir un des principaux axes de valorisation Lrsquousine digitale permettant de deacuteployer des applications drsquooptimisation de la production industrielle et la transformation digitale sont drsquoautres points importants pour la recherche informatique tant dans la modeacutelisation des process industriels que dans lrsquooptimisation de ces process gracircce aux donneacutees eacutemises par des milliers de capteurs Lrsquoacceptabiliteacute des applications par les utilisateurs est un point crucial et de nombreux travaux srsquointeacuteressent aux modes drsquointeraction et aux meacutecanismes de protection de la vie priveacutee

25 httpssparkapacheorg26 httpswwwmongodbcom27 httphadoopapacheorg28 httpdmlsstorg

Les donneacutees massives sont souvent traiteacutees sur des infrastructures distribueacutees agrave grande eacutechelle ( p ex traitement des donneacutees du LHC ) Les stocker les indexer et effectuer un post-traitement pour extraire de lrsquoinformation ou en vue drsquoune aide agrave la deacutecision est la plupart du temps un challenge et neacutecessite des interactions entre les diverses communauteacutes qui produisent les donneacutees mais aussi speacutecialistes du cloudHPC de la visualisation des basesentrepocircts de donneacutees

Le High Performance Data Analytics ( HPDA ) est devenu central dans de multiples disciplines et constitue une prioriteacute dans les programmes nationaux de pays comme la Chine ougrave il repreacutesente une part importante des applications sur les supercalculateurs avec des applications en biologie meacutedecine personnaliseacutee preacutediction des catastrophes naturelles transports Le HPDA est drsquoailleurs devenu lrsquoun des moteurs importants de vente de supercalculateurs sur le marcheacute La meacutedecine personnaliseacutee par exemple induit de veacuteritables challenges en termes de volume de donneacutees agrave analyser avec des millions de patients

Les besoins en data analytics sont en train drsquoexploser renforccedilant la neacutecessiteacute de disposer de meacutethodes drsquoanalyse de donneacutees qui passent agrave lrsquoeacutechelle de chaines complegravetes de traitement et drsquooutils drsquoaide agrave la deacutecision le tout en srsquoappuyant sur des plateformes de calcul performantes du type HPC

Ce constat autour des masses de donneacutees agrave analyser et les multiples applications dans les secteurs socio-eacuteconomiques ( finance industrie santeacutehellip ) expliquent le retour au premier plan des meacutethodes drsquoIntelligence Artificielle que ce soit pour lrsquoanalyse de donneacutees ( apprentissage superviseacute ou non dont le Deep Learning classificationhellip ) la logique formelle lrsquoaide agrave la deacutecision le traitement du langage naturel et lrsquoargumentationhellip deacuteveloppeacutees dans les anneacutees 80 mais souvent trop coucircteuses qui deviennent des outils incontournables gracircce aux capaciteacutes de calcul disponibles Il nrsquoest qursquoagrave constater que les GAFAM mais aussi IBM et les marcheacutes financiers ont eacuteteacute parmi les premiers agrave reacuteafficher toute lrsquoimportance de lrsquoIA

INS2I

59

Livre Blanc sur les Donneacutees au CNRS Eacutetat des Lieux et Pratiques - 2018

Exemple de la plateforme Galactica utiliseacutee pour la cosmologie ( Prof F Toumani Universiteacute Clermont Auvergne Laboratoire LIMOS - UMR 6158 )

La plateforme Galactica ( httpsgalacticaisimafr ) mise en place en septembre 2015 dans le cadre du programme PlaSciDo de lrsquoINS2I vise le deacuteveloppement et la mise agrave disposition de services drsquoingeacutenierie et drsquoexpeacuterimentation agrave grande eacutechelle pour les chercheurs dans le domaine des grandes masses de donneacutees Galactica est un cluster composeacute de nœuds de calcul et de nœuds de stockage preacutesentant une puissance de calcul totale de 128 cœurs ( 256 vCPU ) agrave 240 GHz 38 To de RAM et une capaciteacute de stockage de 143 To reposant sur le logiciel Ceph Les nœuds du cluster sont interconnecteacutes gracircce agrave un reacuteseau agrave 10 et 40 Gos Lrsquoeacutequipement de la plateforme a beacuteneacuteficieacute drsquoun financement de lrsquoINS2I et du Contrat Plan Etat Reacutegion ( CPER ) de la reacutegion Auvergne Un objectif important de la plateforme Galactica est de mettre agrave la disposition des chercheurs en informatique une infrastructure de stockage et de calcul drsquoenvergure suffisante qui reste flexible et facile agrave configurer pour srsquoadapter aux besoins speacutecifiques des expeacuterimentations dans ce domaine Galactica offre pour cela trois niveaux de services Un premier niveau concerne lrsquoinfrastructure en tant que service deacuteployeacutee gracircce agrave la suite logicielle OpenStack qui permet agrave un chercheur de creacuteer de maniegravere aiseacutee au sein drsquoun environnement virtualiseacute les ressources informatiques ( calcul stockage reacuteseau etc ) adapteacutees agrave ses besoins Le deuxiegraveme niveau de service concerne la possibiliteacute pour un chercheur de creacuteer un cluster de traitement de donneacutees gracircce agrave lrsquoutilisation de modegraveles preacutedeacutefinis ( templates ) Les modegraveles disponibles actuellement sur la plateforme concernent les principales technologies modernes drsquoanalyse et de gestion de donneacutees massives comme par exemple Apache Hive ( httpshiveapacheorg ) Apache Hadoop ( httphadoopapacheorg ) Hortonworks Data Platform ( httpsfrhortonworkscom ) Cloudera ( httpswwwclouderacom ) et Apache Spark ( httpssparkapacheorg ) De plus gracircce au service Elastic Data Processing ( EDP ) il est possible pour un chercheur de creacuteer et drsquoexeacutecuter des jobs sur des clusters de traitement de donneacutees deacuteployeacutes au sein de la plateforme Enfin le dernier niveau de service concerne la mise agrave disposition de jeux de donneacutees soit sous forme brute par exemple les jeux de donneacutees astronomiques LSST ( 2 To et 35 To ) GAIA DR1 ( 730 Go compresseacutes httpswwwcosmosesaintwebgaiadr1 ) et SDSS DR9 ( 8 To httpwwwsdss3orgdr9 ) ou bien sous forme de laquo source de donneacutees raquo Une source de donneacutees est deacutefinie comme eacutetant une collection de donneacutees associeacutee agrave une infrastructure logicielle permettant drsquoexploiter ces donneacutees Un exemple de source de donneacutees est une machine virtuelle heacutebergeant MySQL et une base de

donneacutees MySQL contenant le catalogue associeacute au jeu de donneacutees SDSS DR9 Une source de donneacutees peut ecirctre reacutepliqueacutee facilement pour ecirctre exploiteacutee par des utilisateurs diffeacuterents dans des contextes diffeacuterents Srsquoinscrivant degraves sa creacuteation dans une dynamique de mutualisation des moyens et des compeacutetences Galactica se veut comme une plateforme ouverte aux chercheurs dans le domaine de lrsquoanalyse et de la gestion des grandes masses de donneacutees Preacutevue dans un premier temps en appui aux travaux du projet PetaSky ( httpcomisimafrPetasky ) la plateforme a eacuteteacute ouverte ensuite agrave la communauteacute de recherche en Science des Donneacutees pour accueillir actuellement 19 projets impliquant plus drsquoune soixantaine drsquoutilisateurs provenant de 12 laboratoires de recherche

Exemple de plateforme autour de la recherche drsquoinformation installeacutee agrave lrsquoInstitut de Recherche en Informatique de Toulouse ( IRIT ) OSIRIM

OSIRIM est une plateforme de stockage de forte volumeacutetrie ( 1 Po ) conccedilue pour lrsquoheacutebergement de projets scientifiques abordant les probleacutematiques lieacutees aux laquo meacutegadonneacutees raquo Cette plateforme administreacutee par lrsquoIRIT a eacuteteacute financeacutee par le gouvernement franccedilais la reacutegion Midi-Pyreacuteneacutees le Centre National de la Recherche Scientifique et le Fonds Europeacuteen de Deacuteveloppement Reacutegional dans le cadre drsquoun Contrat-Plan EtatReacutegion Elle est opeacuterationnelle depuis septembre 2013 et propose des ressources de stockage et de calcul pour la recherche sur lrsquoindexation et la recherche drsquoinformation dans des contenus multimeacutedias

La plateforme permet lrsquoheacutebergement de projets scientifiques neacutecessitant le stockage et le partage de plusieurs teacuteraoctets de donneacutees pour la reacutealisation drsquoexpeacuterimentations sur de grands volumes le partage de corpus de donneacutees issues par exemple de reacuteseaux sociaux donneacutees drsquoobservations donneacutees meacutedicales anonymiseacutees donneacutees audio ou videacuteohellip et partage drsquooutils logiciels par exemple pour lrsquoeacutevaluation de technologies Hadoop Sparkhellip OSIRIM est ouverte agrave la communauteacute informatique et autres domaines scientifiques souhaitant utiliser ses moyens mateacuteriels ou logiciels Lrsquoaccegraves agrave la plateforme srsquoeffectue directement agrave partir drsquoInternet Lrsquoheacutebergement des projets est gratuit Elle dispose drsquoun cluster Hadoop de Spark et drsquoun certain nombre drsquoautres logiciels ainsi que MongoDB en compleacutement du gestionnaire de tacircches SLURM seule offre initialement disponible sur la plateforme OSIRIM a eacutegalement eacuteteacute utiliseacutee en 2016 en soutien pour lrsquoinitiation agrave la recherche dans certaines

60

Livre Blanc sur les Donneacutees au CNRS Eacutetat des Lieux et Pratiques - 2018

formations de master toulousaines essentiellement autour de lrsquoapprentissage des technologies Hadoop En matiegravere de corpus il est agrave noter que la plateforme OSIRIM heacuteberge depuis septembre 2015 1 des tweets mondiaux ( via un flux temps reacuteel ) qursquoelle met agrave disposition des eacutequipes inteacuteresseacutees par lrsquoanalyse et lrsquoexploitation de ce corpus

Lrsquoarchitecture drsquoOSIRIM srsquoarticule autour

bull Drsquoun cluster de calcul de 640 cœurs comprenant des nœuds deacutedieacutes agrave la gestion de la plateforme agrave lrsquoheacutebergement des composants pilotant les architectures logicielles deacuteployeacutees ( gestionnaire de tacircches SLURM distribution Hadoop Spark Mongodbhellip ) ainsi que les nœuds permettant aux utilisateurs de se connecter sur la plateforme pour geacuterer leurs donneacutees et lancer lrsquoexeacutecution de leurs traitements et des nœuds deacutedieacutes aux calculs Il srsquoagit de 10 serveurs IBM X3755 M3 comprenant chacun 4 processeurs AMD Opteron 6262HE de 16 cœurs agrave 16Ghz 512 Go de RAM 2 disques de 300 Go en RAID1 et 2 liaisons agrave 10Gbs Le lancement des traitements srsquoeffectue via le gestionnaire de tacircches SLURM ( Simple Linux Utility for Resource Management ) ou par le gestionnaire de ressources Hadoop YARN

bull Drsquoune zone de stockage drsquoune capaciteacute utile drsquoenviron 1 Po Ce stockage est assureacute par une baie EMC Isilon Les donneacutees sont acceacutedeacutees en NFS et HDFS La baie est composeacutee de 12 nœuds X 400 de 36 disques SATA de 3 To chacun raccordeacutes au reacuteseau via 2 liens de 10Gbs

OSIRIM a permis cette anneacutee de reacutepondre agrave diverses demandes drsquoheacutebergement de projets tant au sein du laboratoire qursquoagrave lrsquoexteacuterieur dont

bull Grid5000 mise agrave disposition drsquoun espace de stockage de 100 To suite au raccordement drsquoOSIRIM au reacuteseau de grille de calcul Grid5000

bull Polemic avec lrsquoUAM Mexico analyse du comportement des utilisateurs dans les reacuteseaux sociaux

bull CompuBioMed avec lrsquoINSERM metamining pour la recommandation en bio-santeacute

bull Petasky avec le LIRIS techniques de partitionnement de donneacutees dans le domaine de la cosmologie

bull Musk avec lrsquouniversiteacute Paris Est ndash LISIS traitement de grands corpus textuels ( publications scientifiques tweets et actualiteacutes videacuteo )

bull SemDis avec le CLLE-ERSS creacuteation et eacutevaluation de bases distributionnelles du franccedilais

bull CAIR avec le LIRIS recherche agreacutegative de donneacutees

bull Tweet Contextualization avec lrsquouniversiteacute drsquoAvignon contextualisation de tweets autour drsquoeacuteveacutenements

Lrsquooffre logicielle proposeacutee sur la plateforme permet drsquoaccueillir depuis le deacutebut de lrsquoanneacutee 2017 de nouveaux projets dont certains neacutecessitent un heacutebergement de type cloud se traduisant par le deacuteploiement drsquoenvironnements speacutecifiques deacutedieacutes sous forme de machines virtuelles et exploitant des corpus de donneacutees heacutebergeacutes sur la plateforme OSIRIM

Enfin OSIRIM offre aussi un espace drsquoheacutebergement pour les travaux de recherche drsquoeacutequipes locales de lrsquoIRIT avec des activiteacutes lieacutees agrave

bull Lrsquoindexation de grandes masses de donneacutees heacuteteacuterogegravenes pour notamment concourir agrave des benchmarks internationaux en recherche drsquoinformation TREC29 CLEF30

bull Lrsquoeacutevaluation drsquooutils drsquoindexation de contenus musicaux indexation de grands volumes drsquoenregistrements drsquoeacutemissions de teacuteleacutevision internationales

bull Lrsquoindexation et recherche drsquoinformations dans de grandes masses de textes

bull Lrsquoanalyse de corpora textuels et ontologies

bull Le traitement complexe drsquoimages

29 Text REtrieval Conference30 Conference and Labs of the Evaluation Forum

INS2I

61

Livre Blanc sur les Donneacutees au CNRS Eacutetat des Lieux et Pratiques - 2018

293 Conclusion

La Science des Donneacutees est au cœur des pratiques de la recherche meneacutee agrave INS2I LrsquoIntelligence Artificielle quant agrave elle est revenue en force ( entre autres chez Google Microsoft IBM Amazonhellip ) avec des approches souvent deacuteveloppeacutees par les chercheurs informaticiens dans les anneacutees 80 ( mais trop coucircteuses agrave lrsquoeacutepoque ) car elle permet drsquoanalyser ces masses de donneacutees produites dans de multiples domaines et drsquoen tirer des informations eacuteventuellement pour de lrsquoaide agrave la deacutecision Dans ce domaine la France affiche un potentiel qui peut en faire lrsquoun des acteurs majeurs au niveau mondial

On peut srsquoattendre agrave des eacutevolutions rapides sur plusieurs points dont ( i ) lrsquoautomatisation des processus drsquoextraction ( meacutetadonneacutees connaissances ontologies ) et drsquointeacutegration des donneacutees et de gestion de la qualiteacute le deacuteveloppement de nouvelles meacutethodes drsquoanalyse de donneacutees multi-sources ( textes reacuteseaux sociaux audio videacuteo geacuteolocalisationhellip ) et lrsquoameacutelioration des performances ( passage agrave lrsquoeacutechelle ) ( ii ) une meilleure exploitation drsquoarchitectures adapteacutees au Big Data ( iii ) lrsquoameacutelioration de la seacutecuriteacute des infrastructures mateacuterielles et logicielles des collectes et des analyses ( iv ) lrsquooptimisation des meacutecanismes drsquoanonymisation et de cryptage garantissant la protection de la vie priveacutee ( v ) lrsquointeacutegration des donneacutees et des analyses pour la seacutecuriteacute ( cyber-seacutecuriteacute gestion de crises controcircle aux frontiegraveres ) ( vi ) lrsquointeacutegration et lrsquoexploitation des open data ( e-gouvernement santeacute impocircts )

Il reste cependant de multiples deacutefis agrave relever pour la recherche tels que

bull La maicirctrise de lrsquoheacuteteacuterogeacuteneacuteiteacute des donneacutees lors de leur inteacutegration et de leur agreacutegation en les confrontant agrave des donneacutees de reacutefeacuterences ou agrave des ontologies de domaines La deacutefinition notamment de meacutethodes de raisonnement sur des donneacutees incertaines ou incomplegravetes constitue un preacutealable fort agrave lrsquointeacutegration seacutemantique des donneacutees

bull Aller vers une theacuteorie de la deacutecision qualitative les systegravemes deacutecisionnels exploitent ces connaissances et offrent aux experts une palette drsquooutils qui ameacuteliorent non seulement leurs connaissances et leurs productiviteacutes mais leur offrent eacutegalement les meacuteta-connaissances neacutecessaires agrave une meilleure interpreacutetation des pheacutenomegravenes qursquoils observent ou surveillent De faccedilon plus geacuteneacuterale lrsquoaide agrave la deacutecision doit tenir compte autant des connaissances produites par les processus meacutetiers que des

informations qualitatives qui doivent accompagner cette connaissance Lrsquoorigine des informations la confiance en leurs producteurs leur coheacuterence leur compleacutetude leur exactitude leur fraicirccheur ainsi que la chaicircne de transformations qursquoelles ont subies sont autant drsquoeacuteleacutements indispensables agrave connaicirctre avant toute prise de deacutecision rationnelle

bull Lrsquoaide agrave la deacutecision pour les systegravemes complexes le terme Policy Analytics est utiliseacute depuis quelques anneacutees pour deacutesigner les activiteacutes drsquoexploration de tregraves grandes masses de donneacutees ( fouille extraction de connaissances ) pour la construction drsquoindicateurs syntheacutetiques et de modegraveles drsquoaide agrave la deacutecision utiliseacutes en support de pilotage de systegravemes complexes ( particuliegraverement des entreprises ou des organismes publics ) Les processus de deacutecision publique sont souvent soumis agrave drsquoimportantes exigences de leacutegitimiteacute et de sens Lrsquoaspect meacutethodologique en deacutecision est donc un problegraveme majeur ougrave la multipliciteacute des acteurs et lrsquoheacuteteacuterogeacuteneacuteiteacute seacutemantique sont des verrous agrave lever Les deacuteveloppements de systegravemes drsquoexplication ou de recommandations argumenteacutees sont des pistes agrave explorer

bull Lrsquoaide agrave la deacutecision dans un environnement ambiant ou ubiquitaire les reacuteseaux de capteurs lrsquoInternet des objets les eacutequipements mobiles produisent quantiteacute drsquoinformations correspondant agrave des releveacutes drsquoobservation ( meacuteteacuteo trafic crowdsourcing ) des donneacutees de surveillance ( santeacute ville ) des eacuteveacutenements environnementaux ( pollution tsunami ) Ces informations dites ambiantes sont pleacutethoriques heacuteteacuterogegravenes et parcellaires Elles doivent ecirctre rapprocheacutees avec des reacutefeacuterentiels pour les compleacuteter ou en deacuteterminer la seacutemantique Elles neacutecessitent souvent un traitement agrave la voleacutee pour produire des indicateurs qui serviront agrave la prise de deacutecision ou agrave la supervision agrave distance de tacircches ou de controcircle drsquoeacutequipements Ces travaux doivent tenir compte du contexte de lrsquoutilisateur de son activiteacute passeacutee de ses preacutefeacuterences et des interactions qursquoil a avec drsquoautres utilisateurs ou des communauteacutes drsquoutilisateurs

bull La preacuteservation des connaissances pour les geacuteneacuterations futures souligne lrsquoimportance de la peacuterenniteacute du stockage et le problegraveme drsquointerpreacutetation des contenus Les problegravemes souleveacutes sont agrave la fois drsquoordre technologique ( migration drsquoune technologie agrave une autre ) eacuteconomique ( coucircts de la migration et coucircts drsquoarchivage ) et seacutemantique ( eacutevolution des modegraveles de repreacutesentation de connaissances nouveaux standards de meacutetadonneacutees )

62

Livre Blanc sur les Donneacutees au CNRS Eacutetat des Lieux et Pratiques - 2018

Les sciences de lrsquoinformation irriguent et feacutecondent tout le champ scientifique gracircce agrave de nouveaux outils de modeacutelisation et de simulation de nouveaux modegraveles de calcul intensif la gestion et lrsquoanalyse de donneacutees massives le traitement du signal et de lrsquoimage la robotique les objets communicants et lrsquointeraction Lrsquoactiviteacute scientifique subit un bouleversement eacutepisteacutemologique qui conduit agrave de nouvelles formes de production de la connaissance et agrave lrsquoeacutemergence de plusieurs sous-disciplines Ainsi de nouveaux champs drsquoinvestigation sont neacutes aux interfaces des sciences de lrsquoinformation comme la bioinformatique les neurosciences computationnelles la cyber-seacutecuriteacute les humaniteacutes numeacuteriques la geacuteoinformatique lrsquoe-santeacute Lrsquoastroinformatique en est une parfaite illustration Elle integravegre lrsquoastronomie lrsquoastrophysique les statistiques lrsquoinformatique et le traitement du signal

A lrsquoimage de la bioinformatique elle est sur la voie de deacutefinir ses propres objets de recherche ses propres meacutethodes et ses propres innovations Lrsquoastrophysique a eacutemergeacute agrave la fin des anneacutees 2000 en eacutecho aux travaux de Jim Gray sur lrsquousage intensif des donneacutees en sciences Lors drsquoune confeacuterence en 2007 lrsquoinformaticien Jim Gray Prix Turing en 1998 eacutenonccedila lrsquoideacutee drsquoun nouveau paradigme de la science construit autour du traitement intensif et de lrsquoanalyse agrave grande eacutechelle des donneacutees ( data-intensive science )31 Lrsquoideacutee a depuis fait son chemin srsquoinspirant souvent du succegraves de la bioinformatique et srsquoacceacutelegravere reacutecemment sous la pression de projets drsquoenvergure comme SDSS GAIA et LSST encourageacutee aussi par les reacutecents progregraves en science des donneacutees ( requecirctes complexes apprentissage calcul distribueacute optimisation et passage agrave lrsquoeacutechelle )

31 [4] eScience -- A Transformed Scientific Method Jim Gray eScience Talk at NRC-CSTB meeting Mountain View CA 11 January 2007

INS2I

63

Livre Blanc sur les Donneacutees au CNRS Eacutetat des Lieux et Pratiques - 2018

210 INSTITUT NATIONAL DE PHYSIQUE NUCLEAIRE ET DE PHYSIQUE DES PARTICULES ( IN2P3 )

2101 Introduction

Creacuteeacute en 1971 lrsquoInstitut National de Physique Nucleacuteaire et de Physique des Particules ( IN2P3 ) du CNRS exerce les missions nationales drsquoanimation et de coordination dans les domaines de la physique nucleacuteaire de la physique des particules et des astroparticules des deacuteveloppements technologiques et des applications associeacutees Il conccediloit coordonne et anime les programmes de recherche nationaux et internationaux dans ces domaines Ses missions incluent eacutegalement la coordination de la mise en place de systegravemes drsquoinformation permettant le stockage la mise agrave disposition aupregraves de la communauteacute scientifique le traitement et la valorisation de lrsquoensemble des donneacutees scientifiques concerneacutees ainsi que leur archivage

Ces recherches ont pour but drsquoexplorer la physique des particules eacuteleacutementaires leurs interactions fondamentales ainsi que leurs assemblages en noyaux atomiques drsquoeacutetudier les proprieacuteteacutes de ces noyaux et drsquoexplorer les connexions entre lrsquoinfiniment petit et lrsquoinfiniment grand

Que ce soit avec la physique des particules aupregraves des grands acceacuteleacuterateurs la physique des astroparticules avec les expeacuteriences embarqueacutees sur satellites les teacutelescopes et autres deacutetecteurs terrestres ou encore dans une moindre mesure la physique nucleacuteaire les eacutequipes de lrsquoIN2P3 et du CEAIrfu doivent faire face agrave des masses de donneacutees consideacuterables qursquoil faut stocker distribuer et analyser Bien qursquohistoriquement lrsquoinformatique agrave lrsquoIN2P3 ait eacuteteacute fortement domineacutee par les besoins de la communauteacute de la physique des particules de nouveaux deacutefis sont apparus Des expeacuteriences de physique des astroparticules sont actuellement en cours avec des exigences qui atteindront une fraction significative de celle des expeacuteriences du Large Hadron Collider ( LHC ) au CERN dans les 5 prochaines anneacutees Un changement de paradigme est eacutegalement en cours en calcul pour la physique nucleacuteaire Compte tenu des grandes expeacuteriences agrave venir par exemple au GANIL la communauteacute veut centraliser le calcul et le stockage des donneacutees

Lrsquoensemble des expeacuteriences neacutecessite eacutegalement des modeacutelisations par technique de Monte-Carlo qui sont elles-mecircmes geacuteneacuteratrices de grandes quantiteacutes de donneacutees Lrsquoaspect donneacutees et traitement statistique est donc la caracteacuteristique principale de lrsquoinformatique pour la physique corpusculaire

Le traitement statistique global sur une multitude de jeux de donneacutees indeacutependants mdash une collision de particules correspond agrave un jeu de donneacutees mdash srsquoadapte tregraves bien agrave des architectures informatiques constitueacutees de ferme de calculateurs Drsquoune maniegravere geacuteneacuterale en dehors des calculs de chromodynamique quantique sur reacuteseau ( QCD ) la physique subatomique a tregraves peu besoin de calculateurs parallegraveles Cette caracteacuteristique lrsquoa distingueacutee de bon nombre drsquoautres disciplines scientifiques pour lesquelles le HPC est une neacutecessiteacute La principale complexiteacute du calcul pour la physique corpusculaire provient des masses de donneacutees consideacuterables qursquoil faut geacuterer et distribuer sur le reacuteseau mondial puis traiter au niveau local

Lrsquoensemble des laboratoires de lrsquoIN2P3 utilise les ressources informatiques du CC-IN2P3 ( Section 31 ) et des grilles WLCG et EGI

2102 La probleacutematique des donneacutees agrave lrsquoIN2P3

Depuis la creacuteation de lrsquoIN2P3 le plus grand deacutefi en termes de traitement de donneacutees a eacuteteacute le calcul et le stockage des donneacutees de la physique des particules issues des expeacuteriences du CERN

Dans le grand collisionneur de hadrons ( LHC ) des particules entrent en collision environ 600 millions de fois par seconde Chaque collision produit des particules qui se deacutecomposent souvent de faccedilon tregraves complexe en formant des particules plus nombreuses

64

Livre Blanc sur les Donneacutees au CNRS Eacutetat des Lieux et Pratiques - 2018

Pour chaque eacuteveacutenement qui passe par la proceacutedure de filtrage rigoureuse des deacutetecteurs du LHC il faut en moyenne simuler 1 agrave 15 eacuteveacutenement afin de pouvoir calibrer et finalement comprendre les donneacutees des expeacuteriences

Le traitement des donneacutees agrave lrsquoIN2P3 est aujourdrsquohui eacutetroitement lieacute et influenceacute par le modegravele de calcul du LHC et aligneacute sur la grille de calcul mondiale du LHC ( WLCG ) Le deacutefi consiste agrave passer au crible les 50 peacutetaoctets de donneacutees produites chaque anneacutee pour deacuteterminer si les collisions ont souleveacute une physique inteacuteressante Le WLCG est une infrastructure informatique distribueacutee organiseacutee en plusieurs niveaux ( tiers ) et offre agrave une communauteacute de plus de 8000 physiciens un accegraves en temps reacuteel aux donneacutees du LHC

Ainsi la plus grande partie de lrsquoinfrastructure de calcul drsquoIN2P3 est organiseacutee par LCG-France32 selon une structuration par Tier33 avec CC-IN2P3 eacutetant le Tier-1 franccedilais accompagneacute de 7 Tier-2 drsquoIN2P3 Cela inclut le centre Tier-2 GRIF34 ( Grille au service de la Recherche en Icircle-de-France ) avec une forte participation du CEAIrfu

Pour donner une ideacutee du deacutefi de la gestion des donneacutees en 2017 LCG-France a une capaciteacute de stockage sur disque de 17 Po au niveau Tier-1 ( crsquoest-agrave-dire agrave CC-IN2P3 ) et 14 Po au niveau Tier-2 et une capaciteacute de stockage sur bande de 40 Po au CC-IN2P3 Pour le traitement en France environ 18 000 cœurs sont reacuteserveacutes au Tier-1 et encore environ 18000 cœurs dans les centres Tier-2

32 httplcgin2p3fr33 ldquoThe Grid A system of tiersrdquo httpshomecernaboutcompu-tinggrid-system-tiers34 httpsgriffr

IN2P3

Infrastructure principale pour le calcul IN2P3

65

Livre Blanc sur les Donneacutees au CNRS Eacutetat des Lieux et Pratiques - 2018

Bien que le traitement des donneacutees pour LCG-France soit de loin le plus grand utilisateur de lrsquoinfrastructure de calcul de lrsquoIN2P3 drsquoautres communauteacutes au sein drsquoIN2P3 progressent rapidement

Par exemple en 2016 le CC-IN2P3 a fourni en moyenne 2 800 cœurs de calcul 12 To drsquoespace disque et 25 To de stockage sur bande agrave des expeacuteriences astrophysiques spatiales ( AMS-2 Planck Fermi ) Toute la communauteacute des astroparticules a utiliseacute en 2016 environ 3 Po de disque et 8 Po de bande au CC-IN2P3 Nous beacuteneacuteficions indeacuteniablement drsquoune culture et drsquoune sensibilisation aux deacutefis du traitement des donneacutees dans la communauteacute de la physique des particules et de lrsquoastrophysique Dans ce contexte les expeacuteriences du LHC filtrent leurs donneacutees autant que possible deacutejagrave au niveau du deacutetecteur De plus le nombre de copies de donneacutees est maintenu au minimum absolu neacutecessaire et les donneacutees intermeacutediaires sont effaceacutees autant que possible Dans lrsquoastrophysique spatiale le flux de donneacutees est principalement limiteacute par la largeur de bande de teacuteleacutemeacutetrie des satellites ce qui signifie qursquoun effort important est entrepris pour reacuteduire les donneacutees deacutejagrave agrave bord du satellite

Dans les anneacutees agrave venir un grand nombre de projets importants stockeront leurs donneacutees dans lrsquoinfrastructure de lrsquoIN2P3 En physique des particules lrsquoinstitut participe agrave lrsquoexpeacuterience Belle-235 de lrsquoacceacuteleacuterateur japonais SuperKEKB En physique des astroparticules agrave tregraves haute eacutenergie le Cherenkov Telescope Array ( CTA ) produira environ 8 Po de donneacutees par an dont 4 Po sont des donneacutees brutes et 2 Po sont des donneacutees simuleacutees neacutecessaires agrave lrsquoeacutetalonnage En cosmologie nous verrons le deacutemarrage de lrsquoexploitation de deux projets majeurs au deacutebut des anneacutees 2020 la mission Euclid de lrsquoESA et le Large Synoptic Survey Telescope ( LSST ) Les deux sont extrecircmement difficiles en matiegravere de quantiteacute et de qualiteacute des donneacutees Alors que pour Euclid lrsquoIN2P3 est responsable de 30 du traitement des donneacutees pour LSST nous fournirons 50 de la puissance de calcul et conserverons une archive complegravete de toutes les donneacutees LSST ( brutes et reacuteduites ) au CC-IN2P3 Les deux LSST et Euclid produiront chacun environ 100 Po de donneacutees

Dans le domaine de la physique nucleacuteaire le traitement des donneacutees a eacuteteacute jusqursquoici deacutecentraliseacute principalement au sein des groupes chargeacutes des expeacuteriences Dans le contexte de la mise en service du nouvel acceacuteleacuterateur Spiral-2 au Ganil et de lrsquoeacutevolution simultaneacutee de deacutetecteurs tels que S3 une approche plus centraliseacutee est eacutegalement neacutecessaire pour cette communauteacute

35 httpswwwbelle2org

Un groupe de travail eacutetudie les possibiliteacutes de centraliser le stockage des donneacutees et eacuteventuellement le traitement des donneacutees pour les expeacuteriences existantes et futures dans ce domaine

LrsquoIN2P3 est le principal et de loin le plus gros contributeur de France Grilles la NGI ( National Grid Infrastructure ) franccedilaise qui fait partie de lrsquoinfrastructure de reacuteseau europeacuteen ( EGI36 ) Lrsquoactiviteacute srsquoorganise autour de trois axes pour reacutealiser la strateacutegie geacuteneacuterale de France Grilles

bull Le deacuteploiement et lrsquoopeacuteration drsquoune infrastructure distribueacutee de grille et de cloud au niveau national

bull Lrsquoapplication drsquoune politique drsquoaccegraves permettant de rendre cette infrastructure disponible aux utilisateurs de toutes les disciplines

bull Lrsquointeacutegration de cette infrastructure dans EGI

France Grilles est organiseacute en un Groupement drsquoInteacuterecirct Scientifique ( GIS ) avec un grand nombre de partenaires ( CNRS MENESR CEA CPU INRA INRIA INSERM et RENATER ) et devrait jouer un rocircle de premier plan au sein de la structure laquo FR-T2 raquo actuellement en gestation et qui devrait coordonner les e-infrastructures franccedilaises de maniegravere distribueacutee et nationale

Pour permettre une utilisation efficace des donneacutees distribueacutees en plusieurs endroits ( p ex dans les diffeacuterents centres Tier en France ) France Grilles et lrsquoIN2P3 srsquoappuient notamment sur iRODS iRODS37 pour Integrated Rule-Oriented Data System est un outil de distribution de donneacutees permettant lrsquoaccegraves agrave des donneacutees se trouvant reacuteparties sur diffeacuterents sites et sur des supports heacuteteacuterogegravenes ( systegraveme de fichiers sur disques bases de donneacutees bandes magneacutetiques etc )

En outre lrsquoIN2P3 est engageacute dans le principe FAIR38pour les donneacutees Cela signifie que les donneacutees de notre recherche doivent ecirctre trouvables accessibles interopeacuterables et reacuteutilisables Dans ce contexte nous entreprenons plusieurs actions Par exemple un modegravele de plan de gestion de donneacutees commun a eacuteteacute creacuteeacute et nous avons lrsquointention drsquoen rendre obligatoire la fourniture pour tous les projets IN2P3

36 httpswwwegieu37 httpsirodsorg iRODS IN2P3 service httpsirodsin2p3fr38 par exemple Mons et al 2017

66

Livre Blanc sur les Donneacutees au CNRS Eacutetat des Lieux et Pratiques - 2018

Concernant lrsquoaspect de trouvabiliteacute des donneacutees nous recommandons lrsquoutilisation de Digital Object Identifiers39 ce qui permet drsquoeacutetablir un lien exploitable interopeacuterable et persistant vers des donneacutees par exemple dans le contexte drsquoune publication scientifique Afin drsquoassurer la reacuteutilisabiliteacute des donneacutees un projet a eacuteteacute mis en place agrave lrsquoIN2P3 en 2016 pour eacutetudier les possibiliteacutes de preacuteservation des logiciels et la valeur ajouteacutee drsquoun plan geacuteneacuteral de gestion des logiciels

Dans le contexte europeacuteen lrsquoIN2P3 suit une approche similaire agrave travers sa participation agrave des projets lieacutes agrave lrsquoEuropean Open Science Cloud ( EOSC ) LrsquoEOSC vise agrave donner aux scientifiques en Europe un accegraves transparent au calcul au stockage et aux services agrave travers les frontiegraveres et les communauteacutes Dans le cadre du projet EOSC-Pilot lrsquoIN2P3 dirige lrsquoeffort drsquointeropeacuterabiliteacute des donneacutees et des e-infrastructures crsquoest-agrave-dire que nous essayons de trouver et de proposer des solutions qui permettront agrave lrsquoEOSC drsquoatteindre ses objectifs

Lrsquoinstitut est eacutegalement impliqueacute dans deux projets europeacuteens qui eacutetudient les possibiliteacutes offertes par le cloud et les infrastructures distribueacutees Au sein drsquoHelix Nebula Science Cloud ( HNSciCloud ) nous eacutetudions une plateforme de cloud hybride rassemblant des fournisseurs de services de cloud computing des e-infrastructures financeacutees par des fonds publics et des ressources internes Et dans le projet eXtreme DataCloud ( XDC ) des systegravemes de donneacutees distribueacutees sont exploreacutes y compris des fournisseurs priveacutes et publics et eacutetudient des aspects de la gestion des donneacutees pour la physique des astroparticules et des hautes eacutenergies

2103 Conclusion

LrsquoIN2P3 a une longue histoire dans la gestion de grands flux de donneacutees ainsi que dans lrsquoorganisation et la distribution du stockage Neacuteanmoins les deacutefis agrave venir dans les 5-10 prochaines anneacutees sont importants Nous nrsquoy verrons pas seulement un grand nombre de nouveaux projets avec des volumes de donneacutees tregraves importants ( de lrsquoordre de la dizaine de peacutetaoctets par an ) entrer dans le jeu mais la deacuteferlante de donneacutees qui reacutesultera de la mise agrave niveau du LHC et de ses expeacuteriences sera encore plus significative

39 httpswwwdoiorg

En raison de lrsquointensiteacute plus eacuteleveacutee du faisceau au LHC et des deacutetecteurs ayant une reacutesolution spatiale et temporelle plus eacuteleveacutee le volume de donneacutees au LHC devrait augmenter drsquoun facteur 100 drsquoici 2025 Diffeacuterentes solutions concernant le modegravele de calcul pour le LHC sont actuellement discuteacutees Il demeure cependant eacutevident que lrsquoIN2P3 fera encore face agrave une augmentation significative des exigences de traitement des donneacutees

Pour poursuivre son approche reacuteussie de la gestion des donneacutees lrsquoinstitut poursuit plusieurs approches

bull Etudier de nouvelles approches afin drsquooptimiser les flux de donneacutees Ceci inclut lrsquoutilisation de systegravemes comme iRODS mais aussi le deacuteveloppement de nouveaux systegravemes de gestion de ressources comme DIRAC

bull Travailler sur des systegravemes de calcul en ligne qui reacuteduisent la quantiteacute de donneacutees agrave traiter en reacuteduisant les donneacutees directement sur le site drsquoexpeacuterimentation Ceci est appliqueacute par exemple dans lrsquoinfrastructure de calcul O2 pour lrsquoexpeacuterience Alice au LHC ou dans lrsquoapproche de reacuteduction de donneacutees sur site de Cherenkov Telescope Array ( CTA )

bull Continuer agrave promouvoir des systegravemes de stockage de donneacutees qui permettent lrsquoutilisation transparente de diffeacuterentes ressources

bull Coordonner lrsquoapproche pour un accegraves transparent aux donneacutees avec les initiatives au niveau franccedilais ( p ex MiCaDo COCIN FR-T2 ) et dans le contexte europeacuteen ( p ex EOSC EDI EGI EUDAT )

bull Poursuivre la centralisation de lrsquoinfrastructure informatique de lrsquoIN2P3 ce qui permet un investissement plus efficace tout en maintenant le haut niveau drsquoexpertise distribueacutee dans les laboratoires

bull Poursuivre lrsquoapproche de formation continue agrave travers des programmes de formation pour le personnel IN2P3 former la prochaine geacuteneacuteration de scientifiques de donneacutees et maintenir lrsquoIN2P3 en tant qursquoinstitut attractif pour lrsquoensemble de la communauteacute du calcul scientifique et des infrastructures associeacutees

IN2P3

67

Livre Blanc sur les Donneacutees au CNRS Eacutetat des Lieux et Pratiques - 2018

31 LE CC-IN2P3

311 Mission du CC-IN2P3

LrsquoIN2P3 srsquoappuie sur lrsquoinfrastructure de recherche Centre de Calcul de lrsquoIN2P3 ( CC-IN2P3 ) pour accomplir sa mission de mise en place de systegravemes drsquoinformation permettant le stockage la mise agrave disposition aupregraves de la communauteacute scientifique le traitement et la valorisation de lrsquoensemble des donneacutees scientifiques concerneacutees ainsi que leur archivage

Le CC-IN2P3 dispose pour cela drsquoun datacenter abritant les services informatiques neacutecessaires agrave lrsquoanalyse et agrave lrsquointerpreacutetation des processus fondamentaux de la physique subatomique Du fait de la rareteacute de ces processus ce travail requiert lrsquoanalyse statistique de millions voire de milliards drsquointeractions entre particules Cette analyse neacutecessite le transport le stockage et le traitement drsquoeacutenormes quantiteacutes de donneacutees Les analyses physiques sont meneacutees par un grand nombre de chercheurs reacutepartis dans le monde entier

Le CC-IN2P3 fournit des ressources non seulement pour la physique nucleacuteaire et la physique des particules mais aussi pour lrsquoastrophysique et les astroparticules Parmi les collaborations scientifiques majeures qui utilisent ses services on trouve le LHC40 GANILSpiral 241 LSST42 CTA43 KM3NeT44 tous figurant sur la feuille de route des TGIRIR45 ou celle de lrsquoESFRI46 Par ailleurs les technologies informatiques deacuteployeacutees pour ces besoins ont deacutemontreacute une totale adeacutequation avec les besoins drsquoautres domaines ( sciences humaines

40 Large Hadron Collider ( httphomecerntopicslarge-hadron-collider )41 Grand Acceacuteleacuterateur National drsquoIons Lourds ( httpswwwganil-spiral2eu )42 Large Synoptic Survey Telescope ( httpwwwlsstorg )43 Cherenkov Telescope Array ( httpwwwcta-observatoryorg )44 Neutrino telescopes ( httpwwwkm3netorg )45 Tregraves grandes infrastructures de recherche Infrastructures de recherche46 European Strategy Forum on Research Infrastructures ( httpseceuropaeuresearchinfrastructurespdfesfriesfri_roadmapesfri_roadmap_2016_fullpdf )

bio-informatique eacutecologiehellip ) domaines qui utilisent aujourdrsquohui modestement les services du CC-IN2P3

En premiegravere approche le calcul scientifique reacutealiseacute par les collaborations de recherche auxquelles participe lrsquoIN2P3 correspond agrave un traitement statistique global sur une multitude de jeux de donneacutees indeacutependants ( une collision de particules correspond agrave un jeu de donneacutees ) traitement qui srsquoadapte tregraves bien agrave des architectures informatiques constitueacutees de ferme de calculateurs Drsquoune maniegravere geacuteneacuterale en dehors des calculs de chromodynamique quantique sur reacuteseau ( QCD ) la physique corpusculaire a tregraves peu besoin de calculateurs parallegraveles Cette caracteacuteristique lrsquoa distingueacutee de bon nombre drsquoautres disciplines scientifiques pour lesquelles le HPC est une neacutecessiteacute

La principale complexiteacute du calcul pour la physique corpusculaire provient des masses de donneacutees consideacuterables qursquoil faut geacuterer et distribuer sur le reacuteseau mondial puis traiter au niveau local Crsquoest pourquoi le CC-IN2P3 opegravere des moyens de calcul haut deacutebit ( ou HTC pour High Throughput Computing ) en constante eacutevolution

312 Eacutequipements du CC-IN2P3 ( oct 2017 )

Ces moyens de traitement de donneacutees agrave haut deacutebit sont scheacutematiseacutes ci-contre Ils sont constitueacutes de

bull Une ferme de calcul de 16 000 cœurs physiques fonctionnant avec le gestionnaire de tacircches Univa Grid Engine

bull Un systegraveme de stockage sur disques de 15 Peacutetaoctets deacutedieacute agrave 80 aux expeacuteriences LHC Ce stockage est accessible au travers de divers logiciels ou systegravemes de fichiers

o GPFS ( IBM General Parallel File System ) fournit aux utilisateurs un espace de travail en mode

3 LES DONNEacuteES AU SEIN DES CENTRES NATIONAUX DU CNRS CC-IN2P3 ET IDRIS

68

Livre Blanc sur les Donneacutees au CNRS Eacutetat des Lieux et Pratiques - 2018

fichier flexible et accessible depuis les machines interactives ou le systegraveme de traitement par lot drsquoune capaciteacute de 2 peacutetaoctets

o AFS ( Andrew File System ) drsquoune capaciteacute de 40 teacuteraoctets permet de partager les espaces home et lrsquoessentiel des distributions de logiciels

o Le systegraveme de stockage hieacuterarchique HPSS ( High Performance Storage System ) dispose drsquoun cache sur disques permettant de geacuterer la reacutecupeacuteration et les migrations de donneacutees depuis et vers le systegraveme de stockage de masse ( cartouches magneacutetiques ) Ce systegraveme drsquoune capaciteacute de stockage actuelle totale de 340 peacutetaoctets contient agrave ce jour 59 peacutetaoctets de donneacutees scientifiques

o SRMdCache et Xrootd sont des systegravemes speacutecifiques de gestion de donneacutees deacuteveloppeacutes par la communauteacute de la physique des hautes eacutenergies et capables drsquoabsorber des charges tregraves importantes en termes drsquoentreacuteessorties Ils constituent lrsquoessentiel du stockage au CC-IN2P3

o iRods est un systegraveme de gestion de donneacutees distribueacute flexible et capable de geacuterer facilement

des meacutetadonneacutees La faciliteacute de mise en œuvre notamment pour des donneacutees distribueacutees geacuteographiquement a rendu iRods populaire et a contribueacute agrave son deacuteveloppement

bull Un ensemble de 4 silos robotiseacutes STKOracle SL8500 pour le stockage sur cartouches magneacutetiques Drsquoune capaciteacute totale de 4 times 10 000 cartouches ces silos peuvent heacuteberger jusqursquoagrave 340 peacutetaoctets avec la derniegravere technologie de lecteurs T10kD ( 85 Tocartouche )

bull Un ensemble de systegravemes de bases de donneacutees sous diverses technologies ( mySQL PostgreSQL et Oracle ) Le CC-IN2P3 a deacuteveloppeacute une expertise consideacuterable dans ce domaine et met en œuvre des architectures de clusters de bases de donneacutees particuliegraverement complexes

Lrsquoensemble des ressources informatiques est interconnecteacute sur un reacuteseau dont lrsquoeacutepine dorsale supporte une bande passante de 400 Gbs Les serveurs individuels sont connecteacutes en Ethernet agrave 1 Gbs ou 10 Gbs selon les applications Une partie du stockage exploite aussi la technologie de reacuteseau de donneacutees Fibre Channel

CENTRES NATIONAUX

69

Livre Blanc sur les Donneacutees au CNRS Eacutetat des Lieux et Pratiques - 2018

Lrsquoeacutevolution de ces ressources au cours des 6 derniegraveres anneacutees est reacutesumeacutee par les graphes suivants

313 Usages du CC-IN2P3

En 2016 lrsquousage des ressources se reacutepartit selon le graphique suivant

Bien que repreacutesentant en nombre une proportion significative de lrsquoensemble des groupes utilisant le CC-IN2P3 la part du CPU utiliseacutee par des activiteacutes de recherche ne deacutependant pas de la politique scientifique

de lrsquoIN2P3 ne repreacutesente que 2 du CPU consommeacute en 2016 ( qui srsquoeacutelegraveve agrave 17 milliard de HS06h ) et moins de 1 des capaciteacutes de stockage utiliseacutees ( qui eacutetaient de 619 Po )

70

Livre Blanc sur les Donneacutees au CNRS Eacutetat des Lieux et Pratiques - 2018

314 Preacutevisions

Depuis 2011 le CC-IN2P3 a mis en service une seconde salle machine drsquoune superficie de 850 m2 et capable agrave terme de fournir une puissance eacutelectrique de 34 MW pour le mateacuteriel informatique hors refroidissement Cette puissance vient en compleacutement des 1 MW de la premiegravere salle La conception tregraves moderne de la nouvelle salle ( pas de faux plancher organisation des serveurs en alleacutees avec confinement de la chaleur et traitement de celle-ci par la technique dite InRow double alimentation EDF redondante etc ) en fait un eacutequipement de tout premier plan capable drsquoaccueillir les moyens de calcul et de traitement des donneacutees des futures grandes expeacuteriences de physique corpusculaire

En 2017 la production de donneacutees des 4 deacutetecteurs installeacutes sur le Large Hadron Collider ( LHC ) au CERN repreacutesente un volume de 50 Peacutetaoctets par an malgreacute un filtrage eacuteliminant 99 des eacuteveacutenements observeacutes Crsquoest trois fois plus que les donneacutees produites chaque anneacutee lors de la premiegravere anneacutee drsquoexploitation Le traitement global de ces donneacutees repose sur lrsquoutilisation de la grille mondiale W-LCG composeacutee de 250 centres de calcul avec 1 Tier 0 ( au CERN ) 12 Tier 1 ( dont le CC-IN2P3 ) et plus de 200 Tier 2 Dans ce contexte lrsquoobjectif du CC-IN2P3 est de fournir 10 des ressources de calcul pour LHC Il est agrave noter que les accegraves reacuteseau du CC-IN2P3 pour lrsquoeacutechange des donneacutees de ces seules expeacuteriences repreacutesentent pregraves de 46 du trafic RENATERLe CCndashIN2P3 heacuteberge eacutegalement les donneacutees issues drsquoautres expeacuteriences HESS47 AMS48 Planck49 ANTARES50 Auger51

47 Observatoire des tregraves hautes eacutenergies ( httpswwwobspmfrhess-ii-observatoire-des-treshtml ) 48 Spectromegravetre magneacutetique alpha ( httpshomecernfraboutexperimentsams )49 Satellite drsquoobservation du fond cosmologique de la voucircte ceacuteleste ( httpsplanckcnesfr )50 Deacutetecteur sous-marin de neutrinos ( httpantaresin2p3fr ) 51 Deacutetection de rayons cosmiques de tregraves haute eacutenergie ( httpwwwin2p3frrechercheactualites19991999_augerdetecteurshtm )

VIRGO52 Supernovae53hellip qui comme celles du LHC ont chacune leur politique de gestion de donneacutees Un point commun toutefois est que les donneacutees drsquoune expeacuterience doivent pouvoir ecirctre exploiteacutees sur des dureacutees tregraves significatives avec donc des probleacutematiques de stockage peacuterenne de ces donneacutees Des processus dit de stockage intermeacutediaire sont ainsi mis en œuvre

Les besoins futurs en matiegravere de stockage de donneacutees sont agrave la hauteur de lrsquoambition des expeacuteriences qursquoheacuteberge le CC-IN2P3 En particulier les futurs deacuteveloppements du LHC ( HL-LHC ) vont provoquer une explosion du volume de donneacutees produites Parallegravelement lrsquoIN2P3 est engageacute dans les expeacuteriences majeures drsquoastroparticules et cosmologie que sont EUCLID54 LSST et CTA

La projection de ces besoins agrave lrsquoeacutecheacuteance de 2030 va ecirctre synonyme de deacuteploiement drsquoinfrastructures de dimensions tregraves significatives

A lrsquohorizon 2030 le CC-IN2P3 stockera plus de 1 200 Po de donneacutees et offrira une capaciteacute de calcul de lrsquoordre de 6 millions de HEPSpec0655 ( MHS06 )

52 Deacutetection des ondes gravitationnelles ( httpwwwvirgo-gweu )53 httpssnovaein2p3fr54 Teacutelescope spatial pour lrsquoanalyse de lrsquoeacutenergie noire ( httpwwweuclid-ecorg )55 httpswikiegieuwikiFAQ_HEP_SPEC06 1 HEPSpec06 ~= 1 GFlops

CENTRES NATIONAUX

71

Livre Blanc sur les Donneacutees au CNRS Eacutetat des Lieux et Pratiques - 2018

32 LrsquoIDRIS

321 Introduction

LrsquoIDRIS est le centre majeur du CNRS pour le calcul numeacuterique intensif de tregraves haute performance Agrave la fois centre de ressources informatiques et pocircle de compeacutetences en calcul de haute performance lrsquoIDRIS est une uniteacute propre de service du CNRS deacutependant de la Mission Calcul-Donneacutees ( MiCaDo ) du CNRS et rattacheacutee administrativement agrave lrsquoInstitut des sciences de lrsquoinformation et de leurs interactions ( INS2I ) mais dont la vocation agrave lrsquointeacuterieur du CNRS est pluridisciplinaire

Les supercalculateurs opeacutereacutes par lrsquoIDRIS proprieacuteteacute de la socieacuteteacute GENCI ( Grand Equipement National de Calcul Intensif httpwwwgencifr ) ont geacuteneacuteralement une dureacutee de vie de cinq agrave six ans Ils sont donc renouveleacutes freacutequemment avec leurs moyens de stockage associeacutes en entraicircnant agrave chaque fois des frais drsquoinstallation et parfois des frais de fonctionnement en hausse ( essentiellement dus aux consommations eacutelectriques de ces eacutequipements )

Lrsquoutilisation des ressources opeacutereacutees par lrsquoIDRIS srsquoeffectue au travers des allocations effectueacutees par GENCI soit pregraves de trois cents projets scientifiques dans tous les domaines utilisant la simulation numeacuterique dans leurs theacutematiques de recherche respectives

Suite agrave lrsquoappel drsquooffres lanceacute agrave lrsquoautomne 2011 par GENCI en partenariat avec lrsquoIDRIS deux nouveaux supercalculateurs drsquoarchitectures compleacutementaires ont eacuteteacute acquis aupregraves de la socieacuteteacute IBM en mai 2012 Lrsquoun eacutetait une machine dite massivement parallegravele de type Blue GeneQ composeacutee de quatre cabinets de chacun 16 384 cœurs pour un total de 65 536 cœurs avec 65 To de meacutemoire globale et qui deacutelivrait une puissance crecircte cumuleacutee de 839 TFlops placcedilant cette machine au 30e rang mondial en novembre 2012 Cette configuration a eacuteteacute eacutetendue en novembre 2014 par lrsquoajout de deux cabinets suppleacutementaires portant la configuration complegravete agrave 98 304 cœurs pour une capaciteacute meacutemoire totale atteignant doreacutenavant 98 To et une puissance crecircte cumuleacutee porteacutee maintenant agrave 126 PFlops ce qui a replaceacute cette machine au 42e rang mondial en novembre 2014 En novembre 2017 cette machine occupait encore le 146e rang Lrsquoautre supercalculateur est une machine dite agrave nœuds larges composeacutee de 332 nœuds de 32 cœurs pour un total de 10 624 cœurs avec 46 To de meacutemoire globale et qui

deacutelivre une puissance crecircte cumuleacutee de 230 TFlops lrsquoayant placeacute au 123e rang mondial en novembre 2012 Agrave cette configuration srsquoadjoint quatre nœuds de preacute et post-traitements de chacun 32 cœurs et 1 To de meacutemoire partageacutee ainsi qursquoun espace disques partageacute

Par ailleurs lrsquoextension des capaciteacutes de stockage a eacuteteacute reacutealiseacutee en 2014 en deux phases Drsquoune part le serveur drsquoarchives acquis en 2009 et arriveacute en fin de vie a eacuteteacute remplaceacute sur financement CNRS ce qui permettra agrave lrsquoIDRIS de faire face agrave un fort accroissement de la capaciteacute drsquoarchivage sur cartouches magneacutetiques en preacutevision de la croissance attendue de ces besoins dans les prochaines anneacutees Drsquoautre part la capaciteacute de stockage de donneacutees actives sur disques magneacutetiques agrave tregraves forte bande passante a eacuteteacute fortement accrue en 2015 avec une extension de 3 Po ( deux financeacutes par le CNRS et un par GENCI ) ajouteacutes aux 22 Po initiaux

Le remplacement de la geacuteneacuteration actuelle des supercalculateurs est maintenant preacutevu fin 2018 pour une mise en production au deacutebut de 2019 Agrave cet effet GENCI a lanceacute un appel drsquooffres en novembre 2017

LrsquoIDRIS heacuteberge en plus un certain nombre de calculateurs pour des acteurs locaux du Plateau de Saclay tel le calculateur de la Maison de la Simulation et celui du meacutesocentre CentraleSupeacutelecENS-Paris Saclay ainsi que la machine nationale de lrsquoIFB ( Institut Franccedilais de la Bioinformatique )

322 Configuration actuelle agrave lrsquoIDRIS

En janvier 2018 les moyens de calcul de GENCI heacutebergeacutes agrave lrsquoIDRIS sont constitueacutes de

bull Turing un IBM Blue GeneQ avec 98 306 cœurs PowerPC A2 agrave 16 Ghz ( soit 1644 nœuds ayant chacun 16 cœurs ) La machine est constitueacutee de 6 racks avec au total 96 Toctets de meacutemoire et une performance de crecircte de 1258 PFlops

bull Ada un IBM X3750M4 avec 10 624 cœurs SandyBridge agrave 27 Ghz ( soit 332 nœuds de 32 cœurs chacun ) La machine possegravede 49 Toctets de meacutemoire et affiche une performance de crecircte de 233 TFlops

72

Livre Blanc sur les Donneacutees au CNRS Eacutetat des Lieux et Pratiques - 2018

CENTRES NATIONAUX

Lrsquoespace disque est organiseacute en

bull Home

o Volumeacutetrie tregraves faible ( essentiellement fichiers drsquoenvironnement et sources des applications )

o Performance sans impact

o Fonctionnaliteacutes

Dureacutee de vie non limiteacutee

Soumis agrave quotas

Sauvegardeacute automatiquement ( chaque nuit )

bull Scratch

o Volumeacutetrie tregraves importante ( fonction de la puissance des calculateurs )

o Performance la plus grande possible

o Fonctionnaliteacutes

Dureacutee de vie limiteacutee agrave lrsquoexeacutecution de chaque travail ou soumis agrave des purges sur des dates drsquoancienneteacute

bull Work

o Volumeacutetrie tregraves importante ( fonction de la puissance des calculateurs )

o Performance grande

o Fonctionnaliteacutes

Dureacutee de vie non limiteacutee

Soumis agrave quotas

Pas sauvegardeacute aujourdrsquohui ( mais snapshots possibles )

73

Livre Blanc sur les Donneacutees au CNRS Eacutetat des Lieux et Pratiques - 2018

Evolution des espaces sur disques

bull De 2008 agrave 2012 12 Po agrave 6 Gos

bull Configuration acheteacutee en 2012

o 22 Po agrave 50 Gos ( deacutebit soutenu maximum )

o Compromis financier agrave lrsquoachat entre puissance de calcul et capaciteacutes de stockage

o Agrave la fois HomeScratchWork

bull A partir de 2015

o 52 Po

- Les 22 Po preacuteceacutedents

- 1 Po drsquoextension disques lieacutee agrave lrsquoextension BGQ ( 32 000 cœurs ajouteacutes en novembre 2014 )

- 2 Po extension disques

o 3 Po agrave 90 Gos

o Le scratch a eacuteteacute transfeacutereacute sur les disques de nouvelle geacuteneacuteration

o Conservation possible de versions de fichiers dans lrsquoespace Work ( snapshots )

bull Technologie GPFS drsquoIBM

bull Tous ces espaces seront redeacutefinis avec des augmentations significatives agrave la fois en volumeacutetrie et en performance pour servir la nouvelle configuration de calcul qui sera installeacutee au second semestre 2018

Au 25 aoucirct 2017 il y avait 55 millions de fichiers sur le Work 70 millions sur le Scratch et 35 millions Home + systegraveme

Les espaces sur cartouches

bull Piloteacutes par une machine drsquoarchives

o Remplaceacutee mi-2014

o Technologie TSMHSM drsquoIBM ( preacuteceacutedemment DMF de SGI )

o 11 serveurs

- 3 frontales

- 6 serveurs GPFS ( 4 pour les donneacutees 2 pour les meacutetadonneacutees )

- 2 serveurs TSMHSM ( gestion migration et robotique )

o Disques cache

- transparent pour les utilisateurs

- 2 Po agrave 24 Gos

- laquo petits raquo fichiers ( jusqursquoagrave 39 Ko ) jamais migreacutes sur cartouches

- cache pour les fichiers rechargeacutes depuis les cartouches

- purges reacuteguliegraveres en fonction de lrsquoacircge et de la taille des fichiers

o Format des donneacutees proprieacutetaire

o 4 Po migreacutes entre lrsquoancien format et le nouveau agrave lrsquoissue de 6 mois de recopies au second semestre 2014 en parallegravele avec lrsquoexploitation du nouveau serveur

bull Robot StorageTek SL8500 ( Oracle )

Il est instructif de mener un examen de lrsquoespace disque occupeacute par les diverses communauteacutes regroupeacutees en Comiteacutes theacutematiques La liste des Comiteacutes scientifiques theacutematiques nationaux est la suivante

1 Environnement

2a Eacutecoulements non reacuteactifs

2b Eacutecoulements reacuteactifs ouet multiphasiques

3 Biologie et santeacute

4 Astrophysique et geacuteophysique

5 Physique theacuteorique et physique des plasmas

6 Informatique algorithmique et matheacutematiques

7 Dynamique moleacuteculaire appliqueacutee agrave la biologie

8 Chimie quantique et modeacutelisation moleacuteculaire

9 Physique chimie et proprieacuteteacute des mateacuteriaux

10 Nouvelles applications et applications transversales du calcul

En termes de stockage sur Ada et dans une moindre mesure Turing on constate la preacutedominance des comiteacutes theacutematiques CT-1 ( Environnement hors projet CMIP6 ) CT-4 ( Astrophysique et geacuteophysique ) et CT-5 ( Physique theacuteorique et physique des plasmas ) ce qui ne reflegravete pas toujours les allocations drsquoheures de calcul par exemple sur Turing ougrave le volume drsquoheures alloueacute agrave lrsquoenvironnement est relativement faible ( 32 en 2017 )

74

Livre Blanc sur les Donneacutees au CNRS Eacutetat des Lieux et Pratiques - 2018

CENTRES NATIONAUX

75

Livre Blanc sur les Donneacutees au CNRS Eacutetat des Lieux et Pratiques - 2018

Lrsquoeacutevolution du stockage sur cartouches est en croissance reacuteguliegravere ainsi que le montre la figure ci-dessous Lrsquoessentiel du stockage sur cartouches est utiliseacute par le CT-1 avec de lrsquoordre de 80 du total ( 51 des 64 Poctets de donneacutees utilisateurs en deacutecembre 2017 )

LrsquoIDRIS est aussi impliqueacute dans la mise agrave disposition des donneacutees pour la communauteacute du climat avec le service DODS ( Distributed Oceanographic Data System ) opeacuterationnel depuis 2003 Ce serveur effectue la publication ( mondiale ) des donneacutees stockeacutees sur le serveur drsquoarchives ( potentiellement migreacutees ) avec un accegraves en lecture seule ( sauf eacutevidemment par les fournisseurs de donneacutees ) Deux espaces cohabitent sur ce serveur un espace priveacute reacuteserveacute agrave une communauteacute identifieacutee et un espace public

Il heacuteberge actuellement 25 millions de fichiers pour 407 Toctets de donneacutees stockeacutees

Depuis 2017 ce service est inteacutegreacute au sein des services du projet ESGF56 ( Earth System Grid Federation ) dans le cadre des projets CMIP57 ( Coupled Model Intercomparison Project ) pour environ 600 To fin 2017 De plus lrsquoIDRIS opeacuterera agrave partir du deacutebut de lrsquoanneacutee 2018 une archive multi-modegraveles des donneacutees les plus utiliseacutees du projet CMIP6 ( provenant drsquoenviron 50 modegraveles ) drsquoune volumeacutetrie de 4 Po afin drsquoen faciliter lrsquoexploitation et drsquooffrir un service national drsquoaccegraves agrave ces donneacutees

56 httpsesgfllnlgov57 httpswwwwcrp-climateorgwgcm-cmip

76

Livre Blanc sur les Donneacutees au CNRS Eacutetat des Lieux et Pratiques - 2018

41 INTRODUCTION

La Mission Calcul Donneacutees du CNRS (MiCaDo) soutient un certain nombre drsquoinitiatives et drsquoinfrastructures reacutegionales ou nationales au travers de lrsquoaffectation de personnels (ingeacutenieurs drsquoeacutetudes ou de recherche) dont le Centre de Calcul de lrsquoIN2P3 le Centre National de Calcul Intensif du CNRS (IDRIS) la Maison de la Simulation sur le Plateau de Saclay et les deux Uniteacutes Mixtes de Recherche CALMIP et GRICAD respectivement meacutesocentres de Toulouse et Grenoble Ces deux meacutesocentres ont des actions lieacutees agrave la fois au calcul et aux donneacutees drsquoougrave leur preacutesence dans ce Livre Blanc

42 CALMIP

Cette section a eacuteteacute eacutecrite avec Jean-Luc Estivalegravezes Directeur de lrsquoUMS CALMIP

421 Introduction

Le meacutesocentre toulousain CALMIP (CALcul en MIdi Pyreacuteneacutees) a eacuteteacute creacuteeacute en 1994 sous la forme drsquoun groupement scientifique et son premier calculateur a eacuteteacute installeacute en 1999 Depuis 2014 CALMIP est devenu une Uniteacute Mixte de Service du CNRS (UMS CNRS 3667) heacutebergeacutee actuellement agrave lrsquoEspace Cleacutement Ader dans une salle de calcul partageacutee avec le calculateur de Meacuteteacuteo-France Il beacuteneacuteficie ainsi drsquoun environnement technologique de haut niveau avec une seacutecurisation des accegraves et de lrsquoalimentation eacutelectrique et un reacuteseau de reacutecupeacuteration de chaleur

Le meacutesocentre CALMIP est ouvert agrave lrsquoensemble de la communauteacute scientifique membre de lrsquoUniversiteacute Feacutedeacuterale de Toulouse Midi-Pyreacuteneacutees ou des EPST En 2016 CALMIP a permis agrave environ 500 chercheurs dont 130 doctorants venant de 30 laboratoires de reacutealiser plus de 200 projets de recherche repreacutesentant 70 millions drsquoheures de calcul 8 grandes theacutematiques scientifiques utilisent ces moyens de calcul physico-chimie des mateacuteriaux meacutecanique des fluides sciences de lrsquoUnivers chimie quantique physique theacuteorique et moleacuteculaire bioinformatique et meacutethodes numeacuteriques

Depuis 2008 le meacutesocentre CALMIP est ouvert aux entreprises (TPE PME et ETI) pour leurs activiteacutes

innovantes et 10 des ressources du systegraveme de calcul de CALMIP sont reacuteserveacutees agrave cette activiteacuteUne eacutequipe de 6 ingeacutenieurs assure actuellement lrsquoexploitation du calculateur et le support technique et scientifique aux utilisateurs

422 Description

Les moyens de calcul sont renouveleacutes tous les 4 ans environ Le prochain renouvellement est preacutevu agrave lrsquoeacuteteacute 2018 Eos la machine actuellement en production a eacuteteacute classeacutee 183e au TOP 500 lors de sa mise en service en juin 2014 Ses caracteacuteristiques sont les suivantes

- 612 nœuds avec 2 processeurs Intel IVYBRIDGE 28 Ghz 10-cores soit un total de 12240 cœurs

- Meacutemoire 64 Go par nœud soit 39 To de RAM au total

- Puissance crecircte theacuteorique totale 274 TF

- Stockage disque 891 To de disque + 7 Po additionnels de stockage de grande capaciteacute

- Pour la partie visualisation 4 GPU (Nvidia Quadro 6000)

4 LES DONNEacuteES AU SEIN DES STRUCTURES MUTUALISEacuteES SOUTENUES PAR MICADO

STRUCTURES MUTUALISEacuteES

77

Livre Blanc sur les Donneacutees au CNRS Eacutetat des Lieux et Pratiques - 2018

CALMIP a installeacute en 2016 une infrastructure de stockage appeleacutee ATLAS pour reacutepondre agrave la convergence des besoins en calcul intensif et en traitement massif de donneacutees Un poste IR CNRS a eacuteteacute afficheacute en soutien agrave cette infrastructure Elle se compose

bull Drsquoun espace de stockage de 3 Po utiles sur systegraveme de fichiers parallegravele GPFS sur lequel les utilisateurs vont pouvoir deacuteposer agrave la fois les donneacutees de simulation produites par le supercalculateur Eacuteos mais aussi le cas eacutecheacuteant les donneacutees drsquoentreacutee neacutecessaires agrave ces simulations (fonctionnaliteacute de type workdir)

bull Drsquoun espace de stockage objet drsquoun volume utile de 4 Po ayant pour principale fonction de seacutecuriser lrsquoespace de stockage preacuteceacutedent

Le prochain renouvellement est preacutevu agrave lrsquoeacuteteacute 2018 Dans le cadre du projet CADAMIP (CPER 2015-2020 financement Etat Reacutegion Occitanie Toulouse Meacutetropole IDEX) CALMIP a choisi son nouveau supercalculateur pour la peacuteriode 2018-2022 Ce nouveau systegraveme de calcul Atos-BULL baptiseacute OLYMPE propose une puissance de 1365 Peacutetaflops

bull Un supercalculateur massivement parallegravele formeacute de 13 464 cores Intel(r) SKYLAKE 6140 interconnecteacutes via un reacuteseau Infiniband EDR (100 Gbs) dont la puissance de calcul et de traitement est 5 fois supeacuterieure agrave celle du supercalculateur actuel EOS pour la mecircme enveloppe eacutenergeacutetique

bull Un espace disque de travail drsquoune capaciteacute de 15 Po dont les performances (40 Gos) sont multiplieacutees par 4 par rapport agrave EOS afin de reacutepondre aux besoins lieacutes au traitement massif de donneacutees drsquoentreacutee et de sortie Cet espace est relieacute aux nœuds de calcul du supercalculateur

bull 2 nœuds de calcul SMP de 15 To de meacutemoire vive inteacutegreacutes au supercalculateur

bull Une connexion au systegraveme de stockage capacitif et seacutecuriseacute ATLAS afin drsquooffrir aux porteurs de projets un espace permettant de seacutecuriser leurs donneacutees sur la continuiteacute

bull Une partition GPU significative associeacutee au supercalculateur en vue drsquoapplications sur le traitement massif de la donneacutee

La mise en production est preacutevue pour septembre 2018

43 GRICAD

Cette section a eacuteteacute eacutecrite avec Violaine Louvet Directrice de lrsquoUMS GRICAD

431 Contexte

La rationalisation des infrastructures (immobiliegraveres et plateformes) pour reacuteduire les coucircts augmenter le niveau de service et gagner en fiabiliteacute et seacutecuriteacute dans une deacutemarche de deacuteveloppement durable et soutenable neacutecessite de repenser lrsquourbanisation des infrastructures de calcul et de donneacutees ainsi que lrsquoorganisation des moyens humains en synergie avec les laboratoires de recherche et les services communs Ces enjeux srsquoinscrivent agrave Grenoble dans un contexte de mutation forte du paysage de la recherche fusion des universiteacutes obtention drsquoun IdeX mais srsquoappuient eacutegalement sur un terreau de collaborations historiques entre les acteurs du numeacuterique (DSI des eacutetablissements structure interuniversitaire laboratoires) tregraves fertile

432 LrsquoUMS GRICAD

LrsquoUniteacute mixte de services GRICAD (Grenoble Alpes Recherche - Infrastructure de CAlcul intensif et de Donneacutees) a eacuteteacute creacuteeacutee dans ce contexte en 2016 comme une structure transversale mutualiseacutee autour du calcul et des donneacutees au service des personnels de lrsquoensemble des pocircles de recherche du site grenoblois Sous la tutelle du CNRS de lrsquoUGA de Grenoble-INP et drsquoINRIA elle regroupe des compeacutetences en interne autour de lrsquoadministration systegraveme speacutecifique des machines de calcul et des plateformes lieacutees aux donneacutees du calcul scientifique et intensif et du Big Data Elle feacutedegravere eacutegalement les forces du site dans une deacutemarche plus globale en srsquoappuyant sur les expertises preacutesentes dans les laboratoires les DSI et les structures drsquoenseignement

Cette mutualisation de moyens humains externes autour drsquoinfrastructures de site a lrsquoeacutenorme avantage de favoriser la proximiteacute avec les eacutequipes de recherche et donc drsquoecirctre au plus pregraves des besoins des communauteacutes

78

Livre Blanc sur les Donneacutees au CNRS Eacutetat des Lieux et Pratiques - 2018

Les missions de GRICAD recouvrent

bull Lrsquoaccompagnement et le conseil aux communauteacutes scientifiques identification et aide agrave la speacutecification du besoin autour du calcul et des donneacutees support agrave lrsquoutilisation des plateformes soutien au montage de projet sur la partie technique

bull Le calcul intensif avec un accegraves agrave diffeacuterents types de calculateurs

bull Le traitement la valorisation la diffusion le stockage des donneacutees de la recherche avec un accegraves agrave plusieurs plateformes (stockage cloudhellip)

bull Lrsquoheacutebergement sec de serveurs avec la coordination de la gestion des datacentres mutualiseacutes du site grenoblois

bull Lrsquoanimation la formation et le reacuteseautage en collaboration avec les autres acteurs du site (en particulier la maison de la modeacutelisation MaiMoSiNE le reacuteseau des informaticiens SARI et le Data Institute de Grenoble)

433 Les services autour de la donneacutee

La creacuteation de GRICAD srsquoest appuyeacutee sur un existant solide et historique autour du calcul intensif le meacutesocentre CIMENT Les services autour de la donneacutee ont eacuteteacute construits ex nihilo agrave partir des besoins exprimeacutes par les communauteacutes scientifiques

Les caracteacuteristiques principales sont une tregraves grande diversiteacute des donneacutees et un rapprochement important avec le calcul intensif sous la forme de besoins en traitement tregraves varieacutes Les difficulteacutes rencontreacutees concernent drsquoune part une connaissance et une appropriation technique tregraves heacuteteacuterogegravenes des technologies et des infrastructures drsquoune communauteacute agrave lrsquoautre voire drsquoun individu agrave lrsquoautre et drsquoautre part un accompagnement interne (dans les laboratoires) tregraves diffeacuterent drsquoune structure agrave lrsquoautre neacutecessitant la mise en place drsquoun support laquo agrave la carte raquo Le deacuteploiement des services autour de la donneacutee doit aussi srsquointeacutegrer dans un environnement existant de structures de recherche drsquoaccompagnement de projets aux niveaux local national et europeacuteen

GRICAD participe ainsi au projet europeacuteen EOSCPilot par exemple

Lrsquooffre de service proposeacutee par GRICAD inclut lrsquoaccegraves agrave diffeacuterents environnements de stockage drsquoinfrastructures de cloud de Big Data de traitements de donneacutees et piles logicielles lieacutees agrave la manipulation de la donneacutee LrsquoUMS collabore eacutetroitement avec la recherche en informatique en particulier lrsquoinfrastructure nationale Gridrsquo5000 avec laquelle elle partage une nouvelle machine de calcul notamment deacutedieacutee aux Data Analytics Les services et plateformes proposeacutes sont dynamiques et eacutevolutifs en fonction des demandes des scientifiques

GRICAD accompagne tout particuliegraverement certaines communauteacutes Drsquoune part pour les aider agrave aborder le tournant du numeacuterique et drsquoautre part pour faire monter en compeacutetences ses eacutequipes propres sur les technologies agrave la pointe LrsquoUMS est ainsi tregraves active dans le projet drsquoentrepocirct de donneacutees du CHU de Grenoble et dans plusieurs projets avec la communauteacute SHS (collecte de donneacutees du web deep learning)

434 Description des ressources de calcul et de stockage

GRICAD offre une diversiteacute de plateformes deacuteployeacutees en fonction des besoins exprimeacutes par les communauteacutes scientifiques

bull Froggy calcul intensif (reacuteseau Infiniband) constitueacute de 3236 coeurs de calcul et drsquoun stockage Lustre de 90 To Froggy integravegre quelques nœuds GPU

bull Luke traitement massif de donneacutees 906 coeurs de calcul

bull Dahu machine de convergence HPC - Data Analytics mutualiseacutee avec Gridrsquo5000 2560 coeurs de calcul reacuteseau Omnipath avec nœuds burst buffers (NVMe) et scratch SSD

bull Stockage IRODS drsquoenviron 1 Po mutualiseacute distribueacute et accessible depuis lrsquoensemble des plateformes

bull Bettik Stockage BeeGFS de 292 To utiles fournissant aux machines Luke et Dahu un scratch distribueacute et performant

STRUCTURES MUTUALISEacuteES

79

Livre Blanc sur les Donneacutees au CNRS Eacutetat des Lieux et Pratiques - 2018

bull SUMMER Stockage NetApp de plus de 3 Po de volumeacutetrie brute proposant diffeacuterents niveaux de seacutecurisation (sauvegarde reacuteplication) et diffeacuterents niveaux de performance (stockage capacitif ou performant)

bull WINTER Plateforme VMWare de virtualisation

bull Cloud openstack sur stockage CEPH

bull Plateforme JupyterHub de notebooks

bull Plateforme Big Data Hadoop

435 Interactions et cross-fertilisation

La transversaliteacute intrinsegraveque des infrastructures de calcul et de donneacutees fait de lrsquoUMS GRICAD un lieu naturel de lrsquointerdisciplinariteacute et de rencontres des diffeacuterentes communauteacutes scientifiques Lrsquoobjectif afficheacute est de deacutepasser les speacutecificiteacutes disciplinaires afin de pouvoir offrir des solutions mateacuterielles et technologiques partageacutees et co-construites

GRICAD srsquoefforce de deacutevelopper une logique de mutualisation drsquoexpeacuteriences autour de la deacutefinition et lrsquoappropriation des services numeacuteriques proposeacutes en diffusant les pratiques existantes dans les disciplines les plus avanceacutees dans le domaine et en incitant au transfert de technologie drsquoune communauteacute agrave lrsquoautre Les missions autour de lrsquoanimation et de la formation sont en cela particuliegraverement critiques

Le deacuteveloppement de liens entre les chercheurs autour de theacutematiques neacutecessairement communes est essentiel Ainsi des groupes de travail interdisciplinaires ont eacuteteacute formeacutes pour reacutepondre au questionnement autour du cycle de vie de la donneacutee et de la nouvelle reacuteglementation europeacuteenne sur les donneacutees personnelles (RGPD) par exemple

La valeur ajouteacutee drsquoune uniteacute de services agrave lrsquoeacutechelle drsquoun site comme Grenoble est fondamentalement la proximiteacute avec les eacutequipes de recherche et la souplesse pour reacutepondre aux besoins des scientifiques

80

Livre Blanc sur les Donneacutees au CNRS Eacutetat des Lieux et Pratiques - 2018

Le traitement des donneacutees agrave grande eacutechelle (Big Data) est un reacuteel enjeu strateacutegique pour le CNRS et concerne tous les instituts mecircme si les pratiques au sein de chaque institut sont tregraves variables en fonction de lrsquohistorique de chaque discipline en matiegravere de donneacutees La maicirctrise de tous les aspects du Big Data relegraveve drsquoune deacutemarche fondamentalement interdisciplinaire dans laquelle le CNRS se doit drsquoexceller

Lrsquoenjeu fondamental pour le CNRS est de promouvoir une veacuteritable laquo culture de la donneacutee raquo au sein du CNRS Le CNRS doit mieux valoriser toutes les donneacutees que ses eacutequipes de recherches produisent se doter drsquoune strateacutegie en matiegravere de donneacutees et afficher son rocircle moteur dans des initiatives comme EOSC58 ou lieacutees agrave lrsquoOpen Science lrsquoOpen Data et agrave RDA59 et agrave des principes comme le FAIR Data60 Le CNRS se doit de mettre en place une reacuteponse coordonneacutee face aux besoins eacutemergeants en termes de donneacutees drsquoecirctre plus attractif pour des recrutements drsquoanalystes de donneacutees et drsquointensifier ses actions de formation au niveau des outils dans le domaine Il doit aussi ecirctre attentif agrave lrsquoeacutevolution de carriegravere des personnels ITA (ingeacutenieurs essentiellement) impliqueacutes dans ces actions interdisciplinaires Il est aussi souhaitable de mener une reacuteflexion sur une politique des donneacutees au sein du CNRS relative agrave leur cycle de vie utilisation creacuteation collection preacuteservation partage reacuteutilisation et publication interopeacuterabiliteacute deacutefinition de Data Management Plan61 proprieacuteteacute ouverture adoption des principes FAIR consommation eacutenergeacutetique et empreinte carbonehellip

Lrsquoavalanche de donneacutees qui ne fait que se confirmer dans de multiples domaines doit inciter le CNRS agrave se doter drsquoune strateacutegie forte agrave la hauteur des enjeux scientifiques en

bull Reacutepondant aux besoins des communauteacutes en matiegravere de plateformes pour lrsquoanalyse de donneacutees agrave grande eacutechelle le cas eacutecheacuteant en lien

58 The European Open Science Cloud (httpseoscpiloteu)59 Research Data Alliance (wwwrd-allianceorg)60 Findable Accessible Interoperable Reusable data61 Voir par exemple dmpopidorfr

avec les systegravemes drsquoobservation les plateformes expeacuterimentales ou les grandes simulations numeacuteriques qui les produisent avec les probleacutematiques du stockage de la gestion et de la valorisation de ces donneacutees du support pour les utilisateurs de la formation de Data scientists (chercheurs ou ingeacutenieurs compeacutetents en analyse de donneacutees) et du deacuteploiement de chaicircnes logicielles drsquoanalyse de donneacutees passant agrave lrsquoeacutechelle

bull Favorisant lrsquointerdisciplinaire entre les communauteacutes produisant des donneacutees et les communauteacutes dont crsquoest lrsquoobjet de recherche en particulier en capitalisant sur les multiples compeacutetences en apprentissage et Intelligence Artificielle au CNRS

bull Mettant en place une politique de gestion de valorisation et de peacuterennisation des donneacutees au sein du CNRS

Le CNRS pourrait srsquoappuyer sur la mission Calcul et Donneacutees du CNRS (MICADO) pour deacutefinir et mettre en œuvre une telle strateacutegie autour de lrsquoorganisation de la gestion de lrsquoexploitation des donneacutees scientifiques et avec des moyens suppleacutementaires contribuer agrave lrsquoeacutemergence de plateformes de gestion et drsquoanalyse de donneacutees en y positionnant des ingeacutenieurs et des data scientists capables drsquooffrir un service technique de haut niveau et drsquoaccompagner les chercheurs dans leurs expeacuterimentations Cette action pourrait contribuer agrave faire eacutemerger sur le territoire quelques sites de reacutefeacuterences autour desquels peuvent graviter plusieurs projets de recherche en sciences des donneacutees ou srsquointeacuteresser agrave des communauteacutes scientifiques speacutecifiques De telles initiatives peuvent et doivent ecirctre compleacutementaires des autres initiatives locales ou reacutegionales soutenues par des IDEX ou drsquoautres organismes de recherche par exemple

5 CONCLUSION

81

Page 8: Livre Blanc sur les Données au CNRS État des Lieux et
Page 9: Livre Blanc sur les Données au CNRS État des Lieux et
Page 10: Livre Blanc sur les Données au CNRS État des Lieux et
Page 11: Livre Blanc sur les Données au CNRS État des Lieux et
Page 12: Livre Blanc sur les Données au CNRS État des Lieux et
Page 13: Livre Blanc sur les Données au CNRS État des Lieux et
Page 14: Livre Blanc sur les Données au CNRS État des Lieux et
Page 15: Livre Blanc sur les Données au CNRS État des Lieux et
Page 16: Livre Blanc sur les Données au CNRS État des Lieux et
Page 17: Livre Blanc sur les Données au CNRS État des Lieux et
Page 18: Livre Blanc sur les Données au CNRS État des Lieux et
Page 19: Livre Blanc sur les Données au CNRS État des Lieux et
Page 20: Livre Blanc sur les Données au CNRS État des Lieux et
Page 21: Livre Blanc sur les Données au CNRS État des Lieux et
Page 22: Livre Blanc sur les Données au CNRS État des Lieux et
Page 23: Livre Blanc sur les Données au CNRS État des Lieux et
Page 24: Livre Blanc sur les Données au CNRS État des Lieux et
Page 25: Livre Blanc sur les Données au CNRS État des Lieux et
Page 26: Livre Blanc sur les Données au CNRS État des Lieux et
Page 27: Livre Blanc sur les Données au CNRS État des Lieux et
Page 28: Livre Blanc sur les Données au CNRS État des Lieux et
Page 29: Livre Blanc sur les Données au CNRS État des Lieux et
Page 30: Livre Blanc sur les Données au CNRS État des Lieux et
Page 31: Livre Blanc sur les Données au CNRS État des Lieux et
Page 32: Livre Blanc sur les Données au CNRS État des Lieux et
Page 33: Livre Blanc sur les Données au CNRS État des Lieux et
Page 34: Livre Blanc sur les Données au CNRS État des Lieux et
Page 35: Livre Blanc sur les Données au CNRS État des Lieux et
Page 36: Livre Blanc sur les Données au CNRS État des Lieux et
Page 37: Livre Blanc sur les Données au CNRS État des Lieux et
Page 38: Livre Blanc sur les Données au CNRS État des Lieux et
Page 39: Livre Blanc sur les Données au CNRS État des Lieux et
Page 40: Livre Blanc sur les Données au CNRS État des Lieux et
Page 41: Livre Blanc sur les Données au CNRS État des Lieux et
Page 42: Livre Blanc sur les Données au CNRS État des Lieux et
Page 43: Livre Blanc sur les Données au CNRS État des Lieux et
Page 44: Livre Blanc sur les Données au CNRS État des Lieux et
Page 45: Livre Blanc sur les Données au CNRS État des Lieux et
Page 46: Livre Blanc sur les Données au CNRS État des Lieux et
Page 47: Livre Blanc sur les Données au CNRS État des Lieux et
Page 48: Livre Blanc sur les Données au CNRS État des Lieux et
Page 49: Livre Blanc sur les Données au CNRS État des Lieux et
Page 50: Livre Blanc sur les Données au CNRS État des Lieux et
Page 51: Livre Blanc sur les Données au CNRS État des Lieux et
Page 52: Livre Blanc sur les Données au CNRS État des Lieux et
Page 53: Livre Blanc sur les Données au CNRS État des Lieux et
Page 54: Livre Blanc sur les Données au CNRS État des Lieux et
Page 55: Livre Blanc sur les Données au CNRS État des Lieux et
Page 56: Livre Blanc sur les Données au CNRS État des Lieux et
Page 57: Livre Blanc sur les Données au CNRS État des Lieux et
Page 58: Livre Blanc sur les Données au CNRS État des Lieux et
Page 59: Livre Blanc sur les Données au CNRS État des Lieux et
Page 60: Livre Blanc sur les Données au CNRS État des Lieux et
Page 61: Livre Blanc sur les Données au CNRS État des Lieux et
Page 62: Livre Blanc sur les Données au CNRS État des Lieux et
Page 63: Livre Blanc sur les Données au CNRS État des Lieux et
Page 64: Livre Blanc sur les Données au CNRS État des Lieux et
Page 65: Livre Blanc sur les Données au CNRS État des Lieux et
Page 66: Livre Blanc sur les Données au CNRS État des Lieux et
Page 67: Livre Blanc sur les Données au CNRS État des Lieux et
Page 68: Livre Blanc sur les Données au CNRS État des Lieux et
Page 69: Livre Blanc sur les Données au CNRS État des Lieux et
Page 70: Livre Blanc sur les Données au CNRS État des Lieux et
Page 71: Livre Blanc sur les Données au CNRS État des Lieux et
Page 72: Livre Blanc sur les Données au CNRS État des Lieux et
Page 73: Livre Blanc sur les Données au CNRS État des Lieux et
Page 74: Livre Blanc sur les Données au CNRS État des Lieux et
Page 75: Livre Blanc sur les Données au CNRS État des Lieux et
Page 76: Livre Blanc sur les Données au CNRS État des Lieux et
Page 77: Livre Blanc sur les Données au CNRS État des Lieux et
Page 78: Livre Blanc sur les Données au CNRS État des Lieux et
Page 79: Livre Blanc sur les Données au CNRS État des Lieux et
Page 80: Livre Blanc sur les Données au CNRS État des Lieux et
Page 81: Livre Blanc sur les Données au CNRS État des Lieux et