e-infrastructure pour les sciences du vivant · gmgf-gbit 1 3 inca-slc 0 1 mmp 0 0 prabi lyon-sud 0...

45
Institut Français de Bioinformatique - IFB French Institute of Bioinformatics - ELIXIR-FR CNRS UMS3601 - Gif-sur-Yvette - FRANCE e-Infrastructure pour les sciences du vivant

Upload: others

Post on 24-Mar-2020

1 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: e-Infrastructure pour les sciences du vivant · GMGF-GBIT 1 3 INCa-SLC 0 1 MMP 0 0 Prabi Lyon-Sud 0 0 PRABI-AMSB 0 0 CAZy 0 1 IMGT 0 0 South Green 0 5 Total 187 74 ... 2014-08 200

Institut Français de Bioinformatique - IFBFrench Institute of Bioinformatics - ELIXIR-FR

CNRS UMS3601 - Gif-sur-Yvette - FRANCE

e-Infrastructure pour les sciences du vivant

Page 2: e-Infrastructure pour les sciences du vivant · GMGF-GBIT 1 3 INCa-SLC 0 1 MMP 0 0 Prabi Lyon-Sud 0 0 PRABI-AMSB 0 0 CAZy 0 1 IMGT 0 0 South Green 0 5 Total 187 74 ... 2014-08 200

Mission générale de l’IFB• fournir des ressources de base en bioinformatique à la communauté des sciences de la vie

Infrastructure nationale de service en bioinformatique• Données : Fournir un accès à des collections de données spécialisées à haute valeur

ajoutée issues de l’expertise du laboratoire d’accueil

• Outils : Développer et mettre à disposition des outils et services en lignes pour analyser les données correspondant à l’expertise scientifique du laboratoire d’accueil

• Appui aux projets scientifiques et hébergement sur une infrastructure informatique

• Formations

• Infrastructure : Mettre à disposition une infrastructure informatique dédiée à l’analyse des données des sciences du vivant (matériel, données, outils)

Ins$tutFrançaisdeBioinforma$que

�2

Organisation• 36 plates-formes (6 pôles

régionaux)

• Nœud national IFB-core, impulser et coordonner la mise en place de l’infrastructure.

Membres et ressources• 420 ingénieurs et chercheurs (290 ETP)

• Info SI : 17 000+ coeurs, 10 Po

Page 3: e-Infrastructure pour les sciences du vivant · GMGF-GBIT 1 3 INCa-SLC 0 1 MMP 0 0 Prabi Lyon-Sud 0 0 PRABI-AMSB 0 0 CAZy 0 1 IMGT 0 0 South Green 0 5 Total 187 74 ... 2014-08 200

Activités• 6 ingénieurs informaticiens et bio informaticiens

• Mise en place et exploitation de l'infrastructure informatique nationale de l'IFB, la machine Lamarck, sous la forme d’un cloud académique pour les sciences de la vie ;

• Mise en place de services, sous la forme de machines virtuelles et de conteneurs, pour l'analyse des données biologiques massives ;

• Intégration des collections de données biologiques de référence et expérimentales;

• Formation des utilisateurs (le cursus IBI) et animation de la communauté technologique avec le groupe de travail GRISBI ;

• Intégration du noeud national au réseau des plates−formes bioinformatiques de l’IFB en connectant les clouds actuels (4) et futurs (7) dans la fédération Biosphère (Persp.).

Cellulee−Infrastructuredel’IFB−core

�3

Page 4: e-Infrastructure pour les sciences du vivant · GMGF-GBIT 1 3 INCa-SLC 0 1 MMP 0 0 Prabi Lyon-Sud 0 0 PRABI-AMSB 0 0 CAZy 0 1 IMGT 0 0 South Green 0 5 Total 187 74 ... 2014-08 200

e-Infrastructure

�4

Matériel

Systèmes

Applications

Services

Traitementdesdonnéesdessciences

delavie

Données

Administrateurs système et réseau

Développeurs logiciels et bases de

données

Scientifiques chercheurs et

ingénieurs

Page 5: e-Infrastructure pour les sciences du vivant · GMGF-GBIT 1 3 INCa-SLC 0 1 MMP 0 0 Prabi Lyon-Sud 0 0 PRABI-AMSB 0 0 CAZy 0 1 IMGT 0 0 South Green 0 5 Total 187 74 ... 2014-08 200

Administrateurs

�5

Plateforme Nombred'u$lisateurs

Nombredecoeurs Stockage(To)

Pasteur 302 3464 2200Genotoul-bioinfo 1012 3176 2290Curie 1656 2000 2000SouthGreen 300 1184 370PRABI-Doua 150 1032 515ABiMS 500 1000 500RPBS 41 960 70URGI 942 904 207GenOuest 480 800 1200AuBI 25 711 210MIGALE 600 600 170INCa-SLC 15 536 400IGR 25 450 420BiRD 92 320 150MBI 25 300 80IFB-core 490 200 50EBIO 71 176 87CBiB 38 96 60Total 6274 17709 10929

Matériel

Page 6: e-Infrastructure pour les sciences du vivant · GMGF-GBIT 1 3 INCa-SLC 0 1 MMP 0 0 Prabi Lyon-Sud 0 0 PRABI-AMSB 0 0 CAZy 0 1 IMGT 0 0 South Green 0 5 Total 187 74 ... 2014-08 200

Distributions LinuxCluster de calculBase de donnéesPortail WebBureau virtuel

SécuritéSupervisionGestion des incidentsDisponibilité

Administrateurs(2)

�6

Systèmes

Page 7: e-Infrastructure pour les sciences du vivant · GMGF-GBIT 1 3 INCa-SLC 0 1 MMP 0 0 Prabi Lyon-Sud 0 0 PRABI-AMSB 0 0 CAZy 0 1 IMGT 0 0 South Green 0 5 Total 187 74 ... 2014-08 200

Réseau d’échange• Retours d’expérience

• Partage des bonnes pratiques

GT GRISBI• Réunions semestrielles

• Liste de diffusion

Formation• Administration de Red Hat OpenStack (CL210)

★ 12 pers., octobre 2016

Servicesauxadministrateurs

�7

Systèmes

Matériel

Page 8: e-Infrastructure pour les sciences du vivant · GMGF-GBIT 1 3 INCa-SLC 0 1 MMP 0 0 Prabi Lyon-Sud 0 0 PRABI-AMSB 0 0 CAZy 0 1 IMGT 0 0 South Green 0 5 Total 187 74 ... 2014-08 200

Développeurs

�8

Applications

Plateforme Ou$ls Basesdedonnées

AuBI 23 4GenOuest 19 10MIGALE 18 2RPBS 13 2ATGC 11 0Bistro 11 10EBIO 9 7Pasteur 8 6Genotoul- 8 0bilille 7 1CBiB 7 2ABiMS 6 0TAGC-BCF 6 2PRABI-Doua 5 3IGS 5 1PRABI-Gerland 4 4URGI 4 2

Plateforme Ou$ls Basesdedonnées

BIMEPS 4 2IGR 3 0MBI 3 1BiRD 3 0Curie 2 0SIGENAE 2 0GenAtlas 1 0MicroScope 1 0PRABI-G 1 2ISfinder 1 1Orphanet 1 2GMGF-GBIT 1 3INCa-SLC 0 1MMP 0 0PrabiLyon-Sud 0 0PRABI-AMSB 0 0CAZy 0 1IMGT 0 0SouthGreen 0 5

Total 187 74

Données

Outils et bases de données développés par les PF

Page 9: e-Infrastructure pour les sciences du vivant · GMGF-GBIT 1 3 INCa-SLC 0 1 MMP 0 0 Prabi Lyon-Sud 0 0 PRABI-AMSB 0 0 CAZy 0 1 IMGT 0 0 South Green 0 5 Total 187 74 ... 2014-08 200

Developpeurs(2)

�9

Services

Page 10: e-Infrastructure pour les sciences du vivant · GMGF-GBIT 1 3 INCa-SLC 0 1 MMP 0 0 Prabi Lyon-Sud 0 0 PRABI-AMSB 0 0 CAZy 0 1 IMGT 0 0 South Green 0 5 Total 187 74 ... 2014-08 200

Infrastructure• Accès au cloud IFB;

• Formations à son utilisation★ IBI-2 Utilisation avancée du Cloud IFB★ IBI-3 Développement de machines virtuelles modèles

• Equipe support IFB-core;

• Hackathons.

Développement• Intégrer et décrire une seule fois leur logiciel;

• Environnement complet pré-configuré;

• Image multi-plateforme de taille légère (VM, conteneur);

• Disposer de sa propre copie de la version stable courante;

• Sans perturber les autres développeurs;

• Automatisation et intégration continue;

• Figer une version : démo, congrès, formation…

Servicesauxdéveloppeurs(64p.)

�10

Services

ApplicationsDonnées

Page 11: e-Infrastructure pour les sciences du vivant · GMGF-GBIT 1 3 INCa-SLC 0 1 MMP 0 0 Prabi Lyon-Sud 0 0 PRABI-AMSB 0 0 CAZy 0 1 IMGT 0 0 South Green 0 5 Total 187 74 ... 2014-08 200

Intégra$onsimplifiéeavecDocker

�11

push

pull

dockervirtual machine

Developer

dockervirtual machine

User

Container layer

IFB’sCloud

push

Cluster Swarm

Node1

Node n

Master

Registryof containers

BioShaDockIFB’s docker hub

Page 12: e-Infrastructure pour les sciences du vivant · GMGF-GBIT 1 3 INCa-SLC 0 1 MMP 0 0 Prabi Lyon-Sud 0 0 PRABI-AMSB 0 0 CAZy 0 1 IMGT 0 0 South Green 0 5 Total 187 74 ... 2014-08 200

Modecluster

�12

Un script de configuration qui crée un cluster à la « volée ».

• 6 gestionnaires de tâches disponibles

Torque/Maui

Page 13: e-Infrastructure pour les sciences du vivant · GMGF-GBIT 1 3 INCa-SLC 0 1 MMP 0 0 Prabi Lyon-Sud 0 0 PRABI-AMSB 0 0 CAZy 0 1 IMGT 0 0 South Green 0 5 Total 187 74 ... 2014-08 200

ABYSSandiantiSMASHArgTable2ARIABallastBCFtoolsbedtoolsBioconductorbiomajBioPerlBiopythonBLAST+BlatboostBowtieBowtie2BureauBWACanuCAP3CD-HITCENSORClustal OmegaClustal WCRISPRDetectCufflinksCutadaptCytoscape

DbClustaldDocentdeepToolsDESeq2DiamondDockerDocker ComposeDocker SwarmDRAPE-SURGEecamberEMBOSSExonerateeXpressFastAFastA36FastQCFROGSGalaxyGATBGATKGnomeHexHHalign-KbestHMMerhomerHTSlibIGVImageJ

InfernalJupyterKDEkhmerKPaxKrakenLEON-BISlibdivsufsortLoRDECLymAnalyzerM-SURGEMACSMACS2MACSIMSMacSyFindermapMAXDomclMEMEmixcrMMSEQMobyleMODALmrepsMultAlinMUMmerMUSCLEMySQL

Nebula AnnotateGenesNebula MakeTSSdistneo4jNextFlowOasesOMSSAPeptideShakerPhenixphymlPILERPipeAlignPREDATORprinseq-liteProdigalprolinepyradpythonQUASTRR-studioRASCALRayRepeatMaskerREPETRMBlastRSATSalmon

SamtoolsSARtoolsSearchGUISeqCleanSGEShinyShipyardsickleSleuthSnakeMakeSortMeRNASparksppsratoolkitStacksSTARsubreadSuMoTGICLTopHatTorque-MauiTransDecoderTransrateTRFtrim_galoreTrinitytrinityrnaseqTRNAscan…

Besoinsdesu$lisateurs

�13

Traitementdesdonnéesdes

sciencesdelavie

Page 14: e-Infrastructure pour les sciences du vivant · GMGF-GBIT 1 3 INCa-SLC 0 1 MMP 0 0 Prabi Lyon-Sud 0 0 PRABI-AMSB 0 0 CAZy 0 1 IMGT 0 0 South Green 0 5 Total 187 74 ... 2014-08 200

Besoinsdesu$lisateurs(2)

�14

Plateforme Nombred'ou$ls Collec$onsdedonnées

Pasteur 5980 76Genotoul- 717SouthGreen 500ABiMS 400GenOuest 350 8CBiB 174URGI 163IFB-core 152 30MIGALE 140 17PRABI-Doua 120 10IGR 90 15Curie 80AuBI 38RPBS 32 2BiRD 23 8INCa-SLC 10EBIO 9 7MBITotal 8978 173

Traitementdesdonnéesdes

sciencesdelavie

Outils et collections de données externes proposés par les PF

Page 15: e-Infrastructure pour les sciences du vivant · GMGF-GBIT 1 3 INCa-SLC 0 1 MMP 0 0 Prabi Lyon-Sud 0 0 PRABI-AMSB 0 0 CAZy 0 1 IMGT 0 0 South Green 0 5 Total 187 74 ... 2014-08 200

Infrastructure• Accès au cloud IFB

• Formations à son utilisation★ IBI-1 Introduction au CLoud IFB★ IBI-2 Utilisation avancée du Cloud IFB

• Equipe support IFB-core

Environnements de recherche standards• utilisation habituelle

• possibilité de personnaliser son environnement

• avec de nombreux outils, pipelines et plateformes pré-configurés

• approver, docker, galaxy toolshed

• sans perturber les autres usagers

Le cloud IFB en soutien aux formations scientifiques• Soutien en termes de ressources bioinformatiques et d’infrastructure,

• Ecoles scientifiques, tutoriels et formations

• Cycles universitaires : 5 cours en 2014-15 (131 élèves), 5 en 2016 (84 élèves).

Servicesauxu$lisateurs(490p.)

�15

Traitementdesdonnées

Page 16: e-Infrastructure pour les sciences du vivant · GMGF-GBIT 1 3 INCa-SLC 0 1 MMP 0 0 Prabi Lyon-Sud 0 0 PRABI-AMSB 0 0 CAZy 0 1 IMGT 0 0 South Green 0 5 Total 187 74 ... 2014-08 200

Un accès à l’infrastructure pour la communauté des sciences de la vie

Des ressources informatiques adaptées

Des environnement de recherche personnalisés

Equipe support IFB-core

Des formations à l’utilisation du cloud IFB pour les analyses et développements méthodologiques

• Cursus "Cloud IFB pour les Sciences du Vivant »★ 6 sessions en 2014-2015★ 7 pour 2016 (142 pers.)

• Documentation en ligne

• Ecole Cumulo Numbio 2015

Servicescommunsàtouslesmembres

�16

Page 17: e-Infrastructure pour les sciences du vivant · GMGF-GBIT 1 3 INCa-SLC 0 1 MMP 0 0 Prabi Lyon-Sud 0 0 PRABI-AMSB 0 0 CAZy 0 1 IMGT 0 0 South Green 0 5 Total 187 74 ... 2014-08 200

Uncloudpourlessciencesdelavie

�17

UNIPROT

PDB

EMBL

PROSITE

Genomes

Reference

Datasets

Cloud for

Bioinformatics

commonshare

e.martin

chbj.

doe you

User data

virtual disks

cg…

Public Data sources

CloudCredentialsVMsVMs

VMs

VMs

VMsVMs VMsVMs VMsVMs VMsVMs

VMs

BioMAJ

Author.

Data

Data

Interfacesstandards

et adaptables

Page 18: e-Infrastructure pour les sciences du vivant · GMGF-GBIT 1 3 INCa-SLC 0 1 MMP 0 0 Prabi Lyon-Sud 0 0 PRABI-AMSB 0 0 CAZy 0 1 IMGT 0 0 South Green 0 5 Total 187 74 ... 2014-08 200

Uneinterfacewebpourlecloud

�18

http://cloud.france-bioinformatique.fr/cloud

Page 19: e-Infrastructure pour les sciences du vivant · GMGF-GBIT 1 3 INCa-SLC 0 1 MMP 0 0 Prabi Lyon-Sud 0 0 PRABI-AMSB 0 0 CAZy 0 1 IMGT 0 0 South Green 0 5 Total 187 74 ... 2014-08 200

…quiévolue.

�19

Page 20: e-Infrastructure pour les sciences du vivant · GMGF-GBIT 1 3 INCa-SLC 0 1 MMP 0 0 Prabi Lyon-Sud 0 0 PRABI-AMSB 0 0 CAZy 0 1 IMGT 0 0 South Green 0 5 Total 187 74 ... 2014-08 200

Bacterial genomics (Insygth)

BIO ComputeNode

Bio Workflow Tools

bioDATA repo (BioMaJ v3)

BioDataCloud DNA-asm

BioDataCloud IGV

BioDataCloud RNAseq

BioPerl

BioStruct

Centos (3x)

CoreGeneBuilder

COURS ENS Lyon NGS 2016

COURS I2BC Galaxy 2016

COURS Lille-RNAseq 2016

COURS M2 Paris-Saclay 2015

COURS Meet-U IDock 2016

Cytoscape

Docker

EBA15 Cours-Unix

EBA15 Galaxy ChIP-seq

EBA16 Galaxy

Eco Pop

Fast RNASeq Differential

Galaxy

Galaxy FROGS

Galaxy MODAL

Gene regulation

ImageJ

INCA-NGS BAPT Normand

INCA-NGS CLB

Integron Finder

LymAnalyzer

MacSyFinder

MicrobAnnot

ncPRO-seq

NFS server

NGS PacBio-Assembly

PhyML

Proteomics

R statistical computing

RADSeq

REPET

REPET mysql-server

RSAT

SynBioWatch

TAGC Cours-Unix

Ubuntu (3x)

Wellinverter

Denombreusesmachinesvirtuelles(50+)

�20

Page 21: e-Infrastructure pour les sciences du vivant · GMGF-GBIT 1 3 INCa-SLC 0 1 MMP 0 0 Prabi Lyon-Sud 0 0 PRABI-AMSB 0 0 CAZy 0 1 IMGT 0 0 South Green 0 5 Total 187 74 ... 2014-08 200

RAINBio:Cataloguedesimagesbioinforma$ques

�21Coll. IFB-core/GenOuest

Metadata• bio.tools (ELIXIR)

• Catalogue cloud

• BioShadock (IFB)

DescriptionOutilsInterfacesDomainesContacts

Page 22: e-Infrastructure pour les sciences du vivant · GMGF-GBIT 1 3 INCa-SLC 0 1 MMP 0 0 Prabi Lyon-Sud 0 0 PRABI-AMSB 0 0 CAZy 0 1 IMGT 0 0 South Green 0 5 Total 187 74 ... 2014-08 200

Bacterialgenomics(Insyght)

�22

Page 23: e-Infrastructure pour les sciences du vivant · GMGF-GBIT 1 3 INCa-SLC 0 1 MMP 0 0 Prabi Lyon-Sud 0 0 PRABI-AMSB 0 0 CAZy 0 1 IMGT 0 0 South Green 0 5 Total 187 74 ... 2014-08 200

Déploiement • Portail Web

• BD

• Cluster de calcul

• VPN

En un clic• Recette prédéfinie

Multi-cloud• Web biosphere+Nuvla

Accès sécurisé• Web (Insyght)

• SSH

Intégra$onmul$-cloud

�23

Page 24: e-Infrastructure pour les sciences du vivant · GMGF-GBIT 1 3 INCa-SLC 0 1 MMP 0 0 Prabi Lyon-Sud 0 0 PRABI-AMSB 0 0 CAZy 0 1 IMGT 0 0 South Green 0 5 Total 187 74 ... 2014-08 200

Maisaussi

�24

IGV MicrobAnnot (WPs)

WellInverter (AAP 2015)Galaxy

Page 25: e-Infrastructure pour les sciences du vivant · GMGF-GBIT 1 3 INCa-SLC 0 1 MMP 0 0 Prabi Lyon-Sud 0 0 PRABI-AMSB 0 0 CAZy 0 1 IMGT 0 0 South Green 0 5 Total 187 74 ... 2014-08 200

Galaxy:installa$onsimpled’ou$ls

�25

Création automatiqued’image docker à partirde recette conda(BioShaDock)

Galaxy peututiliser des outils avec des images docker.

Galaxy peut installer des outils avec conda.

Installation de Galaxy avec une image docker

VM

pull/push

push

install

upload

runrun

run

dockerize

Page 26: e-Infrastructure pour les sciences du vivant · GMGF-GBIT 1 3 INCa-SLC 0 1 MMP 0 0 Prabi Lyon-Sud 0 0 PRABI-AMSB 0 0 CAZy 0 1 IMGT 0 0 South Green 0 5 Total 187 74 ... 2014-08 200

Etd’autresapps…

�26

RSAT (FG) Proteomics

Ecology of populations etc.R + Rstudio

Page 27: e-Infrastructure pour les sciences du vivant · GMGF-GBIT 1 3 INCa-SLC 0 1 MMP 0 0 Prabi Lyon-Sud 0 0 PRABI-AMSB 0 0 CAZy 0 1 IMGT 0 0 South Green 0 5 Total 187 74 ... 2014-08 200

UsageduCloudIFB

�27

En place depuis 2014• 490 utilisateurs,

• 13 600+ VMs,

Usage récurrent• 60-70 utilisateurs

• 100-120 VMs

#V

irtu

al m

achin

es r

unnin

g

Active virtual machine over timeClick and drag in the plot area to zoom in

Jul '14 Jan '15 Jul '15 Jan '16 Jul '16 Jan '17

0

50

100

150

200

Highcharts.com

Page 28: e-Infrastructure pour les sciences du vivant · GMGF-GBIT 1 3 INCa-SLC 0 1 MMP 0 0 Prabi Lyon-Sud 0 0 PRABI-AMSB 0 0 CAZy 0 1 IMGT 0 0 South Green 0 5 Total 187 74 ... 2014-08 200

Usage(2)

�28

#U

ser

accounts

Active user account over timeThe life of an account starts when it is created, and ends with its last login if it is disabled.

2012 2013 2014 2015 2016 2017

0

100

200

300

400

500

600

Highcharts.com

Page 29: e-Infrastructure pour les sciences du vivant · GMGF-GBIT 1 3 INCa-SLC 0 1 MMP 0 0 Prabi Lyon-Sud 0 0 PRABI-AMSB 0 0 CAZy 0 1 IMGT 0 0 South Green 0 5 Total 187 74 ... 2014-08 200

Usage(3)

�29

VMs used by members of CloudUser

COURS Lille-RNAseq 2016

COURS Lille-RNAseq 2016

: 0.8 %

: 0.8 %

Docker (16.10)

Docker (16.10)

: 6.2 %

: 6.2 %

BIO ComputeNode (2015-03)

BIO ComputeNode (2015-03)

: 28.7 %

: 28.7 %

Gene regulation 2.0

Gene regulation 2.0

: 0.5 %

: 0.5 %

Galaxy (16.01)

Galaxy (16.01)

: 7.6 %

: 7.6 %

REPET mysql-server

REPET mysql-server

: 1.0 %

: 1.0 %

PhyML

PhyML

: 0.7 %

: 0.7 %

NFS server (2016-02)

NFS server (2016-02)

: 2.2 %

: 2.2 %

bioDATA repo (BioMaJ v3)

bioDATA repo (BioMaJ v3)

: 2.2 %

: 2.2 %BIO ComputeNode (16.07.2)

BIO ComputeNode (16.07.2)

: 6.4 %

: 6.4 %EBA15 Cours-Unix

EBA15 Cours-Unix

: 2.0 %

: 2.0 %ImageJ

ImageJ

: 6.7 %

: 6.7 %COURS M2 Paris-Saclay 2015

COURS M2 Paris-Saclay 2015

: 5.8 %

: 5.8 %BioDataCloud IGV 1.0

BioDataCloud IGV 1.0

: 4.4 %

: 4.4 %EBA15 Galaxy ChIP-seq 1.1

EBA15 Galaxy ChIP-seq 1.1

: 3.0 %

: 3.0 %R statistical computing (2016-02)

R statistical computing (2016-02)

: 6.0 %

: 6.0 %

Highcharts.com

Page 30: e-Infrastructure pour les sciences du vivant · GMGF-GBIT 1 3 INCa-SLC 0 1 MMP 0 0 Prabi Lyon-Sud 0 0 PRABI-AMSB 0 0 CAZy 0 1 IMGT 0 0 South Green 0 5 Total 187 74 ... 2014-08 200

Usage(4)

�30

Instance type usage distribution in terms of Days

m1.medium

m1.medium

: 2.4 %

: 2.4 %

c3.xlarge

c3.xlarge

: 4.5 %

: 4.5 %

c2.xlarge

c2.xlarge

: 3.4 %

: 3.4 %

c3.medium

c3.medium

: 23.9 %

: 23.9 %

m1.xxlarge

m1.xxlarge

: 0.2 %

: 0.2 %

c2.large

c2.large

: 8.2 %

: 8.2 %

c3.xxlarge

c3.xxlarge

: 0.6 %

: 0.6 %

c2.small

c2.small

: 49.1 %

: 49.1 %

m1.large

m1.large

: 0.0 %

: 0.0 %m1.xlarge

m1.xlarge

: 0.6 %

: 0.6 %[32,747520,2048]

[32,747520,2048]

: 0.0 %

: 0.0 %c3.large

c3.large

: 7.1 %

: 7.1 %

Highcharts.com

Page 31: e-Infrastructure pour les sciences du vivant · GMGF-GBIT 1 3 INCa-SLC 0 1 MMP 0 0 Prabi Lyon-Sud 0 0 PRABI-AMSB 0 0 CAZy 0 1 IMGT 0 0 South Green 0 5 Total 187 74 ... 2014-08 200

VersuneFédéra$ondeClouds

�31

Page 32: e-Infrastructure pour les sciences du vivant · GMGF-GBIT 1 3 INCa-SLC 0 1 MMP 0 0 Prabi Lyon-Sud 0 0 PRABI-AMSB 0 0 CAZy 0 1 IMGT 0 0 South Green 0 5 Total 187 74 ... 2014-08 200

Machinena$onale‘lamarck'

�32

IFB-corehub

Compute#cores

Storage#TB

RAM#GB

LargestVM Techno.

2014-08 200 50 2,000 20c 256GB

StratusLab

2017-1 5,000 1,000 40,800 128c3TB

OpenStack

2017 10,000 2,000+ OpenStack

En charge de sa mise en place:• Définition des besoins

• Choix technologiques

• Installation des matériels, câblage,clim.

• Mise en oeuvre du Cloud

En appui sur le GT GRISBI

Définition Choix Installation Cloud

2017 jan.-fév.

sept.-déc.2016 mar.-juil.

2015

Page 33: e-Infrastructure pour les sciences du vivant · GMGF-GBIT 1 3 INCa-SLC 0 1 MMP 0 0 Prabi Lyon-Sud 0 0 PRABI-AMSB 0 0 CAZy 0 1 IMGT 0 0 South Green 0 5 Total 187 74 ... 2014-08 200

Lamarck?

�33

Jean-Baptiste de Lamarck (1er août 1744, Bazentin, Somme – 18 décembre 1829, Paris) est un naturaliste français. Au début du xixe siècle, il a réalisé la classification des invertébrés, qui regroupent environ 80 % des animaux. Il est un de ceux qui ont pour la première fois utilisé le terme de biologie pour désigner la science qui étudie les êtres vivants.Il est aussi le premier à proposer une théorie matérialiste et mécaniste des êtres vivants à partir de laquelle il élabore une théorie de leur évolution. Lamarck est ainsi un des premiers naturalistes à avoir compris la nécessité théorique de l'évolution des êtres vivants.(…)Jean-Baptiste de Lamarck propose en 1802 la première classification scientifique des nuages par une liste de termes descriptifs en français, mais c'est le système de Luke Howard, utilisant le latin universel de la classification binomiale de Carl von Linné, qui connaît le succès dès sa parution en 1803 et dont la terminologie est toujours utilisée aujourd’hui. (Wikipédia)

Page 34: e-Infrastructure pour les sciences du vivant · GMGF-GBIT 1 3 INCa-SLC 0 1 MMP 0 0 Prabi Lyon-Sud 0 0 PRABI-AMSB 0 0 CAZy 0 1 IMGT 0 0 South Green 0 5 Total 187 74 ... 2014-08 200

Lamarck:donnéestechniques

�34

Serveurs Nb Fonction RHOSP CPUs RAM Stockage

R630 3 Control 2x E5-2620 v4 2.1GHz 8c

128 Go -

C6320 136 Compute 2x E5-2695 v4 2.1GHz 18c

256 Go -

R930 2 Compute 4x E7-8860 v3 2.2GHz 16c 3 To -

R730xd 10 CEPH 2x E5-2630 v4 2.2GHz 10c

64 Go 12x 8 To

VM 1 Director - - -

Total(calcul) 152 5024 41

To 960 To

Page 35: e-Infrastructure pour les sciences du vivant · GMGF-GBIT 1 3 INCa-SLC 0 1 MMP 0 0 Prabi Lyon-Sud 0 0 PRABI-AMSB 0 0 CAZy 0 1 IMGT 0 0 South Green 0 5 Total 187 74 ... 2014-08 200

Prestation OpenStack • Assistance technique

PiloteRHOSP9.0

�35

Définition Choix Installation Cloud

2017 jan.-fév.

sept.-déc.2016 mar.-juil.

2015

Pilote RHOSP

2016 juin-sept.

Page 36: e-Infrastructure pour les sciences du vivant · GMGF-GBIT 1 3 INCa-SLC 0 1 MMP 0 0 Prabi Lyon-Sud 0 0 PRABI-AMSB 0 0 CAZy 0 1 IMGT 0 0 South Green 0 5 Total 187 74 ... 2014-08 200

MoveVMsratherthandata

�36

NGS

NGS

BIC

C

PRO

PRO

BI

IMG

IMG

BI C

BI

C

NGS

PRO

PROC

data

data

data

VM

VM

VM

IFB’smarketplace & VMs repositoryfor lifesciences

VMs

NGS

BI

C

Biological platform(Genomics, IMaGing, PROteomics...)

Bioinformaticscentre

Cloudresources

Researchers

IMG PRO

Page 37: e-Infrastructure pour les sciences du vivant · GMGF-GBIT 1 3 INCa-SLC 0 1 MMP 0 0 Prabi Lyon-Sud 0 0 PRABI-AMSB 0 0 CAZy 0 1 IMGT 0 0 South Green 0 5 Total 187 74 ... 2014-08 200

Fédéra$onBiosphere

�37

Clouds actuels

Clouds prévus

Fédérer les cloud IFB• 4 existants

• 7 PF volontaires pour déployer en 2016-2017

Besoins• gestion commune des utilisateurs

(eduGAIN)

• compatibilité des images (VM/container)

• déploiement multi-cloud (SlipStream/NuvLa)

• gestion du réseau et de la sécurité sur plusieurs sites

Solutions attendues des• projets CYCLONE et ELIXIR/

EXCELERATE

Page 38: e-Infrastructure pour les sciences du vivant · GMGF-GBIT 1 3 INCa-SLC 0 1 MMP 0 0 Prabi Lyon-Sud 0 0 PRABI-AMSB 0 0 CAZy 0 1 IMGT 0 0 South Green 0 5 Total 187 74 ... 2014-08 200

Emanation du GT GRISBIPlates-formes volontaires

• 100 cœurs dédiés pour déployer OpenStack,

• 50To brut (CEPH ou technologie compatible OSP),

• 0,5 ETP pour les 6 premiers mois 2016-10/2017-03

Réunions• bioO-1 kickoff, 6 octobre, IFB-core ✔

• bioO-2, 6-7 décembre, GenOuest ✔

• bioO-3 @AG IFB, 1er Février 2017, IFB-core Gif-sur-Yvette

Visioconférences• 20 oct ✔

• 4 nov ✔

• 18 nov ✔

• 21 déc ✔

• 6 jan ✔

• 19 jan ✔

GTBiosphère

�38

IFB-core Genouest

Bistro-IPHC PRABI-Doua

BiRD Genotoul

RPBS eBio

Pasteur AuBi

Page 39: e-Infrastructure pour les sciences du vivant · GMGF-GBIT 1 3 INCa-SLC 0 1 MMP 0 0 Prabi Lyon-Sud 0 0 PRABI-AMSB 0 0 CAZy 0 1 IMGT 0 0 South Green 0 5 Total 187 74 ... 2014-08 200

FeuillederouteBiosphère

�39

Déployer le noeud nationaloct.-déc. 2016 ✔

Former les ASR10-14 oct 2016 ✔

Déployer les clouds dans les PFs nov. 2016 - jan. 2017 encours

Déployer le portail commun nov. 2016 encours

Connecter les clouds déc. 2016 - fév. 2017 encours

Challenges multi-clouds fév.-mars 2017

Consolider l’infrastructure avril 2017 …

Page 40: e-Infrastructure pour les sciences du vivant · GMGF-GBIT 1 3 INCa-SLC 0 1 MMP 0 0 Prabi Lyon-Sud 0 0 PRABI-AMSB 0 0 CAZy 0 1 IMGT 0 0 South Green 0 5 Total 187 74 ... 2014-08 200

Biosphère:Architecture

�40

UnderCloud

Compute nodes

LAN10G

LAN giga

Controlnodes

Block storage(Ceph, iSCSI, …)

File/Object storage(GlusterFS, Swift, …)

Director

InfraAdmin

CloudAdmin

UnderCloud

Compute nodes

LAN10G

LAN giga

Controlnodes

Block storage(Ceph, iSCSI, …)

File/Object storage(GlusterFS, Swift, …)

Director

InfraAdmin

CloudAdmin

UnderCloud

Compute nodes

LAN10G

LAN giga

Controlnodes

Block storage(Ceph, iSCSI, …)

File/Object storage(GlusterFS, Swift, …)

Director

InfraAdmin

CloudAdmin

User

Developer

IFB

dash

boar

d

Slip

stre

am

User

APIs

APIs

APIs

lamarck

girofle

genostackbirdbistro

nuvlaIFB

biosphere

Page 41: e-Infrastructure pour les sciences du vivant · GMGF-GBIT 1 3 INCa-SLC 0 1 MMP 0 0 Prabi Lyon-Sud 0 0 PRABI-AMSB 0 0 CAZy 0 1 IMGT 0 0 South Green 0 5 Total 187 74 ... 2014-08 200

Gestion commune des utilisateurs• Fédération d’identité eduGAIN (ou RENATER…)

• Federation Proxy (CYCLONE)★ Modes Web et SSH

Compatibilité des images (VM/container)• Déploiements avec OpenStack

• Recette SlipStream/NuvLa (CYCLONE)

Déploiement multi-cloud• Connecteurs SlipStream/NuvLa (CYCLONE)

Gestion du réseau et de la sécurité sur plusieurs sites

• CNSMO (CYCLONE)

• Métrologie distribuée (CYCLONE)

Biosphère:solu$onstechniques

�41

Page 42: e-Infrastructure pour les sciences du vivant · GMGF-GBIT 1 3 INCa-SLC 0 1 MMP 0 0 Prabi Lyon-Sud 0 0 PRABI-AMSB 0 0 CAZy 0 1 IMGT 0 0 South Green 0 5 Total 187 74 ... 2014-08 200

Noeud ELIXIR-FR

CYCLONE (EU-H2020644925)• Déploiement d’applications multi-cloud,

• Responsable du Workpackage Use cases (WP3),

• 6 applications bioinformatiques.

EGI-Engage (EU-H2020 654142)• Competence Center ELIXIR

• Une application bioinformatique multi-cloud.

BioDataCloud (French PIA INBS 2012) • En charge des applications bioinformatiques (3x) et de la définition des besoins,

• Apport de la plateforme de prototypage Cloud avec le Pilote IFB.

EXCELERATE• Catalogue des services (WP-1 Tools Interoperability and Service Registry)

★ Task 1.1 Federated Registry Curation *★ Task 1.3 Workbench integration and interoperability *

• Compute Platform (WP-4 Technical Services)★ Task 4.1.3 ELIXIR technical community building and knowledge exchange *★ Task 4.2.2 User support and integration *★ Task 4.3.2 Cloud and Compute integration *

• mais aussi d’autres WPs en lien avec l’e-Infrastructure★ WP5: The ELIXIR Interoperability Backbone★ WP6-9 : Use Cases★ WP10:  ELIXIR Node Capacity Building and Communities of Practice

ReproVirtuFlow (MaDiCS)QualibioConsensus (MASTODON)

Rela$onaveclesProjetsExternes

�42

Page 43: e-Infrastructure pour les sciences du vivant · GMGF-GBIT 1 3 INCa-SLC 0 1 MMP 0 0 Prabi Lyon-Sud 0 0 PRABI-AMSB 0 0 CAZy 0 1 IMGT 0 0 South Green 0 5 Total 187 74 ... 2014-08 200

Conclusion

�43

Tableaude bord

Nombre de VMs en marche

Pilote en service depuis 2014• 50 appliances, 490 utilisateurs,

13 600+ VMs,

• services aux utilisateurs, développeurs, administrateurs

Formations • 13 sessions cloud, 4 scientifiques, 10

cours de Master

Usage récurrent• 60-70 utilisateurs

• 100-120 VMs

Page 44: e-Infrastructure pour les sciences du vivant · GMGF-GBIT 1 3 INCa-SLC 0 1 MMP 0 0 Prabi Lyon-Sud 0 0 PRABI-AMSB 0 0 CAZy 0 1 IMGT 0 0 South Green 0 5 Total 187 74 ... 2014-08 200

Perspec$ves

�44

Clouds actuels

Clouds prévus

๏ Assurer la mise en oeuvre de la machine Lamarck

๏ Et sa mise à disposition de la communauté

๏ Mettre en place Biosphere• une fédération de clouds unifiés

pour les sciences du vivant

๏ Développer de nouveaux services bioinformatiques• sous la forme de VM ou de conteneurs

๏ Coordonner la formation au Cloud• pour les utilisateurs, développeurs et enseignants

๏ Explorer la technologie des conteneurs et microservices

Page 45: e-Infrastructure pour les sciences du vivant · GMGF-GBIT 1 3 INCa-SLC 0 1 MMP 0 0 Prabi Lyon-Sud 0 0 PRABI-AMSB 0 0 CAZy 0 1 IMGT 0 0 South Green 0 5 Total 187 74 ... 2014-08 200

Remerciements• Membres IFB

• C/ e-Infrastructure : Awa, Bryan, Jonathan, Frédéric, Mohamed,, Sandrine, (Alumni : Marie, Maxime)

• IFB-core• GT IFB-GRISBI : Olivier and members

• Développeurs d’appliances (64) : Christophe, Christian, Mohamed, Maria, Pierre, Audrey, Christophe, Samuel, Matéo, Bryan, Baptiste, Jocelyn, Christophe, Guillaume, Geraldine, Nicolas, Olivier, Loïc, Sophie, David, Thibault, Stéphane, Jean-pierre, Christine, Emilie, Marie-Laure, Marc, Alban, Sophie, Melina, Clément, Germain, Celine, Olivier, Adrien, Arnaud, Thomas, Nathalie, Elodie, Pierre, Guillaume, Fabrice, Maxime, Sylvain, Gaëlle, Anne, Jonathan, Yannick, Bertrand, Christine, Guy, Sandrine, Denis, Carine, Claire, Antoine, David, Hugo, Awa, Bruno, Claire, Marcon, Jacques, Philippe.

• CNRS IDRIS, StratusLab, CYCLONE• IFB is funded by French programs PIA INBS 2012• EU H2020 projects: CYCLONE (644925), EXCELERATE (676559)

and EGI-Engage (654142)

Ques$ons?

�45

http://www.france-bioinformatique.fr