20160216 - from bigdata to bigprocessing

55
1 From Big Data to Big Science Pierre-Marie Brunet, Responsable du pôle HPC, CNES DSI/DV/AR

Upload: pierre-marie-brunet

Post on 15-Apr-2017

279 views

Category:

Data & Analytics


0 download

TRANSCRIPT

Page 1: 20160216 - From BigData to BigProcessing

1

From Big Data to Big Science

Pierre-Marie Brunet, Responsable du pôle HPC, CNES DSI/DV/AR

Page 2: 20160216 - From BigData to BigProcessing

2

Présentation du pôle HPC

Introduction au BigProcessing

Trois perspectives selon trois projets

Interopérabilité entre centres de calcul

Page 3: 20160216 - From BigData to BigProcessing

3

Deux grandes classes de calcul

Simulation numérique (HPC)

Recherche, phase amont des projets

Optimisation algorithmique très poussée:

“proche du matériel

Parallélisme à grain fin

Traitement de données (HTC)

Phase aval, traitement des données générées

par capteurs

Données brutes des capteurs => données

intelligibles par scientifiques

Parallélisme gros grain

Pôle calcul intensif du CNES

Page 4: 20160216 - From BigData to BigProcessing

4

Datacenter

Page 5: 20160216 - From BigData to BigProcessing

5

Infrastructure primaire

Page 6: 20160216 - From BigData to BigProcessing

6

Présentation du pôle HPC

Introduction au BigProcessing

Trois perspectives selon trois projets

Interopérabilité entre centres de calcul

Page 7: 20160216 - From BigData to BigProcessing

7

HPC et BigData

Page 8: 20160216 - From BigData to BigProcessing

8 Présentation DCT

Contexte du Processing spatial

Le segment spatial

Le satellite

Les instruments

La plateforme / Les servitudes

Stations TM/TC Stations TMCU

Le segment sol

Segment sol de Mission Segment sol de

Commande Contrôle

Les utilisateurs

Le lanceur

Page 9: 20160216 - From BigData to BigProcessing

9

Big Processing

Au cnes

Demain

Aujourd’hui

Hier

Page 10: 20160216 - From BigData to BigProcessing

BigProcessing Big problématiques

Déplacement des données (acquisition / diffusion)

Accès intelligent aux données (cataloguées/classées pour être utilisées)

Exigences de distribution des données/traitements à l’échelle ESA

Cacher la complexité croissante des centres de mission

Offrir des interfaces de développement simples

Application des politiques de sécurité publique (PPST, PSSIE)

Page 11: 20160216 - From BigData to BigProcessing

Présentation du pôle HPC

Introduction au BigProcessing

Trois perspectives selon trois projets

Interopérabilité entre centres de calcul

Page 12: 20160216 - From BigData to BigProcessing

12

Gaia Enjeux scientifiques • Produire une cartographie

3D de notre proche galaxie

• Localisation de plus d’un

milliard d’objets avec une

précision inégalée

• Détermination des

paramètres

stellaires/astrophysiques

Focus sur les techniques de

développement

Page 13: 20160216 - From BigData to BigProcessing

CRIP – 16/10/2013 13

Les chiffres: - 10 chaines scientifiques - 3Po de données - 290 milliards d’entrée dans la

base de données - Complexité des requêtes d’accès - Plus de 1000 connexions

concurrentes à la base

Le développement: - Language Java - Pas de parallélisme (géré à haut niveau) - Concept Façade

- Algorithmes scientifiques en boite noire - Unification de l’invocation des modules - Abstraction de l’accès aux données

L’architecture - 6 datacenters impliqués - Répartition statique des données - Répartition statique des traitements

Page 14: 20160216 - From BigData to BigProcessing

14

Etude technologique (2011-2012)

Première architecture : données centralisées

» Stockage sur une baie SAN

» Accès concurrents à la BD PostgreSQL

» Traitements sur nœuds de calcul « classiques »

Architecture logicielle

point bloquant identifié

Benchmark nouvelles technologies

» Performance

» Scalabilité de la solution

» Fiabilité (data safety)

» Impacts sur l’existant (software et hardware)

» Coût global

» Pérennité de la solution

» Exploitation de la solution

Page 15: 20160216 - From BigData to BigProcessing

15

Hadoop & Cascading

Seconde architecture : données distribuées

Hadoop :

Batch execution framework : paradigme Map/Reduce (calcul parallèle gros grain)

Système de fichier parallèle HDFS

Avantages :

Performance

Scalabilité

Ecosystème logiciel Hadoop

CalculStockage

Rapprocher le calcul

des données

Page 16: 20160216 - From BigData to BigProcessing

16

Hadoop & Cascading

Map/Reduce paradigm

UC BerkeleyX courses, Spark lectures

Page 17: 20160216 - From BigData to BigProcessing

17

Cascading

API Java pour les developpeurs au dessus de la couche Hadoop MapReduce

Process Cascading sont traduits “à la volée” en tâches Map Reduce (5%

d’overhead constaté)

Permet des opérations complexes (proches de SQL : join, group,…) sans

penser en MapReduce

Hadoop & Cascading

Page 18: 20160216 - From BigData to BigProcessing

18

Exemple

Requête SQL

Requête M/R (15 étapes)

Requête Cascading (7 étapes)

Page 19: 20160216 - From BigData to BigProcessing

19

1ère leçon : Ca marche ! Mais quelques pistes d’optimisation

Hadoop v1 : problème intrinsèque de performance

» Synchronisation parallèle par… les I/O Mappers & Reducers fixes

Passsage à Hadoop v2

» Meilleure utilisation du hardware (cœurs de calcul)

» Upgrade toujours délicat sur une plateforme de production

REX Gaia

Page 20: 20160216 - From BigData to BigProcessing

20

1ère leçon : Ca marche ! Mais quelques pistes d’optimisation

Quantité de logs difficilement exploitable (métier, middleware, système).

Résolution d’incident complexe.

REX Gaia

R&T Fouille de données (w/ Atos)

Page 21: 20160216 - From BigData to BigProcessing

21

1ère leçon : Ca marche ! Mais quelques pistes d’optimisation

Quantité de logs difficilement exploitable (métier, middleware, système).

Résolution d’incident complexe.

REX Gaia

R&T Fouille de données (w/ Atos)

Page 22: 20160216 - From BigData to BigProcessing

22

1ère leçon : Ca marche ! Mais quelques pistes d’optimisation

Quantité de logs difficilement exploitable (métier, middleware, système).

Résolution d’incident complexe.

REX Gaia

R&T Fouille de données (w/ Atos)

Page 23: 20160216 - From BigData to BigProcessing

23

Si on repartait à zéro…

Nouvelles approches BigProcessing : InMemory

REX Gaia 2015

UC BerkeleyX courses, Spark lectures UC BerkeleyX courses, Spark lectures

Page 24: 20160216 - From BigData to BigProcessing

EUCLID

24

Cartographier la géométrie de l’Univers Sombre

L’expansion de l’univers accélère !

L’accélération de l’univers

est dûe à l’énergie sombre

Focus sur l’architecture

du centre de mission

Page 25: 20160216 - From BigData to BigProcessing

25

Concepts clefs d’architecture

« cluster de clusters » : pas de centralisation de datacenter

Distribution des données et du calcul

Déplacer les calculs et non les données

Les codes de calcul doivent pouvoir être exécutés sur toutes les plateformes

Séparation des métadonnées des données (base de métadonnée centralisée)

Deux niveaux de parallélisation

Bas niveau : sur les tuiles (ensemble minimal de données traitable couvrant une

portion de ciel donnée) constituant des catalogues d’objets

Haut niveau : cross matching/correlation

EUCLID

Page 26: 20160216 - From BigData to BigProcessing

Mission Operations

Centre

External Data

Providers

Science Operations

Centre

Public Data

Level 1 Data Files

Metadata (prime)

SDC-NL

Raw EXT Data

Data Files

Metadata (backup)

SDC-DE

Raw EXT Data

Data Files

SDC-CH

Data Files

SDC-ES

Data Files

SDC-US

Data Files

SDC-UK

Data Files

SDC-FI

Data Files

SDC-FR

Data Files

Raw EXT Data (TBC)

Sky allocation through Coordinator

EUCLID Architecture

Page 27: 20160216 - From BigData to BigProcessing

DB

Euclid Archive

Metadata

Storage System

Euclid Archive

Orchestration,

Monitoring &

Control

Computing

Infrastructure for

Processing Tasks

Manage Processing Tasks:

fetch/enhance/ingest data

configure/submit tasks

SDC

File

s

Euclid Archive

Data Storage

System

Infrastructure Abstraction

Layer

CODEEN

Managing and

Deploying Software

other SDC SOC

EUCLID Architecture

Page 28: 20160216 - From BigData to BigProcessing

28

Plateforme d’Exploitation des Produits Sentinels :

• accès libre et gratuit aux données via portail web.

• capacité de traitement sur les données.

PEPS

Focus sur les technologies

de stockage

Page 29: 20160216 - From BigData to BigProcessing

Eléments directeurs

Infrastructure de stockage

hautement scalable

Profil d’utilisation fonction de l’intérêt

(temps, localisation, etc.)

Fort couplage avec cluster de calcul

Architecture informatique CNES

Page 30: 20160216 - From BigData to BigProcessing

Besoin de technologie de stockage…

… du futur

Page 31: 20160216 - From BigData to BigProcessing

31

Disques vs bandes

Disque Bande

Bande passante 150 Mo/s 350Mo/s

Latence 6ms 60s

Capacité 8To 10To

Evolution 20To * 120 To

Durée de vie (REX) 3-5 ans 10-20 ans

Coût ($/To) 30 - 50 12 - 20

Consommation (idle) 6-8W 0W

Page 32: 20160216 - From BigData to BigProcessing

32

2 Po

6To 480 x

Bases DB2

Core Server VFS Servers

2 x baies NetApp E5560

2 x baies NetApp E2724

DataMovers

Cache disque HPSS

Stockage bande IBM TS4500 6 x Jaguar 5

14 Po

Méta données HPSS

2 x Dell R730

vue filesystem NFS

FTP ou pFTP

Dell R730 Dell R730

10 G

be

10 G

be

10 G

be

SAS

SAS FC

Accès utilisateurs

10 G

be

10 Gbe

Staging Migration

Page 33: 20160216 - From BigData to BigProcessing

ForumHPC – CLS – 15/10/2015 33

2015

Page 34: 20160216 - From BigData to BigProcessing

34

Présentation du pôle HPC

Introduction au BigProcessing

Trois perspectives selon trois projets

Interopérabilité entre centres de calcul

Page 35: 20160216 - From BigData to BigProcessing

35

Interopérabilité

Objectifs

Exécuter un traitement sur « n’importe quel

centre de calcul » ou comment abstraire une

infrastructure de calcul parallèle…

Permettre aux développeurs de déposer des

traitements au plus proche de la donnée « sans

contrainte ».

Page 36: 20160216 - From BigData to BigProcessing

36

Concepts clefs d’une plateforme fédérée

Cacher la complexité !

Les scientifiques/développeurs doivent se concentrer sur les algorithmes

Notion de notebook pour les maquettages rapides

Un seul portail pour accéder/télécharger/traiter les données

Multi paradigmes (Spark, MPI, OpenMP, etc.)

Interfaces génériques pour :

rechercher et décrire la donnée

lancer un traitement

échanger des données entre centres de calcul

exécuter des codes de calcul

Page 37: 20160216 - From BigData to BigProcessing

37

Exploitation des Données Interopérables Multicentres

Euclid

Page 38: 20160216 - From BigData to BigProcessing

38

Euclid

Bilbio :

- Wes. Felter, Alexandre. Ferreira, Ram. Rajamony and Juan. Rubio, “An Updated Performance Comparison of Virtual

Machines and Linux Containers” IBM Research Report, vol. 28, July, 2014

- MORABITO, Roberto, KJÄLLMAN, Jimmy, et KOMU, Miika. Hypervisors vs. Lightweight Virtualization: a Performance

Comparison.

Passer des applications aux containers applicatifs

Page 39: 20160216 - From BigData to BigProcessing

39

Euclid

Performance container vs exécution native

Page 40: 20160216 - From BigData to BigProcessing

40

Prototypage R&T multicentre

15/03/2016 40

Page 41: 20160216 - From BigData to BigProcessing

41

results

15/03/2016 41

Page 42: 20160216 - From BigData to BigProcessing

42

results

15/03/2016 42

Page 43: 20160216 - From BigData to BigProcessing

43

results

15/03/2016 43

Page 44: 20160216 - From BigData to BigProcessing

44 15/03/2016 44

Prototypage R&T multicentre

Page 45: 20160216 - From BigData to BigProcessing

45 15/03/2016 45

Prototypage R&T multicentre

Page 46: 20160216 - From BigData to BigProcessing

46 15/03/2016 46

Prototypage R&T multicentre

Page 47: 20160216 - From BigData to BigProcessing

47 15/03/2016 47

Page 48: 20160216 - From BigData to BigProcessing

48 15/03/2016 48

Page 49: 20160216 - From BigData to BigProcessing

49 15/03/2016 49

Prototypage R&T multicentre

Page 50: 20160216 - From BigData to BigProcessing

50

Results

15/03/2016 50

Page 51: 20160216 - From BigData to BigProcessing

51

Exploitation des Données Interopérables Multicentres

Euclid

REX Prototype

Fonctionnel mais pas industrialisable

Les batch/schedulers HPC ont pris le train en marche

» PBSPro compatible Docker

Proactive en tant que metascheduler

Page 52: 20160216 - From BigData to BigProcessing

52

Cas d’utilisation « cluster de clusters »

Euclid

PBSPro

v13

Hadoop

Amazon,

Openstack,

etc.

Slurm

Chronos/

Mesos

Proactive

jobs

Page 53: 20160216 - From BigData to BigProcessing

53

Conclusion

Convergence du HPC et BigData

Les données sont de moins en moins transportables,

besoin d’avoir des portails thématiques (visualisation,

traitement)

Les algorithmes sont la vraie valeur ajoutée, besoin de

les mettre au centre des plateformes

REX CNES : travailler en mémoire, distribuer

dynamiquement les calculs, considérer les stockages

hiérarchiques passé un certain seuil

Page 55: 20160216 - From BigData to BigProcessing

Présentation générale du CNES – Janvier 2015 55

Merci pour votre attention