Transcript
Page 1: Sahara : Hadoop as Service avec OpenStack

Hadoop as Service,

OpenStack + Hadoop

Charly CLAIRMONTCTOALTIC

@egwada

Page 2: Sahara : Hadoop as Service avec OpenStack

ma petite bio

Depuis 10 ans Altic

Une évolution permanente avec les technologies suivantes :

Un des animateurs de l'écosystème Hadoop en France

Un groupe de plus en plus actif !(messages échangés sur l'année)

Page 3: Sahara : Hadoop as Service avec OpenStack

Altic

Métier

Informatique Décisionnelle

Intégration de données

Valeurs

– Innovations

– Open Source

Page 4: Sahara : Hadoop as Service avec OpenStack
Page 5: Sahara : Hadoop as Service avec OpenStack

Hadoop, OpenstackPopularité

http://www.google.com/trends/explore?hl=fr&q=openstack,+hadoop&cmpt=q&content=1

Page 6: Sahara : Hadoop as Service avec OpenStack

Vous connaissez ?Forcément !

Page 7: Sahara : Hadoop as Service avec OpenStack

Hadoop, en quelques mots

● Fondé par Doug Cutting

● Initialement développé chez Yahoo

● Open source

● Initialement stockage et traitements distribués de données

● « Data OS »

– Aujourd'hui Plateforme standard pour la gestion de données

Page 8: Sahara : Hadoop as Service avec OpenStack

Hadoop, est robuste

● Stable

– Testé - Yahoo!(40 000 nœuds)

● Fiable

– Tolérant à la panne

● Flexible

– Schéma à la lecture !

– Passage à l'échelle

● Économique

– Prédictibilité des coûts

Page 9: Sahara : Hadoop as Service avec OpenStack

Hadoop,Système d'exploitation de la données

Page 10: Sahara : Hadoop as Service avec OpenStack

Vous connaissez ?Forcément !

Page 11: Sahara : Hadoop as Service avec OpenStack

Openstack

système d'exploitation pour le cloud

– CPU / RAM

– Disque

– Réseau

Standard du IAAS

Simple

– Tableau de bord d'administration

– Provisionnement par les utilisteurs finaux

API très riche

Page 12: Sahara : Hadoop as Service avec OpenStack

Openstack

● Calcul - Nova

● Réseau - Neutron

● Object Storage - Swift

● Block Storage - Cinder

● Sécurité / Identité - Keystone

● Gestion Image VM (iso) - Glance

● Administration / Interface Web - Horizon

● Monitoring - Ceilometer

● Orchestration - Heat

● Traitement de données - Sahara

Page 13: Sahara : Hadoop as Service avec OpenStack

Pourquoi Hadoop + Openstack ?

Page 14: Sahara : Hadoop as Service avec OpenStack

Des cas d'utilisation...

Page 15: Sahara : Hadoop as Service avec OpenStack

Hadoop as services,cas d'utilisation :

Administrateur système

● Faciliter les soucis d'installation, de gestion, de monitoring des clusters

● Avoir un point central pour administrer l'infrastructure toute entière de l'entreprise

● Supporter différentes versions d'Hadoo

Page 16: Sahara : Hadoop as Service avec OpenStack

Hadoop as services,cas d'utilisation :

Développeur, QA

● Créer différents environnements Hadoop simplement :

– dev, test, pré-prod

● Avoir une API pour construire et lancer son cluster à la volée, notamment lors des tests

● Avoir la possibilité d'exploiter les mêmes données par plusieurs clusters

Page 17: Sahara : Hadoop as Service avec OpenStack

Hadoop as services,cas d'utilisation :

Analystes

● Isolation des environnements pour éviter la surcharge de la production

– Bac à sable

Page 18: Sahara : Hadoop as Service avec OpenStack

Architecture

Page 19: Sahara : Hadoop as Service avec OpenStack

Architecture

Page 20: Sahara : Hadoop as Service avec OpenStack

Architecture

● Auth component – responsable pour l'authentification et les autorisations , dialogue avec Keystone

● Accès aux données (DAL) - référencé en base

● Provisioning Engine - composant responsable de la communication avec Nova, Heat, Cinder and Glance

● Vendor Plugins - mécanisme qui permet aux distribution Hadoop de provisionner les VM

● Elastic Data Processing (EDP) - responsable de la planification et de la gestion des jobs Hadoop sur les clusters provisionnés par Sahara

● REST API - expose les fonctionnalités de Sahara grâce à des services web REST

● Client Python pour Sahara - similaire aux autres composants Openstack qui ont leur propre client python

● Sahara pages - GUI pour Sahara intégré à Horizon

Page 21: Sahara : Hadoop as Service avec OpenStack

Sahara plugin

● Très important dans l'architecture

● Permet aux distributions Hadoop de se fondre (pluger) au sein de Sahara

● Intégrations actuelles :

– Vanilla (impl. de référence avec Apache Hadoop),

– HDP (via Ambari),

– IDH (via Intel Manager) ???

– et en test CDH et Spark

Page 22: Sahara : Hadoop as Service avec OpenStack

Elastic Data Processing (EDP)

● permet l'exécution de jobs sur le cluster

● Hive, Pig, MapReduce, et des jobs Java

● Les jobs enregistrés sous forme de binaire dans Swift ou en base de données

● configuration des jobs lors de leur soumission

● exécution des job sur les clusters existants ou temporaires

Page 23: Sahara : Hadoop as Service avec OpenStack

Performance du provisionnement du cluster

● Un cluster Hadoop de 200 noeuds en peu plus de 6 min.

Page 24: Sahara : Hadoop as Service avec OpenStack

Roadmap

Page 25: Sahara : Hadoop as Service avec OpenStack

Feuille de route

● Intégration de la première version stable au sein de Icehouse

● Meilleure intégration avec l'écosystème d'Openstack

– Heat

– Tempest

– Devstack

– Ceilometer

– Ironic

● Amélioration d'EDP

● Finition de l'api v2

● Tests de performances

Page 26: Sahara : Hadoop as Service avec OpenStack

Démo

Page 27: Sahara : Hadoop as Service avec OpenStack

Démo

https://www.youtube.com/watch?v=vmry_kXqn4c

Page 28: Sahara : Hadoop as Service avec OpenStack

Questions

Page 29: Sahara : Hadoop as Service avec OpenStack

Hadoop as Service,

OpenStack + Hadoop

Charly CLAIRMONTCTOALTIC

@egwada

Merci !


Top Related