sahara : hadoop as service avec openstack

Post on 31-May-2015

339 Views

Category:

Technology

4 Downloads

Preview:

Click to see full reader

DESCRIPTION

Un des initiative les plus intéressante du moment c'est Hadoop à la demande. Sahara, en incubation parmi les projets OpenStack facilite la mise en place de votre infrastructure moderne pour rester agile même dans une infrastructure qui réclame un nombre de machine toujours plus important... présentation Solutions Linux 2014

TRANSCRIPT

Hadoop as Service,

OpenStack + Hadoop

Charly CLAIRMONTCTOALTIC

@egwada

ma petite bio

Depuis 10 ans Altic

Une évolution permanente avec les technologies suivantes :

Un des animateurs de l'écosystème Hadoop en France

Un groupe de plus en plus actif !(messages échangés sur l'année)

Altic

Métier

Informatique Décisionnelle

Intégration de données

Valeurs

– Innovations

– Open Source

Hadoop, OpenstackPopularité

http://www.google.com/trends/explore?hl=fr&q=openstack,+hadoop&cmpt=q&content=1

Vous connaissez ?Forcément !

Hadoop, en quelques mots

● Fondé par Doug Cutting

● Initialement développé chez Yahoo

● Open source

● Initialement stockage et traitements distribués de données

● « Data OS »

– Aujourd'hui Plateforme standard pour la gestion de données

Hadoop, est robuste

● Stable

– Testé - Yahoo!(40 000 nœuds)

● Fiable

– Tolérant à la panne

● Flexible

– Schéma à la lecture !

– Passage à l'échelle

● Économique

– Prédictibilité des coûts

Hadoop,Système d'exploitation de la données

Vous connaissez ?Forcément !

Openstack

système d'exploitation pour le cloud

– CPU / RAM

– Disque

– Réseau

Standard du IAAS

Simple

– Tableau de bord d'administration

– Provisionnement par les utilisteurs finaux

API très riche

Openstack

● Calcul - Nova

● Réseau - Neutron

● Object Storage - Swift

● Block Storage - Cinder

● Sécurité / Identité - Keystone

● Gestion Image VM (iso) - Glance

● Administration / Interface Web - Horizon

● Monitoring - Ceilometer

● Orchestration - Heat

● Traitement de données - Sahara

Pourquoi Hadoop + Openstack ?

Des cas d'utilisation...

Hadoop as services,cas d'utilisation :

Administrateur système

● Faciliter les soucis d'installation, de gestion, de monitoring des clusters

● Avoir un point central pour administrer l'infrastructure toute entière de l'entreprise

● Supporter différentes versions d'Hadoo

Hadoop as services,cas d'utilisation :

Développeur, QA

● Créer différents environnements Hadoop simplement :

– dev, test, pré-prod

● Avoir une API pour construire et lancer son cluster à la volée, notamment lors des tests

● Avoir la possibilité d'exploiter les mêmes données par plusieurs clusters

Hadoop as services,cas d'utilisation :

Analystes

● Isolation des environnements pour éviter la surcharge de la production

– Bac à sable

Architecture

Architecture

Architecture

● Auth component – responsable pour l'authentification et les autorisations , dialogue avec Keystone

● Accès aux données (DAL) - référencé en base

● Provisioning Engine - composant responsable de la communication avec Nova, Heat, Cinder and Glance

● Vendor Plugins - mécanisme qui permet aux distribution Hadoop de provisionner les VM

● Elastic Data Processing (EDP) - responsable de la planification et de la gestion des jobs Hadoop sur les clusters provisionnés par Sahara

● REST API - expose les fonctionnalités de Sahara grâce à des services web REST

● Client Python pour Sahara - similaire aux autres composants Openstack qui ont leur propre client python

● Sahara pages - GUI pour Sahara intégré à Horizon

Sahara plugin

● Très important dans l'architecture

● Permet aux distributions Hadoop de se fondre (pluger) au sein de Sahara

● Intégrations actuelles :

– Vanilla (impl. de référence avec Apache Hadoop),

– HDP (via Ambari),

– IDH (via Intel Manager) ???

– et en test CDH et Spark

Elastic Data Processing (EDP)

● permet l'exécution de jobs sur le cluster

● Hive, Pig, MapReduce, et des jobs Java

● Les jobs enregistrés sous forme de binaire dans Swift ou en base de données

● configuration des jobs lors de leur soumission

● exécution des job sur les clusters existants ou temporaires

Performance du provisionnement du cluster

● Un cluster Hadoop de 200 noeuds en peu plus de 6 min.

Roadmap

Feuille de route

● Intégration de la première version stable au sein de Icehouse

● Meilleure intégration avec l'écosystème d'Openstack

– Heat

– Tempest

– Devstack

– Ceilometer

– Ironic

● Amélioration d'EDP

● Finition de l'api v2

● Tests de performances

Démo

Démo

https://www.youtube.com/watch?v=vmry_kXqn4c

Questions

Hadoop as Service,

OpenStack + Hadoop

Charly CLAIRMONTCTOALTIC

@egwada

Merci !

top related