sahara : hadoop as service avec openstack
DESCRIPTION
Un des initiative les plus intéressante du moment c'est Hadoop à la demande. Sahara, en incubation parmi les projets OpenStack facilite la mise en place de votre infrastructure moderne pour rester agile même dans une infrastructure qui réclame un nombre de machine toujours plus important... présentation Solutions Linux 2014TRANSCRIPT
Hadoop as Service,
OpenStack + Hadoop
Charly CLAIRMONTCTOALTIC
@egwada
ma petite bio
Depuis 10 ans Altic
Une évolution permanente avec les technologies suivantes :
Un des animateurs de l'écosystème Hadoop en France
Un groupe de plus en plus actif !(messages échangés sur l'année)
Altic
Métier
Informatique Décisionnelle
Intégration de données
Valeurs
– Innovations
– Open Source
Hadoop, OpenstackPopularité
http://www.google.com/trends/explore?hl=fr&q=openstack,+hadoop&cmpt=q&content=1
Vous connaissez ?Forcément !
Hadoop, en quelques mots
● Fondé par Doug Cutting
● Initialement développé chez Yahoo
● Open source
● Initialement stockage et traitements distribués de données
● « Data OS »
– Aujourd'hui Plateforme standard pour la gestion de données
Hadoop, est robuste
● Stable
– Testé - Yahoo!(40 000 nœuds)
● Fiable
– Tolérant à la panne
● Flexible
– Schéma à la lecture !
– Passage à l'échelle
● Économique
– Prédictibilité des coûts
Hadoop,Système d'exploitation de la données
Vous connaissez ?Forcément !
Openstack
système d'exploitation pour le cloud
– CPU / RAM
– Disque
– Réseau
Standard du IAAS
Simple
– Tableau de bord d'administration
– Provisionnement par les utilisteurs finaux
API très riche
Openstack
● Calcul - Nova
● Réseau - Neutron
● Object Storage - Swift
● Block Storage - Cinder
● Sécurité / Identité - Keystone
● Gestion Image VM (iso) - Glance
● Administration / Interface Web - Horizon
● Monitoring - Ceilometer
● Orchestration - Heat
● Traitement de données - Sahara
Pourquoi Hadoop + Openstack ?
Des cas d'utilisation...
Hadoop as services,cas d'utilisation :
Administrateur système
● Faciliter les soucis d'installation, de gestion, de monitoring des clusters
● Avoir un point central pour administrer l'infrastructure toute entière de l'entreprise
● Supporter différentes versions d'Hadoo
Hadoop as services,cas d'utilisation :
Développeur, QA
● Créer différents environnements Hadoop simplement :
– dev, test, pré-prod
● Avoir une API pour construire et lancer son cluster à la volée, notamment lors des tests
● Avoir la possibilité d'exploiter les mêmes données par plusieurs clusters
Hadoop as services,cas d'utilisation :
Analystes
● Isolation des environnements pour éviter la surcharge de la production
– Bac à sable
Architecture
Architecture
Architecture
● Auth component – responsable pour l'authentification et les autorisations , dialogue avec Keystone
● Accès aux données (DAL) - référencé en base
● Provisioning Engine - composant responsable de la communication avec Nova, Heat, Cinder and Glance
● Vendor Plugins - mécanisme qui permet aux distribution Hadoop de provisionner les VM
● Elastic Data Processing (EDP) - responsable de la planification et de la gestion des jobs Hadoop sur les clusters provisionnés par Sahara
● REST API - expose les fonctionnalités de Sahara grâce à des services web REST
● Client Python pour Sahara - similaire aux autres composants Openstack qui ont leur propre client python
● Sahara pages - GUI pour Sahara intégré à Horizon
Sahara plugin
● Très important dans l'architecture
● Permet aux distributions Hadoop de se fondre (pluger) au sein de Sahara
● Intégrations actuelles :
– Vanilla (impl. de référence avec Apache Hadoop),
– HDP (via Ambari),
– IDH (via Intel Manager) ???
– et en test CDH et Spark
Elastic Data Processing (EDP)
● permet l'exécution de jobs sur le cluster
● Hive, Pig, MapReduce, et des jobs Java
● Les jobs enregistrés sous forme de binaire dans Swift ou en base de données
● configuration des jobs lors de leur soumission
● exécution des job sur les clusters existants ou temporaires
Performance du provisionnement du cluster
● Un cluster Hadoop de 200 noeuds en peu plus de 6 min.
Roadmap
Feuille de route
● Intégration de la première version stable au sein de Icehouse
● Meilleure intégration avec l'écosystème d'Openstack
– Heat
– Tempest
– Devstack
– Ceilometer
– Ironic
● Amélioration d'EDP
● Finition de l'api v2
● Tests de performances
Démo
Démo
https://www.youtube.com/watch?v=vmry_kXqn4c
Questions
Hadoop as Service,
OpenStack + Hadoop
Charly CLAIRMONTCTOALTIC
@egwada
Merci !