tout savoir sur hadoop : vulgarisation de la technologie...

31
Tout savoir sur Hadoop : Vulgarisation de la technologie et les stratégies de certains acteurs Hadoop suscite l'intérêt d'un nombre croissant d'entreprises. Dans ce guide, LeMagIT fait le tour des fonctionnalités d' Hadoop mais aussi de ces bénéfices et inconvénients. PRÉSENTATION DÉCOUVRIR HADOOP LES ACTEURS DE LA SPHERE HADOOP

Upload: vudiep

Post on 27-Apr-2018

224 views

Category:

Documents


3 download

TRANSCRIPT

Page 1: Tout savoir sur Hadoop : Vulgarisation de la technologie ...docs.media.bitpipe.com/io_10x/io_108885/item_951685/Handbook_Tou… · DIE FÜNF TOP Hadoop inconvénients. Tout savoir

Tout savoir sur Hadoop : Vulgarisation de la technologie et les stratégies de certains acteurs Hadoop suscite l'intérêt d'un nombre croissant d'entreprises. Dans ce guide, LeMagIT fait le tour des fonctionnalités d'Hadoop mais aussi de ces bénéfices et

inconvénients.

1 KEINE ZEIT

MEHR VERLIEREN

2 DIE FÜNF TOP-THEMEN

BEI DER SEPA-UMSTELLUNG

3 SAP ERP IN DREI

SCHRITTEN FRIST-

GERECHT UMSTELLEN

4 WAS BEI SEPA-DIENSTEN AUS

DER CLOUD ZU BEACHTEN IST

PRÉSENTATION

DÉCOUVRIR HADOOP

LES ACTEURS DE LA SPHERE

HADOOP

Page 2: Tout savoir sur Hadoop : Vulgarisation de la technologie ...docs.media.bitpipe.com/io_10x/io_108885/item_951685/Handbook_Tou… · DIE FÜNF TOP Hadoop inconvénients. Tout savoir

PRESENTATION

VULGARISATION :

DECOUVRIR HADOOP

LES ACTEURS :

LES ACTEURS DE LA SPHERE

HADOOP

TOUT SAVOIR SUR HADOOP 2

JUIN 2014 La première technologie qui vient à l’esprit

lorsque l’on évoque aujourd’hui le sujet du Big Data est

Hadoop, le framework analytique Java développé au sein

de la fondation Apache. Populaire, Hadoop reste toutefois

un mystère pour nombre d’utilisateurs désireux de mettre

en oeuvre la technologie ou de mieux la comprendre.

LeMagIT a réuni au sein de ce dossier un ensemble

d'articles dont l'objectif est d'aider à comprendre ce qu'est

réellement Hadoop, comment il fonctionne, quels sont ses

usages, comment la technologie est architecturée.

CYRILLE CHAUSSON

Rédacteur en chef ,

TechTarget / LeMagIT

Pésentation

PRESENTATION

Page 3: Tout savoir sur Hadoop : Vulgarisation de la technologie ...docs.media.bitpipe.com/io_10x/io_108885/item_951685/Handbook_Tou… · DIE FÜNF TOP Hadoop inconvénients. Tout savoir

PRESENTATION

VULGARISATION :

DECOUVRIR HADOOP

LES ACTEURS :

LES ACTEURS DE LA SPHERE

HADOOP

TOUT SAVOIR SUR HADOOP 3

1. A LA DÉCOUVERTE D'HADOOP

La première technologie qui vient à l’esprit lorsque l’on

évoque aujourd’hui le sujet du Big Data est Hadoop est le

framework analytique Java développé au sein de la

fondation Apache. Populaire, Hadoop reste toutefois un

mystère pour nombre d’utilisateurs. Pour mieux

comprendre les fondements technologiques d’Hadoop et

les différentes briques qui le composent, LeMagIT s’est

plongé dans l’histoire et l’architecture du framework.

Hadoop trouve ses racines dans les technologies

propriétaires d’analyse de données de Google. En 2004,

le moteur de recherche a publié un article de recherche

présentant son algorithme MapReduce, conçu pour

réaliser des opérations analytiques à grande échelle sur un

grand cluster de serveurs, et sur son système de fichier en

cluster, Google Filesystem (GFS). Doug Cutting, qui

travaillait alors sur le développement du moteur de

recherche libre Apache Lucene et butait sur les mêmes

problèmes de volumétrie de données qu’avait rencontré

Google, s’est alors emparé des concepts décrits dans

l’article du géant de la recherche et a décidé de répliquer

en open source les outils développés par Google pour ses

besoins. Employé chez Yahoo, il s’est alors lancé dans le

développement de ce qui est aujourd’hui le projet Apache

Hadoop – pour la petite histoire, Hadoop est le nom de

l’éléphant qui servait de doudou à son jeune fils.

Hadoop n’a pas été conçu pour traiter de grandes

quantités de données structurées à grande vitesse. Cette

mission reste largement l’apanage des grands systèmes de

Datawarehouse et de datamart reposant sur des SGBD

traditionnelles et faisant usage de SQL comme langage de

requête. La spécialité d’Hadoop, ce serait plutôt le

traitement à très grande échelle de grands volumes de

données non structurées tels que des documents textuels,

des images, des fichiers audio… même s’il est aussi

possible de traiter des données semi-structurées ou

structurées avec Hadoop.

Au cœur du framework open source se trouve avant tout

un système de fichiers en cluster, baptisé HDFS (Hadoop

Distributed Filesystem). HDFS a été conçu pour stocker

de très gros volumes de données sur un grand nombre de

machines équipées de disques durs banalisés.

Le filesystem HDFS est conçu pour assurer la sécurité

des données en répliquant de multiples fois l’ensemble

des données écrites sur le cluster.

Hadoop : un framework modulaire

HDFS : le système de gestion de fichier en

cluster au cœur d’Hadoop

DÉCOUVRIR HADOOP

DÉCOUVRIR HADOOP

DÉCOUVRIR HADOOP

Page 4: Tout savoir sur Hadoop : Vulgarisation de la technologie ...docs.media.bitpipe.com/io_10x/io_108885/item_951685/Handbook_Tou… · DIE FÜNF TOP Hadoop inconvénients. Tout savoir

PRESENTATION

VULGARISATION :

DECOUVRIR HADOOP

LES ACTEURS :

LES ACTEURS DE LA SPHERE

HADOOP

TOUT SAVOIR SUR HADOOP 4

Par défaut, chaque donnée est écrite sur trois nœuds

différents. Il ne s’agit pas du plus élégant des mécanismes

de redondance, ni du plus efficace, mais étant donné que

l’on s’appuie sur des disques durs SATA économiques,

un cluster HDFS a le bénéfice d’offrir une solution de

stockage très économique par rapport à celui des baies de

stockage traditionnelles. En l’état, HDFS est optimisé

pour maximiser les débits de données et non pas pour les

opérations transactionnelles aléatoires. La taille d’un bloc

de données est ainsi de 64 Mo dans HDFS contre 512

octets à 4 Ko dans la plupart des systèmes de fichiers

traditionnels. Cette taille de bloc s’explique par le fait que

Hadoop doit analyser de grandes quantités de données en

local.

Avec la version 2.0 d’Hadoop, la principale faiblesse

d’HDFS a été levée : jusqu’alors la gestion des

métadonnées associées aux fichiers étaient la mission

d’un unique « name node » ; ce qui constituait un point

de faille unique. Depuis la version 2.0 et l’arrivée de la

fonction HDFS High Availability, le "name node" est

répliqué en mode actif/passif, ce qui offre une tolérance

aux pannes. Un autre « défaut » d’HDFS est que le

système n’est pas conforme au standard POSIX et que

certaines commandes familières sur un filesystem

traditionnel ne sont pas disponibles.

Il est à noter que si HDFS est le système de fichiers par

défaut d’Hadoop, le framework peut aussi être déployé

sur des systèmes tiers, souvent grâce à des couches de

compatibilité. MapR, l’un des pionniers d’Hadoop, a

ainsi développé son propre système de gestion de fichiers

qui règle le problème de fragilité lié aux "name nodes"

d’HDFS (en distribuant les informations de métadonnées

sur les nœuds de données) et qui ajoute aussi des

fonctions avancées comme les snapshots, la réplication

ou le clonage. Plusieurs constructeurs de baies de

stockage comme EMC, HP ou IBM ont aussi développé

des couches de compatibilité HDFS au dessus de

certaines de leurs baies ; ce qui leur permet de stocker les

données d’un cluster Hadoop.

Le second composant majeur d’Hadoop est MapReduce,

qui gère la répartition et l’exécution des requêtes sur les

données stockées par le cluster. Le framework

MapReduce est conçu pour traiter des problèmes

parallèlisables à très grande échelle en s’appuyant sur un

très grand nombre de nœuds. L’objectif de MapReduce et

de son mécanisme avancé de distribution de tâches est de

tirer parti de la localité entre données et traitements sur le

même nœud de façon à minimiser l’impact des transferts

de données entre les nœuds du cluster sur la performance.

MapReduce : distribuer le traitement des

données entre les nœuds

DÉCOUVRIR HADOOP

Page 5: Tout savoir sur Hadoop : Vulgarisation de la technologie ...docs.media.bitpipe.com/io_10x/io_108885/item_951685/Handbook_Tou… · DIE FÜNF TOP Hadoop inconvénients. Tout savoir

PRESENTATION

VULGARISATION :

DECOUVRIR HADOOP

LES ACTEURS :

LES ACTEURS DE LA SPHERE

HADOOP

TOUT SAVOIR SUR HADOOP 5

MapReduce est un processus en plusieurs étapes. Dans la

phase « Map », le nœud maitre divise le problème posé

en sous-problèmes et les distribue entre nœuds de

traitement. Ces nœuds peuvent en cascade distribuer à

nouveau les tâches qui leur ont été assignées. Les

réponses sont ensuite remontées de nœuds en nœuds

jusqu’au nœud maitre ayant assigné les travaux à

l’origine.

C’est alors que s’opère l’étape "Reduce" : le nœud maitre

collationne les réponses emontant des nœuds de

traitement et les combine afin de fournir la réponse à la

question posée à l’origine. Il est à noter que les

traitements Mapreduce s’opèrent sur des données

structurées sous la forme (clé, valeur) et que des

mécanismes d’optimisation assurent que les traitements

sont distribués de telle sorte qu’ils s’opèrent au plus

proche des données (c’est-à-dire idéalement sur les neuds

qui hébergent les données concernées).

Les API clés de MapReduce sont accessibles en Java, un

langage certes populaire mais qui requiert des

compétences bien plus pointues que la maîtrise d’un

langage d’interrogation comme SQL. Plusieurs langages

ont donc émergé pour tenter de simplifier le travail des

utilisateurs d’Hadoop, dont Pig et Hive. Né chez Yahoo,

Pig est conçu pour traiter toute forme de données. Le

langage de Pig est PigLatin, complété par un runtime

destiné à exécuter les programmes rédigés en PigLatin.

PigLatin a une sémantique assez simple.

De nouveaux outils de langages pour

faciliter les requêtes sur Hadoop

DÉCOUVRIR HADOOP

Page 6: Tout savoir sur Hadoop : Vulgarisation de la technologie ...docs.media.bitpipe.com/io_10x/io_108885/item_951685/Handbook_Tou… · DIE FÜNF TOP Hadoop inconvénients. Tout savoir

PRESENTATION

VULGARISATION :

DECOUVRIR HADOOP

LES ACTEURS :

LES ACTEURS DE LA SPHERE

HADOOP

TOUT SAVOIR SUR HADOOP 6

Il permet de charger des données, puis de les manipuler

(appliquer des filtres, des groupements, des opérations

mathématiques…).

Chez Facebook, des développeurs ont quant à eux conçu

Hive, pour permettre à des développeurs familiers du

langage SQL de manipuler des données dans Hadoop.

Hive dispose d’un langage baptisé HQL (Hive

Query Langage) dont la syntaxe est similaire à celle de

SQL. Le service Hive découpe les requêtes en jobs

MapReduce afin de les exécuter sur le cluster.

Au fil des ans, Hadoop a continué à s’enrichir de

nouvelles applications, comme la base de données Hbase,

qui fournit des services similaires au service BigTable de

Google. Hbase est une base de données en colonnes (dans

la mouvance NoSQL) qui s’appuie sur le système de

gestion de fichiers en cluster HDFS pour le stockage de

ses données. Hbase est notamment utile pour ceux qui ont

besoin d’accès aléatoires en lecture/écriture à de grands

volumes de données. La base intègre des fonctions de

compression et de traitement « in-memory ».Parmi les

autres composants connus, on peut aussi citer la

technologie d’apprentissage Apache Mahout, ainsi que la

technologie d’administration de cluster Zookeeper.

Zookeeper est lui-même un service distribué qui permet

de coordonner l’ensemble des processus distribués sur le

cluster, mais aussi de gérer les configurations de ses

différents éléments.

Signalons pour terminer que le périmètre d’Hadoop

continue de s’élargir, les différents développeurs de

distributions Hadoop ajoutant progressivement de

nouveaux composants, outils ou langages afin d’enrichir

les composants de base du framework. Cloudera a ainsi

récemment publié Impala, sa technologie de query SQL

massivement parallèle, pour le traitement en temps réel

de données stockées dans Hbase ou dans HDFS. Dans le

cadre de son projet Hawq, Pivotal a, quant à lui, porté sa

base de données massivement parallèle Greenplum sur

HDFS et étendu sa technologie de query aux données non

structurées et semi-structurées stockées sur HDFS. Et

c’est sans compter sur les multiples intégrations réalisées

par des acteurs des bases de données traditionnelles et de

l’analytique, comme Teradata, Oracle ou Microsoft… Un

signe évident du dynamisme de l’écosystème Hadoop,

mais aussi de sa relative jeunesse. – Christophe Bardy

Un écosystème qui ne cesse de s’enrichir

DÉCOUVRIR HADOOP

Page 7: Tout savoir sur Hadoop : Vulgarisation de la technologie ...docs.media.bitpipe.com/io_10x/io_108885/item_951685/Handbook_Tou… · DIE FÜNF TOP Hadoop inconvénients. Tout savoir

PRESENTATION

VULGARISATION :

DECOUVRIR HADOOP

LES ACTEURS :

LES ACTEURS DE LA SPHERE

HADOOP

TOUT SAVOIR SUR HADOOP 7

2. HADOOP 2 VEUT ÉTENDRE LE CHAMP D'APPLICATION D'HADOOP AU-DELÀ DU BATCH

Hadoop 2 a officiellement été dévoilé par la fondation

Apache cette semaine et constitue une évolution majeure

pour le framework analytique historiquement basé sur le

système de gestion de fichiers en cluster HDFS (Hadoop

Distributed File System) et sur le framework MapReduce.

Les premiers utilisateurs d’Hadoop notamment dans le

monde internet, ont utilisé la technologie pour traiter des

volumes massifs de données non structurées et semi

structurées, typiquement des données de logs serveur et

réseau, des données de provenant de réseaux de capteurs,

de flux sociaux ou des images…

Ces données sont stockées sur des clusters de serveurs

banalisés fournissant un pool relativement peu couteux de

ressources de stockage et de traitement. Comme

l’explique Tony Consentino, vice-président et directeur

de recherche chez Ventana Research, Hadoop a la

capacité de traiter des données peu structurées et des

informations qui se prête peu à un stockage dans des

bases de données traditionnelles. Toutefois, comme le

précise Cosentino, les implémentations de l’architecture

actuelle d’Hadoop sont limitées par son orientation batch.

« Hadoop est bien adapté pour les applications ou la

latence n’est pas un problème et qui nécessitent le

traitement de grandes volumétries de données ».

Le couple HDFS – MapReduce « est bien adapté à

l’analyse de jeu de donnés très larges de données non

structurées statiques comportant des téraoctets ou des

petaoctets de données » explique William Bain, le CEO

de ScaleOut Software, un éditeur de solutions de

traitement de données basé à Beaverton, dans l’Oregon.

Comme Cosentino, Bain insiste que du fait de sa nature

batch, et de l’important overhead requis pour le

traitement de données, Hadoop n’a pas été utile pour le

traitement de données en temps réel, même si cela

pourrait changer dans l’avenir avec l’avènement

d’Hadoop 2 et l’apparition de nouveaux moteurs de

requêtes développés par certains fournisseurs. On pense

par exemple à des technologies comme Impala chez

Cloudera.

Le dynamisme de l’écosystème qui entoure Hadoop est

remarquable. Depuis ses débuts, la technologie a attiré

des centaines de développeurs désireux de créer des outils

additionnels pour combler des trous dans le spectre

fonctionnel du framework. On peut par exemple citer des

composants comme Hbase – une base de données

Un écosystème dynamique

DÉCOUVRIR HADOOP

Page 8: Tout savoir sur Hadoop : Vulgarisation de la technologie ...docs.media.bitpipe.com/io_10x/io_108885/item_951685/Handbook_Tou… · DIE FÜNF TOP Hadoop inconvénients. Tout savoir

PRESENTATION

VULGARISATION :

DECOUVRIR HADOOP

LES ACTEURS :

LES ACTEURS DE LA SPHERE

HADOOP

TOUT SAVOIR SUR HADOOP 8

distribuée au dessus d’HDFS -, Hive – un datawarehouse

de type SQL - ou Pig – un langage de haut niveau pour

développer des programmes d’analyse au dessus de

MapReduce. D’autres acteurs ont contribué des

composants qui sont devenus des sous-projets Hadoop

comme Ambari pour le provisioning et l’administration

de clusters, Cassandra, une base de données NoSQL ou

ZooKeeper qui permet de conserver les données de

configuration et de synchroniser les opérations entre

clusters.

C’est là qu’entre en scène Hadoop 2 – originellement

connu sous le nom Hadoop 2.0. Au cœur de cette mise à

jour majeure figure YARN, un nouveau gestionnaire de

ressources qui devrait permettre à d’autres applications

que les programmes MapReduce de tirer parti des

capacités d’HDFS. YARN (Yet Another Resource

Negotiator) est en parti conçu pour venir à bout des

limitations de MapReduce dans les configurations de très

grands clusters mais aussi pour venir à bout des

limitations lié à l’utilisation du mode Batch tout en

garantissant la compatibilité avec les API existantes et

avec les job MapReduce existants (moyennant une

recompilation).

Avec YARN (aussi appelé MapReduce 2.0 ou MRv2) les

tâches de gestion de ressources et de job

scheduling/monitoring de MapReduce sont séparées en

deux démons autonomes. L’idée selon la fondation

Apache est d’avoir un gestionnaire de ressources global

(distribuant les tâches selon des critères de mémoire, de

CPU et de réseau) et un gestionnaire d’application, qui

gère les jobs (au sens MapReduce du terme).

« YARN est une différence clé d’Hadoop 2.0 », explique

Cosentino. « Au lieu de laisser un job MapReduce se

considérer comme le seul utilisateur d’un cluster HDFS,

il permet à de multiples workloads de s’exécuter de façon

simultanée ». Un exemple est le cas d’utilisation de

Yahoo qui a mis en œuvre le traitement d’événements

complexes Storm au dessus de YARN, afin de canaliser

les données issues des activités sur ses sites web sur un

cluster Hadoop. Yahoo dispose actuellement de plus de

365 Po de données sur 330 000 nœuds de clusters

Hadoop gérés par YARN a récemment expliqué Bruno

Fernandez-Ruiz, un «senior fellow » et vice-président en

charge des plates-formes chez Yahoo. C’est bien plus que

ce que vous pourrez trouver dans une entreprise typique

aujourd’hui explique Fernandez-Ruiz, tout en estimant

que d’autres pourraient suivre son exemple dans les

années à venir. « Notre présent est votre futur » a-t-il

expliqué aux participants du dernier Hadoop Summit.

YARN apporte plus de flexibilité à

Hadoop 2

DÉCOUVRIR HADOOP

Page 9: Tout savoir sur Hadoop : Vulgarisation de la technologie ...docs.media.bitpipe.com/io_10x/io_108885/item_951685/Handbook_Tou… · DIE FÜNF TOP Hadoop inconvénients. Tout savoir

PRESENTATION

VULGARISATION :

DECOUVRIR HADOOP

LES ACTEURS :

LES ACTEURS DE LA SPHERE

HADOOP

TOUT SAVOIR SUR HADOOP 9

Hadoop 2 est aussi censé apporté des améliorations en

termes de disponibilité (en permettant de fédérer les name

nodes Hadoop) et apporte aussi le support de Windows.

Les innovations du nouveau framework devraient faire

leur apparition dans les multiples distributions

commerciales Hadoop au cours des prochains mois. –

Christophe Bardy

3. Mike Olson, CEO de Cloudera : Hadoop change la façon dont les entreprises traitent leurs données

Comment le Big Data et Hadoop vont changer la façon

dont les entreprises traitent leurs données... Un grand

nombre d'organisations et d’entreprises utilisatrices de

technologie, vont modifier la façon dont elles traitent

leurs données comme elles ne l’ont jamais fait

auparavant. Le monde va devenir plus guidé par le Big

Data, car les données sont disponibles. Et soit dit en

passant, si votre organisation choisit de ne pas en tirer

profit, cela deviendra un désavantage concurrentiel. Car

d’autres, dans votre secteur, feront un meilleur usage des

données. Ce qui change tout, bien sûr, est le volume, la

variété et la vitesse des données qui nous sont maintenant

accessibles. Elles proviennent de nombreuses sources, y

compris d’activités non humaines, telles que mes tweets,

mon Facebook ou mes achats en ligne sur les sites d'e-

commerce. À cela viennent les données générées

automatiquement par des équipements électroniques

parlant à d’autres équipements électroniques. Aux États-

Unis, le réseau électrique intelligent est en cours de

déploiement, donc ma maison rapporte désormais

régulièrement des informations à mon fournisseur

d'énergie : combien je consomme, à quel moment et

même aujourd'hui, avec certains appareils, les détails de

ma consommation dans ma maison, par exemple combien

mon système de chauffage domestique consomme. C'est

une information qui n'était pas disponible auparavant.

Elle nous permettra d'optimiser le réseau de nouvelles

façons. L’exploration de ces données à grande échelle

permet à nos clients d'utiliser ces données différemment.

En réalité, cela leur permet de poser des questions qu’ils

ne pouvaient tout simplement pas poser jusqu’alors. Par

exemple, les banques et les assurances cherchent à

détecter la fraude. Ce n’est pas une nouveauté, mais que

se passerait-il si vous pouviez traiter une décennie de

données plutôt qu’un mois d’historique de transactions.

Et si vous pouviez ingérer non seulement les transactions

financières mais aussi les activités des utilisateurs sur le

web, quelles pages ils ont visité, pendant combien de

temps, ce qu’ils ont acheté... Si vous pouvez ingérer des

données variées et les soumettre à des algorithmes d’apprentissage informatisés, à des outils d’analyse

statistique et à des techniques de modélisation avancées,

DÉCOUVRIR HADOOP

Page 10: Tout savoir sur Hadoop : Vulgarisation de la technologie ...docs.media.bitpipe.com/io_10x/io_108885/item_951685/Handbook_Tou… · DIE FÜNF TOP Hadoop inconvénients. Tout savoir

PRESENTATION

VULGARISATION :

DECOUVRIR HADOOP

LES ACTEURS :

LES ACTEURS DE LA SPHERE

HADOOP

TOUT SAVOIR SUR HADOOP 10

vous pouvez commencer à poser des questions qu’il était

impossible de poser précédemment. Et les exemples sont

multiples.

Le volume, la variété et la vitesse des données sont en

pleine expansion et cela crée une opportunité majeure

pour Cloudera. (…) En 2016, nous nous attendons à ce

que 123 Md$ soient dépensés en logiciels au niveau

mondial. De façon importante, les applications et les

bases de données représenteront plus de la moitié de cette

dépense. C'est un investissement énorme et il est lié à des

activités économiques déjà engagées. Si le volume de

données et les analyses que souhaitent réaliser les

entreprises continuent à évoluer de façon rapide, une

partie de ce budget va être perturbée et va aller à de

nouveaux endroits. Franchement, nous espérons qu’une

bonne partie vienne à nous. Si l’on regarde au-delà des

grandes tendances, (…) IDC indique que 1,7 Md$ sont

consacrés aujourd’hui à l'analyse de données ; le

traitement de données et les ETL pèsent pour 3,5 Md$.

Ce sont des marchés adressables immédiatement pour

nous et où les clients achètent aujourd'hui (…). Les

analystes en général sont horriblement mauvais pour

réaliser des prévisions en particulier sur de nouveaux

marchés. Néanmoins, un certain nombre d'entre eux a

tenté d’évaluer l’opportunité que représente le marché du

Big Data. Selon les sources, les prévisions varient

énormément, mais il y a un consensus : entre 10 et 30

Md$ au cours des années à venir. C’est une grande

nouvelle pour nous. Nous avons été les premiers à entrer

sur le marché du Big Data, nous avons été les premiers à

commercialiser Hadoop et nous pensons que nous avons

un certain nombre d’avantages pour capturer une partie

de ce marché.

Cloudera a apporté au marché une solution de Big Data

basée sur Hadoop. Basée, car notre distribution est la

solution la plus complète construite sur Hadoop et les

produits l’entourant. Vous pouvez considérer un tel

assemblage comme Linux. Ce que Red Hat produit est un

logiciel que vous pouvez installer sur votre ordinateur,

basé sur le noyau Linux. Vous pourriez assembler les

modules vous-mêmes, mais ce que Linux (au sens

kernel.com) est vraiment, est un composant compact qui

permet de stocker des fichiers et faire tourner des

programmes. Ce que Red Hat a fait est packager toutes

les applications et outils, éditeurs de texte et fournit

l’infrastructure de support qui rend cette plate-forme

A propos du marché du Big Data et

d’Hadoop…

La vision de Michael Olson sur Cloudera et

Hadoop...

DÉCOUVRIR HADOOP

Page 11: Tout savoir sur Hadoop : Vulgarisation de la technologie ...docs.media.bitpipe.com/io_10x/io_108885/item_951685/Handbook_Tou… · DIE FÜNF TOP Hadoop inconvénients. Tout savoir

PRESENTATION

VULGARISATION :

DECOUVRIR HADOOP

LES ACTEURS :

LES ACTEURS DE LA SPHERE

HADOOP

TOUT SAVOIR SUR HADOOP 11

utilisable. Red Hat l’a ensuite livré avec un support 24/24

ainsi qu’avec un service de mise à jour. Ce service

ressemble à ce que nous faisons pour Hadoop. Nous

pensons que nous avons l’opportunité de remplacer une

variété de systèmes de stockage, bases de données,

systèmes de gestion de contenus spécifiques,

propriétaires et vieillissants par une seule solution

cohérente, à même de stocker une grande variété de

données et de faire tourner un grand nombre de workload.

Soyons clairs : nous ne pensons pas remplacer les bases

de données relationnelles. Les grands datawarehouses

font un boulot excellent pour l’OLTP et l’OLAP depuis

longtemps. Ces marchés resteront durablement l’apanage

des vendeurs qui les dominent. Mais nous avons des

clients qui dépensent bien trop d’argent sur certains de

leurs workloads. Si par exemple vous avez un grand

datawarehouse et que vous utilisez ce système grand et

cher pour vos applications d’ETL, vous dépensez sans

doute bien trop. Vous pourriez libérer de la capacité

analytique sur ce système si vous pouviez transférer les

workloads de data processing sur une infrastructure

moins coûteuse. Notre plate-forme permet à nos clients

de faire exactement cela. Notre désir est de délivrer une

seule et unique plate-forme à même de permettre à nos

clients d’ingérer des données depuis n’importe quelle

source, de la soumettre à une variété de processus de

traitement de données et en plus, de l’analyser avec des

outils et algorithmes puissants jusqu’alors inaccessibles.

Comme je l’ai dit, nous délivrons une nouvelle plate-

forme critique et nous pensons qu’elle deviendra aussi

prévalente que les SGBD le sont aujourd’hui. Elle ne

remplacera pas les systèmes existants, mais viendra les

compléter pour permettre à nos clients d’optimiser leurs

déploiements. Ils pourront faire tourner les workloads sur

la plate-forme la plus adaptée et au meilleur coût. Ce que

l’on a fait est packager le projet open source avec des

outils d’administration et de monitoring. Tout ce que

nous savons sur la gestion des clusters Hadoop a été mis

dans le logiciel et nous délivrons le tout avec un support

24/7. Nous rendons Hadoop manageable. Notre go-to-

market est le même que celui de Sybase, Ingres ou Oracle

dans le milieu des années quatre-vingt-dix. Hadoop,

comme les bases SGBD à l’époque, est nouveau. Il faut

des compétences pointues pour l’opérer et elles sont

encore assez rares sur le terrain. Les applications, les

outils qui tournent sur Hadoop, sont eux aussi encore

rares, mêmes si nous en voyons apparaître de plus en

plus. Comme Oracle, Sybase, IBM ou Microsoft,

Cloudera se concentre non pas sur le développement

d’applications mais sur la livraison d’une infrastructure

fiable, simple à administrer et à exploiter. Nous laissons

intentionnellement le marché des applications et des

outils à nos partenaires. Notre désir est de créer un

écosystème riche de vendeurs qui s’appuient sur notre

plate-forme. Si nous y parvenons, chacun de ces outils et

applications accélérera l’adoption de notre plate-forme.

DÉCOUVRIR HADOOP

Page 12: Tout savoir sur Hadoop : Vulgarisation de la technologie ...docs.media.bitpipe.com/io_10x/io_108885/item_951685/Handbook_Tou… · DIE FÜNF TOP Hadoop inconvénients. Tout savoir

PRESENTATION

VULGARISATION :

DECOUVRIR HADOOP

LES ACTEURS :

LES ACTEURS DE LA SPHERE

HADOOP

TOUT SAVOIR SUR HADOOP 12

Cette stratégie devrait nous permettre de nous développer

de façon solide à long terme. Il se pourrait qu’un jour

viendra où nous aurons saturé le marché pour les plates-

formes Big Data, mais nous avons aujourd’hui un large

espace ouvert devant nous pour délivrer cette plate-forme

et encourager l’innovation dans l’écosystème. Nous

avons aujourd’hui 400 partenaires dans notre programme

Connect. Ce sont des éditeurs, des intégrateurs systèmes,

ou des constructeurs comme Dell ou HP ainsi que des

éditeurs d’outils comme Microstrategy.

Nous existons depuis mi-2008. C’est plus vieux que nos

concurrents immédiats. Le créateur d'Hadoop travaille

pour Cloudera; nous employons une population non

négligeable de contributeurs et de commiteurs au code

Hadoop open source; nous disposons d’une équipe

compétente en charge du développement de nos outils de

management et des personnels adaptés pour le support de

nos clients et de nos partenaires... Nous sommes leaders

simplement parce que les dés étaient pipés d’avance :

nous sommes sur le marché depuis plus longtemps que

tous nos concurrents, et de ce fait, nous avons plus de

retours sur ce dont ont besoin les clients. Et puis, nous

avons simplement eu plus de temps que tout le monde

pour construire nos produits. Notre technologie, notre

équipe, nous séparent des concurrents. 20 milliards

d’événements online sont ingérés chaque jour par nos

systèmes. 20 millions de foyers voient leur

consommation énergétique traitée et analysée par nos

systèmes, 70% des activités en ligne des utilisateurs

mobiles US passent à un moment ou à un autre par un

système Cloudera, notamment les services en matière de

géolocalisation. 4 des 5 premières banques US nous

utilisent pour de l’analyse de risque ou de la détection de

fraude et nous sommes présents chez les plus grands

opérateurs télécoms, ainsi que dans les grandes agences

de renseignement américaines. Il ne s’agit pas, comme

vous le voyez, que d’applications internet grand public. Il

ne s’agit pas de Facebook - pour motoriser la sélection de

publicités qu’il va afficher à ses membres. On parle là

d’un échantillon très large de workloads dans des secteurs

économiques très variés, permettant de résoudre des

problèmes spécifiques à chaque client. Cette plate-forme

ne peut générer un marché de plusieurs milliards de

dollars que si elle est suffisamment générique et peut être

appliquée à des problèmes très différents, c’est le cas

dans notre base installée.

Cloudera et ses concurrents dans le monde

Hadoop (MapR, HortonWorks…)...

Hadoop et les traitements en temps réel...

DÉCOUVRIR HADOOP

Page 13: Tout savoir sur Hadoop : Vulgarisation de la technologie ...docs.media.bitpipe.com/io_10x/io_108885/item_951685/Handbook_Tou… · DIE FÜNF TOP Hadoop inconvénients. Tout savoir

PRESENTATION

VULGARISATION :

DECOUVRIR HADOOP

LES ACTEURS :

LES ACTEURS DE LA SPHERE

HADOOP

TOUT SAVOIR SUR HADOOP 13

Pour ceux qui ne connaissent pas très bien Hadoop, la

conception a eu lieu chez Google et l’accouchement s’est

fait dans des sociétés comme Facebook ou Yahoo. Le

problème que ces sociétés cherchaient à résoudre était

celui du traitement à très grande échelle de log web. Ils

avaient beaucoup de données à traiter en mode batch. Ils

ont donc conçu MapReduce, un système de traitement de

données en mode batch pour analyser ces données. Cela a

transformé la façon dont Internet opère. Ce qui nous a

motivés chez Cloudera est que nous étions convaincus

que ce qui a transformé l’Internet grand public était

applicable aux entreprises : Google n’était pas différent

d’une entreprise normale, il opérait simplement 10 ans

dans le futur… Stocker de grandes quantités de données

et pouvoir réaliser des traitements en mode batch dessus a

déjà changé les choses. Mais soyons honnêtes, il y a

beaucoup d’applications qui ne fonctionnent pas en mode

batch dans le monde. Il y aussi un grand nombre

d’applications temps réel et interactives. Si Hadoop était

prisonnier du ghetto batch, il ne pourrait pas tirer parti

d’opportunités de marché très larges. C’est pourquoi dans

le cadre de notre plate-forme, nous délivrons une plate-

forme d’analyse de données en temps réel baptisée

Hbase. Nous avons aussi fait une contribution majeure à

la communauté Open Source avec un logiciel de

traitement en temps réel baptisé Impala qui permet

d’effectuer des requêtes interactives sur les données

stockées dans Hadoop. En fait vous pouvez utiliser

MapReduce, Hbase ou Impala sur un même jeu de

données. Une fois que les données sont stockées sur

Hadoop, vous pouvez lui apporter tout type de moteur de

traitement. MapReduce n’est pas la seule alternative,

Hbase ou Impala sont disponibles aujourd’hui mais au fil

des ans de nouveaux moteurs devraient s’ajouter à la

liste.

Si vous regardez le projet open source Hadoop vous avez

effectivement raison. Il s’agit d’une « imitation » avec 4

ans de retard sur ce que Google avait inventé en interne.

J’ai passé 26 ans de ma carrière dans le monde des

SGBD, j’ai lu à l’époque l’article de Google sur

MapReduce et j’ai pensé qu’il s’agissait d’une blague.

Tout le monde dans l’industrie pensait savoir comment

bâtir des bases de données à grande échelle et nous avons

complètement raté l’opportunité que représentaient

Hadoop et le Big Data en général. Une industrie avec des

milliards de dollars de revenus, avec un énorme budget

R&D épaulé par la recherche de multiples universités de

classe mondiale, a passé 30 ans à perfectionner ses

Impala n’est-il pas une implémentation de

Google Dremel avec 2 à 4 ans de retard ? Et

que dire du retard général Hadoop sur les

technologies développées en interne par

Google ?

DÉCOUVRIR HADOOP

DÉCOUVRIR HADOOP

DÉCOUVRIR HADOOP

Page 14: Tout savoir sur Hadoop : Vulgarisation de la technologie ...docs.media.bitpipe.com/io_10x/io_108885/item_951685/Handbook_Tou… · DIE FÜNF TOP Hadoop inconvénients. Tout savoir

PRESENTATION

VULGARISATION :

DECOUVRIR HADOOP

LES ACTEURS :

LES ACTEURS DE LA SPHERE

HADOOP

TOUT SAVOIR SUR HADOOP 14

logiciels de traitement de données et au final, c’est une

bande de développeurs hirsutes de Mountain View en

Californie qui a sorti de son chapeau la technologie qui a

révolutionné le secteur.(…) Impala est un mix entre des

idées neuves et des concepts empruntés à Dremel. Dans

les trimestres à venir, nous allons apporter de nouvelles

innovations à la plate-forme qui ne sont pas dérivées de

Google. Mais nous n’avons pas honte : nous prendrons

les bonnes idées d’où qu’elles proviennent. Ce que nous

avons fait franchement est d’interroger notre base

installée pour voir quels étaient ses besoins et pour y

répondre, nous avons embauché l’ingénieur de Google

qui avait construit Dremel. Il y a en revanche des

fonctions qui arrivent qui sont inspirées de demandes de

nos clients et qui n’ont rien à voir avec ce que fait

Google. Et je le répète. Nous n’avons aucune réserve à

emprunter de bonnes idées à Google. En fait, il va se

passer pour la plate-forme Hadoop, ce qui est arrivé aux

SGBD. Il y a 30 ans, vous pouviez aller voir Ingres et

acheter un SGBD. Aujourd’hui vous ne pouvez plus aller

voir Ingres(sic), mais IBM, Oracle ou Microsoft pour

acheter votre SGBD. Mais ce logiciel n’a plus rien à voir

avec les SGBD d’il y a 30 ans. Hadoop est jeune, il va

évoluer pour exploiter de nouveaux développements

techniques, comme la généralisation des réseaux longue

distance à haute performance, la chute des coûts du

stockage. Il sera intéressant de voir ce que sera le

positionnement prix de la Flash d’ici 5 ans. En fait si

vous entendez aujourd’hui quelqu’un critiquer Hadoop en

disant, « oui, mais Hadoop n’est bon qu’à X ou Y », il est

prudent de rajouter « aujourd’hui ». Les limitations que

nous connaissons aujourd’hui seront certainement

contournables dans le futur avec un peu d’ingénierie. –

Christophe Bardy

4. CLOUD ET IMPLEMENTATION HADOOP : ETAT DES

LIEUX

Le Big Data a déjà marqué de son empreinte le marché

IT. C'est notamment visible chez les acteurs du Paas, tels

que Amazon, Google, Heroku, IBM et Microsoft dont les

offres ont largement occupé le haut de l’affiche.

Toutefois, dans ce contexte, il est difficile de savoir quel

fournisseur propose l’implémentation la plus complète

d’Apache Hadoop dans un cloud public.

Clairement, le framework de la fondation Apache, ainsi

que HDFS, MapReduce, Hive, Pig ont gagné en

popularité dans l’analytique Big Data, alors que les

entreprises sont de plus en plus adeptes des modèles Paas

pour entreposer leurs données. A cela s’ajoute un niveau

de maturité d’Hadoop, dont la sortie de la version 1.0 a

poussé le framework dans les environnements de

production liés à l’analytique.

DÉCOUVRIR HADOOP

Page 15: Tout savoir sur Hadoop : Vulgarisation de la technologie ...docs.media.bitpipe.com/io_10x/io_108885/item_951685/Handbook_Tou… · DIE FÜNF TOP Hadoop inconvénients. Tout savoir

PRESENTATION

VULGARISATION :

DECOUVRIR HADOOP

LES ACTEURS :

LES ACTEURS DE LA SPHERE

HADOOP

TOUT SAVOIR SUR HADOOP 15

Du côté des entreprises, le gain est également évident.

Cette capacité à créer des clusters Hadoop hautement

scalables sur un modèle OnDemand, combiné à des

traitements MapReduce, a permis aux entreprises de

réduire leurs dépenses en matériels et serveurs à demeure,

dont l’utilisation n’était que sporadique. En conséquence,

Hadoop s’est imposé chez les fournisseurs de Paas,

comme Amazon, Google, IBM et Microsoft, qui ont

décidé de pré-packager Hadoop et MapReduce sous la

forme de services pré-configurés.

Amazon Web Services a dégainé le premier en avril

2009, avec Elastic MapReduce (EMR). EMR prend en

charge le provisioning de cluster Hadoop, exécute des

jobs flow et transfère les données entre Amazon EC2 et

Amazon S3. EMR intègre également Apache Hive, un

service bâti sur Hadoop pour l’entrepôt de

données. EMR supporte la tolérance de panne pour les

noeuds esclaves. Amazon conseille de seulement

exécuter Task Instance Group dans des instances

ponctuelles (instances spots) afin de bénéficier de coûts

réduits, tout en assurant la haute disponibilité. Toutefois,

AWS n’a ajouté le support des instances ponctuelles

qu’en août 2011.

Pour EMR, Amazon pratique un surcoût de 0,015 à

0,50 dollars par heure sur ses offres de petites instances et

celles dédiés au calcul à hautes performances (Cluster

Compute Eight Extra Large d’EC2). Selon AWS, une fois

les traitements démarrés, EMR prend en charge le

provisioning des instances EC2, les paramètres de

sécurité, la configuration d’Hadoop, la collecte des logs,

le monitoring ainsi que les problématiques hardware,

telles que la désactivation automatique des instances en

échec des job flow. AWS a récemment annoncé l’accès

gratuit à Cloudwatch pour EMR.

Selon Mike Aizatskyi, développeur chez Google, toutes

les équipes du groupe utilisent MapReduce, depuis sa

création en 2004. Google a publié des API AppEngine -

MapReduce, sous la forme de versions expérimentales

des API MapReduce destinées à supporter les

AWS Elastic MapReduce

Google App Engine - MapReduce

DÉCOUVRIR HADOOP

Page 16: Tout savoir sur Hadoop : Vulgarisation de la technologie ...docs.media.bitpipe.com/io_10x/io_108885/item_951685/Handbook_Tou… · DIE FÜNF TOP Hadoop inconvénients. Tout savoir

PRESENTATION

VULGARISATION :

DECOUVRIR HADOOP

LES ACTEURS :

LES ACTEURS DE LA SPHERE

HADOOP

TOUT SAVOIR SUR HADOOP 16

développements réalisés avec Hadoop 0.20 sur Google

App Engine. Les équipes de Google ont ensuite publié

des API en mars 2011 pour proposer un type de système

de fichiers pour le stockage Blob. Elles ont également

amélioré la fonction User-Space Shuffler.

L’API Google AppEngine - MapReduce permet de

manipuler les opérations de type Map, Shuffle et Reduce

via l’ API Pipeline. Toutefois, Google n’a toujours pas

modifié le statut, toujours au stade expérimental de son

API. AppEngine - Mapreduce adresse davantage les

problématiques des développeurs Java et Python que

celles des statisticiens Big Data ou encore les spécialistes

de l’analytique. Shuffler est également limité à 100 Mo

de données, ce qui ne le fait pas véritablement entrer dans

la vision Big Data. Pour de plus gros volume de données,

un accès vers BigShuffler peut être demandé auprès de

Google.

L’add-on Treasure Data Hadoop pour Heroku permet

d’utiliser Hadoop et Hive pour analyser les logs et les

événements des applications hébergées - une des

principales fonctions de la technologie. Heroku propose

également d’autres add-on Big Data, comme

l’implémentation de Apache CouchBase (Cloudant),

MongoDB, MongoHQ, Redis To Go, et Neo4,

notamment. AppHarbor, présenté par certains comme le

Heroku pour .NET propose également une série d’add-on

pour Cloudant, MongoLab, MongoHQ et Redis To Go,

ainsi que des add-ons pour RavenHQ. Ni Heroku ni

AppHarbor ne proposent des implémentations globales

d’Hadoop.

L’aventure de l’analytique Hadoop d’IBM a débuté en

octobre 2011 avec InfoSphere BigInsights Basic pour

IBM SmartCloud Enterprise. BigInsight Basic, qui peut

gérer jusqu’à 10 To de données, est également disponible

gratuitement pour les systèmes Linux. BigInsights

Enterprise reste en revanche payant. Ces deux versions

intègrent Apache Hadoop, HDFS, et le framework

MapReduce, ainsi qu’un ensemble de sous-projets

Treasure Data Hadoop, add-on pour

Heroku

IBM Apache Hadoop pour SmartCloud

DÉCOUVRIR HADOOP

DÉCOUVRIR HADOOP

DÉCOUVRIR HADOOP

Page 17: Tout savoir sur Hadoop : Vulgarisation de la technologie ...docs.media.bitpipe.com/io_10x/io_108885/item_951685/Handbook_Tou… · DIE FÜNF TOP Hadoop inconvénients. Tout savoir

PRESENTATION

VULGARISATION :

DECOUVRIR HADOOP

LES ACTEURS :

LES ACTEURS DE LA SPHERE

HADOOP

TOUT SAVOIR SUR HADOOP 17

Hadoop. L’édition Enterprise, quant à elle, comprend une

plug-in pour Eclipse pour créer des formats texte, la

découverte de données formatées (comme celles d’un

tableur) ainsi qu’une connectivité JDBC à Netezza et

DB2. Ces deux éditions embarquent également des outils

d’installation et d’administration.

Les spécifications techniques fournies par IBM restent

toutefois floues quant aux versions de BigInsights

présentes dans le cloud public.

Microsoft s’est associé à Hortonworks, une spin-off de

Yahoo spécialisée dans les services Hadoop, pour

implémenter Hadoop sur Azure (HoA - Hadoop on

Azure). Depuis le 14 décembre 2011, HoA est disponible

en version CTP, mais uniquement sur invitation.

Avant de prendre le train Hadoop en marche, Microsoft a

développé Dryad, une base de données de type graphe

développée par Microsoft Research, et sur l’add-on High-

Performance Computing (LINQ to HPC) pour gérer

l’analytique Big Data. La CTP de HoA donne accès à un

choix de clusters Hadoop pré-définis (de Small, pour 4

noeuds et 4 Go de stockage, à Extra Large, 32 noeuds et

16 To), pour simplifier les opérations MapReduce.

Microsoft a développé plusieurs projets autour de

Hadoop / MapReduce, comme le calcul de la valeur de pi

ou encore une méthode de développement portant sur

l’utilisation de C# pour écrire un programme MapReduce

pour le streaming de données.

L’éditeur de Redmond fournit également de nouvelles

bibliothèques Javascript, afin de faire du langage un outil

de programmation pour Hadoop. Une façon de lever les

barrières à l’adoption de Hadoop et MapReduce en

permettant de développer des programmes MapReduce

en Javascript et de les exécuter dans le navigateur. La

CTP comprend également un add-on à Hive pour Excel

qui permet aux utilisateurs d’interagir avec les données

dans Hadoop. Les utilisateurs peuvent ainsi réaliser des

requêtes Hive afin d’analyser les données non structurées

d’Hadoop au sein de l’interface d’Excel. Cette version

inclut également un pilote ODBC Hive qui permet

d’intégrer Hadoop aux autres outils de BI de Microsoft.

HoA devrait être mis à jour lors d’une évolution d’Azure

prévue à la mi-2012. Elle devrait ainsi ouvrir le

programme CTP à davantage de développeurs. Cette

version devrait également inclure l’implémentation

d’Hadoop pour Windows Server 2008 R2 pour les cloud

privé et les environnements hybrides. Comme peuvent le

laisser penser les dernières réductions tarifaires d’Azure,

Microsoft Apache Hadoop sur Windows

Azure

DÉCOUVRIR HADOOP

Page 18: Tout savoir sur Hadoop : Vulgarisation de la technologie ...docs.media.bitpipe.com/io_10x/io_108885/item_951685/Handbook_Tou… · DIE FÜNF TOP Hadoop inconvénients. Tout savoir

PRESENTATION

VULGARISATION :

DECOUVRIR HADOOP

LES ACTEURS :

LES ACTEURS DE LA SPHERE

HADOOP

TOUT SAVOIR SUR HADOOP 18

Microsoft entend placer, d’un point du vue prix, HoA en

frontal à Elastic MapReduce.

Comme l’indique James Kobielus de cabinet d’étude

Forrester, «si Hadoop et MapReduce seront des

frameworks clés de la sphère Big Data, ils ne seront

toutefois pas les seuls».

Par exemple, Microsoft travaille également à un projet

baptisé Cloud Numerics (en CTP) pour .NET, pour le

calcul intensif sur un large volume de données distribuées

dans Windows Azure.

Les équipes de recherche ont également publié le code

source pour implémenter l’analyse de données Excel dans

Windows Azure, au sein de son projet Daytona.

Les fournisseurs de Paas qui permettront d’automatiser

l’implémentation de Hadoop, MapReduce et Hive

bénéficieront du soutien d’un grand nombre de «data

scientists» et des acteurs de l’analyse de données.

Pouvoir placer Excel en front-end d’application de BI

donne à Microsoft et à son offre Big Data une longueur

d’avance. Amazon et Microsoft proposent pour l’heure

les services Hadoop les plus automatisés et complets.

– Christophe Bardy

Le Big Data, au delà de Hadoop et

MapReduce

DÉCOUVRIR HADOOP

Page 19: Tout savoir sur Hadoop : Vulgarisation de la technologie ...docs.media.bitpipe.com/io_10x/io_108885/item_951685/Handbook_Tou… · DIE FÜNF TOP Hadoop inconvénients. Tout savoir

PRESENTATION

VULGARISATION :

DECOUVRIR HADOOP

LES ACTEURS :

LES ACTEURS DE LA SPHERE

HADOOP

TOUT SAVOIR SUR HADOOP 19

1. ENTRETIEN AVEC AMR AWADALLAH, CTO DE

CLOUDERA

Amr Awadallah est le CTO et co-fondateur de

Cloudera, spécialiste de la distribution Hadoop. Avant

cela, il était vice président de l’ingénierie produit chez

Yahoo. Lors d’une récente visite à Londres, il s’est

entretenu avec nos confrères et partenaires de

ComputerWeekly sur la façon dont la société met en

place son concept de « Hub de données en entreprise »

par opposition aux entrepôts de données déjà établis dans

les entreprises.

Il existe deux publics pour le Big Data. Celui intéressé

par le concept et celui qui l’utilise. Quelle est votre

approche par rapport à cela ? Amr Awadallah : On

trouve des personnes à tous les étages : ceux qui ne sont

pas certains de ce qu’il faut faire et qui tâtonnent, et les

clients qui sont déjà dedans. Cela est normal, comme

dans tout cycle d’adoption d’une nouvelle technologie.

Est-il moins nécessaire d’évangéliser avec les

technologies Big Data ? Les problèmes ne sont-ils pas

plus évidents qu’à l’habitude ?

Amr Awadallah : Non, nous n'en sommes encore qu’au

commencement. On trouve certains cas d’usage liés à

l’efficacité opérationnelle, qui abordent la question de

économie de coûts. Les gens comprennent cela tout de

suite. Mais pour vendre la vision complète de ce que nous

appelons le hub de données d'entreprise [Enterprise Data

Hub] - il faut encore plus d’évangélisation, même si les

clients sont devenus réceptifs.

Un hub de données d’entreprise ?

Amr Awadallah : La mission de Cloudera est de

permettre aux clients d’utiliser toutes leurs données pour

obtenir encore plus d’informations et poser davantage de

questions. « Toutes » est ici le mot-clé. Il ne s’agit pas

que des Big Data , mais de toutes les données. Il s’agit

d’avoir une vision globale de vos clients.

L’exemple que j’aime donner de cet ensemble de données

en question est celui des distributeurs de billets. Il y a 10

ans, la seule information enregistrée était la transaction

en elle-même. Aujourd’hui, vous pouvez également

collecter des informations implicites, comme votre

visage, la façon dont vous interagissez avec l’écran, si

vous disposez d’un smartphone sur lequel est installé

l’application de la banque et les informations liées au

scanner de chèques. Tout cela améliore la détection de

fraudes.

Les acteurs de la sphère Hadoop

LES ACTEURS DE LA

SPHÈRE HADOOP

Page 20: Tout savoir sur Hadoop : Vulgarisation de la technologie ...docs.media.bitpipe.com/io_10x/io_108885/item_951685/Handbook_Tou… · DIE FÜNF TOP Hadoop inconvénients. Tout savoir

PRESENTATION

VULGARISATION :

DECOUVRIR HADOOP

LES ACTEURS :

LES ACTEURS DE LA SPHERE

HADOOP

TOUT SAVOIR SUR HADOOP 20

« Poser davantage de questions » est également un point

important. Les applications traditionnelles se sont

focalisées sur l’usage de SQL. Désormais, SQL est

puissant, mais il y a toujours des questions que vous ne

pouvez pas poser. Vous ne pouvez pas traiter des images

ou faire de la reconnaissance vocale avec SQL. Ni

scanner un document PDF.

Le cas d’usage ultime est une vue à 360 du client. Cela

résout les problèmes de silos de données et de données

répartis sur plusieurs canaux. Notre plate-forme permet

de casser ces silos.

Cloudera est un distributeur de distribution Hadoop.

En quoi cette approche de hub correspond-il à une

évolution ?

Amr Awadallah : Il ne s’agit pas de renier de ce que

nous avons fait. Mais de parler un langage plus familier

aux entreprises. 80% des distibutions Hadoop vendues

dans le monde sont les notres. Mais nous proposons

également des technologies en parallèle. Hadoop est aussi

en train de se transformer - Yarn contribue ainsi à ouvrir

la plate-forme. Il y a 5 ans, tout ce que vous pouviez

réaliser avec Hadoop était des opérations MapReduce.

Yarn permet à d’autres applications de s’exécuter au

dessus des données, comme des applications interactives

SQL, ce que propose Impala par exemple.

Nous disposons également d’une fonction de recherche

nativement intégrée. Nous nous intégrons avec SAS et

Splunk - Hunk s’exécute nativement sur Hadoop. Le

moteur d’ETL d’Informatica s’exécute également au

dessus de la plate-forme Cloudera.

L’analogie que nous aimons utiliser est celle-ci : nous

sommes le smartphone de la donnée, au lieu du Reflex

numérique. Les entrepôts de données des entreprises sont

les Reflex du monde de la données. Ils sont chers et ne

font qu’une seule chose - interroger des données

structurées. Le hub de données en entreprise est

équivalent à un smartphone. Il est pratique et les

applications peuvent toutes partager les données. C’est

pareil avec nous. Le modèle est que les applications

viennent aux données, plutôt que de déplacer les données

vers des silos de traitement fermés, ce qui empêche

d’avoir une vue à 360 degré.

Notre approche est plus économique que l’entrepôt de

données traditionnel. Avec nous, le coût pour un teraoctet

de données tourne autour de 1 000$. Dans des entrepôts

de données, vous pouvez payer jusqu’à 100 000$ par

teraoctoet pour stocker des données que vous n’utilisez

pas - des données que vous n’avez pas consulté depuis 6

mois par exemple. Nous proposons un système

d’archivage dynamique pour cela.

LES ACTEURS DE LA

SPHÈRE HADOOP

Page 21: Tout savoir sur Hadoop : Vulgarisation de la technologie ...docs.media.bitpipe.com/io_10x/io_108885/item_951685/Handbook_Tou… · DIE FÜNF TOP Hadoop inconvénients. Tout savoir

PRESENTATION

VULGARISATION :

DECOUVRIR HADOOP

LES ACTEURS :

LES ACTEURS DE LA SPHERE

HADOOP

TOUT SAVOIR SUR HADOOP 21

Nous avons également collaboré avec Teradata au niveau

de l’intégration. Mais aussi avec Oracle, et sa Big Data

Appliance, et avec HP autour du système Vertica.

Toutefois, il restera toujours des utilisations pour

lesquelles un Reflex est encore la bonne solution.

Les projets Big Data en entreprise sont souvent

assimilés à des projets scientifiques. Dépassent-ils ce

stade ?

Amr Awadallah : D’abord, 60% des entreprises du

Fortune 500 utilisent Cloudera, en production et non pas

dans des projets scientifiques. Trois des quatre

spécialistes de la carte de crédit dans le monde s’adossent

à notre solution pour la détection de fraudes. L’Europe a

deux ans de retard sur les US. Aux Etats-Unis, le

gouvernement fédéral et Monsanto sont clients. Ce

dernier utilise la plate-forme pour recueillir des données

expérimentales de capteurs placés sur le terrain. Ils

mesurent la température, la composition du sol, le taux

d’humidité et la croissance des plantes. Le groupe

travaille à rendre des graines plus efficaces dans

différents environnements. Ils partent du principe que

dans les 10 prochaines années, les êtres humains

consommeront plus qu'au cours des cent dernières

années. Je n’aurai jamais envisagé un tel cas d’usage avec

nos technologies lorsque nous nous sommes lancés il y a

cinq ans.

Comment se répartit votre base de clients en termes

de secteurs d'activité?

Amr Awadallah : Pour nous, les industries clés sont le

retail, les entreprises du Web (eBay, par exemple), les

télécoms (aussi bien les fournisseurs d’infrastructures que

les fabricants de terminaux mobiles comme Nokia,

Motorola Mobility et RIM), le secteur du pétrole et du

gaz, l’énergie intelligente, l’industrie automobile ,ainsi

que le bâtiment.

C’est une affaire de grands comptes. Il ne s’agit pas

d’une technologie de petite entreprise, à l'exception des

start-up du Web, comme box.com, king.com, etc…En fait

elle est utilisée partout où les volumes de données

explosent.

Comment résumeriez-vous la valeur ajoutée de vos

solutions ?

Amr Awadallah : Nous essayons de donner de l’agilité

pour abaisser le coût de la curiosité. Le prix de la

curiosité est élevé aujourd'hui dans les entreprises.

Lorsque je dirigeais l’infrastructure IT chez Yahoo, les

métiers venaient me voir pour ajouter une nouvelle

colonne au modèle d’une donnée. C’est difficile avec les

entrepôts de données. Cela demande des semaines, voire

des mois.

LES ACTEURS DE LA

SPHÈRE HADOOP

Page 22: Tout savoir sur Hadoop : Vulgarisation de la technologie ...docs.media.bitpipe.com/io_10x/io_108885/item_951685/Handbook_Tou… · DIE FÜNF TOP Hadoop inconvénients. Tout savoir

PRESENTATION

VULGARISATION :

DECOUVRIR HADOOP

LES ACTEURS :

LES ACTEURS DE LA SPHERE

HADOOP

TOUT SAVOIR SUR HADOOP 22

Je leur demandais alors : « Quelle valeur cela va créer

pour vous ? » Ils me répondaient : « nous ne pouvons pas

vous dire quelle valeur nous allons tirer de cette colonne

supplémentaire. » Cela empêche les entreprises

d’innover. Il est nécessaire d’avoir un système beaucoup

plus flexible, de façon à pouvoir ajouter rapidement de

nouvelles colonnes et des types de données. Hadoop offre

cela. Vous pouvez expérimenter plus facilement. –

Cyrille Chausson

2. AVEC HORTONWORKS, RED HAT FAIT DE HADOOP

UNE EXTENSION DE SES SOLUTIONS

Red Hat a décidé de fondre un peu plus Hadoop dans son

offre de stockage. Pour cela, la firme de Raleigh a étendu

ses relations avec l’un des spécialistes du secteur,

Hortonworks,dans le cadre d’une alliance dite

stratégique. Cette collaboration vise a créer des ponts

d’intégration entre les technologies des deux parties afin

« d’accélérer l’adoption » du très précieux framework,

assure John Kreisa, vice président du marketing chez

Hortonworks - et ancien responsable marketing stockage

chez Red Hat, dans un billet de blog. En clair, il s’agit

d’encourager les entreprises à insérer dans leur SI des

projets de gestion et d’analyse de données en volume. Et

quoi de mieux que de proposer une solution unifiée et

intégrée - les 2 sont Open Source - plutôt que d’avoir à

composer avec deux fournisseurs différents.

L’objectif de cette alliance est ainsi d’inscrire la plate-

forme HDP (Hortonworks Data Platform) d’Hortonworks

directement dans la stack Red Hat, au niveau du

stockage, du middleware et d'intégrer HDP avec la

stratégie de cloud hybride de Red Hat. L’accord porte

d’abord sur l’intégration de HDP avec Red Hat Storage,

grâce notamment à des travaux que les deux partenaires

ont réalisé conjointement au sein du projet Apache

Ambari. Un projet qui vise à faciliter la mise en place

ainsi que l’administration et le monitoring de clusters

Hadoop. Un plug-in a ainsi développé pour Red Hat

Storage (ex-GlusterFS) permettant d’y connecter HDP.

« La plate-forme de Red Hat apparaît comme une option

lorsque HDP est installée via Ambari », explique le site

d’Hortonworks. L’idée est d’ajouter une interface

Hadoop (via un plug-in Red Hat Storage pour Hadoop) à

la solution de stockage de Red Hat et de permettre aux

architectes de données « de combiner des données

Hadoop aux données de l’entreprise dans un espace de

srtockage unique ». Le plug-in est aujourd’hui en bêta et

permet de passer outre les limitations d'HDFS en

utilisation la stack de stockage Red Hat en lieu et place

du file system distribué Hadoop. Cette interfface s'ajoute

aux interfaces POSIX et Swift (la brique stockage objet

LES ACTEURS DE LA

SPHÈRE HADOOP

Page 23: Tout savoir sur Hadoop : Vulgarisation de la technologie ...docs.media.bitpipe.com/io_10x/io_108885/item_951685/Handbook_Tou… · DIE FÜNF TOP Hadoop inconvénients. Tout savoir

PRESENTATION

VULGARISATION :

DECOUVRIR HADOOP

LES ACTEURS :

LES ACTEURS DE LA SPHERE

HADOOP

TOUT SAVOIR SUR HADOOP 23

d’OpenStack) déjà disponibles pour Red hat Storage.

Dans cette même logique, HDP se retrouve intimement

lié à la plate-forme OpenStack de Red Hat (Red Hat

Enterprise Linux OpenStack) afin de « simplifier

l’automatisation de déploiement d’Hadoop », sur

OpenStack, indique Red Hat.

Autre pont d’intégration, HDP se retrouve associé à

RHEL et OpenJDK afin de faciliter le développement

d’applications analytiques et la capacité de les déployer

dans plusieurs environnements, virtuels, cloud ou sur site,

explique en substance Red Hat. HDP 2.0 était déjà

certifié pour OpenJDK 1.7.0_09-icedtea. Enfin dernier

élément de cette alliance, la solution d’agrégation, de

fédération et de gestion de données de Red Hat, JBoss

Data Virtualization, peut désormais absorber des données

issues de clusters Hadoop et les conjuguer avec les

données issues des bases de données SQL et NoSQL, et

des applications d’entreprises, cloud ou pas.

Selon Matthew Aslett, directeur de recherche spécialisé

dans le data management et l’ analytique pour le cabinet

451 Research, cité dans un communiqué, la communauté

Hadoop devrait également profiter de cette alliance, car

tous les développements conjoints entre Hortonworks et

Red Hat seront reversés à la communauté Apache

Hadoop. – Cyrille Chausson

3. MAPR VEUT POUSSER HADOOP PLUS LOIN DANS LES

ENTREPRISES

L’un des pure-players indépendants du monde Hadoop,

MapR, a profité de la Strata Conference 2014 qui se tient

actuellement à Santa Clara en Californie, pour démontrer

sa capacité à donner aux entreprises les moyens d’utiliser

un environnement Hadoop dans leur SI.

MapR constitue avec Hortonworks et Cloudera, l'un des 3

acteurs indépendants qui ont basé leur modèle

économique sur Hadoop. Avec certes une approche un

peu différente. Par exemple, Si Hortonworks se base sur

une notion de services autour de sa distribution Hadoop,

Cloudera tend volontiers à s’extraire du monde de

l’édition Hadoop pour développer une sphère de

technologies adjacentes, compilées dans ce que la société

baptise « un hub de données en entreprise ».

De son côté, MapR a depuis son origine concentré ses

efforts pour faire d’Hadoop un composant d’entreprise,

en développant par exemple son propre système de

fichiers MapR FS, reposant sur le standard NFS, plus

couramment utilisé dans les entreprises que HDFS, le

Intégrer HDP à RHEL et OpenJDK

LES ACTEURS DE LA

SPHÈRE HADOOP

LES ACTEURS DE LA

SPHÈRE HADOOP

Page 24: Tout savoir sur Hadoop : Vulgarisation de la technologie ...docs.media.bitpipe.com/io_10x/io_108885/item_951685/Handbook_Tou… · DIE FÜNF TOP Hadoop inconvénients. Tout savoir

PRESENTATION

VULGARISATION :

DECOUVRIR HADOOP

LES ACTEURS :

LES ACTEURS DE LA SPHERE

HADOOP

TOUT SAVOIR SUR HADOOP 24

système de fichiers Hadoop. Cette approche peut ainsi

être retrouvée dans la dernière version de la distribution

Hadoop de MapR, qui outre le fait de s’adosser au socle

Hadoop 2.2, et d’intégrer ainsi YARN (le nouveau

gestionnaire de ressources du framework), propose

également la comptabilité avec MapReduce 1.0, histoire

de ne pas couper l’herbe sous le pied des entreprises qui

avaient décidé d’investir précédemment dans Hadoop.

YARN (pour « Yet Another Resource Negotiator ")

permet en effet de s’affranchir du mode de traitement

Batch propre à MapReduce. « La distribution Hadoop de

MapR étend YARN un peu loin en ajoutant une interface

complète, ouverte et standard NFS en plus de HDFS,

permettant aux applications non MapReduce de

bénéficier de façon optimisée d’un stockage en cluster »,

résume Evan Quinn, directeur de recherche au sein du

cabinet Enterprise Management Associates, cité dans un

communiqué. La nouvelle distribution MapR conserve

ainsi une compatibilité avec MapReduce 1.0, et permet

d’exécuter les deux technologies simultanément sur le

même noeud d’un cluster, assure également la société. Et

ce pour une migration moins brutale vers YARN.

Autre exemple, MapR a également annoncé à l’occasion

de ce même événement une intégration entre sa

distribution et la base de données analytique de HP

Vertica, dans le cadre d’une solution dite SQL-on-

Hadoop, baptisé HP Vertica Analytics Platform on

MapR. En clair, proposer une interface 100% compatible

SQL, ainsi que des possibilités analytiques d’une solution

dédiée, pour Hadoop.

« Les entreprises qui ont adopté Hadoop bataillent pour

valoriser les analystes métiers qui ont besoin d’outils de

BI et SQL sophistiqués pour faire leur travail, mais se

sentent restreints avec des approches SQL

incomplètes. », explique John Schroeder (en photo), CEO

et co-fondateur de MapR Technologies dans un

communiqué. Ce tandem MapR / Vertica vient selon lui

résoudre de problème, mieux que les solutions SQL pour

Hadoop actuelles du marché. Comme Impala initié par

Cloudera, ou encore SQL-H de Teradata (développé en

collaboration avec HortonWorks).

Ce rapprochement est en ligne avec la stratégie que mène

actuellement HP dans le cadre de Haven. Ce concept

architectural, qui vise à donner la vision de HP en matière

de gestion et d’analyse des Big Data, réunit Vertica,

Un rapprochement avec HP Vertica

LES ACTEURS DE LA

SPHÈRE HADOOP

LES ACTEURS DE LA

SPHÈRE HADOOP

Page 25: Tout savoir sur Hadoop : Vulgarisation de la technologie ...docs.media.bitpipe.com/io_10x/io_108885/item_951685/Handbook_Tou… · DIE FÜNF TOP Hadoop inconvénients. Tout savoir

PRESENTATION

VULGARISATION :

DECOUVRIR HADOOP

LES ACTEURS :

LES ACTEURS DE LA SPHERE

HADOOP

TOUT SAVOIR SUR HADOOP 25

Autonomy et ArcSight au dessus d’un socle Hadoop.

Récemment, HP a concrètement établi des ponts

d’intégration entre IDOL et Hadoop (IDOL for Hadoop)

permettant d’embarquer les fonctions coeur de la plate-

forme HP (extraction d’entités ou des textes, par

exemple) au plus près des noeuds Hadoop. MapR y est

supporté. Dans ce même logique, HP a également

rapproché IDOL de Vertica.

Enfin, MapR a également profité de la Strata Conference

2014 pour présenter un bac à sable pour Hadoop, dont

l’objectif est de permettre aux développeurs de se faire la

main sur le framework Java et d’y tester leurs

applications en live. Baptisé Sandbox for Hadooop, cet

outil, gratuit, se compose d’une machine virtuelle,

configurable en 5 minutes promet la société, qui contient

la distribution Hadoop de MapR, associée à des tutoriels

à destination des développeurs, mais également des

administrateurs et des analystes métiers. Une façon,

explique MapR, de répondre à la pénurie de compétences

Hadoop, en proposant des outils de formation gratuits et

pouvant être facilement configurés. – Cyrille Chausson

4. SYNCSORT RAPPROCHE UN PEU PLUS LES

MAINFRAMES D’HADOOP

Syncsort se met à l’heure du Big Data. Et lemoins que

l'on puisse dire est que le mois d’octobre 2013 aura été

particulièrement chargé pour cet acteur historique des

outils mainframe et de l’ETL. En un mois, Syncsort a

entamé sa mue et mis en place une stratégie, dont

l'objectif est de le positionner les deux pieds dans le Big

Data et l’intégration de données. Sans pour autant tirer un

trait sur son passé, mais plutôt en exploitant cette

expertise.

Début octobre, afin de prendre résolument le virage

Hadoop, la société, née il y a 45 ans, a officialisé la

séparation de ses activités de protection et de sauvegarde

de données (Data Protection), rachetées par une partie du

management et quelque investisseurs, de celles liées à

l’intégration de données. Une vraie transformation qui

vient sceller la nouvelle orientation de la marque

Syncsort, qui servira désormais de bannière aux activités

d’intégration de données et aura notamment pour mission

d’exploiter le passé du groupe, le mainframe, et de le

conjuguer, l’associer, le connecter à Hadoop. Lonne

Jaffe - déjà CEO de la société depuis l’été 2013 - assure

la direction de la nouvelle structure et promet de mettre

en place une stratégie d’expansion et de croissance en

activant le levier de l’acquisition.

Un bac sable Hadoop

LES ACTEURS DE LA

SPHÈRE HADOOP

Page 26: Tout savoir sur Hadoop : Vulgarisation de la technologie ...docs.media.bitpipe.com/io_10x/io_108885/item_951685/Handbook_Tou… · DIE FÜNF TOP Hadoop inconvénients. Tout savoir

PRESENTATION

VULGARISATION :

DECOUVRIR HADOOP

LES ACTEURS :

LES ACTEURS DE LA SPHERE

HADOOP

TOUT SAVOIR SUR HADOOP 26

Le rachat du Britannique Circle Computer Group,

annoncé le 8 octobre dernier, s’inscrit ainsi dans la

droite ligne de cette stratégie et vient renforcer les outils

de migration de données mainframe vers Hadoop qui

peuplaient déjà le catalogue de Syncsort.

Car évidemment, le virage vers Hadoop et le Big Data

pris par Syncsort remonte à bien plus loin, résume

Stéphane Heckel (en photo), EMEA Partner Manager

chez Syncsort en France, qui rappelle que la société a

travaillé sur le framework Java dés 2007-2008 avec

certains de ses clients comme Comscore.

Depuis, le groupe a travaillé à établir des connexions

entre son coeur historique, le mainframe - 50% du parc

mainframe dans le monde est client Syncsort, selon ses

propres chiffres - et le monde des technologies Hadoop.

Un pont entre les deux mondes, commente Stéphane

Heckel, motivé par l’optimisation des coûts chez les

clients et la demande de migration ou offload, partielle ou

totale, de données et d’applications vers des infrastructure

plus modernes, également moins coûteuses à maintenir.

Selon Stéphane Heckel, un téraoctet de données stockées

dans Hadoop coûterait environ 2 000 $ par an contre 30

000$ dans un mainframe. « On s’est vite aperçu

qu’Hadoop allait prendre une place clé. Nous avons donc

migré nos outils. »

Si Syncsort disposait déjà de produits pour migrer les

données captives des mainframes et les exposer dans un

environnement Hadoop, le rachat de Circle y ajoute la

migration des applications. « Circle propose une boîte à

outils facilitant la migration d’applications accédant à des

grandes quantités de données contenues dans IBM IMS

(Information Management System), encore très présent

chez les grands comptes et très couteux à maintenir, vers

DB2 […] Avec Circle, l’applicatif reste, mais les donnés

migrent ». Pour ensuite pouvoir les exploiter avec

Hadoop, via un ETL pour Hadoop, qui permet « de

développer graphiquement les process MapReduce et de

s’exécuter nativement au sein de la plateforme Hadoop,

sans générer une ligne de code », souligne-t-il. Un

dispositif qu’il qualifie de bi-directionnel : mainframe

vers Hadoop et Hadoop vers mainframe. Il s’agit ainsi

davantage d’une cohabitation pacifique entre les deux

environnements. Sans effacer les gros systèmes de

l’équation, car selon lui « le mainframe va perdurer, mais

les entreprises ont également besoin de systèmes plus

agiles ».

Vers la migration d’applications mainframe

vers Hadoop

LES ACTEURS DE LA

SPHÈRE HADOOP

Page 27: Tout savoir sur Hadoop : Vulgarisation de la technologie ...docs.media.bitpipe.com/io_10x/io_108885/item_951685/Handbook_Tou… · DIE FÜNF TOP Hadoop inconvénients. Tout savoir

PRESENTATION

VULGARISATION :

DECOUVRIR HADOOP

LES ACTEURS :

LES ACTEURS DE LA SPHERE

HADOOP

TOUT SAVOIR SUR HADOOP 27

A cela s’ajoute également les partenariats que la société a

scellés avec les pure-players du monde Hadoop. A

l’image de ceux signés avec Cloudera ou encore

Greenplum en juin 2012.

Toujours dans cette optique « d’ouvrir la porte du

mainframe » à Hadoop, Syncsort a décidé de jouer un

rôle de contributeur actif au framework Hadoop auprès de

la fondation Apache. La société a ainsi développé un

patch (une fonction dans le langage Apache, référencé

MapReduce 2454) qui permet d’implémenter un moteur

de tri alternatif, en l'occurrence celui de Syncsort (Sort

pour Hadoop), en remplacement de celui inclus par

défaut dans Hadoop, résume Stéphane Heckel. Une

contribution qui a été validée à la fin janvier par la

fondation Open Source, après plusieurs mois de

développements. Ainsi, précise-t-il, l’outil de tri de

Syncsort est « pré-cablé » dans Hadoop. Libre ensuite

aux entreprises de l’activer, et ce sans aucune

modification. Cette contribution permet ainsi de rendre la

fonction tri natif extensible, comme une forme de plug-in,

en somme.

Selon Stéphane Heckel, dans chaque distribution Hadoop

qui a implémenté ce patch, il existe donc un pont qui

permet de se connecter vers Syncsort, sans avoir à

générer du code supplémentaire. « En activant l’option

Syncsort, avance-t-il, les entreprises vont accélérer des

processus MapReduce de 40 %. » Reprenant ainsi

l’argumentaire de l’accélération que la société avait

utilisé pour DM Express, son turbo pour ETL. Ce patch

Syncsort a été implémenté par défaut dans la version 4.2

de la distribution Hadoop de Cloudera - le premier à

l’avoir fait dès février - et dans celle d’Hortonworks

(HDP 2). Les implantations chez MapR et Pivotal sont en

cours de validation, ajoute-t-il. De quoi alors créer une

passerelle fluide vers Hadoop pour les 50 % du parc

mainframe mondial que revendique la groupe. – Cyrille Chausson

5. EMC ISILON ET HADOOP : RETENEZ-MOI OU JE FAIS UN MAPR...

EMC continue de lorgner sur le marché du Big Data et

notamment sur le marché Hadoop. Le constructeur, qui

disposait déjà d’un pied dans Hadoop via Greenplum

vient d’en mettre un second en annonçant le « support »

du système de gestion de fichier d’Hadoop, HDFS, sur

ses systèmes de stockage en cluster Isilon.

Un patch pour remplacer le moteur de tri

par défaut d’Hadoop

LES ACTEURS DE LA

SPHÈRE HADOOP

LES ACTEURS DE LA

SPHÈRE HADOOP

Page 28: Tout savoir sur Hadoop : Vulgarisation de la technologie ...docs.media.bitpipe.com/io_10x/io_108885/item_951685/Handbook_Tou… · DIE FÜNF TOP Hadoop inconvénients. Tout savoir

PRESENTATION

VULGARISATION :

DECOUVRIR HADOOP

LES ACTEURS :

LES ACTEURS DE LA SPHERE

HADOOP

TOUT SAVOIR SUR HADOOP 28

Jusqu’au début 2011, Greenplum était connu pour ses

appliances propriétaires de traitement de données

analytiques , mais sous a bannière d’EMC, la firme a

progressivement pris le virage du « Big Data » à la sauce

Hadoop, le framework de traitement analytique open

source né chez Yahoo.

Lors d’EMC World 2011, EMC a ainsi annoncé son

intention de fournir une implémentation d’Hadoop sur les

appliances greenplum. Pour être précis, le constructeur a

annoncé une distribution open source communautaire,

baptisée greenplum HD Community Edition, dérivée du

code de la fondation Apache, et une seconde distribution,

commerciale, orientée « entreprises », dérivée de la

distribution de MapR, greenplum HD Entreprise Edition.

Deux distributions disponibles depuis la rentrée 2011.

Le souci de cette approche duale est que la version

communautaire et open source s’appuie sur le système de

gestion de fichiers libre HDFS (Hadoop File System),

tandis que la déclinaison entreprise s’appuie sur le

système de fichiers propriétaire de MapR. Ce filesystem

est la principale innovation du partenaire d'EMC et il

s’agit d’une innovation importante.

Imaginé par le fondateur du système de gestion de

fichiers en cluster de Spinnaker (racheté par NetApp pour

devenir le cœur du Cluster Mode des baies NetApp), le

filesystem de MapR pallie les principaux défauts d’HDFS

et notamment les risques de panne liés à l’unicité du

nœud gérant les métadonnées de HDFS (name node), qui

est un « single point of failure ». Le système de gestion

de fichiers de MapR est aussi accessible via des

protocoles standards comme NFS, intègre des fonctions

avancées de protection comme les snapshots ou la

réplication. Bref, par rapport à HDFS, il fournit des

bénéfices fonctionnels non négligeables (sans parler de

l’aspect performances).

Dernier atout, l’utilisation de ce filesystem est

transparente pour les applications de la pile Hadoop,

MapR ayant développé une couche d’abstraction

permettant d’y accéder via les API HDFS. Une stratégie

« Canada Dry », qui permet de bénéficier des atouts d’un

filesystem plus abouti, tout en ayant l’impression

d’utiliser HDFS. Seul « petit » problème : dans un

environnement Hadoop largement Open source, MapR

fait tâche, son filesystem étant totalement propriétaire.

EMC et Hadoop : un engagement qui va

croissant

Jusqu’alors le Big Data n’était pas le

meilleur ami du "Big Storage"

LES ACTEURS DE LA

SPHÈRE HADOOP

Page 29: Tout savoir sur Hadoop : Vulgarisation de la technologie ...docs.media.bitpipe.com/io_10x/io_108885/item_951685/Handbook_Tou… · DIE FÜNF TOP Hadoop inconvénients. Tout savoir

PRESENTATION

VULGARISATION :

DECOUVRIR HADOOP

LES ACTEURS :

LES ACTEURS DE LA SPHERE

HADOOP

TOUT SAVOIR SUR HADOOP 29

Au-delà des affrontements entre partisans du libre et du

propriétaire, le développement des filesytems en cluster

comme HDFS ou MapR pose un autre problème aux

géants du stockage : jusqu’alors les utilisateurs d’Hadoop

ont appris à se passer des baies de stockage qui ont fait la

fortune des géants comme EMC ou NetApp. Chaque

nœud d’un cluster Hadoop est en effet à la fois un nœud

de calcul et un nœud de stockage et n’a pas besoin de

recourir à du stockage partagé. Pire, la progression des

filesystem tels que ceux de MapR est à terme une menace

pour les systèmes de stockage établis, MapR fournissant

pour l’essentiel l’ensemble des fonctions de protection

avancées des baies…

Avec les dernières innovations apportées à ses systèmes

de stockage Isilon, EMC a peut-être trouvé un moyen de

changer la donne, notamment pour les déploiements

Hadoop en entreprises.

Intégrer le support de HDFS directement dans Isilon

L’idée d’EMC est à la fois simple et brillante et elle n’est

pas sans rappeler ce qu’a réalisé MapR. Rappelez-vous

que ce dernier a développé son propre système de fichier

en cluster et a développé une couche d’abstraction pour le

faire apparaître comme un file system HDFS. Et bien

EMC a fait de même au-dessus du système de gestion de

fichiers de ses appliances de stockage en cluster Isilon.

En greffant une couche d’abstraction HDFS sur OneFS,

Isilon propose aux clients d’EMC d’utiliser ses systèmes

de stockage pour leurs besoins de stockage, en

conjonction avec des nœuds de calcul utilisant la

distribution communautaire de greenplum. Bref, pour la

première fois, EMC propose une solution Hadoop

séparant clairement calcul et stockage.

Les bénéfices annoncés par EMC sont les mêmes que

ceux mis en avant par MapR à savoir la sûreté que

procure l’utilisation de OneFS en lieu et place d’HDFS

(notamment parce que les metadonnées sont distribuées

et non pas centralisées sur un unique nœud), ainsi que la

possibilité de tirer parti des fonctions riches de OneFS

(support multiprotocole – NFS, CIFS…-, Snapshots,

réplication…). Un autre bénéfice est la mutualisation des

ressources, un système de stockage Isilon pouvant être

partagé entre de multiples applications. Enfin EMC met

en avant une qualité inédite : la dissociation entre la

partie calcul et la partie stockage.

Dans un cluster Hadoop, les nœuds doivent être

largement identiques et le ratio entre puissance de calcul

et capacité de stockage est fixe, ce qui peut mener à des

gaspillages de ressources lorsque les besoins de calcul et

de stockage sont déséquilibrés. Avec la solution proposée

par Isilon, le stockage est géré par l’appliance de

stockage et l’entreprise peut dimensionner la partie

nœuds de calcul séparément. EMC met aussi en avant

l’efficacité accrue du stockage que permet le filesystem

LES ACTEURS DE LA

SPHÈRE HADOOP

Page 30: Tout savoir sur Hadoop : Vulgarisation de la technologie ...docs.media.bitpipe.com/io_10x/io_108885/item_951685/Handbook_Tou… · DIE FÜNF TOP Hadoop inconvénients. Tout savoir

PRESENTATION

VULGARISATION :

DECOUVRIR HADOOP

LES ACTEURS :

LES ACTEURS DE LA SPHERE

HADOOP

TOUT SAVOIR SUR HADOOP 30

Isilon. Avec une implémentation HDFS, chaque donnée

est répliquée sur trois nœuds différents pour des raisons

de protection de données. OneFS est bien plus efficace

pour une sécurité équivalente.

La question que pose immédiatement la stratégie d’EMC

est bien évidemment celle de la pérennité de la

distribution de MapR au catalogue d’EMC. Pour Michael

Maxey, le directeur du marketing produits de Greenplum,

MapR a toujours un rôle à jouer au catalogue d’EMC

mais le focus de Greenplum est clairement sur la

distribution Open Source. La solution Isilon visera

notamment les environnements intermédiaires, qui font

leurs premiers pas avec Hadoop et cherchent une solution

tout en un simple d’emploi. La distribution de MapR,

rebaptisée Greenplum MR, se voit quant à elle, assigner

la mission de séduire les grands clients souhaitant

déployer des clusters Hadoop comportant un très grand

nombre de nœuds, tout en bénéficiant des avantages du

filesystem développé par MapR.

Le premier pari d’EMC est qu’avec ses trois solutions, les

appliances Greenplum, les clusters intermédiaires autour

d’Isilon, et la distribution Greenplum MR, il peut

désormais répondre aux besoins de l'ensemble des clients

quels que soit leur taille ou leurs moyens financiers.

Surtout EMC espère séduire des franges de clients qui,

jusqu’alors, répugnaient à se lancer dans Hadoop du fait

de sa complexité ou du fait de certaines de ses

caractéristiques, perçues comme autant de fragilités. Le

second pari, bien sûr, est de doper un peu plus les ventes

de clusters Isilon du fait de la « greffe HDFS » qui a été

appliquée à OneFS. Au passage EMC s'affranchit aussi

du débat entre propriétaire et open source, qui fait rage à

propos de l'approche semi-propriétaire de MapR. Pour

nombre d'utilisateurs, une baie de stockage, objet hybride

entre matériel et logiciel embarqué, n'a pas de religion,

alors que le file system propriétaire de MapR, 100%

logiciel, est vu comme une intrusion dans un code open-

source par ailleurs "pûr". Ainsi va la vie dans le monde

cruel de l'informatique et des communautés libres...

– Christophe Bardy

Quel avenir pour MapR chez EMC?

LES ACTEURS DE LA

SPHÈRE HADOOP

Page 31: Tout savoir sur Hadoop : Vulgarisation de la technologie ...docs.media.bitpipe.com/io_10x/io_108885/item_951685/Handbook_Tou… · DIE FÜNF TOP Hadoop inconvénients. Tout savoir

PRESENTATION

VULGARISATION :

DECOUVRIR HADOOP

LES ACTEURS :

LES ACTEURS DE LA SPHERE

HADOOP

TOUT SAVOIR SUR HADOOP 31

AUTEURS

CYRILLE CHAUSSON Chef des informations en ligne pour

lemondeinformatique.fr, il s’est très tôt intéressé aux supports

alternatifs aux publications papier et notamment au web. Il a occupé

plusieurs postes de journalistes sur les différents sites du groupe

IDG. En tant que chef d’enquête, il sera amené à traiter quelques

uns de ces sujets pour LeMagIT.fr et participera également à

l’évolution de la plate-forme technique du site.

CHRISTOPHE BARDY Co-fondateur du MagIT, Christophe y a dès le

début pris en charge les rubriques d'infrastructures (Datacenter,

Serveurs, réseaux, Stockage, systèmes d’exploitation, virtualisation.

Aujourd'hui, il est rédacteur en chef adjoint en charge des rubriques

d'infrastructures. Il contribue aussi au contenu éditorial de

StratégiesCloud.fr, le site d'information sur le Cloud du MagIT.

Le document consulté provient du site www.lemagit.fr

Cyrille Chausson | Rédacteur en Chef

Christophe Bardy | Journaliste

Linda Koury | Directeur Artistique

Neva Maniscalco | Designer

Mathilde Haslund | Assistante Marketing [email protected]

TechTarget

22 rue Léon Jouhaux, 75010 Paris

www.techtarget.com

©2014 TechTarget Inc. Aucun des contenus ne peut être transmis ou reproduit quelle que soit la

forme sans l'autorisation écrite de l'éditeur. Les réimpressions de TechTarget sont disponibles à

travers The YGS Group.

TechTarget édite des publications pour les professionnels de l'IT. Plus de 100 sites qui proposent

un accès rapide à un stock important d'informations, de conseils, d'analyses concernant les

technologies, les produits et les process déterminants dans vos fonctions. Nos

événements réels et nos séminaires virtuels vous donnent accès à des commentaires et

recommandations neutres par des experts sur les problèmes et défis que vous rencontrez

quotidiennement. Notre communauté en ligne "IT Knowledge Exchange" (Echange de

connaissances IT) vous permet de partager des questionnements et informations de tous les jours

avec vos pairs et des experts du secteur.