hadoop dans l'enterprise - sas institute group...6 pourquoi in pioneer days they used oxen...

Hadoop dans l’entreprise: du concept à la réalité. Pourquoi et comment?

Jean-Marc Spaggiari | Cloudera jms@cloudera.com | @jmspaggi

Mai 2014

Avant qu’on commence…

Agenda -Qu’est-ce que Hadoop et pourquoi – 25 minutes

- Cas d’utilisation – 20 minutes - Questions – 15 minutes

Qu’est-ce que c’est et pourquoi?

Pourquoi Hadoop?

Traditionnellement, les systèmes de traitement étaient limités par la capacité des processeurs:

• Relativement petit volume de données

• Beaucoup de traitements complexes.

Solution initial: De plus gros ordinateurs:

• Processeurs plus rapides, plus de mémoire;

• Mais toujours pas capable de suivre le volume de croissance des données

Pourquoi Hadoop?

Une solution encore meilleure: Plus d'ordinateurs

• Systèmes distribués

• Utilisation de plusieurs machines pour une même tache.

• Pousser le traitement sur la donnée et non l’inverse.

In pioneer days they used oxen for heavy pulling, and when one ox couldn't budge a log,

they didn't try to grow a larger ox. We shouldn't be trying for

bigger computers, but for more systems of computers.

—Grace Hopper

Nouvelle approche

Avant Pousser les données sur le traitement

Maintenant Pousser le traitement sur les données

Data Entreprises

“Information-centric” utilisent TOUTES les

données:

Structurées, semi-structurées, non

structurées, internes et externes.

Compute

Entreprises «process-centric » utilisent:

• Données structurées • Données internes • Données importantes

Compute

Qu’est-ce que Hadoop? À mes enfants:

• Quelqu’un a créé un logiciel qui aide le monde à résoudre de gros problèmes à moindre coûts. Il lui a donné le nom de la peluche de son fils.

À ma femme:

• C’est un logiciel qui permet à des centaines d’ordinateurs de travailler ensemble comme s’ils étaient un. Ce n’est pas cher, et quand on a besoin de plus de puissance, il suffit d’ajouter d’autres ordinateurs.

Qu’est-ce que Hadoop?

Aux dirigeants d’entreprises:

• Va vous aider à augmenter votre ROI et baisser vos coûts par TB.

À mes amis:

• C’est un peu comme un mélange de minority report et de skynet

Hadoop!

Ce qu’ont fait Google…

• Conçu leur propre système de stockage et de traitement:

• Google File System

• MapReduce

• Buts: • Bon marché

• « Scalable »

• Fiable

Google ont fait quelque chose de différent…

• Ça fonctionne!

• Supporte les services de Google depuis plusieurs années

• Toujours utilisé aujourd’hui.

Google: Messages du futur

• Google à gentiment publié:

• 2003: Google File System (GFS)

• 2004: MapReduce

• Des technologies déjà matures.

Google: Messages du future

• Pas d’adoption initiale de la communauté

• Les gens DB pensaient que ce n’était pas une bonne idée

• Les Non-Google n’en étaient pas là.

• Google n’avait pas d’intérêts dans ces publications

• Modèle d’affaire sur les publicités, pas sur les infrastructures.

Qu’est-ce que Hadoop?

• Logiciel Open Source

• Stocker, Traiter, Analyzer

• Grand quantité de données, stockage brut

• Structurées, non-structurées, semi-structurées… ou une combinaison

• Hadoop = Schema on Read, RDBMS = Schema on Write

Stockage Traitement

HDFS MapReduce, Hive, Impala, Search…

Auto-correctif

Large bande passante

Stockage réparti

Traitement distribué

Tolérance aux pannes

Hadoop “Node”

• Open source

• Environ 60 committers de plus de 10 compagnies:

• Cloudera, Yahoo!, Facebook, Apple, and more

• Centaines de contributeurs:

• Nouvelles fonctionnalités;

• Bug fix

• De très nombreux projets/applications/outils reliés.

Pourquoi Hadoop? Les faits.

Pourquoi Hadoop?

Zookeeper

Impala

Grand écosystem en croissance.

Pourquoi Hadoop? Qui l’utilise.

Pourquoi Hadoop? Intégration.

BI/Analytics ETL Database OS/Cloud/

System Mgmt.

Hardware

Hadoop fourni 2 principaux composants: • Hadoop Distributed File System - HDFS • Map Reduce

Core Hadoop

• Base de données non-sql distribué (low latency).

• Base de données en colonnes.

• Abstraction de base de

données relationnelles

utilisant un langage proche

du SQL appelé HiveQL.

• Utilise MapReduce pour

exécuter les requêtes.

SELECT s.word, s.freq, k.freq

FROM shakespeare JOIN ON (s.word= k.word) WHERE s.freq >= 5;

• Requêtes en temps réel.

• Rapide, nativement en C++

• Utilise le même langage de

requêtes que Hive.

Impala

• Langage de script pour exécuter

(entre autre) des opérations

MapReduce.

• Créé pour simplifier la

créations/execution de taches

MapReduce.

• Peut être étendue avec des

fonctions définies par l'utilisateur

emps = LOAD 'people.txt’ AS

(id,name,salary);

rich = FILTER emps BY salary >

200000;

sorted_rich = ORDER rich BY

salary DESC;

STORE sorted_rich INTO

’rich_people.txt';

Effectue des transferts de données bi-directionels entre Hadoop et la plus part des bases de données.

Client

Système de cueillette et d’agrégation de flux pour des données massives et volumineuses comme par exemple services RPC, Log4J, Syslog, etc.

Un “workflow engine” et

un planificateur de taches

construit spécialement

pour orchestrer les

processus à grande

échelle.

• Zookeeper est un moteur de

consensus distribué.

• Fourni des services prédéfinis

pour, entre autre:

• Élection de leaders;

• Découverte de services;

• Verrous et exclusions mutuelles

distribuées.

ZooKeeper

• Hue est une interface web utilisateur OpenSource pour les applications relative à Hadoop.

• Hue comprend entre autre: • Explorateur de fichiers HDFS; • Concepteur et visualisateur de

jobs MapReduce; • Éditeur de requêtes pour Hive,

Impala, Pig, etc. • Oozie; • Et bien plus.

Libraire d’algorithmes de “machine learning” pour, entre autre: • Recommandations basé sur le

comportement; • Regroupement de documents; • Classification de catégories; • Recommandations d’achats

fréquents; • Etc.

Mahout

• Spark • Shark • Storm • …

Quand un fichier est ajouté, il est découpé en blocs. Taille des blocs = 128MB (défaut) Facteur de réplication = 3

HDFS Block Replication

Node 1 Node 2

Node 3

Node 4 Node 5

File Blocks

Les cas d’utilisation.

La plupart des compagnies

commencent ici!

Deux catégories de cas d’utilisation d’Hadoop

Efficacité opérationnelle Effectuer le même travail, mais plus vite, mieux et moins chers.

Innovation et Avantage Retirer de l’information de TOUTES vos données.

Traitement des données: ETL Offload Stockage des données: Ent. Data Hub

Business Intelligence Advanced Analytics Applications

BI/DW Architecture Aujourd’hui

Data Warehouse

New data

Unstructured data

Source

Data Marts

BI/DW Architecture Aujourd’hui

Staging Server

ETL Tool

New data

Unstructured data

Source

Archive (offline) Extract

Transform Load

Analyze Report

Transform

Data Warehouse

Data Marts

Hadoop plus the Data Warehouse: BI/DW Architecture of Tomorrow

Extract Transform Load

Source

New data

Unstructured data

Source

Analyze Report

Transform

Data Warehouse

Data Marts

Client exemple Institution financière américaine

Bénéfices: • Accès plus rapide à 6 fois plus de données;

• Faible cout, architecture simplifiée;

• Implémentation en quelques mois.

Défis: • Réduire les coûts;

• Se conformer aux règlements imposant un plus gros volume de données pour les « stress tests »

• Consolider et simplifier le traitement des données.

Avant Après

Mainframe Mainframe

Cluster Hadoop Warehouse

Client exemple: Fournisseur de services téléphoniques Canadien

• Croissance exponentielle des données, générées par les nouveaux appareils des clients;

• Analytique limité à 1% des données à cause des contraintes d’ETL et de stockage.

• Nouvelle combinaison de Hadoop + DataWarehouse pour traiter 100% des données (un demi PB par jour!)

• Énorme réduction des temps de traitement (de 4 jours à 53 minutes)

• 90% de réduction du code des ETL

De 1% des données à 100% d’analyse!

Archive Storage

Data Warehouse

Complex Correlation

Alerting

Filter &

Event Monitoring

Streaming ETL

Telecom Services

Data Warehouse

Alerting

Filter &

Event Monitoring

Hadoop Archive Storage

ETL Correlation

Stage 1 DWH

Telecom Services

Après

Client exemple: Agence Marketing Américaine

FTP ETL Database

FTP ETL Database Hadoop

FTP Database Hadoop

Bénéfices: • 300 fois plus de données après un an;

• Performances accrues (30 minutes vs 6 semaines);

• “Scalable”.

Active Archive • Full fidelity original data • Indefinite time • Lowest cost storage

Data Mgmt & Transformations • One source of data for all analytics • Define structure and publish • Significantly faster & cheaper

Self-service Exploratory BI • Simple search + BI tools • “Schema on read” agility • Reduce BI user backlog requests

Multi-workload analytic platform • Bring applications to data • Combine different workloads on common data (i.e. SQL +Search) • True BI agility

EDWs Marts Storage Search Servers Documents Archives

ERP, CRM, RDBMS, Machines Files, Images, Video, Logs, Clickstreams External Data Sources

Summary: Hadoop adoption is a progression

SAS® Embedded Process

SAS & Cloudera Big data analytics in Cloudera

SAS® LASR™ Analytic Server

SAS® Event Stream Processing

SAS/ACCESS® to Hadoop™

& to Impala™

Real-Time & Streaming Interactive Batch & SQL

Visual Analytics

Visual Statistics

Visual Scenario Designer

In-Memory Statistics for Hadoop

Visual Data Builder Visual Scenario Designer

High-Performance Analytics

“Hadoopable” Big Data: Indicateurs

1. Le client souhaite ajouter de nouvelles données

2. Les besoins de stockage augmentent de façon spectaculaire

3. Ressources de traitement insuffisantes pour répondre aux SLA internes de l'entreprise

4. Analyses et ETLS existants à pleine capacité

5. Pressions financières pour réduire les coûts informatiques Best Practice:

Commencer avec des usescases opérationnels;

Continuer avec des usescases analytiques

Thank You Jean-Marc Spaggiari jms@cloudera.com

@jmspaggi

hadoop dans l'enterprise - sas institute group...6 pourquoi in pioneer days they used oxen...

Documents

202007 securesphere function...sybase ase sybase iq teradata...

hadoop + r

quel hadoop (#quelhadoop)

sahara : hadoop as service avec openstack

octo livre blanc hadoop 2015

introduction à hadoop

hdinsight : hadoop en environnement microsoft

fouille de données massives avec hadoop

a hadoop primer

apache hadoop

pioneer - rite-weight, inc

introduction à hadoop & mapreduce · mooc / fun 2014 -...

hfe pioneer sx-1250

hadoop, map reduce - big data paris 2020 · 2 hadoop,...

cdj-900 - pioneer electronics

hadoop graph analysis par thomas vial

hfe pioneer sx-650

hadoop prêt pour l'entreprise

white paper hadoop nov 2013

pioneer 200,