hdinsight : hadoop en environnement microsoft

Post on 20-Nov-2014

499 Views

Category:

Technology

5 Downloads

Preview:

Click to see full reader

DESCRIPTION

HDInsight est le portage de Apache Hadoop sur Windows Server et Windows Azure. Dans cette session, venez découvrir les différentes possibilités de Big Data, ainsi que la capacité de la machine à apprendre toute seule (machine learning). Nous montrerons des exemples liés aux réseaux sociaux.

TRANSCRIPT

Donnez votre avis !Depuis votre smartphone, sur : http://notes.mstechdays.fr

De nombreux lots à gagner toutes les heures !!!

Claviers, souris et jeux Microsoft…

Merci de nous aider à améliorer les TechDays

http://notes.mstechdays.fr

HDInsight : Hadoop en environnement Microsoft

Architecture / Azure / Cloud

Yann Schwartz Benjamin Guinebertière

Architecte Conseiller technologique Windows Azure

ShoppingAdventure

Microsoft France

twitter: @abolibibelot twitter: @benjguin

Windows Azure

• HDInsight et Hadoop 8’• Réseaux sociaux 22’• Machine learning 15’• SSIS 10’• Hadoop et .NET 5’

Plan

HDINSIGHT ET HADOOPChapitre 1

Windows Azure

Windows Azure

Les trois V du Big DataLe jeu de données ne tient pas sur une seule machine

Des formats différents

Des options différentes pour l’interprétation des données

Petite fenêtre de décision comparée à la vitesse à laquelle les données changent

Un grand nombre de données très rapidement (streaming)

Volume

Vélocité

Variété

Windows Azure

L’écosystème Hadoop

ETL Tools BI Reporting RDBMS

Reference: Tom White’s Hadoop: The Definitive Guide

Windows Azure

Hadoop à demeure et dans le cloud

Plateforme Big Data d’entreprise à demeure

Distribution à base d’Hadoop sur Windows Server avec Microsoft HDInsight

Plateforme Big Data élastique dans le cloud

Service à base d’Hadoop sur Windows Azure avec HDInsight Service

Connecteurs Hadoop pour SQL Server

Etendre votre entrepôt de données d’entreprise avec du Big Data

Windows Azure

Pourquoi Hadoop + BI

CritèreHadoop

&Hive

Moteursde requêtage

BI

Récupérer et stocker toutes les données

Oui Non

Support des requêtes sur les données de détail

Oui Non

Support des requêtes interactives et depuis des applications

Non Oui

Support des outils de BI et de visualisation

Non Oui

Windows Azure

Découverte de données

DEPUIS

VERS

CHERCHER

RECOMMANDER

Windows Azure

MAP / REDUCE

Extrait de « Hadoop Tutorial from Yahoo!" (Yahoo! Inc.) / CC BY 3.0 »

RÉSEAUX SOCIAUXChapitre 2

Windows Azure

Démo

Présentation rapide de twitter

Windows Azure

Windows Azure

• Langage de plus haut niveau que Map/Reduce

• HQL très proche de SQL• s’appuie sur HDFS

– insertion et ajout seulement, pas de mise à jour– insert overwrite ... select ... from ... where ...

• requêtes HQL traduites en jobs Map/Reduce• fonctions internes et externes pour extension

HIVE

Démo

Analyse de tweets avec HIVE

Windows Azure

Windows Azure

• Langage de plus haut niveau que Map/Reduce• Langage déclaratif

– variables représentent des ensembles de données

• s’appuie sur HDFS– insertion et ajout seulement, pas de mise à jour– D1 = load ...; ... D2 = foreach D1 generate ...; store D2 ...

• script PIG traduit en jobs Map/Reduce• fonctions internes et externes pour extension

PIG

Démo

Analyse de tweets avec PIG

Windows Azure

Démo

Récupération des résultats PIG avec External table HIVE dans

Excel

Windows Azure

MACHINE LEARNINGChapitre 3

Windows Azure

Windows Azure

• L’algorithme– Apprend sur BEAUCOUP de données– Déduit

• Applications classiques– prédire

• recommandations des produits qui peuvent intéresser un acheteur en ligne

• prix d’immobilier– classer

• trouver la langue d’un texte• trouver le groupe d’une « news »• filtre de spam

Machine Learning

Windows Azure

• Librairie d’algorithmes de machine learning pouvant être distribués sur un cluster

• http://mahout.apache.org/

Mahout

Démo

Machine learning - Recommandations

Windows Azure

Démo

Machine learning - Classification

Windows Azure

Windows Azure

• Un problème de classification– Happy – sad – pokerface

• Traitement du langage naturel– Fréquence des mots, des lettres– Analyse grammaticale (POS) ?

• Le choix des features est primordial

Analyse de sentiments

Windows Azure

• Préparer des données– Trouver des données déjà classées– Filtrer les données– Nettoyer les données

• Décider des features• Choisir le modèle• Tester• Recommencer…

3 phases

Windows Azure

Modèle Bayesien

HADOOP ET SSISChapitre 4

Windows Azure

Windows Azure

Livre blanc sur SSIS et Hadoop

http://msdn.microsoft.com/en-us/library/jj720569.aspx

Windows Azure

Livre blanc sur SSIS et Hadoop

Hadoop storage

Hadoop Cluster

SSIS

HDFS Streaming

Hive ODBC

HDFS Streaming

ASV API

ASV API

dis

tcp

Asv://,

SSIS

SSIS

SQOOP, fs –copyToLocal, …

SQOOP, fs –copyFromLocal, HIVE load data, …

HDFS

ASVData

Source

DataDestinatio

n

Transfer services and tools to ASV

Internet or LAN http://msdn.microsoft.com/en-us/library/jj720569.aspx

Démo

SSIS + HadoopAutomatisation

Récupération des données

Windows Azure

HADOOP ET .NETChapitre 5

Windows Azure

Windows Azure

• Microsoft Hadoop SDK• Mappers et Reducers (C#, F#,

Powershell)• UDF Pig et Hive (Streaming)• Intégration au log et compteurs

d’hadoop• Orchestration

Hadoop et .NET

Windows Azure

• Tests unitaires de Mapper / Reducer– StreamUnit

• Frameworks plus haut niveau

Hadoop et .NET

Windows Azure

• Microsoft Hadoop SDK• http://nuget.org/packages/Microsoft.Hadoop.MapReduce/• http://

code.msdn.microsoft.com/Framework-for-Composing-af656ef7

• http://andyelastacloud.azurewebsites.net/

Hadoop et .NET – liens utiles

Démo

Hadoop en .NETTests unitaires

Windows Azure

CONCLUSION, QUESTIONS/RÉPONSES

Windows Azure

Windows Azure

• HDInsight– Distribution Hadoop

sur Windows Server et Windows Azure

• Réversibilité• Facilité de déploiement d’un cluster• Intégration avec l’entreprise• Complémentarité avec la plateforme

SQL

Conclusion

Windows Azure

• http://www.hadooponazure.com

• Blog Big Data :http://aka.ms/bigdatafrance

• White paper SSIS + Hadoop: http://aka.ms/hadoop-ssis-wp

• Horton Works & Microsofthttp://hortonworks.com/partners/microsoft/

Ressources

Windows Azure

• Windows Azure: http://windowsazure.com

• Ressources en français et accélérateur Windows Azure

http://aka.ms/cloud

Ressources

Windows Azure

Gagnez une tablette Windows 8

Souscrivez à l’offre d’essai ou activez votre accès Azure MSDN

Présentez-vous sur le stand Azure (zone Services & Tools)

Participez au tirage au sort à 18h30 le 12 ou le 13 février

1

2

3

?

Les trois VLe jeu de données ne tient pas sur une seule machine

Des formats différents

Des options différentes pour l’interprétation des données

Petite fenêtre de décision comparée à la vitesse à laquelle les données changent

Un grand nombre de données très rapidement (streaming)

Volume

Vélocité

Variété

Hadoopà demeure et dans le cloud

Plateforme Big Data d’entreprise à demeure

Distribution à base d’Hadoop sur Windows Server avec Microsoft HDInsight

Plateforme Big Data élastique dans le cloud

Service à base d’Hadoop sur Windows Azure avec HDInsight Service

Connecteurs Hadoop pour SQL Server

Etendre votre entrepôt de données d’entreprise avec du Big Data

Pourquoi Hadoop + BI ?

CritèreHadoop

&Hive

Moteursde requêtage

BI

Récupérer et stocker toutes les données

Oui Non

Support des requêtes sur les données de détail

Oui Non

Support des requêtes interactives et depuis des applications

Non Oui

Support des outils de BI et de visualisation

Non Oui

Découverte de données

DEPUIS

VERS

CHERCHER

RECOMMANDER

l’Ecosystème Hadoop

ETL Tools BI Reporting RDBMS

Reference: Tom White’s Hadoop: The Definitive Guide

MAP / REDUCE

Extrait de « Hadoop Tutorial from Yahoo!" (Yahoo! Inc.) / CC BY 3.0 »

Livre blanc sur SSIS et Hadoop

http://msdn.microsoft.com/en-us/library/jj720569.aspx

Livre blanc sur SSIS et Hadoop

Hadoop storage

Hadoop Cluster

SSIS

HDFS Streaming

Hive ODBC

HDFS Streaming

ASV API

ASV API

dis

tcp

Asv://,

SSIS

SSIS

SQOOP, fs –copyToLocal, …

SQOOP, fs –copyFromLocal, HIVE load data, …

HDFS

ASVData

Source

DataDestinat

ion

Transfer services and tools to ASV

Internet or LAN

http://msdn.microsoft.com/en-us/library/jj720569.aspx

Windows Azure

• Comment récupère-t-on les données ?• XXX

Réseaux sociaux

Windows Azure

• ___

___

Windows Azure

• ___

___

Démo

___

Windows Azure

top related