hdinsight : hadoop en environnement microsoft

54
Donnez votre avis ! Depuis votre smartphone, sur : http://notes.mstechdays.fr De nombreux lots à gagner toutes les heures !!! Claviers, souris et jeux Microsoft… Merci de nous aider à améliorer les TechDays http://notes.mstechdays.fr

Upload: microsoft-technet-france

Post on 20-Nov-2014

499 views

Category:

Technology


5 download

DESCRIPTION

HDInsight est le portage de Apache Hadoop sur Windows Server et Windows Azure. Dans cette session, venez découvrir les différentes possibilités de Big Data, ainsi que la capacité de la machine à apprendre toute seule (machine learning). Nous montrerons des exemples liés aux réseaux sociaux.

TRANSCRIPT

Page 1: HDInsight : Hadoop en environnement Microsoft

Donnez votre avis !Depuis votre smartphone, sur : http://notes.mstechdays.fr

De nombreux lots à gagner toutes les heures !!!

Claviers, souris et jeux Microsoft…

Merci de nous aider à améliorer les TechDays

http://notes.mstechdays.fr

Page 2: HDInsight : Hadoop en environnement Microsoft

HDInsight : Hadoop en environnement Microsoft

Architecture / Azure / Cloud

Yann Schwartz Benjamin Guinebertière

Architecte Conseiller technologique Windows Azure

ShoppingAdventure

Microsoft France

twitter: @abolibibelot twitter: @benjguin

Page 3: HDInsight : Hadoop en environnement Microsoft

Windows Azure

• HDInsight et Hadoop 8’• Réseaux sociaux 22’• Machine learning 15’• SSIS 10’• Hadoop et .NET 5’

Plan

Page 4: HDInsight : Hadoop en environnement Microsoft

HDINSIGHT ET HADOOPChapitre 1

Windows Azure

Page 5: HDInsight : Hadoop en environnement Microsoft

Windows Azure

Les trois V du Big DataLe jeu de données ne tient pas sur une seule machine

Des formats différents

Des options différentes pour l’interprétation des données

Petite fenêtre de décision comparée à la vitesse à laquelle les données changent

Un grand nombre de données très rapidement (streaming)

Volume

Vélocité

Variété

Page 6: HDInsight : Hadoop en environnement Microsoft

Windows Azure

L’écosystème Hadoop

ETL Tools BI Reporting RDBMS

Reference: Tom White’s Hadoop: The Definitive Guide

Page 7: HDInsight : Hadoop en environnement Microsoft

Windows Azure

Hadoop à demeure et dans le cloud

Plateforme Big Data d’entreprise à demeure

Distribution à base d’Hadoop sur Windows Server avec Microsoft HDInsight

Plateforme Big Data élastique dans le cloud

Service à base d’Hadoop sur Windows Azure avec HDInsight Service

Connecteurs Hadoop pour SQL Server

Etendre votre entrepôt de données d’entreprise avec du Big Data

Page 8: HDInsight : Hadoop en environnement Microsoft

Windows Azure

Pourquoi Hadoop + BI

CritèreHadoop

&Hive

Moteursde requêtage

BI

Récupérer et stocker toutes les données

Oui Non

Support des requêtes sur les données de détail

Oui Non

Support des requêtes interactives et depuis des applications

Non Oui

Support des outils de BI et de visualisation

Non Oui

Page 10: HDInsight : Hadoop en environnement Microsoft

Windows Azure

Découverte de données

DEPUIS

VERS

CHERCHER

RECOMMANDER

Page 11: HDInsight : Hadoop en environnement Microsoft

Windows Azure

MAP / REDUCE

Extrait de « Hadoop Tutorial from Yahoo!" (Yahoo! Inc.) / CC BY 3.0 »

Page 12: HDInsight : Hadoop en environnement Microsoft

RÉSEAUX SOCIAUXChapitre 2

Windows Azure

Page 13: HDInsight : Hadoop en environnement Microsoft

Démo

Présentation rapide de twitter

Windows Azure

Page 14: HDInsight : Hadoop en environnement Microsoft

Windows Azure

• Langage de plus haut niveau que Map/Reduce

• HQL très proche de SQL• s’appuie sur HDFS

– insertion et ajout seulement, pas de mise à jour– insert overwrite ... select ... from ... where ...

• requêtes HQL traduites en jobs Map/Reduce• fonctions internes et externes pour extension

HIVE

Page 15: HDInsight : Hadoop en environnement Microsoft

Démo

Analyse de tweets avec HIVE

Windows Azure

Page 16: HDInsight : Hadoop en environnement Microsoft

Windows Azure

• Langage de plus haut niveau que Map/Reduce• Langage déclaratif

– variables représentent des ensembles de données

• s’appuie sur HDFS– insertion et ajout seulement, pas de mise à jour– D1 = load ...; ... D2 = foreach D1 generate ...; store D2 ...

• script PIG traduit en jobs Map/Reduce• fonctions internes et externes pour extension

PIG

Page 17: HDInsight : Hadoop en environnement Microsoft

Démo

Analyse de tweets avec PIG

Windows Azure

Page 18: HDInsight : Hadoop en environnement Microsoft

Démo

Récupération des résultats PIG avec External table HIVE dans

Excel

Windows Azure

Page 19: HDInsight : Hadoop en environnement Microsoft

MACHINE LEARNINGChapitre 3

Windows Azure

Page 20: HDInsight : Hadoop en environnement Microsoft

Windows Azure

• L’algorithme– Apprend sur BEAUCOUP de données– Déduit

• Applications classiques– prédire

• recommandations des produits qui peuvent intéresser un acheteur en ligne

• prix d’immobilier– classer

• trouver la langue d’un texte• trouver le groupe d’une « news »• filtre de spam

Machine Learning

Page 21: HDInsight : Hadoop en environnement Microsoft

Windows Azure

• Librairie d’algorithmes de machine learning pouvant être distribués sur un cluster

• http://mahout.apache.org/

Mahout

Page 22: HDInsight : Hadoop en environnement Microsoft

Démo

Machine learning - Recommandations

Windows Azure

Page 23: HDInsight : Hadoop en environnement Microsoft

Démo

Machine learning - Classification

Windows Azure

Page 24: HDInsight : Hadoop en environnement Microsoft

Windows Azure

• Un problème de classification– Happy – sad – pokerface

• Traitement du langage naturel– Fréquence des mots, des lettres– Analyse grammaticale (POS) ?

• Le choix des features est primordial

Analyse de sentiments

Page 25: HDInsight : Hadoop en environnement Microsoft

Windows Azure

• Préparer des données– Trouver des données déjà classées– Filtrer les données– Nettoyer les données

• Décider des features• Choisir le modèle• Tester• Recommencer…

3 phases

Page 26: HDInsight : Hadoop en environnement Microsoft

Windows Azure

Modèle Bayesien

Page 27: HDInsight : Hadoop en environnement Microsoft

HADOOP ET SSISChapitre 4

Windows Azure

Page 28: HDInsight : Hadoop en environnement Microsoft

Windows Azure

Livre blanc sur SSIS et Hadoop

http://msdn.microsoft.com/en-us/library/jj720569.aspx

Page 29: HDInsight : Hadoop en environnement Microsoft

Windows Azure

Livre blanc sur SSIS et Hadoop

Hadoop storage

Hadoop Cluster

SSIS

HDFS Streaming

Hive ODBC

HDFS Streaming

ASV API

ASV API

dis

tcp

Asv://,

SSIS

SSIS

SQOOP, fs –copyToLocal, …

SQOOP, fs –copyFromLocal, HIVE load data, …

HDFS

ASVData

Source

DataDestinatio

n

Transfer services and tools to ASV

Internet or LAN http://msdn.microsoft.com/en-us/library/jj720569.aspx

Page 30: HDInsight : Hadoop en environnement Microsoft

Démo

SSIS + HadoopAutomatisation

Récupération des données

Windows Azure

Page 31: HDInsight : Hadoop en environnement Microsoft

HADOOP ET .NETChapitre 5

Windows Azure

Page 32: HDInsight : Hadoop en environnement Microsoft

Windows Azure

• Microsoft Hadoop SDK• Mappers et Reducers (C#, F#,

Powershell)• UDF Pig et Hive (Streaming)• Intégration au log et compteurs

d’hadoop• Orchestration

Hadoop et .NET

Page 33: HDInsight : Hadoop en environnement Microsoft

Windows Azure

• Tests unitaires de Mapper / Reducer– StreamUnit

• Frameworks plus haut niveau

Hadoop et .NET

Page 34: HDInsight : Hadoop en environnement Microsoft

Windows Azure

• Microsoft Hadoop SDK• http://nuget.org/packages/Microsoft.Hadoop.MapReduce/• http://

code.msdn.microsoft.com/Framework-for-Composing-af656ef7

• http://andyelastacloud.azurewebsites.net/

Hadoop et .NET – liens utiles

Page 35: HDInsight : Hadoop en environnement Microsoft

Démo

Hadoop en .NETTests unitaires

Windows Azure

Page 36: HDInsight : Hadoop en environnement Microsoft

CONCLUSION, QUESTIONS/RÉPONSES

Windows Azure

Page 37: HDInsight : Hadoop en environnement Microsoft

Windows Azure

• HDInsight– Distribution Hadoop

sur Windows Server et Windows Azure

• Réversibilité• Facilité de déploiement d’un cluster• Intégration avec l’entreprise• Complémentarité avec la plateforme

SQL

Conclusion

Page 38: HDInsight : Hadoop en environnement Microsoft

Windows Azure

• http://www.hadooponazure.com

• Blog Big Data :http://aka.ms/bigdatafrance

• White paper SSIS + Hadoop: http://aka.ms/hadoop-ssis-wp

• Horton Works & Microsofthttp://hortonworks.com/partners/microsoft/

Ressources

Page 39: HDInsight : Hadoop en environnement Microsoft

Windows Azure

• Windows Azure: http://windowsazure.com

• Ressources en français et accélérateur Windows Azure

http://aka.ms/cloud

Ressources

Page 40: HDInsight : Hadoop en environnement Microsoft

Windows Azure

Gagnez une tablette Windows 8

Souscrivez à l’offre d’essai ou activez votre accès Azure MSDN

Présentez-vous sur le stand Azure (zone Services & Tools)

Participez au tirage au sort à 18h30 le 12 ou le 13 février

1

2

3

Page 41: HDInsight : Hadoop en environnement Microsoft

?

Page 42: HDInsight : Hadoop en environnement Microsoft

Les trois VLe jeu de données ne tient pas sur une seule machine

Des formats différents

Des options différentes pour l’interprétation des données

Petite fenêtre de décision comparée à la vitesse à laquelle les données changent

Un grand nombre de données très rapidement (streaming)

Volume

Vélocité

Variété

Page 43: HDInsight : Hadoop en environnement Microsoft

Hadoopà demeure et dans le cloud

Plateforme Big Data d’entreprise à demeure

Distribution à base d’Hadoop sur Windows Server avec Microsoft HDInsight

Plateforme Big Data élastique dans le cloud

Service à base d’Hadoop sur Windows Azure avec HDInsight Service

Connecteurs Hadoop pour SQL Server

Etendre votre entrepôt de données d’entreprise avec du Big Data

Page 44: HDInsight : Hadoop en environnement Microsoft

Pourquoi Hadoop + BI ?

CritèreHadoop

&Hive

Moteursde requêtage

BI

Récupérer et stocker toutes les données

Oui Non

Support des requêtes sur les données de détail

Oui Non

Support des requêtes interactives et depuis des applications

Non Oui

Support des outils de BI et de visualisation

Non Oui

Page 46: HDInsight : Hadoop en environnement Microsoft

Découverte de données

DEPUIS

VERS

CHERCHER

RECOMMANDER

Page 47: HDInsight : Hadoop en environnement Microsoft

l’Ecosystème Hadoop

ETL Tools BI Reporting RDBMS

Reference: Tom White’s Hadoop: The Definitive Guide

Page 48: HDInsight : Hadoop en environnement Microsoft

MAP / REDUCE

Extrait de « Hadoop Tutorial from Yahoo!" (Yahoo! Inc.) / CC BY 3.0 »

Page 49: HDInsight : Hadoop en environnement Microsoft

Livre blanc sur SSIS et Hadoop

http://msdn.microsoft.com/en-us/library/jj720569.aspx

Page 50: HDInsight : Hadoop en environnement Microsoft

Livre blanc sur SSIS et Hadoop

Hadoop storage

Hadoop Cluster

SSIS

HDFS Streaming

Hive ODBC

HDFS Streaming

ASV API

ASV API

dis

tcp

Asv://,

SSIS

SSIS

SQOOP, fs –copyToLocal, …

SQOOP, fs –copyFromLocal, HIVE load data, …

HDFS

ASVData

Source

DataDestinat

ion

Transfer services and tools to ASV

Internet or LAN

http://msdn.microsoft.com/en-us/library/jj720569.aspx

Page 51: HDInsight : Hadoop en environnement Microsoft

Windows Azure

• Comment récupère-t-on les données ?• XXX

Réseaux sociaux

Page 52: HDInsight : Hadoop en environnement Microsoft

Windows Azure

• ___

___

Page 53: HDInsight : Hadoop en environnement Microsoft

Windows Azure

• ___

___

Page 54: HDInsight : Hadoop en environnement Microsoft

Démo

___

Windows Azure