hdinsight : hadoop en environnement microsoft
DESCRIPTION
HDInsight est le portage de Apache Hadoop sur Windows Server et Windows Azure. Dans cette session, venez découvrir les différentes possibilités de Big Data, ainsi que la capacité de la machine à apprendre toute seule (machine learning). Nous montrerons des exemples liés aux réseaux sociaux.TRANSCRIPT
Donnez votre avis !Depuis votre smartphone, sur : http://notes.mstechdays.fr
De nombreux lots à gagner toutes les heures !!!
Claviers, souris et jeux Microsoft…
Merci de nous aider à améliorer les TechDays
http://notes.mstechdays.fr
HDInsight : Hadoop en environnement Microsoft
Architecture / Azure / Cloud
Yann Schwartz Benjamin Guinebertière
Architecte Conseiller technologique Windows Azure
ShoppingAdventure
Microsoft France
twitter: @abolibibelot twitter: @benjguin
Windows Azure
• HDInsight et Hadoop 8’• Réseaux sociaux 22’• Machine learning 15’• SSIS 10’• Hadoop et .NET 5’
Plan
HDINSIGHT ET HADOOPChapitre 1
Windows Azure
Windows Azure
Les trois V du Big DataLe jeu de données ne tient pas sur une seule machine
Des formats différents
Des options différentes pour l’interprétation des données
Petite fenêtre de décision comparée à la vitesse à laquelle les données changent
Un grand nombre de données très rapidement (streaming)
Volume
Vélocité
Variété
Windows Azure
L’écosystème Hadoop
ETL Tools BI Reporting RDBMS
Reference: Tom White’s Hadoop: The Definitive Guide
Windows Azure
Hadoop à demeure et dans le cloud
Plateforme Big Data d’entreprise à demeure
Distribution à base d’Hadoop sur Windows Server avec Microsoft HDInsight
Plateforme Big Data élastique dans le cloud
Service à base d’Hadoop sur Windows Azure avec HDInsight Service
Connecteurs Hadoop pour SQL Server
Etendre votre entrepôt de données d’entreprise avec du Big Data
Windows Azure
Pourquoi Hadoop + BI
CritèreHadoop
&Hive
Moteursde requêtage
BI
Récupérer et stocker toutes les données
Oui Non
Support des requêtes sur les données de détail
Oui Non
Support des requêtes interactives et depuis des applications
Non Oui
Support des outils de BI et de visualisation
Non Oui
Windows Azure
Solution Big Data de Microsoft
Power View Excel et PowerPivot BI embarquéeAnalyses prédictives
APPsLOBCRMERP
Microsoft EDW
SSAS SSRS
dispositifs
CrawlersCapteurs Bots
Hadoop On Windows Server
Hadoop On Windows Azure
StreamInsight
Windows Azure
Découverte de données
DEPUIS
VERS
CHERCHER
RECOMMANDER
Windows Azure
MAP / REDUCE
Extrait de « Hadoop Tutorial from Yahoo!" (Yahoo! Inc.) / CC BY 3.0 »
RÉSEAUX SOCIAUXChapitre 2
Windows Azure
Démo
Présentation rapide de twitter
Windows Azure
Windows Azure
• Langage de plus haut niveau que Map/Reduce
• HQL très proche de SQL• s’appuie sur HDFS
– insertion et ajout seulement, pas de mise à jour– insert overwrite ... select ... from ... where ...
• requêtes HQL traduites en jobs Map/Reduce• fonctions internes et externes pour extension
HIVE
Démo
Analyse de tweets avec HIVE
Windows Azure
Windows Azure
• Langage de plus haut niveau que Map/Reduce• Langage déclaratif
– variables représentent des ensembles de données
• s’appuie sur HDFS– insertion et ajout seulement, pas de mise à jour– D1 = load ...; ... D2 = foreach D1 generate ...; store D2 ...
• script PIG traduit en jobs Map/Reduce• fonctions internes et externes pour extension
PIG
Démo
Analyse de tweets avec PIG
Windows Azure
Démo
Récupération des résultats PIG avec External table HIVE dans
Excel
Windows Azure
MACHINE LEARNINGChapitre 3
Windows Azure
Windows Azure
• L’algorithme– Apprend sur BEAUCOUP de données– Déduit
• Applications classiques– prédire
• recommandations des produits qui peuvent intéresser un acheteur en ligne
• prix d’immobilier– classer
• trouver la langue d’un texte• trouver le groupe d’une « news »• filtre de spam
Machine Learning
Windows Azure
• Librairie d’algorithmes de machine learning pouvant être distribués sur un cluster
• http://mahout.apache.org/
Mahout
Démo
Machine learning - Recommandations
Windows Azure
Démo
Machine learning - Classification
Windows Azure
Windows Azure
• Un problème de classification– Happy – sad – pokerface
• Traitement du langage naturel– Fréquence des mots, des lettres– Analyse grammaticale (POS) ?
• Le choix des features est primordial
Analyse de sentiments
Windows Azure
• Préparer des données– Trouver des données déjà classées– Filtrer les données– Nettoyer les données
• Décider des features• Choisir le modèle• Tester• Recommencer…
3 phases
Windows Azure
Modèle Bayesien
HADOOP ET SSISChapitre 4
Windows Azure
Windows Azure
Livre blanc sur SSIS et Hadoop
http://msdn.microsoft.com/en-us/library/jj720569.aspx
Windows Azure
Livre blanc sur SSIS et Hadoop
Hadoop storage
Hadoop Cluster
SSIS
HDFS Streaming
Hive ODBC
HDFS Streaming
ASV API
ASV API
dis
tcp
Asv://,
…
SSIS
SSIS
SQOOP, fs –copyToLocal, …
SQOOP, fs –copyFromLocal, HIVE load data, …
HDFS
ASVData
Source
DataDestinatio
n
Transfer services and tools to ASV
Internet or LAN http://msdn.microsoft.com/en-us/library/jj720569.aspx
Démo
SSIS + HadoopAutomatisation
Récupération des données
Windows Azure
HADOOP ET .NETChapitre 5
Windows Azure
Windows Azure
• Microsoft Hadoop SDK• Mappers et Reducers (C#, F#,
Powershell)• UDF Pig et Hive (Streaming)• Intégration au log et compteurs
d’hadoop• Orchestration
Hadoop et .NET
Windows Azure
• Tests unitaires de Mapper / Reducer– StreamUnit
• Frameworks plus haut niveau
Hadoop et .NET
Windows Azure
• Microsoft Hadoop SDK• http://nuget.org/packages/Microsoft.Hadoop.MapReduce/• http://
code.msdn.microsoft.com/Framework-for-Composing-af656ef7
• http://andyelastacloud.azurewebsites.net/
Hadoop et .NET – liens utiles
Démo
Hadoop en .NETTests unitaires
Windows Azure
CONCLUSION, QUESTIONS/RÉPONSES
Windows Azure
Windows Azure
• HDInsight– Distribution Hadoop
sur Windows Server et Windows Azure
• Réversibilité• Facilité de déploiement d’un cluster• Intégration avec l’entreprise• Complémentarité avec la plateforme
SQL
Conclusion
Windows Azure
• http://www.hadooponazure.com
• Blog Big Data :http://aka.ms/bigdatafrance
• White paper SSIS + Hadoop: http://aka.ms/hadoop-ssis-wp
• Horton Works & Microsofthttp://hortonworks.com/partners/microsoft/
Ressources
Windows Azure
• Windows Azure: http://windowsazure.com
• Ressources en français et accélérateur Windows Azure
http://aka.ms/cloud
Ressources
Windows Azure
Gagnez une tablette Windows 8
Souscrivez à l’offre d’essai ou activez votre accès Azure MSDN
Présentez-vous sur le stand Azure (zone Services & Tools)
Participez au tirage au sort à 18h30 le 12 ou le 13 février
1
2
3
?
Les trois VLe jeu de données ne tient pas sur une seule machine
Des formats différents
Des options différentes pour l’interprétation des données
Petite fenêtre de décision comparée à la vitesse à laquelle les données changent
Un grand nombre de données très rapidement (streaming)
Volume
Vélocité
Variété
Hadoopà demeure et dans le cloud
Plateforme Big Data d’entreprise à demeure
Distribution à base d’Hadoop sur Windows Server avec Microsoft HDInsight
Plateforme Big Data élastique dans le cloud
Service à base d’Hadoop sur Windows Azure avec HDInsight Service
Connecteurs Hadoop pour SQL Server
Etendre votre entrepôt de données d’entreprise avec du Big Data
Pourquoi Hadoop + BI ?
CritèreHadoop
&Hive
Moteursde requêtage
BI
Récupérer et stocker toutes les données
Oui Non
Support des requêtes sur les données de détail
Oui Non
Support des requêtes interactives et depuis des applications
Non Oui
Support des outils de BI et de visualisation
Non Oui
Solution Big Data de Microsoft
Power View Excel et PowerPivot BI embarquéeAnalyses prédictives
APPsLOBCRMERP
Microsoft EDW
SSAS SSRS
dispositifs
CrawlersCapteurs Bots
Hadoop On Windows Server
Hadoop On Windows Azure
StreamInsight
Découverte de données
DEPUIS
VERS
CHERCHER
RECOMMANDER
l’Ecosystème Hadoop
ETL Tools BI Reporting RDBMS
Reference: Tom White’s Hadoop: The Definitive Guide
MAP / REDUCE
Extrait de « Hadoop Tutorial from Yahoo!" (Yahoo! Inc.) / CC BY 3.0 »
Livre blanc sur SSIS et Hadoop
http://msdn.microsoft.com/en-us/library/jj720569.aspx
Livre blanc sur SSIS et Hadoop
Hadoop storage
Hadoop Cluster
SSIS
HDFS Streaming
Hive ODBC
HDFS Streaming
ASV API
ASV API
dis
tcp
Asv://,
…
SSIS
SSIS
SQOOP, fs –copyToLocal, …
SQOOP, fs –copyFromLocal, HIVE load data, …
HDFS
ASVData
Source
DataDestinat
ion
Transfer services and tools to ASV
Internet or LAN
http://msdn.microsoft.com/en-us/library/jj720569.aspx
Windows Azure
• Comment récupère-t-on les données ?• XXX
Réseaux sociaux
Windows Azure
• ___
___
Windows Azure
• ___
___
Démo
___
Windows Azure