préparation de données hadoop avec trifacta
TRANSCRIPT
Victor CoustenobleTechnical regional manager [email protected]@vizanalytics
La Matinale du Big Data et de la Data Science 2016
29/09/16
Dans la peau d'un Analyste Métier : Préparation de données Hadoop Structurées et non-Structurées pour une analyse de Churn
Qu’est-ce que le Data Wrangling?
2
100% dédié au “Data Wrangling” et à la Préparation de DonnéesAccélérer la création de valeur et l’utilisation métier du ”Big Data”Préparation de données Visuelle, Interactive et en Self-Service
Créer une Passerelle entre les Données Brutes et l’Analyse
Discovering Structuring Cleaning Enriching Validating Publishing
ANALYSES & DECISIONNEL
Business System Data Machine Generated Data Third Party Data
IT LOB
de l’effort d’un projet orienté « données » réside dans la préparation des données*
80%
PLATEFORME DE TRAITEMENT DES DONNEES
* New York Times – August 2014 - For Big-Data Scientists, ‘Janitor Work’ Is Key Hurdle to Insights
Allers-Retours de Demandes entre IT & Métiers
Comment je peux accéder aux données brutes?
Qu’est-ce que tu veux analyser?
Je ne peux pas te le dire tant queje n’ai pas vu les données, montres
moi les données en premier.
Je ne peux pas te donner accès aux données brutes, tu dois me dire ce
que tu veux.
LOB IT
5
Discovering Structuring Cleaning Enriching Validating Publishing
Business System Data Machine Generated Data Third Party Data
LOB IT
Donner l’accès aux données brutes pour les analystes métiers sous le contrôle de l’IT
ANALYSES & DECISIONNEL
PLATEFORME DE TRAITEMENT DES DONNEES
Les approches conventionnelles inhibentl’autonomie des utilisateurs
Code manuel Techniques de Workflow et Mapping (ETL)
... et il y a aussi Excel
Approche Trifacta : Tout est basé sur l’Expérience Utilisateur
Intéragir Prédire
Visualiser
Analystes Métiers, Data Scientists & Responsables de la Plateforme de Données
““ANALYSTE METIER
Je veux un accès direct aux données brutes pour pouvoir voir le contenu actuel des différents jeux de données afin de définir les besoins et les spécifications de mes analyses.
““DATA SCIENTIST
Préparer les données pour de la modélisation ou des analyses prédictives est un travail pénible, manuel et non reproductible dansl’entreprise. Nous avons besoin d’un moyen plus efficace et reproductible pour préparer les données en vue d’analyses.
““Je reçois constamment des demandes des métiers pour accéder àdifférentes données. J’ai besoin d’un moyen sécurisé pour leurdonner un accès direct aux données brutes afin qu’ils puissenteux-mêmes les explorer et les manipuler.
INGENIEUR DONNEE
Cas d’Utilisation Métiers de Trifacta
Connaissanceet Vue 360
Client
Agrégation de Données des
EssaisCliniques
Prévisions des Ventes & Stocks
Analyse et Agrégation
Risques
AnalyseMédiasSociaux
DéveloppementProduit
10
Démonstration
Dans la peau d'un Analyste Métier :
Préparation de données Hadoop Structurées et non-Structurées pour une analyse de Churn
Ingestion Processing Storage
ANALYSES & VISUALISATION
v
IT
LOB
DiscoveringStructuring Cleaning Enriching Validating Publishing
Analyse de Churn et Vue 360 Client
Clients
Activités
Media Sociaux
ContactStatut
VoixTexteDonnées
TweetsChat
Trifacta v4
Etendre le “Data Wrangling” pour Tous les Utilisateurs, Toutes les Données et Tous les Clouds
RenforcerL’Experience Utilisateur
Builder GA
Pattern Profiling
Fuzzy Joining
Column Lineage
Self-Service Operationalization
Améliorer la Performance & la Montée à l’Echelle
Photon Compute Engine GA
Spark 2.0
Déploiement Cloud & Connectivité
Relational(Oracle, MySQL, Teradata)
Cloud(AWS, Microsoft Azure, Google
Cloud Platform)
API Connectivity
14
Constat : Plus de 80% du temps est passé à consolider, nettoyer et transformer les données avant analyse.
Bénéfices de Trifacta• Accélérer l’accès aux données pour dégager plus rapidement les
opportunités métiers• Diminuer les risques métiers liés aux mauvaises données• Donner le pouvoir aux personnes avec la connaissance métier des
données “Self-Service”• Libérer l’innovation et optimiser l‘efficacité opérationnelle• Accélérer le ROI2 de projets Big Data• Réduire la pression des coûts et des recrutements (problèmes des
compétences Big Data dans l’entreprise)
Ø Plus d’Efficacité, Plus d’Innovation
Conclusion
Questions?Télécharger Trifacta Wrangler trifacta.com/start-wrangling