valtech - du bi au big data, une révolution dans l’entreprise
TRANSCRIPT
Ma#hew Brady: Consultant senior BI Ana Maria Manzat: Data Scien;st Herve Desaunois: Directeur technique
2
Sommaire!• La révolution est en marche!
• BI traditionnelle!• Les changements, les impacts !• Cartographie des impacts du changements pour l’entreprise!• Architecture Big Data dans un SI!
• C’est maintenant le changement!
• Le plan de transformation!• Illustration concrète du BI au Big Data!• La convergence !
Du BI au BIG DATA!
3
La révolution!est en marche!
4
BI !Traditionnelle!
L'analyse multidimensionnelle !des données!
36 M€ USA !
36,3 M€ EUROPE DU SUD !
65,1 M€ EUROPE DU NORD!
5
Mécanismes d'extraction, !de transfert et de consolidation!
BI traditionnelle!
Centralisation des données ! Reporting
10,2 M€ Reste
du Monde !
36 M€ USA ! 65,1 M€
EUROPE DU NORD!
6
Data warehouse vs Business intelligence!
10,2 M€ Reste
du Monde !
36 M€ USA ! 65,1 M€
EUROPE DU NORD!
7
!Les analystes veulent couper leur données en “slice et dice”!!!Les analystes ont besoin d’accéder à des données très agrégées.!!!Les analystes veulent parcourir les données en profondeur (d’aller du générale vers les détails).!
Data warehouse!
10,2 M€ Reste
du Monde !
36 M€ USA ! 65,1 M€
EUROPE DU NORD!
8
!!!!!!Open Source!• BIRT!• JasperReport!• Pentaho!
Enterprise!• Oracle Business Intelligence
Publisher!• Microsoft SQL Server Reporting!• SAP HANA-‐op%mized BI!
Outils de reporting!
9
Les changements,!les impacts!
Changement de nature des données !
10
Les changements!
Changement de volumétrie !
Changement de référentiels de données, du Data Warehouse au Data Lake!
Changement de processus !de production!
11
Data Scientist!Big Data Process !
Les changements!
Changement !d’architecture !
Changement !de compétences!
12
Cartographie!Des impacts SI!
13
Big Impact SI!
Big Data
Impact
36 M€ USA !
36,3 M€ EUROPE DU SUD !
14
Big impact!
Cloud Public ou Privé!
Data Lake!
Architecture Lambda!
Intégration dans le SI!
15
Architecture !Big Data dans un SI!
10,2 M€ Reste
du Monde !
36 M€ USA !
36,3 M€ EUROPE DU SUD !
65,1 M€ EUROPE DU NORD!
Architecture classique du SI!
16
Architecture classique du SI et le BIG DATA!
17
18
Plateforme Big Data! !
Ecosystème Hadoop!
19
Architecture Big Data !
Private Cloud or Public Cloud!
20
Lambda Architecture!
21
C’est maintenant!le changement!
22
Gartner!
Gartner Says Big Data Creates Big Jobs: 4.4 Million IT Jobs Globally to Support
Big Data By 2015!
23
Projet Big Data!
IT Innovation / Transformation / Marketing digital!
• Vue 360 Clients!• Analyse comportementale multicanal digital!• Système d’archive de données!• Datawerhouse offload et remplacement ETL!• Infrastructure Log Analysis!• Analyse de risques / fraudes!• Maintenance industrielle (IoT)!• Nouveaux business modèle : le tout connecté (équipement, voitures, ..)!• Segmentation clients en temps réels !• KPI temps réels / Analyse cross systèmes!
24
Une nouvelle démarche!
25
• Utilisation de KNIME pour le prototypage, la fouille de données!
• Utilisation de TULIP pour le prototypage, la visualisations de données!
Big Data prototypage!
• Déclinaison vers des implémentations Big Data / Cloud Computing!
26
Le plan de!Transformation!
10,2 M€ Reste
du Monde !
36 M€ USA !
36,3 M€ EUROPE DU SUD !
27
Conduite du changement!
Participation!!
VALTECH
Communication!
Formation!
10,2 M€ Reste
du Monde !
36 M€ USA !
36,3 M€ EUROPE DU SUD !
65,1 M€ EUROPE DU NORD!
28
Formation Big Data!
!• Formation aux technologies ! Big Data!
!
• Formation Data Scientist!
!• Introduction aux bases de données NOSQL!
• Développer avec MongoDB!
• Développement d'applications avec Neo4j!
• Apache Hadoop 2.0 : Hortonworks (certifiant)!
!
• KNIME!
• Analyse de données pour HADOOP: Hortonworks (certifiant)!
• Jump Start Data Scientist / Big Data!
VALTECH
29
Case study! !
Illustration du !BI au Big Data !
30
Case study!Velib’!
• Données fournies par JCDecaux en temps réel sur l’utilisation des stations Velib!
• Durée: début d’année 2014!
!• Stockage: base de données
sur Microsoft Azure!
31
Les données!
Chaque fois qu’un velo est loué ou retourné une transaction est loggée!
!!!
Elements :!!• Station Id!• Timestamp!• Bornes disponibles!• Vélos disponibles!
32
Analyse des données: extraction de dimensions!Transformation!
33
Calcul de mesures!Pour une période d’une heure!Transformation!
34
L’usage moyen des vélos par jour de la semaine !Reporting!
Mars! Avril! Mai!
Juin! Juillet!
35
Usage moyen des vélos par heure du jour!Reporting!
36
Usage moyen des vélos par heure du jour et par station!Reporting!
37
Usage moyen des vélos par heure du jours, pour les jours de la semaine !Nombre de transactions (en vert)!
Reporting!
Lundi! Mardi! Mercredi!
Jeudi! Vendredi!
38
Usage moyen des vélos par heure du jours, pour samedi et dimanche!Nombre de transactions (en vert)!
Reporting!
Samedi! Dimanche!
39
Enrichir les données!
• Enrichir la donnée fournie par JCDecaux en temps réel en integrant d’autres sources de données!• Météo!• Spectacles!• Restaurants!• IoT!
!
• Informer un usager de la tendance de sa station cible pour une date déterminée (court terme)!
!
40
Axes de prédiction!
ü La base de toute prédiction est l’historique de la station
ü Séparer les jours ouvrés des jours non travaillés
ü Utilisation du calendrier scolaire
ü Introduire la dimension météorologique (pluie, vent)
ü Pondérer la prédiction à court terme
41
Prototypage!Définition d’un model prédictif!• KNIME!
42
Prototypage!Définition d’un model prédictif!• Data Scientist!
ü Problématique liée au Time-series
ü Préparation de données pour l’apprentissageü Régression linéaireü Séparation des données en données d’apprentissage et données de test
ü ü Choix d’algorithme d’apprentissage
ü Apprentissage superviséü Apprentissage non-supervisé
Approche de type Batch!Architecture !!Big Data Velib!
44
La plateforme Big Data! Demo!
45
Itération I!
Data sources layer Data integra%on layer Data batch layer
Import des données!
46
Itération I! Import des données météo!Calcul du modèle prédictif!
Data sources layer Data integra%on layer Data batch layer Service layer repor%ng
47
Itération II ! Intégration des vacances scolaires!Calcul du modèle prédictif!
Data sources layer Data integra%on layer Data batch layer Service layer repor%ng
48
La convergence!
36 M€ USA ! 65,1 M€
EUROPE DU NORD!
49
Convergence technique!
SQL Engine / No more NoSQL! Data Lake!
Data Warehouse nouvelle génération !(In Memory & Column Oriented )! R!
50
TSNUNAMI !!Big Data from IoT !!Valtech Warning!
2010: 4 milliards d’objet connectés à internet 2015 :15 milliards d’objet connectés à internet 2020: 80 milliards d’objet connectés à internet
51
Merci!