sommaire - big data paris 2020 · apache beam : modèle de programmation unifié pour big data...

Sommaire

LUNDI 6 MARS 2017 4

DISCOURS D’OUVERTURE 4

Keynote : Comment le Machine Learning décode-t-il les comportements et détecte-t-il techniquement les anomalies ? 6

Retour d’expérience - Datalake Renault : stratégie IT et retour d’expérience sur l’implémentation 8

Présentation : IoT et Big Data sur le cloud (ou pas) : mariage de raison ou cauchemar annoncé ? 9

Table ronde - Big Data Prédictif et compétences 11

Retour d’expérience - Médiamétrie : retour sur la mise en place d’un datalake via une approche alternative 13

Apache Beam : modèle de programmation unifié pour Big Data - Combiner traitement par lot et streaming dans un modèle unique avec un outil agnostique sur site via Apache Spark ou Apache Flink, ou en mode cloud via Google Cloud DataFlow 15

Retour d'expérience - Présentation - Gouvernance des informations Big Data : maitriser le cycle de vie de la donnée 17

MARDI 7 MARS 2017 19

Les best-practices pour réussir l’intégration des plateformes Hadoop au système d’information existant : progiciels, BI en place, temps réel Big Data avec Storm, etc. 19

Retour d’expérience - Rio Tinto développe "l'Industrie du Futur" grâce au Big Data 21

Présentation – Machine Learning : a paradigm shift that affects computing and our everyday lives 23

Supervision et administration des plateformes Hadoop : Où en est-on ? Comment relier cela à la supervision du SI? 24

Table ronde - Peut-on raisonnablement laisser le Big Data entre les mains des utilisateurs métiers ? 25

Retour d’expérience - Natixis - Mise en place d’une plateforme Big Data sécurisée 27

Gestion des identités et des droits d’accès en environnement Hadoop 29

Comment le Big Data pourrait-il tuer le Data Mining ? Risques et opportunités pour le data mining 30

4

Big Data Paris 2017

Paris, les 6 et 7 mars 2017

Cette journée est animée par José DIZ, Journaliste informatique.

DISCOURS D’OUVERTURE Jean-Michel CAMBOT Inventeur de Business Objects, Chief Strategy & Founder, TELLMEPLUS

I. Présentation Jean-Michel CAMBOT rappelle que le Big Data représente une profusion de données,

dont la solution pour en extraire la valeur est l’intelligence artificielle. Il présente Predictive Objects, qui rend les machines et les objets intelligents même

lorsqu’ils ne sont pas connectés. La plateforme est d’une rapidité extrême, permettant de transformer les experts en experts augmentés.

Lorsque cette intelligence artificielle est intégrée directement dans les objets, les décisions sont prises localement et en temps réel.

TELLMEPLUS, créée en 2011, compte aujourd’hui une vingtaine de personnes. Son écosystème de partenaires est très efficace. Ainsi, Cisco a choisi Predictive Objects pour lettre l’intelligence dans ses moteurs. Google est également un partenaire très important.

La technologie est aussi simple dehors qu’elle est complexe à l’intérieur. Les données exogènes sont sélectionnées automatiquement, puis sont exposées aux experts métier. Une fois le modèle passé en production, il est prêt à être déployé.

II. Quelques cas d’usage Predictive Objects est certifié PREDIX. Il réalise actuellement la maintenance

prédictive des moteurs d’avions, qui permet de déceler une panne future d’avion en analysant les données en temps réel.

De même avec Automotive XEE, il est possible d’élaborer des moteurs intelligents en prédisant en temps réel une future panne de batterie.

Un troisième exemple est celui de la smart TV. Cette télévision serait capable de raisonner, en lançant préventivement, une opération de mise à jour système. Avec Predictive Objects, la smartTv devient intelligente même lorsqu’elle n’est pas connectée, ce qui permet d’enrichir l’expérience utilisateurs en apprenant de ses usages.

Predictive Objects est déployé sur les plateformes IoT de l’industrie 4.0. Par exemple sur les chaînes de production, l’outil permet de mettre un terme à la pratique des industriels de jeter 10% de la production. Avec l’intelligence artificielle embedded, la prédiction d’un défaut en cours est possible sur un automate. De ce fait, il n’est pas nécessaire de supprimer toute la production.

5

Big Data Paris 2017


TELLMEPLUS intervient également dans les domaines stratégiques.

Un intervenant demande si l’intelligence artificielle embedded suppose que les modèles sont créés en amont.

Jean-Michel CAMBOT le confirme. Il faut apprendre du passé, par exemple en travaillant sur les raisons d’une panne, pour construire le modèle en trouvant les algorithmes adaptés.

6

Big Data Paris 2017


Keynote : Comment le Machine Learning décode-t-il les comportements et détecte-t-il techniquement les anomalies ? Florian DOUETTEAU Co-fondateur et PDG, DATAIKU

Florian DOUETTEAU précise que la détection de l’anomalie sur une machine suppose d’aller encore plus loin que les capacités humaines.

En informatique, l’anomalie consiste à faire dire n’importe quoi à l’ordinateur. D’un point de vue scientifique, l’anomalie était au XVIIIème siècle, définie comme un phénomène rare. Ce n’est que vers 1950 que des critères statistiques robustes ont été mis en place pour déterminer ce qui est normal ou anormal. Depuis vingt-cinq ans, l’apprentissage automatique a été utilisé pour l’apprentissage automatique d’anomalies.

En premier lieu, l’adhésion supervisée consiste à considérer que l’anomalie peut être détectée même si elle est rare. Dans ce cadre, la détection d’anomalie consiste à opérer une classification entre les exemples normaux et anormaux. (Learning With Unbalanced Data).

La deuxième vision de la détection d’anomalie est la détection de nouveauté. Les techniques utilisées les plus classiquement sont proches des techniques statistiques courantes telles que les glossiennes, dont la plus courante est la One Class SVM. La détection de nouveauté présente toutefois la particularité de comporter des séquences de données. La détection d’anomalie consiste à apprendre de ces séquences d’évènements.

La troisième perspective de détection d’anomalie, la plus difficile, est celle dont on ne sait rien. Par exemple, la détection d’anomalie dans un accélérateur de particules. La seule hypothèse dans ce cas, est l’aparté ou l’isolation.

Dans ces approches de détection d’anomalie supervisée, la technique la plus simple est de faire des clusters, en réalisant que les anomalies sortent du lot. D’autres approches plus évoluées tirent parti de la densité des objets et des observations : les anomalies sont celles qui ont tendance à être plus seules que les autres. Depuis trois ou quatre ans, les techniques utilisées sont basées sur des arbres et des forêts d’isolation. L’espace est partitionné de manière aléatoire pour construire virtuellement des arbres. Dans ce cas, l’anomalie se retrouve en haut des arbres d’isolation.

Dans l’actualité, la détection d’anomalie intervient dans le domaine des fake news. Dans un domaine proche, la détection d’anomalie est utilisée dans les images et l’imagerie médicale. Ici, les techniques utilisées sont celles de deep learning, par lesquelles une régénération d’image est fabriquée.

En conclusion, la détection d’anomalie représente un sujet très sérieux dans de multiples domaines. Depuis quelques années, les nouvelles techniques qui émergent sont de plus en plus robustes.

Un intervenant sollicite davantage de précisions sur l’apprentissage « semi-supervisé ».

Florian DOUETTEAU explique que le cas est celui d’un système lancé, et pour lequel les données n’existent pas encore.

7

Big Data Paris 2017


Un intervenant demande s’il existe une approche généraliste en termes de détection d’anomalie.

Florian DOUETTEAU précise que la tendance est d’utiliser des algorithmes linéaires. Ces approches sont encore balbutiantes.

8

Big Data Paris 2017


Retour d’expérience - Datalake Renault : stratégie IT et retour d’expérience sur l’implémentation Kamélia BENCHEKROUN Architecte Technical Lead Big Data & Data Management, GROUPE RENAULT

Kamélia BENCHEKROUN indique que la première phase du datalake Renault a été

envisagée comme l’occasion de casser les silos, en mettant toutes les données sur une même plateforme. Au vu des technologies utilisées, les solutions restent assez jeunes et rencontrent certaines problématiques de fiabilité. C’est pourquoi une phase d’optimisation a été déployée. Cette phase vient d’être achevée. Depuis mars 2016, la phase Lean est celle de la vulgarisation des bonnes pratiques auprès des utilisateurs.

L’objectif est d’avoir un datalake managé pour être fiable, tout en respectant les exigences de production. Pour ce faire, des efforts importants en termes de SLA sont nécessaires, notamment pour répondre aux besoins d’exploration de données. De façon globale, le data management constitue un sujet à part, qui se greffera sur le datalake une fois optimisé.

L’équipe est constituée d’experts maîtrisant les solutions Big Data ainsi que celles liées au système.

Par ailleurs, la plateforme comporte plusieurs services d’analytics : analytics descriptif, analytics prédictif et analytics prescriptif. Pour permettre aux utilisateurs de remplir les étapes d’analyse, le datalake a été organisé en plusieurs zones, les unes dédiées à l’analyse et les autres à la production. A son arrivée, la donnée est stockée dans une zone de transit. Puis les transformations sont opérées selon les métiers. Les specific data paddles génèrent des modèles de données et de simulation, pour les partager avec les personnes concernées.

La clé pour réussir un tel modèle réside dans la gouvernance. Ainsi, des architectes, des data stewarts et des PO se réunissent chaque semaine. En termes de langage, les industriels utilisent principalement du Spark. La solution site to site permet de garantir le flux.

En termes de capacité, l’infrastructure de démarrage était standard. A l’heure actuelle, il est réfléchi à une évolution du réseau afin de permettre une scalabilité horizontale destinée à éviter les problématiques de port réseau.

L’optimisation a essentiellement porté sur le hardware et les requêtes. Du point de vue des utilisateurs, l’impact final porte sur le mode de stockage des données dans le datalake.

Pour tracer les problématiques, un helpdesk orienté en mode agile permet de repérer les principales difficultés rencontrées par les utilisateurs. Il apparaît que 60% d’entre elles sont dues à un problème de compréhension du Big data.

En définitive, le datalake est un ensemble, et pas uniquement une plateforme. De ce fait, il est nécessaire d’impliquer les métiers dans l’aventure, en mettant en place une véritable conduite du changement.

Un intervenant de la RATP souhaite savoir si la gouvernance comporte des acteurs stratégiques tels qu’un Chief Data Officer.

9

Big Data Paris 2017


Kamélia BENCHEKROUN répond que la gouvernance stratégique est en cours d’installation. Un Chief Data Officer et un PO ont récemment été nommés.

Présentation : IoT et Big Data sur le cloud (ou pas) : mariage de raison ou cauchemar annoncé ? Julien SIMON Principal Technical Evangelist, AMAZON WEB SERVICES

I. Introduction Julien SIMON rappelle que l’Internet des objets pose de vraies problématiques : mode

de connexion des devices, sécurité, agrégation et confidentialité des données…

En l’absence de couverture IP, le réseau Sigfox est utilisé. La plateforme AXS IoT vise à offrir un point de connexion simple pour les devices IoT. Le protocole choisi est le protocole standard de l’industrie MQTT, sur lequel AWS apporte une couche de sécurité. Le problème de la sécurité des données en transit est donc résolu en imposant l’utilisation d’un certificat pour chaque device. Puis un moteur SQL standard permet de filtrer les messages pour les orienter en externe.

Pour la data, il n’existe aucun outil absolu permettant de résoudre tous les problèmes. AWS a donc été amené à diversifier ses solutions, en fonction du cas d’usage à résoudre.

En termes de sécurité des données stockées, l’ensemble des services et l’infrastructure sont multi-certifiés et audités. Ils sont aujourd’hui conformes à la totalité des standards internationaux.

II. Usages de l’IoT grâce à l’utilisation d’AWS Un certain nombre d’objets utilisent AWS.

Par exemple, l’I-Robot, en plus du ménage, cartographie la maison pour y détecter les autres objets communicants. L’ensemble de la plateforme I-Robot est construite avec les services AWS.

Thermomix a construit un robot ménager. Veolia Water développe également des projets IoT pour détecter les fuites d’eau. Zèbre a mis au point un projet d’assistance à domicile pour les personnes âgées.

III. Autres exemples : cas difficiles Les camions circulant dans une mine ont besoin d’avoir une puissance de calcul en

local, sans connectivité réseau. Le produit GreenGrass permet d’opérer ce type de service localement.

De même Philips a développé un équipement permettant aux hôpitaux de continuer à fonctionner sans connectivité dans l’hôpital.

Le GPL, Laboratoire de la Nasa, utilise également les robots d’AWS.

10

Big Data Paris 2017


IV. Conclusion Marc Benioff, CEO de Salesforce, vient d’annoncer que le Cloud de Salesforce

tournerait chez AWS. Cette décision est donc très révélatrice de la fiabilité des produits.

11

Big Data Paris 2017


Table ronde - Big Data Prédictif et compétences Florence d'ALCHÉ-BUC Professeur, TELECOM PARISTECH

Tugdual GRALL Technical Evangelist EMEA, MAPR

Ariane LIGER-BELAIR Directeur académique SAS

I. Présentation du predictive analytics Florence d'ALCHÉ-BUC explique qu’à partir d’un historique de données, un modèle

sera construit afin de prédire le futur grâce à des outils de Big Data et de machine learning. Les données s’accumuleront dans le temps.

Tugdual GRALL ajoute que le prédictif nécessite le plus grand nombre de données possibles afin de permettre une consommation de la donnée en temps réel.

Ariane LIGER-BELAIR précise que SAS propose des programmes certifiants, dont les étudiants sont très friands.

José DIZ demande si dans les métiers ayant affaire à la donnée, tel que les actuaires, il est possible d’utiliser les modèles prédictifs.

Florence d'ALCHÉ-BUC explique qu’il est nécessaire de comprendre les ressorts mathématiques des modèles. C’est pourquoi un informaticien est à même de suivre une formation d’un an, à la condition de posséder des connaissances de base en mathématiques.

José DIZ souhaite savoir comment est effectuée l’approche prédictive par un éditeur.

Tudgdual GRALL explique que le rôle de la plateforme Big Data est de mettre à disposition les données et de lancer le traitement en parallèle. La plateforme MAPR, en réalité, est complémentaire de SAS. MAPR fournit le stockage, le runtime et les connecteurs.

José DIZ demande si les outils de SAS sont réservés aux statisticiens.

Ariane LIGER-BELAIR confirme que tel était en effet le cas à l’origine. Aujourd’hui, davantage d’expertises sont réunies.

Florence d'ALCHÉ-BUC rappelle qu’en tout état de cause, un data scientist ne travaillera jamais seul, et que des connaissances métier sont nécessaires. L’équipe est également composée du data engineers. De ce fait dans une formation data science telle que celle proposée par Telecom ParisTech, l’ensemble de ces profils sont présents.

José DIZ souhaite savoir si les équipes métiers participent activement sur le terrain.

Tugdual GRALL explique que dans l’hypothèse où les équipes de l’entreprise cliente ne comportent pas de data scientist, MAPR fournit le sien, qui travaillera avec l’informatique. Il est en outre impératif d’impliquer le métier.

12

Big Data Paris 2017


José DIZ attire l’attention sur le fait qu’il existe actuellement des templates sur le marché des plateformes prédictives.

Florence d'ALCHÉ-BUC recommande la plus grande prudence avec cette tentation d’utiliser ces templates. Les algorithmes et les problématiques sont en effet réinventés chaque jour dans l’industrie. Il est donc nécessaire de savoir utiliser les algorithmes et de savoir les adapter. C’est pourquoi une formation classique de master de sciences peut être intéressante.

José DIZ s’enquiert de la durée de formation nécessaire à la data science. Ariane LIGER-BELAIR répond que le cursus de formation continue est généralement

de quelques mois. Tudgual GRALL indique, à titre d’exemple, qu’American Express emploie 200 data

scientists. Il existe également des cas où MAPR envoie le data scientist chez le client. Le recours à des free lances est également fréquent, dans la mesure où le marché des data scientists est encore restreint.

Ariane LIGER-BELAIR explique que lors du recrutement pour SAS Campus Data Scientist chaque année, l’accent est mis sur la compréhension des enjeux de l’entreprise et de la communication.

José DIZ s’enquiert de l’opportunité d’utiliser les plateformes existantes. Florence d'ALCHÉ-BUC confirme qu’il peut être intéressant d’utiliser les plateformes

existantes, à la condition d’une certaine flexibilité.

José DIZ demande si des communautés d’utilisateurs existent déjà. Tugdual GRALL répond qu’à sa connaissance, de telles communautés n’existent pas.

En revanche, la communauté de la Data Science et du Big Data se confronte régulièrement lors de hackatons et de challenges. Il peut même s’agir de vrais concours, lancés par de grandes entreprises.

II. Echanges avec la salle Le responsable Data Analytics de Vinci demande si un statisticien ou spécialiste du

data mining peuvent devenir data scientists. Dans tous les cas, la compréhension du business est nécessaire.

Florence d'ALCHÉ-BUC estime qu’il n’existe pas d’obstacle à ce que les statisticiens évoluent vers des fonctions de data scientists.

Ariane LIGER-BELAIR précise que pour sa part, elle recrute également les étudiants en fonction de leurs compétences SAS.

Un intervenant relève que les attributions du data scientist correspondent en réalité à des profils d’ingénieurs en recherche opérationnelle.

Florence d'ALCHÉ-BUC n’exclut pas que des ingénieurs en recherche opérationnelle puissent acquérir des compétences supplémentaires de data scientist.

Un intervenant s’enquiert du profil requis pour les Chief Data Officers.

Tugdual GRALL considère que le CDO doit bien connaître le métier de l’entreprise. Il apparaît nécessaire que le CDO exerce un pouvoir d’influence au sein de l’entreprise.

13

Big Data Paris 2017


Retour d’expérience - Médiamétrie : retour sur la mise en place d’un datalake via une approche alternative Mélanie LANGLOIS Directeur département innovation SI, MEDIAMETRIE

I. Introduction Mélanie LANGLOIS indique que le premier projet datalake chez Médiamétrie

nécessitait de mettre en place des traitements statistiques avec des données très volumineuses. C’est pourquoi l’idée est de venue de recourir à un expert en développement logiciel pour le faire travailler avec un expert statisticien du département scientifique de Médiamétrie. Cette structure a été officialisée pour se voir confier deux missions :

• poursuivre les synergies entre le département IT et le département Statistiques ;

• prendre toute la donnée disponible chez Médiamétrie pour proposer de nouvelles approches aux métiers et éventuellement trouver de nouveaux produits.

Néanmoins toutes les données étant présentes dans les systèmes en production, il a été demandé aux exploitants d’effectuer des extractions des données. Le département Innovation a également été mobilisé afin de trouver la meilleure solution pour récolter les données.

II. Présentation des diverses approches Dans un premier temps, un datalake virtuel a été imaginé. Cette approche a été

rapidement abandonnée, au profit de celle du découpage fonctionnel. Le schéma technique a été enrichi avec des métadonnées permettant aux data scientists de disposer d’un maximum de données.

Les diverses étapes du schéma technique sont projetées à l’écran.

Le schéma du stockage est projeté à l’écran.

Un cas d’usage est projeté à l’écran.

La Stack utilisée pour la gestion des ressources est projetée à l’écran.

III. Conclusion sur l’approche alternative Finalement, l’approche alternative a consisté à mettre en place un schéma différent.

L’objectif était également d’être dans le Cloud, mais avec un minimum de services managés.

IV. Echanges avec la salle Une intervenante souhaite savoir s’il existait des données de référence au départ du

datalake.

14

Big Data Paris 2017


Mélanie LANGLOIS explique qu’il appartient au data scientist de donner un sens aux données fournies par le métier.

Un intervenant s’enquiert des contraintes rencontrées lors de la fourniture des données dans AWS.

Mélanie LANGLOIS explique que pour l’heure, aucune donnée démographique n’est mise dans AWS.

Un intervenant s’enquiert de la composition du département datalake de Médiamétrie.

Mélanie LANGLOIS répond le département compte une personne à temps plein sur le datalake ainsi que deux autres personnes, dont elle-même, en charge de la gestion du projet.

15

Big Data Paris 2017


Apache Beam : modèle de programmation unifié pour Big Data - Combiner traitement par lot et streaming dans un modèle unique avec un outil agnostique sur site via Apache Spark ou Apache Flink, ou en mode cloud via Google Cloud DataFlow Jean-Baptiste ONOFRÉ Software Architect, Software Architect, APACHE TEAM

I. Qu’est-ce qu’Apache Beam Jean-Baptiste ONOFRE ndique travailler sur une vingtaine de projets Apache, dont

Apache Beam. Le SDK, devenu plus tard Apache Beam, a démarré en incubation en janvier 2016.

En répondant à quatre questions (quel type de résultat calculer, quand exprimer et matérialiser les données, quand générer les résultats, comment raffiner les résultats), il est possible de faire du Batch classique ou du streaming.

Dans Apache Beam, on trouve donc le modèle unifié, des SDK permettant d’implémenter les processings de données et des runners, et enfin des IOs.

II. La vision d’Apache Beam Différents utilisateurs peuvent être amenés à utiliser Apache Beam : les utilisateurs de

base, les personnes qui écrivent du SDK, ainsi que celles qui écrivent des runners.

Aujourd’hui, Java et Python sont déjà disponibles.

III. Les concepts du langage Il sera nécessaire d’exprimer le processus de la donnée sous forme d’un pipeline

(PCollection). La PCollection se transforme hors de la donnée. La PCollection comporte également

des codeurs, qui définiront la manière de sérialiser. La Ptransform est une transformation. Elle peut prendre une ou plusieurs PCollections

avec des données complémentaires. Les PTransforms particuliers sont ceux qui écrivent la donnée.

Un exemple de Pipeline avec IO est projeté à l’écran.

Il est donc possible de processer différents types de données élément par élément.

16

Big Data Paris 2017


IV. Runners Les runners traduisent le code Beam sur un moteur d’exécution donné. Une fois

compilé, le code pourra s’exécuter sur l’ensemble des runners.

Le Direct Runner est celui utilisé pour les tests. Google Cloud Data Flow est également disponible.

V. Use cases Spotify, Paypal utilisent Beam. Cette solution est excellente dans la mesure où elle est

portable, comporte des fonctions avancées ainsi qu’une possibilité d’extensibilité.

VI. Echanges avec la salle Un intervenant craint que le SDK comporte davantage de limites qu’API, en particulier

parce qu’il n’est pas possible d’utiliser toutes les fonctionnalités de Spark.

Jean-Baptiste ONOFRE souligne que Flink a défini son API en partant de Beam. En réalité, les capacités de Beam sont plus larges que celles de l’API natif. Il est vrai cependant, que les IOs de Spark sont aujourd’hui plus riches que celles de Beam.

17

Big Data Paris 2017


Retour d’expérience Présentation - Gouvernance des informations Big Data : maitriser le cycle de vie de la donnée Denis ESPERANDIEU Business Consultant, TERADATA

I. Présentation du contexte Denis ESPERANDIEU précise que TERADATA a été créée en Californie en 1979.

L’Entreprise compte aujourd’hui 2 800 clients grands comptes dans plus de 77 pays. Le nombre de salariés est d’environ 12 500 dans le monde, dont 3 000 ingénieurs et data scientists.

Aujourd’hui, les pressions sur le marché sont très fortes afin que les processus de gouvernance soient mis en place de la façon la plus parfaite possible. En parallèle, l’irruption du Big Data vient renforcer les besoins. Par ailleurs, l’information est souvent déstructurée.

En outre, la démultiplication actuelle des référentiels constitue un autre facteur à prendre en compte. De façon générale, il est essentiel de bien documenter les projets Big Data dès leur démarrage, afin de tenir compte du caractère très volatile des équipes.

En définitive, l’outillage est en devenir. C’est pourquoi il importe de mettre en place une gouvernance très solide.

Dans l’entreprise, le cycle de vie d’une donnée peut avoir une vélocité totalement différente en fonction du secteur d’activité. C’est pourquoi en premier lieu, il importe que l’entreprise se dote d’une bonne architecture technique.

De plus, les aspects de protection des données au sein de l’entreprise et vis-à-vis de l’extérieur, sont prégnants. Il est également nécessaire d’offrir des moyens de communication au sein de l’entreprise entre les différents acteurs, notamment sur la qualité de l’information qui circule.

II. De nombreuses étapes de collecte Le cycle de vie des données est multiple. Par conséquent, il est nécessaire de mettre

en place des pistes d’audit solides afin d’assurer une bonne traçabilité. De façon claire, il faut maîtriser le cycle de vie.

De même, la cartographie de la data lineage est essentielle. Enfin, l’expression de la charte de qualité est fondamentale.

III. Gouvernance des données La gouvernance des données n’est pas un projet, mais un programme transverse à

part entière dans l’entreprise. Dans ces conditions, une bonne gouvernance implique de capter tous les nouveaux projets dès leur démarrage. De surcroît, la stratégie doit être accolée à la dimension business.

De façon générale, la gouvernance des données s’inscrit dans le temps. En tout état de cause, l’informatique traditionnelle est souvent opposée au monde du Big Data, alors que les processus sont globaux. Toutefois dans le monde Hadoop, la façon d’écrire un

18

Big Data Paris 2017


container de données est différente de la technologie SQL. La vraie frontière réside en réalité dans la culture des projets et la façon de les gérer. C’est pourquoi une autre frontière est proposée aux grandes entreprises, afin de les convaincre de mener deux types de projets :

• les projets industriels, développés avec des méthodes cohérentes avec l’ensemble de la chaîne de valeur ;

• la « fouille de données, c’est-à-dire les prototypages évolutifs et les projets de flux de données, qui s’affranchissent des processus de contrôle classiques.

IV. Echanges avec la salle Une intervenante s’enquiert de la durée de mise en place d’une bonne gouvernance

des données pour une banque.

Denis ESPERANDIEU cite l’exemple d’un pilote ayant duré cinq mois. A l’échelle de l’entreprise toutefois, le travail doit être sans cesse repris et amélioré.

Une intervenante s’enquiert du socle minimum nécessaire pour démarrer.

Denis ESPERANDIEU souligne l’importance de maîtriser les métadonnées, surtout sur les processus les plus sensibles.

Un intervenant demande si une gouvernance est possible sans CDO au niveau du COMEX.

Denis ESPERANDIEU considère que cette nouvelle fonction doit être le plus haut placé possible en termes de gouvernance, avec de vrais moyens d’action.

19

Big Data Paris 2017


La journée est animée par José DIZ, Journaliste scientifique.

Les best-practices pour réussir l’intégration des plateformes Hadoop au système d’information existant : progiciels, BI en place, temps réel Big Data avec Storm, etc. Emmanuel FORTIN Développeur Big Data SILKA Crédit Agricole

I. Présentation Emmanuel FORTIN précise que le Big Data est arrivé chez SILKA au printemps 2014.

A cette date, la décision de virtualiser les serveurs pour en faire un usage à la demande a été prise. La solution matérielle tourne sur OpenStack, tandis que le stockage est distribué. Un premier chantier a initialement été mené avec un éditeur tiers.

L’offre Big Data est tenue par la production, jusqu’à l’accompagnement du client. La solution s’aligne sur les tarifs en ligne du marché, limite les investissements initiaux et fournit une offre adaptée aux besoins clients. Cette offre a été élaborée en coconstruction entre les clients et la production. Désormais, il est possible pour l’équipe d’ajouter des fonctionnalités supplémentaires en fonction des besoins et des usages, tandis que le client dispose de la faculté d’ajouter des outils de façon totalement autonome.

L’équipe compte aujourd’hui dix personnes. La distribution Hadoop a évolué vers la plateforme MAPR. Trois nœuds MAPR, les « master nods », tiennent l’intégralité des services du cluster.

L’offre à plus de trois nœuds comporte un nouveau type de machine, les « compute nods ». L’objectif est de maximiser la ressource disponible pour distribuer les traitements. Une scalarité horizontale a été privilégiée.

Aujourd’hui, l’installation supporte la mise à jour et les montées de version fournies par MAPR, sans aucune interruption. Le nombre de clusters déployé a fortement augmenté.

Tous les deux mois, il est procédé à une mise à jour de l’écosystème. Le format supporte jusqu’à trois versions déployées de la plateforme. La possibilité d’ajouter des fonctionnalités en avant-première est également nouvelle.

Le worklow est relativement simple. Une fois les montées de version validées, le Jenkins s’occupe de reconstruire tout ce qui a été demandé sur l’infrastructure de production en OpenStack. Les scripts passeront ensuite dans une branche master.

L’avantage de mutualiser les installations de cluster sur sa propre infrastructure permet de faire bénéficier le client des chantiers transverses. C’est la possibilité également de fournir une usine logicielle, du DNS, et de travailler avec les personnes qui font le pont entre leur ancien système et le nouveau.

20

Big Data Paris 2017


Un petit portail est fourni directement sur le cluster client, faisant état de l’ensemble des installations middleware installées. Un lien permet aux clients d’accéder directement aux outils. L’intégralité des scripts sont disponibles en open source.

21

Big Data Paris 2017


Retour d’expérience - Rio Tinto développe "l'Industrie du Futur" grâce au Big Data Manuel CHAREYRE Projects Execution Manager and Innovation leader 4.0, RIO TINTO

Nathalie CapGemini

I. Introduction Manuel CHAREYRE indique que RIO TINTO est précurseur dans l’industrie du Big

Data. RIO TINTO est le deuxième groupe minier mondial spécialisé dans l’aluminium, opérant dans une quarantaine de pays et employant 55 000 personnes.

Lancé officiellement en 2008 dans le Nord-Ouest australien, le concept Mines du Futur repose sur une série de fondamentaux : véhicules autonomes pilotés à distance, automatisation des trains. Le centre d’opérations est situé près de l’aéroport de Perth, et supervise les équipements autonomes. Sur le terrain, ne restent que les équipes d’intervention rapide.

Sur la chaîne de valeurs, les équipes en s’appuyant sur les prédictions de production des mines, optimisent en temps réel la production pour mettre sur le marché un maximum de valeur. Les processing exchange centers pour leur part, se concentrent sur une partie du procédé. Le cœur des équipes provient de l’ancien Groupe Péchiney.

La vision Mines du Futur a été déclinée il y a trois ans dans les usines de production d’aluminium. Les données utilisées pour le pilotage de la production sont fiables. Les nouveaux outils de Big Data Analytics sont connectés dans les usines en temps réel pour intervenir sur le procédé en réaction. De la même manière, tous les outils collaboratifs sont déployés.

Le programme de Big Data industriel a commencé par établir un Data Lab pour identifier les cas d’usage présents dans les usines. Une fois les preuves de concept validées et passées en prototypes, elles sont mises en opérations en temps réel sur les sites. A titre d’exemple, la maintenance prédictive est pratiquée dans les ateliers « carbone ».

II. Méthodologie Nathalie indique que la road map se déroule en cinq phases :

• mobilisation des acteurs pour les synchroniser sur le contexte et partager des enjeux business ;

• étape de découverte, d’où émergeront un certain nombre d’idées ; • découverte des used cases ; • élaboration de la fonction prédictive ; • déploiement de l’algorithme.

La solution proposée embarque une plateforme CLOUDERA.

Manuel CHAREYRE donne un exemple de cas d’usage très concret. Pour lutter contre la présence de champignons sur les cuves, des alertes prédictives robustes ont été générées dès les preuves de concept, permettant de détecter un champignon sur deux

22

Big Data Paris 2017


avec un pourcentage de prédiction de 80%. De façon générale, l’objectif est d’aboutir à un algorithme packagé pour être installé en temps réel dans l’usine.

Enfin, l’infrastructure Hadoop permet de préparer l’intégration de données.

III. Recours à l’innovation ouverte Dans l’ensemble de ce domaine, il est indispensable de recourir à la R&D collaborative

pour améliorer le time to market et augmenter les revenus. Il s’agit par conséquent d’un important changement culturel et d’une nouvelle façon d’envisager les relations contractuelles au sein d’un consortium.

Le programme Horizon 2020 de l’Union Européenne est l’un des modes de financement, avec un budget de 80 milliards d’euros.

IV. Usine vitrine L’usine de Dunkerque est l’une des plus modernes en Europe. L’objectif est d’en faire

la première usine 4.0.

V. Conclusion Il est nécessaire que chaque industriel bâtisse sa vision, trouve les bons partenaires,

commence avec des cas d’usage à forte production de valeur, accélère avec l’innovation ouverte et bâtisse une usine de démonstration.

23

Big Data Paris 2017


Présentation – Machine Learning : a paradigm shift that affects computing and our everyday lives Charles ZEDLEWSKI Senior Vice-Président, Products, CLOUDERA

Charles ZEDLEWSKI se félicite de la forte participation aux deux journées Big Data, très révélatrice de l’importance que revêtent aujourd’hui l’ensemble des business process softwares développés depuis vingt ans, et ayant entraîné un très important changement dans l’industrie.

Le potentiel du Big Data et du machine learning, tient au fait que d’ici vingt ans, les décisions seront prises par les softwares. A un certain égard, on peut considérer que le phénomène de data engineering n’est pas nouveau. Néanmoins depuis une période récente, les modèles sont directement insérés dans les business process. Cette même idée sera étendue à des milliers de décisions dans une centaine d’industries.

Depuis cinq ans, l’utilisation du machine learning est en forte croissance, pour plusieurs raisons.

En premier lieu, la masse de données disponibles est aujourd’hui beaucoup plus conséquente que par le passé. De plus, le comportement des consommateurs a lui-même évolué. Ce surcroît de données bénéficie aux applications de machine learning.

En outre, les outils et techniques du machine learning sont aujourd’hui plus disponibles et moins onéreux qu’il y a une dizaine d’années. Les communautés open source sur le machine learning se sont considérablement développées.

En troisième lieu, la mise des modèles en production est désormais disponible depuis une plateforme telle que CLOUDERA, directement sur les ordinateurs actuels.

Néanmoins, les points de vigilance existent. Tout d’abord, un grand nombre de systèmes sont nécessaires pour produire une seule application de machine learning. De plus, les équipes de data scientists travaillent depuis leur ordinateur, ce qui ne permet pas aisément le partage et la collaboration avec leurs collègues. De façon générale, il n’existe pas de standards partagés en termes de data science. De ce fait, les langages de travail sont variés, ce qui ajoute en complexité et ralentit le développement des applications de machine learning. Enfin, un très faible nombre de modèles arrivent finalement en production.

L’ensemble de ces difficultés sont susceptibles de trouver une résolution, principalement grâce à deux moyens. Selon CLOUDERA, la seule solution acceptable est de recourir à une plateforme en open source. Une autre possibilité est celle de la mystery box, dont nul ne peut dire le contenu ou le coût. Dans les dix prochaines années, le débat sera nourri entre ces deux modèles, sans qu’il soit aujourd’hui possible de prédire celui qui l’emportera.

Un intervenant sollicite davantage de précisions sur la façon de CLOUDERA de prendre en compte le machine learning.

Charles ZEDLEWSKI répond que CLOUDERA est déjà très en avance sur le sujet. Toutefois, un très petit nombre d’utilisateurs parviennent aujourd’hui à développer des modèles. La plus forte demande des clients concerne les statistiques et le soft engineering. Il est très difficile pour le moment de bâtir un pont entre les deux. Ce problème doit être résolu.

24

Big Data Paris 2017


Supervision et administration des plateformes Hadoop : Où en est-on ? Comment relier cela à la supervision du SI? Cédric CARBONE Cofondateur, HADOOP USER GROUP

Bertrand DECHOUX Cofondateur, HADOOP USER GROUP

Cédric CARBONE indique que l’idée d’Hadoop a été lancée pour répliquer les découvertes de Google sur un écosystème public. Les principales difficultés à l’origine, étaient liées à la scabilité. Google a résolu le problème tandis que Hadoop a démocratisé la technique. Le problème persistant sera de vérifier que la plateforme fonctionne correctement.

Par ailleurs du point de vue de l’administration de la plateforme, Hadoop a beaucoup progressé, notamment en mettant en place les concepts de manager et de worker. Dans Hadoop 2, chaque worker est responsable de l’utilisation des ressources.

Les schémas de la base Hadoop sont présentés à l’écran.

Bertrand DECHOUX précise que les mesures effectuées visent à détecter les problèmes matériels rencontrés. Les briques technologiques sont fournies par les grandes distributions ou au sein d’Apache Ambari pour Hadoop. La plateforme CLOUDERA manager est également disponible. Les deux plateformes permettent de gérer et de monitorer un cluster Hadoop.

Pour la partie log, deux choix sont possibles : création d’un système propre ou recours aux solutions du marché (Logmatic, Splunk…)

Des copies d’écran Logmatic sont projetées.

Cédric CARBONE ajoute qu’en matière de monitoring, la question est de déterminer s’il faut utiliser Hadoop ou non. A l’inverse des Logs, on parlera ici de séries temporelles et de working data base.

Les outils disponibles sont Graphite et Graphana, dans l’hypothèse où le choix de la création d’un système propre a été privilégié.

25

Big Data Paris 2017


Table ronde - Peut-on raisonnablement laisser le Big Data entre les mains des utilisateurs métiers ? Victor COUSTENOBLE Responsable régional et ingénieur solutions EMEA, TRIFACTA

Anh-Thu LASSERRE Directrice du pôle innovation digitale, DGSI, MICHELIN

Youen CHÉNÉ CTO, SAAGIE

Bernard FOUDRIER ? Business Consultant, TERADATA

I. Etat des lieux des projets Big Data sur le terrain Anh-Thu LASSERRE attire l’attention sur la nécessité de repositionner la discussion

sur le business analytics. En ce qui concerne la partie exploratoire, les services du pôle innovation digitale seront proposés à l’ensemble des entités du Groupe, dont la DSI.

Bernard FOUDRIER explique que le lancement d’un écosystème nécessitera de recourir à des gens de métier. Dans les phases de prototypage notamment, il ne faudra pas se limiter en termes de technologies. Par ailleurs, la transformation numérique fait appel à d’autres facettes. La DSI a sa place dans l’écosystème dans la phase de prototypage.

Youen CHÉNÉ précise que les deux approches coexistent : une approche DSI et des initiatives dans les directions digitales souvent mises en place par la Direction financière.

José DIZ sollicite des précisions sur le moyen de mettre les données à la portée d’un utilisateur métier.

Victor COUSTENOBLE insiste sur la nécessité dans un premier temps, de garantir la sécurité. Il faut ensuite fournir aux utilisateurs métiers de nouvelles méthodes pour accéder aux données sans compétence IT.

José DIZ demande comment gérer la différence de cycle et d’approche.

Anh-Thu LASSERRE explique que le travail se déroule pendant un mois en mode agile et itératif, jusqu’à aboutir à un produit industrialisable répondant aux exigences métier.

José DIZ rappelle que l’informatique est traditionnellement habituée aux cycles longs, alors qu’il existe désormais une demande de cycles plus rapide.

Bernard FOUDRIER répond que l’équipe de data scientists de TERADATA parviennent à travailler sur des cycles plus courts. Après une phase d’évaluation, la partie retour sur investissement sera étudiée.

José DIZ sollicite des précisions sur le « shadow IT ».

Youen CHÉNÉ répond qu’il s’agit d’informatique développée sans passer par l’IT.

26

Big Data Paris 2017


José DIZ souhaite savoir si la protection de la donnée passe par l’innovation ou par la mise à jour.

Victor COUSTENOBLE explique qu’en réalité, les data labs offrent davantage de liberté pour manipuler la donnée. Il est important de disposer de plusieurs zones de protection de la donnée, sous le contrôle de l’IT.

II. Partage de compétences José DIZ demande si la technologie de data science, plus complexe et faisant appel au

machine learning, justifie à elle seule l’existence des data scientists.

Anh-Thu LASSERRE considère que le travail de nettoyage de la donnée devrait être effectué par le métier plutôt que par les data scientists, ce qui leur laisserait davantage de temps pour d’autres tâches.

Bernard FOUDRIER envisage l’approche de data science comme une orchestration. L’échec est tout à fait admis, mais il faut le savoir rapidement afin de se tourner vers une autre solution d’exploitation des données.

José DIZ demande si le datalake est le bon point de départ pour aller vers les méthodes de prototypage.

Youen CHÉNÉ répond que le datalake permet de trouver de nouvelles idées et de les tester à moindre frais.

José DIZ souhaite un exemple d’équilibre des rôles.

Victor COUSTENOBLE cite le domaine des assurances. En termes d’outillage, il faut donner aux actuaires et autres acteurs du métier, les moyens d’accéder aux mêmes données que précédemment, mais dans Hadoop. Il convient par conséquent de distribuer les rôles avec des outils différents sans contraindre tous les intervenants à apprendre du Python.

Anh-Thu LASSERRE explique que chez Michelin, un modèle de machine learning a été retenu pour pouvoir effectuer des prédictions de retour des carcasses. Ce modèle a été construit en itération courte avec le métier, sans nécessiter un nombre très important de données.

Bernard FOUDRIER cite l’exemple de SIEMENS sur la partie ferroviaire espagnole. SIEMENS a pris l’engagement que moins d’un train sur 2 000 aurait plus de cinq minutes de retard, grâce à la maintenance prédictive.

III. Echanges avec la salle Un intervenant s’enquiert de la façon dont est géré le partage de ressources dans le

datalake.

Victor COUSTENOBLE explique que l’IT contrôle les jobs qui seront lancés. L’IT exerce un rôle de supervision.

Un intervenant, se référant au mode sandbox, plus expérimental, demande comment est gérée la confidentialité des données.

Anh-Thu LASSERRE considère que le frein majeur à la création de valeur par les données est le silotage. De ce fait, le pôle de compétences créateur de cette valeur doit avoir accès à la donnée. La mise à disposition a lieu en sécurisant les accès.

27

Big Data Paris 2017


Retour d’expérience - Natixis - Mise en place d’une plateforme Big Data sécurisée Pierre-Alexandre PAUTRAT Head of application support for Capital Markets and Natixis Asset Management, NATIXIS

Florent VOIGNIER Président & Fondateur, INDEXIMA

I. Présentation de Natixis Pierre-Alexandre PAUTRAT précise que Natixis est la banque de marché de

financement du groupe BPCE. Ses deux activités principales sont tournées autour du Retail d’une part, et de la banque de marché et de financement d’autre part. Les services du Retail ont été les premiers pilotes du Big Data en 2014.

La présentation traitera par conséquent du Big Data dans la banque de marché et de financement, en particulier du point de vue de la sécurité.

Florent VOIGNIER ajoute que dès 2014, une communauté Big Data s’est créée pour rapprocher les traitements et les calculs de la masse de données, en travaillant de façon très sécurisée.

II. Le Big Data chez Natixis Pierre-Alexandre PAUTRAT souligne qu’en 2014, les technologies étaient Java,

MapReduce et Spark. Sur le cluster de poke, Norton Works a été installé. Puis le cluster Hadoop a été sécurisé grâce à Kerberos Le cluster étant sécurisé, des données sensibles ont pu y être incluses pour permettre aux utilisateurs de travailler avec des données réelles.

Actuellement, plus de trente projets sont en développement, pour dix en production. Les clusters de développement et de production sont une duplication l’un de l’autre.

A partir du deuxième semestre 2014, tous les points dangereux ont été identifiés. L’objectif était de connecter les produits standards avec les interfaces standards, pour obtenir des performances inférieures à une seconde. La sécurité est gérée au niveau du cluster, afin de permettre à la personne de choisir l’outil qui lui convient. La solution choisie est celle d’INDEXIMA.

La solution adoptée chez Natixis pour permettre la restitution rapide, a été installée en deux jours. En quelques semaines, une interface MDX-XMLA a été montée. Les applications réglementaires ont ensuite été installées, ce qui a légitimé la solution. Pendant toute l’année 2016, le produit INDEXIMA a évolué.

Florent VOIGNIER explique que dans un premier temps, il fallait rendre le produit INDEXIMA multi-utilisateurs. C’est pourquoi une gestion des droits a été rajoutée au niveau des colonnes et des lignes, afin que chaque utilisateur effectuant une requête ne voie pas les mêmes données que les autres.

La sécurisation a été effectuée avec Kerberos de bout en bout. Pierre-Alexandre PAUTRAT précise que le test d’intrusion réalisé sur le cluster a reçu

la note de B sur une échelle de A à F. Un cluster coffre récupèrera les réplications et sera

28

Big Data Paris 2017


inaccessible aux développeurs. Les outils utilisés sont le machine learning, Spark, Kafka. Dans l’écosystème Natixis, la quasi-totalité des équipes de développement ont été embarquées. Chaque technologie a son référent. Un document présente tous les pokes, pilotes et projets en développement, et est constamment mis à jour.

III. Echanges avec la salle Un intervenant sollicite des précisions sur la scabilité de la solution avec INDEXIMA.

Florent VOIGNIER répond que le cluster de développement aura trois nœuds tandis que le cluster de production ne dépassera pas douze nœuds.

Un intervenant demande si des données sensibles sont gérées.

Pierre-Alexandre PAUTRAT explique que dans la partie marché, il n’y a pas de données personnelles au sens strict. Néanmoins un test d’intrusion assez agressif a été mené.

29

Big Data Paris 2017


Gestion des identités et des droits d’accès en environnement Hadoop Victor LUNDBERG Solution Engineer, HORTONWORKS

Victor LUNDBERG considère le datalake comme un véritable hub autour de la donnée pour l’ensemble des utilisateurs de l’entreprise. Il implique de multi-usages et fonctions. Pour autant, un datalake doit suffire pour l’ensemble des métiers et des utilisateurs. Le data hub d’une entreprise implique d’encadrer la gestion de la donnée. Les paramètres de contrôle d’identité et d’accès doivent par conséquent être bien définis.

Toutefois, la gouvernance ne commence pas quand les données sont dans le datalake, mais bien avant. Il est donc important de contrôler l’accès au datalake non seulement pour contrôler l’accès aux espaces communs mais également aux autres ressources.

En termes de sécurité autour du datalake, le security manager nommé devra comprendre les enjeux de la donnée pour ne pas restreindre outre mesure l’accès à la plateforme. Il faut en effet éviter le shadow IT. Les data scientists qui manipulent, transforment et font parler la donnée, n’ont pas non plus accès à l’ensemble des données. Enfin l’équipe marketing doit se voir garantir un certain accès à la donnée, avec un certain nombre de droits restreints.

Les modes de contrôle de l’ensemble des ressources sont assez complexes. En réalité, il importe de créer un endroit dans lequel centraliser l’ensemble des identités et des accès des utilisateurs. Cet outil de gouvernance permettra de comprendre la provenance de la donnée. Le security manager pour sa part, sera au fait des problématiques de sécurité autour du datalake. Enfin les équipes Opérations devront également se voir garantir un certain nombre d’accès autour du cluster, de même que le management. En effet, le datalake est aussi un outil business et pas uniquement IT.

L’utilisation des outils open source fait partie de l’ADN d’Hadoop. De façon générale, la gouvernance de la donnée doit être centrale, sans oublier la performance. C’est pourquoi il convient d’éviter les démarches trop silotées.

30

Big Data Paris 2017


Comment le Big Data pourrait-il tuer le Data Mining ? Risques et opportunités pour le data mining Stephane ROMAN Business Analytics Sales Consulting Director, ORACLE

Stéphane ROMAN rappelle que le data mining est l’une des étapes du KDD (Knowledge Discovery in Database). Aujourd’hui, le processus s’est transformé. En statistique, il est impossible de modéliser mathématiquement ce qui se passe dans l’univers. Toutefois, une autre approche permet d’éviter de construire des modèles, en laissant la machine chercher des corrélations entre un énorme volume de données. C’est ce qu’a fait Google Ads.

Dans ce contexte, on peut s’interroger sur le point de savoir si la science meurt en raison du développement des données. Dans la littérature cependant, certains scientifiques ont prouvé mathématiquement qu’une somme excessive de données pourrait créer de fausses corrélations .

De façon générale, la question qui se pose est de déterminer si l’augmentation du volume de données donne un résultat nécessairement meilleur. Il est manifeste que toutes les méthodes de statistiques ne scalent pas de la même façon que les fonctions linéaires. La construction de modèles toujours plus complexe sans en comprendre le fonctionnement, peut avoir des conséquences désastreuses. Un exemple symptomatique en la matière est celui des subprimes.

Finalement, pour déterminer si le Big Data est incompatible avec le Data Mining, il suffit de voir le nombre d’opportunités d’emplois proposés aux personnes maîtrisant le Python et le R, pour avoir la réponse. En réalité, il est vraisemblable le Big Data pourrait compléter le Data Mining, à la condition que la méthode statistique se rapproche de la donnée en elle-même. C’est pourquoi on a aujourd’hui tendance à employer le terme de « Big Data Mining », pour tous et partout. Ce sont les outils de Big Data Analytics.

United a utilisé une solution de Data Mining tout en définissant des objectifs. Le modèle apprend au fur et à mesure du temps. Il s’agit donc d’un vrai projet de Big Data Mining.

Pour conclure, une société londonienne s’est lancée dans l’Artificial Intelligence artificielle Beer. En discutant avec l’algorithme, il est possible de faire part de ses goûts en matière de bière.

Un intervenant considère que les données structurées font appel au Data Mining, tandis que les données non structurées recourent au Big Data.

Stéphane ROMAN estime qu’en définitive, le Big Data Mining est la convergence d’anciennes techniques avec une nouvelle forme de données.

sommaire - big data paris 2020 · apache beam : modèle de programmation unifié pour big data...

Documents