s3 4 am - casd.eu · responsable data science casd et des usages • objets connectés et iot •...

13
SESSION 3 _ 14:30 LES DÉVELOPPEMENTS

Upload: others

Post on 27-May-2020

4 views

Category:

Documents


0 download

TRANSCRIPT

SESSION 3 _ 14:30

LES DÉVELOPPEMENTS

SESSION 3 _ 14:30

LES DEVELOPPEMENTS

PRÉSENTATION DE LA PLATE-FORME DE DONNÉESBIG DATA SÉCURISÉE CASD-TERALAB

ALEXANDRE MARTY

Responsable Data Science CASD

LES

DEVELOPPEMENTSSESSION 3 _ 14:30

Présentation de la

plate-forme

de données big data

sécurisée

CASD-Teralab

Alexandre MartyResponsable Data Science

CASD

Big data et confidentialité

• Un grand pouvoir…• Vastes quantités de données• Technologies et méthodes puissantes• Grandes opportunités

• … Implique de grandes responsabilités• Données détaillées, personnelles et confidentielles• Technologies encore peu sécurisées• Forts besoins de sécurité

LES

DEVELOPPEMENTSSESSION 3 _ 14:30

Présentation de la

plate-forme

de données big data

sécurisée

CASD-Teralab

Alexandre MartyResponsable Data Science

CASD

L’explosion des données

• 2,5 milliards de Go générés par jour

• 90% des données créées au cours des deux dernières années

LES

DEVELOPPEMENTSSESSION 3 _ 14:30

Présentation de la

plate-forme

de données big data

sécurisée

CASD-Teralab

Alexandre MartyResponsable Data Science

CASD

Et des usages

• Objets connectés et IoT• Santé publique• Sports• Science et recherche• Réseaux et infrastructures• Marketing et e-commerce• Sécurité• Finance et assurance• Smart cities• …

LES

DEVELOPPEMENTSSESSION 3 _ 14:30

Présentation de la

plate-forme

de données big data

sécurisée

CASD-Teralab

Alexandre MartyResponsable Data Science

CASD

Le projet Teralab

• Appel à projets PIA “Cloud computing/Big Data”

• Construction et exploitation d’une plateforme Big Data• Pour la recherche, l’innovation et l’enseignement• Soumise par un consortium comprenant

• Le GENES, et particulièrement le CASD• L’IMT (Institut Mines-Télécom)• En partenariat avec l’INSEE

• Projet démarré en décembre 2013• Budget de 5,7 M€• Durée de 5 ans

LES

DEVELOPPEMENTSSESSION 3 _ 14:30

Présentation de la

plate-forme

de données big data

sécurisée

CASD-Teralab

Alexandre MartyResponsable Data Science

CASD

Compartiments de la plateforme

LES

DEVELOPPEMENTSSESSION 3 _ 14:30

Présentation de la

plate-forme

de données big data

sécurisée

CASD-Teralab

Alexandre MartyResponsable Data Science

CASD

Architecture CASD-Teralab

LES

DEVELOPPEMENTSSESSION 3 _ 14:30

Présentation de la

plate-forme

de données big data

sécurisée

CASD-Teralab

Alexandre MartyResponsable Data Science

CASD

Technologies big data

• Infrastructure puissante et extensible• Environnement Hadoop

• Stockage : HDFS• Traitement : MapReduce, Hive, Spark

• Nombreux outils pour les data scientists• Langages et connecteurs : Python, R, SAS• Machine learning : Mahout, Mllib• Dataiku Data Science Studio• Serveur Open Street Map

LES

DEVELOPPEMENTSSESSION 3 _ 14:30

Présentation de la

plate-forme

de données big data

sécurisée

CASD-Teralab

Alexandre MartyResponsable Data Science

CASD

Projets – Données de caisse

• POC en partenariat avec l’INSEE• Amélioration du calcul de l’Indice des Prix à la Consommation• Données de caisse de plusieurs enseignes de grande distribution

• Expérimentation avec les technologies big data• Données simulées pour le POC• 5 milliards d’enregistrements par an

• Résultats concluants•

• Mise en production à l’INSEE

Hadoop RDBMSChargement d’une semaine dedonnées 10min 1h30Tempsd’execution d’une requête SQL 40s 1h15

LES

DEVELOPPEMENTSSESSION 3 _ 14:30

Présentation de la

plate-forme

de données big data

sécurisée

CASD-Teralab

Alexandre MartyResponsable Data Science

CASD

Projets

• RTE (Réseau de Transport d’Electricité)• Optimisation du réseau (prévision, maintenance et consommation)• Grande diversité de sources• Développement d’applications innovantes

• Datalabs BNP• Datalab d’expérimentation• Datalab sur données de cartes de crédit avec des étudiants

• Anonymisation de données avec l’INSEE• Jeux de données tabulaires de grande taille

LES

DEVELOPPEMENTSSESSION 3 _ 14:30

Présentation de la

plate-forme

de données big data

sécurisée

CASD-Teralab

Alexandre MartyResponsable Data Science

CASD

Démo

MERCI.Alexandre Marty

<[email protected]>