s3 4 am - casd.eu · responsable data science casd et des usages • objets connectés et iot •...
Post on 27-May-2020
4 Views
Preview:
TRANSCRIPT
SESSION 3 _ 14:30
LES DEVELOPPEMENTS
PRÉSENTATION DE LA PLATE-FORME DE DONNÉESBIG DATA SÉCURISÉE CASD-TERALAB
ALEXANDRE MARTY
Responsable Data Science CASD
LES
DEVELOPPEMENTSSESSION 3 _ 14:30
Présentation de la
plate-forme
de données big data
sécurisée
CASD-Teralab
Alexandre MartyResponsable Data Science
CASD
Big data et confidentialité
• Un grand pouvoir…• Vastes quantités de données• Technologies et méthodes puissantes• Grandes opportunités
• … Implique de grandes responsabilités• Données détaillées, personnelles et confidentielles• Technologies encore peu sécurisées• Forts besoins de sécurité
LES
DEVELOPPEMENTSSESSION 3 _ 14:30
Présentation de la
plate-forme
de données big data
sécurisée
CASD-Teralab
Alexandre MartyResponsable Data Science
CASD
L’explosion des données
• 2,5 milliards de Go générés par jour
• 90% des données créées au cours des deux dernières années
LES
DEVELOPPEMENTSSESSION 3 _ 14:30
Présentation de la
plate-forme
de données big data
sécurisée
CASD-Teralab
Alexandre MartyResponsable Data Science
CASD
Et des usages
• Objets connectés et IoT• Santé publique• Sports• Science et recherche• Réseaux et infrastructures• Marketing et e-commerce• Sécurité• Finance et assurance• Smart cities• …
LES
DEVELOPPEMENTSSESSION 3 _ 14:30
Présentation de la
plate-forme
de données big data
sécurisée
CASD-Teralab
Alexandre MartyResponsable Data Science
CASD
Le projet Teralab
• Appel à projets PIA “Cloud computing/Big Data”
• Construction et exploitation d’une plateforme Big Data• Pour la recherche, l’innovation et l’enseignement• Soumise par un consortium comprenant
• Le GENES, et particulièrement le CASD• L’IMT (Institut Mines-Télécom)• En partenariat avec l’INSEE
• Projet démarré en décembre 2013• Budget de 5,7 M€• Durée de 5 ans
LES
DEVELOPPEMENTSSESSION 3 _ 14:30
Présentation de la
plate-forme
de données big data
sécurisée
CASD-Teralab
Alexandre MartyResponsable Data Science
CASD
Compartiments de la plateforme
LES
DEVELOPPEMENTSSESSION 3 _ 14:30
Présentation de la
plate-forme
de données big data
sécurisée
CASD-Teralab
Alexandre MartyResponsable Data Science
CASD
Architecture CASD-Teralab
LES
DEVELOPPEMENTSSESSION 3 _ 14:30
Présentation de la
plate-forme
de données big data
sécurisée
CASD-Teralab
Alexandre MartyResponsable Data Science
CASD
Technologies big data
• Infrastructure puissante et extensible• Environnement Hadoop
• Stockage : HDFS• Traitement : MapReduce, Hive, Spark
• Nombreux outils pour les data scientists• Langages et connecteurs : Python, R, SAS• Machine learning : Mahout, Mllib• Dataiku Data Science Studio• Serveur Open Street Map
LES
DEVELOPPEMENTSSESSION 3 _ 14:30
Présentation de la
plate-forme
de données big data
sécurisée
CASD-Teralab
Alexandre MartyResponsable Data Science
CASD
Projets – Données de caisse
• POC en partenariat avec l’INSEE• Amélioration du calcul de l’Indice des Prix à la Consommation• Données de caisse de plusieurs enseignes de grande distribution
• Expérimentation avec les technologies big data• Données simulées pour le POC• 5 milliards d’enregistrements par an
• Résultats concluants•
• Mise en production à l’INSEE
Hadoop RDBMSChargement d’une semaine dedonnées 10min 1h30Tempsd’execution d’une requête SQL 40s 1h15
LES
DEVELOPPEMENTSSESSION 3 _ 14:30
Présentation de la
plate-forme
de données big data
sécurisée
CASD-Teralab
Alexandre MartyResponsable Data Science
CASD
Projets
• RTE (Réseau de Transport d’Electricité)• Optimisation du réseau (prévision, maintenance et consommation)• Grande diversité de sources• Développement d’applications innovantes
• Datalabs BNP• Datalab d’expérimentation• Datalab sur données de cartes de crédit avec des étudiants
• Anonymisation de données avec l’INSEE• Jeux de données tabulaires de grande taille
LES
DEVELOPPEMENTSSESSION 3 _ 14:30
Présentation de la
plate-forme
de données big data
sécurisée
CASD-Teralab
Alexandre MartyResponsable Data Science
CASD
Démo
top related