data science - octo academy · introduction au big data • qu’est-ce-que le big data ? ......
TRANSCRIPT
DATA SCIENCE
Programme domaineDate de téléchargement : 15/09/2018
1
BEST Fondamentaux de la Data Science
Stage pratique en présentiel
DATA SCIENCE
Code :
DSFDX
Durée :
3 jours (21 heures)
Exposés :
60%
Cas pratiques :
30%
Échanges d'expérience :
10%
Sessions à venir :
19 - 21 sept. 2018
Paris / 2 350 eur
24 - 26 sept. 2018
Genève / 2 700 chf
5 - 7 déc. 2018
Paris / 2 350 eur
Tarif & dates intra :
Sur demande
DESCRIPTION
Surfant sur la vague du Big Data, le data scientist joue un rôle clé dans la
valorisation de données. Au-delà des paillettes, quel est son rôle, ses outils,
sa méthodologie, ses "tips and tricks" ? Venez le découvrir au travers de
cette initiation à la Data Science délivrée par des data scientists renommés qui
vous apporteront l’expérience des compétitions de Data Science et leurs
riches retours d’expérience des modèles réels qu’ils mettent en place chez
leurs clients.
OBJECTIFS PÉDAGOGIQUES
Découvrir le monde de la Data Science et les grandes familles de problèmes
Savoir modéliser un problème de Data Science
Créer ses premières variables
Constituer sa boite à outils de data scientist
PUBLIC CIBLE
Analyste
Statisticien
Architecte
Développeur
PRÉ-REQUIS
• Connaissances de base en programmation ou scripting.
• Quelques souvenirs de statistiques sont un plus.
MÉTHODE PÉDAGOGIQUE
Formation avec apports théoriques, échanges sur les contextes des
participants et retours d’expérience pratique du formateur, complétés de
travaux pratiques et de mises en situation.
PROFILS DES INTERVENANTS
Toutes nos formations sont animées par des consultants-formateurs
expérimentés et reconnus par leurs pairs.
MODALITÉS D'ÉVALUATION ET FORMALISATION À L'ISSUE DELA FORMATION
L'évaluation des acquis se fait tout au long de la session au travers des
ateliers et des mises en pratique. Une évaluation à chaud sur la satisfaction
des stagiaires est réalisée systématiquement en fin de session et une
attestation de formation est délivrée aux participants mentionnant les objectifs
de la formation, la nature, le programme et la durée de l'action de formation
ainsi que la formalisation des acquis.
POUR ALLER PLUS LOIN :
• Formation "Data Science : niveau avancé" (DSNVA)
• Ouvrage "Data Science : Fondamentaux et études de cas" - Eric Biernat,
Michel Lutz
Programme domaine "DATA SCIENCE"Date de téléchargement : 15/09/2018
2
• Ouvrage "The Elements of Statistical Learning: Data Mining, Inference, and
Prediction" - Hastie, Tibshirani, Friedman
• Toutes nos formations Data Science
• Nos formations Hadoop
• Nos formations NoSQL
Programme domaine "DATA SCIENCE"Date de téléchargement : 15/09/2018
3
Programme pédagogique détaillé par journée
Jour 1
INTRODUCTION AU BIG DATA
• Qu’est-ce-que le Big Data ?• L’écosystème technologique du Big Data
INTRODUCTION À LA DATA SCIENCE
• Le vocabulaire d’un problème de Data Science• De l’analyse statistique au machine learning• Overview des possibilités du machine learning
MODÉLISATION D’UN PROBLÈME
• Input / ouput d’un problème de machine learning• Mise en pratique "OCR"
- Nous verrons comment modéliser le problème de la reconnaissance optique de caractère
IDENTIFIER LES FAMILLES D’ALGORITHMES DE MACHINE LEARNING
• Analyse supervisée• Analyse non supervisée• Classification / régression
SOUS LE CAPOT DES ALGORITHMES : LA RÉGRESSION LINÉAIRE
• Quelques rappels : fonction hypothèse, fonction convexe, optimisation• La construction de la fonction de coût• Méthode de minimisation : la descente de gradient
SOUS LE CAPOT DES ALGORITHMES : LA RÉGRESSION LOGISTIQUE
• Frontière de décision• La construction d’une fonction de coût convexe pour la classification
LA BOITE À OUTIL DU DATA SCIENTIST
• Introduction aux outils• Introduction à python, pandas et scikit-learn
CAS PRATIQUE N°1 : "PRÉDIRE LES SURVIVANTS DU TITANIC"
• Exposé du problème• Première manipulation en python
Jour 2
RAPPELS ET RÉVISION DU JOUR 1
QU’EST-CE QU’UN BON MODÈLE ?
• Cross-validation
Programme domaine "DATA SCIENCE"Date de téléchargement : 15/09/2018
4
• Les métriques d’évaluation : precision, recall, ROC, MAPE, etc.
LES PIÈGES DU MACHINE LEARNING
• Overfitting ou sur-apprentissage• Biais vs variance• La régularisation : régression Ridge et Lasso
DATA CLEANING
• Les types de données : catégorielles, continues, ordonnées, temporelles• Détection des outliers statistiques, des valeurs aberrantes• Stratégie pour les valeurs manquantes• Mise en pratique : "Remplissage des valeurs manquantes"
FEATURE ENGINEERING
• Stratégies pour les variables non continues• Détecter et créer des variables discriminantes
CAS PRATIQUE N°2 : "PRÉDIRE LES SURVIVANTS DU TITANIC"
• Identification et création des bonnes variables• Réalisation d’un premier modèle• Soumission sur Kaggle
DATA VISUALISATION
• La visualisation pour comprendre les données : histogramme, scatter plot, etc.• La visualisation pour comprendre les algorithmes : train / test loss, feature importance, etc.
INTRODUCTION AUX MÉTHODES ENSEMBLISTES
• Le modèle de base : l’arbre de décision, ses avantages et ses limites• Présentation des différentes stratégies ensemblistes : bagging, boosting, etc.• Mise en pratique : "Retour sur le titanic"
- Utilisation d’une méthode ensembliste sur la base du précédent modèle
APPRENTISSAGE SEMI-SUPERVISÉ
• Les grandes classes d’algorithmes non supervisées : clustering, PCA, etc.• Mise en pratique : "Détection d’anomalies dans les prises de paris"
- Nous verrons comment un algorithme non supervisé permet de détecter des fraudes dans les prisesde paris
Jour 3
RAPPELS ET RÉVISIONS
• Synthèse des points abordés en journées 1 et 2• Approfondissement des sujets sélectionnés avec l’intervenant
MISE EN PRATIQUE
• Le dernier jour est entièrement consacré à des mises en pratique
Programme domaine "DATA SCIENCE"Date de téléchargement : 15/09/2018
5
SÉLECTION ET PARTICIPATION À UNE COMPÉTITION
• Le formateur sélectionnera une compétition en cours sur Kaggle ou datascience.net qui sera démarrée enjour 3 par l’ensemble des participants
Programme domaine "DATA SCIENCE"Date de téléchargement : 15/09/2018
6
BEST Data Science : niveau avancé
Stage pratique en présentiel
DATA SCIENCE
Code :
DSNVA
Durée :
3 jours (21 heures)
Exposés :
50%
Cas pratiques :
40%
Échanges d'expérience :
10%
Sessions à venir :
22 - 24 oct. 2018
Genève / 2 700 chf
28 - 30 nov. 2018
Paris / 2 350 eur
Tarif & dates intra :
Sur demande
DESCRIPTION
Le Big Data et la data science sont en train de changer le monde que nous
connaissons. Avec la digitalisation sans cesse croissante de nos interactions et
les progrès accomplis en matière d’intelligence artificielle, les entreprises ont
de plus en plus recours aux algorithmes pour améliorer leurs processus de
prise de décision et proposer de nouveaux services. Le Data scientist, à
travers sa faculté à trouver à partir de l’exploitation des données une réponse
adéquate à un problème fonctionnel donné, est au cœur de ces évolutions.
Après le module sur les bases de la Data science, la formation « Data Science
: niveau avancé » vous permettra d’approfondir certains des concepts avancés
de machine learning (feature engineering avancé, modèles ensemblistes…)
utilisés notamment par les lauréats de concours Kaggle. Vous découvrirez
également les techniques d’analyse et de traitement spécifiques aux données
de type image ou texte (deep learning, réseaux de neurones convolutifs,
réseaux récurrents,...).
OBJECTIFS PÉDAGOGIQUES
Découvrir et utiliser la puissance prédictive des modèles ensemblistes
Savoir effectuer un "feature engineering" performant
Appréhender les techniques de text-mining et de deep-learning à travers des
exemples concrets
Enrichir sa boite à outils de data scientist
PUBLIC CIBLE
Analyste
Statisticien
Architecte
Développeur
Data scientist
PRÉ-REQUIS
• Connaissances de base en programmation ou en scripting
• Avoir suivi la formation "Fondamentaux de la Data Science" (DSDFX)
serait en plus
MÉTHODE PÉDAGOGIQUE
Formation avec apports théoriques, échanges sur les contextes des
participants et retours d’expérience pratique du formateur, complétés de
travaux pratiques et de mises en situation.
PROFILS DES INTERVENANTS
Toutes nos formations sont animées par des consultants-formateurs
expérimentés et reconnus par leurs pairs.
MODALITÉS D'ÉVALUATION ET FORMALISATION À L'ISSUE DELA FORMATION
L'évaluation des acquis se fait tout au long de la session au travers des
Programme domaine "DATA SCIENCE"Date de téléchargement : 15/09/2018
7
ateliers et des mises en pratique. Une évaluation à chaud sur la satisfaction
des stagiaires est réalisée systématiquement en fin de session et une
attestation de formation est délivrée aux participants mentionnant les objectifs
de la formation, la nature, le programme et la durée de l'action de formation
ainsi que la formalisation des acquis.
POUR ALLER PLUS LOIN :
• Formation "Fondamentaux de la Data Science" (DSFDX)
• Ouvrage "Data Science : Fondamentaux et études de cas" - Eric Biernat,
Michel Lutz
• Ouvrage "The Elements of Statistical Learning: Data Mining, Inference, and
Prediction" - Hastie, Tibshirani, Friedman
• Toutes nos formations Data Science
• Nos formations Hadoop
• Nos formations NoSQL
Programme domaine "DATA SCIENCE"Date de téléchargement : 15/09/2018
8
Programme pédagogique détaillé par journée
Jour 1
RAPPEL DES FONDAMENTAUX
• Ecosystème Big Data et Data Science• Comment modéliser un problème de data science ?• Les différentes familles d’algorithmes (supervisé : classification/régression, non supervisé)• Les algorithmes classiques• Comment évaluer la performance ?• Sur apprentissage et compromis biais/variance
MODÈLES ENSEMBLISTES
• Rappels• Pourquoi ça fonctionne ? Raisons théoriques• Introduction au stacking
- Architecture et promesses du stacking- Feature weighted stacking- Mise en application
INTRODUCTION AU TEXT MINING
• Un modèle de représentation : le bag of words• Normalisations usuelles• Stemming, lemmatization• Distances (Levenshtein, Hamming, Jaro-Winkler)• Word2Vec
Jour 2
FEATURE ENGINEERING AVANCÉ
• Normalisation- Qu’est ce que la normalisation ?- Quand l’utiliser ?
• Réduction de dimension (ACP, TSNE, LSA, etc.)• Transformation et interactions entre variables• Traitement des variables catégorielles à haute dimensionnalité• Création de variables extraites d’arbres (Facebook Trick)
RÉSEAUX DE NEURONES ET DEEP LEARNING
• L’origine : le perceptron• Les réseaux de neurones• Deep learning
- Objectif : s’affranchir du feature engineering manuel- Convolution- Réseaux récurrents
• Cas concret : reconnaissance de chiffres
Programme domaine "DATA SCIENCE"Date de téléchargement : 15/09/2018
9
APPRENTISSAGE SEMI-SUPERVISÉ
Jour 3
RAPPELS ET RÉVISIONS
• Synthèse des points abordés en journées 1 et 2• Approfondissement des sujets sélectionnés avec l’intervenant
MISE EN PRATIQUE
• Le dernier jour est entièrement consacré à des mises en pratique
SÉLECTION ET PARTICIPATION À UNE COMPÉTITION
• Le formateur sélectionnera une compétition en cours sur Kaggle qui sera démarrée en jour 3 parl’ensemble des participants
Programme domaine "DATA SCIENCE"Date de téléchargement : 15/09/2018
10
NEW Cadrage et pilotage d'un projet de Data Science
Stage pratique en présentiel
DATA SCIENCE
Code :
DSGDP
Durée :
2 jours (14 heures)
Exposés :
40%
Cas pratiques :
40%
Échanges d'expérience :
20%
Sessions à venir :
4 - 5 oct. 2018
Paris / 1 850 eur
Tarif & dates intra :
Sur demande
DESCRIPTION
La Data Science, en tant que discipline scientifique et mathématique, est
aujourd’hui bien connue de ceux qui la pratiquent. Mais savez-vous identifier
les pièges et les embûches méthodologiques spécifiques aux projets de Data
Science ?
Forts de nos nombreux retours d’expérience et des connaissances pratiques
de nos consultants, nous vous convions à découvrir avec nous les enjeux et
les approches qui permettront à vos projets de se dérouler en toute sérénité,
du cadrage à la phase de pilotage de production.
OBJECTIFS PÉDAGOGIQUES
Savoir mener une phase de cadrage d’un projet de Data Science
Choisir les mesures de performance en accord avec un objectif métier
Piloter un projet de Data Science en exploration et production
PUBLIC CIBLE
Analyste
Statisticien
Développeur
PRÉ-REQUIS
• Connaissance des bases de la Data Science (modèles, biais, variance, etc.)
• Connaissance des librairies de manipulation de donnée en python (pandas,
numpy, etc.)
MÉTHODE PÉDAGOGIQUE
Formation avec apports théoriques, échanges sur les contextes des
participants et retours d’expérience pratique du formateur, complétés de
travaux pratiques et de mises en situation.
PROFILS DES INTERVENANTS
Toutes nos formations sont animées par des consultants-formateurs
expérimentés et reconnus par leurs pairs.
MODALITÉS D'ÉVALUATION ET FORMALISATION À L'ISSUE DELA FORMATION
L'évaluation des acquis se fait tout au long de la session au travers des
ateliers et des mises en pratique. Une évaluation à chaud sur la satisfaction
des stagiaires est réalisée systématiquement en fin de session et une
attestation de formation est délivrée aux participants mentionnant les objectifs
de la formation, la nature, le programme et la durée de l'action de formation
ainsi que la formalisation des acquis.
POUR ALLER PLUS LOIN :
• Toutes nos formations Data Science
• Formation « Data Science niveau avancé »
Programme domaine "DATA SCIENCE"Date de téléchargement : 15/09/2018
11
• Formation « Industrialisation d’un projet de Data Science »
• Ouvrage « Data Science : fondamentaux et études de cas » - Eric Biernat,
Michel Lutz (Eyrolles)
• Ouvrage « The Elements of Statistical Learning: Data Mining, Inference, and
Prediction » - Hastie, Tibshirani, Friedman
• Livre blanc "Hadoop, feuille de route"
• Toutes nos formations Hadoop Hortonworks
• Toutes nos formations Hadoop Cloudera
Programme domaine "DATA SCIENCE"Date de téléchargement : 15/09/2018
12
Programme pédagogique détaillé par journée
Jour 1
RAPPELS SUR LA DATA SCIENCE
• Qu’est-ce-que la Data Science ?• Qu’est-ce qu’un modèle ?
LA PHASE DE CADRAGE
• Cadrage d’un sujet supervisé- Découverte des données- Compréhension des enjeux métier- Choix de l’approche
• Visualiser pour comprendre• Echantillonnage• La temporalité dans les données
PILOTER SON PROJET PAR LA MESURE
• L’importance du test- Lien avec les tests d’intégration
• Le choix des métriques à optimiser- Les métriques de régression- Les métriques de classification
• Le choix des métriques d’évaluation• La validation croisée
- Cas nominal- Cas des variables temporelles
• Monitoring des modèles
L’AGILE EN DATASCIENCE
• Livrer souvent• Communiquer avec le client• Garantir la qualité• Amélioration continue
OPTIMISATION AVANCEE DE LA PERFORMANCE
• Sélection de variables- Eviter les fuites d’information- Cas des variables textuelles
• Choix des algorithmes• Tuning des hyperparamètres
- Grid search- Hyperopt- Parallélisme
AUDITER / COMPRENDRE UN MODELE
• Explicativité des algorithmes
Programme domaine "DATA SCIENCE"Date de téléchargement : 15/09/2018
13
- Feature importance- Feature contribution
Jour 2
RAPPELS ET REVISION DU JOUR 1
CAS PRATIQUE
• Exposé du problème• Découverte du dataset• Choix des métriques• Réalisation d’un premier modèle• Optimisation des performances
CONCLUSION
• Synthèse des points abordés• Partage sur la formation• Questions/Réponses additionnelles
Programme domaine "DATA SCIENCE"Date de téléchargement : 15/09/2018
14
NEW Industrialisation d'un projet de Data Science
Stage pratique en présentiel
DATA SCIENCE
Code :
DSIND
Durée :
2 jours (14 heures)
Exposés :
10%
Cas pratiques :
80%
Échanges d'expérience :
10%
Sessions à venir :
8 - 9 nov. 2018
Paris / 1 850 eur
Tarif & dates intra :
Sur demande
DESCRIPTION
La maturité du marché sur les sujets de la Data Science ne cesse de grandir
chaque jour. C’est pourquoi, il nous semble à présent important d’être
capable de déployer les POCs (Proof of Concept) les plus pertinents en
production, et enfin voir les applications de data science apporter de la valeur
aux entreprises.
Durant cette formation, vous profiterez de la riche expérience de nos
consultants pour découvrir la Data Science industrialisée, et vous pratiquerez
les meilleures méthodes pour faire passer votre projet du stade de la
recherche à celui de l’exploitation en évitant les pièges de l’effet « big bang
».
OBJECTIFS PÉDAGOGIQUES
Savoir emmener son modèle en production
Apprendre à gérer les nouvelles contraintes
Minimiser le coût de transfert de l’exploration à la production
Découvrir les concepts de Software Craftsmanship appliqués à la Data Science
PUBLIC CIBLE
Analyste
Statisticien
Développeur
PRÉ-REQUIS
• Connaissance des bases de la Data Science (modèles, biais, variance, etc.)
• Connaissance des librairies de manipulation de donnée en python (pandas,
numpy, etc.)
• Connaissance de la ligne de commande linux (bash par exemple)
MÉTHODE PÉDAGOGIQUE
Une formation pratique durant laquelle les participants partent d’un code
d’exploration préparé par le formateur et qu’ils vont amener en production,
étape par étape, en démontrant que la transition doit se faire de manière la
plus fluide possible.
PROFILS DES INTERVENANTS
Toutes nos formations sont animées par des consultants-formateurs
expérimentés et reconnus par leurs pairs.
MODALITÉS D'ÉVALUATION ET FORMALISATION À L'ISSUE DELA FORMATION
L'évaluation des acquis se fait tout au long de la session au travers des
ateliers et des mises en pratique. Une évaluation à chaud sur la satisfaction
des stagiaires est réalisée systématiquement en fin de session et une
attestation de formation est délivrée aux participants mentionnant les objectifs
de la formation, la nature, le programme et la durée de l'action de formation
Programme domaine "DATA SCIENCE"Date de téléchargement : 15/09/2018
15
ainsi que la formalisation des acquis.
POUR ALLER PLUS LOIN :
• Toutes nos formations Data Science
• Formation « Cadrage et pilotage d'un projet de Data Science »
• Formation « Data Science niveau avancé »
• Ouvrage « Data Science : fondamentaux et études de cas » - Eric Biernat,
Michel Lutz (Eyrolles)
• Ouvrage « The Elements of Statistical Learning: Data Mining, Inference, and
Prediction » - Hastie, Tibshirani, Friedman
• Livre blanc "Hadoop, feuille de route"
• Toutes nos formations Hadoop Hortonworks
• Toutes nos formations Hadoop Cloudera
• Toutes nos formations Pratiques du développement
Programme domaine "DATA SCIENCE"Date de téléchargement : 15/09/2018
16
Programme pédagogique détaillé par journée
Jour 1
INSTALLATION DES ENVIRONNEMENTS
• Jupyter Notebook• PyCharm• Environnement anaconda
LES CONTRAINTES DE LA PRODUCTION
• Monitoring• Logging• Réapprentissage• Cycle de vie d’un modèle
BONNES PRATIQUES DE CRAFTSMANSHIP
• Nettoyer son notebook• Noms des variables• Utilisation de fichiers de configuration• Programmation fonctionnelle• Immutabilité• Créer des fonctions
RENDRE SON CODE DÉPLOYABLE
• Extraire son code en module python• Utilisation de setuptools
- Créer son premier fichier setup.py- Connaître les options de base- Installer sa première librairie
TESTER SON CODE
• Découverte du TDD• Initiation à unittest
- Les classes de test- Ecrire son premier test- Les méthodes setup et teardown
• Intégration à setuptools
Jour 2
RAPPELS ET REVISION DU JOUR 1
INTEGRATION PAR BASE DE DONNEES
• Connexion à une base de donnée en python• Export de dataset• Les limitations de l’intégration par la donnée
Programme domaine "DATA SCIENCE"Date de téléchargement : 15/09/2018
17
METHODES DE VISUALISATION
• Superset• Grafana• ElasticSearch + Kibana• Gephi
INTEGRATION PAR SERVICE
• Introduction à flask• Introduction aux APIs
LES PRINCIPAUX MODES DE PRODUCTIONS
• Batch• Stream
CONCLUSION
• Synthèse des points abordés• Partage sur la formation• Questions/Réponses additionnelles
Programme domaine "DATA SCIENCE"Date de téléchargement : 15/09/2018
18
NEW Architecture des données : stockage et accès
Stage pratique en présentiel
DATA SCIENCE
Code :
DSARC
Durée :
3 jours (21 heures)
Exposés :
50%
Cas pratiques :
40%
Échanges d'expérience :
10%
Sessions à venir :
12 - 14 déc. 2018
Paris / 2 350 eur
Tarif & dates intra :
Sur demande
DESCRIPTION
Si les algorithmes de Machine Learning ont connu des avancées majeures ces
dernières années, c’est avant tout grâce à la quantité d’information disponible
pour les entraîner. Accumuler toute cette donnée, la traiter, et la rendre
disponible sont les enjeux principaux du mouvement Big Data.
Au cours de cette formation, nos consultants mettent à disposition les
connaissances issues de leurs retours d'expériences auprès de nos clients, et
vous font découvrir les bases des architectures permettant de répondre à ces
enjeux de stockage et d’accès.
OBJECTIFS PÉDAGOGIQUES
Découvrir les notions centrales de stockage de données
Appréhender les enjeux des nouvelles architectures de données (Hadoop,
NoSQL, Spark), et positionner leurs usages au sein de l’univers Big Data
Savoir manipuler ces technologies et les bases de données de façon
conjointe, pour mener à bien des analyses efficaces
PUBLIC CIBLE
Analyste
Statisticien
Développeur
PRÉ-REQUIS
• Notions de programmation sur la base d’un langage quelconque
• Manipulation basique de la ligne de commande Linux
MÉTHODE PÉDAGOGIQUE
Formation avec apports théoriques, échanges sur les contextes des
participants et retours d’expérience pratique du formateur, complétés de
travaux pratiques et de mises en situation.
PROFILS DES INTERVENANTS
Toutes nos formations sont animées par des consultants-formateurs
expérimentés et reconnus par leurs pairs.
MODALITÉS D'ÉVALUATION ET FORMALISATION À L'ISSUE DELA FORMATION
L'évaluation des acquis se fait tout au long de la session au travers des
ateliers et des mises en pratique. Une évaluation à chaud sur la satisfaction
des stagiaires est réalisée systématiquement en fin de session et une
attestation de formation est délivrée aux participants mentionnant les objectifs
de la formation, la nature, le programme et la durée de l'action de formation
ainsi que la formalisation des acquis.
POUR ALLER PLUS LOIN :
• Toutes nos formations Data Science
Programme domaine "DATA SCIENCE"Date de téléchargement : 15/09/2018
19
• Formation « Data Science niveau avancé »
• Formation « Industrialisation d’un projet de Data Science » - Eric Biernat,
Michel Lutz (Eyrolles)
• Ouvrage “Hadoop: the definitive guide” – Tom White (O’Reilly)
• Livre blanc "Hadoop, feuille de route"
• Toutes nos formations Hadoop Hortonworks
• Toutes nos formations Pratiques du développement
Programme domaine "DATA SCIENCE"Date de téléchargement : 15/09/2018
20
Programme pédagogique détaillé par journée
Jour 1
INTRODUCTION
ACCES AUX DONNEES
• Les fichiers- Arborescence- Formats
• Les bases de données- Notion de Catalogue- Le langage SQL- Data Warehouses et Data Lake- Bases d’analyse
• API- Définition- Web Scraping
• Traitements en mémoire
ARCHITECTURE DE DONNEES
• Limites des systèmes traditionnels- Limites des fichiers- Limites des SGBD
• Les architectures distribuées- Patterns d’accès- Distribution vs Réplication
• Concepts essentiels- Disponibilités- Cohérence- Tolérance à la partition
• Le théorème CAP• Quorums
BASES NOSQL
• Avantages et inconvénients• Modèles de données
- Key-Value- Documents- Column-Family- Graph
• Exemple : MongoDB• Les moteurs de recherche
JOUR 2
HADOOP
Programme domaine "DATA SCIENCE"Date de téléchargement : 15/09/2018
21
• Introduction à Hadoop- Histoire- Ecosystème
• HDFS• Map-Reduce
- Les phases de Map-Reduce- Notion de job- Exemple
• YARN• Les distributions• La ligne de commande• Administration d’un cluster
- Resource Manager- History Server- Hue
ETUDES DE CAS
• Traitements de courbes de charge- Contexte et hypothèses- Raisonnements
• Analyse de logs- Contexte et Hypothèses- Raisonnements
CONCLUSION
• Rappels des points abordés• Questions et réponses• Synthèse
Jour 3
DÉCOUVERTE DE SPARK
• Spark Core- RDD- Transformations- Pair RDD
• Spark SQL• Spark Streaming• Structured Streaming
Programme domaine "DATA SCIENCE"Date de téléchargement : 15/09/2018
22