data science - octo academy · introduction au big data • qu’est-ce-que le big data ? ......

22
DATA SCIENCE Programme domaine Date de téléchargement : 15/09/2018 1

Upload: duongdung

Post on 15-Sep-2018

230 views

Category:

Documents


1 download

TRANSCRIPT

Page 1: DATA SCIENCE - OCTO Academy · INTRODUCTION AU BIG DATA • Qu’est-ce-que le Big Data ? ... Statisticien Architecte Développeur Data scientist ... Choisir les mesures de performance

DATA SCIENCE

Programme domaineDate de téléchargement : 15/09/2018

1

Page 2: DATA SCIENCE - OCTO Academy · INTRODUCTION AU BIG DATA • Qu’est-ce-que le Big Data ? ... Statisticien Architecte Développeur Data scientist ... Choisir les mesures de performance

BEST Fondamentaux de la Data Science

Stage pratique en présentiel

DATA SCIENCE

Code :

DSFDX

Durée :

3 jours (21 heures)

Exposés :

60%

Cas pratiques :

30%

Échanges d'expérience :

10%

Sessions à venir :

19 - 21 sept. 2018

Paris / 2 350 eur

24 - 26 sept. 2018

Genève / 2 700 chf

5 - 7 déc. 2018

Paris / 2 350 eur

Tarif & dates intra :

Sur demande

DESCRIPTION

Surfant sur la vague du Big Data, le data scientist joue un rôle clé dans la

valorisation de données. Au-delà des paillettes, quel est son rôle, ses outils,

sa méthodologie, ses "tips and tricks" ? Venez le découvrir au travers de

cette initiation à la Data Science délivrée par des data scientists renommés qui

vous apporteront l’expérience des compétitions de Data Science et leurs

riches retours d’expérience des modèles réels qu’ils mettent en place chez

leurs clients.

OBJECTIFS PÉDAGOGIQUES

Découvrir le monde de la Data Science et les grandes familles de problèmes

Savoir modéliser un problème de Data Science

Créer ses premières variables

Constituer sa boite à outils de data scientist

PUBLIC CIBLE

Analyste

Statisticien

Architecte

Développeur

PRÉ-REQUIS

• Connaissances de base en programmation ou scripting.

• Quelques souvenirs de statistiques sont un plus.

MÉTHODE PÉDAGOGIQUE

Formation avec apports théoriques, échanges sur les contextes des

participants et retours d’expérience pratique du formateur, complétés de

travaux pratiques et de mises en situation.

PROFILS DES INTERVENANTS

Toutes nos formations sont animées par des consultants-formateurs

expérimentés et reconnus par leurs pairs.

MODALITÉS D'ÉVALUATION ET FORMALISATION À L'ISSUE DELA FORMATION

L'évaluation des acquis se fait tout au long de la session au travers des

ateliers et des mises en pratique. Une évaluation à chaud sur la satisfaction

des stagiaires est réalisée systématiquement en fin de session et une

attestation de formation est délivrée aux participants mentionnant les objectifs

de la formation, la nature, le programme et la durée de l'action de formation

ainsi que la formalisation des acquis.

POUR ALLER PLUS LOIN :

• Formation "Data Science : niveau avancé" (DSNVA)

• Ouvrage "Data Science : Fondamentaux et études de cas" - Eric Biernat,

Michel Lutz

Programme domaine "DATA SCIENCE"Date de téléchargement : 15/09/2018

2

Page 3: DATA SCIENCE - OCTO Academy · INTRODUCTION AU BIG DATA • Qu’est-ce-que le Big Data ? ... Statisticien Architecte Développeur Data scientist ... Choisir les mesures de performance

• Ouvrage "The Elements of Statistical Learning: Data Mining, Inference, and

Prediction" - Hastie, Tibshirani, Friedman

• Toutes nos formations Data Science

• Nos formations Hadoop

• Nos formations NoSQL

Programme domaine "DATA SCIENCE"Date de téléchargement : 15/09/2018

3

Page 4: DATA SCIENCE - OCTO Academy · INTRODUCTION AU BIG DATA • Qu’est-ce-que le Big Data ? ... Statisticien Architecte Développeur Data scientist ... Choisir les mesures de performance

Programme pédagogique détaillé par journée

Jour 1

INTRODUCTION AU BIG DATA

• Qu’est-ce-que le Big Data ?• L’écosystème technologique du Big Data

INTRODUCTION À LA DATA SCIENCE

• Le vocabulaire d’un problème de Data Science• De l’analyse statistique au machine learning• Overview des possibilités du machine learning

MODÉLISATION D’UN PROBLÈME

• Input / ouput d’un problème de machine learning• Mise en pratique "OCR"

- Nous verrons comment modéliser le problème de la reconnaissance optique de caractère

IDENTIFIER LES FAMILLES D’ALGORITHMES DE MACHINE LEARNING

• Analyse supervisée• Analyse non supervisée• Classification / régression

SOUS LE CAPOT DES ALGORITHMES : LA RÉGRESSION LINÉAIRE

• Quelques rappels : fonction hypothèse, fonction convexe, optimisation• La construction de la fonction de coût• Méthode de minimisation : la descente de gradient

SOUS LE CAPOT DES ALGORITHMES : LA RÉGRESSION LOGISTIQUE

• Frontière de décision• La construction d’une fonction de coût convexe pour la classification

LA BOITE À OUTIL DU DATA SCIENTIST

• Introduction aux outils• Introduction à python, pandas et scikit-learn

CAS PRATIQUE N°1 : "PRÉDIRE LES SURVIVANTS DU TITANIC"

• Exposé du problème• Première manipulation en python

Jour 2

RAPPELS ET RÉVISION DU JOUR 1

QU’EST-CE QU’UN BON MODÈLE ?

• Cross-validation

Programme domaine "DATA SCIENCE"Date de téléchargement : 15/09/2018

4

Page 5: DATA SCIENCE - OCTO Academy · INTRODUCTION AU BIG DATA • Qu’est-ce-que le Big Data ? ... Statisticien Architecte Développeur Data scientist ... Choisir les mesures de performance

• Les métriques d’évaluation : precision, recall, ROC, MAPE, etc.

LES PIÈGES DU MACHINE LEARNING

• Overfitting ou sur-apprentissage• Biais vs variance• La régularisation : régression Ridge et Lasso

DATA CLEANING

• Les types de données : catégorielles, continues, ordonnées, temporelles• Détection des outliers statistiques, des valeurs aberrantes• Stratégie pour les valeurs manquantes• Mise en pratique : "Remplissage des valeurs manquantes"

FEATURE ENGINEERING

• Stratégies pour les variables non continues• Détecter et créer des variables discriminantes

CAS PRATIQUE N°2 : "PRÉDIRE LES SURVIVANTS DU TITANIC"

• Identification et création des bonnes variables• Réalisation d’un premier modèle• Soumission sur Kaggle

DATA VISUALISATION

• La visualisation pour comprendre les données : histogramme, scatter plot, etc.• La visualisation pour comprendre les algorithmes : train / test loss, feature importance, etc.

INTRODUCTION AUX MÉTHODES ENSEMBLISTES

• Le modèle de base : l’arbre de décision, ses avantages et ses limites• Présentation des différentes stratégies ensemblistes : bagging, boosting, etc.• Mise en pratique : "Retour sur le titanic"

- Utilisation d’une méthode ensembliste sur la base du précédent modèle

APPRENTISSAGE SEMI-SUPERVISÉ

• Les grandes classes d’algorithmes non supervisées : clustering, PCA, etc.• Mise en pratique : "Détection d’anomalies dans les prises de paris"

- Nous verrons comment un algorithme non supervisé permet de détecter des fraudes dans les prisesde paris

Jour 3

RAPPELS ET RÉVISIONS

• Synthèse des points abordés en journées 1 et 2• Approfondissement des sujets sélectionnés avec l’intervenant

MISE EN PRATIQUE

• Le dernier jour est entièrement consacré à des mises en pratique

Programme domaine "DATA SCIENCE"Date de téléchargement : 15/09/2018

5

Page 6: DATA SCIENCE - OCTO Academy · INTRODUCTION AU BIG DATA • Qu’est-ce-que le Big Data ? ... Statisticien Architecte Développeur Data scientist ... Choisir les mesures de performance

SÉLECTION ET PARTICIPATION À UNE COMPÉTITION

• Le formateur sélectionnera une compétition en cours sur Kaggle ou datascience.net qui sera démarrée enjour 3 par l’ensemble des participants

Programme domaine "DATA SCIENCE"Date de téléchargement : 15/09/2018

6

Page 7: DATA SCIENCE - OCTO Academy · INTRODUCTION AU BIG DATA • Qu’est-ce-que le Big Data ? ... Statisticien Architecte Développeur Data scientist ... Choisir les mesures de performance

BEST Data Science : niveau avancé

Stage pratique en présentiel

DATA SCIENCE

Code :

DSNVA

Durée :

3 jours (21 heures)

Exposés :

50%

Cas pratiques :

40%

Échanges d'expérience :

10%

Sessions à venir :

22 - 24 oct. 2018

Genève / 2 700 chf

28 - 30 nov. 2018

Paris / 2 350 eur

Tarif & dates intra :

Sur demande

DESCRIPTION

Le Big Data et la data science sont en train de changer le monde que nous

connaissons. Avec la digitalisation sans cesse croissante de nos interactions et

les progrès accomplis en matière d’intelligence artificielle, les entreprises ont

de plus en plus recours aux algorithmes pour améliorer leurs processus de

prise de décision et proposer de nouveaux services. Le Data scientist, à

travers sa faculté à trouver à partir de l’exploitation des données une réponse

adéquate à un problème fonctionnel donné, est au cœur de ces évolutions.

Après le module sur les bases de la Data science, la formation « Data Science

: niveau avancé » vous permettra d’approfondir certains des concepts avancés

de machine learning (feature engineering avancé, modèles ensemblistes…)

utilisés notamment par les lauréats de concours Kaggle. Vous découvrirez

également les techniques d’analyse et de traitement spécifiques aux données

de type image ou texte (deep learning, réseaux de neurones convolutifs,

réseaux récurrents,...).

OBJECTIFS PÉDAGOGIQUES

Découvrir et utiliser la puissance prédictive des modèles ensemblistes

Savoir effectuer un "feature engineering" performant

Appréhender les techniques de text-mining et de deep-learning à travers des

exemples concrets

Enrichir sa boite à outils de data scientist

PUBLIC CIBLE

Analyste

Statisticien

Architecte

Développeur

Data scientist

PRÉ-REQUIS

• Connaissances de base en programmation ou en scripting

• Avoir suivi la formation "Fondamentaux de la Data Science" (DSDFX)

serait en plus

MÉTHODE PÉDAGOGIQUE

Formation avec apports théoriques, échanges sur les contextes des

participants et retours d’expérience pratique du formateur, complétés de

travaux pratiques et de mises en situation.

PROFILS DES INTERVENANTS

Toutes nos formations sont animées par des consultants-formateurs

expérimentés et reconnus par leurs pairs.

MODALITÉS D'ÉVALUATION ET FORMALISATION À L'ISSUE DELA FORMATION

L'évaluation des acquis se fait tout au long de la session au travers des

Programme domaine "DATA SCIENCE"Date de téléchargement : 15/09/2018

7

Page 8: DATA SCIENCE - OCTO Academy · INTRODUCTION AU BIG DATA • Qu’est-ce-que le Big Data ? ... Statisticien Architecte Développeur Data scientist ... Choisir les mesures de performance

ateliers et des mises en pratique. Une évaluation à chaud sur la satisfaction

des stagiaires est réalisée systématiquement en fin de session et une

attestation de formation est délivrée aux participants mentionnant les objectifs

de la formation, la nature, le programme et la durée de l'action de formation

ainsi que la formalisation des acquis.

POUR ALLER PLUS LOIN :

• Formation "Fondamentaux de la Data Science" (DSFDX)

• Ouvrage "Data Science : Fondamentaux et études de cas" - Eric Biernat,

Michel Lutz

• Ouvrage "The Elements of Statistical Learning: Data Mining, Inference, and

Prediction" - Hastie, Tibshirani, Friedman

• Toutes nos formations Data Science

• Nos formations Hadoop

• Nos formations NoSQL

Programme domaine "DATA SCIENCE"Date de téléchargement : 15/09/2018

8

Page 9: DATA SCIENCE - OCTO Academy · INTRODUCTION AU BIG DATA • Qu’est-ce-que le Big Data ? ... Statisticien Architecte Développeur Data scientist ... Choisir les mesures de performance

Programme pédagogique détaillé par journée

Jour 1

RAPPEL DES FONDAMENTAUX

• Ecosystème Big Data et Data Science• Comment modéliser un problème de data science ?• Les différentes familles d’algorithmes (supervisé : classification/régression, non supervisé)• Les algorithmes classiques• Comment évaluer la performance ?• Sur apprentissage et compromis biais/variance

MODÈLES ENSEMBLISTES

• Rappels• Pourquoi ça fonctionne ? Raisons théoriques• Introduction au stacking

- Architecture et promesses du stacking- Feature weighted stacking- Mise en application

INTRODUCTION AU TEXT MINING

• Un modèle de représentation : le bag of words• Normalisations usuelles• Stemming, lemmatization• Distances (Levenshtein, Hamming, Jaro-Winkler)• Word2Vec

Jour 2

FEATURE ENGINEERING AVANCÉ

• Normalisation- Qu’est ce que la normalisation ?- Quand l’utiliser ?

• Réduction de dimension (ACP, TSNE, LSA, etc.)• Transformation et interactions entre variables• Traitement des variables catégorielles à haute dimensionnalité• Création de variables extraites d’arbres (Facebook Trick)

RÉSEAUX DE NEURONES ET DEEP LEARNING

• L’origine : le perceptron• Les réseaux de neurones• Deep learning

- Objectif : s’affranchir du feature engineering manuel- Convolution- Réseaux récurrents

• Cas concret : reconnaissance de chiffres

Programme domaine "DATA SCIENCE"Date de téléchargement : 15/09/2018

9

Page 10: DATA SCIENCE - OCTO Academy · INTRODUCTION AU BIG DATA • Qu’est-ce-que le Big Data ? ... Statisticien Architecte Développeur Data scientist ... Choisir les mesures de performance

APPRENTISSAGE SEMI-SUPERVISÉ

Jour 3

RAPPELS ET RÉVISIONS

• Synthèse des points abordés en journées 1 et 2• Approfondissement des sujets sélectionnés avec l’intervenant

MISE EN PRATIQUE

• Le dernier jour est entièrement consacré à des mises en pratique

SÉLECTION ET PARTICIPATION À UNE COMPÉTITION

• Le formateur sélectionnera une compétition en cours sur Kaggle qui sera démarrée en jour 3 parl’ensemble des participants

Programme domaine "DATA SCIENCE"Date de téléchargement : 15/09/2018

10

Page 11: DATA SCIENCE - OCTO Academy · INTRODUCTION AU BIG DATA • Qu’est-ce-que le Big Data ? ... Statisticien Architecte Développeur Data scientist ... Choisir les mesures de performance

NEW Cadrage et pilotage d'un projet de Data Science

Stage pratique en présentiel

DATA SCIENCE

Code :

DSGDP

Durée :

2 jours (14 heures)

Exposés :

40%

Cas pratiques :

40%

Échanges d'expérience :

20%

Sessions à venir :

4 - 5 oct. 2018

Paris / 1 850 eur

Tarif & dates intra :

Sur demande

DESCRIPTION

La Data Science, en tant que discipline scientifique et mathématique, est

aujourd’hui bien connue de ceux qui la pratiquent. Mais savez-vous identifier

les pièges et les embûches méthodologiques spécifiques aux projets de Data

Science ?

Forts de nos nombreux retours d’expérience et des connaissances pratiques

de nos consultants, nous vous convions à découvrir avec nous les enjeux et

les approches qui permettront à vos projets de se dérouler en toute sérénité,

du cadrage à la phase de pilotage de production.

OBJECTIFS PÉDAGOGIQUES

Savoir mener une phase de cadrage d’un projet de Data Science

Choisir les mesures de performance en accord avec un objectif métier

Piloter un projet de Data Science en exploration et production

PUBLIC CIBLE

Analyste

Statisticien

Développeur

PRÉ-REQUIS

• Connaissance des bases de la Data Science (modèles, biais, variance, etc.)

• Connaissance des librairies de manipulation de donnée en python (pandas,

numpy, etc.)

MÉTHODE PÉDAGOGIQUE

Formation avec apports théoriques, échanges sur les contextes des

participants et retours d’expérience pratique du formateur, complétés de

travaux pratiques et de mises en situation.

PROFILS DES INTERVENANTS

Toutes nos formations sont animées par des consultants-formateurs

expérimentés et reconnus par leurs pairs.

MODALITÉS D'ÉVALUATION ET FORMALISATION À L'ISSUE DELA FORMATION

L'évaluation des acquis se fait tout au long de la session au travers des

ateliers et des mises en pratique. Une évaluation à chaud sur la satisfaction

des stagiaires est réalisée systématiquement en fin de session et une

attestation de formation est délivrée aux participants mentionnant les objectifs

de la formation, la nature, le programme et la durée de l'action de formation

ainsi que la formalisation des acquis.

POUR ALLER PLUS LOIN :

• Toutes nos formations Data Science

• Formation « Data Science niveau avancé »

Programme domaine "DATA SCIENCE"Date de téléchargement : 15/09/2018

11

Page 12: DATA SCIENCE - OCTO Academy · INTRODUCTION AU BIG DATA • Qu’est-ce-que le Big Data ? ... Statisticien Architecte Développeur Data scientist ... Choisir les mesures de performance

• Formation « Industrialisation d’un projet de Data Science »

• Ouvrage « Data Science : fondamentaux et études de cas » - Eric Biernat,

Michel Lutz (Eyrolles)

• Ouvrage « The Elements of Statistical Learning: Data Mining, Inference, and

Prediction » - Hastie, Tibshirani, Friedman

• Livre blanc "Hadoop, feuille de route"

• Toutes nos formations Hadoop Hortonworks

• Toutes nos formations Hadoop Cloudera

Programme domaine "DATA SCIENCE"Date de téléchargement : 15/09/2018

12

Page 13: DATA SCIENCE - OCTO Academy · INTRODUCTION AU BIG DATA • Qu’est-ce-que le Big Data ? ... Statisticien Architecte Développeur Data scientist ... Choisir les mesures de performance

Programme pédagogique détaillé par journée

Jour 1

RAPPELS SUR LA DATA SCIENCE

• Qu’est-ce-que la Data Science ?• Qu’est-ce qu’un modèle ?

LA PHASE DE CADRAGE

• Cadrage d’un sujet supervisé- Découverte des données- Compréhension des enjeux métier- Choix de l’approche

• Visualiser pour comprendre• Echantillonnage• La temporalité dans les données

PILOTER SON PROJET PAR LA MESURE

• L’importance du test- Lien avec les tests d’intégration

• Le choix des métriques à optimiser- Les métriques de régression- Les métriques de classification

• Le choix des métriques d’évaluation• La validation croisée

- Cas nominal- Cas des variables temporelles

• Monitoring des modèles

L’AGILE EN DATASCIENCE

• Livrer souvent• Communiquer avec le client• Garantir la qualité• Amélioration continue

OPTIMISATION AVANCEE DE LA PERFORMANCE

• Sélection de variables- Eviter les fuites d’information- Cas des variables textuelles

• Choix des algorithmes• Tuning des hyperparamètres

- Grid search- Hyperopt- Parallélisme

AUDITER / COMPRENDRE UN MODELE

• Explicativité des algorithmes

Programme domaine "DATA SCIENCE"Date de téléchargement : 15/09/2018

13

Page 14: DATA SCIENCE - OCTO Academy · INTRODUCTION AU BIG DATA • Qu’est-ce-que le Big Data ? ... Statisticien Architecte Développeur Data scientist ... Choisir les mesures de performance

- Feature importance- Feature contribution

Jour 2

RAPPELS ET REVISION DU JOUR 1

CAS PRATIQUE

• Exposé du problème• Découverte du dataset• Choix des métriques• Réalisation d’un premier modèle• Optimisation des performances

CONCLUSION

• Synthèse des points abordés• Partage sur la formation• Questions/Réponses additionnelles

Programme domaine "DATA SCIENCE"Date de téléchargement : 15/09/2018

14

Page 15: DATA SCIENCE - OCTO Academy · INTRODUCTION AU BIG DATA • Qu’est-ce-que le Big Data ? ... Statisticien Architecte Développeur Data scientist ... Choisir les mesures de performance

NEW Industrialisation d'un projet de Data Science

Stage pratique en présentiel

DATA SCIENCE

Code :

DSIND

Durée :

2 jours (14 heures)

Exposés :

10%

Cas pratiques :

80%

Échanges d'expérience :

10%

Sessions à venir :

8 - 9 nov. 2018

Paris / 1 850 eur

Tarif & dates intra :

Sur demande

DESCRIPTION

La maturité du marché sur les sujets de la Data Science ne cesse de grandir

chaque jour. C’est pourquoi, il nous semble à présent important d’être

capable de déployer les POCs (Proof of Concept) les plus pertinents en

production, et enfin voir les applications de data science apporter de la valeur

aux entreprises.

Durant cette formation, vous profiterez de la riche expérience de nos

consultants pour découvrir la Data Science industrialisée, et vous pratiquerez

les meilleures méthodes pour faire passer votre projet du stade de la

recherche à celui de l’exploitation en évitant les pièges de l’effet « big bang

».

OBJECTIFS PÉDAGOGIQUES

Savoir emmener son modèle en production

Apprendre à gérer les nouvelles contraintes

Minimiser le coût de transfert de l’exploration à la production

Découvrir les concepts de Software Craftsmanship appliqués à la Data Science

PUBLIC CIBLE

Analyste

Statisticien

Développeur

PRÉ-REQUIS

• Connaissance des bases de la Data Science (modèles, biais, variance, etc.)

• Connaissance des librairies de manipulation de donnée en python (pandas,

numpy, etc.)

• Connaissance de la ligne de commande linux (bash par exemple)

MÉTHODE PÉDAGOGIQUE

Une formation pratique durant laquelle les participants partent d’un code

d’exploration préparé par le formateur et qu’ils vont amener en production,

étape par étape, en démontrant que la transition doit se faire de manière la

plus fluide possible.

PROFILS DES INTERVENANTS

Toutes nos formations sont animées par des consultants-formateurs

expérimentés et reconnus par leurs pairs.

MODALITÉS D'ÉVALUATION ET FORMALISATION À L'ISSUE DELA FORMATION

L'évaluation des acquis se fait tout au long de la session au travers des

ateliers et des mises en pratique. Une évaluation à chaud sur la satisfaction

des stagiaires est réalisée systématiquement en fin de session et une

attestation de formation est délivrée aux participants mentionnant les objectifs

de la formation, la nature, le programme et la durée de l'action de formation

Programme domaine "DATA SCIENCE"Date de téléchargement : 15/09/2018

15

Page 16: DATA SCIENCE - OCTO Academy · INTRODUCTION AU BIG DATA • Qu’est-ce-que le Big Data ? ... Statisticien Architecte Développeur Data scientist ... Choisir les mesures de performance

ainsi que la formalisation des acquis.

POUR ALLER PLUS LOIN :

• Toutes nos formations Data Science

• Formation « Cadrage et pilotage d'un projet de Data Science »

• Formation « Data Science niveau avancé »

• Ouvrage « Data Science : fondamentaux et études de cas » - Eric Biernat,

Michel Lutz (Eyrolles)

• Ouvrage « The Elements of Statistical Learning: Data Mining, Inference, and

Prediction » - Hastie, Tibshirani, Friedman

• Livre blanc "Hadoop, feuille de route"

• Toutes nos formations Hadoop Hortonworks

• Toutes nos formations Hadoop Cloudera

• Toutes nos formations Pratiques du développement

Programme domaine "DATA SCIENCE"Date de téléchargement : 15/09/2018

16

Page 17: DATA SCIENCE - OCTO Academy · INTRODUCTION AU BIG DATA • Qu’est-ce-que le Big Data ? ... Statisticien Architecte Développeur Data scientist ... Choisir les mesures de performance

Programme pédagogique détaillé par journée

Jour 1

INSTALLATION DES ENVIRONNEMENTS

• Jupyter Notebook• PyCharm• Environnement anaconda

LES CONTRAINTES DE LA PRODUCTION

• Monitoring• Logging• Réapprentissage• Cycle de vie d’un modèle

BONNES PRATIQUES DE CRAFTSMANSHIP

• Nettoyer son notebook• Noms des variables• Utilisation de fichiers de configuration• Programmation fonctionnelle• Immutabilité• Créer des fonctions

RENDRE SON CODE DÉPLOYABLE

• Extraire son code en module python• Utilisation de setuptools

- Créer son premier fichier setup.py- Connaître les options de base- Installer sa première librairie

TESTER SON CODE

• Découverte du TDD• Initiation à unittest

- Les classes de test- Ecrire son premier test- Les méthodes setup et teardown

• Intégration à setuptools

Jour 2

RAPPELS ET REVISION DU JOUR 1

INTEGRATION PAR BASE DE DONNEES

• Connexion à une base de donnée en python• Export de dataset• Les limitations de l’intégration par la donnée

Programme domaine "DATA SCIENCE"Date de téléchargement : 15/09/2018

17

Page 18: DATA SCIENCE - OCTO Academy · INTRODUCTION AU BIG DATA • Qu’est-ce-que le Big Data ? ... Statisticien Architecte Développeur Data scientist ... Choisir les mesures de performance

METHODES DE VISUALISATION

• Superset• Grafana• ElasticSearch + Kibana• Gephi

INTEGRATION PAR SERVICE

• Introduction à flask• Introduction aux APIs

LES PRINCIPAUX MODES DE PRODUCTIONS

• Batch• Stream

CONCLUSION

• Synthèse des points abordés• Partage sur la formation• Questions/Réponses additionnelles

Programme domaine "DATA SCIENCE"Date de téléchargement : 15/09/2018

18

Page 19: DATA SCIENCE - OCTO Academy · INTRODUCTION AU BIG DATA • Qu’est-ce-que le Big Data ? ... Statisticien Architecte Développeur Data scientist ... Choisir les mesures de performance

NEW Architecture des données : stockage et accès

Stage pratique en présentiel

DATA SCIENCE

Code :

DSARC

Durée :

3 jours (21 heures)

Exposés :

50%

Cas pratiques :

40%

Échanges d'expérience :

10%

Sessions à venir :

12 - 14 déc. 2018

Paris / 2 350 eur

Tarif & dates intra :

Sur demande

DESCRIPTION

Si les algorithmes de Machine Learning ont connu des avancées majeures ces

dernières années, c’est avant tout grâce à la quantité d’information disponible

pour les entraîner. Accumuler toute cette donnée, la traiter, et la rendre

disponible sont les enjeux principaux du mouvement Big Data.

Au cours de cette formation, nos consultants mettent à disposition les

connaissances issues de leurs retours d'expériences auprès de nos clients, et

vous font découvrir les bases des architectures permettant de répondre à ces

enjeux de stockage et d’accès.

OBJECTIFS PÉDAGOGIQUES

Découvrir les notions centrales de stockage de données

Appréhender les enjeux des nouvelles architectures de données (Hadoop,

NoSQL, Spark), et positionner leurs usages au sein de l’univers Big Data

Savoir manipuler ces technologies et les bases de données de façon

conjointe, pour mener à bien des analyses efficaces

PUBLIC CIBLE

Analyste

Statisticien

Développeur

PRÉ-REQUIS

• Notions de programmation sur la base d’un langage quelconque

• Manipulation basique de la ligne de commande Linux

MÉTHODE PÉDAGOGIQUE

Formation avec apports théoriques, échanges sur les contextes des

participants et retours d’expérience pratique du formateur, complétés de

travaux pratiques et de mises en situation.

PROFILS DES INTERVENANTS

Toutes nos formations sont animées par des consultants-formateurs

expérimentés et reconnus par leurs pairs.

MODALITÉS D'ÉVALUATION ET FORMALISATION À L'ISSUE DELA FORMATION

L'évaluation des acquis se fait tout au long de la session au travers des

ateliers et des mises en pratique. Une évaluation à chaud sur la satisfaction

des stagiaires est réalisée systématiquement en fin de session et une

attestation de formation est délivrée aux participants mentionnant les objectifs

de la formation, la nature, le programme et la durée de l'action de formation

ainsi que la formalisation des acquis.

POUR ALLER PLUS LOIN :

• Toutes nos formations Data Science

Programme domaine "DATA SCIENCE"Date de téléchargement : 15/09/2018

19

Page 20: DATA SCIENCE - OCTO Academy · INTRODUCTION AU BIG DATA • Qu’est-ce-que le Big Data ? ... Statisticien Architecte Développeur Data scientist ... Choisir les mesures de performance

• Formation « Data Science niveau avancé »

• Formation « Industrialisation d’un projet de Data Science » - Eric Biernat,

Michel Lutz (Eyrolles)

• Ouvrage “Hadoop: the definitive guide” – Tom White (O’Reilly)

• Livre blanc "Hadoop, feuille de route"

• Toutes nos formations Hadoop Hortonworks

• Toutes nos formations Pratiques du développement

Programme domaine "DATA SCIENCE"Date de téléchargement : 15/09/2018

20

Page 21: DATA SCIENCE - OCTO Academy · INTRODUCTION AU BIG DATA • Qu’est-ce-que le Big Data ? ... Statisticien Architecte Développeur Data scientist ... Choisir les mesures de performance

Programme pédagogique détaillé par journée

Jour 1

INTRODUCTION

ACCES AUX DONNEES

• Les fichiers- Arborescence- Formats

• Les bases de données- Notion de Catalogue- Le langage SQL- Data Warehouses et Data Lake- Bases d’analyse

• API- Définition- Web Scraping

• Traitements en mémoire

ARCHITECTURE DE DONNEES

• Limites des systèmes traditionnels- Limites des fichiers- Limites des SGBD

• Les architectures distribuées- Patterns d’accès- Distribution vs Réplication

• Concepts essentiels- Disponibilités- Cohérence- Tolérance à la partition

• Le théorème CAP• Quorums

BASES NOSQL

• Avantages et inconvénients• Modèles de données

- Key-Value- Documents- Column-Family- Graph

• Exemple : MongoDB• Les moteurs de recherche

JOUR 2

HADOOP

Programme domaine "DATA SCIENCE"Date de téléchargement : 15/09/2018

21

Page 22: DATA SCIENCE - OCTO Academy · INTRODUCTION AU BIG DATA • Qu’est-ce-que le Big Data ? ... Statisticien Architecte Développeur Data scientist ... Choisir les mesures de performance

• Introduction à Hadoop- Histoire- Ecosystème

• HDFS• Map-Reduce

- Les phases de Map-Reduce- Notion de job- Exemple

• YARN• Les distributions• La ligne de commande• Administration d’un cluster

- Resource Manager- History Server- Hue

ETUDES DE CAS

• Traitements de courbes de charge- Contexte et hypothèses- Raisonnements

• Analyse de logs- Contexte et Hypothèses- Raisonnements

CONCLUSION

• Rappels des points abordés• Questions et réponses• Synthèse

Jour 3

DÉCOUVERTE DE SPARK

• Spark Core- RDD- Transformations- Pair RDD

• Spark SQL• Spark Streaming• Structured Streaming

Programme domaine "DATA SCIENCE"Date de téléchargement : 15/09/2018

22