big data keep it simple

Post on 11-Feb-2017

333 Views

Category:

Data & Analytics

0 Downloads

Preview:

Click to see full reader

TRANSCRIPT

BIG DATA

ARCHITECTURE ET TECHNOLOGIES

Dr. Corentin Burnay DKCA – Data Knowledge Capital Advice

CONTEXTE Les données produites aujourd’hui par les entreprises sont :

•  Volumineuses •  Variées •  Véloces

L’approche classique au traitement des données ne permet pas de gérer simultanément ces différentes caractéristiques:

•  Goulot d’étranglement dans la production de rapports •  Délais de calcul trop longs •  Mode de stockage des données inadapté (SQL)

Nécessité d’une architecture plus adaptée: le Big Data

20/11/16 2

DIVISER POUR MIEUX REGNER Le besoin de base pour gérer les problèmes de volume, de vélocité et de variété est de “diviser pour mieux régner”

•  1 machine effectuant un gros calcul: inéfficace •  1000 machines effectuant chacune une partie du calcul: …

La solution au problème de division du travail est Map Reduce •  Un modèle de programmation massivement parallèle adapté

au traitement de très grandes quantités de données •  Un produit Google Corp •  Les programmes adoptant ce modèle sont automatiquement

parallélisés et exécutés sur des clusters d'ordinateurs •  Exemple: l'index de Google est généré avec MapReduce

20/11/16 3

MAP REDUCE Mécanismes de base

•  Découper une requête en multiples sous-requêtes (Map) •  Chacune des sous-requêtes peut être traitée par différents

serveur d'un même cluster •  Possibilité de duplication du traitement et des données •  Récupérer les multiples résultats des sous-requêtes et les

réduire en un résultat global (Reduce).

20/11/16 4

MAP REDUCE

20/11/16 5

HADOOP Hadoop est un projet géré par Apache Software Fundation basé sur le principe de Map Reduce et du Google Files System

•  Hadoop met en pratique l’approche Map Reduce •  Hadoop utilise Hadoop Distributed File System (HDFS)

Hadoop fractionne des fichiers en gros blocs et les distribue à travers les différents nœuds du cluster Pour traiter les données:

•  Hadoop transfère le code à chaque nœud •  Chaque nœud traite les données dont il dispose

20/11/16 6

HADOOP

20/11/16 7

NO SQL Les bases de données relationnelles ont une philosophie d'organisation des données bien spécifiques

•  Langage d'interrogation SQL •  Principe d'intégrité des transactions (ACID) •  Lois de normalisation

Pas du tout adaptées au stockage de très grandes dimension et au traitement ultra rapide à des fins de reporting Les bases NoSQL (not only SQL) autorisent la redondance pour mieux servir les besoins en matière de:

•  Performance •  Flexibilité •  Tolérance aux pannes •  Évolutivité

20/11/16 8

MANGO DB MongoDB est un système de gestion de base de données orientée documents qui:

•  Est répartissable sur un nombre quelconque d'ordinateurs •  Ne nécessite pas de schéma prédéfini

Les données dans MongoDB prennent la forme:

•  De champs (colonne) représentant des données •  De documents (enregistrements) regroupant un ensemble de

champs. •  De collections (tables) regroupant un nombre quelconque de

documents Les champs d'un enregistrement sont libres et peuvent être différents d'un enregistrement à un autre au sein d'une même collection

20/11/16 9

MANGO DB Table dans un SGBD relational Collection dans MongoDB

Table dans un fichier plat

20/11/16 10

NEO4J Neo4j permet de stocker et représenter les données en tant qu’objets inter reliés. Les données dans Neo4J prennent la forme de graphes, se composant:

•  D’attributs (colonne) représentant des données •  De noeuds (enregistrements) regroupant un ensemble d’attribut et

représentant un concept clé du business •  De liens (?) regroupant différents noeuds (sans règles prédéfinies)

L'absence de modélisation rigide rend Neo4j bien adapté à la gestion de données changeantes et de schémas évoluant fréquemment Les bases de données de graphes sont un outil puissant pour répondre à des requêtes faisant intervenir des relations entre objets Une base Neo4j est censée être jusqu’à plusieurs milliers de fois plus rapide pour traiter des données associatives, car elle évite de coûteuses opérations de type jointures SQL pour les bases de données relationnelles.

20/11/16 11

NEO4J

20/11/16 12

ARCHITECTURE BIG DATA

20/11/16 13

QUELQUES AUTRES OUTILS DU BIG DATA

20/11/16 14

top related