Download - Big data Keep IT Simple
BIG DATA
ARCHITECTURE ET TECHNOLOGIES
Dr. Corentin Burnay DKCA – Data Knowledge Capital Advice
CONTEXTE Les données produites aujourd’hui par les entreprises sont :
• Volumineuses • Variées • Véloces
L’approche classique au traitement des données ne permet pas de gérer simultanément ces différentes caractéristiques:
• Goulot d’étranglement dans la production de rapports • Délais de calcul trop longs • Mode de stockage des données inadapté (SQL)
Nécessité d’une architecture plus adaptée: le Big Data
20/11/16 2
DIVISER POUR MIEUX REGNER Le besoin de base pour gérer les problèmes de volume, de vélocité et de variété est de “diviser pour mieux régner”
• 1 machine effectuant un gros calcul: inéfficace • 1000 machines effectuant chacune une partie du calcul: …
La solution au problème de division du travail est Map Reduce • Un modèle de programmation massivement parallèle adapté
au traitement de très grandes quantités de données • Un produit Google Corp • Les programmes adoptant ce modèle sont automatiquement
parallélisés et exécutés sur des clusters d'ordinateurs • Exemple: l'index de Google est généré avec MapReduce
20/11/16 3
MAP REDUCE Mécanismes de base
• Découper une requête en multiples sous-requêtes (Map) • Chacune des sous-requêtes peut être traitée par différents
serveur d'un même cluster • Possibilité de duplication du traitement et des données • Récupérer les multiples résultats des sous-requêtes et les
réduire en un résultat global (Reduce).
20/11/16 4
MAP REDUCE
20/11/16 5
HADOOP Hadoop est un projet géré par Apache Software Fundation basé sur le principe de Map Reduce et du Google Files System
• Hadoop met en pratique l’approche Map Reduce • Hadoop utilise Hadoop Distributed File System (HDFS)
Hadoop fractionne des fichiers en gros blocs et les distribue à travers les différents nœuds du cluster Pour traiter les données:
• Hadoop transfère le code à chaque nœud • Chaque nœud traite les données dont il dispose
20/11/16 6
HADOOP
20/11/16 7
NO SQL Les bases de données relationnelles ont une philosophie d'organisation des données bien spécifiques
• Langage d'interrogation SQL • Principe d'intégrité des transactions (ACID) • Lois de normalisation
Pas du tout adaptées au stockage de très grandes dimension et au traitement ultra rapide à des fins de reporting Les bases NoSQL (not only SQL) autorisent la redondance pour mieux servir les besoins en matière de:
• Performance • Flexibilité • Tolérance aux pannes • Évolutivité
20/11/16 8
MANGO DB MongoDB est un système de gestion de base de données orientée documents qui:
• Est répartissable sur un nombre quelconque d'ordinateurs • Ne nécessite pas de schéma prédéfini
Les données dans MongoDB prennent la forme:
• De champs (colonne) représentant des données • De documents (enregistrements) regroupant un ensemble de
champs. • De collections (tables) regroupant un nombre quelconque de
documents Les champs d'un enregistrement sont libres et peuvent être différents d'un enregistrement à un autre au sein d'une même collection
20/11/16 9
MANGO DB Table dans un SGBD relational Collection dans MongoDB
Table dans un fichier plat
20/11/16 10
NEO4J Neo4j permet de stocker et représenter les données en tant qu’objets inter reliés. Les données dans Neo4J prennent la forme de graphes, se composant:
• D’attributs (colonne) représentant des données • De noeuds (enregistrements) regroupant un ensemble d’attribut et
représentant un concept clé du business • De liens (?) regroupant différents noeuds (sans règles prédéfinies)
L'absence de modélisation rigide rend Neo4j bien adapté à la gestion de données changeantes et de schémas évoluant fréquemment Les bases de données de graphes sont un outil puissant pour répondre à des requêtes faisant intervenir des relations entre objets Une base Neo4j est censée être jusqu’à plusieurs milliers de fois plus rapide pour traiter des données associatives, car elle évite de coûteuses opérations de type jointures SQL pour les bases de données relationnelles.
20/11/16 11
NEO4J
20/11/16 12
ARCHITECTURE BIG DATA
20/11/16 13
QUELQUES AUTRES OUTILS DU BIG DATA
20/11/16 14