cours big data chap4 - spark

17
Amal ABID – Cours GI3 ENIS 1 Chapitre 4 Spark

Upload: amal-abid

Post on 23-Jan-2018

1.554 views

Category:

Data & Analytics


16 download

TRANSCRIPT

Page 1: Cours Big Data Chap4 - Spark

Amal ABID – Cours GI3 ENIS 1

Chapitre 4

Spark

Page 2: Cours Big Data Chap4 - Spark

• Framework de conception et d'exécution Map/Reduce.

• Originellement (2014) un projet de l'université de Berkeley en Californie,

désormais un logiciel libre de la fondation Apache.

• Licence Apache.

• Trois modes d'exécution:

Cluster Spark natif.

Hadoop (YARN).

Mesos (Spark natif + scheduler Mesos).

• C’est un moteur MapReduce plus évolué, plus rapide pour les tâches

impliquant de multiples maps et/ou reduce.

Utilisation de la mémoire pour optimiser les traitements.

Des API’s pour faciliter et optimiser les étapes d’analyses.

Spark : Présentation

2

Page 3: Cours Big Data Chap4 - Spark

Spark : Plus rapide

Amal ABID – Cours GI3 ENIS 3

Page 4: Cours Big Data Chap4 - Spark

• Spark est développé en Scala et supporte quatre langages: Scala, Java, Python

(PySpark), R (SparkR).

• Une liste d’Operaters pour faciliter la manipulation des données au travers des RDD’S.

Map, filter, groupBy, sort, join, leftOuterJoin, rightOuterJoin, reduce, count, reduceByKey,

groupByKey, first, union, cross, sample, cogroup, take, partionBy, pipe, save,…

Spark : Facile à utiliser (1/2)

4

Page 5: Cours Big Data Chap4 - Spark

5Amal ABID – Cours GI3 ENIS

Spark : Facile à utiliser (2/2)

Page 6: Cours Big Data Chap4 - Spark

Spark : Architecture

6Amal ABID – Cours GI3 ENIS

• Spark est capable de

déterminer quand il aura

besoin de sérialiser les

données / les réorganiser; et

ne le fait que quand c'est

nécessaire.

• On peut également

explicitement lui demander

de conserver des données en

RAM, parce qu'on sait

qu'elles seront nécessaires

entre plusieurs instances

d'écriture disque.

Page 7: Cours Big Data Chap4 - Spark

• Au centre du paradigme employé par Spark, on trouve la notion de RDD, pour Resilient

Distributed Datasets.

• Il s'agit de larges hashmaps stockées en mémoire et sur lesquelles on peut appliquer des

traitements.

• Ils sont:

Distribués.

Partitionnés (pour permettre à plusieurs noeuds de traiter les données).

Redondés (limite le risque de perte de données).

En lecture seule: un traitement appliqué à un RDD donne lieu à la création d'un nouveau RDD.

• Deux types d'opérations possibles sur les RDDs:

Une transformation: une opération qui modifie les données d'un RDD. Elle donne lieu à la

création d'un nouveau RDD. Les transformations fonctionnent en mode d'évaluation lazy:

elles ne sont exécutées que quand on a véritablement besoin d'accéder aux données. "map"

est un exemple de transformation.

Une action: elles accèdent aux données d'un RDD, et nécessitent donc son évaluation

(toutes les transformations ayant donné lieu à la création de ce RDD sont exécutées l'une

aprés l'autre). "saveAsTextFile" (qui permet de sauver le contenu d'un RDD) ou "count"

(qui renvoie le nombre d'éléments dans un RDD) sont des exemples d'actions.

Spark : Architecture - RDD

Page 8: Cours Big Data Chap4 - Spark

• Les applications Spark s’exécutent comme un ensemble de processus indépendants sur uncluster, coordonnés par un objet SparkContext du programme principal, appelé DriverProgram.

• Pour s’exécuter sur un cluster, le SparkContext se connecte à un Cluster Manager, qui peutêtre soit un gestionnaire standalone de Spark, soit YARN ou Mesos, pour l’allocation deressources aux applictions.

• Une fois connecté, Spark lance des executors sur les nœuds du cluster, des processus qui lancentdes traitements et stockent les données pour les applications.

• Il envoie ensuite le code de l’application (Jar ou ficher python) aux executors. SparkContextenvoie ensuite les Tasks aux executors pour qu’ils les lancent.

Spark : Architecture - Exécution

Page 9: Cours Big Data Chap4 - Spark

Spark : Un framework analytique

Amal ABID – Cours GI3 ENIS 9

Page 10: Cours Big Data Chap4 - Spark

Spark : Avantages

10Amal ABID – Cours GI3 ENIS

• Performances supérieures à celles de Hadoop pour une large quantité

de problèmes; et presque universellement au moins équivalentes pour

le reste.

• API simple et bien documentée; très simple à utiliser. Paradigme plus

souple qui permet un développement conceptuellement plus simple.

• Très intégrable avec d'autres solutions; peut très facilement lire des

données depuis de nombreuses sources, et propose des couches

d'interconnexion très faciles à utiliser pour le reste (API dédiée

Spark Streaming, Spark SQL).

• APIs dédiées pour le traitement de problèmes en machine learning

(Spark MLlib) et graphes (Spark GraphX).

Page 11: Cours Big Data Chap4 - Spark

Spark : Performances

11Amal ABID – Cours GI3 ENIS

• Fortement dépendantes du problème mais d'une manière générale

supérieures à Hadoop. Dans le cas de problèmes complexes,

effectuant de nombreuses opérations sur les données et notamment

sur les mêmes données antérieures, fortement supérieures (jusqu'à

100x plus rapide).

• Même sans travailler plusieurs fois sur les

mêmes données ou sans persistance

explicite particulière, le paradigme de

programme parallélisé en graphe acyclique

couplé aux RDDs et leurs propriétés

permet des améliorations notables (~10x) pour de nombreux

problèmes dépassant le cadre rigide du simple map/shuffle/reduce

lancé une fois.

Page 12: Cours Big Data Chap4 - Spark

Spark : Inconvénients

12Amal ABID – Cours GI3 ENIS

• Spark consomme beaucoup plus de mémoire vive que Hadoop,

puisqu'il est susceptible de garder une multitude de RDDs en

mémoire. Les serveurs nécessitent ainsi plus de RAM.

• Il est moins mature que Hadoop.

• Son cluster manager (« Spark Master ») est encore assez immature et

laisse à désirer en terme de déploiement / haute disponibilité /

fonctionnalités additionnelles du même type; dans les faits, il est

souvent déployé via Yarn, et souvent sur un cluster Hadoop existant.

Page 13: Cours Big Data Chap4 - Spark

Spark : Usage /Manipulation (1/5)

13Amal ABID – Cours GI3 ENIS

Page 14: Cours Big Data Chap4 - Spark

14Amal ABID – Cours GI3 ENIS

Spark : Usage /Manipulation (2/5)

Page 15: Cours Big Data Chap4 - Spark

15Amal ABID – Cours GI3 ENIS

Spark : Usage /Manipulation (3/5)

Page 16: Cours Big Data Chap4 - Spark

16Amal ABID – Cours GI3 ENIS

Spark : Usage /Manipulation (4/5)

Page 17: Cours Big Data Chap4 - Spark

17Amal ABID – Cours GI3 ENIS

La manipulation de l’exemple "Word Count" est fournie en "TP Spark"

sous la VM Cloudera où Spark est installé et prêt à l’utilisation.

Spark : Usage /Manipulation (5/5)