nrb enterprise big data services...talend etl sql postgresql visualisation microstrategy analytics...

16
NRB ENTERPRISE BIG DATA SERVICES UNE PLATEFORME BIG DATA ‘ AS A SERVICE

Upload: others

Post on 04-Aug-2020

6 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: NRB ENTERPRISE BIG DATA SERVICES...Talend ETL SQL PostgreSQL Visualisation Microstrategy Analytics Datamaestro Légende : Tez Slider FONCTIONNALITÉS • Utilisation de la plateforme

NRB ENTERPRISE BIG DATA SERVICES

UNE PLATEFORME BIG DATA ‘ AS A SERVICE ’

Page 2: NRB ENTERPRISE BIG DATA SERVICES...Talend ETL SQL PostgreSQL Visualisation Microstrategy Analytics Datamaestro Légende : Tez Slider FONCTIONNALITÉS • Utilisation de la plateforme

A PROPOS DU BIG DATA Les applications modernes tendent à générer de grands volumes de données et les clients souhaitent pouvoir consommer ces données au travers de services tel que le Big Data.

Le traitement de ces flux de données au sein d’une plateforme Big Data nécessite de mobiliser d’importantes ressources de calcul et de stockage variables dans le temps. Ces infrastructures sont coûteuses à déployer et à maintenir, ce qui constitue une barrière de taille pour de nombreux clients qui souhaiteraient bénéficier du Big Data.

Le Cloud Computing apporte une réponse à cette problématique et se profile comme élément moteur du Big Data. Il permet de gagner en flexibilité. Les infrastructures allouées sont en effet ajustables à la demande car les pics d’activités peuvent être anticipés.

Page 3: NRB ENTERPRISE BIG DATA SERVICES...Talend ETL SQL PostgreSQL Visualisation Microstrategy Analytics Datamaestro Légende : Tez Slider FONCTIONNALITÉS • Utilisation de la plateforme

NRB ENTERPRISE BIG DATA SERVICES En collaboration avec la Région Wallonne, et dans le cadre du Partenariat d’Innovation Technologique (PIT), NRB offre une solution

Big Data complète incluant Conseils, Services ainsi qu’une plateforme ‘ as-a-service ’.

La plateforme offre :

• Un espace virtualisé ‘ single tenant ’ dédicacé par use case.

• La mise à disposition des capacités de calcul et de stockage de données ‘ à la demande ’.

• La possibilité d’intégrer des outils complémentaires.

• Une proposition de services en mode ‘ Cloud ’ - Self-Service Automatisé, Pay per Use.

• Une intégration en temps réel des données d’objets connectés (via LAN, VPN, Internet) ou de données en provenance d’ API

externes.

Page 4: NRB ENTERPRISE BIG DATA SERVICES...Talend ETL SQL PostgreSQL Visualisation Microstrategy Analytics Datamaestro Légende : Tez Slider FONCTIONNALITÉS • Utilisation de la plateforme

RÈGLE DES QUATRE ‘ S ’

LA PLATEFORME BIGDATA DE NRB EST CONFORME À LA RÈGLE DES ‘ 4 S ’

SIMPLICITY

Une distribution BigData Hadoop

HortonWorks simple à utiliser.

SCALABILITY

‘ By Design ’ l’architecture BigData est

échelonnable. De plus, il existe des

tableaux de bord de mesure spécifiques

et des systèmes d’alerte pour suivre

l’évolution et augmenter la capacité en

cas de besoin.

SECURITY

La sécurité est au cœur de la Plateforme.

SERVICE

Le dimensionnement approprié

d’un cluster peut constituer un défi.

Il nécessite un calcul précis des

cœurs de processeurs physiques

et de la mémoire ainsi qu’une bonne

compréhension des applications devant

être exécutées. L’équipe de NRB est là

pour vous aider.

Page 5: NRB ENTERPRISE BIG DATA SERVICES...Talend ETL SQL PostgreSQL Visualisation Microstrategy Analytics Datamaestro Légende : Tez Slider FONCTIONNALITÉS • Utilisation de la plateforme
Page 6: NRB ENTERPRISE BIG DATA SERVICES...Talend ETL SQL PostgreSQL Visualisation Microstrategy Analytics Datamaestro Légende : Tez Slider FONCTIONNALITÉS • Utilisation de la plateforme

BIG DATA PLATFORMBLUEPRINT

VMWARE TEMPLATE

Modèle

...

APPLICATIONEXECUTION

BIG DATA PLATFORM

HW/SW/NETWORK

Isolation par use case

USE CASE

APPLICATIONEXECUTION

BIG DATAPLATFORM

HW/SW/NETWORK

Isolation par société

USE CASE USE CASE

Il est aussi possible d’isoler les use cases d’un partenaire sur le même tenant bien évidemment sous certaines contraintes de sécurité

MAIS...

Provisionnement d’un environnement sur base d’un modèle

HORTONWORKS PLATFORM BIG DATA AS A SERVICE

ARCHITECTURE

Une architecture virtualisée qui permet une isolation de la plateforme par client ou par partenaire avec un monitoring en temps réel

et une historisation des paramètres de performances.

Cette architecture se caractérise par :

• Une isolation par use case ou par partenaire, permettant à chacun d’avoir son propre environnement sécurisé.

• La sécurité des données est garantie par la séparation physique.

• La possibilité de plannings opérationnels spécifiques par client.

Page 7: NRB ENTERPRISE BIG DATA SERVICES...Talend ETL SQL PostgreSQL Visualisation Microstrategy Analytics Datamaestro Légende : Tez Slider FONCTIONNALITÉS • Utilisation de la plateforme

Enfin, le cluster Hadoop offre une ‘ Évolutivité ’ des nœuds gérants les ressources mais également des nœuds de stockage des

données.

MANAGEMENT NODE

YARN HDFS APPS TRANSVERSAL

Node Manager Data Node

HDFS(data01, data02)

YARN(data01, data02)

Worker Node

ResourceManager

Journal Node,Zookeeper,

...

Name mode

Node Manager Data Node

HDFS(data01, data02)

YARN(data01, data02)

Worker Node Worker Node

Node Manager Data Node

HDFS(data01, data02)

YARN(data01, data02)

Node Manager Data Node

HDFS(data01, data02)

YARN(data01, data02)

Worker Node

Journal Node,Zookeeper, ...

Page 8: NRB ENTERPRISE BIG DATA SERVICES...Talend ETL SQL PostgreSQL Visualisation Microstrategy Analytics Datamaestro Légende : Tez Slider FONCTIONNALITÉS • Utilisation de la plateforme

Hortonworks Data Platform

Governance

Falcon

Atlas

Data Governance

Security

Ranger

Knox

Admin., auth., autorisation, audit,

data protection

Atlas

HDFSEncryption

Exploitation

Oozie

Programming

Ambari

Provisioning, managing and

watching

ZooKeeper

Sqoop

Flume

Kafka

Data Flow

NFS

WebHDFS

HDFS

Tools

Ambari User Views Zeppelin

Resource management

YARN

Data management

HDFS

Client Installed Installed Not Installed

Data acces

Mapreduce

Batch

Storm

Stream

Solr

Search

Spark

In-Mem

Hawq

Others

Tez

Pig

Script

Tez

Hive

Druid

SQL

Slider

HBase

Accumulo

Phoenix

NoSQL

Additional tools

Languages

Anaconda 2

Python

Data collection

NiFi

Streams

Talend

ETL

SQL

PostgreSQL

Visualisation

Microstrategy

Analytics

Datamaestro

Légende :

Tez Slider

FONCTIONNALITÉS

• Utilisation de la plateforme BigData la plus populaire ‘ HortonWorks Data Platform ’, ce qui signifie que nous capitalisons

fortement sur le monde Open Source.

• Possibilité de déploiement de composants spécifiques tels que Talent (ETL), Microstrategy (BI), DataMaestro (Analytics dédié

au secteur industrie).

• Résilience opérationnelle de la solution.

• Facilité d’automatisation.

Page 9: NRB ENTERPRISE BIG DATA SERVICES...Talend ETL SQL PostgreSQL Visualisation Microstrategy Analytics Datamaestro Légende : Tez Slider FONCTIONNALITÉS • Utilisation de la plateforme
Page 10: NRB ENTERPRISE BIG DATA SERVICES...Talend ETL SQL PostgreSQL Visualisation Microstrategy Analytics Datamaestro Légende : Tez Slider FONCTIONNALITÉS • Utilisation de la plateforme

Hortonworks Data PlatformSecurity

AuthenticationKnox, Hive

AuthorizationKnox

AccountabilityKnox, Falcon

Data ProtectionWebHDFS, Falcon

Opereations

Provision, Manage& Monitor

Ambari

SchedulingOozie

Data Integration& Governance

Data WorkflowData Lifecycle

Falcon

Real-time IngestFulme, Storm

Batch IntegrationSqoop, WebHDFS,

NFS Data management

Multitenant Processing: YARN(Hadoop Operating System)

Starage: HDFS(Hadoop Distributed file System)

Data acces

Mapreduce

Batch

Pig

Script

Hive

SQL

HBase

Online

Storm

Real-Time

Spark

In-Mem Others

Metadata ManagementHCatalog

Opensource

Software(Keras,...)

Exte

rnal

dat

a to

Hor

tonw

orks

pla

tform

Ha

doop

Hor

tonw

orks

pla

tform

NRB IoT platform(Azure, AWS, IBM,Third Parties)

Crowed Sourced AlgortihmicOpen data

Infosphere CDC Infosphere CDC

Hygh volume storage

NRB

infr

astr

uctu

re

PLATEFORME INTÉGRÉE DANS L’ÉCOSYSTÈME DE NRB

Page 11: NRB ENTERPRISE BIG DATA SERVICES...Talend ETL SQL PostgreSQL Visualisation Microstrategy Analytics Datamaestro Légende : Tez Slider FONCTIONNALITÉS • Utilisation de la plateforme

INFRASTRUCTURE PHYSIQUE

CPUE5-2690 v3

LOCAL DISKS 10K RPM

RAMDDR4-2133-MHz.

PURE STORAGEFlash Array m20 ETH 10TB

RESSOURCES PHYSIQUES TOTALES À DISPOSITION

• 4224 GB RAM

• 592 Cpu-Core

• 523 TB local Disk

• 10 Tb Pure Flash

• 4 GPU Tesla P100

RESSOURCES VIRTUALISÉES

• Master nodes (4 vcpu, 32GB RAM, 100GB SAN Disk pour OS)

• Worker nodes (4 vcpu, 16 GB RAM, 100GB SAN Disk pour OS, 2TB Local Disk pour données)

• Ambari node – Gestion du cluster (2 vcpu, 6GB RAM, 100GB SAN Disk pour OS)

• Edge node – Accès au cluster (2 vcpu, 4GB RAM, 100GB SAN Disk pour OS)

• DB node – Stockage des métadonnées (2 vcpu, 4GB RAM, 100GB SAN Disk pour OS)

• DevOps node – Déploiement des scripts (4 vcpu, 8GB RAM, 100GB SAN Disk pour OS)

Page 12: NRB ENTERPRISE BIG DATA SERVICES...Talend ETL SQL PostgreSQL Visualisation Microstrategy Analytics Datamaestro Légende : Tez Slider FONCTIONNALITÉS • Utilisation de la plateforme

Couche Virtualisation VMWare

CLUSTER 6CLUSTER 5CLUSTER 4CLUSTER 3CLUSTER 2 CLUSTER 7CLUSTER 1

Couche virtualisée

Couche Physique

CISCO UCSC240

CISCO UCSC240

CISCO UCSC240

CISCO UCSC240

2 CPU E5-2690 V324 CORES

8 x 32 GB DDR4256 GB

24 x 1,2 TB28,8 TB

CISCO UCSC220

CISCO UCSC220

CISCO UCSC220

2 CPU E5-2690 V324 CORES

8 x 32 GB DDR4256 GB

8 x 600 GB4,8 TB

EDGE NODE

MASTER NODE 1 MASTER NODE 2

SLAVE NODE 2SLAVE NODE 1 SLAVE NODE 4SLAVE NODE 3

AMBARI NODE DB NODE

DEVOPS NODE

EDGE NODEZOOM ON A CLUSTER

CLUSTER VIRTUEL PROPOSÉ EN STANDARD

CARACTERISQUES,

• Capacités d’un cluster standard:

Masters (2) Workers (4) Ambari - Edge (2) DevOps - DB (2)

VCPU 2 x 4 4 x 4 2 x 2 2 + 4

VRAM 2 x 32 GB 4 x 16 GB 6 GB + 4 GB 2 x 6 GB

Local Disk 4 x 2 TB

SAN Disk 2 x 100 GB 4 x 100 GB 2 x 100 GB 2 x 100 GB

• Software à disposition : Hortonworks Data Platform (Yarn, MapReduce, Spark, Kafka, Hive, Hbase, Pig, Sqoop, Oozie,

Flume, Zeppelin, …)

• Connexions vers l’extérieur (pour pouvoir recevoir ou fournir des données ‘ en temps réel ’ et/ ou de manière périodique)

• Intégration des données via Api ou NFS Gateway, ‘ en temps réel ’ et/ou de manière périodique

• Création de cluster on demand

• Gestion de la continuité de services (capacité, résilience)

• Gestion de la performance (GPU, …)

• Gestion de la sécurité

• Gestion de la maintenance des composants

• Mise à disposition possible de capacités CPU spécifiques GPU

Page 13: NRB ENTERPRISE BIG DATA SERVICES...Talend ETL SQL PostgreSQL Visualisation Microstrategy Analytics Datamaestro Légende : Tez Slider FONCTIONNALITÉS • Utilisation de la plateforme

CLUSTER 5CLUSTER 4CLUSTER 3CLUSTER 2 CLUSTER XCLUSTER 1

Couche Physique

CISCO UCSC240

CISCO UCSC240

CISCO UCSC240

CISCO UCSC240

CISCO UCSC220

CISCO UCSC220

CISCO UCSC220

IP public

Client 1

IP public

Client 2

IP public

Client 3

IP public

Client 4

IP public

Client 5

IP public

Client x

Firewall

Couche virtualisée

Couche Virtualisation VMWare

SECURISATION

1 Seuls les accès en provenance de l’IP publique déclarée par le client sont autorisés (règles firewall)

2 Chaque cluster est isolé dans un VLAN dédicacé sans possibilité de communication entre VLAN

3 A chaque client est attribué un groupe de sécurité Active Directory au travers duquel l’authentification est réalisée

4 Le groupe AD du client est synchronisé avec l’outil de management Ambari afin de gérer les autorisations d’accès au sein du

cluster

FACTEURS DIFFÉRENTIATEURS DE LA PLATEFORME

• Plateforme puissante, performante

• Données hébergées et gérées en Belgique, par une entreprise belge

Cloud Act adopté par le Congrès des États-Unis le 23 mars 2018 :

• Met à jour le cadre juridique des demandes de données stockées sur les serveurs des fournisseurs de services de

communication et de cloud computing

• Prévoit un mécanisme ‘ permettant aux services répressifs des États-Unis de demander des données stockées aux

États-Unis et à l’étranger ’

• Offre de service ‘ open source ’

• Création de clusters on demand

• Virtualisation des nœuds du cluster

• Souplesse et élasticité dans l’attribution de ressources complémentaires

• Mise à disposition des capacités CPU spécifiques GPU, …

• Expertise sécurité et GDPR/RGPD

• Gestion de la continuité des services, de la performance, de la sécurité et de la maintenance des composants

• Intégration des données avec le monde extérieur

• Assistance au déploiement des applications spécifiques des clients

Page 14: NRB ENTERPRISE BIG DATA SERVICES...Talend ETL SQL PostgreSQL Visualisation Microstrategy Analytics Datamaestro Légende : Tez Slider FONCTIONNALITÉS • Utilisation de la plateforme

EXEMPLE D’UTILISATION DE LA PLATEFORME

LE PROGRAMME PIT BIG DATA EN COURS

NRB Enterprise Big Data Services s’inscrit dans le cadre d’un partenariat avec la région Wallonne, des centres de recherche et

plusieurs sociétés DataSciences. Elle offre une solution Big Data complète aux clients incluant infrastructure, conseils et services.

Elle se caractérise par une approche itérative transparente partant des besoins des use cases et offre une industrialisation à

posteriori avec une valorisation des enseignements des use cases. Un écosystème est également créé avec différentes universités

permettant aux élèves en Master Data Science de pouvoir bénéficier de l’utilisation d’une plateforme Big Data dans le cadre

notamment de leur TFE.

En se basant sur des use cases définis, le partenariat a pour but la mise en place :

• D’une infrastructure performante répondant aux besoins des utilisateurs.

• Des algorithmes de traitement.

• Des modèles de données orientés métiers permettant une analyse adéquate.

• Des outils de visualisation fournissant aux utilisateurs un réel levier de valeur afin de transformer les données en information

et en connaissance.

• D’une méthodologie de gestion de projet Big Data, de bout en bout, incluant le respect des exigences de qualité.

PlateformeBig Data as a Service

Méthodologiede projet Big Data

Sociétés Data Sciences

Solution potentielle

Croissance valeur

MVPDesign,

réalisation et déploiement du

service pour valider les hypothèses

Besoin client

Hypothèse Technique et commerciales

Préserver, adapter ou arrêter

MesurerExploration des actions

et du comportement

client

Avec le soutien de :

Page 15: NRB ENTERPRISE BIG DATA SERVICES...Talend ETL SQL PostgreSQL Visualisation Microstrategy Analytics Datamaestro Légende : Tez Slider FONCTIONNALITÉS • Utilisation de la plateforme

Le Partenariat d’Innovation Technologique (PIT) a permis de mettre en place divers use cases pour des clients tels que :

Domaine spatial (pôle Skywin) :

Amélioration de la qualité de production

via l’analyse automatique des défauts

des soudures des pièces

Secteur transports (ferroviaires, routiers,

fluviaux/maritimes), (pôle Logistics in

Wallonia) :

Analyse et optimisations des convois

ferroviaires via la collecte et l’analyse de

flux de données en quasi temps-réel

Secteur géomatique (pôle Logistics in

Wallonia et pôle Skywin) : Amélioration

de la prédiction des temps d’arrivée

des avions de manière à optimiser les

rotations du personnel au sol

Secteur IT (pôle Mecatech) : Détection

d’attaques de type DDOS dans les

réseaux d’entreprises et détection des

performances des sites web

Domaine Smart City :

Identification et géolocalisation

automatique du mobilier urbain à 25 cm

près à partir des images obtenues via

un système embarqué

Domaine Soins de santé :

Analyse des données des patients ayant

connu des épilepsies afin de créer un

modèle permettant de détecter le plus

rapidement possible le commencement

d’une crise d’épilepsie. Ceci afin d’éviter

son aggravation

Villes de taille moyenne ou petite Réseau MicroGrids

Domaine Smart Mobility :

Améliorer, maîtriser la mobilité dans les villes de taille

moyenne ou petite, via l’analyse de leurs données à l’aide

de l’Intelligence Artificielle et le regroupement de toutes

les données de mobilité sur une même plateforme, pour

permettre :

· aux collectivités, de suivre l’évolution de la mobilité sur leur

territoire et d’observer l’effet des décisions prises ;

· aux usagers, de planifier les déplacements et découvrir l’offre

de mobilité ;

· aux développeurs, d’intégrer des données à des applications

spécifiques ;

· aux bureaux de conseil en mobilité, de disposer d’une

source fiable de données pour réaliser leurs études.

Secteur Utilités :

Optimisation des échanges d’énergie entre les réseaux

électriques locaux (MicroGrids) et avec le réseau électrique

principal. Ceci sur base des prévisions relatives au marché

de l’énergie et sur base de la production générée par les

MicroGrids

Page 16: NRB ENTERPRISE BIG DATA SERVICES...Talend ETL SQL PostgreSQL Visualisation Microstrategy Analytics Datamaestro Légende : Tez Slider FONCTIONNALITÉS • Utilisation de la plateforme

www.nrb.be www.linkedin.com/company/nrb

[email protected] | +32 (0)4 249 72 11

NRB S.A. / nv Parc Industriel des Hauts-Sarts - 2e Avenue 65 - 4040 Herstal | Rue d’Arlon / Aarlenstraat 53 - 1040 Bruxelles / Brussel

Designed at NRB | 04/04/2019

@daringtocommIT

CONTACT

[email protected]