datastax enterprise - cas d'usage
TRANSCRIPT
DataStax EnterpriseCas d’usage
Trivadis Cassandra Essentials Day26 janvier 2016
Victor Coustenoble Ingénieur [email protected]@vizanalytics
« DataStax délivre une plateforme de la base dedonnées Apache Cassandra, conçue spécifiquementpour les besoins en Performance et Disponibilité exigéspar les applications d’Internet des Objets, Web ouMobiles, en offrant aux entreprises une base dedonnées Sécurisée toujours disponible, qui resteSimple à administrer même pour des déploiements àgrande échelle, dans un seul ou de Multiples DataCenters et dans le Cloud. »
Confidential 2016
Confidential 2016
Un nouveau monde connecté a besoind’un nouveau Système de Base de Données
Confidential 2016
Client-Server
Isolated
SocialMobileCloud
Mainframe
1970’s
1990’s
Today
IBM
ORACLE
Semi-Connected Radically Connected
DATASTAXDistributed
Confidential 2016
DataStax Entreprise
Confidential 2016
RELATIONAL DATABASES
CQL SQL
OpsCenter / DevCenter Management toolsDSE for search & analytics IntegrationSecurity Security
Support, consulting & training 30 years ecosystem
Confidential 2016
DataStax Enterprise (DSE)
Robustesse et Support pour la ProductionSolution d’Entreprise
Puissance pour le DéveloppementWorkloads différents
Une plateforme de base de données Opérationnelle
Confidential 2016
Cassandra Certifié
Confidential 2016
• Prêt et certifié pour les environnements de production
• Processus rigoureux de certification: • Tests assurance qualité étendus
• Tests de performance et de montée en charge avec des clusters de 1 000 noeuds
• Validation des logiciels tiers• Résolution des défauts
• Certifié pour toutes les plateformessupportés
Administration du Cluster - OpsCenter
Confidential 2016
• Interface Web avec des API REST• Installation, configuration et administration• Sauvegarde / Restauration• Supervision temps-réel et Alertes• Contrôle des accès
Confidential 2016
Services d’Administration Automatique
Gestion automatique des tâches de maintenance et d’administration
Repair service : Cohérence automatique des donnéesCapacity service : Analyse des tendanceshistoriques et la prévision des futurs besoinsPerformance service : Performances du cluster et des métriques de Solr et Spark dans Cassandra Best Practice service : Règles des meilleurspratiques dans plusieurs domaines (securité, configuration, etc.) pour une utilisation optimaleBackup Service : Gestion des sauvegardes/restaurations, du chiffrement, de la migration de données avec des rapports d’activité
Confidential 2016
Sécurité
• Authentification Externe(Kerberos, LDAP / Active Directory)
• Chiffrement transparent des données
• Chiffrement sur disque• Audit de données, log et trace
Confidential 2016
Support Expert• Support Technique 24x7x365• Couvre à la fois les environnements
de production et non-production• Revues (health checks) régulières
pour de l’assistance surl’architecture, la conception et l’opmisation
• Correctifs (Hot-fix) pour les situations de maintenance urgente
Confidential 2016
DataStax Enterprise Standard
Confidential 2016
In-Memory
• Base de données en mémoire• Simple à utiliser• Tables en mémoire comme les
tables Cassandra• Cas pour latence faible en
lecture• Ecritures durables• Amélioration de x10-x100
Recherche Intégrée
Confidential 2016
• Recherche sur des données Cassandra à travers une intégrationforte des moteurs Solr et Lucene
• Facettes, filtres, recherche geospatial, recherche plein texte, jointures, etc…
• Opérations de recherche et d’indexation temps réel• Requêtes de recherche depuis CQL et l’API REST de Solr• Index Solr distribués et répliqués, architecture Masterless
Analytique et Transformation de données
Confidential 2016
• Intégration poussée avec Cassandra de Apache Spark• Spark = Traitement Distribué : “In-memory Map/Reduce”, multi-thread …• GraphX, MLLib (Machine learning), SparkSQL, Spark Streaming, SparkR• Serveur Spark JDBC – Spark Job Server• Intégration de Solr• Partenariat DataStax / Databricks
C*
C*
C*C*
Spark Executor
C* Java Driver
Spark-Cassandra Connector
User Application
Cassandra
Connecteur Spark Cassandra
• Lecture / Ecriture de données Cassandra depuis Spark• Mapping entre tables Cassandra et RDD / DataFrame• Data Locality• Mapping entre partitions Spark et partitions Cassandra• Conversion des types• API Scala, Java et PythonConfidential 2016
Cas d’utilisation
Load data from various sources
Analytics (join, aggregate, transform, …)
Sanitize, validate, normalize data
Schema migration,Data conversion
Confidential 2016
Traitement Temps-réel ou Batch
Confidential 2016
Enrichissementdes Données
Batch ProcessingMachine Learning
Agrégats pré-calculés
DonnéesSans ETL
Isolation des workload
Confidential 2016
No ETL
DataStax Enterprise
OpsCenterServices
MonitoringOperations
OperationalApplication
Real TimeSearch
Real TimeAnalytics
BatchAnalytics
AnalyticsTransformation
s
Cassandra Cluster – Nodes Ring – Column Family StorageHigh Performance – Alway Available – Massive Scalability
Advanced Security
In-Memory
Support
Le Futur de DataStax Enterprise
Confidential 2016
Base de données Graphe ?
Confidential 2016
�
�
�
F F
Í
Í
Í
DataStaxDataBricks
Spark
DSE
CassandraJonathan Ellis
Robin Schumacher
Billy Bosworth
worksFortitle: VP Product
develops
uses
uses
reportsTo
worksFortitle: CTO
worksFortitle: CEO
RDBMS vs. Graph DB
SELECT TOP (5) [t14].[ProductName]FROM (SELECT COUNT(*) AS [value],
[t13].[ProductName]FROM [customers] AS [t0]
CROSS APPLY (SELECT [t9].[ProductName]FROM [orders] AS [t1]
CROSS JOIN [order details] AS [t2]INNER JOIN [products] AS [t3]
ON [t3].[ProductID] = [t2].[ProductID]CROSS JOIN [order details] AS [t4]INNER JOIN [orders] AS [t5]
ON [t5].[OrderID] = [t4].[OrderID]LEFT JOIN [customers] AS [t6]
ON [t6].[CustomerID] = [t5].[CustomerID]CROSS JOIN ([orders] AS [t7]
CROSS JOIN [order details] AS [t8]INNER JOIN [products] AS [t9]
ON [t9].[ProductID] = [t8].[ProductID])WHERE NOT EXISTS(SELECT NULL AS [EMPTY]
FROM [orders] AS [t10]CROSS JOIN [order details] AS [t11]INNER JOIN [products] AS [t12]
ON [t12].[ProductID] = [t11].[ProductID]WHERE [t9].[ProductID] = [t12].[ProductID]AND [t10].[CustomerID] = [t0].[CustomerID]AND [t11].[OrderID] = [t10].[OrderID])
AND [t6].[CustomerID] <> [t0].[CustomerID]AND [t1].[CustomerID] = [t0].[CustomerID]AND [t2].[OrderID] = [t1].[OrderID]AND [t4].[ProductID] = [t3].[ProductID]AND [t7].[CustomerID] = [t6].[CustomerID]AND [t8].[OrderID] = [t7].[OrderID]) AS [t13]
WHERE [t0].[CustomerID] = N'ALFKI'GROUP BY [t13].[ProductName]) AS [t14]
ORDER BY [t14].[value] DESC
g.V('customerId','ALFKI').as('customer') .out('ordered').out('contains').out('is').as('products') .in('is').in('contains').in('ordered').except('customer') .out('ordered').out('contains').out('is').except('products') .groupCount().cap().orderMap(T.decr)[0..<5].productName
VS.
Confidential 2016
Cas d’utilisation et pourquoi ?
Confidential 2016
Meilleur réponse pour les applications avec des donnéeshautement connectés (Réseaux électriques, réseaux sociaux …)
Multi-Modèle dans DataStax Enterprise
Confidential 2016
Transactions Analytics Search
Mixed Workload Needed?
Solved in DSE
Wide Row Graph JSON
Mixed Model Needed?
Solved in DSE
DSE
AnalyticsSearch
Transactions
DSEWide Row
JSONGraph
DataStax Enterprise Graph“DSE Graph est une solution de base de données graphe scalable pour les applications Web et Mobiles avec des besoins de gérer des donnéeshautement connectés”
Origine : Projet Open Source Titan
DSE Graph est intégré dans DSE:• Intégration forte dans Cassandra• OLAP et analyse Graph avec Apache Spark• OLTP avec support de Apache Solr pour la recherche• Supervision depuis OpsCenter• Pas de besoin de noeuds ou clusters additionnels• Pas de processus externe, même JVM• Utilisation et Support du framework TinkerPop
Confidential 2016
Cas d’usage
Confidential 2016
Cas d’usage fréquents
Messagerie
Catalogue/Playlists
Détection de Fraude
Recommandation/ Personnalisation
Objets connectés/ Données de Capteurs
Confidential 2016
Des clients sur tous les verticaux
Confidential 2016
Performance - Montée en Charge - DisponibilitéCassandra fonctionne aussi bien pour des petits que pour des déploiements énormes!
Déploiement Cassandra chez Apple
75 000+ noeuds10’s petabytes de donnéesMillions ops/secondPlus gros cluster à 1000+ noeuds
Apple Inc.: Cassandra at Apple for Massive ScaleVideo https://www.youtube.com/watch?v=Bc4ql9TDzyg
From Cassandra Summit, London, December 2014
Confidential 2016
Netflix séduit ses Clients avec des Recommandations PersonnaliséesLeader mondial de la vidéo en streaming avec un revenu supérieur à 1.5 Milliard de $Adapte le contenu délivré en se basant sur les données de visionnagecapturées dans CassandraCapitalisation boursière en hausse de 600% depuis 2012L’introduction des ‘Profiles’ a poussé le débit à plus de 10M de transactions par secondeA remplacé Oracle dans six data centers dans le monde, 100% en mode cloud
Use Case: Personalization
Confidential 2016
Cassandra @ Netflix• 80+ Clusters• 2500+ noeuds• 4 Data Centres (Régions Amazon)• > 1 Trillion transactions par jour
http://planetcassandra.org/functional-use-cases/
Performance et Montée en Charge
Confidential 2016
British Gas Tackles Internet-of-Things with DataStax Connected Homes, a new business unit, handles IoT-based customer systemsProvides remote control over thermostats and boilers via smart phones/tablets
Delivers analytics on energy usage to customersWill be using predictive analysis to forecast things like boiler failuresUses DataStax Enterprise for transactional data consumption and real-time analytics
Confidential 2016
Confidential 2016
Confidential 2016
Google Nest Revolutionizes the ThermostatGoogle pays $3BN for Nest, not for thermostat, but for dataAll interactions with customer thermostats are written to DataStaxAll mobile application interactions are handled by DataStaxDataStax chosen for ability to handle high velocity writes in time series
Use Case: Internet Of Things
Confidential 2016
Spotify Translates Mood into Music by Delivering the Right Playlist for Every Moment
Leading streaming music provider with over 40M+ active monthly usersEmpowers users to access massive database of music and create and share custom playlistsOver 1 billion playlists created and managed in real timeMore than 40,000 requests/second handled without latencyManaging 500+ nodes across 4000 servers in 4 data centers without any downtime
Use Case: Playlists
Confidential 2016
Credit Suisse Benefits from Cassandra’s ResiliencyPublic clouds not an option Key infrastructure challenges: high availability, data retention, scale and user experienceStarted with risk-management systems to help improve up-timeExpanding into new areasA new approach—traditional databases could not meet performance needs
Cassandra
Credit Suisse @ Summit 2014http://www.slideshare.net/planetcassandra/cassandra-summit-2014-an-overview-of-the-hippo-project-at-credit-suisseConfidential 2016
©2013 DataStax Confidential. Do not distribute without consent. 41
Cassandra @ ING
http://supernova-team.github.io/cassandra-presentations/cassandra-summit-2014/#/
Why DataStax Enterprise
Need for• Very High Availability : 100% !• Stability
Use Cases• Payment Engine Availability
(process payment even if issues)• Mobile Payment Application
‘PayPal like”• More and more ….
Confidential 2016
Confidential 2016
Exemple d’architecture chez ING
Source : http://www.natalinobusa.com/2015/11/why-is-smack-stack-all-rage-lately.html
SparkMesosAkkaCassandraKafka
Détection de fraude
Confidential 2016
DataStax Use Cases in Financial Services
• Real Time Payments Engine• Post Trade Risk
Reporting/Capital Adequacy• Global Reference Data
Replication• Market Data Capture/Replay• Post Trade Surveillance• Real Time Fraud Analytics• Forward Curve Analytics• Fraud Detection/Money
Laundering • Security• Product Personalization• Identity Management
Confidential 2016
Sony PS4 Delivers Social and Engaging Gaming Experiences with DataStax
Sony Entertainment Network provides digital entertainment services among which PS4 is a huge successPS4: engages gamers with personalized product recommendation and always connected social gaming featuresReaches over 200,000 /second read/write speeds to guarantee applicationperformanceHybrid deployment with front features on AWS and multi micro services on-premise
Confidential 2016
Delivers 150+ Billion Content Recommendations Per MonthServes content for largest media brands in the world: Reuters, Wall St Journal, USA TodayNeeded a massively scalable datastoreHigh velocity of data with 58,000 links to content per secondAlways-on data architecture Use Case: Recommendations / Personalization
Confidential 2016
Comcast Invents the Future of Television on CassandraFuture of TV: cloud-based X1 platform connects viewers with more contentTrack your favorite team’s score while watching a movie, or TV showOff the shelf offerings and traditional technologies failedRequires a robust infrastructure with low overheadNeeds to be always-on across multiple datacenters
Use Case: MessagingConfidential 2016
EBay Connects 100M Customers with 400M Items; Always-OnWorld’s largest online marketplace needed highly scalable, available and robust data storeHandles fraud detection, messaging, and more with DataStax EnterpriseEnsures that users get the most accurate results for their searchesStores vast amounts of data: 250 TBs (Single transactional table: 40TB!)Handles high velocity with over 6 billion writes and 5 billion reads daily
Confidential 2016
eBay – Massive Performance and Scalability
Confidential 2016
http://www.datastax.com/resources/casestudies/ebay
Target Scales Across Geographies with CassandraLeading American retailer with over 1900 storesLegacy infrastructure limited scale across geographies and innovation of mobile features
DataStax chosen as the database platform for Target’s web and high transaction mobile API3 months from choosing DataStax to live in a critical production environmentAgility and 4x faster time to market of innovative features
Use Case: Personalization
Confidential 2016
Apprendre et en savoir plus
Confidential 2016
DataStax Academy : https://academy.datastax.com
Confidential 2016
Self-Paced Courses
Confidential 2016
O’Reilly Certification
Confidential 2016
Plus d’information
Confidential 2016
DataStax: http://www.datastax.comDownloads: http://www.datastax.com/downloadDocumentation: http://www.datastax.com/docs Developer Blog: http://www.datastax.com/dev/blogAcademy: https://academy.datastax.comCommunity Site: http://planetcassandra.org
Merci
We power the big data apps that transform business.
©2013 DataStax Confidential. Do not distribute without consent.