mathias herberts fait le retour d'expérience hadoop au crédit mutuel arkéa
TRANSCRIPT
Ce support est mis à disposition selon les termes de la Licence Creative Commons Attribution - Pas d’Utilisation Commerciale - Pas de Modification 2.0 France. - http://creativecommons.org/licenses/by-nc-nd/2.0/fr/
HUG France #2/2 - 17 octobre 2012
Hadoop au Crédit Mutuel Arkéa
Retour sur 3 années d'utilisation
Mathias [email protected]@herberts
Crédit Mutuel Arkéa
Groupe bancaire de plein exercice
3.2 millions de sociétaires et clients
9000 salariés
Hadoop – phase 1
Installation d'une cellule Hadoop en juillet 2009
Expérimentations autour de l'analyse de données
Laboratoire pour the master plan
5 machines
Dell 1950
2 x 1To 2 x [email protected] (8 cores)
16 Go de RAM
Hadoop – phase 2
Installation d'une cellule ZooKeeper en 2009
Besoin d'un mécanisme de coordination (HBase)
Plugin d'authentification via clefs SSH
Passerelle SVN → ZooKeeper
Ensemble de 6 machines sur 3 datacenters
3 groupes de 2 machines de poids 2 et 1
Hadoop – phase 3
Projet #1, recherche sur opérations bancaires
Recherche fulltext sur les libellés depuis 2001
Version en place datant de 2003, basée sur MySQL
Limites atteintes (3.5 x 10E9 rows)
Décision d'utiliser HBase pour le stockage
Indexation opportuniste des données (Solr)
Extension à plus de données
Hadoop – phase 4
Récupérer nos données ... depuis le mainframe
Simplifier les transferts (IDCAMS REPRO + FTP)
Service de staging
Utilitaire de transfert fileutil
Lecture directe des VSAM/Séquentiels
Pas de conversion EBCDIC → ??? lors du transfert
Bibliothèque de lecture des données
Interprétation via COPY COBOL
Hadoop – phase 5
Passage en production du projet #1
Nouvelle cellule Hadoop installée en 2011-0476 HP DL 165 G7, 24Go, 4x2To, 2xAMD 16 cores
1 NN, 1 SNN, 1 JT, 1 backup JT, 72 DN, 56 TT
8 RS HBase, 8 nœuds d'indexation
4 racks, 2 datacenters, sans sursouscription réseau
Remplacement de la cellule de test5 HP DL 165 G7 idem production
Passage effectif en production en 2011-12
Hadoop – phase 5
Hadoop – phase 5
Hadoop – phase 6
Mise au point d'un système de monitoring
Nécessaire pour avoir une photo à t de la cellule
Centré sur la donnée brute, pas sur des graphes
Support de métriques techniques ET métier
Format universelTS name{label0=value0,label1=val1,...} value
Arkéa Real Time Information MONitoring
Hadoop – phase 6
Fonctionnement d'Artimon
Création d'un MonitoringContext
Enregistrement via ZooKeeper
Point d'entrée Thrift
Mise à jour de variables dans le code
Collecte via Flume / Kafka
Archivage dans HDFS
Stockage d'historiques en mémoire (VHMS)1H@1m / 4H@5m / 24H@15m / 72H@60m
Hadoop – phase 6
Fonctionnement d'Artimon (2)
Possibilité de collecter dans /var/run/artimon
Bibliothèque en Groovy
Opérations sur classes d'équivalences
Génération de graphiques via Google Charts API
Analyse postmortem via extraction Pig + VHMS
2M de métriques par minute sur 1200 machinesgrunt> fs -du /hdfs/data/artimon
Found 2 items
43801992067763 hdfs://jb-k15-01.p.infra.arkea.com/hdfs/data/artimon/2011
131762114040268 hdfs://jb-k15-01.p.infra.arkea.com/hdfs/data/artimon/2012
Hadoop – phase 7
Hadoop – phase 7
Hadoop – phase 7
Gros investissement autour de Pig
Volonté d'avoir un outil Dataflow (pas de xQL)
Appréhendable par les métiers (qui font du SAS)
Possibilités d'extension
Souplesse dans la mise à disposition des données
Ordonnancement depuis le mainframe
Hadoop – phase 7
Pig au Crédit Mutuel Arkéa
Données : SequenceFile de BytesWritable
Loader Pig com.arkea.commons.pig.SequenceFileLoadFunc
Classes Helper pour interpréter les donnéesThrift, COBOL, DB2, JDBC, Paramétrage, PCAP
Outil fileutil d'extraction de ces données
50 personnes formées
2 projets majeurs, reporting opérationnel et LAB
Hadoop – phase 7
Hadoop – phase 8
Croissance de la cellule Hadoop 2012-01
112 machines, 4 racks de 28
108 DN (812 To), 88 TT (1232 slots)
Utilisation des capacités de calcul
Calcul de ratios de solvabilité Solvency II
Division par ~200 des temps de calculs
Hadoop – Bilan
Importance de l'outillage
Être compatible avec l'existant du SI
Bien penser à la forme des données
Positionnement transverse un réel plus
Coût réduit au fur et à mesure des projets
Capitalisation dans les métiers, viralité
Ne pas céder à certaines sirènes
Ce support est mis à disposition selon les termes de la Licence Creative Commons Attribution - Pas d’Utilisation Commerciale - Pas de Modification 2.0 France. - http://creativecommons.org/licenses/by-nc-nd/2.0/fr/
#2/2 HUG France 17 octobre 2012
Hadoop au Crédit Mutuel Arkéa
Merci pour votre attention
Mathias [email protected]@herberts