conception de la solution datamining d’un si bancairemma.perso.eisti.fr/html-iad/5.pdf · filiale...

70
Avenue du Parc 95 011 Cergy-Pontoise CEDEX 17 Place des Reflets 92 097 Paris La Défense CEDEX Stage de fin d’études d’ingénieur Conception de la solution datamining d’un SI bancaire Du 18/04/2011 au 17/10/2011 Présenté par : Eliane Tchiengue

Upload: hoanghanh

Post on 10-Sep-2018

214 views

Category:

Documents


0 download

TRANSCRIPT

Avenue du Parc 95 011 Cergy-Pontoise CEDEX

17 Place des Reflets 92 097 Paris La Défense CEDEX

Stage de fin d’études d’ingénieur

Conception de la solution datamining

d’un SI bancaire Du 18/04/2011 au 17/10/2011

Présenté par : Eliane Tchiengue

RAPPORT DE STAGE 3EME

ANNEE INGENIEUR TCHIENGUE ELIANE

2

Remerciements

Tout d’abord des remerciements à Jérôme CAMUS pour m’avoir acceptée dans ses

équipes, me donnant ainsi l’opportunité de faire un stage intéressant au sein d’une

entreprise de taille importante.

Des remerciements également à Sarah MARCHAND, Clara SPRIET et Habibatou

KEITA pour l’encadrement qu’elles m’ont destiné tout au long de ce stage.

Des remerciements particuliers à tous les membres des chantiers Données et

Architecture pour leur accueil chaleureux, c’était agréable de travailler auprès de

vous.

Et pour finir, un merci aux membres de l’administration de Logica qui ont aidé à ce

que ce stage se déroule dans de bonnes conditions.

RAPPORT DE STAGE 3EME

ANNEE INGENIEUR TCHIENGUE ELIANE

3

Sommaire

1 Contexte ............................................................................................................ 11

1.1 Logica, acteur majeur du service informatique ........................................... 11

1.1.1 Historique .............................................................................................. 13

1.1.2 Organisation .......................................................................................... 13

1.1.3 Les principaux partenaires de Logica ................................................... 14

1.2 ITS .............................................................................................................. 15

1.3 BDM – BI .................................................................................................... 16

1.4 Présentation du client et du projet .............................................................. 18

1.4.1 Présentation générale du groupe Crédit Agricole ................................. 18

1.4.2 Les caisses régionales (CRs) en France .............................................. 18

1.4.3 Le projet NICE ...................................................................................... 19

1.5 Observations personnelles ......................................................................... 22

1.6 Intégration au sein de l’entreprise .............................................................. 23

2 Le chantier Etudes&Datamining ........................................................................ 24

2.1 Le datamining ............................................................................................. 24

2.2 Objectifs ..................................................................................................... 24

2.3 Les données ............................................................................................... 24

2.4 Les besoins et exigences du Crédit Agricole .............................................. 26

2.4.1 Les besoins fonctionnels ....................................................................... 26

2.4.2 Les exigences ....................................................................................... 26

2.5 Les solutions apportées ............................................................................. 30

2.5.1 Les usages couverts par le chantier Etudes&Datamining ..................... 30

2.5.2 Les études ............................................................................................ 31

2.5.3 Le datamining ....................................................................................... 31

2.5.4 La solution technique retenue ............................................................... 32

2.6 Organisation ............................................................................................... 38

2.6.1 La méthode CAgile du Crédit Agricole .................................................. 38

2.6.2 Les thèmes des solutions apportées ..................................................... 41

2.6.3 Planning et livrables .............................................................................. 42

3 Un stage orienté conseil en système d’information ........................................... 43

RAPPORT DE STAGE 3EME

ANNEE INGENIEUR TCHIENGUE ELIANE

4

3.1 Phase de spécification fonctionnelle générale – Cadrage .......................... 43

3.2 Phase de conception détaillée ................................................................... 46

3.2.1 Processus : Temps réel ........................................................................ 46

3.2.2 Cycle de vie des modèles ..................................................................... 49

3.2.3 Scénarios des uses cases .................................................................... 50

3.3 Auto-évaluation et difficultés ...................................................................... 52

3.4 Le stage dans la formation ......................................................................... 52

4 Bilan .................................................................................................................. 53

4.1 Bilan du projet ............................................................................................ 53

4.2 Bilan du travail en équipe ........................................................................... 53

4.3 Bilan personnel ........................................................................................... 53

RAPPORT DE STAGE 3EME

ANNEE INGENIEUR TCHIENGUE ELIANE

5

Glossaire

Affacturage

L'affacturage (factoring en anglais) est une technique de recouvrement de créances mise en œuvre par les entreprises et consistant à sous-traiter cette gestion à un établissement de crédit spécialisé : l'affactureur ou factor (anglais).

CASA

Crédit Agricole SA est une société anonyme, propriété des Caisses régionales et des

salariés du Groupe. En 2001, CASA est introduit en Bourse mais reste détenue

majoritairement par les Caisses Régionales (44 à l'époque), comme le prévoient les

statuts mutualistes du groupe.

CRM (Customer Relationship Management ou en français GRC, gestion de la

relation client)

Ce système de gestion vise à proposer des solutions technologiques permettant de

renforcer la communication entre l'entreprise et ses clients afin d'améliorer la relation

avec la clientèle en automatisant les différentes composantes de la relation client.

CRM opérationnel

Le marketing relationnel vise à créer et animer une "relation" entre une marque et son marché cible. Le marché cible peut correspondre aussi bien à la clientèle établie qu'aux clients potentiels (prospects).

GINI (Courbe de)

L’indice de Gini est un nombre variant de 0 à 1, où 0 signifie l'égalité parfaite (il y a

autant de bons que de mauvais payeurs) et 1 signifie l'inégalité totale (une personne

est solvable, les autres ne le sont pas). Entre 0 et 1, l'inégalité est d'autant plus forte

que l'indice de Gini est élevé.

LCL

Filiale du groupe Crédit Agricole, LCL est un réseau de banque de détail à forte

implantation urbaine dans toute la France, organisé autour de 4 métiers :

La banque de proximité pour les particuliers

La banque de proximité pour les professionnels

La banque privée

La banque des entreprises

RAPPORT DE STAGE 3EME

ANNEE INGENIEUR TCHIENGUE ELIANE

6

Lift (Courbe de)

Le lift est le ratio de deux pourcentages: le pourcentage des classifications positives

correctes réalisées par le modèle sur le pourcentage des classifications positives

actuelles dans les données de test.

Par exemple, si 40% des clients d’une enquête marketing ont répondu favorablement

(la classification positive) à une campagne promotionnelle dans le passé et le modèle

prévoit 75% de réponses positives correctes, le lift serait obtenu en divisant 0,75 par

0,40. Le lift résultant serait 1,875.

Le Lift est habituellement utilisé pour mesurer la performance des modèles de

réponse. Le but d’un modèle de réponse est d’identifier les segments de population

avec les concentrations les plus élevées de réponses positives à une campagne

marketing. Le lift donne la quantité de population à solliciter pour obtenir le

pourcentage le plus élevé de réponses potentielles.

Lightweight Directory Access Protocol (LDAP)

En français « protocole d’accès aux annuaires légers », c’est un protocole standard

permettant de gérer des annuaires, c'est-à-dire d'accéder à des bases d'informations

sur les utilisateurs d'un réseau par l'intermédiaire de protocoles TCP/IP.

Marketing relationel

Le marketing relationnel vise à créer et animer une "relation" entre une marque et son marché cible. Le marché cible peut correspondre aussi bien à la clientèle établie qu'aux clients potentiels (prospects).

Ordonnanceur

Dans les systèmes d'exploitation, l’ordonnanceur désigne le composant du noyau du

système d'exploitation qui choisit les processus qui vont être exécutés par les

processeurs d'un ordinateur.

PMML

Predictive Model Markup Language ou PMML est un langage de marquage basé sur XML conçu pour définir des modèles de données et visant à rendre interopérables les systèmes de datamining.

ROC

La courbe ROC est un outil d’évaluation et de comparaison des modèles datamining.

Score d’octroi

RAPPORT DE STAGE 3EME

ANNEE INGENIEUR TCHIENGUE ELIANE

7

Formule mathématique permettant d’évaluer la probabilité qu’une entité (client,

compte, foyer, …) présente un risque futur de non règlement de ces créances, sur la

base des caractéristiques de cette entité. On distingue des formules effectuant une

évaluation ponctuelle de ce risque, à l’étude de l’ouverture d’une nouvelle ligne de

crédit (Scores d’octroi) et celles effectuant une évaluation répétée et dynamique de

ce risque pour un compte ouvert, généralement sur la base de son comportement

historique (Scores de comportement).

Script batch

Par abus de langage, un fichier batch est, sous le système d'exploitation Windows,

un fichier (ou script) contenant une série d'instructions DOS.

TERADATA

Teradata est un constructeur et un éditeur de solutions informatiques spécialisées en

matière d’entrepôt de données et d’applications analytiques.

UNICA

Unica est un logiciel de l’éditeur IBM conçu pour créer et suivre des campagnes de

marketing multicanaux, analyser les interactions avec les clients, modéliser les

comportements, et segmenter les offres par canal.

RAPPORT DE STAGE 3EME

ANNEE INGENIEUR TCHIENGUE ELIANE

8

Abréviations et sigles

NICE Nouvelle Informatique Convergente Evolutive

CR Caisse Régionale

DWH DataWareHouse

DTM DaTaMart

SBD Service Bureau Datamining

RAPPORT DE STAGE 3EME

ANNEE INGENIEUR TCHIENGUE ELIANE

9

RAPPORT DE STAGE 3EME

ANNEE INGENIEUR TCHIENGUE ELIANE

10

Introduction

Le monde bancaire concentre ses orientations technologiques autour de trois

objectifs : industrialiser ses activités de cœur de métier, améliorer la relation client et

renforcer la gestion du risque.

Pour réussir à fidéliser un client, il faut le positionner au cœur de l’entreprise, c’est-à-

dire mettre tous les moyens en œuvre pour le comprendre et lui donner un service

fiable. Cela suppose de modifier l’organisation de l’entreprise en fonction de cet

impératif. Le système d’information n’est pas épargné, je dirais même qu'il joue un

rôle primordial dans cette stratégie.

Fidéliser sous-entend connaître le client, c’est-à-dire se souvenir de ses précédents

contacts avec l’établissement, ses achats, ses réclamations etc. Toutes ces

informations sont stockées, quelque part dans les bases de données de l’entreprise

par les différents canaux d’où elles proviennent comme la banque en ligne, les

agences, les distributeurs automatiques etc.

Maîtriser les canaux et les données qui en proviennent afin de transformer cela en

connaissance est un atout considérable pour les banques qui n’hésitent pas à

investir de plus en plus dans leur système d’information.

En effet, cette vision unifiée du client permet de lui offrir une relation personnalisée

quelque soient les canaux.

Ce stage, situé au cœur du projet NICE Datamining du système d’information du

Crédit Agricole, a pour objectif d’apporter des solutions pour la mise en place d’un

outil d’analyse de données et de modélisation datamining qui optimise la

connaissance client.

RAPPORT DE STAGE 3EME

ANNEE INGENIEUR TCHIENGUE ELIANE

11

1 Contexte

1.1 Logica, acteur majeur du service informatique

Logica est la 7ème société de conseil et de services informatiques en Europe et le

4ème acteur français avec près de 9000 personnes réparties sur trois grandes

entités :

Logica IT Services – Intégration de Systèmes

Logica Business Consulting – Conseil en Management

Logica IT Training – Outsourcing

Figure 1 : Présence de Logica dans le monde

Avec près de 40 000 collaborateurs répartis dans 39 pays, Logica totalise un chiffre

d’affaire de 3,7 milliards d’euros en 2010.

RAPPORT DE STAGE 3EME

ANNEE INGENIEUR TCHIENGUE ELIANE

12

Figure 2 : Evolution du chiffre d’affaire de Logica depuis 2003

Logica s’appuie sur ses connaissances approfondies des secteurs, son excellence

en matière de technologies ainsi que sur son expertise en matière de delivery pour

aider ses clients à se positionner en tête de leurs marchés respectifs. Logica est coté

à la Bourse de Londres et d'Amsterdam (LSE : LOG ; Euronext : LOG).

Figure 3 : Répartition des activités de Logica par secteurs

RAPPORT DE STAGE 3EME

ANNEE INGENIEUR TCHIENGUE ELIANE

13

Figure 4 : Répartition du chiffre d’affaire de Logica par secteur d’activité en France

1.1.1 Historique

Logica est née de la fusion d’entreprises européennes (Royaume-Uni, Pays-Bas,

France) qui lui donne aujourd’hui une ouverture sur le marché international.

Le 27 février 2008, le groupe LogicaCMG, qui opérait depuis le 10 janvier 2006 sous

la marque Unilog en France, annonce l’adoption d’une nouvelle marque à l’échelle

internationale.

1.1.2 Organisation

L’organisation de Logica est sous forme matricielle. Les 4 entités de Logica ont des activités

transverses sur plusieurs secteurs d’activités.

RAPPORT DE STAGE 3EME

ANNEE INGENIEUR TCHIENGUE ELIANE

14

Figure 5 : Organisation de Logica

1.1.3 Les principaux partenaires de Logica

Logica est partenaire de grandes entreprises nationales, européennes et internationales.

Figure 6 : Les principaux partenaires de Logica

RAPPORT DE STAGE 3EME

ANNEE INGENIEUR TCHIENGUE ELIANE

15

1.2 ITS

À mon intégration chez Logica, j’ai été rattachée à l’entité ITS.

Cette division de Logica avec près de 6 200 ingénieurs et experts en France, est la

plus importante. Elle fait bénéficier les entreprises de sa capacité à faire

communiquer les technologies les plus innovantes avec les systèmes existants.

Cette division accompagne ses entreprises clientes tout au long du processus de

management du système d'information pour :

Développer les technologies

Intégrer ces technologies aux systèmes existants

Anticiper et accompagner les évolutions de plus en plus rapides de

l'environnement technologique notamment via les nombreux centres de

services.

La figure suivante présente l’organisation de la division ITS Paris en fonction des

secteurs ainsi que les effectifs de chaque pôle. Ainsi, le pôle BDM-BI (Business

Intelligence & Data Management) au sein duquel j’ai réalisé mon stage est dirigé par

Stéphane JAUBERT et compte environ 350 collaborateurs.

Figure 7 : Organisation ITS Paris – Nord

RAPPORT DE STAGE 3EME

ANNEE INGENIEUR TCHIENGUE ELIANE

16

1.3 BDM – BI

Durant mon stage, j’appartenais au pôle BDM-BI : regroupement des métiers de

Business Intelligence et de Data Management.

BDM – BI est responsable des marchés IT consulting, Intégration de système et

Outsourcing.

Les collaborateurs de BDM – BI interviennent chez les clients sur différentes

technologies telles que SAP – Business Objects, IBM Cognos , Oracle, Informatica,

SAS etc.

Figure 8 : Répartition de l’expertise de BDM – BI

Le pôle compte plus de 200 ingénieurs, 15 managers et 10 seniors managers qui

pilotent l’ensemble des projets.

Figure 9 : Effectif de BDM – BI

On distingue 4 profils au sein de BDM – BI. Les collaborateurs sont regroupés dans

des entités en fonction de leur profil.

RAPPORT DE STAGE 3EME

ANNEE INGENIEUR TCHIENGUE ELIANE

17

IT Consulting, qui est constitué des consultants confirmés

Solution Skill, comprenant les ingénieurs débutants

Technical, qui est l’entité des architectes techniques

Delivery, regroupant les gestionnaires de projets

RAPPORT DE STAGE 3EME

ANNEE INGENIEUR TCHIENGUE ELIANE

18

1.4 Présentation du client et du projet

Dans le cadre de mon stage, j’étais intégrée à une équipe projet de Logica en

prestation au Crédit Agricole.

Notre équipe travaillait pour le Crédit Agricole dans le cadre du projet NICE (Nouvelle

Informatique Convergente Evolutive).

1.4.1 Présentation générale du groupe Crédit Agricole

Avec 160 000 collaborateurs dont le tiers hors de France, le groupe Crédit Agricole

est un acteur majeur de la banque en France.

Crédit Agricole représente 54 millions de clients répartis dans 70 pays et 3,6 milliards

d’euros de résultats net en 2010

Les activités du groupe sont organisées en 4 lignes de métiers :

Organe central : il veille à la cohésion et au bon fonctionnement du réseau, et

représente le Groupe auprès des autorités bancaires.

Banque de proximité : Elle est constituée des caisses régionales, de LCL et

de la banque de détail à l’international

Métiers financiers spécialisés : Ce sont les métiers de gestion d’actifs,

assurances, banque privée, crédit à la consommation, crédit-bail,

affacturage...

Banque de financement et d’investissement : Elle propose à ses clients

une gamme complète de produits et services dans les métiers de la banque

d’investissement, des financements structurés, de la banque de marchés et du

courtage.

1.4.2 Les caisses régionales (CRs) en France

1.4.2.1 Les caisses régionales, 39 banques mutualistes

À fort ancrage régional, les 39 Caisses régionales du Crédit Agricole sont les

banques destinées aux particuliers, agriculteurs, professionnels, entreprises et

collectivités locales.

Elles proposent à ses 20 millions de clients en France des offres d’épargne,

placements et assurance-vie, crédits, moyens de paiement et assurances

dommages.

RAPPORT DE STAGE 3EME

ANNEE INGENIEUR TCHIENGUE ELIANE

19

1.4.2.2 Les systèmes d’information régionaux (SIR)

L’informatique des 39 caisses régionales est répartie en 5 systèmes d’information

communautaires nommés AMT, Atlantica, Comete, Exa et Synergie.

Figure 10 : Répartition actuelle des 5 SIRs du Crédit Agricole

1.4.3 Le projet NICE

1.4.3.1 Enjeux

Afin de répondre aux nouveaux enjeux métiers de la banque de détail et de

l’assurance, les 39 caisses régionales du Crédit Agricole ont décidé de lancer un

programme stratégique de refonte de leur système d’information.

L’intérêt est de fusionner les 5 systèmes informatiques régionaux (SIRs) actuels. Le

nouveau système s’appuiera sur une architecture innovante qui s’inscrira dans une

orientation multi canal et « centrée client ».

Le Crédit Agricole crée ainsi en mars 2010 deux structures - Crédit Agricole

Services, dédiée à la maîtrise d’ouvrage et Crédit Agricole Technologies, dédiée à la

maîtrise d’œuvre – pour la réalisation du projet NICE (Nouvelle Informatique

Convergente Evolutive).

RAPPORT DE STAGE 3EME

ANNEE INGENIEUR TCHIENGUE ELIANE

20

L’objectif de la future architecture du système d’information urbanisé est de

contribuer à fluidifier les relations entre les clients et les conseillers, en créant une

expérience client plus simple, plus transparente et continue quels que soient les

canaux.

Les nombreux chantiers que le projet comporte mobilisent quelque 2000 personnes.

Logica travaille en étroite collaboration avec Crédit Agricole Technologies sur le

choix des solutions qui poseront les bases d’une nouvelle référence d’architecture de

fabrication et d’exécution de systèmes orientés services.

1.4.3.2 NICE – CRM

La partie CRM (Customer Relationship Management) du projet NICE est née d’une

ambition forte exprimée par les Caisses Régionales autour de la relation client.

Destinée au marketing, elle a pour mission de mettre à disposition des CRs les

données et les outils, permettant d’améliorer la connaissance client et le Datamining.

Il s’agit de l’implémentation d’un nouveau CRM couvrant les fonctionnalités d’Etudes,

de Datamining et de Gestion des Contacts multicanaux.

Ce projet s’articule autour de 3 filières principales confiées à Logica :

Métier & Change, chargée de la conception, construction de la suite logicielle

de gestion de campagnes UNICA

Données&Interfaces et Etudes&Datamining, chargée de la conception, de la

construction du datasource Unica et de la solution SAS

Architecture technique, chargée de la conception des architectures projets et

de production, des tests de continuité applicative et de performances sur

l’architecture cible retenue, de la préparation à la mise en exploitation de la

solution

À cela s’ajoute une filière Pilotage chargée du pilotage du projet NICE-CRM, de

vérifier la cohérence de la conception du socle CRM, et de la production des

tableaux de bord de pilotage.

1.4.3.3 Le chantier Données&Interfaces et Etudes&Datamining

Ce chantier poursuit deux objectifs majeurs :

La constitution du socle de données pour l’environnement UNICA et pour

l’environnement études et datamining

La définition des usages et de la solution technique datamining

En corollaire, il a pour responsabilité de définir les expressions de besoins en termes

de données à destination du projet NICE – Datawarehouse.

RAPPORT DE STAGE 3EME

ANNEE INGENIEUR TCHIENGUE ELIANE

21

Ci-dessous l’organigramme de la filière :

Figure 11 : Organisation de la filière Données&Interface et Etudes&Datamining

1.4.3.4 Le chantier Etudes&Datamining

Le chantier Etudes&Datamining vise à mettre en place un outil innovant pour les

études et le datamining.

Cet outil devra prendre en compte une meilleure organisation et un accès simplifié

aux données. Cela permettra aux utilisateurs de passer plus de temps sur

l’interprétation des résultats des études et modèles datamining que sur leurs

développements.

1.4.3.5 Le partenariat Logica-Soft Computing

L’application mise en œuvre au cours du chantier Datamining sera utilisée par les

dataminers des 39 CRs comme principal outil de travail. Une expertise métier

datamining était donc nécessaire pour l’élaboration d’un outil adapté aux besoins des

futurs utilisateurs.

Soft Computing est une société de conseil et de services spécialisée en gestion de la

relation client, pilotage des performances et e-business.

Afin de répondre de façon efficace aux besoins du Crédit Agricole sur le chantier

Etudes&Datamining et au vu du savoir-faire de Soft Computing, Logica a souhaité

collaborer avec Soft Computing dans le cadre d’un partenariat.

Mon stage s’est déroulé au sein de l’équipe Datamining constituée de 5 personnes :

Une responsable projet et une experte SAS de Soft Computing

Une consultante et deux stagiaires de Logica.

RAPPORT DE STAGE 3EME

ANNEE INGENIEUR TCHIENGUE ELIANE

22

1.5 Observations personnelles

Mon stage s’est déroulé dans un contexte avec deux aspects particuliers :

C’est un stage en société de service

Je travaillais sur un chantier appartenant à un projet de grande envergure qui

débute

Les relations qui existent entre collaborateurs en société de service n’est pas de la

même nature que celles existantes entre collaborateurs d’un client final. En effet,

comme notre équipe travaillait dans les locaux du Crédit Agricole, je n’ai pas souvent

eu de contacts avec le siège de Logica mis à part pour des démarches

administratives.

Mon stage s’est déroulé dans le cadre d’un projet de refonte de système

d’information. Dans ce contexte, les acteurs sont le client (Crédit Agricole),

l’intégrateur (Logica) et l’éditeur (SAS).

Logica entretient des échanges réguliers avec le Crédit Agricole au fur et à mesure

de l’avancement du projet. Ces échanges sont primordiaux car ils permettent d’une

part de s’assurer de l’adéquation de la solution aux besoins du Crédit Agricole, et

d’autre part ils permettent de mettre en place des plans d’action en cas de dérives.

Néanmoins, les contacts entre Logica et SAS étaient faibles au début du projet. Ce

manque de communication a généré des retards pour la mise en place de la solution.

Cela m’a fait prendre conscience de l’impact de la communication sur le planning

d’un projet d’une telle envergure.

RAPPORT DE STAGE 3EME

ANNEE INGENIEUR TCHIENGUE ELIANE

23

1.6 Intégration au sein de l’entreprise

À mon arrivée chez Logica, j’ai tout de suite été rattachée à l’équipe datamining dans

laquelle les relations sont conviviales et très simples. Je n’ai donc pas eu de

difficultés à m’intégrer et à me sentir à l’aise.

Peu de temps après mon arrivée, j’ai assisté à une réunion d’accueil et un petit-

déjeuner organisés au siège de Logica. Cela m’a permis de faire connaissance avec

l’entreprise, de rencontrer d’autres stagiaires de Logica et de garder contact avec

eux.

RAPPORT DE STAGE 3EME

ANNEE INGENIEUR TCHIENGUE ELIANE

24

2 Le chantier Etudes&Datamining

2.1 Le datamining

Le datamining est l’ensemble des algorithmes et méthodes destiné à l’exploration et

l’analyse de grandes bases de données informatiques en vue de détecter dans ces

données des règles, des associations, des tendances inconnues (non fixées a priori),

des structures particulières restituant de façon concise l’essentiel de l’information

utile pour aider à la décision.

Le datamining peut être soit descriptif soit prédictif. Les techniques descriptives (ou

exploratoires) visent à mettre en évidence des informations présentes dans la base

de données mais cachées par son volume. Les techniques prédictives quant à elles

visent à détecter des comportements futurs à partir des informations présentes.

Appliquer les techniques de datamining aux données d’une entreprise permet à cette

dernière de mieux connaître ses clients. Cette connaissance client enrichie est très

utile pour le choix de la stratégie de l’entreprise.

2.2 Objectifs

Le chantier Datamining vise à développer et optimiser le chiffre d’affaire généré par

les clients de la banque en capitalisant sur une approche marketing relationnelle

fondée sur une exploitation optimisée de la connaissance client et sur une

optimisation des ciblages marketing.

2.3 Les données

Les caisses régionales disposent d’un certain nombre de données sur lesquelles

sont basées les études et les modèles datamining à destination du marketing.

Ces données proviennent de 5 datawarehouses correspondant aux 5 systèmes

d’information régionaux actuellement en production.

Le projet NICE vise à converger vers un seul système d’information donc vers un

unique datawarehouse. Des agrégats des données du datawarehouse seront

stockés dans le datamart Marketing et le datamart Etudes. L’applicatif datamining

sera ainsi connecté à ces sources de données représentées sur la figure ci-dessous :

RAPPORT DE STAGE 3EME

ANNEE INGENIEUR TCHIENGUE ELIANE

25

Figure 12 : Représentation simplifiée des données accessibles pour le datamining

RAPPORT DE STAGE 3EME

ANNEE INGENIEUR TCHIENGUE ELIANE

26

2.4 Les besoins et exigences du Crédit Agricole

Logica a reçu au préalable une expression de besoins du Crédit Agricole. Dans ce

document, la maîtrise d’ouvrage a exprimé les besoins et exigences du Crédit

Agricole quant aux fonctionnalités du futur outil.

Afin d’atteindre les objectifs visés par les caisses, l’outil devra permettre d’enrichir les

données comportementales clients et de mettre en place des études marketing et

statistiques élaborées.

Les caisses régionales du Crédit Agricole souhaitent donc disposer d’un outil

d’analyses statistiques destiné aussi bien aux experts du datamining qu’aux

décideurs métier. Il devra permettre de convertir les données brutes en informations

pertinentes grâce à des traitements totalement automatisés. Cette conversion passe

par la création, l’industrialisation et le pilotage des modèles statistiques et

datamining.

2.4.1 Les besoins fonctionnels

Les besoins du Crédit Agricole pour le chantier Etudes&Datamining couvrent 3

principaux axes fonctionnels :

Le Datamining (Techniques statistiques : scoring, segmentation, prévision,

modèles de durée ….) : les utilisateurs, majoritairement des statisticiens, font

des analyses complexes qui nécessitent l’accès à un environnement d’études

(données élémentaires et données agrégées).

Les études statistiques de fonds (Exemples : études réalisées en amont de la

partie CRM opérationnel, modification d’un barème crédit, score d’octroi) : les

utilisateurs ont également besoin d’accéder à un environnement d’études

Les études privatives réalisées par les caisses régionales : les utilisateurs

accèdent aux données pour effectuer du reporting ou des analyses,

éventuellement complétées par quelques données externes non disponibles

dans l’environnement d’études

En plus de couvrir ces besoins fonctionnels, l’outil devra mettre à disposition des

différents acteurs un référentiel de modèles permettant de mutualiser et de partager

les connaissances. Cependant, il doit pouvoir intégrer différents niveaux

d’organisation : national, régional et multi-régional.

2.4.2 Les exigences

Les exigences de la solution finale sont exprimées dans un cahier des charges établi

par Crédit Agricole. Ces exigences indiquent de façon précise les fonctionnalités

générales que doivent intégrer la solution de Logica.

RAPPORT DE STAGE 3EME

ANNEE INGENIEUR TCHIENGUE ELIANE

27

À partir de ces exigences formulées, des cas d’utilisation UML seront créés.

2.4.2.1 Construire un environnement dédié au datamining et

aux études pour chaque CR

L’objectif est de mettre à disposition de chaque CR une base spécifique, un espace

de liberté et des outils afin de développer des études et des modèles datamining en

CR. Cet environnement de données devra intégrer :

Un accès à toutes les données du datawarehouse (données élémentaires et

agrégées), du datamart études et du datamart marketing

La possibilité d’accéder à l’environnement de données échantillonné à la

demande, c’est à dire constitué d’un échantillon de tables filtrées sur une liste

de clients partenaires

Une historisation avec différentes profondeurs, granularités et fréquences de

mise à jour

Un accès à des données de sources spécifiques non partagées par les 39

CRs.

Une capacité de charger des données provenant de sources externes au

système d’information en CR

Un espace pour chaque CR destiné à effectuer des calculs spécifiques ou à

stocker des tables de travail intermédiaires

La mise en production des modèles dans l’environnement privatif de la CR.

Les résultats seront ainsi non visibles dans le système d’information

2.4.2.2 Construire un environnement pour les études et le

datamining communautaire

Le besoin d’environnement communautaire s’inscrit dans une démarche de

coopération souhaitée par les caisses régionales.

L’objectif est d’optimiser et de mutualiser les ressources afin que la connaissance

client et le datamining soient accessibles et diffusés dans l’ensemble des caisses

régionales.

L’outil devra prendre en compte une organisation au sein de laquelle chaque CR

choisira de fonctionner individuellement ou au sein d’une communauté d’intérêts

autour des études et du Datamining représentées par un Service Bureau. Au sein de

chaque communauté des coopérations peuvent également se former entre les

caisses régionales.

Les services bureau mettront à disposition des caisses régionales :

RAPPORT DE STAGE 3EME

ANNEE INGENIEUR TCHIENGUE ELIANE

28

Une organisation métier où sont priorisés les dossiers. Comités mettant en évidence les thématiques et outils à développer

Des études Marketing variées

Des modèles Datamining performants

Un pilotage et suivi de ces modèles

Une documentation exhaustive

Un accompagnement dans l’exploitation opérationnelle

Un SAV performant

Dans ce contexte, l’équipe communautaire est habilitée et accède aux données

des caisses régionales ayant optées pour ce Service Bureau. Ces données seront

utilisées pour créer les modèles ou études datamining pouvant servir à l’ensemble

des membres de la communauté.

La figure ci-dessous permet d’illustrer de façon simplifiée cette organisation.

Figure 13 : Organisation

L’environnement d’études communautaire couvrira le périmètre suivant :

L’ensemble des environnements d’études des CRs abonnées

Un environnement échantillonné au 1/10ème de l’ensemble des données du datawarehouse, du datamart étude et du datamart maketing

Des données provenant de sources externes au système d’information D’autre part, plusieurs autres aspects doivent être pris en compte quant à l’organisation d’un service bureau datamining (SBD) notamment la gestion de l’anonymat des données collectées auprès des CRs abonnées, l’accès à des données spécifiques non accessibles en CR et la mise en place de modèles paramétrable par les CRs.

RAPPORT DE STAGE 3EME

ANNEE INGENIEUR TCHIENGUE ELIANE

29

2.4.2.3 Créer des études ou des modèles datamining en CR

La plateforme technologique mise en place devra permettre de remplir toutes les

étapes de création d’études et modèles datamining notamment :

1. Les traitements et la préparation des données

2. L’échantillonnage

3. L’exploration statistique des données

4. La phase d’analyse et de modélisation

5. Le scoring

6. La validation

Aussi, devra-t-elle permettre la construction d’études en collaboratif au sein de la

caisse régionale. Une gestion des profils et habilitations pour la construction et la

mise à jour des modèles devra donc prise en compte.

La plateforme intègrera également la mise en production et la mutualisation des

modèles et études créés avec les documents associés dans un référentiel de

modèles.

2.4.2.4 Créer des études et des modèles datamining dans

l’environnement communautaire

Les modèles et études créés dans l’environnement communautaire sont destinés aux

caisses régionales. Ces modèles devront être mutualisés dans un référentiel

communautaire et les acteurs métier des caisses régionales devront être habilités et

informés de la mise à disposition des modèles.

Les modèles créés seront industrialisés sur l’ensemble de la population des CR

abonnées et les résultats seront stockés dans le SI.

2.4.2.5 Créer et gérer des profils et des habilitations

L’outil devra permettre de gérer différents profils utilisateurs avec des accès aux

données limités soit par caisse régionale, soit par métier, voir limités nominativement.

2.4.2.6 Généraliser les modèles sur l’ensemble des clients de

toutes les CRs

La plateforme permettra une industrialisation automatisée des modèles et la

génération de rapports d’exécution pour le contrôle.

Des alertes seront envoyées automatiquement au CRs concernées.

RAPPORT DE STAGE 3EME

ANNEE INGENIEUR TCHIENGUE ELIANE

30

2.4.2.7 Backtester, mesurer la performance et modifier si

nécessaire les modèles mis en production

Afin de garantir la fiabilité des modèles mis en production, l’outil devra permettre de

tester à une fréquence donnée, la performance et la pertinence des modèles.

2.4.2.8 Mise à disposition de calculs de scores en temps réel

Certains modèles pourront être appelés en temps réel par le CRM opérationnel ou

par les Scénarios de Vente.

Ces modèles seront exécutés en temps réels sur des clients ou prospects à partir de

données de contexte – données provenant de la banque en ligne, des distributeurs

automatiques, etc. – et provenant du datawarehouse.

Une mécanique devra donc être mise en place afin d’obtenir des temps de calculs

très courts.

2.5 Les solutions apportées

Suite à la rédaction de l’expression de besoin par Crédit Agricole, Logica a débuté la

phase de cadrage du chantier Datamining au cours de laquelle sont définis de

manière générale les usages couverts par le chantier et la solution proposée.

Le livrable est une note de cadrage qui fera office de spécification fonctionnelle

générale.

2.5.1 Les usages couverts par le chantier Etudes&Datamining

Afin d’améliorer la connaissance client, trois principaux axes d’amélioration en

termes d’usages sont visés au cours du projet notamment :

La vision client 360°, multicanal, qui vise à rassembler l’ensemble des

données dispersées dans les systèmes d’information associées à un client

afin d’avoir une vision unique.

Le cycle de vie client, qui permet de positionner le client au centre de la

relation afin de l’accompagner dans l’évolution de ses besoins et de créer de

la valeur.

L’enrichissement des données, qui vise à mettre à disposition des acteurs

métier des données suffisamment riches leur permettant de réaliser des

études larges.

On distingue trois usages distincts : les études, le datamining et le pilotage.

RAPPORT DE STAGE 3EME

ANNEE INGENIEUR TCHIENGUE ELIANE

31

2.5.2 Les études

Définition et enjeux

Au sein de la banque, les études marketing permettent d’expliquer des phénomènes

simples ou complexes et d’analyser le comportement des clients et de leur

environnement (relation bancaire, canaux…). Cela diffère du datamining qui permet

d’anticiper, de prédire et d’optimiser les comportements client en utilisant des

techniques statistiques de type scoring, segmentation, prévision, modèles de durée

de vie, etc.

Méthodologie de réalisation d’une étude

1. Cadrage de l’étude

Identification des besoins

Définition des concepts

2. Construction de la plateforme d’études ou base de travail

Transformation des données en indicateurs métiers pertinents

Description comportementale, attitudinale de chaque client

3. Analyse des comportements clients

Analyse des comportements clients / profiling

Construction des indicateurs, tableaux de bord, graphiques, cibles

marketing, etc.

4. Exploitation

Recommandations d’actions ou de stratégies à mettre en œuvre

Identification des cibles ou des processus à améliorer

Suivi et bilan des actions mises en œuvre

2.5.3 Le datamining

Différentes techniques datamining sont actuellement utilisées communément par les

39 caisses régionales :

Score d’appétence

Segmentation stratégique ou distributive

RAPPORT DE STAGE 3EME

ANNEE INGENIEUR TCHIENGUE ELIANE

32

Scores comportementaux ou de potentiel

Scores d’attrition

Néanmoins, afin d’atteindre la vision cible, de nouvelles techniques doivent être

mises en œuvre pour le socle commun notamment :

Les segmentations comportementale et relationnelle

La durée de vie client

La valeur client

Le textmining

Le webmining

L’analyse de réseaux sociaux

Des techniques de simulation et de scoring dynamique, appliquées par Crédit

Agricole sont également à prendre en compte pour la solution.

Ces usages sont détaillés dans l’annexe (voir l’annexe « 1. Les usages du

datamining ».

2.5.4 La solution technique retenue

Afin de couvrir tous les usages du datamining, la technologie retenue sera constituée

de modules de la plateforme SAS BI 9.2 et du SGBD Teradata.

2.5.4.1 La plateforme SAS BI 9.2

Crédit Agricole a choisi la plateforme SAS BI 9.2 pour répondre aux besoins des

dataminers du Crédit Agricole.

Cette plateforme est dans un premier temps installée sur un environnement de test

appelée Dev TU Alpha (Développement Test Unitaire Version Alpha).

C’est sur cet environnement que nous effectuons tous les tests pour définir la

solution technique et les maquettes livrées à l’issue de la phase de conception

détaillée.

Les modules disponibles sont :

SAS Enterprise Miner et SAS Text Miner

SAS Customer Link Analytics

SAS Enterprise Guide

SAS Model Manager

SAS Management Console

RAPPORT DE STAGE 3EME

ANNEE INGENIEUR TCHIENGUE ELIANE

33

2.5.4.1.1 Enterprise Miner et Text Miner

Enterprise miner est doté d’une interface graphique destinée à simplifier la

construction des processus datamining composés d’enchaînement d’icônes

préparamétrées. Chaque icône représente une des différentes étapes de toute

analyse datamining : préparation des données, visualisation exploratoire par des

graphiques, création de plusieurs modèles et choix du plus adapté, avec une

documentation des paramètres choisis.

Text Miner est une solution de textmining intégrée dans le module Enterprise Miner.

Text Miner permet l’extraction, l’exploration et l’analyse de données textuelles sous

différents formats : PDF, texte ASCII, HTML, feuilles de calcul, présentations, e-

mails, bases de données etc.

2.5.4.1.2 Customer Link Analytics

Ce module est la solution d’analyse de réseaux sociaux de SAS. Il permet d’identifier

des communautés sociales en fonction des interactions entre les clients, de mesurer

et de segmenter ces derniers d'après leur influence sociale, et de les cibler selon

l'évolution de leurs communautés sociales.

2.5.4.1.3 Enterprise Guide

Enterprise Guide est une interface graphique permettant de gérer le développement

et l’exécution de programmes SAS.

2.5.4.1.4 Model Manager

Model Manager est un référentiel centralisé pour la gestion des modèles analytiques.

Model Manager est destiné à répondre aux besoins fonctionnels suivants :

- La mutualisation centralisée des modèles analytiques

- L’administration sécurisée et fiable du stockage et de l’accessibilité des

modèles

- La gestion du cycle de vie des modèles

- La gestion du versionning de production

- Le contrôle de performance des modèles mis en production

2.5.4.1.5 Management Console

C’est la console d’administration de toute la plateforme SAS. Elle permet de gérer

l’ensemble des objets, serveurs et utilisateurs. Ce module est surtout utilisé pour

gérer les droits d’accès aux données et les habilitations des utilisateurs de la

plateforme SAS.

RAPPORT DE STAGE 3EME

ANNEE INGENIEUR TCHIENGUE ELIANE

34

2.5.4.2 Environnement d’études

Pour le thème de l’environnement d’études, le chantier Datamining apporte les

solutions techniques pour les référentiels des modèles, les espaces privatifs et de

travail.

Figure 14 : Technologies de l’environnement d’études

L’environnement d’études est l’environnement de données auquel sera connecté

l’applicatif. Il comprend :

Les espaces de travail : Chaque dataminer disposera d’un espace de travail

sur le serveur SAS dans lequel il construira ses modèles via SAS Enterprise

Miner et SAS Guide.

Les espaces privatifs : Ce sont des espaces de stockage communs pour les

dataminers appartenant à une même CR, un même SBD ou une même

coopération. Ces espaces sont des bases de données TERADATA où seront

stockées les tables créées par les dataminers. Ces tables seront accessibles

via les modules SAS Enterprise Miner et SAS Guide.

RAPPORT DE STAGE 3EME

ANNEE INGENIEUR TCHIENGUE ELIANE

35

Les bibliothèques : Le référentiel des modèles sera géré par le module SAS

Model Manager.

Les données élémentaires, Datamart Etudes et Datamart Marketing : Ce sont

des données élémentaires et agrégées provenant du datawarehouse. À ce

jour, le SGBD qui sera utilisé pour ces données n’a pas encore été choisi. Le

choix se fera entre DB2 et TERADATA.

2.5.4.3 Cycle de vie des modèles

La mise à disposition d’un modèle datamining passe par 2 phases : la construction

du modèle et le déploiement.

2.5.4.3.1 Construction d’un modèle ou étude

La construction des modèles se fera avec SAS Enterprise Miner et SAS Guide. À

travers ces interfaces, les dataminers auront accès aux données de l’environnement

d’études.

Figure 15 : Construction d’un modèle ou étude

2.5.4.3.2 Déploiement

La phase de déploiement consiste à intégrer les règles de scores dans le module

d’industrialisation et à les appliquer à l’ensemble des clients du périmètre d’étude.

Une fois la phase de conception du modèle terminée, le dataminer fait une demande

d’industrialisation à l’aide d’un formulaire généré par un processus stocké en

programme SAS. Le dataminer renseigne des informations indispensables à

l’industrialisation du modèle telles que : la date d’industrialisation, la périodicité de

lancement, le périmètre de déploiement etc.

Ensuite, le programme SAS du modèle est encapsulé par un script batch et exécuté

par un ordonnanceur.

RAPPORT DE STAGE 3EME

ANNEE INGENIEUR TCHIENGUE ELIANE

36

2.5.4.4 Pilotage des modèles

Une fois les modèles validés et déployés sur l’ensemble de la population, la phase

de surveillance débute. Dans cette phase, des indicateurs statistiques, tableaux de

bord ou graphiques sont mis en place afin de suivre la performance et la robustesse

du modèle.

À chaque mise à jour du modèle, ils seront analysés et comparés au modèle initial

pour identifier toutes dérives (structure de la population, baisse de discrimination des

variables, changement de comportement de la cible, etc.).

Dès lors qu’une dérive apparait, les impacts sont évalués et une recommandation sur

le devenir du modèle doit être faite. Plusieurs niveaux d’intervention pourront être

préconisés : une mise sous surveillance accrue, un ajustement voire une refonte

totale du modèle.

Figure 16 : Les étapes de la surveillance des scores

Lorsque qu’un modèle est créé, le dataminer concepteur du modèle met en place un

programme SAS qui permettra d’effectuer le backtesting du modèle afin d’en

surveiller la performance et la robustesse. Ce programme va générer

automatiquement des rapports de backtesting.

Voici quelques exemples de types d’analyses ou indicateurs présents dans l’étape

de backtesting de la mise sous surveillance :

Stabilité

Structure de la population (analyse des profils par variables et

modalités des variables entrant dans le modèle).

Ventilation des clients par décile.

Analyse des variables composant chaque décile.

Performance

RAPPORT DE STAGE 3EME

ANNEE INGENIEUR TCHIENGUE ELIANE

37

Analyse de la variable expliquée.

Exemple de restitution :

Courbe de concentration, courbe de liftc, GINI ou AR

Figure 17 : Exemple d’analyse de la variable expliquée

Ventilation des taux de cible par décile

Figure 18 : Exemple d’analyse de la variable expliquée : Ventilation des taux de cible par décile

Ces rapports ainsi généré seront stockées dans un répertoire accessible aux acteurs

métier.

D’autre part, les utilisateurs auront la possibilité de générer des rapports de manière

ponctuelle avec le module SAS Model Manager.

RAPPORT DE STAGE 3EME

ANNEE INGENIEUR TCHIENGUE ELIANE

38

2.6 Organisation

Pour mener à bien le projet NICE-CRM, les équipes chantiers de Logica appliquent

une méthodologie de gestion de projet appelé CAgile inspirée des méthodes Agiles.

Par définition, une méthode Agile est une approche itérative et incrémentale, qui est

menée dans un esprit collaboratif. L’évolution des besoins du client est prise en

compte tout au long du projet.

2.6.1 La méthode CAgile du Crédit Agricole

2.6.1.1 Approche classique

Avec une méthodologie de gestion de projet traditionnelle, le produit est initialement

pensé lors d’une phase de conception. Ensuite, lors de la phase de développement,

il est mis en œuvre. Enfin, le produit est testé techniquement et fonctionnellement

lors de la phase de recette.

La phase de développement qui est parfois très longue, ne permet pas une visibilité

sur l’avancement du projet. C’est un effet tunnel qui peut être dommageable et

causer des dérives en termes de délais, budget et adéquation du produit livré avec la

conception initiale.

Figure 19 : Approche d’une méthodologie de gestion de projet traditionnelle

2.6.1.2 Approche CAGILE

La méthodologie CAGILE donne une approche itérative incrémentale de construction

d’un produit visible.

Figure 20 : Approche d’une méthodologie de gestion de projet Agile

RAPPORT DE STAGE 3EME

ANNEE INGENIEUR TCHIENGUE ELIANE

39

À chaque itération, il y a une phase de conception, de développement et de tests.

Cette démarche permet de lever les risques au plus tôt dans le projet et de valider

progressivement les spécifications par des démonstrations lors de chaque itération.

2.6.1.3 Les uses cases

Les cas d’utilisation décrivent sous forme d’actions/réactions le comportement du

système du point de vue d’un utilisateur. Ils permettent de modéliser les

fonctionnalités de l’outil et les plus-values métier attendues par un acteur qui utilise

l’applicatif, au regard de l’entreprise.

Figure 21 : Use Case

Avec la méthodologie CAgile, des diagrammes de uses cases sont mis en place

durant la phase de conception afin de donner une vision globale du comportement

fonctionnel du futur outil et de l’environnement associé.

Figure 22 : Exemple de diagramme de uses cases

RAPPORT DE STAGE 3EME

ANNEE INGENIEUR TCHIENGUE ELIANE

40

Un cas d’utilisation peut être abouti en passant par des chemins différents. Ces

enchaînements sont modélisés dans un scénario de uses cases.

Un scénario représente toutes les étapes des enchaînements de façon à partir du

début du use case et d’aboutir à une fin, qu’elle soit normale ou non.

Le tableau ci-dessous représente les informations contenues dans un scénario :

Contexte d’utilisation <Formulation plus longue de l’objectif, si nécessaire>

Acteur principal <Nom de rôle de l’acteur principal ou description>

Pré-condition <Condition(s) devant être réalisée(s) pour que le cas d'utilisation puisse s'exécuter>

Garanties minimales <En cas d'échec fonctionnel d'exécution du cas d'utilisation, quel est le résultat minimum atteint?>

Garanties si succès <Ce qui à changé au niveau du système si l’objectif est rempli>

Déclencheur <Ce qui démarre le cas d’utilisation ; peut être un événement temporel>

Description de l'enchainement nominal

Cas nominal Etape Action

1

<Etapes de l'enchainement nominal depuis le déclenchement jusqu’à la réalisation de l’objectif>

2

Variante(s) fonctionnelle(s) Variante(s) Action

Une variante fonctionnelle est une

ramification qui part d'une étape de

l'enchainement nominal sous une

condition (condition de

débranchement)

3a

Variante

commençant à

l'étape 3 du cas

nominal

<Condition provoquant la ramification>

1 <Etape(s) qui suit le point de débranchement>

2

Exigence(s) fonctionnelle(s)

Exigence(s) non fonctionnelle(s)

Figure 23 : Tableau du scénario d’use case

Voici la représentation graphique d’un scénario :

RAPPORT DE STAGE 3EME

ANNEE INGENIEUR TCHIENGUE ELIANE

41

Figure 24 : Représentation graphique du scénario d’un use case

2.6.1.3.1 Phase de cadrage et de spécifications

fonctionnelles générales

La phase de cadrage comprend une étape d’analyse des besoins et exigences

généraux de la maîtrise d’ouvrage. Il est nécessaire de s'assurer que ces besoins

correspondent à l’attente de l'ensemble des utilisateurs cibles et qu'ils prennent en

compte les évolutions probables des besoins.

Le livrable, matérialisé par une note de cadrage, donne une vision globale de la

solution aux membres de l’équipe projet. Il s’appuie sur les comptes-rendus

d’ateliers, consolide les définitions et décrit les axes structurants ainsi que le

périmètre du projet.

Aussi, la note de cadrage comprend des diagrammes de uses cases qui donnent

une réponse générale aux exigences de l’expression de besoins.

2.6.1.3.2 Phase de spécifications fonctionnelles détaillées

Au cours de cette étape, les processus métiers modélisés lors de la phase de

cadrage sont affinés. Les solutions apportées sont validées et des cas d’utilisations

sont identifiés afin de définir le comportement fonctionnel du futur outil et de

l’environnement d’études associé.

Le livrable est ainsi constitué des diagrammes et scénarios des cas d’utilisations

ainsi que de leurs descriptions détaillées.

2.6.2 Les thèmes des solutions apportées

Les solutions apportées au Crédit Agricole sont traitées par thèmes qui sont les

suivants :

Les bibliothèques

Les droits d’accès

Le cycle de vie des modèles

RAPPORT DE STAGE 3EME

ANNEE INGENIEUR TCHIENGUE ELIANE

42

Le pilotage des scores

Processus, rôles et responsabilités

Environnement d’études

Reprise des modèles

Accompagnement au changement

2.6.3 Planning et livrables

Mon arrivée dans l’équipe coïncidait avec la fin de la phase cadrage. Ainsi, j’ai

commencé par lire la note de cadrage afin de comprendre les objectifs du projet, les

usages définis pour le dataming et la solution générale proposée.

Il fallait compléter la version finale de la note de cadrage avec des diagrammes de

uses cases répondant aux exigences de l’expression de besoins du Crédit Agricole. Il

m’a été confié de concevoir ces diagrammes de uses cases, ce qui m’a permis de

bien intégrer les besoins du Crédit Agricole.

le

Figure 25 : Planning simplifié du projet datamining

Lors des ateliers aller de la phase de conception détaillée la chef de projet et une

consultante présentaient au Crédit Agricole les solutions que nous proposions afin

qu’elles soient validées. Ces ateliers constituaient des échanges indispensables

entre Logica et Crédit Agricole car ils permettaient de s’assurer que notre vision cible

était la même que celle des futurs utilisateurs.

RAPPORT DE STAGE 3EME

ANNEE INGENIEUR TCHIENGUE ELIANE

43

3 Un stage orienté conseil en système d’information

L’équipe datamining Logica a pour mission principale d’assister le Crédit Agricole sur

l’intégration et le déploiement de la solution informatique la mieux adaptée pour le

datamining.

Au cours de ce stage, impliquée au même titre qu’une consultante, je suis intervenue

dans un premier temps sur la fin de la phase de cadrage pour l’élaboration des uses

cases. Ensuite, lors de la phase de conception détaillée, j’ai participé à la préparation

des supports des ateliers avec la mise en place de maquettes et de tests sur la

plateforme SAS. Enfin, j’ai modélisé les scénarios des différents cas d’utilisation du

futur outil qui seront intégrés dans la spécification fonctionnelle détaillée.

Dans cette partie, je vais détailler les principales tâches que j’ai accomplies au cours

du projet.

3.1 Phase de spécification fonctionnelle générale – Cadrage

Mon travail consistait à reprendre les exigences faites par le Crédit Agricole dans

l’Expression de Besoins et à modéliser les cas d’utilisation UML qui en découlent.

Ce fut un travail d’analyse et de synthèse étant donné que je débutais cette tâche

lorsque la spécification fonctionnelle détaillée était terminée.

Pour chacune des exigences, j’ai commencé par trouver et analyser les briques

fonctionnelles que cela comporte. Ensuite, en fonction des usages définis durant la

phase de cadrage, j’ai pu imaginer les interactions entre l’utilisateur et le système.

Cette démarche nécessitait également des recherches sur le fonctionnement que

pourrait avoir l’application d’un point de vue technique.

À titre d’exemple, voici comment j’ai traité l’exigence « Créer et gérer des profils et

habilitations ».

Exigence : Créer et gérer des profils et habilitation

L’accès aux données se fera par mode d’habilitation en lien avec les annuaires

LDAP (Lightweight Directory Access Protocol) du groupe Crédit Agricole.

Etant donné la confidentialité des informations manipulées, les accès aux ressources

de l’applicatif devront être sécurisés. Notamment en ce qui concerne :

Les données élémentaires et agrégées

Les bibliothèques de modèles

Les espaces privatifs

Les espaces de travail

RAPPORT DE STAGE 3EME

ANNEE INGENIEUR TCHIENGUE ELIANE

44

On distingue trois niveaux de granularité en termes de droits d’accès aux données :

SBD, Coopération et CR (voir figure 13).

Afin de gérer les droits d’accès, la plateforme SAS sera connectée à des vues des

tables du DWH et des datamarts.

Pour une table donnée, on effectuera des vues par CRs, par coopération et par SBD.

Ainsi l’utilisateur aura accès aux données par des vues en fonction de son profil de

connexion :

Figure 26 : Accès aux données via la plateforme SAS

On distingue les données issues du datawarehouse et les données des espaces

privatifs.

L’utilisateur d’une CR n’accède qu’aux données de sa CR et éventuellement à celles

des CRs de sa coopération.

Le dataminer du SBD a les droits d’accès aux données de toutes les CRs de sa

communauté.

RAPPORT DE STAGE 3EME

ANNEE INGENIEUR TCHIENGUE ELIANE

45

Figure 27 : Accès aux données des CRs

Comme l’accès aux données se fera via la plateforme SAS, j’ai d’abord commencé

par faire des recherches sur le fonctionnement de l’applicatif en ce qui concerne la

gestion des droits et des habilitations.

En fonction des usages, j’ai donc imaginé une organisation de gestion de profils et

habilitations pour le système. J’ai modélisé cela dans un diagramme de uses cases

(voir l’annexe « 2. Spécification générale : Créer et gérer des profils et habilitations

»).

Ce diagramme donne une vision globale de l’organisation du système pour la gestion

des droits.

RAPPORT DE STAGE 3EME

ANNEE INGENIEUR TCHIENGUE ELIANE

46

3.2 Phase de conception détaillée

La phase de conception détaillée se déroule en trois étapes :

Les ateliers aller

La rédaction des spécifications fonctionnelles détaillées

Les ateliers retour

J’ai été présente toute la période des ateliers aller et au début de la rédaction des

spécifications fonctionnelles détaillées.

Les supports des ateliers contenaient la description des fonctionnalités de l’outil

autour du thème de l’atelier et des démonstrations de la solution technique retenue.

La préparation d’un atelier commençait par une réunion d’équipe durant laquelle on

revenait sur les principaux volets fonctionnels liés au thème de l’atelier et les points

bloquants. Cette réunion permettait de mutualiser et consolider nos idées afin de

proposer des solutions adaptées.

Ensuite, les sujets à traités étaient listés et dispatchés entre les membres de

l’équipe.

Je vais présenter ci-dessous des exemples de sujets que j’ai traités.

3.2.1 Processus : Temps réel

L’outil devra permettre le calcul de scores appelables en temps réel. Par exemple, un

client qui se connecte sur le canal de la banque en ligne et renseigne un formulaire

déclenche le calcul d’un score. Ce score est calculé en utilisant les données de

contexte que le client a communiquées et en fonction du résultat un message lui est

renvoyé.

Voici un schéma simplifié du processus d’appel d’un score en temps réel :

RAPPORT DE STAGE 3EME

ANNEE INGENIEUR TCHIENGUE ELIANE

47

Figure 28 : Schéma de l’appel d’un score en temps réel

Pour préparer cet atelier, voici l’exemple de deux sujets à traités qui m’ont été

confiés :

La présentation du langage PMML (Predictive Model Markup Language) et

son utilisation dans les bases de données DB2 et TERADATA pour l’exécution

de scores SAS

Le contrôle et la gestion des rejets

3.2.1.1 Sujet 1 : Présentation du langage PMML

Le PMML est un langage descriptif, basé sur du XML. Il permet d’exporter des

modèles datamining et de les exécuter sur des tables de bases de données.

RAPPORT DE STAGE 3EME

ANNEE INGENIEUR TCHIENGUE ELIANE

48

Figure 29 : Portage d’un modèle en PMML

Dans le cadre de l’atelier, j’ai préparé un support de présentation sur l’exécution des

modèles PMML dans une base de données. Il a fallut également que je fasse des

recherches sur les types de modélisation supportés par ce langage en fonction des

éditeurs et des versions des logiciels.

L’objectif était de s’assurer que le PMML supporte tous les modèles de scores qui

seront effectués en temps réel.

3.2.1.2 Sujet 2 : Le contrôle et la gestion des rejets

Le processus d’exécution d’un modèle en temps réel nécessite un certain nombre de

contrôles afin de vérifier la validité du flux de données et de garantir la performance

et la robustesse du système.

Le schéma ci-dessous représente le processus de contrôle et de gestion des rejets

que j’ai mis en place :

RAPPORT DE STAGE 3EME

ANNEE INGENIEUR TCHIENGUE ELIANE

49

Figure 30 : Processus de contrôles et de gestion des rejets

3.2.2 Cycle de vie des modèles

Pour l’atelier Cycle de Vie, j’ai préparé les sujets suivants :

Envoi automatique de mails à la mise à jour d’un modèle

Le template Cycle de Vie de Model Manager

3.2.2.1 Sujet 1 : Envoi automatique de mails à la mise à jour

d’un modèle

Un modèle est mis à jour avec une fréquence définie à sa conception. À chaque mise

à jour, un rapport de déploiement est envoyé au dataminer concepteur du modèle

afin qu’il vérifie les nouvelles notes. Ensuite, le dataminer envoie un mail aux

utilisateurs du modèle pour les tenir informés de la mise à jour.

Pour répondre à ce besoin, j’ai créé la maquette d’une application stockée SAS.

Cette application stockée est un programme qui sera exécuté par le responsable

datamining à chaque validation. Ce programme enverra un mail automatiquement à

une liste d’utilisateurs définie dans le programme.

RAPPORT DE STAGE 3EME

ANNEE INGENIEUR TCHIENGUE ELIANE

50

Figure 31 : Exemple d’application stockée

3.2.2.2 Sujet 2 : Le template Cycle de Vie de Model Manager

La gestion du cycle de vie des modèles se fera avec SAS Model Manager.

Dans le cadre de l’atelier, j’ai fais des tests sur Model Manager afin de vérifier si

l’outil répond bien aux besoins concernant la gestion du cycle de vie.

La création d’un cycle de vie nécessite de définir des jalons et des tâches associés à

des participants. Aussi, on peut définir des dépendances entre les tâches et

également leur associer des poids.

3.2.3 Scénarios des uses cases

Les fonctionnalités du futur outil sont modélisées sous la forme de cas d’utilisation. Il

m’a été confié de mettre en place les scénarios de ces cas d’utilisation qui seront

inclus dans le document de spécifications fonctionnelles détaillées.

Exemple du scénario d’un use case :

Contexte

d'utilisation Créer un échantillon à la demande

Acteur principal Métier

Pré-condition Avoir sélectionné les identifiants Partenaires ou Client Commercial

ainsi que leur CR sur lesquels on souhaite baser l’échantillonnage.

RAPPORT DE STAGE 3EME

ANNEE INGENIEUR TCHIENGUE ELIANE

51

Garanties

minimales

Chaque dataminer peut sélectionner des données de l’environnement

d’études sur un périmètre qu'il a déterminé

Garanties si succès Diminution des temps de traitements dans l’étape de préparation des

données

Déclencheur Nouveaux modèles ou études à réaliser sur un sous-ensemble de la

population globale

Description de

l'enchainement

nominal

Cas

nominal Etape Actions

1

Créer la table des Partenaires ou Client

Commercial avec leur CR selon les critères de

l'échantillonnage

2 Lancer le formulaire pour l'échantillonnage à la

demande

3

Remplir les paramètres demandés par le

formulaire (Liste des tables, leurs colonnes…) et

exécuter

Variante(s)

fonctionnelle(s) Variante(s) Etape Actions

Exigence(s)

fonctionnelle(s)

Créer des études (ex : comportementales) sur la base d'échantillons de

clients

Exigence(s) non-

fonctionnelle(s)

Figure 32 : Description textuelle des scénarios d’un use case

Figure 33 : Scénario d’un use case

RAPPORT DE STAGE 3EME

ANNEE INGENIEUR TCHIENGUE ELIANE

52

3.3 Auto-évaluation et difficultés

Afin de m’assurer que j’étais sur la bonne voie dans mon travail, j’ai fait des points

réguliers avec une consultante de l’équipe.

Mon stage s’étant déroulé dans la phase de conception du projet, il fallait

régulièrement imaginer et affiner la solution. Ma principale difficulté a été d’arriver à

prendre suffisamment de recul pour arriver à proposer des solutions sur des

problématiques architecturales.

3.4 Le stage dans la formation

Pendant ce stage, il a fallu concevoir l’outil final en prenant en compte les besoins

des utilisateurs métiers qui sont des dataminers, statisticiens et chargés d’études afin

qu’il soit adapté à leur utilisation.

Ainsi, les cours de statistiques, intelligence artificielle et datamining suivis en

deuxième et troisième année m’ont été d’une grande utilité pour comprendre les

besoins fonctionnels des utilisateurs. Les cours de bases de données,

programmation SAS et UML m’étaient également utiles pour effectuer les tests sur la

plateforme SAS et pour la modélisation des uses cases.

Grâce à cette expérience, j’ai acquis des connaissances en architecture applicative

SAS et en méthodologie de gestion de projet Agile.

RAPPORT DE STAGE 3EME

ANNEE INGENIEUR TCHIENGUE ELIANE

53

4 Bilan

4.1 Bilan du projet

Ma mission sur le projet datamining a pris fin le 30 août 2011, lorsque les membres

de l’équipe commençaient la rédaction du document de spécifications fonctionnelles

détaillées. À ce jour, la phase de conception n’est pas encore terminée. Les

développements débuteront en octobre 2011. Il est donc difficile de faire un bilan du

projet aujourd’hui.

Suite à cette phase de conception, on prévoit une phase de développement plus

longue que prévue au démarrage du projet. En effet, des développements

supplémentaires sont à effectuer en complément de la solution technique SAS Model

Manager.

4.2 Bilan du travail en équipe

Dans ce projet, le travail en équipe tenait une place importante car il y avait

régulièrement des points bloquants à traiter. Pour ce faire, les membres de l’équipe

étaient amenés à réfléchir ensemble lors d’une réunion afin de partager les idées. Je

pense que cela a été très bénéfique pour le projet car la plupart des problèmes ont

été résolus suite à des réunions de ce type.

4.3 Bilan personnel

Ce stage m’a permis d’avoir une première expérience dans la phase de conception

d’un système d’information. J’ai pu prendre connaissance de l’impact de la

communication et du travail en équipe sur l’avancement d’un tel projet. J’ai beaucoup

appris grâce à l’expertise de mes collègues et à mes recherches personnelles.

RAPPORT DE STAGE 3EME

ANNEE INGENIEUR TCHIENGUE ELIANE

54

Conclusion

Le Crédit Agricole s’est engagé dans une démarche stratégique d’optimisation de

ses technologies informatique.

Par exemple pour la partie datamining, demain les utilisateurs auront à leur

disposition des données très riches sur les clients et un outil d’optimisation puissant.

Cette vision 360° des clients apportera au Crédit Agricole un avantage indéniable

face à ses concurrents sur le marché.

Ce stage a été une opportunité pour le début de ma carrière. J’ai eu la possibilité de

participer à un projet vaste et innovant en ayant à la fois une approche fonctionnelle

et technique.

Cela a suscité en moi le souhait de débuter ma carrière professionnelle sur un projet

d’intégration ou de maintenance d’un système d’information décisionnel.

RAPPORT DE STAGE 3EME

ANNEE INGENIEUR TCHIENGUE ELIANE

55

Annexe

1. Spécification générale : Créer et gérer des

profils et habilitations

Pour la gestion des profils et habilitations, trois termes sont à définir :

Habilitations : Les habilitations sont des permissions d’accès à des données, outils, …

Exemples :

- lecture des données de la CR Ile de France - lecture des modèles enregistrés dans la bibliothèque communautaire - écriture dans la bibliothèque générique - …

Groupes : Chaque groupe est associé à une ou plusieurs habilitations. Le but est de rassembler

des utilisateurs afin de leur attribuer des droits communs.

Exemple :

- CR Ile de France - Administrateur MOA - Dataminers - Chargé d’études - …

Utilisateurs : Ce terme regroupe toute entité devant interagir avec le système. L’utilisateur est

reconnu par un numéro unique. Un utilisateur appartient à un ou plusieurs groupes.

Exemple de combinaisons possibles :

RAPPORT DE STAGE 3EME

ANNEE INGENIEUR TCHIENGUE ELIANE

56

Paul Smith est un dataminer de la CR Centre France. Il peut donc accéder

seulement aux données de sa CR et dispose, de plus, des droits d’accès courants

accordés aux dataminers.

Diagramme de cas d’utilisation :

La MOA est responsable de la spécification des groupes et des habilitations. La prise

en charge technique de ces spécifications se fera par la MOE. Lorsqu’un utilisateur

fait une demande de droits d’accès, il l’adresse à son responsable hiérarchique.

Après validation, celui-ci se chargera de transmettre la demande auprès de la MOE.

Pour mener à bien ce traitement, les prochaines étapes de la spécification technique

détaillée seront de :

RAPPORT DE STAGE 3EME

ANNEE INGENIEUR TCHIENGUE ELIANE

57

- Recenser les différentes briques fonctionnelles sur lesquelles des droits différents doivent être associés.

- Recenser les différents métiers susceptibles d’utiliser tout ou partie des outils Ainsi, les listes des groupes et des habilitations pourront être créées.

RAPPORT DE STAGE 3EME

ANNEE INGENIEUR TCHIENGUE ELIANE

58

2. Les usages du datamining

Définitions et enjeux

Le datamining est l’ensemble des algorithmes et méthodes destiné à l’exploration et

l’analyse de grandes bases de données informatiques en vue de détecter dans ces

données des règles, des associations, des tendances inconnues (non fixées a priori),

des structures particulières restituant de façon concise l’essentiel de l’information

utile pour aider à la décision.

Le datamining est un processus de gestion et de valorisation de l’information au

service de l’entreprise. Il doit permettre de :

Décrire un phénomène (client,…)

Comprendre ce phénomène (relations, dépendances)

Modéliser (abstraire le phénomène dans un modèle)

Prédire (anticiper sur de nouvelles données à l’aide du modèle)

Techniques statistiques du socle commun

Score d’appétence

Le score d’appétence permet d’identifier des critères discriminants de l’appétence

d’un client. Il peut porter sur un produit, un canal, une offre...

Sa finalité étant d’augmenter le PNB de la banque, à travers une stratégie de

marketing différenciée, déclinée sur les axes :

RAPPORT DE STAGE 3EME

ANNEE INGENIEUR TCHIENGUE ELIANE

59

Ventes croisées et additionnelles : augmentation de la valeur client par

l’accroissement des ventes (croisées ou additionnelles)

Optimisation de la rentabilité / ROI des campagnes : augmentation des taux de

remontée des campagnes

Segmentation stratégique ou distributive

La segmentation stratégique permet de disposer d’une première approche

segmentée (regroupement de premier niveau) de la clientèle.

Par exemple, la segmentation distributive CASA est basé sur une notion de stock et

de flux.

Exemple de segmentation stratégique :

Figure 34 : Exemple de segmentation stratégique

Scores comportementaux ou de potentiel

Les scores comportementaux ou de potentiel donnent la vision du potentiel du client

en analysant son comportement bancaire sur les axes crédit, épargne et/ou banque

au quotidien… (taux d’équipement, encours,..).

RAPPORT DE STAGE 3EME

ANNEE INGENIEUR TCHIENGUE ELIANE

60

L’identification du potentiel du client est au cœur de la connaissance client. Le

conseiller doit pouvoir adapter son offre et sa communication en fonction de ce

potentiel.

Scores d’attrition

Les scores d’attrition anticipent le départ d’un client vers un concurrent par l’analyse

et la détection des comportements précurseurs de la résiliation.

Les scores d’attrition interviennent, entre autres, dans les programmes de gestion de

l’attrition afin de proposer au client un discours adapté à ses attentes en termes

d’offres, de tarifs, etc.

Techniques à mettre en œuvre afin d’atteindre

la vision cible

Segmentation comportementale et relationnelle Segmentation comportementale : Elle rassemble des clients semblables en termes d’habitudes et usages dans leur comportement bancaire. L’analyse du comportement du client est déclinée, entre autre, sur les axes épargne, crédit, banque au quotidien afin de dégager des comportements homogènes. La segmentation comportementale est une brique majeure dans les plans d’actions

marketing. En effet, la segmentation identifie des groupes de clients homogènes en

termes de besoins et attentes.

Exemple de segmentation comportementale :

RAPPORT DE STAGE 3EME

ANNEE INGENIEUR TCHIENGUE ELIANE

61

Figure 35 : Exemple de segmentation comportementale

La segmentation comportementale permet d’avoir une communication différenciée

auprès des clients.

Dans l’exemple, ci-dessus, des plans d’actions différenciés peuvent être déployés

sur les clients selon leur groupe (à fidéliser, à redécouvrir, à conquérir, etc.).

Segmentation relationnelle :

La segmentation relationnelle permet d’identifier le rôle et les objectifs des canaux

tout au long du parcours clients.

Exemple de segmentation relationnelle :

RAPPORT DE STAGE 3EME

ANNEE INGENIEUR TCHIENGUE ELIANE

62

Figure 36 : Exemple de segmentation relationnelle

Dans l’exemple ci-dessus, en fonction du niveau d’attente des clients envers la

banque et du rapport de force qu’ils perçoivent, la banque sera en mesure d’adapter

son mode de relation, son niveau de communication sur les canaux.

Durée de vie client La durée de vie client est la durée moyenne de vie d’un client dans la banque. Les principaux enjeux de la durée de vie sont :

Identifier les clients « en fin de vie » afin d’anticiper leur départ en leur proposant une communication, des produits/offres adaptés, etc.

Composantes du calcul de la valeur client Pour calculer la durée de vie, on distingue généralement trois types d’analyses :

Les méthodologies non paramétriques (Kaplan-Meier)

Les méthodologies semi-paramétriques (modèle de Cox)

Les méthodologies paramétriques o Ces dernières sont des techniques récentes puisque les premiers

manuels datent du début des années 80. Valeur client La valeur client permet de mesurer la profitabilité d’un client. Le client est caractérisé par sa valeur actuelle mais aussi sa valeur future calculée en fonction de sa durée de vie et de ses revenus futurs.

RAPPORT DE STAGE 3EME

ANNEE INGENIEUR TCHIENGUE ELIANE

63

La valeur client est un axe structurant des programmes relationnels. En effet, le plan d’action commercial sera différencié en fonction de la valeur du client. Un client à faible valeur actuelle mais à forte valeur future sera traité différemment. Par exemple, seul les clients fragiles à forte valeur future pourront faire partie du plan de rétention. Elle participe aussi à la mise en place des systèmes de suivi et d’alertes des clients à potentiel (jeune en devenir, futur client VIP, etc.). Les objectifs poursuivis sont de deux natures :

Stratégique :

o Surveiller le business futur

o Arbitrer sur la stratégie (positionnement renforcé sur les offres à valeur)

Opérationnelle :

o Calibrer les investissements marketing (surinvestir sur les VIP,

désinvestir sur les clients à faible rentabilité)

o Actionner le bon levier (celui sur lequel le client a le plus de chance

d’augmenter sa valeur)

Textmining Le Textmining est l’ensemble des méthodes permettant d’analyser et d’organiser automatiquement un large volume de données textuelles afin de faire ressortir et de structurer le contenu et les thèmes. La démarche est la suivante :

Figure 37 : Méthodologie Textmining

RAPPORT DE STAGE 3EME

ANNEE INGENIEUR TCHIENGUE ELIANE

64

Webmining

Le Webmining en terme d’usage Datamining, participe à améliorer la connaissance

client en croisant les données offlines avec les données du Web.

Par l’analyse des parcours sur le site, les comportements des internautes sont

identifiés. Des typologies peuvent ainsi être mises en place.

Par exemple, les appétences à l’utilisation de la BAM, aux produits ou aux services

peuvent être mesurées (activités des visiteurs, pages visitées, temps moyen de

recherche, les associations,…).

Les enseignements issus du Webmining pourront alimenter les plans d’action

marketing sur le Web (bannière, pop-up, relance sur un autre canal, etc.).

Aujourd’hui, l’outil de Webmining SAS n’est pas prévu. Néanmoins, un outil de

Webtracking est en cours d’achat. Cet outil permettra, par une plus grande collecte

de données du Web, une première analyse des logs avec les outils SAS EM et

Guide.

Réseaux sociaux

Définition

Les réseaux sociaux permettent de visualiser les liens entre les personnes de

manière descriptive afin de constituer des groupements d’individus, appelés

communautés.

Une communauté est constituée :

De « noeuds » ou « sommets » : des individus, des contrats, des comptes…

De « liens » qui permettent de connecter les noeuds entre eux : une

communication, un échange d’email, un virement…

Une communauté est donc un groupe de noeuds densément connectés et qui a peu

de liens avec les autres groupes.

RAPPORT DE STAGE 3EME

ANNEE INGENIEUR TCHIENGUE ELIANE

65

Figure 38 : Exemple de communautés

Les réseaux sociaux en quelques chiffres (Médiamétrie 2010)

La France se compose désormais de 38,3 millions d'internautes (contre 34,7 millions

en 2009 et 33,6 millions en 2008) :

Chaque jour, ce sont près de 24 millions d'individus qui s'y connectent, soit

une progression de 15,4% par rapport à 2009

Près de 10 millions de personnes sont équipées d’un smartphone.

27,7 millions de cyber acheteurs en 2010

Les évolutions technologiques et les équipements font aussi progresser les usages Internet. Parmi les usages du web, les blogs et réseaux sociaux poursuivent leur ascension :

plus des ¾ des internautes ont consulté un blog ou un site communautaire en décembre 2010, soit 11,7 millions de personnes par jour.

Sur ces mêmes sites, les internautes restent de plus en plus longtemps : en moyenne, ils y passent 5h30 par mois.

Les principales motivations pour s’inscrire sur un site communautaire sont de :

Rester en contact avec ses amis ou de reprendre contact avec d’anciens amis,

Partager ses passions,

Lire les avis des autres consommateurs avant de faire un achat,

Devenir des prescripteurs,

2/3 des internautes partagent leurs opinions sur les produits ou services qu’ils achètent, en donnant un avis sur un site marchand, un blog, un forum ou un réseau social.

Les enjeux

RAPPORT DE STAGE 3EME

ANNEE INGENIEUR TCHIENGUE ELIANE

66

Le développement des réseaux sociaux et la quantité considérable d’informations

qu’ils détiennent en font une source privilégiée pour la connaissance des clients.

L’analyse des données issues des réseaux sociaux poursuit deux objectifs majeurs :

Développer le marketing viral :

o Identifier les communautés sociales en se basant sur les relations

comportementales entre les clients

o Mesurer et segmenter les clients sur leur influence social (« leaders »,

« suiveurs », « marginal »)

o Identifier les ambassadeurs vers qui on poussera les messages

o Cibler les clients en se basant sur le statut de la communauté et les

changements de comportements au sein de cette communauté (quand

un leader change, cibler ses suiveurs)

Anticiper les besoins et les attentes des clients :

o Détecter les tendances du moment, le ressenti des clients par l’analyse

des posts sur la page facebook de la banque faite par le textmining

Les limites des réseaux sociaux Du fait de la récence des réseaux sociaux et des outils d’analyse associés, nous

devons nous rapprocher de la législation en vigueur (CNIL).

Simulation

Prévision: Le Crédit Agricole met aussi en place des modèles de prévisions économiques de type : - Calculs matriciels

- Séries chronologiques (modèles ARIMA, …)

- Modélisations économétriques Ces méthodes de prévision sont utilisées entre autre pour : - anticiper des changements structurels de la population (analyse des évolutions démographique, vieillissement des populations,…).

- prévoir les ventes, PNB : si la banque accentue son recrutement sur un profil particulier de la population, ces méthodes permettent, par exemple, de prévoir le PNB.

- estimer l’affluence (guichet, centre d’appel, etc.)

- etc.

RAPPORT DE STAGE 3EME

ANNEE INGENIEUR TCHIENGUE ELIANE

67

Stress-testing : Le « stress-testing » vise à simuler des scénarios (perte d’emploi, changement de profession, etc.) que peut subir un client afin d'en étudier son potentiel. De manière plus générale, le stress-testing, permet à la banque d’évaluer des

paramètres (PNB, risque, etc.) en modifiant la structure de son fond de commerce.

Gestion du temps réel

Une relation client, au plus près des besoins et attentes du client, passe par une gestion en temps réel des événements déclencheurs d’un changement de situation, de profil du client. Dès lors qu’un événement client (passage à la vie active, héritage, revenu complémentaire, chômage,…) est détecté, le client doit être requalifié (mise à jour des modélisations impactées) et le moteur de préconisation d’offres doit être actualisé en fonction des nouveaux éléments (événements et requalification client). Le principal objectif d’une approche temps réel est, par conséquent, d’établir une relation client proactive et toujours adaptée à ses moments de vie. Les principaux bénéfices d’une approche en temps réel sont :

Des offres ou services toujours adaptés aux attentes du client

Une tarification au regard de la véritable valeur du client ou valeur future

Une sollicitation commerciale optimisée

Le datamining en terme d’usages (scores, segmentation,…) n’est pas impacté par les applications en temps réel. En effet, l’application ne modifie pas la modélisation. Elle va seulement mettre à jour la modélisation (note, segment,…) suite aux données recueillies. Néanmoins, des modèles pourront être mis à disposition de l’application Temps Réel. Le scoring dynamique (Temps Réel)

1. Importance d’une requalification client en Temps Réel. Les applications Temps réel proposent au bon moment : La bonne offre Hors Périmètre Datamining : Interact

Le bon canal Hors périmètre Datamining

Le bon message. Ce message pourra contenir :

▬ Une offre personnalisée Hors Périmètre Datamining ▬ Un argumentaire de vente personnalisé pour le conseiller ▬ Proposer une information « utile »

rendez-vous avec un conseiller, appeler un numéro spécialisé sur une plateforme,

RAPPORT DE STAGE 3EME

ANNEE INGENIEUR TCHIENGUE ELIANE

68

aide en ligne : impôts, bourse, aides sociales, etc. envoi vers une autre page, vers un autre site partenaire.

▬ Une tarification adaptée : devis assurance, moyens de paiement, gestion de comptes : comptes services, mini relevé SMS,

services bourses en ligne, etc. Le déclenchement de la mise à jour de la modélisation pourra se faire à partir :

De la détection d’un événement client : passage à la vie active, héritage, revenu complémentaire, chômage, etc.

De la détection d’un changement de situation ou de profil client : détection de revenus additionnels

Un parcours client sur la BAM : plusieurs consultations dans un délai court de la page crédit immobilier, consommation, etc.

2. Les scores impactés suite à une requalification client en Temps Réel.

Les usages proposés, ci-dessous, sont ceux qui ne rentrent pas dans la préconisation d’offres : Tarification adaptée :

o Moyens de paiement, gestion des comptes : un tarif plus avantageux pourrait être proposé à un client qui dispose d’une note de score élevé (par exemple, un score de potentiel élevé).

o Demandes de devis d’assurance : un score de type devis permettrait de proposer le meilleur tarif au regard du profil du client.

Proposition d’un crédit (acceptation, taux ou montant) : score d’octroi. Ce score étant un score de risque, il ne sera pas traité dans notre périmètre datamining.

3. Le processus de scoring dynamique Le schéma suivant présente le processus de calcul de la note de score en temps réel :

RAPPORT DE STAGE 3EME

ANNEE INGENIEUR TCHIENGUE ELIANE

69

Figure 39 : Processus de calcul de la note de score en temps réel

1. La saisie des critères

Saisie des critères sur le poste de travail ou la BAM

2. Moteur de calcul SAS et mise à jour de la modélisation (note de score,

segment, etc.)

La mise à jour d’une modélisation peut s’appuyer sur des sources différentes, c’est-

à-dire sur un contexte avec :

Soit des données uniquement externes : données issues d’un formulaire web

ou conseiller (simulation en ligne d’un prêt, d’un devis, etc.)

Soit des données en parties externes : cas du score potentiel à mettre à jour

suite à l’identification de revenu externe. Deux sources possibles :

o DWH

o Datasource

Contexte - Notre préconisation : Le contexte devra être externe avec la

possibilité d’aller chercher certains paramètres dans le Datasource. Le DWH

n’étant pas disponible 24/24H, si le calcul du score dynamique appel des données

issues du DWH, il faudra mettre à disposition un environnement décisionnel répliqué.

RAPPORT DE STAGE 3EME

ANNEE INGENIEUR TCHIENGUE ELIANE

70

3&4. La restitution et l’historisation de la modélisation (note de score ou

segment)

Au-delà de la restitution de la note (ou segment) dans l’environnement concerné

(poste de travail du conseiller, BAM), il faudra prévoir de stocker, dans une base

dédiée au temps réel, la note et son contexte (données ayant servies au calcul de

la note) pour qu’ils soient ensuite historisés afin de réaliser le backtesting des

modèles temps réel.