mise en place d’un modèle de scoring : application au

Mise en place d’un modèle de scoring : application au churn dans le domaine de la téléphonie mobile.

1


2

Mise en place d’un modèle de scoring :

application au churn dans le cas de la téléphonie

mobile.

Auteurs :

AKA Tano Michel

et

COFFI-AMANY Yoboua Parfait

Kevin.

Ingénieurs Statisticiens

Economistes.

Juin 2013.


3

SIGLES ET ABBREVIATIONS

ALN : Adaptive Logic Network

BHHH : Bernd Hall Hall Hausman

CELL2CELL : 6ème plus grande compagnie de téléphonie aux

Etats-Unis

CHURN : Change and Turn

CLDV : Categorials and Limited dependent Variable

ENSEA : Ecole Nationale Supérieure de Statistique et

d’Economie Appliquée

HL : Hosmer Lemeshow

ISE : Ingénieur Statisticien Economiste

ROC : Rreceiving Operating Curve

SVM : Machines à Vecteurs de Supports

TDNN : Time Delay Neural Network

TFP : Taux de Faux Positifs

TVP : Taux de vrais Positifs

VIF : Variance Inflation Factors


4

LISTE DES ILLUSTRATIONS

Liste des tableaux

Tableau 1 : Comportement des clients suivant le nombre d'appels récemment fait vers le

service rétention client ........................................................................................................... 33

Tableau 2 : Comportement des clients suivant le nombre d’offres récentes de rétention client

acceptées ................................................................................................................................ 34

Tableau 3 : Indicateurs de détection des observations suspectes et seuils de tolérances ....... 40

Tableau 4 : Les résultats de la première estimation ............................................................... 43

Tableau 5: présentation du modèle 2 ..................................................................................... 44

Tableau 6 : resultats du test VIF ............................................................................................ 45

Tableau 7 : Présentation du modèle retenu ............................................................................ 46

Tableau 8 : Résultats du test de Hosmer-Lemeshow ............................................................. 47

Tableau 9 : Présentation des taux de prédiction ..................................................................... 48

Tableau 10 : Taux de prédiction pour la procédure de vérification ....................................... 50

Tableau 11 : rappel des resultats de l'estimation .................................................................... 51

Liste des graphiques

Graphique 1 : la courbe ROC du modèle retenu .................................................................... 49

Graphique 2 : présentation de la sensitivité et spécificité en fonction du seuil choisi........... 49

Liste des figures

Figure 1 : Illustration des différentes types de notations. ...................................................... 27

Figure 2 : Répartition de l’ensemble des clients de l’échantillon d’apprentissage sur les

différents segments de notation crédit. .................................................................................. 28

Figure 3 : Répartition des clients suivant leurs statuts en termes de churn pour chaque type

de notation. ............................................................................................................................. 29

Figure 4 : Répartition des statuts des clients suivant la situation matrimoniale et répartition

des clients mariés et non mariés suivant leurs statuts en termes de churn. ............................ 31

Figure 5 : Répartition des statuts des clients suivant leurs réponses aux offres faites via mail

................................................................................................................................................ 32

Figure 6 : Répartition des clients suivant leurs nombres de rapports d'incident effectués. ... 35

Figure 7 : Perceptron simplifié à fonction d’activation de Heaviside ................................... 65

Figure 8 : Réseau ADALINE à fonction d'activation linéaire ............................................... 66

Figure 9: Time Delay Neural Network – modèle générique .................................................. 69

Liste des équations

Équation 1 : spécification du modèle retenu : ........................................................................ 52


5

RESUME

Ce papier traite de la prédiction du churn en entreprise qui est un phénomène traduisant

le départ des clients d’une entreprise. Pour cette étude, nous nous sommes intéressés

au secteur des télécommunications. Nous avons utilisé un modèle logit pour cette

estimation et les variables explicatives retenues pour la prédiction sont : l’ancienneté

dans l’entreprise, les âges des deux premiers responsables du ménage du client, l’accès

à internet et le nombre d’offres de rétention client souscrit par le client étudié. Les

résultats obtenus nous ont permis de faire des recommandations à Cell2Cell : la société

étudiée. Ces résultats stipulent tout d’abord que les clients les plus anciens sont ceux

les plus susceptibles de quitter l’entreprise. Aussi, nous avons découvert que les jeunes

chefs de famille avaient tendance à inciter les membres de leur famille au churn et

Enfin, une multiplication d’actions anti-churn non ciblées peuvent provoquer l’effet

non recherché c’est-à-dire le départ des clients.

ABSTRACT

This paper aims at predicting the departure of a telecommunication company’s clients.

We used a logit model for the estimation of the model and the explanatory variables

retained for this exercise are: the client’s seniority in the company, the ages of the two

first heads of the client’s household, access to the internet and the number of customer

retention offers the studied client subscribed to. Our results suggest that first of all,

long-time customers are more likely to leave the company as compared to newer ones.

We also discovered that younger heads of households are more likely to invite their

members towards changing service providers. Finally, the study finds that

multiplication of not targeted client retention actions like repeated short messages can

lead to more client departure.


6

SOMMAIRE

AVANT PROPOS ............................................................... Erreur ! Signet non défini.

SIGLES ET ABBREVIATIONS ............................................................................... 3

LISTE DES ILLUSTRATIONS ................................................................................ 4

RESUME ..................................................................................................................... 5

ABSTRACT ................................................................................................................. 5

INTRODUCTION ...................................................................................................... 7

CHAPITRE 1 : CADRE CONCEPTUEL ET REVUE DE ............................... 11

LA LITTERATURE. .............................................................................................. 11

I- DEFINITION DE CONCEPTS .............................................................................................. 11

II- REVUE THEORIQUE : PRESENTATION DES METHODES DE SCORING .............. 12

III- REVUE EMPIRIQUE ........................................................................................................ 22

CHAPITRE 2 : ANALYSE DES CARACTERISTIQUES DE LA CLIENTELE

CELL2CELL: UNE ETUDE PAR SEGMENTATION CLIENTS. ................... 26

I- PRESENTATION DES DONNEES DE L’ETUDE .............................................................. 27

II- ANALYSE DESCRIPTIVE. .............................................................................................. 27

CHAPITRE III : MODELISATION ECONOMETRIQUE ET PREDICTION

DU CHURN. ............................................................................................................. 37

I- PRESENTATION DE LA DEMARCHE METHODOLOGIQUE ........................................ 38

II- MISE EN ŒUVRE DE LA METHODOLOGIE POUR LE .............................................. 42

CAS CELL2CELL .......................................................................................................................... 42

CONCLUSION ET RECOMMANDATIONS ....................................................... 55

BIBLIOGRAPHIE ................................................................................................... 57

ANNEXES ................................................................................................................. 59

TABLE DES MATIERES ........................................................................................ 72


7

INTRODUCTION

Contexte et justification

Toutes les entreprises, de nos jours, quelques soient leurs secteurs d’activité,

développent continuellement des stratégies avec pour but de gagner la plus grosse part

de la clientèle visée. Ce faisant, elles cherchent à agrandir leur cercle d’influence en

attirant de nouveaux clients qui viendront se greffer à la clientèle déjà existante.

Cependant, d’autres problèmes spécifiques à la perte de clients surviennent

éventuellement et auxquels les entreprises doivent prendre en compte dans leur

stratégie markéting. Ces problèmes sont parfois notamment dus à l’absence

d’innovation provoquant le départ de certains clients vers d’autres entreprises qui elles,

offrent des produits plus intéressants ou, tout simplement, que les clients préfèrent.

Aussi, il apparait moins couteux de maintenir les clients déjà acquis que de rechercher

de nouveaux clients. Cela se vérifie avec les travaux de Dawkins et Reichheld qui

montrent que, retenir un client coûterait jusqu'à cinq fois moins cher que d'en conquérir

de nouveaux. En l’occurrence, il ressort de leur étude qu’un programme de fidélisation

diminuerait le taux d'attribution de 8%.

Le défi majeur des organisations est donc de détecter les personnes ayant l’intention

de les quitter afin d’anticiper leur départ et de les retenir via des actions anti-attritions

adéquates.

En Côte d’ivoire, l’intérêt qu’il y a à s’intéresser au secteur de la téléphonie mobile

n’est plus à démontrer. En effet, depuis l’entrée sur le marché ivoirien de la première

entreprise offrant de tels services en 2002, une concurrence de plus en plus forte s’est

installée dans ce secteur. Ceci est dû au fait que les pays africains forment un fort

potentiel de clientèle pour les entreprises de ce secteur. Ainsi, de 2002 à 2012, six

nouvelles entreprises ont fait leur entrée sur ce marché. L’état de la concurrence assez

avancée est perceptible par l’effet des stratégies markéting de ces entreprises sur la

clientèle. Cette situation présente des avantages et des inconvénients puisque même si


8

elle contribue à rendre impossible les tarifications purement monopolistique au grand

bonheur des consommateurs, elle rend difficile d’accès les données détaillées sur le

secteur et nécessaires à la réalisation des études empiriques. Devant cette difficulté,

nous avons choisi de présenter le cas de la compagnie Cell2Cell qui est la 6ème

compagnie de téléphonie aux Etats Unis avec environ 10.000.000 de souscripteurs.

Problématique

Les agents économiques recherchent continuellement à accroitre leur satisfaction. De

ce fait, ils n’hésitent pas à changer d’attitude vis-à-vis d’un bien lorsqu’ils y trouvent

un quelconque intérêt. Un individu peut donc substituer un bien qu’il avait l’habitude

d’acheter à un autre ou tout simplement changer de fournisseur pour un même bien

toujours s’il y va de son intérêt. Cet état de fait est désavantageux pour certaines

entreprises puisqu’il induit des pertes de part de marché par ces dernières. De tout

temps, donc, les entreprises ont cherché à mener des actions pour détecter, gérer et

réduire leurs risques de pertes dues au départ délibéré des clients. Intrinsèquement, ces

actions présentent des enjeux très importants puisqu’il y va du résultat de l’entreprise.

En ce sens, il serait inadmissible de mener de telles politiques en se basant sur la seule

intuition ou du moins sur l’expérience acquise au fil des années. Ainsi, mettre en œuvre

une stratégie plus élaborée est d’autant plus important que des actions mal ciblées,

c’est-à-dire menées sur des personnes ne présentant pas des symptômes de départ,

puissent pousser ces dernières à quitter l’entreprise. Cet enjeu a été compris par les

managers et, de plus en plus, des méthodes objectives sont utilisées pour identifier le

risque d’attrition. En l’occurrence, les méthodes les plus utilisées reposent sur le

scoring. Dans le cadre de notre travail, nous nous demandons quel modèle scientifique

choisir afin de, non seulement, prédire le churn, mais aussi et surtout indiquer les

bonnes actions à mener face à un risque détecté.

Objectifs de l’étude


9

L’objectif général est de mettre en œuvre un modèle de scoring permettant d’affecter

un score à chacune des unités statistiques de la population et de les classer selon leur

propension à « churner ».

Plus spécifiquement, il s’agira :

Détecter, à partir d’une revue de la littérature, les variables généralement

utilisées et à même d’améliorer la prédiction du churn en téléphonie ;

de déterminer une fonction de scoring qui soit caractéristique du comportement

des clients de la société de téléphonie choisie ;

prévoir à partir de cette fonction, le risque de churn ;

proposer des stratégies de fidélisation de la clientèle pour l’entreprise Cell2Cell.

Annonce du plan

Dans le but de répondre à ces objectifs, ce rapport est organisé en trois (03) chapitres.

Le premier chapitre précise le cadre conceptuel, théorique et empirique. D’une part, il

présente les définitions de concepts relatifs au thème de l’étude et qui seront utilisés

tout au long de ce mémoire. D’autre part, il met en exergue les fondements

économiques théorique et empirique qui constituent la base de la problématique

évoquée. Dans le deuxième chapitre, un diagnostic succinct sera effectué ayant pour

but d’analyser le churn en se basant sur les caractéristiques de la population. Et enfin,

le troisième chapitre montre l’intérêt d’utiliser un modèle de scoring dans le cas de

notre étude et présente les différentes étapes de mise en œuvre du modèle retenu avant

d’entamer, après examen de l’ensemble des observations, l’analyse économétrique à

proprement dit.

Nous présentons ci-après l’illustration des différentes étapes de notre rapport :


10

Introduction

Chapitre 1 : CADRE NOTIONNEL ET REVUE DE LA LITTERATURE.

Chapitre 2 : ANALYSE DES CARACTERISTIQUES DE LA

CLIENTELE CELL2CELL: UNE ETUDE PAR SEGMENTATION- CLIENTS

Chapitre 3 : MODELISATION ECONOMETRIQUE ET PREDICTION

DU CHURN.

Conclusion


11

CHAPITRE 1 : CADRE CONCEPTUEL ET REVUE DE

LA LITTERATURE.

Ce chapitre a pour but de dresser un cadre définitionnel de concepts qui seront utilisés

de façon répétée tout au long de l’étude afin d’éviter toute ambiguïté. En outre, nous

ferons le point sur l’existant des théories économiques et des travaux empiriques

récents relatifs à la problématique.

I- DEFINITION DE CONCEPTS.

I-1 Le concept de Churn.

Le mot Churn est un mot contracté de l’expression « change and turn » qui exprime

le taux de déperdition ou le taux d’attrition de clients pour une entreprise.

Ainsi, selon Wei et Chiu (2002), le churn des clients en télécommunication mobile

(bien que pouvant concerner certaines fois d’autres industries) désigne le « mouvement

des souscripteurs d’un fournisseur à un autre ».

I-2 Le scoring.

Le scoring est un outil d'aide à la décision. Son utilisation fournit des réponses à des

questions comme : " Comment constituer un fichier client donnant le meilleur résultat

en termes de rentabilité (ou de chiffre d'affaires) pour une entreprise ? ", " Comment

fidéliser des clients déjà acquis et éviter de les perdre ? ", " Ce client présente-t-il un

risque en termes de remboursement ou de paiement ? ", etc.

Ainsi, à partir d’un système de notation, il permet de déterminer si X (le client) possède

des caractéristiques susceptibles de prédire s'il va rentrer dans un cas favorable, acheter

un produit, continuer à consommer des produits de l'entreprise, honorer régulièrement

ses échéances, etc. Trois éléments fondamentaux régissent le calcul de ces notes : il


12

s’agit des données, des variables et des méthodes. En effet, les données renferment les

informations sur le client ou prospect : nom, prénom, coordonnées, sexe, ainsi que les

informations recueillies au cours de sa relation avec l'entreprise (type de produits

achetés, fréquence et montant des achats dans le cadre d'une activité commerciale,

crédits en cours, salaire, comportements d'achat des produits...). En ce qui concerne

l’utilisation des variables en scoring, Elle consiste en la détermination des variables

fondamentales qui permettent d'expliquer un phénomène. La méthode, elles, aide en la

définition des meilleurs indicateurs à utiliser pour l’étude scoring. Cela suppose que

l’on dispose d'informations pertinentes, ce qui implique un travail en amont pour bien

définir les données qui vont permettre d'atteindre l’objectif visé, d'où la nécessité de

trouver les bonnes informations par l’analyse de la base de données clients, mais aussi

de savoir construire de façon méthodologique un modèle d'exploitation de ces données

et variables.

Nombreux sont les outils qui permettent d'effectuer ces calculs de scoring. Nous

passerons en revue certains de ces outils dans la partie suivante consacrée à la revue

théorique.

II- REVUE THEORIQUE : PRESENTATION DES METHODES DE

SCORING.

Cette revue sera axée sur la présentation des différentes méthodes de scoring qui ont

été développées au fil des années en précisant éventuellement leurs conditions de mise

en œuvre.

Dans ce papier, les modèles que nous choisissons de présenter sont, entre autres, la

régression logistique, les réseaux de neurones, les arbres de décision, le « random

forests » et les machines à vecteurs de supports.

Notons cependant que nous reviendrons ultérieurement, dans le troisième chapitre, sur

certain des modèles qui feront l’objet de notre approche méthodologique, en y

présentant plus ou moins en détaille les différentes étapes de mise en œuvre.


13

II-1 Les techniques les plus utilisées pour la prévision du churn.

II-1-1 La régression logistique.

En général, les différentes étapes à suivre dans une démarche de modélisation sont :

1. Choisir la forme de la fonction.

2. Estimer les paramètres du modèle à partir d'un échantillon Ω.

3. Évaluer la précision des estimations.

4. Mesurer le pouvoir explicatif du modèle.

5. Vérifier s'il existe une liaison significative entre l'ensemble des variables

descriptives et la variable dépendante.

6. Identifier les variables descriptives pertinentes dans la prédiction de Y, et

abandonner celles qui ne sont pas et/ou celles qui sont corrélées à d’autres variables

déjà prises en compte.

7. Mesurer l'influence de chaque observation, au besoin détecter celles qui peuvent

avoir une influence exagérée au point de fausser les résultats (outliers, valeurs

extrêmes, valeurs aberrantes, etc.).

8. Pour un nouvel individu à classer, déterminer la valeur de la probabilité π de

réalisation de l’évènement étudié (ici le churn) à partir des valeurs prises par les X.

Les modèles logit polytomiques constituent une famille de modèles économétriques

adaptés au cas où la variable à expliquer est une variable qualitative. Il en est ainsi, par

exemple, de la catégorie socioprofessionnelle, du mode de transport, du statut

d’occupation du logement, du lieu de résidence, etc. Le vaste champ d’application de

ces modèles et surtout leur capacité à rendre compte des phénomènes étudiés,

justifie toute l’attention qui leur est accordée. Desjardins en 2005 définissait la

régression logistique comme un outil d’ajustement d’une surface de régression à des

données dans le cas où la variable dépendante est dichotomique. De fait, la régression

logistique binaire est un modèle de prédiction des valeurs d’une variable dépendante à

partir de variables explicatives de type continue et/ou booléen. De par son caractère


14

robuste, cette technique est appliquée dans plusieurs domaines notamment la

médecine, la banque assurance, le marketing, etc.

La méthode d'estimation de choix des « Categorials and Limited Dependent

Variables » (CLDV) est la Méthode du Maximum de Vraisemblance. Pour cette

estimation, il convient, tout d’abord, de bien identifier la fonction de répartition

de la variable expliquée ou sa fonction de densité. Cependant, compte tenu de la

nature qualitative des variables, recours est fait à des hypothèses sur la distribution

des erreurs en utilisant une approche par les variables latentes.

Les quatre algorithmes le plus souvent utilisés sont la méthode Steepest Ascent, la

méthode de Newton-Raphson, la méthode de Scoring et la méthode de Bernd-Hall-

Hall-Hausman (BHHH).

Régression Logistique Binaire - Principe et estimation.

Dans le cadre de la régression logistique binaire, la variable dépendante Y ne prend que

de deux modalités : o et 1. Nous cherchons à prédire correctement les valeurs de Y et,

pour chaque individu, à quantifier la probabilité à appartenir à l’une ou l’autre des

classes.

Hypothèses fondamentales.

Les hypothèses fondamentales inhérentes à la régression logistique constituent la base

du calcul des probabilités conditionnelles P(Y = yk/X), et concernent la frontière induite

pour distinguer les classes de l’espace de représentation.

Mathématiquement, nous avons :

( )* ( / )( / )

( )

k kk

P Y y P X Y yP Y y X

P X

Et d’après la formule de probabilité totale

( )* ( / )( / )

( )* ( / )

k kk

k k

k

P Y y P X Y yP Y y X

P Y y P X Y y


15

Ainsi, dans le cas de deux classes, la comparaison des probabilités d’appartenance à

ces classes est effectuée par le calcul du rapport :

( 1/ ) ( 1) ( / 1)*

( 0 / ) ( 0) ( / 0)

P Y X P Y P X Y

P Y X P Y P X Y

Le premier terme de ce produit est facile à estimer à partir du moment où l’hypothèse,

selon laquelle la population est échantillonnée par un tirage aléatoire indépendamment

des classes d'appartenance des individus, est faite. Cependant, c’est le second terme

qui fait l’objet d’attention, et c’est sur celui-ci que notre hypothèse fondamentale

portera.

Ainsi, la régression logistique suppose que

0 1 1 2 2

( / 1)ln( ) ' * * ... *

( / 0)J J

P X YX b b b X b X b X

P X Y

Cette hypothèse couvre une large palette de lois de distribution des données : la loi

normale (comme pour l'analyse discriminante); les lois exponentielles ; les lois

discrètes ; les lois Beta ; les lois Gamma et les lois de Poisson. De fait, la régression

logistique a théoriquement un plus large champ d’application.

Notons également que P(Y=1/X) et X’b permettent de scorer les individus, tout en les

classant selon les probabilités d’appartenance à leurs classes. La règle de décision est

formulée comme suit :

Si

( / 1)1

( / 0)

P X Y

P X Y

, alors Y=1.

En d’autres termes, si X’b>0, alors Y=1.

Estimation des paramètres b par le maximum de vraisemblance et tests de

significativité.

A ce niveau, les paramètres du modèle sont estimés par le maximum de vraisemblance.

Ce faisant, il est important de connaitre la loi de distribution de la probabilité P (Y/X).

Y étant binaire, suit ipso facto une loi de Bernoulli.


16

Tests de significativité.

La significativité des coefficients, de même que celle d’un bloc ou de l’ensemble des

coefficients peuvent être testées à partir de deux approches : le test du rapport de

vraisemblance permettant de comparer les vraisemblances de deux modèles Mr et Ms

comportant respectivement r et s variables explicatives et où le modèle Mr est une

extension du modèle Ms (r>s), et celui de Wald s’appuyant sur la normalité

asymptotique des coefficients. Cependant, lorsque nous nous limitons dans le cas où

le nombre d’observations est considérable, alors les deux approches fournissent des

résultats cohérents. Ce qui n’est pas toujours le cas lorsque le nombre d’observations

est faible.

Les données à analyser ultérieurement dans la partie empirique se situant dans le

premier cas, nous présentons uniquement la théorie relative au test de Wald d’autant

plus que celui-ci, contrairement au test du rapport de vraisemblance, présente

l’avantage de fournir dans l’immédiat une gamme d’informations notamment sur les

variables explicatives après l’estimation du modèle complet.

Ainsi, les paramètres étant estimés par la méthode du maximum de vraisemblance, ils

sont asymptotiquement normaux. Les tests de significativité s’effectuent aisément par

la connaissance de la matrice de variance covariance des coefficients. Cette matrice est

l’inverse de la matrice hessienne qui est de la forme :

H=X’VX,

Où X est la matrice des données de dimension n × (J + 1), la première colonne

correspondant à la constante ; V est une matrice diagonale de taille n×n, composée des

valeurs de π(ω)×(1−π(ω)), les probabilités π(ω) étant obtenues après estimation des

paramètres.

Ainsi, nous pouvons former la matrice hessienne H de taille (J + 1) × (J +1),

Par suite, la matrice de variance covariance des coefficients s’écrit :

1H

A présent, nous pouvons présenter les différents tests de Wald relatifs aux coefficients.


17

S’agissant du test de nullité d’un des coefficients (soit le jième coefficient), le test est

effectué à partir de la statistique de Wald Wj suivant, sous l’hypothèse nulle H0, une

loi du χ2 à 1 degré de liberté et se formulant comme suit :

2

2

j

j

j

b

bW

Où

2

jb

est la variance du coefficient jb

lue sur la diagonale principale de la

matrice de variance covariance de coefficients

.

Intrinsèquement, l'intervalle de confiance associé au niveau de confiance 1

− α est obtenu par les bornes :

1 / 2 *j b jb u

Où u1−α/2 est le fractile d'ordre 1 – α/ 2 de la loi normale centrée réduite.

S’agissant du test de la nullité simultanée de q coefficients, la statistique de Wald

utilisée1 est sous sa forme généralisée :

' 1

( ) ( )( )( ) * *q qqqW b b

Où ( )qb

est un vecteur des coefficients à tester (avec q<J) et

1

( )q

la sous matrice

de variance covariance associée à l’ensemble des coefficients.

Enfin, pour tester la significativité globale des coefficients, la statistique de Wald

utilisée, sous l’hypothèse nulle H0 : b1= b2=…= bJ=0, suit une loi du χ2 à J degrés de

liberté et s’écrit :

' 1

( ) ( )( )( ) * *J JJJW b b

En ce qui concerne l’évaluation d’un modèle logit, il est abordé en fin de document

dans l’annexe 4.

II-1-2 Les réseaux de neurones.

La méthode des réseaux de neurones est une tentative d’imitation du mécanisme

d’apprentissage qui se produit dans le cerveau humain. Dans la modélisation d’un

1 Cette statistique suit une loi du χ2 à q degrés de liberté.


18

réseau de neurones, des données sont introduites en entrée dans le modèle pour être

ensuite combinées dans une fonction dite combinatoire telle la fonction somme. Cette

fonction est également utilisée en entrée d’une fonction d’activation qui produit une

réponse envoyée en entrée d’autres neurones. Cette méthode est en réalité conçue dans

le même esprit que la régression logistique en ayant toutefois un plus : elle peut

contenir plusieurs sorties intermédiaires dites couches cachées.

La mise en œuvre d’une telle méthode nécessite des conditions ou dispositions

préalables. Il s’agit du traitement des variables d’entrée. Si ces dernières sont

numériques, on applique une standardisation « Min-Max » pour avoir désormais en

entrée une nouvelle variable

𝑥 ′ =𝑥 − 𝑚𝑜𝑦(𝑋)

max(𝑋) − min(𝑋)

Avec𝑋 = (𝑥𝑖)𝑖=1,…,𝑛.

Si par contre elles sont catégorielles et ordonnées, on peut affecter à chaque catégorie

une valeur comprise entre 0 et 1. Sinon, si elles ne sont pas ordonnées, la méthode

précédente risque de conduire à des résultats erronés du fait de la création de voisinages

irréels. Chaque catégorie peut être alors traitée comme une variable booléenne.

Pour la prévision, le résultat sera dénormalisé et la valeur finale prédite sera

𝑥 = 𝑥′ ∗ (max(𝑋) − min(𝑋)) + min(𝑋).

Nous présenterons par la suite l’historique de la modélisation par réseaux de neurone

avant de présenter les différentes structures de réseaux de neurone les plus souvent

utilisés. Cette partie vise à exposer cette méthode parfois efficace sur certaines données

mais moins connue. Cette recherche sera sans doute utile en terme de revue pour des

études antérieures devant utiliser cette technique.

Historique des réseaux de neurones.

Pour l’histoire, il faut dire que les recherches menées dans le domaine du

connexionnisme ont démarré avec la présentation en 1943, par W. MCCulloch et W.

Pitts, d’un modèle simplifié de neurone biologique communément appelé neurone


19

formel. Ils montrèrent également théoriquement que des réseaux de neurones formels

simples peuvent réaliser des fonctions logiques, arithmétiques et symboliques

complexes.

En 1949, D. Hebb initie, dans son ouvrage "The Organization of Behavior", la notion

d'apprentissage. Deux neurones entrant en activité simultanément vont être associés

(c'est-à-dire que leurs contacts synaptiques vont être renforcés). On parle de loi de

Hebb et d'associationnisme.

En 1958, F. Rosenblatt développe le modèle du Perceptron. Qui est un réseau de

neurones inspiré du système visuel. Il possède deux couches de neurones : une couche

de perception (sert à recueillir les entrées) et une couche de décision. C’est le premier

modèle pour lequel un processus d’apprentissage a pu être défini.

S’inspirant du perceptron, Widrow et Hoff, développent, dans la même période, le

modèle de l'Adaline (Adaptive Linear Element). Ce dernier sera, par la suite, le modèle

de base des réseaux de neurones multi-couches.

En 1969, Les recherches sur les réseaux de neurones ont été pratiquement abandonnées

lorsque M. Minsky et S. Papert ont publié leur livre « Perceptrons » (1969) et démontré

les limites théoriques du perceptron, en particulier, l’impossibilité de traiter les

problèmes non linéaires par ce modèle.

En 1982, Hopfield développe un modèle qui utilise des réseaux totalement connectés

basés sur la règle de Hebb pour définir les notions d'attracteurs et de mémoire

associative. En 1984 c’est la découverte des cartes de Kohonen avec un algorithme non

supervisé basé sur l'auto-organisation et suivi une année plus tard par la machine de

Boltzman (1985).

Une révolution survient alors dans le domaine des réseaux de neurones artificiels : une

nouvelle génération de réseaux de neurones, capables de traiter avec succès des

phénomènes non-linéaires : le perceptron multicouche ne possède pas les défauts mis

en évidence par Minsky. Proposé pour la première fois par Werbos, le Perceptron

Multi-Couche apparaît en 1986 introduit par Rumelhart, et, simultanément, sous une

appellation voisine, chez Le Cun (1985). De nos jours, l’utilisation des réseaux de

neurones dans divers domaines ne cesse de croître. Les applications en sont multiples

et variées.


20

Pour plus de détails, nous présentons les différents types de réseaux de neurones dans

l’annexe 3.

Pour terminer, il importe de souligner que les réseaux de neurones ont pour avantage

de permettre de modéliser de grandes variétés de comportements et d’être robuste aux

données bruitées. L’inconvénient est que sa mise en œuvre, qui passe par un

apprentissage à partir d’un échantillon d’individus, peut être longue. En plus, ses

résultats sont assez opaques et donc difficiles à interpréter, à la différence de la

méthode des arbres de décision.

II-1-3 Les arbres de décision.

Il s’agit d’une méthode intuitive et populaire dans laquelle la variable cible est

catégorielle. Les variables prédictives, elles, peuvent être catégorielles ou continues.

Un arbre de décision est constitué de nœuds de décision relié entre eux par des branches

orientées.

Chaque branche joint donc deux nœuds dont l’un est appelé parent et l’autre enfant.

En plus, chaque nœud est connecté à un et un seul nœud parent sauf le nœud racine

mais peut être connecté à un nombre allant de 0 à n nœuds enfants.

Comme toutes les méthodes supervisées, un arbre de décision travaille sur une variable

cible avec plusieurs variables prédictives.

• Chaque nœud non-feuille correspond à une variable prédictive.

• Chaque nœud feuille correspond à la variable cible.

• Chaque branche correspond à une valeur pour la variable prédictive du nœud parent

(ou un ensemble de valeurs).

La mise en œuvre de cette méthode passe le plus souvent par l’élaboration d’un

algorithme d’arbre de décision dont le but est de créer un ensemble de nœuds feuilles

qui soient les plus pures2 possibles. L’autre principal but d’un algorithme d’arbre de

décision est la constitution de branches qui soient autant que possible très courtes et en

2 Un nœud feuille est pur si les valeurs de la variable cible sont les mêmes pour tous les enregistrements

de ce nœud, autrement dit si le chemin (donc le n-uplet de valeurs pour le n-uplet de prédicteurs) détermine la

valeur de la variable cible.


21

très petit nombre. Pour chaque nœud, on choisit la variable qui, par ses catégories,

sépare le mieux les individus en fonction des catégories de la variable cible. Le choix

du nœud est donc fonction du choix des branches du nœud. L’opération est réitérée

jusqu’à ce qu’elle ne soit plus possible ou plus souhaitable (selon des critères

dépendant du type d’arbre).

Les feuilles ainsi construites sont toutes majoritairement constitués d’individus d’une

seule classe. La branche allant de la racine à une feuille constitue une règle de

classement. L’ensemble des règles constitue le modèle. La classe allouée d’une feuille

est déterminée sur la base de la classification de l’ensemble d’apprentissage.

L’avantage des arbres de décision est qu’ils fournissent une procédure de classification

et de prédiction aisément interprétable par des non experts. Sa seule grande concurrente

est la régression logistique présentée précédemment, cette dernière étant préférée dans

la prédiction du risque en raison de sa robustesse.

II-2 Autres techniques utilisables.

II-2-1 les random forests.

Introduites par Leo Breiman en 2001, les forêts aléatoires sont une méthode statistique

non paramétrique qui s'avère être très performante dans de nombreuses applications,

aussi bien pour des problèmes de régression que de classification supervisée. Elles

présentent également un bon comportement sur des données de très grande dimension,

pour lesquelles le nombre de variables dépasse largement le nombre d'observations.

L'algorithme des forêts d'arbres décisionnels effectue un apprentissage sur de multiples

arbres de décision entraînés sur des sous-ensembles de données légèrement différents.

En pratique, il faut retenir que la décision communiquée par un modèle « random

forest » aux utilisateurs est une moyenne des différentes réponses données par les

arbres composant la forêt aléatoires.

Ce type de processus présente deux principaux inconvénients : premièrement, le

nombre d’arbres doit être fixé a priori et deuxièmement, l’interpretabilité et les

capacités d’analyse offertes par les classifieurs de type arbres de décisions sont perdues


22

car d'un point de vue théorique, les analyses des « random forests » sont difficiles, du

fait de la complexité de l'algorithme utilisée pour sa résolution.

Ces constatations soulèvent alors deux questions : ce type de forêts aléatoires contient-

elle des arbres de décision qui détériorent les performances de l’ensemble ? Si oui, ces

arbres présentent-ils des propriétés particulières qui pourraient expliquer cette perte de

performances ? A cet effet, Robin Genuer & Sylvain Arlot abordent en 2011 cette

problématique comme un problème de sélection de classifieurs, et montrent que de

meilleurs sous-ensembles d’arbres de décision peuvent être obtenus en utilisant des

méthodes sous-optimales de sélection de classifieurs. Les résultats prouvent

notamment qu’un algorithme d’induction de forêts aléatoires "classique" n’est pas la

meilleure approche pour produire des classifieurs de type forêts aléatoires qui soient

performants.

II-2-3 Les machines à vecteurs de supports (SVM).

L’approche SVM (Vapnik 1998) tente de séparer des clients à fort risque de fuite des

clients moins risqués dans l'ensemble des clients par l'hyperplan optimal qui garantit

que l’écart entre les deux classes soit maximal. Les nouveaux clients pour lesquels

nous devons détecter le churn, pourront ainsi ne pas être trop similaires à ceux

employés pour trouver l'hyperplan mais être tout de même situés franchement d'un côté

ou l'autre de la frontière. La force des SVM tient à leur simplicité de mise en œuvre

face à des problèmes difficiles et à des fondements mathématiques solides.

Passons par la suite à la revue d’une ensemble d’études sur le sujet traité afin de nous

faire une idée plus claire du processus que nous utiliserons pour l’élaboration de notre

modèle.

III- REVUE EMPIRIQUE.

Bon nombre de recherches explicatives et exploratoires ont été menées dans le but de

trouver les facteurs déterminants dans l’explication du churn. A cet effet, les travaux

de Rust & Zahorik (1993), de Li S. (1995), de Zeithaml, Leonard, & Parasuraman

(1996) et de Bhattacharya (1998) montrent que ces facteurs sont notamment les


23

attributs liés au service et les attributs démographiques. Ces recherches ont été

orientées dans différents domaines de l’industrie. Mais plus particulièrement pour ce

qui est du domaine de la téléphonie mobile, Kim et Yoon (2004) conclut que le

phénomène d’attrition dépend du niveau de satisfaction des clients par rapport aux

services fournis par l’entreprise, lesquels sont la qualité des appels, le niveau des prix,

la relation client, l’image de la marque, l’âge de souscription et le revenu du

souscripteur. Selon Kim et Yoon (2004), les entreprises de téléphonie auraient donc un

avantage à mener des actions pour booster le niveau de satisfaction des clients plutôt

que de mener des actions qui stimuleront la loyauté des clients. Par contre, selon

Gerpott, Ram, et Schindler (2001), la rétention, la loyauté et la satisfaction des clients

dans le domaine des télécoms sont inter-corrélées et que le prix, le bénéfice perçu et le

manque de quantité considérable de clients ont des effets significatifs sur la rétention.

Plus tard, Ahn, Han, et Lee (2006), à partir d’une étude exploratoire supposent quatre

hypothèses majeures susceptibles de provoquer le churn : il s’agit de l’insatisfaction

du client, de la variation des coûts, de l’usage des services et des caractéristiques du

client. L’effet de ces déterminants sur le churn est un effet indirect qu’ils appellent

effet de médiation nommé « customer status ». Ce dernier fournit le signal du churn

entre l’utilisation active des services et la suspension ou l’arrêt complet. Pour tester les

hypothèses, ils optent pour la mise en œuvre d’une régression logistique. Les résultats

montrent que l’insatisfaction du client telle que le nombre de plainte et la chute du taux

d’appel ont un impact significatif sur la probabilité de churn. Aussi, les programmes

de cartes de membre pour conserver la loyauté des clients ont un effet négatif

significatif sur la probabilité de churn. Plus surprenant, les grands utilisateurs des

services sont plus probables au churn, et les « customer status » ont un impact

significatif sur la probabilité de churn.

Seo, Ranganathan et Babad (2008) mettent plutôt l’accent sur les facteurs qui affectent

les variations des coûts et la satisfaction des clients, ainsi que les facteurs

démographiques comme l’âge et le genre. Ainsi pour expliquer, la rétention des clients,

ils utilisent un modèle de régression logistique binaire et un modèle hiérarchique

linéaire à deux niveaux. Ils aboutissent à deux résultats majeurs : le premier montre

que l’amélioration du plan de service, l’augmentation de la durée d’abonnement et


24

l’amélioration de la qualité de connexion sans fil sont positivement corrélées au

comportement de fidélisation du client. Aussi, les différentes catégories d’âge et de

genre affectent les comportements de rétention.

D’autres recherches sont allées plus loin en construisant des modèles de prévision du

churn sous la base de techniques statistiques.

Ainsi, Yan, Fassino et Baldasare (2005) vont essayer de mettre en œuvre un modèle

prédictif du churn de clients prépayés dans le domaine de la téléphonie mobile. Ils font

l’hypothèse fondamentale que si la plupart des clients appellent fréquemment d’autres

clients appartenant au même service et manifestant des signaux de départ, ils finiront

aussi éventuellement à présenter les mêmes signaux. Pour mener leur étude, ils

exploitent l’enregistrement détaillé des appels de Juillet à Août où ils définissent deux

catégories d’appels : les appels voisins directs (une personne appelant un client ou que

le client appelle) et les appels voisins indirects (une personne appelant au même

nombre que le client). Ils analysent donc les données en utilisant l’arbre de décision et

le réseau de neurones. Il en ressort pour le réseau de neurones que si le service client

contacte les 10% des clients avec les scores élevés dans le modèle, ils seront capables

d’identifier 20% de churners. Par un échantillon pris au hasard, la courbe de Lift est la

ligne diagonale. Aussi, le réseau de neurones l’emporte sur l’arbre de décision qui

exécute mal l’échantillon pour un taux de contacts élevés.

Autre modèle de prévision du churn dans le domaine des télécommunications a été

élaboré par Hung, Yen, et Wang (2006) à partir des techniques de datamining. En

utilisant la courbe de Lift comme critère d’évaluation de la performance du modèle, ils

ont comparé l’arbre de décision sans la segmentation, l’arbre de décision avec la

segmentation et le réseau de neurones dans leur prédiction du churn. Les prédictions

de la probabilité de churn s’appuyaient sur les six (6) derniers mois des transactions

des souscripteurs (Juillet-Juin). Les variables utilisées étaient celles liées aux

caractéristiques démographiques des clients (âge, genre, âge d’abonnement), les

payements et factures (honoraires mensuels, montant facturé, compte de payement en

retard), les enregistrements détaillés des appels (la durée des appels réseaux, le type

d’appels), et du service client (compte de changement de numéro de téléphone, compte


25

d’exclusion et de suspension). Les résultats montraient que l’arbre de décision sans la

segmentation était préféré à l’arbre de décision avec la segmentation, mais que le

réseau de neurones fournissait une meilleure performance que ces deux derniers. Cette

revue nous a permis d’avoir une idée plus ou moins précise sur les variables

généralement utilisées pour la modélisation du churn en télécommunication. Pour ce

qui est du choix du modèle à utiliser, il faut dire qu’il n’existe pas de méthode

absolument meilleure pour une telle étude mais le plus important c’est le respect des

différentes étapes de modélisation et l’assurance d’avoir de bonnes propriétés après sa

mise en œuvre. C’est ce qu’expliquent PHILIPPE Besse & BÉATRICE Laurent (2012)

dans leur article « Apprentissage Statistique : prévision et data mining » Nous avons à

priori implémenté deux méthodes la régression logistique et les réseaux de neurones.

Nous avons retenu pour finir la première puisqu’elle donne d’assez bons résultats et

est plus facile à interpréter et à présenter à un individu quelconque que les réseaux de

neurones. Ils fournissent une fonction de prédiction mais cette fonction n’est pas

traduisible, comme dans les arbres de décision, en un ensemble de règles intuitivement

compréhensibles3.

L’étude de la clientèle de l’entreprise étudiée nous a permis d’avoir certaines

appréhensions de certains phénomènes qui pourraient être caractéristiques de cette

population cible. A ce stade de l’analyse, nous préférons les énoncer en termes

d’hypothèses que nous infirmerons ou confirmerons par les résultats empiriques à la

fin de l’étude.

HYPOTHESES

Nous faisons les hypothèses suivantes dans le cadre de cette étude :

Hypothèse 1 : Un client avec une ancienneté importante au sein de l’entreprise est un

acquis, il faut donc axer les démarches marketing de rétention vers les nouveaux

clients.

3 LIAUDET Bertrand, cours de data mining, option ingénierie d’affaires et de projets – finance.


26

Hypothèse 2 : L’accès à internet aux clients est un moyen important pour les fidéliser.

Hypothèse 3 : Répéter les actions de rétention envers les clients les encourage à rester

dans l’entreprise.

Dans le but de vérifier ces hypothèses, et de poursuivre l’atteinte des objectifs

préalablement fixés, nous débutons l’analyse du churn en scrutant les données à notre

disposition.

CHAPITRE 2 : ANALYSE DES CARACTERISTIQUES DE LA

CLIENTELE CELL2CELL: UNE ETUDE PAR SEGMENTATION

CLIENTS.


27

Ce chapitre s’intéresse à l’analyse descriptive des clients ayant souscrit à un

abonnement dans la compagnie de téléphonie mobile et appartenant à l’échantillon

d’apprentissage.

I- PRESENTATION DES DONNEES DE L’ETUDE.

Les données utilisées pour cette étude proviennent d’une base de données de 78

variables4 issues du processus de recueil de données clients effectué par la société

Cell2Cell. Cell2Cell est la 6ème plus grande compagnie de téléphonie aux Etats-Unis

avec environ 10 millions de souscripteurs. Dans la base de données utilisée, les

montants moyens sont calculés sur la base d’observations faites sur une période de

mois sur les clients de Cell2Cell.

II- ANALYSE DESCRIPTIVE.

Le but de cette analyse est de comprendre les comportements des clients pris de

manière globale. A cet effet, l’analyse se fera par une approche de segmentation de

notre échantillon d’étude en fonction des comportements des clients.

II-1 Segmentation basée sur la notation crédit du client.

Partant du principe que tous les clients sont différents et que certains sont plus

profitables à l’entreprise que d’autres, il importe de déterminer les différents types de

clients. La segmentation basée sur la notation du client par rapport aux crédits

consommés est alors effectuée dans cette section, et constitue en quelques sortes une

étude préliminaire à la compréhension et à la détection du churn. Le but principal de

cette partie est de mettre en place un schéma de segmentation du client selon qu’il soit

churner ou pas, en s’appuyant sur la notation crédit du client. Les différents types de

notation sont présentés comme suit dans la Figure 1 par ordre d’importance:

Figure 1 : Illustration des différentes types de notations.

4 Voir annexe 1 pour la liste des variables


28

Source : base de données Cell2Cell.

Ces différents types de notes permettent d’apprécier la qualité des clients pris de

manière individuelle et de prévoir intuitivement si oui ou non le client présente des

signaux d’attrition.

La représentation ci-dessous (Figure 2) présente la répartition de l’ensemble des clients

constituant notre échantillon d’apprentissage sur les différents segments de notation

crédit.

Figure 2 : Répartition de l’ensemble des clients de l’échantillon d’apprentissage sur les différents

segments de notation crédit.

• credita : type de la notation crédit du client : A (plus forte note).

Credita

• creditaa : type de la notation crédit du client : AA (forte note).

Creditaa

• creditb: type de la notation crédit du client : B (bonne note).

Creditb

• creditc: type de la notation crédit du client : C (note moyenne).

Creditc

• Creditde : type de la notation crédit du client : DE (faible note)

Creditde

• Creditgy : type de la notation crédit du client : GY (très faible note)

Creditgy

• Creditz : type de la notation crédit du client : Z (plus faible note)

Creditz


29


Cette figure montre en fait que sur un total de 40 000 clients dans l’échantillon

d’apprentissage, 17,15% ont une plus forte note (type A), 37,71% ont une forte note

(type AA), 16,79% ont une bonne note (type B), 10,17% ont une note moyenne (type

C), 11,81% ont une faible note (type DE), 2,22% ont une très faible note (type GY), et

enfin 4,14% ont une plus faible note (type Z). En résumé, nous déduisons de ce constat

que près de 81,82% des clients (pourcentage largement supérieur à 50%) appartenant

à notre échantillon ont une note supérieure à la moyenne. Cette première analyse

permet donc de prévoir un plus fort taux de rétention des clients par rapport au taux

d’attrition.

Pour voir ce qu’il en est en réalité, la Figure 3 suivante met en exergue, pour chaque

type de notation, la répartition des clients suivant leurs statuts en termes de churn.

Figure 3 : Répartition des clients suivant leurs statuts en termes de churn pour chaque type de notation.

17,155

37,7116,7875

10,17

11,815

2,22 4,1425

credita

creditaa

creditb

creditc

creditde

creditgy

creditz


30


Ainsi, nous remarquons que la prévision faite précédemment n’est rien d’autre qu’une

illusion. En effet, dans le premier segment de crédit dénommé «credita», nous

observons que 47,53% des clients ayant eu la plus forte note ont prolongé leurs contrats

d’abonnement, et 52,46% l’ont suspendu. Cette structure de répartition des clients dans

ce premier segment est contre toute attente du fait de la nature de la notation, et se

répète de manière quasi identique dans les autres segments : nous observons

respectivement 48,78% de clients fidèles, c'est-à-dire qui désirent prolonger leurs

contrats d’abonnement, contre 51,21% de churners dans le deuxième segment

«creditaa», 47,68% de clients fidèles contre 52,31% de churners dans le troisième

segment «creditb», 53,17% de clients fidèles contre 46,82% de churners dans le

quatrième segment «creditc», 58,01% de clients fidèles contre 41,98% de churners

dans le cinquième segment «creditde», 50,56% de clients fidèles contre 49,43% de

churners dans le sixième segment «creditgy», et enfin 49,72% de clients fidèles contre

50,27% de churners dans le septième segment «creditz».

Plus spécifiquement, 79,92% de clients qui n’ont pas quitté l’entreprise ont une note

en deçà de la moyenne (type C) et 83,72% de churners ont une note supérieure à la

moyenne. Ce résultat est en adéquation avec certaines études faites par le passé. A titre

d’exemple et comme nous l’avons mentionné dans la revue de littérature, Ahn, Han et

0

10

20

30

40

50

60

70

credita creditaa creditb creditc creditde creditgy creditz

Churn 0

Churn 1

En pourcentage


31

Lee (2006) arrive à la conclusion selon laquelle les plus grands utilisateurs des services

offert par l’entreprise sont les plus probables au churn.

Ce résultat est confirmé par un test du khi-deux effectué dans la section 5 au premier

point.

II-2 Segmentation basée sur la situation matrimoniale.

La Figure 4 ci-dessous présente la répartition des statuts des clients suivant la situation

matrimoniale, et conjointement la répartition des clients mariés et non mariés suivant

leurs statuts en termes de churn.

Figure 4 : Répartition des statuts des clients suivant la situation matrimoniale et répartition des clients

mariés et non mariés suivant leurs statuts en termes de churn.


L’analyse montre une distribution presqu’identique dans chaque groupe de clients

(clients fidèles et churners). En effet, parmi les clients fidèles (respectivement les

churners), il y a 63,08% (respectivement 63,85%) qui ne sont pas encore mariés et

36,92% (respectivement 36,53%) qui le sont. Ainsi, nous dénotons une différence

quasi-nulle dans la structure de la répartition des de ces deux groupes de clients.

0

10

20

30

40

50

60

70

0 1

Marrié

Churn 0

Churn 1

48,8

49

49,2

49,4

49,6

49,8

50

50,2

50,4

50,6

50,8

0 1

Churn

Marrié 0

Marrié 1


32

Par contre, en procédant par une approche inverse, l’analyse montre une différence

entre les hommes mariés et ceux non mariés dans leurs répartitions suivant leurs statuts

en termes de churn. De manière explicite, parmi les clients non mariés (respectivement

mariés), 49,7% (respectivement 50,3%) prolonge leur contrat d’abonnement et 50,5%

(respectivement 49,6%) sont churners. Ce résultat mitigé nous amène à émettre des

réserves sur la propension d’une telle variable à expliquer le churn. Pour ce qui est du

test de khi-deux de pearson (section 5-2), il révèle une indépendance entre le statut

matrimonial et le churn. Ainsi, seule la modélisation empirique nous permettra de

savoir exactement ce qu’il en est. Nous étudions par la suite le churn en fonction des

réponses aux offres par mail.

II-3 Analyse du churn en fonction des réponses aux offres par mail.

La Figure 5 ci-dessous illustre la répartition des statuts des clients suivant leurs

réponses aux offres faites via mail.

Figure 5 : Répartition des statuts des clients suivant leurs réponses aux offres faites via mail.


A cet effet, la proportion de clients fidèles n’ayant pas répondu aux offres environne

61,4% tandis que celle des clients ayant répondu est estimée à 38,6%. En outre, la

0

10

20

30

40

50

60

70

0 1

Réponses aux offres faites via mails

Churn 0

Churn 1


33

proportion de churners n’ayant pas répondu aux offres est de 64,1% tandis que celle

des churners ayant répondu est de 35,9%. Ce résultat stipule en quelques sortes que le

fait pour le client d’accepter des offres de rétention lui-même implicitement à l’esprit

qu’il a la possibilité de churner. Mieux encore, cette dépendance est confirmée par le

test de khi-deux effectué à un degré de liberté (voir point 5-3 de la section) Les

entreprises en télécommunication le comprennent de plus en plus raison pour laquelle

elles essaient de prédire le churn afin de mieux cibler leurs interventions sur les clients

très probables churner et donc éviter d’influencer négativement les clients n’ayant pas

l’intention de churner par leurs offres.

II-4 Analyse du churn en fonction de la relation avec le service client.

Cette dernière partie de l’analyse descriptive, pour expliquer le churn, cherche à scruter

et à mettre en relief des informations à partie de la relation existante entre les individus

de l’échantillon d’étude et le service client.

Avant tout, Nous tenons à souligner qu’il est nécessaire de faire la différence entre

offres de rétention acceptées et offres par mail retenu car ces deux variables pourraient

porter à confusion.

Nous nous limiterons à l’analyse du nombre d’appels récemment effectués par les

clients en direction du service de rétention client, du nombre d’offres récentes du

service de rétention acceptées par les clients, et du nombre de rapports d’incidents

transmis par les clients.

Concernant le premier point, le Tableau 1 ci-dessous fait ressortir que, sur un total de

20 000 clients fidèles, environ 97,4% n’ont émis aucun appel vers le service de

rétention, soit un total de 19 485 clients fidèles. Ensuite, une part infime, soit 2,4% ont

eu à émettre un seule appel. Le pourcentage restant (0,4%) de clients montre que très

peu de clients ont émis plus de deux appels.

Tableau 1 : Comportement des clients suivant le nombre d'appels récemment fait vers le service

rétention client.


34

Nombre d’appels récemment fait vers le service

rétention client

0 1 2 3 4 Total

Churn

0 19485 473 37 5 0 20000

1 18898 1020 70 9 3 20000

Total 38383 1493 107 14 3 40000


Une analyse analogue relative aux churners montre que, sur un total de 20 000

churners, 94,5% n’ont émis aucun appel vers le service de rétention et 5,1% ont eu à

émettre un seule appel.

S’agissant du second point, le Tableau 2 ci-dessous montre que, sur un total de 20 000

clients fidèles, environ 98,6% n’ont accepté aucune offre récente provenant du service

de rétention, soit un total de 19 724 clients fidèles passifs aux offres. Ensuite, une part

infime, soit 1,3% ont eu à accepter une seule offre. La part restante (0,3%) de clients

montre que très peu de clients ont accepté plus de deux offres.

Tableau 2 : Comportement des clients suivant le nombre d’offres récentes de rétention client acceptées.

Nombre d’offres récentes de rétention client

acceptées

0 1 2 3 4 Total

Churn

0 19724 267 7 2 0 20000

1 19504 468 23 4 1 20000

Total 39228 735 30 6 1 40000


Pour ce qui concerne les churners, sur un total de 20 000 churners, 97,5% n’ont accepté

aucune offre récente provenant du service de rétention et 2,3% ont eu à accepter une

seule offre ; la part restante des churners étant négligeable.


35

Le dernier point, c'est-à-dire l’analyse du nombre de rapports d’incidents transmis par

les clients, est examiné en se référant à la Figure 6 suivante :

Figure 6 : Répartition des clients suivant leurs nombres de rapports d'incident effectués.


Sur cette figure, nous pouvons voir que, la majorité des clients qu’ils soient des clients

fidèles ou des churners ont tendance à n’effectuer aucun rapport d’incidence pendant

leur période de souscription. En effet, nous observons que sur un total de 20 000 clients

fidèles (respectivement 20 000 churners), 95,4% (respectivement 95,8%) de clients

n’ont effectué aucun rapport d’incidence vers le service client. Aussi, comme le constat

précédent, seulement une faible part de clients pris dans l’échantillon d’apprentissage

(4,3% de clients fidèles sur l’ensemble des clients fidèles et 3,9% de churners sur

l’ensemble des churners) ont effectué un seul rapport d’incidence. La part restante pour

chaque groupe de clients étant négligeable : très peu de client (0,3% pour les clients

fidèles et 0,3% pour les churners) ont effectué plus de deux rapports d’incidence. Le

test du khi-deux pour l’étude de l’indépendance entre es deux variables révèle une

dépendance pour l’analyse à 4 degrés de liberté.

En somme, il résulte d’après les analyses effectuées ci-dessus que la comparaison des

caractéristiques des clients fidèles et celles des churners dénote une différence non

0

20

40

60

80

100

120

0 1 2 3 4 5 6 7 9 11

Nombre de rapports d’incident fait par le client

Churn 0

Churn 1


36

significative. En particulier, ce constat laisse transparaitre une complexité pour la suite

de l’étude, car de prime abord la séparation des deux groupes de clients à partir de leurs

caractéristiques se fait difficilement.

Face à cette apparente indépendance entre les variables retenues pour l’analyse de

segmentation clientèle et le churn, nous avons effectué des tests de khi-deux dans les

points précédents. Les tableaux pour ces tests sont en annexe (annexe 2), mais nous en

donnons les principaux résultats dans le point suivant.

II-5 Principaux résultats des tests de khi-deux.

II-5-1 Test entre le churn et la catégorie de crédit.

Pour ce test nous avons crée une variable catégorie de crédit codée de la manière

suivante : 1 pour la catégorie a, 2 pour « aa », 3 pour « b », 4 pour « c », 5 pour « de »,

6 pour « gy », 7 pour « z ». A l’issue du test du Khi-deux de Pearson nous avons une

statistique de 178,1299 à 6 degrés de liberté et une p-value nulle. Ceci montre qu’il

existe bien une dépendance entre la catégorie de crédit et le churn au seuil de 5%.

II-5-2 Test entre le churn et la situation matrimoniale.

Le test effectué est un test à un degré de liberté et il nous donne une statistique de

2.5240 avec une p-value de 0.112 ; ce qui révèle une indépendance entre les deux

variables au seuil de 5%.

II-5-3 Test entre le churn et la réponse ou non aux offres faites par mail.

Ici, nous effectuons toujours un test à un degré de liberté et la statistique de khi-deux

est de 32.004 avec une p-value nulle mettant ainsi en exergue une dépendance

statistique au seuil de 5% entre le churn et la réponse ou non aux offres par mail.


37

II-5-4 Test entre le churn et le nombre d’appels au servie de rétention client

Ce test à 4 degrés de liberté révèle une dépendance statistique entre la variable churn

et la variable nombre d’appels au servie rétention client. La valeur de la statistique est

de 223.7055 et la p-value est nulle.

Dans la suite, nous chercherons à mettre en œuvre un modèle économétrique

permettant de prédire le churn avec un taux de classement acceptable : la prédiction se

fera en s’appuyant sur les caractéristiques des clients.

CHAPITRE III : MODELISATION ECONOMETRIQUE ET

PREDICTION DU CHURN.


38

Avant l’application sur les données dont nous disposons, il importe d’expliquer la

démarche que nous envisageons d’utiliser dans la réalisation de cette étude qui nous le

rappelons, utilisera la régression logistique.

Pour cette modélisation, nous avons constitué à partir de la base de données deux

échantillons dont l’un a servi à la modélisation et l’autre à la validation du modèle.

En effet, cette subdivision est toujours souhaitable dès lors que nous voulons obtenir

une évaluation crédible des performances de notre modèle. Elle reste pour l’instant la

meilleure méthode et donc la plus usitée pour la prévision de phénomènes qualitatifs

même si en appliquant cette subdivision nous courons le risque de compromettre

l’apprentissage en lui soustrayant une partie des données porteuses d’informations.

Pour la modélisation, la démarche méthodologique adoptée contient cinq parties que

nous présenterons dans la section suivante.

I- PRESENTATION DE LA DEMARCHE METHODOLOGIQUE.

Comme nous l’avons mentionné précédemment, cette démarche sera articulée autour

des cinq étapes suivantes en ce qui concerne la détermination du modèle de prédiction

à utiliser pour détection du churn.

Etape 1 : Estimation à priori

A cette étape, nous estimons un modèle logit sur un ensemble de variables

sélectionnées à partir de la revue de littérature et d’un premier test de corrélation des

variables quantitatives de notre base de données. Nous passons ensuite à l’étape

suivante qui consiste en un diagnostic du modèle priori.

Etape 2 : Diagnostic du modèle

Lors de la modélisation précédente, certains outliers et autre observations influentes

ont été susceptibles d’affecter négativement la qualité de la régression. De ce fait, il

apparait important de les détecter et de les retirer à l’aide d’indicateurs objectifs qui


39

sont le résidu de Pearson (𝑟𝑖), le résidu de Pearson standardisé (𝑟𝑖𝑠𝑡𝑑). En plus des deux

indicateurs précedent, leverage noté (ℎ𝑖𝑖) permet d’identifier les observations avec une

valeur extrême sur une variable explicative (points avec puissance élevée). De manière

plus pratique, on utilise une distance appelée distance de Cook pour la détection des

outliers dans un modèle de régression logistique. Elle représente la différence entre les

coefficients estimés par le modèle et les valeurs qui auraient été obtenues si

l'observation i avait été exclue de l'analyse. Toutes les distances pour toutes les

observations doivent être du même ordre de grandeur ; si ce n'est pas le cas, il y a de

bonnes raisons de penser que la ou les observations respectives biaisent l'estimation

des coefficients de régression. Les formules de ces différents paramètres sont les

suivants :

𝑟𝑖 = (𝑦𝑖 − ��𝑖) √��𝑖(1 − ��𝑖)⁄ , avec ��𝑖 = 𝑃(𝑦𝑖|𝑥𝑖 , ��)

ℎ𝑖𝑖 = ��𝑖(1 − ��𝑖)𝑥𝑖𝑣𝑎𝑟(��)𝑥𝑖′

𝑟𝑖𝑠𝑡𝑑 =

𝑟𝑖

1−ℎ𝑖𝑖

𝐶𝑖 = 𝑟𝑖2ℎ𝑖𝑖 (1 − ℎ𝑖𝑖)

2⁄

Où :

𝑦 est la variable dépendante

𝑥 est le vecteur de variables explicatives

�� est le vecteur de coefficients estimés

Si |𝑟𝑖| > 2 ou si|𝑟𝑖𝑠𝑡𝑑| > 2, on conclut que l’individu i est outlier.

Si|ℎ𝑖𝑖| > 2𝑘/𝑛, on conclut que l’individu est un point avec puissance élevée.

Si|𝐶𝑖| > 4/𝑛, on conclut que l’individu i est un point influent, il peut avoir une

influence sur le coefficient��.

k représente le nombre de variables explicatives et n le nombre d’observations de la

base de données. Pour une meilleure compréhension de l’utilisation de cet outil de


40

détection, le tableau suivant donne une représentation plus synthétique du seuil

tolérable pour chacun des quatre indicateurs de détection précédemment présentés.

Tableau 3 : Indicateurs de détection des observations suspectes et seuils de tolérances.

Source : Cours d’économétrie des variables qualitatives, KANGA Désiré et KEHO Yaya, 2012.

Il importe, en outre, de savoir que la violation de l’un des seuils par une observation

n’entraine pas directement son retrait de la base d’estimation. Il faudrait, en effet, un

non-respect de deux ou plusieurs de ces critères de décision pour valoir à une

observation d’être retirée. Ce retrait se justifiée par le fait que les observations

concernées sont les plus à même de conduire à la non validité du modèle ou

d’influencer les coefficients estimés.

L’analyse du diagnostic du modèle et la régression sont deux étapes fortement

imbriquées puisque le modèle est ré-estimé après avoir retiré les points « suspects ».

Etape 3 : Qualité d’ajustement du modèle

L’une des conditions que doivent respecter les modèles type logit est l’absence de

multicolinéarité entre les variables du modèle. Nous effectuerons donc au niveau de

cette étape les tests de multicolinéarité afin de nous assurer du respect de cette

hypothèse de base. En sus, nous réaliserons le test d’adéquation de Hosmer Lemeshow

(HL) et nous terminerons cette étape par l’étude du pouvoir prédictif de notre modèle.

Pour l’analyse du problème de multicolinéarité, nous utilisons la statistique VIF

(Variance inflation factors) comme le conseillent Chatterjee et Hadi (2006). Cette

méthode est mise en œuvre en régressant chacune des variables explicatives sur les

autres. En effectuant le calcul (1 – R²) à partir de chacune des régressions opérées, il

Indicateurs Seuils

𝒓𝒊𝒔𝒕𝒅 2

𝒓𝒊 2

𝒉𝒊𝒊 2𝑘/𝑛

𝑪𝒊 4/𝑛


41

est alors possible de savoir quelle part de la variance d’une variable explicative est

indépendante des autres variables explicatives, le calcul (1/(1-R²)) permettant alors

d’obtenir une statistique « VIF » pour chaque variable. Sous STATA, les VIFs sont

obtenus en utilisant la commande post-régression « vif ».

Pour conclure à la présence d’une multicolinéarité entre les prédicteurs, il faut qu’un

VIF pour au moins une variable explicative présente une valeur supérieure ou égale à

10 (même si certains auteurs vont jusqu’à 30) et/ou que la moyenne des VIFs soit

supérieure ou égale à 2. Dans le cas contraire, toutes les variables peuvent être

conservées. En cas de diagnostic négatif, il existe des méthodes de traitement de la

multicolinéarité. Il s’agit, entre autres, de la régression stepwise qui retient le modèle

composé des variables les plus corrélées avec variable à expliquer et les moins

corrélées entre elles. Plus précisément, Cette procédure consiste à introduire les

régresseurs un par un dans l’équation de régression et à ne conserver que ceux qui sont

les plus significativement associés avec la variable à expliquer. Les autres variables

explicatives sont alors éliminées de la régression. Sous STATA, on utilise la

commande « stepwise » à laquelle on ajoute l’option « pr » avant l’équation à estimer.

L’option « pr » permet d’afficher la plus petite probabilité (pr) pour laquelle la variable

associée doit être retirée de la régression. « pr » est une fonction à argument (un seuil

de probabilité), son argument est 0,2 car à ce seuil, il n’y a pas colinéarité selon

Chatterjee, Hadi et Price.

Quant au test de Hosmer Lemeshow, il permet de vérifier l’adéquation entre les

probabilités calculées aux probabilités prédites. En réalité, c’est une distance entre les

deux groupes de probabilité. Lorsque cette distance est petite on considère que le

modèle est bien calibré. Formellement, si on considère comme𝑛𝑗1, le nombre des

individus qui presentent effectivement la valeur y=1 dans la classe j, pour chaque

classe j, on calcule la probabilité moyenne de y=1 : 𝑝�� = 1

𝑛𝑗 ∑ 𝑝𝑖��𝑖€𝑗 . Si les probabilités

sont correctement évaluées, la statistique de Hosmer Lemeshow est définie par :

HL = ∑ (𝑛𝑗−𝑛𝑗∗𝑝𝑗 )

2

𝑛𝑗∗𝑝𝑗 (1−𝑝𝑗 )

𝐽𝑗=1 ~ 𝑋2(𝐽 − 2)


42

On note que 𝑛𝑗 ∗ 𝑝�� est l’espérance calculée du nombre d’individus présentant la

modalité y=1 dans la classe j et que 𝑛𝑗 ∗ 𝑝��(1 − 𝑝��) est la variance calculée de 𝑛𝑗1.

En ce qui concerne l’étude du pouvoir prédictif du modèle, on peut utiliser les

indicateurs de prédiction correcte qui sont la spécificité (𝑃(�� = 0|𝑦 = 0)), la

sensibilité (𝑃(�� = 1|𝑦 = 1).) et la courbe ROC.

Une bonne estimation de la spécificité est le taux de prédiction correcte de l’évènement

y = 1 et celle de la sensibilité est le taux de prédiction correcte de l’évènement y = 0.

La courbe ROC (Receiving Operating Curve) représente la sensibilité en fonction de

la spécificité. Elle permet d’évaluer la capacité du modèle à discriminer entre y=1 et

y=0. L’indicateur utilisé est la surface de la courbe ROC. Un ROC égal à 0.5 exprime

une absence de discrimination, un ROC entre 0.7 et 0.8 exprime une discrimination

acceptable, un ROC entre 0.8 et 0.9 exprime une très bonne discrimination et enfin, un

ROC supérieure à 0.9 dénote d’une discrimination exceptionnelle. Après avoir évalué

la performance de notre modèle et suite à sa validation, nous passons à l’interprétation

des coefficients et des effets marginaux.

Pour l’interprétation des coefficients, il ne faut pas perdre de vue que le modèle dans

lequel il intervienne n’est directement liée qu’avec la variable latente qui au delà d’un

certain seuil d’un certain seuil prévoit la réalisation de l’évènement « y = 1 ».

Ainsi, un coefficient de signe positif indique que la variable associée influence à la

hausse la probabilité de l’évènement « y = 1 » et un coefficient négatif signifie, au

contraire, que la variable associée influence à la baisse la probabilité de l’évènement

« y = 1 » et donc conduit à une plus grande probabilité de « y=0 ».

Après ces différentes interprétations, nous passerons à la dernière étape qui est celle

des recommandations quant à l’objectif visé et aux résultats obtenus.

II- MISE EN ŒUVRE DE LA METHODOLOGIE POUR LE

CAS CELL2CELL.


43

Etapes 1 et 2 : estimation du modèle et diagnostic

Les variables initialement retenues pour cette estimation sont l’ancienneté du client en

mois, le nombre de portables achetés auprès de la compagnie Cell2Cell, l’âge du chef

du ménage du client et celui du deuxième responsable du ménage, les variables binaires

« a un enfant ou non », « à la plus mauvaise note de crédit ou non », « vit en milieu

rural ou non », « a internet mobile ou non », « est marié ou non ». Il ya aussi le nombre

d’offres récentes de rétention client accepté) et la variable Nombre de rapport

d’incident fait par le client. Les résultats de cette première estimation sont consignés

dans le tableau suivant :

Tableau 4 : Les résultats de la première estimation.

Régression logistique

LR chi2(11) = 5575,77

Prob > CHI2 = 0,000

Pseudo R2 = 0,13

Ichurn_1 coeff écart

type

Z p>|z| intervalle de confiance à

95 %


44

Borne

inférieure

Borne

supérieure

N_mois 0,12 0,002 57,64 0,000 0,11 0,12

Port_ach -0,06 0,12 -5,46 0,000 -0,09 -0,04

Age1 -0,003 0,0008 -4,74 0,000 -0,0054 -0,0023

Age2 -

0,0000113

0,008 -0,01 0,99 -0,0016 0,0016

Enfant 0,06 0,033 1,89 0,06 -0,0022 0,13

Crédtiz 0,007 0,06 0,13 0,9 -0,11 0,13

Rur 0,03 0,05 0,49 0,62 -0,09 0,14

Acc_net -0,48 0,05 -10,14 0,000 -0,57 -0,39

Marrié -0,001 0,03 -0,03 0,98 -0,07 0,067

Retaccpt 0,69 0,09 7,1 0,000 0,5 0,875

Rapp_inc -0,07 0,05 -1,39 0,16 -0,17 0,03

Const -1,45 0,06 -23,08 0,000 -1,57 -1,33


Le modèle est globalement significatif, mais les tests de significativités individuelles

montrent qu’un peu plus de la moitié des variables explicatives soit un taux d’environ

54% ne sont pas significatives. Avant de procéder au test de multicolinéarité, nous

avons détecté d’abord les observations suspectes susceptibles de modifier les

estimations. Les indicateurs de détermination des observations suspectes ont été

calculés à partir des formules données précédemment. Le modèle sans les points

suspects est ré-estimé à nouveau et nous le nommons modèle 2. Les résultats sont

consignés dans le tableau 5.

Tableau 5: Présentation du modèle 2.

Churn coeff écart

type

z p>|z| intervalle de

confiance à 95 %

Borne

inférieure

Borne

supérieure


45

N_mois 0,17 0,0033 52,24 0 0,16 0,18

Port_ach -0,023 0,02 -1,09 0,28 -0,06 -0,018

Age1 -0,003 0,002 -2,13 0,03 -0,006 -0,003

Age2 -0,0014 0,001 1,29 0,2 -0,001 0,004

Enfant 0,04 0,041 0,99 0,3 -0,04 0,12

Crédtiz -0,2 0,36 -0,56 0,6 -0,9 0,5

Rur 0,06 0,24 -0,24 0,8 -0,53 0,42

Acc_net -0,58 0,08 -7,69 0 -0,72 -0,43

Marié 1,68 0,04 -0,95 0,34 -0,12 0,044

Retaccpt 1,68 0,82 2,05 0,04 0,07 3,28

Rapp_inc -0,15 0,13 -1,18 0,24 -0,4 0,1

Const -2,31 0,12 -19,87 0 -2,5 -2,1


Cette procédure a, certes, augmenté la significativité globale du modèle mais le taux

6/11 des variables non significatives souligné dans le premier modèle reste le même.

De plus, certaines variables voient leurs coefficients complètement modifié. C’est le

cas notamment de la variable « habite en milieu rural ou non » qui passe de 0,029 à -

0,05 voyant ainsi son signe modifié.

Nous passons ensuite au diagnostic de la qualité d’ajustement de notre modèle aux

données retenues pour l’étude.

Etape 3 : qualité d’ajustement du modèle

Test de multicolinéarité

Les résultats du test VIF sont les suivants :

Tableau 6 : Résultats du test VIF.

Variable VIF 1/VIF

age1 10,67 0,09

Acc_int 6,27 0,16


46

N_mois 4,93 0,2

age2 4,9 0,2

Port_ach 4,1 0,2

marié 2,79 0,35

enfant 1,69 0,59

Rapp_inc 1,03 0,97

retaccpt 1,02 0,98

rur 1,02 0,98

créditz 1,01 0,99

Moy VIF 3,58

Source: base de données Cell2Cell.

Le VIF est supérieur à 10 pour la variable age1 et la moyenne des VIFs est supérieure

à 1. Il ya donc multicolinéarité et nous traitons cette multicolinéarité à partir de la

régression « stepwise ».

Régression Stepwise

A l’issue de cette régression, les résultats obtenus ont été consignés dans le tableau ci-

après.

Tableau 7 : Présentation du modèle retenu.



47

Churn Coeff écart

type

z p>|z| intervalle de confiance à

95 %

N_mois 0,17 0,0033 53,2 0,000 [0,17;0,18]

Retaccpt 1,61 0,8 2,01 0,045 [0,04;3,2]

Age1 -0,003 0,002 -2,01 0,045 [-0,007;-0,00008]

Age2 0,0014 0,001 1,35 0,2 [-0,0006;0,003]

Acc_net -0,6 0,07 -7,97 0,000 [-0,73;-0,44]

const -2,35 0,11 -20,77 0,000 [-2,57;-2,13]


Les résultats montrent donc que la multicolinéarité vient d’au moins l’une des variables

suivantes : « le client vit en milieu rural ou non », « le client a-t-il la plus basse note de

crédit », « est-il marié ou non », « le client à t-il un enfant ou non », le nombre de

téléphones achetés par le client et le nombre de plaintes au service de rétention client.

Elles doivent donc être retirées du modèle. Après leur suppression, nous réglons le

problème de la multicolinéarité et nous obtenons un modèle constitué des variables les

plus à même d’expliquer le churn, puisque c’est l’objectif de la régression stepwise.

Le modèle retenu est celui proposé après la régression stepwise. Le modèle retenu est

celui qui est présenté dans le tableau précédent.

Test d’adéquation de Hosmer-Lemeshow

Les résultats contenus dans le tableau suivant montrent qu’il ya une net adéquation

entre probabilités calculées et probabilités théoriques. En effet, la p-value est inférieure

à 0.05.

Tableau 8 : Résultats du test de Hosmer-Lemeshow.

Nombre de groupes 10


48

Hosmer-Lemeshow

Chi2(8)

641,58

Prob > chi2 0


Nous utilisons par la suite d’autres caractéristiques afin d’apprécier la qualité

d’ajustement du modèle.

Le taux de bonne prédiction

Les résultats sont consignés dans le tableau qui suit. Ils montrent une bonne capacité

de prédiction du churn par le modèle. Soit un taux de 71% de bonne prédiction du

churn, un taux de 69,43% de prédiction correcte du non-churn et un taux globale de

bonne prédiction de 70,31.

Tableau 9 : Présentation des taux de prédiction.

Prob (+|D) (sensitivité) 71,06%

Prob (-|~D) (Spécificité) 69,43%

Prob (D|+) 73,11%

Prob (~D|-) 67,23%

Prob (+|~D) 30,57%

Prob (-|D) 28,94%

Prob (~D|+) 26,89%

Prob (D|-) 32,77%

taux global de prédiction

correcte

70,31%


+ : prédiction churn (1) ;

- : prédiction non churn (0) ;

D : individu ayant réellement churné ;

~ D : individu n’ayant pas réellement churné.


49

La courbe ROC

Graphique 1 : La courbe ROC du modèle retenu.

Source : nos calculs.

L’aire en dessous de la courbe ROC est de 0,8077 supérieure à 80%. On peut alors

conclure que le modèle a un bon pouvoir de discrimination. Ce résultat vient confirmer

encore le bon ajustement du modèle.

Le seuil retenu est de 0.5 car il maximise je couple (sensitivité, spécificité). Nous

pouvons le percevoir à travers le graphique suivant qui présente dans un même plan,

la fonction de la courbe de sensitivité en fonction du seuil et celle de la spécificité.

Graphique 2 : Présentation de la sensitivité et spécificité en fonction du seuil choisi.


50


Nous avons par la suite implémenté ce modèle sur l’échantillon de validation afin de

nous assurer de la qualité du modèle en termes de discrimination hors échantillon de

modélisation des individus. Nous ne reprendront pas cette modélisation puisqu’il s’agit

d’une vérification. Nous présenterons cependant les propriétés de cette extension faite

sur d’autres clients à partir de notre modèle de base.

Les résultats sont satisfaisants puisque le taux globale de prédiction correct est presque

de 100%. Les détails sur pouvoir prédictif du modèle hors échantillon sont donnés dans

le tableau suivant :

Tableau 10 : Taux de prédiction pour la procédure de vérification.


51

Prob (+|D) 0%

Prob (-|~D) 100%

Prob (D|+) .%

Prob (~D|-) 99.58%

Prob (+|~D) 0%

Prob (-|D) 100%

Prob (~D|+) .%

Prob (D|-) 0.42%

taux global de prédiction

correcte

99.58%


+ : prédiction churn (1) ;

- : prédiction non churn (0) ;

D : individu ayant réellement churné ;

~ D : individu n’ayant pas réellement churné.

Cette estimation sur l’échantillon de validation montre un taux global de prédiction

correcte de 99.58%.

INTERPRETATION DES RESULTATS.

Nous rappelons les résultats obtenus à partir du tableau suivant :

Tableau 11 : Rappel des résultats de l'estimation.


52


Churn Coeff écart

type

z p>|z| intervalle de confiance à

95 %

N_mois 0,17 0,0033 53,2 0,000 [0,17;0,18]

Retaccpt 1,61 0,8 2,01 0,045 [0,04;3,2]

Age1 -0,003 0,002 -2,01 0,045 [-0,007;-0,00008]

Age2 0,0014 0,001 1,35 0,2 [-0,0006;0,003]

Acc_net -0,6 0,07 -7,97 0,000 [-0,73;-0,44]

Const -2,35 0,11 -

20,77

0,000 [-2,57;-2,13]


Le modèle s’écrira de la manière suivante :

SPECIFICATION DU MODELE DE PREDICTION DU CHURN :

Équation 1 : spécification du modèle retenu :

𝒄𝒉𝒖𝒓𝒏 = {𝟎𝒔𝒊𝒀 ≤ 𝟎. 𝟓𝟏𝒔𝒊𝒀 > 𝟎. 𝟓

Avec

𝒀 = 𝟎. 𝟏𝟕 ∗ 𝑵𝒎𝒐𝒊𝒔 + 𝟏, 𝟔𝟕 ∗ 𝒓𝒆𝒕𝒂𝒄𝒄𝒑𝒕 − 𝟎, 𝟎𝟎𝟑 ∗ 𝑨𝒈𝒆𝟏 + 𝟎, 𝟎𝟎𝟏𝟒 ∗ 𝑨𝒈𝒆𝟐 − 𝟎, 𝟔

∗ 𝑨𝒄𝒄𝒏𝒆𝒕 − 𝟐, 𝟑𝟓

Nous obtenons, à partir de notre modélisation certains résultats que nous présentons

dans les paragraphes ci-après.

D’abord, plus un client gagne en ancienneté dans l’entreprise, plus il est enclin

à churner. Ceci pourrait se justifier par le fait que l’entreprise étudiée base sa


53

stratégie marketing uniquement sur l’acquisition de nouveaux clients5. Ainsi,

l’absence d’un suivi régulier des « anciens » clients Cell2Cell expliquerait ce

résultat. A titre illustratif et selon le document référé en note de bas de page,

plus de la moitié des clients figurant dans le portefeuille de Cell2Cell en début

d’exercice ont tendance à la quitter avant la fin de l’année.

Aussi, les clients qui ont tendance à recevoir et accepter des offres de rétention

client faites par Cell2Cell sont les plus susceptibles de churner. En effet, La

plupart des clients à risque élevé cumulent une insatisfaction soit en raison de

la qualité du service ou encore à cause des prix pratiqués par l’entreprise. Le

contact actif avec de tels clients, peut le pousser à finalement quitter l’entreprise

alors qu’un tel évènement aurait sûrement eu lieu beaucoup plus tard ou peut-

être pas du tout, s’il n’y avait pas eu cette sollicitation inopportune. Aussi, la

plupart de ces clients voient les remises et réductions exceptionnelles comme

des indicateurs de mauvaise qualité des produits à eux proposés. C’est ce qui

survient, également, lors des opérations de renouvellement d’abonnement

lorsque les actions d’incitation à la souscription rappellent à certains clients

qu’ils ont la possibilité de mettre fin à leurs engagements. Ils peuvent, donc,

être tentés de churner, même s’ils étaient à priori satisfaits. Un tel résultat

montre l’importance des études de scoring en télécommunication en vue mener

des actions ciblées produisant les résultats escomptés.

Ensuite, nous avons découvert que les clients appartenant à des ménages dont

les responsables sont les plus âgés sont plus fidèles à l’entreprise. Ceci pourrait

traduire le fait que les jeunes chefs de famille ont tendance à rechercher de

meilleures offres et ceci se reflète sur le comportement des membres de la

famille en termes de churn. Ce phénomène par contre n’est pas observé chez

le/la second responsable puisqu’il/elle n’influence pas significativement le

churn des clients Cell2Cell de sa famille. Ce résultat va dans le sens de

l’hypothèse de l’influence exercée par le chef de famille sur les autres membres.

5 Voir le document Terada center for customer relationship management at duke university, cell2cell : the

churn game, Durham, Page 6


54

Enfin, l’accès à internet augmente la probabilité d’un client à churner. Ceci est

sans doute dû à ses facilités d’accès à l’information en général et à l’information

sur les offres téléphoniques en particulier.

Ces résultats en disent long sur les mesures à prendre par Cell2Cell en vue de réduire

le taux de churn de ses clients. Nous faisons, à cet effet, des propositions dans la section

suivante dans la partie recommandations.


55

CONCLUSION ET RECOMMANDATIONS.

Au terme de cette étude, nous essaieront de confirmer ou non les hypothèses faites.

Nous remarquons que la première hypothèse a été vérifiée. En effet, avoir des clients

ayant une ancienneté importante au sein de l’entreprise n’est une garantie contre le

churn de ceux-ci. Ils sont ceux qui sont les plus tentés de rejoindre d’autres entreprises.

Il ne faut donc pas axer les démarches marketing de rétention uniquement vers les

nouveaux clients mais plus s’évertuer à maintenir la clientèle déjà dans le portefeuille

de l’entreprise. En ce qui concerne la seconde hypothèse, elle stipulait que l’accès à

internet aux clients est un moyen important pour les fidéliser. Elle est vérifiée à

condition que l’entreprise multiplie ses actions publicitaires sur le net pour faire de la

concurrence aux compagnies rivales incluant l’utilisation d’internet dans leurs

stratégies marketing. La troisième hypothèse par contre n’est pas vérifiée puisque notre

étude a montré que la multiplication des actions de rétention envers les clients les

encourage à churner puisque ces actions leur rappellent qu’il leur est possible de partir

et donc pourrait les inciter à mieux regarder les offres des entreprises concurrentes.

Nous faisons des recommandations par la suite à Cell2Cell dans l’optique de les inciter

à mener des actions envers les clients les plus à même de churner.

D’abord, en ce qui concerne le problème du churn chez les clients les plus « anciens »

nous préconisons un meilleur suivi de ces derniers. Ce constat de churn chez ce type

de clients est sans doute dû au fait que les responsable de l’entreprise considéraient

comme acquis les clients ayant fait un bon temps dans l’entreprise. Nous préconisons

donc à Cell2Cell de répertorier un certain pourcentage de clients rangés selon leur

ancienneté et de les suivre en leur faisant certaines largesse de temps à autre pour les

maintenir dans l’entreprise. On peut donc par exemple tenir la base des 10.000 clients

les plus anciens de l’entreprise et leur offrir des bonus pour les récompenser de leur

fidélité.

Ensuite, le second résultat stipulait que les offres de rétention en répétition ont tendance

à rappeler aux clients qu’il pouvait churner et donc que cet effet est à éviter. Pour ce


56

faire, nous préconisons que les actions de rétention soient menés uniquement vers les

clients les plus à même de churner c'est-à-dire ceux ayant les caractéristiques à risque

déterminés par le modèle.

Troisièmement, nous recommandons à l’entreprise de mieux suivre les clients chefs de

ménage les plus jeunes puisqu’il a été démontré dans cette étude qu’il exercent une

certaine influence sur le reste de leur ménage.

Enfin, et ce qui concerne le problème de l’internet, nous proposons à Cell2Cell de

multiplier sa publicité sur internet si possible au même titre que celle faite à la

télévision puisqu’il à été prouvé par cette étude qu’internet pourrait être un moyen

efficace pour mener sa stratégie concurrentielle.


57

BIBLIOGRAPHIE

Ahn J., Han S. et Lee Y., (2006), “Customer churn analysis : churn determinants and

mediation effects of partial defection in the Korean mobile telecommunication service

industry”, Telecommunications policy; N°30 ,Pages 552-568

Besse PHILIPPE & Laurent BÉATRICE (2012), Apprentissage Statistique : prévision

et data mining, Toulouse, cedex 4, 136 pages

Bhattacharya C. (1998), “When customers are membres : custumer retention in paid

membership contexts”, Journal of the Academy of Marketing Science, N° 26, Pages

31-44

Désiré KANGA et Yaya KEHO (2012), Les modèles dichotomiques probit et logit.

Ensea, Abidjan, 21 Pages

Gerpott T., Ram W., and Schindler A. (2001), “Customer retention, loyalty, and

satisfaction in the Germen mobile cellular telecommunications market”

Telecommunications policy, N°25, Pages 249-269

Terrence J. SEJNOWSKI (1999), The book of Hebb: The Organization of Behavior,

Californie, 4 pages

Hopfield (1982), Neural networks and physical systems with emergent collective

computational abilities, Californie, Vol. 79, pp. 2554-2558

Hung S., Yen D., and Wang H. (2006), «Applying data mining to telecom churn

management», Expert system with applications, N°31, pages 515-524

Kim H. and Yoon C. (2004), “Determinants of subscriber churn and customer loyalty

in the Korean mobile telephony market”, Telecommunications policy, N°28, pages

751-765

Li, S. (1995), « Survival analysis », Marketing Research, pages 7, 17-23

Leo BREIMAN (2001), random forests, California, 33 pages


58

Frédéric Fürst (2005), Histoire de l’intelligence artificielle, 16 pages

Robin GENUER and Sylvain ARLOT (2011), Analyse du biais de forets purement

aléatoires, Bordeaux, 6 pages

Rosenblatt F. (1958), “The perceptron: a probabilistic model for information storage

and organization in the brain”, Psychological Review, pages 65; 386-408

Rust R., and Zahorik A., (1993), “Customer satisfaction, customer retention, and

market share”, Journal of Retailing, N° 69, pages 193-215

Seo D., Ranganathan C., and Babad Y., (2008), “Two-level model of customer

retention in the US mobile telecommunication service market”, Telecommunications

policy, N°32, pages 182-196

Wei C. and Chiu I. (2002), “Turning telecommunications call details to churn

prediction: a data mining approach”, Expert systems with applications, N°23, pages

103-112

Yan L., Fassino M. and Baldasare P. (2005), Predicting customer behavior via calling

Links; Proceedings of international joint conference on neural networks, Montreal,

pages 2555-2560

Zeithaml V., Leonard L., and Parasuraman A., (1996), “The behavioral consequences

of service quality”, Journal of Marketing, N°60, pages 31-46


59

ANNEXES.

Annexe 1 : Présentation de la base de données utilisées pour l’étude.

Pour cette étude nous avons considéré une base de données contenant 78 variables

provenant du processus de recueil de données clients effectué par la société Cell2Cell.

Cell2Cell est la 6ème plus grande compagnie de téléphonie aux Etats-Unis avec environ

10 millions de souscripteurs. Dans la base de données utilisée, les montants moyens

sont calculés sur la base d’observations faites sur une période de mois sur les clients

de Cell2Cell.

Les variables prises en compte sont les suivantes :

1. Revenu : le revenue moyen mensuel ;

2. Nms : le nombre de minutes souscrites en moyenne mensuellement ;

3. Frais : le montant total moyen des frais de pris au client ;

4. Napp_asT : nombre moyen d’appel assisté6 ;

5. Dela : nombre moyen de minutes utilisées au delà du contrat souscrit ;

6. Int : nombre moyen d’appels type international ;

7. Changem : variation moyenne des minutes ..souscrites ;

8. Changer : Variation moyenne du revenu ;

9. Tech : nombre moyen d’appel rompus pour des problèmes techniques ;

10. Interloc : nombre moyen d’appels interrompus par l’autre interlocuteur ;

11. srep : nombre moyen d’appels restés sans réponse ;

12. SC : nombre moyen d’appels au service client

13. Conf : nombre moyen d’appels type conférence

14. Rec : nombre moyen de minutes en termes de d’appels reçus

15. Intra : nombre moyen d’appels intra-réseau

16. Extra : nombre moyen d’appels vers d’autres réseaux

6 Type d’appel précis existant aux états unis et coutant une certaine somme


60

17. App_peak : nombre moyen d’appels (intra ou extra) durant les périodes de la

journée où les prix sont élevés

18. App_bas : nombre moyen d’appels (intra ou extra) durant les périodes de la

journée où les prix sont réduits7

19. Tech_interloc : nombre moyen d’appels rompus pour problèmes techniques ou

par l’interlocuteur

20. Transf : nombre moyen d’appels transférés à un autre numéro

21. Attente : Nombre d’appel où le client a mis l’interlocuteur en attente

22. Churn : churn entre 31 et 60 jours après la période d’observation

23. N_mois : ancienneté du client

24. Uniqsubs : nombre des « uniq subs »

25. Actvsubs : nombre des « Active subs »

26. Ac : aire de communication du client

27. Port_ach : nombre de portables achetés

28. Models : Nombre de modèles de portables parmi ceux achetés

29. Eqpsjours : ancienneté du portable détenu par le client

30. ID_client : identifiant du client

31. Age1 : âge du chef de ménage du client

32. Age2 : Age du second du ménage en termes d’autorité

33. Enfant : Présence ou non d’un enfant dans le ménage

34. Credita : notation crédit du client type A (plus forte note)

35. Creditaa : notation crédit du client type AA (forte note)

36. Creditb : notation crédit du client type B (bonne note)

37. Creditc : notation crédit du client type C (note moyenne)

38. Creditde : notation crédit du client type DE (faible note)

39. Creditgy : notation crédit du client type GY (très faible note)

40. Creditz : notation crédit du client type Z (plus faible note)

41. rur : milieu de vie du client type rural

42. urb : milieu de vie du client type urbain résidentiel (banlieue)

43. urb_gv : milieu de vie du client type grande ville

7 Chercher la période aux Etats-Unis


61

44. neuf : le téléphone est neuf

45. Acc_net: le téléphone a accès à internet

46. Pick-up : le souscripteur a une voiture type pick-up ou 4x4

47. Vl: le souscripteur a une voiture de luxe

48. Occprof : Le souscripteur est professionnel

49. Occ_bur : Le souscripteur est bureaucrate

50. Occ_art : Le souscripteur est artisan

51. Occ_etud : Le souscripteur est étudiant

52. Occ_men : La souscriptrice est ménagère

53. Occ_retr : Le souscripteur est retraité

54. Occ_pchef : Le souscripteur s’emploie lui-même

55. Maison_mq : la valeur de la variable propriétaire de maison ou non est

manquante

56. Matr_mq : la valeur de la variable statut matrimonial est inconnue

57. Marrié : Le souscripteur est marié

58. N_Marié : Le souscripteur est non marié

59. Mail_ach : Le souscripteur achète par mail

60. Mail_rep : Le souscripteur répond aux offres faites via mail

61. Ref_mailsol : Le souscripteur a choisi de ne pas être sollicité par mail

62. Voyage : Le souscripteur a travaillé dans un pays étranger

63. Pc : Le souscripteur a un ordinateur portable

64. Cartcred : Le souscripteur possède une carte de crédit

65. Retapp : Nombre d’appels récemment fait vers le service rétention client

66. Retaccpt : Nombre d’offres récentes de rétention client accepté

67. Nouv_port : Le souscripteur un nouvel utilisateur de portables

68. N_nouv_port : Le souscripteur n’est pas un nouvel utilisateur de portables

69. Rapp_inc : Nombre de rapport d’incident fait par le client

70. Salaire_mq : La valeur de la variable salaire est manquante

71. Revenu_mq : Revenu (en prenant 0 pour manquante)

72. Moto : Le souscripteur possède une motocyclette

73. Ajus_cred : Nombre d’ajustement de la note crédit du client effectué


62

74. P_phone_mq : Le prix du téléphone est manquant

75. Prix_phone : Prix du téléphone : (en prenant 0 pour manquante)

76. Ret_app : Le client a appelé le service client

77. Calibrag : Le client est dans l’échantillon de calibrage (1) ou non (0)

78. Churndep : churn (manquant dans l’échantillon de validation)


63


64

Annexe 2 : Présentation des résultats des tests de khi-deux effectués en analyse

descriptive.

Pearson chi2(4) = 223.7055 Pr = 0.000

Total 3 40,000 1 3 20,000 0 0 20,000 churn 4 Total retcalls

Total 107 14 40,000 1 70 9 20,000 0 37 5 20,000 churn 2 3 Total retcalls

Total 38,383 1,493 40,000 1 18,898 1,020 20,000 0 19,485 473 20,000 churn 0 1 Total retcalls

. tabulate churn retcalls, chi2

Pearson chi2(1) = 32.0044 Pr = 0.000

Total 25,103 14,897 40,000 1 12,825 7,175 20,000 0 12,278 7,722 20,000 churn 0 1 Total mailres

. tabulate churn mailres, chi2

Pearson chi2(1) = 2.5240 Pr = 0.112

Total 25,387 14,613 40,000 1 12,770 7,230 20,000 0 12,617 7,383 20,000 churn 0 1 Total marryyes

. tabulate churn marryyes, chi2

Pearson chi2(6) = 178.1299 Pr = 0.000

Total 6,862 15,084 6,715 4,068 4,726 888 1,657 40,000 1 3,600 7,726 3,513 1,905 1,984 439 833 20,000 0 3,262 7,358 3,202 2,163 2,742 449 824 20,000 churn 1 2 3 4 5 6 7 Total cred

. tabulate churn cred, chi2

Total 6,862 15,084 6,715 4,068 4,726 888 1,657 40,000 1 3,600 7,726 3,513 1,905 1,984 439 833 20,000 0 3,262 7,358 3,202 2,163 2,742 449 824 20,000 churn 1 2 3 4 5 6 7 Total cred

. tabulate churn cred

end of do-file.

(1657 real changes made). replace cred = 7 if creditz ==1

(888 real changes made). replace cred = 6 if creditgy ==1

(4726 real changes made). replace cred = 5 if creditde ==1

(4068 real changes made). replace cred = 4 if creditc ==1

(6715 real changes made). replace cred = 3 if creditb ==1

(15084 real changes made). replace cred = 2 if creditaa ==1

(33138 missing values generated). gen cred = 1 if credita==1


65

Annexe 3 : Présentation des différents types de réseaux de neurones.

D’abord, nous abordons la grande famille des réseaux à apprentissage supervisé sans

rétro propagation qui contient le perceptron, le réseau ADALINE ou encore Adaptive

Linear Neuron et l’Associative Reward-Penalty pour ne citer que ceux-ci.

Le perceptron est considéré comme étant le réseau de neurones le plus simple et est la

première application reconnue du principe des réseaux neuronaux introduits par Pitts

et McCulloch en 1943. Il existe plusieurs types de Perceptron, toutefois sous sa version

la plus simple, il est conçu à partir d’une seule couche constituée d’un unique neurone

connecté à n entrées :

Figure 7 : Perceptron simplifié à fonction d’activation de Heaviside.

Le Perceptron utilise la fonction de Heaviside comme fonction d’activation, il calcule

sa sortie de la façon suivante :

Quant à l’ADALINE, il est identique au Perceptron, il n’en diffère que par sa fonction

d’activation qui est une fonction linéaire en lieu et place de la fonction échelon utilisée

sur le Perceptron. Les réseaux de neurones de type ADALINE utilisent la méthode des


66

moindres carrés, ce qui permet de réduire considérablement les parasites reçus en

entrée.

Figure 8 : Réseau ADALINE à fonction d'activation linéaire.

Un réseau de type ADALINE réalise une somme pondérée des valeurs qu’il reçoit en

entrée, à laquelle il rajoute la valeur de seuil Ɵ, une fonction de transfert linéaire est

ensuite utilisée pour l’activation du neurone. Lors de l’apprentissage, les poids sont

modifiés en utilisant la loi de Widrow-Hoff.

Nous terminerons la présentation de la grande famille des réseaux de neurone à

apprentissage supervisé sans rétro propagation en abordant le réseau associative

reward-penalty ou réseau ARP, Proposé en 1985 et utilisant le principe de

fonctionnement de l’apprentissage par renforcement. Ceci signifie que le réseau reçoit

une récompense ou une pénalité selon la justesse de son information de sortie.

La deuxième grande famille de réseaux concerne ceux dits à apprentissage supervisé

avec rétro propagation. Avant tout propos il importe de dire que la technique de

rétropropagation (Backpropagation en anglais) est une méthode qui permet de calculer

le gradient de l'erreur pour chacun des neurones du réseau, de la dernière couche vers

la première. Ainsi, bien qu’on appelle souvent technique de rétropropagation du

gradient l'algorithme classique de correction des erreurs basé sur le calcul du gradient

grâce à la rétropropagation, cela n’est pas toujours le cas. La correction des erreurs

peut se faire selon d'autres méthodes, comme le calcul de la dérivée seconde ou


67

partielle que l’on emploie dans certains réseaux. Souvent, dans le cas des réseaux de

neurones, la méthode de correction d’erreur agit en corrigeant de manière significative

les coefficients synaptiques qui contribuent à engendrer une erreur importante tout en

pondérant également les neurones générant une erreur moins conséquente.

Ces méthodes de rétropropagation du gradient firent l'objet d’études dès 1975, puis en

1985 mais ce sont les travaux de Rumelhart, Hinton & Williams en 1986 qui suscitèrent

le véritable début de l'engouement pour cette méthode avec sa première application

dans le Perceptron multicouche. C’est grâce à la rétropropagation du gradient que les

réseaux de neurones ont de nouveau suscité l’intérêt de la communauté scientifique.

L’algorithme de rétropropagation est le suivant :

1. Présentation d’un motif d’entraînement au réseau.

2. Comparer la sortie du réseau avec la sortie ciblée, calculer l’erreur en sortie de

chaque neurone du réseau.

3. Pour chaque neurone, calculer ce que la sortie aurait due être ainsi qu’un facteur

d’échelle permettant de définir l’augmentation ou la diminution nécessaire pour

obtenir la sortie attendue.

Cette information devient l’erreur locale.

4. Ajuster les coefficients synaptiques à l’erreur locale la plus basse.

5. Attribuer un blâme pour l’erreur locale à tous les neurones en amont, assignant une

plus grande responsabilité aux neurones connectés avec un plus grand coefficient

synaptique.

6. Recommencer à partir de l’étape 3 sur les neurones en amont en utilisant le blâme

comme erreur.

Plusieurs réseaux utilisent que nous énoncerons brièvement utilisent le principe de la

retro propagation. Ce sont :

- Le Perceptron multicouche :

C’est réseau orienté de neurones artificiels organisés en couches et où l’information ne

circule que dans un seul sens : de la couche d’entrée vers la couche de sortie. La couche

d’entrée représente toujours une couche virtuelle associée aux entrées du système et ne


68

contient donc aucun neurone. Les couches suivantes, elles, sont constituées de

neurones. Les sorties des neurones de la dernière couche correspondent toujours aux

sorties du système. Un Perceptron multicouche peut posséder un nombre de couches

quelconque et chaque couche peut comporter un nombre de neurones (ou d’entrées, si

il s’agit de la couche d’entrée) également quelconque.

- L’Adaptive Logic Network :

Un « Réseau logique adaptatif » ou Adaptive Logic Network (ALN) est une forme

particulière de Perceptron multicouches. Il peut être décrit comme un arbre binaire, où

les neurones effectuent des opérations logiques. Les entrées d’un ALN sont des

variables binaires, et sont réparties en deux groupes : les entrées binaires et les entrées

complémentaires (qui sont également encodée sous forme binaire). Chaque neurone

d’entrée est connecté à deux variables binaires, provenant soit de l’ensemble dit «

binaire » soit de l’ensemble dit « complémentaire », soit une de chaque.

Time Delay Neural Network

Le « réseau de neurones par délais temporel » ou Time Delay Neural Network

(TDNN), et un réseau ont l’originalité se situer sur sa méthode de traitement des

informations reçues. Le TDNN utilise plusieurs séries d’informations pour n’obtenir

qu’une seule sortie. Si au premier abord cette méthode de traitement peut sembler

latente, elle est en fait particulièrement intéressante car elle permet de traiter une

information qui évolue dans le temps et ainsi, d’affiner sa réponse.


69

Figure 9: Time Delay Neural Network – modèle générique.

Un TDNN se caractérise ainsi par :

- Son nombre de couches.

- Son nombre de neurones de chaque couche selon la direction temporelle (Temps t).

- Le nombre de neurones de chaque couche, ici, nous avons deux neurones par couche).

- La taille du champ temporel vue par chaque couche (sauf celle d'entrée), le nombre

de neurones de la couche i vu par un neurone de la couche i+1 (dans notre cas, quatre

neurones).

- Le délai temporel entre chaque champ.

La troisième et dernière classe de réseaux est celle des réseaux à apprentissage non-

supervisé avec rétro propagation.

Dans les réseaux à apprentissage non supervisé, les neurones sont en compétition pour

être actifs. Ils sont à sortie binaire et son généralement considérés actifs lorsque leur

sortie vaut 1. Alors que dans les autres règles plusieurs sorties de neurones peuvent

être actives simultanément, dans le cas de l'apprentissage compétitif, un seul neurone

est actif à un instant donné. Chaque neurone de sortie est ainsi spécialisé pour « détecter

» une suite de formes similaires et devient alors un détecteur de caractéristiques.


70

La fonction d’entrée est dans ce cash = φ − dist(w, x), où φ, w et x sont

respectivement le seuil, le poids synaptique et l’entrée.

Le neurone gagnant est celui pour lequel h est maximum. Ce qui signifie, dans le cas

où les seuils sont identiques, celui dont le poids est le plus proche de l’entrée. Le

neurone dont la sortie est maximale sera le vainqueur et sa sortie sera mise à 1 alors

que les perdants auront leur sortie mise à 0. Un neurone apprend en déplaçant ses poids

vers les valeurs des entrées qui l'activent pour augmenter ses chances de gagner. Si un

neurone ne répond pas à une entrée, aucun ajustement de poids n'intervient. Si un

neurone gagne, une portion des poids de toutes les entrées est redistribuée vers les

poids des entrées actives. On est ainsi amené à observer un déplacement des neurones

vers les valeurs d’entrées avec des surprenants résultats tant ils imitent la réalité.

Un réseau bien connu et appartenant à cette classe est le Kohonen Self Organizing Map

ou encore cartes auto adaptatrices. Il s’agit d’un réseau à apprentissage non supervisé,

développé par Teuvo Kohonen en 1984 et qui établissent une carte discrète, ordonnée

topologiquement, en fonction de patterns d'entrée. Le réseau forme ainsi une toile dont

chaque noeud est un neurone associé à un vecteur de poids. La correspondance entre

chaque vecteur de poids est calculée pour chaque entrée. Par la suite, le vecteur de

poids ayant la meilleure corrélation, ainsi que certains de ses voisins, vont être modifiés

afin d'augmenter encore cette corrélation. On retrouve dans cette procédure, le principe

de fonctionnement des réseaux Linear Vector Quantization, étudiés plus tôt et

également développés par Kohone.

Annexe 4 : Evaluation d’un modèle de régression logistique.

Plusieurs outils existent pour évaluer l’efficacité du modèle de régression logistique.

En général, elles se tiennent soit à confronter les valeurs observées de la variable Y(w)


71

avec les prédictionsY(w), soit à comparer les vraies valeurs π avec celles prédites par

le modèle�� . Nous présentons ici une liste de méthodes. Entre autres, nous avons :

La matrice de confusion

Cet outil confronte toujours les valeurs observées de la variable dépendante avec celles

prédites en comptabilisant les bonnes et les mauvaises prédictions. Son intérêt est

qu'elle permet à la fois d'appréhender la quantité de l'erreur (le taux d'erreur) et de

rendre compte de la structure de l'erreur (la manière de se tromper du modèle).

Les indicateurs utilisés sont la spécificité, la sensibilité, le taux d'erreur, le taux de

succès.

La spécificité est la capacité du modèle à prévoir avec exactitude un non churn et la

sensivité sa capacité à prévoir avec exactitude un churn. Le taux d’erreur est en

pratique le rapport entre le nombre de mauvaises prédictions et la taille de l’échantillon.

Le taux de succès quant à lui est le taux complementaire au taux d’erreur.

Diagramme de fiabilité

Quant à cet outil, il permet de confronter les probabilités estimées par le modèle avec

celles observées dans le fichier de données. Ici également, si nous en avons la

possibilité, nous avons tout intérêt à construire le diagramme à partir des données tests

n'ayant pas participé à l'élaboration du classifieur.

Test de Hosmer-Lemeshow

Il s’agir d’un test qui relève à peu près de la même logique que le diagramme de

fiabilité. Ce test est basé sur une statistique qui permet d’apprécier la qualité des

estimations de ( )w

: il s’agit de la statistique de Hosmer-Lemeshow. (Voir encadré

pour détaille).

Le test de Mann-Whitney


72

Ce test compare les distributions des scores conditionnellement aux classes

d'appartenance. Lorsque le modèle est de bonne qualité, les distributions

conditionnelles des scores sont bien différenciées; dans le cas contraire, elles sont

confondues.

La courbe de ROC

1. Elle propose un outil graphique qui permet d'évaluer et de comparer globalement le

comportement des classifieurs.

2. Elle est indépendante des coûts de mauvaise affectation. Elle permet par exemple de

déterminer si un classifieur surpasse un autre, quelle que soit la combinaison de coûts

utilisée.

3. Elle est opérationnelle même dans le cas des distributions très déséquilibrées. Mieux,

même si les proportions des classes ne sont pas représentatives des probabilités a priori

dans le fichier - c'est le cas lorsque l'on procède à un tirage rétrospectif c.-à-d. on fixe

le nombre de positifs et négatifs à obtenir, et on tire au hasard dans chaque sous-

population - la courbe ROC reste valable.

La courbe ROC met en relation le taux de vrais positifs TVP (la sensibilité, le rappel)

et le taux de faux positifs TFP (TFP = 1 - Spécificité) dans un graphique nuage de

points. Habituellement, nous comparons ^π(ω) à un seuil s = 0.5 pour effectuer une

prédiction ^y(ω). Nous pouvons ainsi construire la matrice de confusion et en extraire

les 2 indicateurs précités. La courbe ROC généralise cette idée en faisant varier s sur

tout le continuum des valeurs possibles entre 0 et 1. Pour chaque configuration, nous

construisons la matrice de confusion et nous calculons TVP et TFP.

TABLE DES MATIERES

AVANT PROPOS ............................................................... Erreur ! Signet non défini.

SIGLES ET ABBREVIATIONS ............................................................................... 3

LISTE DES ILLUSTRATIONS ................................................................................ 4


73

Liste des tableaux ............................................................................................................................. 4

Liste des graphiques ......................................................................................................................... 4

Liste des figures ................................................................................................................................ 4

Liste des équations ............................................................................................................................ 4

RESUME ..................................................................................................................... 5

ABSTRACT ................................................................................................................. 5

INTRODUCTION ...................................................................................................... 7

CHAPITRE 1 : CADRE CONCEPTUEL ET REVUE DE ............................... 11

LA LITTERATURE. .............................................................................................. 11

I- DEFINITION DE CONCEPTS .............................................................................................. 11

I-1 Le concept de Churn ............................................................................................................. 11

I-2 Le scoring .............................................................................................................................. 11

II- REVUE THEORIQUE : PRESENTATION DES METHODES DE SCORING .............. 12

II-1 Les techniques les plus utilisées pour la prévision du churn ............................................... 13

II-1-1 La régression logistique ................................................................................................ 13

II-1-2 Les réseaux de neurones ............................................................................................... 17

II-1-3 Les arbres de décision. ................................................................................................. 20

II-2 Autres techniques utilisables................................................................................................ 21

II-2-1 les random forests ......................................................................................................... 21

II-2-3 Les machines à vecteurs de supports (SVM). ............................................................... 22

III- REVUE EMPIRIQUE ........................................................................................................ 22

CHAPITRE 2 : ANALYSE DES CARACTERISTIQUES DE LA CLIENTELE

CELL2CELL: UNE ETUDE PAR SEGMENTATION CLIENTS. ................... 26

I- PRESENTATION DES DONNEES DE L’ETUDE .............................................................. 27

II- ANALYSE DESCRIPTIVE. .............................................................................................. 27

II-1 Segmentation basée sur la notation crédit du client ............................................................. 27

II-2 Segmentation basée sur la situation matrimoniale ............................................................... 31

II-3 Analyse du churn en fonction des réponses aux offres par mail .......................................... 32

II-4 Analyse du churn en fonction de la relation avec le service client. ..................................... 33

II-5 principaux résultats des tests de khi-deux ............................................................................ 36

II-5-1 test entre le churn et la catégorie de crédit ................................................................... 36

II-5-2 test entre le churn et la situation matrimoniale ............................................................. 36


74

II-5-3 test entre le churn et la réponse ou non aux offres faites par mail ................................ 36

II-5-4 test entre le churn et le nombre d’appels au servie de rétention client ......................... 37

CHAPITRE III : MODELISATION ECONOMETRIQUE ET PREDICTION

DU CHURN. ............................................................................................................. 37

I- PRESENTATION DE LA DEMARCHE METHODOLOGIQUE ........................................ 38

Etape 1 : Estimation à priori ........................................................................................................... 38

Etape 2 : Diagnostic du modèle ...................................................................................................... 38

Etape 3 : Qualité d’ajustement du modèle ...................................................................................... 40

II- MISE EN ŒUVRE DE LA METHODOLOGIE POUR LE .............................................. 42

CAS CELL2CELL .......................................................................................................................... 42

Etapes 1 et 2 : estimation du modèle et diagnostic ......................................................................... 43

Etape 3 : qualité d’ajustement du modèle ....................................................................................... 45

INTERPRETATION DES RESULTATS ...................................................................................... 51

CONCLUSION ET RECOMMANDATIONS ....................................................... 55

BIBLIOGRAPHIE ................................................................................................... 57

ANNEXES ................................................................................................................. 59

Annexe 1 : présentation de la base de données utilisées pour l’étude ............................................ 59

Annexe 2 : Présentation des résultats des tests de khi-deux effectués en analyse descriptive. ....... 64

Annexe 3 : Présentation des différents types de réseaux de neurones ............................................ 65

Annexe 4 : Evaluation d’un modèle de régression logistique ......................................................... 70

TABLE DES MATIERES ........................................................................................ 72

mise en place d’un modèle de scoring : application au

Documents