page de garde nassim khemliche - institut des actuaires
TRANSCRIPT
P a g e | 3
Résumé
Le marché de l’assurance habitation étant en constante évolution en termes de compétitivité et de
besoins clients, les assureurs se doivent de proposer un tarif de plus en plus fin et adapté aux risques
des assurés. AXA France a donc décidé d’élaborer une nouvelle gamme de produit MultiRisques
Habitation (MRH) dans le but de proposer un tarif compétitif, robuste et qui prend en compte la
segmentation client.
Dans le cadre de la création d’une nouvelle offre d’assurance habitation, ce mémoire a pour objectif
de déterminer la prime commerciale de l’assurance spécifique du Propriétaire Non Occupant (PNO)
et également l’étude de la distance tarifaire de la nouvelle gamme PNO par rapport à l’ancienne
gamme.
En ce sens, la modélisation se déroulera en trois étapes : tout d’abord, nous modéliserons la prime
pure des différents risques pris en charge par l’assurance PNO (bris de glace, dégâts des eaux, vol,
incendie, responsabilité civile, évènements climatiques et catastrophes naturelles), puis nous
déterminerons la prime technique et enfin la prime commerciale.
P a g e | 4
Abstract
As the home insurance market is constantly evolving in terms of competitiveness and customer
needs, insurers must offer a finer and finer tariff adapted to the risks of policyholders. AXA France
has therefore decided to develop a new range of home insurance products in order to offer a
competitive, robust price that takes into account customer segmentation.
In the context of the creation of a new home insurance offer, this study aims to determine the
commercial premium of the specific Non-Occupant Owner's Insurance (PNO) and also the study of
the tariff distance of the new PNO range from the old one.
In this sense, the modelling will be carried out in three stages: first, we will model the pure premium
for the various risks covered by PNO insurance (glass breakage, water damage, theft, fire, civil
liability, climatic events and natural disasters), then we will determine the technical premium and
finally the commercial premium.
P a g e | 5
Note de synthèse
L’objet de ce mémoire est de déterminer la prime commerciale spécifique du produit Propriétaire
Non Occupant (PNO).
Cette assurance est destinée au propriétaire qui met en location un logement (maison ou
appartement). Elle permet de le protéger en cas de survenance d’un ou de plusieurs sinistres.
Les garanties prises en charge par l’assurance PNO sont le bris de glace, le dégât des eaux, le vol,
l’incendie, la responsabilité civile, les évènements climatiques et les catastrophes naturelles.
L’objectif principal de cette étude est de créer un modèle prédictif de la sinistralité future des affaires
nouvelles. Nous chercherons à améliorer la qualité de prédiction du coût d’un contrat et à obtenir
une meilleure sélection des risques.
Actuellement, l’offre Propriétaire Non Occupant proposée ne tient pas compte de la segmentation
client. Le modèle utilisé se base sur un modèle commercial toutes garanties confondues.
Il est donc essentiel de mettre en œuvre une refonte complète des modèles de prédiction du produit
Propriétaire Non Occupant afin de prendre en compte la répartition hétérogène de la sinistralité sur
les différentes garanties. Nous allons créer un modèle par risque visant à prédire les primes pures
des différentes garanties.
De plus, la prime vendue actuellement est opaque et ne permet pas de dissocier les différents
niveaux de prime qui composent le tarif vendu.
La prime vendue se décompose en plusieurs niveaux :
· la prime pure (P1) :
Prime minimale requise pour faire face à la sinistralité du portefeuille avec une rentabilité nulle.
· la prime technique (P2) :
Prime pure sécurisée par des chargements additifs et multiplicatifs permettant de faire face à la
charge sinistre des assurés et aux différents frais.
· la prime commerciale (P3) :
Prime vendue assurant un minimum de rentabilité à la compagnie.
La refonte du produit PNO va nous permettre également d’obtenir un tarif dissociant la prime pure,
la prime technique et la prime commerciale. Cela nous permettra ainsi d’analyser la contribution de
chaque composante (P1, P2 et P3) au tarif final et de pouvoir faire des ajustements si nécessaire sur
P2 et P3 sans toucher à P1.
Notre étude est constituée de cinq parties :
P a g e | 6
Partie 1 :
Dans une première partie, nous allons essayer de comprendre la spécificité de l’assurance
Propriétaire Non Occupant. En ce sens, nous allons présenter le périmètre de l’assurance PNO, la
composition de ce portefeuille et la sinistralité des PNO.
Cette partie sera également l’occasion de comparer la sinistralité des Propriétaires Non Occupants
(PNO) à celle des Propriétaires Occupants (PO). Pour cela, nous calculons le coût moyen, la fréquence
et la prime pure pour chacune des garanties mentionnées précédemment. Cette étude permet de
comparer les risques PNO et PO. A l’issue de cette étude, nous remarquons qu’en termes de coûts
moyen, les valeurs sont proches entre les PNO et les propriétaires occupants. Néanmoins, la
fréquence de sinistralité des PNO est inférieure à celle des PO. Ceci peut s’expliquer par le fait que
dans la plupart des cas, c’est l’assurance locataire qui indemnise le sinistre et non celle du PNO.
Nous en déduisons que le risque PNO est proche du risque porté par les propriétaires occupants avec
des niveaux de Prime Pure inférieurs pour les PNO qui s’expliquent par le fait que les fréquences de
sinistralité sont assez faibles sur les PNO.
Cette analyse nous donne des indications sur la stratégie à adopter pour la modélisation des
différentes garanties qui composent l’assurance PNO.
Partie 2 :
Dans cette partie, nous allons décrire la construction de la base de données et les différentes
transformations opérées.
La modélisation des différents risques nécessite d’avoir une base de données représentative du
risque PNO. L’historique important d’AXA France va nous permettre de construire une base
d’expérience qui reflète la sinistralité passée du portefeuille depuis 2009.
Afin de modéliser de façon appropriée le risque, il faut utiliser un historique de sinistralité assez
important. Dans cette optique, nous allons prendre en compte tous les contrats présents au moins
un jour entre 2009 et 2013.
Pour disposer d’un maximum d’informations sur chaque contrat, nous allons construire une base de
modélisation qui sera le résultat d’une jointure entre plusieurs bases : les bases contrats, les bases
clients, les bases sinistres et les bases automobiles.
Nous allons également ajouter des données externes à notre base de données. Ce sont des données
de type sociodémographiques, topologiques et géographiques apportant une information
supplémentaire sur l’environnement géographique de l’habitation. Ces données proviennent de
prestataires externes à AXA France.
Une fois notre base de modélisation constituée, nous allons opérer deux transformations importantes des données :
P a g e | 7
Ø Ecrêtement des sinistres Dans le cadre de la tarification, une hypothèse classique est celle selon laquelle le portefeuille est
constitué de risques similaires. Un problème pour que cette hypothèse soit vérifiée est le poids
important des sinistres « graves ». Afin de résoudre ce problème, les sinistres observés sont souvent
écrêtés et mutualisés.
Nous allons donc réaliser un écrêtement pour chaque garantie. Pour cela, l’objectif est de trouver un
seuil d’écrêtement au-delà duquel les sinistres sont considérés comme graves pour chaque garantie.
Pour rappel, un sinistre grave correspond à un sinistre de fréquence faible mais également à un
risque de sévérité importante (supérieur au 95ème quantile de la distribution de la charge).
Ø Vieillissement des sinistres
Le coût d’un sinistre n’est pas fixe. Lorsqu’un sinistre survient, une évaluation forfaitaire est affectée
au sinistre en fonction de sa nature lors de l’ouverture du dossier dans un premier temps.
L’évaluation du sinistre sera ensuite revue à la baisse ou à la hausse après passage d’un expert.
Il s’agit d’une charge dite dossier/dossier. Ainsi, le montant de la charge peut évoluer au cours du
temps. Il est donc indispensable de considérer les variations potentielles de la charge.
Dans cette optique, nous allons procéder à un vieillissement des sinistres. Cela consiste à estimer les
évolutions du coût des sinistres en cours du temps pour mesurer la charge ultime des sinistres.
Partie 3:
Dans cette partie, nous cherchons à modéliser les primes pures des garanties suivantes :
· Bris de glace (BDG) · Dégâts des eaux Appartement et Maison (DDEA et DDEM) · Vol (VOL) · Incendie (INC) · Responsabilité civile (RC) · Évènements climatiques (CLIM) · Catastrophes naturelles (CATNAT)
A noter que pour la modélisation du risque dégât des eaux où les risques diffèrent considérablement entre les maisons et les appartements, nous allons créer deux modèles distincts : DDEA et DDEM. Dans le cadre de ce mémoire, nous présenterons l’étude détaillée de la garantie Dégâts Des Eaux
Appartement (DDEA). L’objectif est de créer un modèle prédictif de la sinistralité future des affaires
nouvelles.
La détermination des primes pures des différentes garanties doit tenir compte des contraintes
opérationnelles liées à l’informatique et au réseau de distribution d’AXA France.
Actuellement, il n’est pas possible pour l’informatique d’implémenter des modèles autres que
linéaires et notre tarif doit être compréhensible par notre réseau de distribution qui se compose
principalement d’agents généraux. C’est pourquoi l’utilisation des GLM parait indispensable pour
répondre aux deux contraintes citées précédemment.
P a g e | 8
Pour la garantie DDEA ainsi que pour les autres garanties, nous allons opter pour une modélisation
en Prime Pure. Cela suppose en pratique de choisir en amont une distribution Tweedie pour décrire
la distribution des données. Il est donc essentiel de s’intéresser aux variables décrivant la sinistralité
comme le nombre de sinistres, le coût des sinistres et l’exposition.
Le choix du modèle Prime Pure s’explique par une fréquence assez faible comme nous avons pu le
constater dans la partie 1.
Au terme de cette partie, nous aurons les primes pures associées à chaque garantie qui compose
l’assurance PNO.
Partie 4:
Dans cette partie, nous allons tester des méthodes alternatives aux GLM pour la tarification. L’objectif est de tarifer la garantie dégâts des eaux appartement grâce à des méthodes de Machine Learning et ensuite de pouvoir comparer les résultats obtenus avec ceux du GLM : nous allons tester le Gradient Boosting Machine et le Random Forest. Gradient Boosting Machine (GBM)
Le Gradient Boosting est une technique d’apprentissage statistique qui peut être utilisée pour des
problèmes de classification ou de régression. Il repose sur le principe de Boosting qui consiste à
utiliser plusieurs modèles entre eux dans le but d’obtenir un seul résultat prédictif.
L’objectif est de construire une séquence de modèles de telle sorte qu’à chaque nouvelle étape, le
nouveau modèle apparaisse comme une meilleure solution que le précédent.
Pour avoir une amélioration de la prédiction à chaque étape, le Boosting affecte un poids plus
important aux individus pour lesquels la valeur a été mal prédite. Le réajustement des poids à chaque
étape permet une meilleure prédiction des valeurs difficiles.
Le GBM optimise ainsi les performances d’une série de modèles avec un pouvoir prédictif faible afin
de créer un modèle robuste. Généralement, les modèles de prédiction faible utilisés sont des arbres
de décision CART.
Le but du Gradient Tree Boosting est de réaliser une succession d’arbres de décision où chaque arbre
est construit sur l’erreur résiduelle du précédent.
P a g e | 9
Le Random Forest
Le Random Forest (forêts aléatoires) est une technique d’apprentissage statistique qui peut être
utilisée pour des problèmes de classification ou de régression. Il repose sur le principe de Bagging qui
consiste à agréger plusieurs modèles entre eux dans le but d’obtenir un seul résultat prédictif.
Dans le cas spécifique des modèles d’arbres de décision (CART), Breiman propose une amélioration
du bagging par l’ajout d’une composante aléatoire. L’objectif est de rendre plus indépendants les
arbres de l’agrégation en ajoutant une composante aléatoire dans le choix des variables qui
interviennent dans les modèles.
Une forêt aléatoire est donc un ensemble d’arbres de décisions dans lequel la base d’apprentissage
de chaque arbre est aléatoire. En effet, les différents arbres sont construits et entrainés sur des sous-
échantillons tous différents les uns des autres.
Cette méthode permet de corriger le manque de robustesse dans le cas où un seul arbre de
régression est utilisé pour la prédiction.
Au terme de cette partie, nous avons remarqué que ces deux techniques présentent de meilleures
performances que le GLM.
Malgré le fait que ces techniques ne soient pas implémentables actuellement dans le système
informatique d’AXA France, il était intéressant d’évaluer leur performance en comparaison du GLM.
Cela nous a permis de comprendre l’apport de ces nouvelles techniques par rapport aux approches
traditionnelles. Nous pourrons ainsi utiliser le GBM et le Random Forest pour la sélection de
variables. En ce sens, lorsque nous sommes confrontés à de nombreuse variables, ces techniques
permettent de détecter rapidement les variables les plus importantes.
L’utilisation des algorithmes de Machine Learning nous permet également de valider les variables
sélectionnées dans le GLM.
Partie 5:
Après la modélisation d’un modèle prime pure par garantie (cf. partie 3), nous allons déterminer la prime commerciale avec la prise en compte des différents chargements (additifs, multiplicatifs et globaux) et de la marge. La prime commerciale s’écrit alors : !" = ( " × (1 + $) + % ) × (1 + &)
Le nouveau tarif permet de dissocier la prime pure, la prime technique et la prime commerciale. Cela
nous permettra ainsi d’analyser la contribution de chaque composante (P1, P2 et P3) au tarif final et
de pouvoir faire des ajustements si nécessaire sur P2 et P3 sans toucher à P1.
P a g e | 10
Une fois le nouveau tarif obtenu, nous allons l’analyser et le comparer par rapport à l’ancien tarif. En ce sens, nous allons étudier la distance tarifaire de la nouvelle gamme par rapport à l’ancienne
gamme pour les PNO. Cela revient à analyser l’écart entre les deux tarifs et identifier les éléments à
l’origine de cet écart.
Cette analyse nous permet de constater que le tarif du nouveau produit est moins élevé en moyenne que l’ancien produit pour les appartements et plus élevé en moyenne pour les maisons.
Après avoir expliqué les écarts tarifaires entre le nouveau produit et le produit actuel, nous allons analyser la profitabilité du portefeuille PNO. L’objectif est d’identifier les clients qui génèrent le plus et le moins de rentabilité. La création d’un modèle Prime Pure par garanties va nous permettre d’utiliser un indicateur de
rentabilité : l’ELR (Expected Loss Ratio) L’ELR est un indicateur de suivi de la rentabilité d’un portefeuille d’assurance. Il va nous permettre de
connaitre la rentabilité générée par chaque contrat présent dans notre portefeuille PNO.
L’ELR est défini de la manière suivante :
'*, = -."/0 -2.0 345"/é0-."/0 607820 9:520;;0 Où :
· <>?@ A<@ ∶ correspond à l’agrégation des primes pures de l’ensemble des
garanties
· <>?@ C@DEA@ FGHA@II@ ∶ il s’agit du tarif vendu pour le produit actuel
L’utilisation de la prime vendue dans la formule de l’ELR permet d’évaluer la qualité de tarification du
modèle actuel. Dans cette optique, nous allons comparer notre estimation du risque avec le tarif du produit actuel. Cette analyse, nous permettra de dire si le risque est correctement évalué dans le tarif PNO actuel
Cette analyse basée sur l’ELR, nous permet de valider la création de notre nouveau tarif. En effet, au
terme de cette étude, nous remarquons que le tarif actuel sous évalue l’estimation du risque et par
conséquent, nous avons de nombreux contrats où la rentabilité espérée est négative, nulle ou très proche de zéro. Le nouveau tarif qui va être mis en place va donc permettre une meilleure évaluation du risque pour éviter à l’assureur d’avoir une rentabilité négative.
Une fois le nouveau tarif mis en place, l’ELR va constituer un indicateur de suivi de rentabilité des
affaires nouvelles. Il va nous permettre d’identifier la typologie des contrats les plus risqués et de
classer les assurés en fonction de la rentabilité générée.
L’ELR permettra également de piloter notre portefeuille PNO actuel. En effet, nous pourrons
réajuster les tarifs des assurés sous tarifés par le biais de majorations. Les assurés avec un ELR
supérieur à 100 % verront leur tarif augmenter afin d’avoir une meilleure prise en compte de leur
risque.
P a g e | 11
Synthesis
The purpose of this study is to determine the specific commercial premium for the Non-Occupant Owner (PNO) product. This insurance is intended for the owner who rents a house or apartment. It protects it in the event
of one or more claims. The guarantees covered by the PNO insurance are glass breakage, water
damage, theft, fire, civil liability, climatic events and natural disasters.
The main objective of this study is to create a predictive model of future claims for new business.
We will seek to improve the quality of contract cost prediction and to obtain a better risk selection.
Currently, the proposed Non-Occupant Owner Offer does not take customer segmentation into
account. The model used is based on a commercial model with all guarantees combined.
It is therefore essential to implement a complete overhaul of the Non-Occupant Owner product
prediction models in order to take into account the heterogeneous distribution of claims on the
various coverages. We will create a model by risk to predict the pure premiums of the different
guarantees.
In addition, the premium currently sold is opaque and does not allow to dissociate the different
levels of premium that make up the price sold.
The premium sold can be broken down into several levels:
· The pure premium (P1) :
Minimum premium required to cover the loss of the portfolio with zero profitability.
· The technical price (P2) :
Pure premium secured by additive and multiplicative charge to cover the loss load of policyholders
and the various expenses.
· The commercial premium (P3) :
Premium sold ensuring minimum profitability for the company.
The overhaul of the PNO product will also enable us to obtain a tariff separating the pure premium,
the technical premium and the commercial premium. This will allow us to analyze the contribution of
each component (P1, P2 and P3) to the final tariff and to make adjustments if necessary on P2 and P3
without affecting P1.
Our study consists of five parts :
P a g e | 12
Part 1:
In the first part, we will try to understand the specificity of Non-Occupant Owner Insurance. In this
sense, we will present the scope of PNO insurance, the composition of this portfolio and the loss
experience of PNO.
This part will also be an opportunity to compare the loss experience of Non-Occupant Owners (PNO)
with that of Occupant Owners (PO). For this purpose, we calculate the average cost, the frequency
and the pure premium for each of the guarantees mentioned above. This study compares the PNO
and PO risks. At the end of this study, we note that in terms of average costs, the values are close
between the Non-Occupant Owners and the Occupant Owners. Nevertheless, the frequency of PNO
claims is lower than that of PO. This can be explained by the fact that in most cases, it is the tenant
insurance policy that compensates the claim and not the PNO.
We deduce from this that the PNO risk is close to the risk carried by Occupant Owners with lower
Pure Premium levels for PNO, which are explained by the fact that the frequency of claims is rather
low on PNO.
This analysis provides us with some guidance on the strategy to be adopted for the modelling of the
different coverages that make up PNO insurance.
Part 2:
In this part, we will describe the construction of the database and the different transformations
carried out.
Modelling of the different risks requires a database that is representative of the PNO risk.
The significant history of AXA France will enable us to build an experience base that reflects the
portfolio's past loss experience since2009. In order to appropriately model the risk, it is necessary to
use a fairly large claims history. In this context, we will take into account all the contracts present at
least one day between 2009 and 2013.
In order to have as much information as possible on each contract, we will build a modeling base that
will be the result of a combination of several bases: contracts bases, customer bases, claims bases
and automobile bases.
We will also add external data to our database. These are socio-demographic, topological and
geographical data that provide additional information on the geographic environment of the
dwelling. These data come from providers outside AXA France.
Once we've built up our modeling base, we're going to make two major transformations of the data :
P a g e | 13
Ø Capping claims A classic assumption in pricing is that the portfolio consists of similar risks. A problem for this
hypothesis to be verified is the significant weight of "serious" claims. In order to solve this problem,
the observed incidents are often clipped and pooled.
We will therefore carry out a capping for each guarantee. For this purpose, the objective is to find a
capping threshold beyond which claims are considered to be serious for each coverage. As a
reminder, a serious claim corresponds to a low frequency claim but also to a risk of significant
severity (above the 95th quantile of the charge distribution).
Ø Ageing of claims
The cost of a claim is not fixed. When a claim occurs, a lump sum assessment is assigned to the claim
based on its nature when the file is first opened. The assessment of the loss will then be revised
downwards or upwards after an expert has passed through. This is a so-called file/folder charge.
Thus, the amount of the charge may change over time. It is therefore essential to consider the
potential variations in the charge. With this in mind, we are going to be aging claims. This consists of
estimating changes in the cost of claims over time to measure the ultimate cost of claim.
Part 3:
In this section, we seek to model the pure premiums for the following coverages:
· Glass breakage · Apartment and House Water damage · Theft · Fire · Civil liability, · Climatic events · Natural disasters
Note that for the modeling of water damage risk where the risks differ substantially between houses
and apartments, we will create two distinct models
As part of this study, we will present the detailed study of the Apartment Water Damage Guarantee.
The objective is to create a predictive model of future claims for new business.
The determination of the pure premiums for the various guarantees must take into account the
operational constraints related to the IT and the distribution network of AXA France.
Currently, it is not possible for IT to implement models other than linear and our tariff must be
understandable through our distribution network, which consists mainly of general agents. This is
why the use of GLM seems indispensable to meet the two constraints mentioned above.
P a g e | 14
For the apartment water damage warranty as well as for other guarantees, we will opt for a Pure
Premium modeling. In practice, this involves selecting a Tweedie distribution to describe the
distribution of data. It is therefore essential to look at the variables that describe loss experience
such as the number of claims, the cost of claims and exposure.
The choice of the Prime Pure model is explained by a relatively low frequency, as we have seen in
Part 1.
At the end of this part, we will have the pure premiums associated with each guarantee that makes
up the PNO insurance.
Part 4:
In this section, we will test alternative methods to GLM for pricing.
The objective is to price the apartment water damage guarantee with Machine Learning methods
and then to compare the results obtained with those of the GLM: we will test the Gradient Boosting
Machine and Random Forest.
Gradient Boosting Machine (GBM)
Gradient Boosting is a statistical learning technique that can be used for classification or regression
problems. It is based on the Boosting principle, which consists of using several models between them
in order to obtain a single predictive result. The goal is to build a sequence of models so that at each
new step, the new model appears as a better solution than the previous one.
To have improved prediction at each step, Boosting affects a greater weight to individuals for whom
the value has been poorly predicted. The readjustment of the weights at each stage allows a better
prediction of the difficult values.
The GBM thus optimizes the performance of a series of models with low predictive power to create a
robust model. Generally, the weak prediction models used are CART decision trees.
The aim of the Gradient Tree Boosting is to realize a succession of decision trees where each tree is
built on the residual error of the previous one.
P a g e | 15
Le Random Forest
Random Forest is a statistical learning technique that can be used for classification or regression
problems. It is based on the Bagging principle, which consists of approving several models in order to
obtain a single predictive result.
In the specific cases of decision tree models (CART), Breiman proposes an improvement of bagging
by adding a random component. The objective is to make the trees of aggregation more independent
by adding a random component in the choice of variables involved in the models.
A random forest is therefore a set of decision trees in which the learning base of each tree is random.
Indeed, the different trees are constructed and trained on sub-samples all different from each other.
This method corrects the lack of robustness in cases where only one regression shaft is used for
prediction.
At the end of this section, we noted that both techniques perform better than GLM.
Despite the fact that these techniques are not currently implemented in AXA France's IT system, it
was interesting to evaluate their performance in comparison with the GLM. This has allowed us to
understand the contribution of these new techniques to traditional approaches. We can use use
GBM and Random Forest for variable selection. In this sense, when we are confronted with
numerous variables, these techniques allow us to quickly detect the most important variables.
The use of Machine Learning algorithms also allows us to validate the variables selected in the GLM.
Part 5:
After modelling a pure premium model per guarantee (see section 3), we will determine the
commercial premium, taking into account the different charges (additives, multiplicative and global)
and the margin.
The commercial premium is written:
!" = ( " × (1 + $) + % ) × (1 + &)
The new tariff allows the unbundling of pure premium, technical premium and commercial premium.
This will allow us to analyze the contribution of each component (P1, P2 and P3) to the final tariff and
to make adjustments if necessary on P2 and P3 without affecting P1.
Once we have obtained the new tariff, we will analyze it and compare it with the old tariff. we will
study the price range of the new range compared to the old range for PNO. This is tantamount to
analyzing the difference between the two tariffs and identifying the factors that cause this
difference.
This analysis shows that the price of the new product is lower on average than the old product for
apartments and higher on average for houses.
P a g e | 16
After explaining the price differentials between the new product and the current product, we will
analyse the profitability of the PNO portfolio. The objective is to identify the customers who generate
the most and least profitability.
The creation of a Premium Pure model by guarantees will allow us to use a profitability indicator: the
ELR (Expected Loss Ratio)
The ELR is an indicator for monitoring the profitability of an insurance portfolio. It will enable us to
know the profitability generated by each contract in our PNO portfolio.
The ELR is defined as :
'*, = 345"/J508 -2.0 -.0/"2/-.0/"2/ KL;8 M2..075;N Where :
· 'OH>?PH@E A<@ <@?>A? ∶ corresponds to the aggregation of the pure premiums of all guarantees.
· <@?>A? QRIE !A<<@DHIS ∶ this is the tariff sold for the current product
The use of the premium sold in the ELR formula allows an assessment of the pricing quality of the
current model. In this context, we will compare our risk estimate with the current product price. This
analysis will allow us to determine whether the risk is correctly assessed in the current PNO tariff.
This analysis, based on the ELR, allows us to validate the creation of our new tariff. Indeed, at the end
of this study, we note that the current tariff underestimates the risk estimate and consequently, we
have many contracts where the expected profitability is negative, zero or very close to zero. The new
tariff that will be implemented will therefore allow a better assessment of the risk in order to avoid
negative profitability for the insurer.
Once the new tariff is implemented, the ELR will be an indicator for monitoring the profitability of
new business. It will enable us to identify the typology of the most risky contracts and to classify the
policyholders according to the profitability generated.
The ELR will also enable us to manage our current PNO portfolio. Indeed, we will be able to readjust
the rates of the under-priced policyholders through surcharges. Insured persons with an ELR greater
than 100% will have their rates increased in order to take better account of their risk.
P a g e | 17
Remerciements
Je tiens tout d’abord à adresser mes remerciements à l’ensemble de l’équipe Multirisque Habitation
d'AXA France pour leurs précieux conseils, leurs disponibilités et leurs esprits d’équipe.
J’adresse notamment ma reconnaissance à Anne Laure LE GALLO responsable de l’équipe Multirisque
Habitation d'AXA France pour m’avoir fait confiance sur ce sujet d’étude.
Je remercie particulièrement Mme Camille LOIRET et Adélaïde RAMEY pour leurs encadrements
durant la réalisation et la rédaction de ce mémoire.
Je remercie l’équipe pédagogique de l’ISUP et en particulier Monsieur Jean-Marie Nessi, qui m’a suivi
jusqu’à la fin de ce mémoire. Ensuite, plus généralement j’aimerais remercier toutes les personnes qui ont contribué, de manière
directe ou indirecte, à mon parcours scolaire et professionnel.
Enfin c’est une reconnaissance toute particulière que je veux donner à mes amis, ma famille pour le
soutien moral et financier qu’ils m’ont apportés. Sans eux, mon cheminement dans la vie active
aurait été bien différent.
P a g e | 18
Sommaire
Introduction ........................................................................................................................................... 20
I. Études préliminaires du portefeuille ............................................................................................. 22
1.1. Définition du périmètre ......................................................................................................... 22
1.1.1. Définition de l’assurance Propriétaire Non Occupant .................................................. 22
1.1.2. Garanties Couvertes ...................................................................................................... 22
1.2. Analyse statistique du portefeuille ....................................................................................... 24
1.3. Comparaison de la sinistralité des Propriétaires Non Occupants et des Propriétaires
Occupants .......................................................................................................................................... 26
II. Préparation des données .............................................................................................................. 30
2.1. Construction de la base de modélisation .............................................................................. 30
2.1. Ecrêtement des sinistres ....................................................................................................... 33
2.2. Vieillissement des sinistres .................................................................................................... 34
III. Détermination de la Prime Pure à l’aide des Modèles Linéaires Généralisés (GLM) ................ 36
3.1. Les Modèles Linéaires Généralisés ........................................................................................ 36
3.1.1. Modèles linéaires .......................................................................................................... 36
3.1.2. Modèles linéaires généralisés (GLM) ............................................................................ 38
3.1.3. Choix de la loi de la distribution et de la fonction lien .................................................. 41
3.1.4. Mesures de performance .............................................................................................. 42
3.2. Les variables explicatives ....................................................................................................... 46
3.2.1. Les variables habitation ................................................................................................. 46
3.2.2. Les variables clients ....................................................................................................... 47
3.2.3. Les variables caractéristiques du contrat d’assurance .................................................. 48
3.4.1. Les variables automobiles ............................................................................................. 48
3.4.2. Les variables externes ................................................................................................... 49
3.3. Modélisation de la garantie Dégâts des Eaux Appartements ............................................... 50
3.3.1. Analyse des variables explicatives ................................................................................. 51
3.3.2. Analyse des corrélations ................................................................................................ 55
3.3.3. Sélection de variables .................................................................................................... 56
3.3.4. Identification des interactions ....................................................................................... 61
3.3.5. Simplification du modèle ............................................................................................... 62
3.4. Validation du modèle ............................................................................................................ 63
P a g e | 19
3.4.1. Validation du modèle sur la base d’apprentissage ....................................................... 63
3.4.2. Validation du modèle sur la base test ........................................................................... 67
3.4.3. Validation du modèle sur les bases d’apprentissage et test ......................................... 70
IV. Autres méthodes de tarification ............................................................................................... 72
4.1. Les Arbres CART (Classification And Regression Tree) .......................................................... 72
4.2. Gradient Boosting Machine ................................................................................................... 74
4.2.1. Principe .......................................................................................................................... 74
4.2.2. Théorie du Gradient Boosting ....................................................................................... 74
4.2.3. Les hyper-paramètres.................................................................................................... 76
4.2.4. Application du GBM à la garantie Dégât des Eaux Appartement ................................. 78
4.3. Random Forest ...................................................................................................................... 83
4.3.1. Principe .......................................................................................................................... 83
4.3.2. Application du Random Forest à la garantie Dégat des Eaux Appartement ................. 84
4.4. Comparaison des modèles .................................................................................................... 89
V. Tarif final ........................................................................................................................................ 90
5.1. Prime commerciale ................................................................................................................ 90
5.1.1. Calcul de la prime commerciale .................................................................................... 90
5.1.2. Distribution de la prime commerciale ........................................................................... 92
5.2. Étude de la distance tarifaire ................................................................................................ 93
5.3. Explication des écarts tarifaires ............................................................................................. 96
5.4. Analyse de la profitabilité du portefeuille PNO..................................................................... 98
5.4.1. Définition de l’ELR ......................................................................................................... 98
5.4.2. Analyse ELR .................................................................................................................... 99
5.4.3. Application des arbres aux ELR...................................................................................... 99
Conclusion ........................................................................................................................................... 102
Lexique ................................................................................................................................................ 104
Annexes ............................................................................................................................................... 105
Bibliographie........................................................................................................................................ 107
Table des figures .................................................................................................................................. 108
P a g e | 20
Introduction
L’étude produite dans ce mémoire a été réalisée au sein de la Direction du Marché IARD (Incendie,
Accidents, Risques Divers) de la branche Particuliers/Professionnels d’AXA France, dans l’équipe
Actuariat « Non-Auto ».
Cette équipe gère plusieurs produits d’assurance dommages, le principal étant l’assurance MRH.
Le rôle de l’équipe est d’assurer le pilotage des produits, de leur production, des différents
indicateurs de rentabilité, ainsi que de réaliser l’ensemble des évolutions qui leur sont nécessaires.
L’assurance Multirisque Habitation est une assurance destinée à protéger les habitations des
particuliers. Elle a pour objectif de couvrir l’habitation, son contenu mais également la responsabilité
civile des occupants envers un tiers.
Un contrat d’assurance habitation couvre plusieurs risques tels que le bris de glace, le dégât des
eaux, le vol, l’incendie, la responsabilité civile, les évènements climatiques et les catastrophes
naturelles.
Le marché de l’assurance habitation connait un déclin économique en France ; actuellement il est
déficitaire. Cela s’explique notamment par une augmentation de la sinistralité au cours de ces
dernières années mais également par un environnement concurrentiel qui s’intensifie depuis la mise
en place de la loi Hamon en 2015. Désormais, les assureurs comme les assurés ont la possibilité de
résilier un contrat d’assurance à partir de l’échéance de la première année. Les assurés ont alors la
possibilité de souscrire auprès d’un assureur concurrent afin d’obtenir un tarif plus attractif.
Dans ce contexte, l’assureur ne peut pas se permettre d’augmenter les prix de l’ensemble des
assurés du portefeuille. Il est donc essentiel d’améliorer la segmentation client pour gagner en
compétitivité et améliorer la profitabilité du portefeuille dès la souscription.
La segmentation consiste à considérer que tous les clients n’ont pas le même risque et doivent donc
payer des primes différentes. Cela va permettre d’identifier les bons comme les mauvais risques et
de lutter contre les risques d’anti-sélection.
Actuellement, l’offre Propriétaire Non Occupant proposée ne tient pas compte de la segmentation
client. Le modèle utilisé se base sur un modèle commercial toutes garanties confondues et d’un
zonier géographique à la maille commune segmenté entre appartement et maison.
La prime vendue se décompose en plusieurs niveaux :
· la prime pure (P1) :
Prime minimale requise pour faire face à la sinistralité du portefeuille avec une rentabilité nulle.
· la prime technique (P2) :
Prime pure sécurisée par des chargements additifs et multiplicatifs permettant de faire face à la
charge sinistre des assurés et des différents frais.
P a g e | 21
· la prime commerciale (P3) :
Prime vendue assurant un minimum de rentabilité à la compagnie.
La prime vendue est opaque et ne permet pas de dissocier les différents niveaux de prime qui
composent le tarif vendu.
Il est donc essentiel de mettre en œuvre une refonte complète des modèles de prédiction du produit
PNO. L’objectif est de créer un modèle visant à prédire les primes pures des garanties le bris de glace,
dégât des eaux, vol, incendie, responsabilité civile, évènements climatiques et catastrophes
naturelles. L’enjeu ici est d’obtenir la vision la plus juste possible du risque de notre portefeuille
d’assurés.
Nous chercherons à obtenir un tarif pour les Propriétaires Non Occupants qui va dissocier la prime
pure, la prime technique et la prime commerciale.
L’objet de ce mémoire est de déterminer la prime commerciale de l’assurance Propriétaire Non
Occupant et également d’étudier la distance tarifaire de la nouvelle gamme par rapport à l’ancienne
gamme pour les PNO.
Pour cela, dans une première partie, nous allons présenter le périmètre de l’assurance, la
composition du portefeuille et la sinistralité des PNO.
Nous nous intéresserons ensuite dans une deuxième partie à la construction de la base de données,
à l’écrêtement et au vieillissement des sinistres.
Dans une troisième partie, nous allons modéliser les primes pures des différentes garanties (bris de
glace, dégâts des eaux, vol, incendie, responsabilité civile, climatique et catastrophes naturelles)
grâce à des modèles linéaires généralisés.
La quatrième partie, allons tester des méthodes alternatives aux GLM pour la tarification. L’objectif
est de tarifer la garantie dégâts des eaux appartement grâce à des méthodes de Machine Learning et
ensuite de pouvoir comparer les résultats obtenus avec ceux du GLM : nous allons tester le Gradient
Boosting Machine et le Random Forest.
Dans la dernière partie, nous allons déterminer la prime commerciale. Une fois le nouveau tarif
obtenu, nous allons l’analyser et le comparer par rapport à l’ancien tarif. Après avoir expliqué les
écarts tarifaires entre le nouveau produit et le produit actuel, nous allons analyser la profitabilité du
portefeuille PNO. L’objectif est d’identifier les clients qui génèrent le plus et le moins de rentabilité et
de valider le nouveau tarif PNO.
P a g e | 22
I. Études préliminaires du portefeuille
1.1. Définition du périmètre
1.1.1. Définition de l’assurance Propriétaire Non Occupant
L’offre d’assurance PNO s’adresse aux propriétaires de maisons ou d’appartements. Elle permet aux
propriétaires qui louent un logement de s’assurer en cas de survenance d’un sinistre.
A noter que depuis la loi ALUR du 24 mars 2014, l’assurance PNO devient obligatoire pour les
propriétaires dans un immeuble.
Cette assurance intervient lorsque :
· Les locaux sont vacants (entre deux locations par exemple). · En cas de défaut de l’assurance du locataire. · La responsabilité du locataire ne joue pas. Un contrat PNO protège le propriétaire en cas
de dommage subi par le locataire (exemple : un placard se décroche et blesse le locataire) mais aussi par les voisins ou les tiers, en cas de vice de construction, d'une dégradation non détectée ou d'un trouble de jouissance.
· Le contrat souscrit pallie également les manques de certains contrats MultiRisques Immeubles (MRI) de syndic : - il ne couvre pas la responsabilité personnelle du bailleur, ni les dommages causés par
ses biens privatifs - les parties privatives immobilières ou mobilières (embellissements, portes, cuisine)
ne sont en général pas couvertes · La location se fait par l’intermédiaire d’un organisme de location de particuliers à
particuliers (de type Airbnb par exemple) (à partir du moment où la période de location dépasse 9 mois, nous considérons qu’il s’agit d’un PNO).
1.1.2. Garanties Couvertes
· Bris de glace (BDG)
Couvre les dégâts en cas de bris de vitres, des fenêtres, portes fenêtres, baies vitrées lorsque les
locaux sont vacants entre deux locations par exemple.
· Dégâts des eaux (DDE)
Couvre les dégâts dus notamment aux fuites ou ruptures des conduites non enterrées, aux appareils
à effets d’eau (baignoire, ballon d’eau chaude, etc.).
Dans la plupart des cas pour les propriétaires d’appartements, c’est l’assurance de la copropriété qui
est mise en jeu, mais cela pourra être amené à évoluer dans le cadre de la refonte des conventions
CIDRE.
P a g e | 23
· VOL
Couvre les dommages causés par les tentatives de vol sur les biens ou les équipements inclus dans la
location.
· Incendie (INC)
Couvre les dégâts dus aux incendies.
Nous étudions la responsabilité du locataire avant de décider quelle l’assurance doit prendre en
charge le sinistre : dans la plupart des cas, c’est l’assurance du locataire qui entre en jeu, l’assurance
du propriétaire n’intervient seulement que lorsque l’incendie est causé par un bien ou un
équipement inclus dans la location.
· Responsabilité civile (RC)
Couvre l’ensemble des dommages qui pourraient être causés au locataire ou à un tiers du fait de
l’habitation assurée ou de ses équipements.
· Évènements Climatiques (CLIM)
Couvre les dégâts causés à la partie immobilière dus aux évènements : tempêtes, chute de grêle,
poids de la neige sur la toiture, inondation, etc.
· Catastrophes naturelles (CATNAT)
Couvre les dégâts causés à la partie immobilière dus notamment aux évènements : inondations,
coulées de boues, tremblements de terre, sécheresse, etc.
Un évènement est considéré comme catastrophe naturelle uniquement lorsque ce dernier fait l’objet
d’un arrêté interministériel paru au Journal Officiel.
P a g e | 24
1.2. Analyse statistique du portefeuille
L’assurance PNO est un marché dont le volume de cotisations n’a cessé d’augmenter ces dernières
années. La FFSA (Fédération Française des Sociétés d'Assurance) estime l’ensemble des cotisations des contrats PNO, toutes garanties confondues à 93 millions d’euros en 2016, soit une hausse de 25 % par rapport à 2013.
· Nombre de contrats par année
Figure 1 - Nombre de contrat PNO par année
· Cotisations (en K€)
Figure 2 - Cotisations PNO (en K€) par année
420 960446 706 464 503
492 068521 761
560 595607 473
632 219
2009 2010 2011 2012 2013 2014 2015 2016
51 211 56 678
62 500 68 510
74 095
81 166
88 509 92 939
2009 2010 2011 2012 2013 2014 2015 2016
P a g e | 25
· Répartition des PNO par type de bien
Figure 3 - Répartition des PNO par type de bien
Maison53%
Appart47%
P a g e | 26
1.3. Comparaison de la sinistralité des Propriétaires Non Occupants et
des Propriétaires Occupants
Pour les PNO et les propriétaires occupants, nous calculons le coût moyen, la fréquence et la prime
pure pour chaque garantie (Bris de glace, dégâts des eaux, vol, incendie, responsabilité civile,
climatique et catastrophe naturelles). Cette étude permet de comparer le risque PNO et le risque
porté par les propriétaires occupants.
Ø Coût Moyen Appartement
Figure 4 - Comparaison du coût moyen appartement entre les PNO et les PO
Ø Coût Moyen Maison
Figure 5 - Comparaison du coût moyen maison entre les PNO et les PO
En termes de coûts moyen, nous remarquons que les valeurs sont proches entre les PNO et les propriétaires occupants à l’exception des garanties CATNAT et Incendie.
- €
1 000 €
2 000 €
3 000 €
4 000 €
5 000 €
6 000 €
7 000 €
8 000 €
9 000 €
BDG CATNAT CLIM DDE INC RC VOL
PNO
PO
- €
2 000 €
4 000 €
6 000 €
8 000 €
10 000 €
12 000 €
14 000 €
16 000 €
BDG CATNAT CLIM DDE INC RC VOL
PNO
PO
P a g e | 27
Ø Fréquence de sinistralité Appartement
Figure 6 - Comparaison de la fréquence de sinistralité appartement entre les PNO et les PO
Ø Fréquence Maison
Figure 7 - Comparaison de la fréquence de sinistralité maison entre les PNO et les PO
La fréquence de sinistralité des PNO est significativement inférieure à celle des PO. Ceci peut s’expliquer par le fait que dans la plupart des cas c’est l’assurance locataire qui indemnise le sinistre et non celle du PNO.
0,00%
1,00%
2,00%
3,00%
4,00%
5,00%
6,00%
7,00%
BDG CATNAT CLIM DDE INC RC VOL
PNO
PO
0,00%
1,00%
2,00%
3,00%
4,00%
5,00%
6,00%
7,00%
BDG CATNAT CLIM DDE INC RC VOL
PNO
PO
P a g e | 28
Ø Prime Pure Appartement
Figure 8 - Comparaison de la Prime Pure observée appartement entre les PNO et les PO
Ø Prime Pure Maison
Figure 9 - Comparaison de la Prime Pure observée maison entre les PNO et les PO
Comme la fréquence de sinistralité des PNO est inférieure à celle des PO, nous obtenons des primes pures PNO inférieures à celle des PO.
0 €
10 €
20 €
30 €
40 €
50 €
60 €
70 €
80 €
BDG CATNAT CLIM DDE INC RC VOL
PNO
PO
- €
10 €
20 €
30 €
40 €
50 €
60 €
70 €
80 €
BDG CATNAT CLIM DDE INC RC VOL
PNO
PO
P a g e | 29
Intéresserons-nous maintenant à la décomposition de la Prime Pure entres les PNO et les PO.
Ø Prime Pure observée Appartement
PNO Propriétaires Occupants
Figure 10 - Décomposition de la Prime Pure observée appartement pour les PNO et les PO
Nous constatons une réparation similaire pour les différentes garanties sauf pour le dégât des eaux et le vol.
Ø Prime Pure observée Maison
PNO Propriétaires Occupants
Figure 11 - Décomposition de la Prime Pure observée maison pour les PNO et les PO
Nous constatons une réparation similaire pour les différentes garanties sauf pour l’incendie.
La répartition des primes est assez semblable pour le PO et les PNO, nous ferons l’hypothèse que le
risque PNO est similaire au risque porté par les propriétaires occupants avec des niveaux de Prime
Pure différents. Les niveaux de primes pures sont beaucoup moins élevés chez les PNO.
Ces analysent permettent d’identifier les différents risques à prendre en compte dans notre étude
mais également la stratégie à adopter pour les modéliser.
BDG 2% CATNAT 1% CLIM
4%
DDE 68%
INC 17%
RC 2%VOL5%
BDG 2%
CATNAT 1%
CLIM 3%
DDE 59%
INC 13%
RC 4%
VOL 17%
BDG 1%CAT NAT
6%
CLIM 26%
DDE 17%
INC 43%
RC 1%
VOL 5% BDG 2%CAT NAT
7%
CLIM 22%
DDE 17%INC 32%
RC 6%
VOL 15%
P a g e | 30
II. Préparation des données
Dans cette partie, nous allons décrire la construction de la base de données et les différentes
transformations opérées.
2.1. Construction de la base de modélisation
La modélisation des différents risques nécessite d’avoir une base de données représentative du
risque PNO. L’historique important d’AXA France va nous permettre de construire une base
d’expérience qui reflète la sinistralité passée du portefeuille depuis 2009.
Afin de modéliser de façon appropriée le risque, il faut utiliser un historique de sinistralité assez
important. Dans cette optique, nous allons prendre en compte tous les contrats présents au moins
un jour entre 2009 et 2013.
Pour disposer d’un maximum d’informations sur chaque contrat, nous allons construire une base de
modélisation qui sera le résultat d’une jointure entre plusieurs bases :
· Les bases contrats
Les bases contrats contiennent l’ensemble des informations disponibles à la souscription.
Nous associons à chaque numéro de contrat les caractéristiques de l’habitation (type d’habitation,
nombre de pièces, ancienneté du logement) ainsi que les données relatives au contrat lui-même
(formule souscrite, exposition, etc.).
· Les bases clients
Les bases clients donnent des renseignements sur la situation professionnelle et personnelle de
l’assuré (âge du client, CSP du client, statut marital, nombre d’enfants, etc.).
Toutes les données disponibles sont testées mais avant implémentation il convient de s’assurer du
respect du code déontologique (pas de discrimination en fonction du sexe, de l’origine, etc.)
· Les bases sinistres
Les bases sinistres regroupent les informations concernant les sinistres.
Elles renseignent sur les contrats ayant subi un ou plusieurs sinistres. Nous trouvons sur chaque ligne
le numéro de contrat touché ainsi que les caractéristiques du sinistre (le coût par garantie, le nombre
de sinistres par garantie, ...).
Les bases sont créées par année de survenance. Nous agrégeons ensuite tous les sinistres par le
couple (contrat, année) en opérant un comptage afin d’obtenir le nombre de sinistres et la charge
par contrat et par année.
· Les bases automobiles
Les bases automobiles permettent de donner des informations supplémentaires pour les assurés
ayant souscrit à un contrat automobile en plus d’un contrat MRH. Nous récupérons ainsi les
caractéristiques du véhicule et du conducteur.
P a g e | 31
Une fois la jointure entre les quatre bases réalisée, l’objectif est de joindre les attributs géographiques de chaque adresse relative aux contrats présents dans la base de modélisation. Pour cela, nous disposons des bases Adresses géocodées depuis 2009. Ainsi pour chaque numéro de contrat, nous allons pouvoir obtenir l’ensemble des informations suivantes :
· L’adresse ;
· Le code postal ;
· La commune ;
· Le code IRIS : Les communes d'au moins 10 000 habitants et une forte proportion des communes de 5 000 à 10 000 habitants sont découpées en IRIS ;
· Les coordonnées géographiques(x,y) ;
· La précisons du géocodage : l’ensemble des adresses n’a pas été géocodé avec une
précision maximale. Nous avons défini pour cela quatre niveaux de précision :
- 1 : centroïde de la ville - 2 : centroïde de la voie - 3 : numéro rue approché - 4 : Adresse exacte
A partir des coordonnées géographiques associées à chaque contrat, nous effectuerons une jointure spatiale. L’opération consiste à attribuer à chaque point de l’espace une zone de risque propre à
chaque contrat et à chaque garantie. Ainsi, pour chaque contrat, nous allons obtenir un zonier propre à chaque risque. Un zonier permet de capter le signal géographique dans un modèle, ce qui permet de segmenter au mieux les différents profils de risque.
Dans le cadre de cette étude, nous réutiliserons les zoniers des propriétaires occupants. En effet, le signal géographique ne diffère pas entre les propriétaires occupants et les propriétaires non occupants. Les coordonnées géographiques vont également nous permettre d’ajouter à nos contrats des données externes. Ce sont des données de type sociodémographiques, topologiques et géographiques apportant une information supplémentaire sur l’environnement géographique de
l’habitation. Ces données proviennent de prestataires externes à AXA France. Les informations externes intégrées à notre base proviennent des prestataires suivants :
· INSEE (Institut National de la Statistique et des Études Économiques) diffusant des informations gratuites sur les caractéristiques de la population, des ménages et des logements.
· Experian : prestataire proposant des données sociodémographiques plus complètes à des mailles géographiques précises IRIS et mêmes GPS pour les points d’intérêts comme les écoles, hôpitaux, commissariat, banques.
P a g e | 32
· Mission Risques Naturelles : organisme crée par la FFSA et GEMA permettant de mettre à disposition auprès des compagnies d’assurance plusieurs informations de type topographiques dans le but de les aider à affiner leur appréhension du risque climatique.
· Base Gaspar, Prim.net : base de données recensant l’intégralité des arrêtés Catastrophes
Naturelles au sein des communes. Nous obtenons finalement une base de données qui contient les informations suivantes :
· Les variables explicatives potentielles caractérisant le contrat ainsi que l’assuré ; · La sinistralité observée (le nombre et le coût des sinistres par garantie, la durée
d’exposition du risque) ; · Le zonier propre à chaque garantie : les variables zoniers par garantie vont permettre de
découper le territoire en zone de risque ;
· Les caractéristiques de la population ; · L’environnement géographique de l’habitation.
Une fois la base constituée, il est indispensable de contrôler la qualité des données. La démarche est la suivante :
· Vérifier que le nombre de valeurs manquantes pour les variables présentes dans la base de
modélisation n’est pas trop élevé.
· Contrôler que les variables sont bien renseignées et qu’il n’existe pas de valeurs aberrantes.
· Créer des regroupements pour les variables ayant trop de modalités.
Par exemple pour la variable âge, nous allons créer une variable qui va regrouper les
différents âges par tranche. Ce regroupement rend plus facile le traitement de la variable par
les logiciels de modélisation qui acceptent un nombre limité de modalités.
P a g e | 33
2.1. Ecrêtement des sinistres
Dans le cadre de la tarification, une hypothèse classique est celle selon laquelle le portefeuille est constitué de risques similaires. Un problème pour que cette hypothèse soit vérifiée est le poids important des sinistres « graves ». Afin de résoudre ce problème, les sinistres observés sont souvent écrêtés et mutualisés afin de permettre un meilleur pouvoir prédictif du modèle. Nous allons donc réaliser un écrêtement pour chaque garantie (Bris de glace, dégâts des eaux, vol, incendie, dommage électrique, responsabilité civile, climatique et catastrophe naturelles). Pour cela, l’objectif est de trouver un seuil d’écrêtement au-delà duquel les sinistres sont considérés comme graves pour chaque garantie. Pour rappel, un sinistre grave correspond à un sinistre de fréquence faible mais également à un risque de sévérité importante (supérieur au 95ème quantile de la distribution de la charge). Afin de déterminer un seuil d’écrêtement, nous étudions les quantiles de distribution de la charge de chaque garantie. Pour chaque risque, nous observons les quantiles extrêmes de la distribution du coût. Nous essayons de détecter un saut dans la distribution de charge. Le saut de la distribution va correspondre généralement au seuil d’écrêtement. La charge de sinistre correspondant à la sur-crête est ensuite mutualisée uniformément sur l’ensemble des contrats sinistrés pour la garantie concernée. L’idée générale est la suivante :
Charge mutualisée = Charge écrêtée × ( 1 + K2.T:.ê50 5L5J;0 KL24T:.ê50 5L5J;0 )
Figure 12 - Exemple pour déterminer un seuil d’écrêtement pour la garantie Dégâts des eaux appartement.
-
20 000
40 000
60 000
80 000
100 000
120 000
140 000
Q90 Q91 Q92 Q93 Q94 Q95 Q96 Q97 Q97,5 Q98 Q98,5 Q99 Q99,5 Q99,6 Q99,7 Q99,8 Q99,9 Q100
Quantiles extrèmes charge DDE Appartement
DDE - Appartement - 2009
DDE - Appartement - 2010
DDE - Appartement - 2011
DDE - Appartement - 2012
Ecrêtement proposé pour le dégât des eaux des appartements: 10 000 €soit le 99,7ème quantile
P a g e | 34
2.2. Vieillissement des sinistres
Le coût d’un sinistre n’est pas fixe. Lorsqu’un sinistre survient, une évaluation forfaitaire est affectée
au sinistre en fonction de sa nature lors de l’ouverture du dossier dans un premier temps.
L’évaluation du sinistre sera ensuite revue à la baisse ou à la hausse après passage d’un expert.
Il s’agit d’une charge dite dossier/dossier. Ainsi, le montant de la charge peut évoluer au cours du
temps. Il est donc indispensable de considérer les variations potentielles de la charge.
Dans cette optique, nous allons procéder à un vieillissement des sinistres. Cela consiste à estimer les
évolutions du coût des sinistres au cours du temps.
Lors de la constitution de la base, chaque sinistre est vu avec un an de vieillissement, ce qui signifie
que nous allons choisir une date de vison du sinistre un an après sa survenance afin d’avoir une
charge de sinistre la plus proche possible de la vision finale. Par exemple, un sinistre observé au
cours de l’année 2014 aura une charge d’étude égale à celle qui a été constatée en 2015.
Pour obtenir la charge finale des sinistres, nous allons utiliser la méthode de Chain Ladder.
Méthode Chain Ladder
La méthode de Chain Ladder va nous permettre de constituer des triangles de recouvrements afin
d’estimer la charge finale des sinistres.
Le triangle de recouvrement présente l’évolution de la charge d’une année comptable à une autre
pour chaque année de survenance.
Présentation de la méthode Chain Ladder
Chain Ladder est la méthode de provisionnement la plus répandue sur le marché de l’assurance non
vie en raison de sa simplicité de compréhension et de mise en œuvre. Elle s’applique à des triangles
de paiements cumulés ou des triangles de charge, des triangles de provision et des triangles de
charge dossier / dossier.
Cette méthode permet de projeter des valeurs observées jusqu’à extinction de tous mouvements des
sinistres, c’est-à-dire jusqu’à l’ultime.
Notations :
· i : année de survenance des sinistres ; · j : année de développement c’est-à-dire la j-ième année après la survenance ; · UV,X : les charges de sinistres observés, en valeur incrémentale pour l’année de rattachement
i et le k-ième développement ; · YV,X : les paiements cumulés : !",Z = ∑ \",]]̂_`
P a g e | 35
Figure 13 - Triangle de charges cumulées
Soit le facteur de développement individuel a",Z = :b,cdeMb,c pour i=1……n, j=1….n
Hypothèse de la méthode de Chain Ladder :
Pour j allant de 1 à n, les facteurs de développement a",Z sont indépendants de l’année de
survenance i.
Nous allons alors considérer des coefficients de passage, d’une année à l’autre, comme pour les
années de survenance, et dont l’estimation est donnée par :
af = ∑ Mb,cdeghcdebij∑ Mb,cghcdebij , k = 0, … , D
Grace à ces facteurs, nous obtenons alors la charge ultime par année de survenance :
!m,7n = !",7T" ∗ p aqr7T`Z_7T"
P a g e | 36
III. Détermination de la Prime Pure à l’aide des
Modèles Linéaires Généralisés (GLM)
Dans cette partie, nous cherchons à modéliser les primes pures des garanties suivantes :
· Bris de glace (BDG) · Dégâts des eaux Appartement et Maison (DDEA et DDEM) · Vol (VOL) · Incendie (INC) · Responsabilité civile (RC) · Évènements climatiques (CLIM) · Catastrophes naturelles (CATNAT)
À noter que pour la modélisation du risque dégât des eaux où les risques diffèrent considérablement entre les maisons et les appartements, nous allons créer deux modèles distincts : DDEA et DDEM. Dans le cadre de ce mémoire, nous présenterons l’étude détaillée de la garantie Dégâts Des Eaux
Appartement (DDEA). L’objectif est de créer un modèle prédictif de la sinistralité future des affaires
nouvelles.
La détermination des primes pures des différentes garanties doit tenir compte des contraintes
opérationnelles liées à l’informatique et au réseau de distribution d’AXA France (Agents généraux).
Actuellement, il n’est pas possible pour l’informatique d’implémenter des modèles autres que
linéaires et notre tarif doit être compréhensible par notre réseau de distribution qui se compose
principalement d’agents généraux. C’est pourquoi l’utilisation des GLM parait indispensable pour
répondre aux deux contraintes citées précédemment. Dans la suite de l’étude, nous développerons
d’autres méthodes de modélisation des primes pures à titre de comparaison.
3.1. Les Modèles Linéaires Généralisés
3.1.1. Modèles linéaires
Pour une meilleure compréhension des modèles linéaires généralisés, nous allons rappeler les
principaux résultats du modèle linéaire gaussien.
Un modèle linéaire a pour but de pouvoir exprimer une certaine variable aléatoire Y" en fonction de
plusieurs variables explicatives : t" (avec i=1,… ,n).
Nous pouvons écrire :
Y" = uv + w βZt",Zy
Z_` + z"
P a g e | 37
Où :
· Les t",Z sont des nombres connus, non aléatoires ; · Les paramètres β{ du modèle sont inconnus, mais non aléatoires ; · Les ε} sont des variables aléatoires qui suivent une loi normale N(0,~�).
Nous en déduisons donc que les Y" ~ N(Y" = uv + ∑ βZt",ZyZ_` ,~�) avec E(Y") = uv + ∑ βZt",ZyZ_`
Sous forme matricielle, nous avons : Y = X β + z
· Y est le vecteur de dimension n ; · X est une matrice de taille n × p connue ; · β est de dimension p de paramètres inconnus du modèle ; · z est le vecteur de dimension n des erreurs.
Les hypothèses concernant le modèle sont : - (�`): rg(X)=p
- (��) : E(z) = 0, Var(z) = ~2
L’hypothèse (��) signifie que les erreurs sont centrées, de même variance et non corrélées entre
elles.
Le modèle linéaire suppose une normalité dans la distribution des données, ce qui n’est pas le cas
des données assurantielles. Nous sommes donc amenés à utiliser les modèles linéaires généralisés
afin de prendre en considération la distribution des données.
L’intérêt du modèle linéaire généralisé est qu’il permet de s’affranchir de cette hypothèse de
normalité des observations du modèle linéaire gaussien et de l’étendre à la famille exponentielle.
P a g e | 38
3.1.2. Modèles linéaires généralisés (GLM)
Le cadre général
Dans le cadre des modèles linéaires généralisés, la distribution des Y" n’est pas nécessairement
normale mais doit être dans la famille exponentielle.
Une distribution appartient à la famille de dispersion exponentielle si sa fonction de densité peut
être écrite sous la forme :
a�(S|�, �) = exp �S� − �(�)� + G(S, �)�
Où :
· � est le paramètre réel appelé paramètre naturel
· � est le paramètre de dispersion strictement positif
· �, G sont des fonctions spécifiques à la famille exponentielle
Pour une variable aléatoire Y dont la densité est de la forme exponentielle, alors : E(Y) = b’ (�) et Var(Y) = b’’ ( �) �
La variance de Y apparait comme le produit de deux fonctions :
- la première, b’’(�), qui dépend uniquement du paramètre � est appelé fonction variance - la seconde est indépendante de � et dépend uniquement de
En notant � = E(Y), nous remarquons que le paramètre � est lié à la moyenne �. La fonction variance peut donc être définie en fonction de � , notons alors V(�). Notons que la fonction variance caractérise complètement la loi de la famille exponentielle.
Chacune des lois de la famille exponentielle possède une fonction de lien spécifique, dite fonction de
lien canonique, permettant de relier l'espérance � au paramètre naturel � . Définition
Un GLM suppose une relation plus générale entre les variables explicatives X et la variable réponse Y.
Nous introduisons une fonction lien g qui est monotone.
Un GLM peut s’écrire sous la forme générale :
� = E(Y) = �T`(X′u)
P a g e | 39
Les modèles linéaires généralisés possèdent trois caractéristiques :
1. Il y a une composante stochastique, qui précise que les observations sont des variables aléatoires
indépendantes, Y" i = 1, . . . , n avec une densité appartenant à la famille de dispersion exponentielle.
2. La composante systématique du modèle attribue à chaque observation un prédicteur linéaire
�" = uv + ∑ t",ZyZ_` βZ 3. Le troisième composant d’un GLM connecte les deux premiers éléments. L’espérance �" de Y" est
liée au prédicteur linéaire �" par une fonction de lien
�" = g(�") = uv + ∑ t",ZyZ_` βZ avec E(Y")= �"
La valeur de η est différente de celle de µ (à l’exception du cas ou la fonction de lien est l’identité).
Estimation des coefficients β
Pour estimer les paramètres du GLM, nous allons utiliser le maximum de vraisemblance. Nous
pourrons ainsi obtenir les estimateurs de régression βv, β`, …,βy et le paramètre de dispersion �
par maximisation de la log-vraisemblance.
Pour des variables aléatoires indépendantes Y" avec i=1….n, la densité de probabilité s’écrit :
a�(S"|�", �) = exp � S"�" − �(�")��"+ G(S" , �)�
La densité de probabilité s’écrit alors :
a�(S|�, �) = p a�(S"|�", �)7"_`
= ∑ exp ( ∑ �b�b T ∑ �(�b)gbiegbie ��b7"_` + ∑ G(S" ,7"_` �))
La log-vraisemblance s’écrit :
L(�(β)│y, �) = ∑ ln a(7"_` S"│�", �) = ∑ Nb�b T ∑ �(�b)gbiegbie ��b + ∑ G(7"_` S" , �)
P a g e | 40
Pour maximiser la log-vraisemblance, la dérivée doit être annulée :
¶ *(�(u)│S, �)¶ uZ = 0
Or,
¶ *(�(u)│S, �)¶ uZ = w ¶ IDa(S"│�", �)
¶ uZ7
"_`
= w EduZ7
"_` (S"�" − �(�")��"+ G(S" , �))
Nous obtenons finalement :
w �"7
"_` (S" − �") t"Z�¡¡(�")�′(�") = 0
Ces équations ne sont pas linéaires en β. Pour pouvoir les résoudre, nous utilisons en pratique la
méthode itérative de Newton-Raphson.
Principe de méthode de Newton-Raphson :
· Définir une suite (u)i convergente vers la solution ;
· Calcul de la log-vraisemblance ∇*(�(u"), S) ;
· Calcul de la Hessienne �(u") de la log-vraisemblance ;
· Procéder à une récurrence en utilisant la formule au rang i+1 suivante :
β("£`) = β(") - ∇¤(�(¥b)│N,¦)§(¥b)
· Arrêter lorsque la suite tend vers la solution, autrement dit que les valeurs de } n’évoluent plus de manière significative.
Interprétation des ¨
Le u0 représente l’intercept, il s’agit de la classe de référence. Cette classe représente le
regroupement de l’ensemble des variables explicatives de référence.
Les β{ s’interprètent de manière suivante :
· β{ > 0 indique une sinistralité plus importante pour un individu présentant la modalité \Z
· β{ < 0, signifie que l’individu présente un profil moins risqué que celui de la classe de référence
P a g e | 41
3.1.3. Choix de la loi de la distribution et de la fonction lien
Les modèles GLM sont des modèles paramétriques, où nous supposons en amont une distribution.
Ainsi, nous allons supposer a priori la forme du modèle, c’est-à-dire la structure et la distribution des
données qu'il est censé modéliser.
La densité de la loi choisie au sein de la famille exponentielle doit décrire au mieux la structure des
données. En ce sens, nous choisirons dans la majorité des cas une distribution Gamma pour les
modèles représentant le coût des sinistres et une régression de Poisson pour ceux représentant la
fréquence des sinistres.
Pour une modélisation en prime pure ou coût total, nous devons tenir compte de la structure
particulière des données : dans la plupart des cas, il n’y pas d’indemnisation des sinistres. Dans ces
situations, les distributions gamma ou poisson ne sont pas adaptées.
Nous pourrons alors utiliser le modèle Tweedie qui tient compte du caractère particulier des
données où il y a des contrats avec une charge nulle (contrats qui ne sont pas sinistrés).
Définition du modèle Tweedie
Y ~ CPoi (µ�Tª � (2 - & ), Gamma( - �T ª¦(`T ª), �(2 − &) µªT`))
Avec 1 < & < 2.
Une propriété particulière de la loi de Tweedie est :
V(µ)=��ª
Nous obtenons bien un modèle de Poisson quand & tend vers 1 et un modèle Gamma quand & tend
vers 2.
Un autre choix important qui se propose à nous est celui de la fonction lien.
Un critère important dans le choix de la fonction de lien est de s’assurer que les valeurs ajustées
restent dans des limites raisonnables.
Lors de la construction d’un tarif, la fonction lien qui est la plus couramment utilisée dans un GLM est
la fonction logarithme. Un des principaux avantages de cette fonction est qu’elle permet de faire des
modèles multiplicatifs, ce qui est beaucoup plus adapté pour faire de la tarification.
Pour un GLM avec une fonction lien logarithme, nous avons :
'(¬") = exp(uv) × p exp (u"\")y"_`
P a g e | 42
3.1.4. Mesures de performance
Pour mesurer la performance d’un modèle GLM, nous allons nous intéresser à plusieurs indicateurs.
· Deviance
La deviance permet de quantifier la qualité de régression. Nous définissons la qualité en comparant
le modèle estimé au modèle dit saturé ou parfait.
Le calcul de la deviance se fait par l’intermédiaire de la log-vraisemblance.
La déviance normalisée est définie par :
D = 2 × ( L(β, ) − ®(¨¯°±, ))
Où :
- L(β, �) représente la log-vraisemblance de notre modèle ; - L(β/J³, �) représente la log-vraisemblance maximisée.
Le modèle décrira bien les données lorsque la vraisemblance du modèle estimé est proche du
modèle saturé
· AIC (Akaike Information Criterion)
AIC est un indicateur qui permet de mesurer la qualité d'un modèle. Il est également utilisé pour
comparer deux modèles entre eux. Nous retiendrons le modèle avec le critère d’information Akaike
le plus faible.
´µY = −¶·· + ¶¸
Où :
- LL représente la log-vraisemblance de notre modèle ; - p est le nombre de paramètre à estimer.
· BIC (Bayesian Information Criterion) BIC est analogue au critère AIC. À la différence du critère d'information d'Akaike, la pénalité dépend
de la taille de l'échantillon et pas uniquement du nombre de paramètres.
Nous retiendrons le modèle pour lequel ces critères ont la valeur la plus faible.
¹µY = −¶·· + º»¼(½)¸
Où :
- LL représente la log-vraisemblance de notre modèle ; - p est le nombre de paramètre à estimer ; - n est le nombre d’observations.
P a g e | 43
· Indice de Gini L'indice de Gini est un indicateur de performance du modèle. Il fournit une mesure de la qualité de la
segmentation du modèle. Il est calculé à partir de la fonction représentée par la courbe de Lorenz.
La courbe de Lorenz a été développée en économétrie, elle permet de mesurer les inégalités de
richesse au sein d’une population. Elle peut être transposée à une donnée de répartition statistique
quelconque.
Dans notre étude, la courbe de gain représente en abscisses la part cumulée des contrats et en
ordonnées la part de charge observée cumulées.
Figure 14 - Illustration pour le calcul de l’indice de gini
La courbe bleue correspond au modèle aléatoire, la courbe rouge au modèle obtenu et la courbe
violette au modèle idéal.
La première bissectrice (courbe bleue) représente un cas d’égalité parfait où nous avons une mutualisation égale de la charge sur l’ensemble des assurés. Soit A l’aire entre la courbe de Lorenz et la bissectrice et B l’aire au-dessus de la courbe de Lorenz. L’indice de Gini est défini de la manière suivante :
G = ´´£¹
Or A + B = 0,5, nous avons donc G=2A ou bien G= 1 – 2B
Nous pouvons représenter la courbe de Lorenz par la fonction y=L(x), ce qui nous permet d’exprimer
l’aire de B grâce à une intégrale :
B = 1 - ∫ *(t) Etv̀
0
0,1
0,2
0,3
0,4
0,5
0,6
0,7
0,8
0,9
1
0 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 1
Ris
qu
e
Part cumulée des assurés
A
B
P a g e | 44
Nous avons alors l’indice de Gini suivant :
G = 2∫ *(t) Etv̀ – 1
Dans le graphique précédent, le modèle parfait ou saturé est représenté par la courbe en violet.
Néanmoins, il peut être défini par une seconde courbe plus proche de la courbe violette.
Nous allons ainsi normaliser l'indice de Gini standard par l'indice Gini de la distribution parfaite.
Figure 15 - Illustration pour le calcul de l’indice de gini en considérant un modèle saturé
Soit :
· A : aire entre la courbe du modèle obtenu et la bissectrice ;
· B : aire entre la courbe du modèle parfait et la courbe du modèle actuel ;
· C : aire entre la courbe du modèle parfait et la partie supérieure du graphique.
Le Gini standard pour le modèle parfait s’écrit :
¿À = ´£¹´£¹£Y
Et pour le modèle obtenu :
¿µ = ´´£¹£Y
Ainsi, en normalisant le calcul de l'indice Gini, nous considérons le ratio :
Á̃ = ÁÃÁµ
Donc G = ´´£¹
0
0,1
0,2
0,3
0,4
0,5
0,6
0,7
0,8
0,9
1
0 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 1
Ris
qu
e
Part cumulée des assurés
AB
C
P a g e | 45
· Les résidus
Pour mesurer les performances d'un modèle, nous nous intéressons souvent aux résidus. Cela
revient à considérer une fonction de risque ,(. , . ) qui mesure la distance entre ¬ et sa prédiction ¬Å .
La norme *` est souvent utilisée et correspond à l'erreur quadratique ,(¬, ¬Å ) = |¬ − ¬Å| ou la norme *� correspondant à l'erreur absolue ,(¬, ¬Å ) = [¬ − ¬Å]².
Il existe différents types de résidus :
§ Les résidus de Pearson :
Notons les résidus observés <" = S" − SÆ"
En normalisant ces résidus, on obtient les résidus de Pearson :
<"-0J.4L7 = S" − SÆ"ÇÈP<(SÆ")
§ Les résidus de deviance : La déviance est une mesure de la qualité de l’ajustement fourni par le modèle. Si nous considérons que chaque observation S" contribue à hauteur d’une quantité E" à la déviance c’est-à-dire É = ∑ E"7"_` Nous obtenons les résidus de deviance : E"Ê = O>�D@(S" − SÆ") ÇE"
P a g e | 46
3.2. Les variables explicatives
La base de données utilisée dans le cadre de notre étude contient plusieurs années d’exercices.
Elle contient 2 millions de lignes et 154 variables. Dans cette partie, nous allons présenter les
variables principales contenues dans la base de modélisation décrite précédemment. L’objectif est de
donner une vue globale de l’ensemble des variables explicatives testées.
3.2.1. Les variables habitation
Ce sont des variables caractérisant l’habitation du client :
· Le type d’habitation
Nous avons trois types d’habitations : appartement, maison et rez-de-chaussée. Cette variable a une importance significative dans la tarification de la majorité des garanties. Dans certaines modélisations où les risques diffèrent considérablement entre les maisons et les appartements, nous allons créer deux modélisations distinctes. Par exemple, pour le risque dégâts des eaux, nous allons avoir une modélisation dégâts des eaux appartement (DDEA) et une modélisation dégâts des eaux maison (DDEM).
· Nombre de pièces Il s’agit d’une variable présente dans la plupart des modèles. Elle permet également de renseigner les assureurs sur la surface d’habitation.
· Ancienneté du logement
Cette variable donne l’information sur l’ancienneté de l’habitation. Elle est discriminante pour la plupart des garanties parce que selon l’année de construction, elle permet de donner des renseignements sur la qualité de l’habitation.
· Présence d’un insert
L'insert est un type de cheminée qui peut fortement impacter la tarification de certaines garanties comme l’incendie.
· Surface des dépendances
Il s’agit des bâtiments non habitables qui peuvent communiquer ou non avec les pièces de l’habitation principale. Nous allons alors regarder si les dépendances influencent ou non la tarification des différentes garanties.
P a g e | 47
3.2.2. Les variables clients Les informations clients permettent de décrire la situation personnelle et professionnelle du client.
Ces renseignements ne sont pas demandés dans le formulaire de souscription, AXA les récupère par
le biais des fiches de renseignement.
Actuellement, les variables clients ne sont pas tarifaires, l’objectif est de pouvoir tester leur
pertinence dans les modèles de prédiction pour chaque risque.
· Âge du client
La variable âge présente un nombre de modalités élevé. Par conséquent, nous allons procéder à un
retraitement de la variable en regroupant plusieurs modalités entre elles.
L’âge est discriminant pour de nombreuses garanties.
· Statut marital Cette variable nous renseigne sur la situation familiale de l’assuré. Nous avons les modalités
suivantes : célibataire, divorcé/veuf, marié/concubin et non renseigné. Le statut de l’assuré peut
avoir un impact sur certaines garanties comme le vol. Nous remarquons ainsi que les assurés
habitant seuls ont une plus forte probabilité de se faire cambrioler.
· Ancienneté du client
Cette variable donne l’information sur l’ancienneté du client. Elle peut être tarifaire pour certaines
garanties. Compte tenu du nombre de modalités important, nous allons réaliser un regroupement en
tranches d’âge. L’ancienneté peut avoir un impact sur la sinistralité pour certaines garanties.
· La catégorie socioprofessionnelle
Cette variable répertorie les différentes classes de professions. Nous retrouvons une dizaine de
modalités contenant notamment les retraités, les cadres, les étudiants ou bien les agriculteurs.
· Nombre d’enfants
Il s’agit d’une variable qui référence le nombre d’enfants de l’assuré. Les modalités sont :
l’information est indisponible, l’assuré a au moins un enfant ou l’assuré n’a pas d’enfant.
Généralement, nous prenons en considération cette variable pour la garantie Responsabilité Civile
(RC).
En effet, la garantie RC peut être mise en jeu pour un assuré lorsqu’un de ses enfants cause un
dommage à une tierce personne.
· Nombre de contrats
Cette variable répertorie le nombre de contrats souscrit chez AXA France par un assuré.
Ainsi, nous savons le nombre de contrats habitation, auto, épargne, prévoyance et santé.
P a g e | 48
3.2.3. Les variables caractéristiques du contrat d’assurance Ce sont des variables relatives à la police d’assurance. Elles sont obtenues au cours de la
souscription. Elles renseignent sur la situation géographique mais également sur les caractéristiques
du contrat.
· La région
Il s’agit d’une variable géographique, elle permet d’attribuer une région pour chaque assuré.
AXA France divise la France en cinq régions (l’Ile de France, le Nord-Ouest, l’Ouest, le Sud Est et le
Sud-Ouest). Nous pouvons ainsi capter le signal géographique.
· Options
Cette variable renseigne sur les options souscrites. Les options sont des extensions de garanties qui
permettent une protection supplémentaire pour des risques spécifiques : détention d’un jardin,
d’une véranda, d’une piscine ou de panneaux solaires par exemple. Pour chaque garantie, nous
allons regarder si ces options ont un impact sur la sinistralité.
· Franchise Dans un contrat d’assurance habitation, l’assuré a la possibilité de racheter sa franchise.
Cela signifie, qu’en cas de survenance de sinistre, l’assuré n’a pas à payer une franchise.
Il parait logiquement que la présence ou non d’une franchise ait un impact sur la sinistralité. Cette
variable permet de savoir quelle garantie est la plus impactée par cette option et mesurer techniquement le cout réel d’une telle option.
· Les coordonnées géographiques Elles représentent la transformation des adresses en cordonnées GPS. Ces variables ne sont pas
utiles pour la modélisation mais elles permettent de joindre la base de données aux zoniers de
chaque risque.
3.4.1. Les variables automobiles Ce sont des variables permettant de donner des indications supplémentaires pour les assurés ayant souscrit à un contrat automobile en plus d’un contrat MRH. Les principales variables sont :
· Type du véhicule ;
· Segment des prix du véhicule ;
· Bonus/malus du conducteur ;
· Zone de risque du véhicule.
P a g e | 49
3.4.2. Les variables externes
Ce sont des variables externes à AXA France qui permettant d’apporter une information
supplémentaire sur l’environnement géographique de l’habitation.
Les principales variables testées sont :
· Densité de population ;
· Nombre de personnes par tranche d’âge ;
· Nombre d’enfants moyen par ménage ;
· Proportion des différentes catégories socioprofessionnelles ;
· Part des résidences principales et secondaires.
P a g e | 50
3.3. Modélisation de la garantie Dégâts des Eaux Appartements
Afin de ne pas surcharger notre étude, nous allons uniquement présenter en détail la modélisation
de la garantie dégâts des eaux appartement (DDEA). Pour rappel, la même étude a été réalisée pour
l’ensemble des autres garanties : DDEM, INC, VOL, RC, CLIM et BDG.
A noter que le calcul de la prime pour la garantie CATNAT est fixé par la règlementation.
Les assureurs doivent la calculer en fonction de la prime dommage : la prime CATNAT est égale à
12 % de la prime dommage qui est composée des primes DDE, INC, VOL, CLIM et BDG
La prédiction du risque DDEA se fait par l’intermédiaire des modèles linéaires généralisés. Nous utiliserons la base de données et l’ensemble des variables potentiellement explicatives que nous avons décrites dans les parties précédentes. Pour la garantie DDEA, nous allons opter pour une modélisation en Prime Pure. Cela suppose en
pratique de choisir en amont une distribution Tweedie pour décrire la distribution des données et
une fonction de lien logarithme. Il est donc essentiel de s’intéresser aux variables décrivant la
sinistralité comme le nombre de sinistre, le coût des sinistres et l’exposition.
Le choix du modèle Prime Pure s’explique par une fréquence assez faible pour la garantie DDEA.
En effet, comme nous l’avons remarqué dans l’introduction (cf. page 27), la fréquence DDEA est de
l’ordre de 2 % pour les Propriétaires Non Occupants alors qu’elle est de 7 % pour les Propriétaires
Occupants.
Il n’est donc pas nécessaire de procéder à une modélisation fréquence et coût moyen séparée.
Avant de commencer la modélisation, une première étape consiste à scinder la base de données en
deux échantillons :
· Une base d’apprentissage : Nous choisissons aléatoirement 80 % de la base de données d’origine.
· Une base test : Nous choisissons aléatoirement 20 % de la base de données d’origine.
Nous allons calibrer notre modélisation sur la base d’apprentissage. Une fois les paramètres de notre
modèle fixé, nous allons les appliquer à l’échantillon test afin de s’assurer de la robustesse du
modèle en contrôlant que les tendances observées sur la base d’apprentissage ressortent bien sur la
base test.
Nous utiliserons l’outil Emblem pour la tarification qui permet de traiter rapidement un gros volume
de données.
P a g e | 51
3.3.1. Analyse des variables explicatives
Avant de commencer la modélisation, il est intéressant de réaliser une étude préliminaire sur les
variables explicatives. L’objectif est de pouvoir détecter à priori les variables tarifaires.
Pour cela, nous allons analyser les différentes tendances des variables en fonction de la prime pure
observée.
Cette analyse permet également de s’intéresser aux différentes modalités de chacune des variables.
En effet, pour permettre une meilleure estimation des modalités, il est primordial de s’assurer que
chacune d’entre elles est représentée de manière suffisante et que la part des modalités
manquantes n’est pas trop importante.
Dans le cas où la représentation est insuffisante, nous regroupons les modalités avec une faible
exposition afin d’obtenir une estimation robuste.
Nous proposons un descriptif des variables qui permettent a priori d’expliquer la prime pure pour la
garantie DDEA.
Nombre de pièces
Figure 16 - Prime Pure observée en fonction du nombre de pièces
Nous observons une prime pure croissante avec le nombre de pièces. A noter que l’exposition
devient insuffisante à partir de 8 pièces. Nous allons regrouper les modalités supérieures à 8 au sein d’une même classe : « 8 et plus ».
0
10
20
30
40
50
60
70
80
0
20
40
60
80
100
120
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
Exp
osi
tio
n
Pri
me
Pu
re
Nombre de pièces
P a g e | 52
Ancienneté du logement
Figure 17 - Prime Pure observée en fonction de l’ancienneté du logement
Nous observons une prime pure croissante avec l’ancienneté du logement. En effet, plus le logement
est ancien, plus la prime pure sera élevée. Il existe une modalité « Non renseigné » mais son exposition reste assez faible.
Franchise
Figure 18 - Prime Pure observée en fonction de la présence ou non de la franchise
0
20
40
60
80
100
120
140
160
180
0
5
10
15
20
25
30
5-10ans < 5ans > 10ans NR
Exp
osi
tio
n
Pri
me
Pu
re
Anciennété du logement
0
20
40
60
80
100
120
140
160
23,5
24,5
25,5
26,5
27,5
28,5
Franchise rachetée Franchise normale
Exp
osi
tio
n
Pri
me
Pu
re
Franchise
P a g e | 53
La présence d’une franchise impacte fortement la prime pure. Lorsque l’option débrayage de la franchise est souscrite, nous constatons une prime pure plus élevée. Les assurés avec l’option franchise débrayée ont tendance à avoir beaucoup plus de sinistres que ceux qui n’ont pas souscrit à cette option.
Présence d’enfants
Figure 19 - Prime Pure observée en fonction du nombre d’enfants
La présence d’au moins un enfant augmente la prime pure. Les enfants peuvent donc impacter la
sinistralité pour la garantie dégât des eaux.
0
20
40
60
80
100
120
23,5
24
24,5
25
25,5
26
26,5
27
Sans Enfant Avec au moins un enfant
Exp
osi
tio
n
Pri
me
Pu
re
Présence d'enfants
P a g e | 54
Zonier Dégât des Eaux
Figure 20 - Prime Pure observée en fonction de la zone dégât des eaux
Nous observons une prime pure croissante en fonction de la zone géographique.
Nous notons qu’une zone élevée est synonyme d’une plus forte sinistralité.
0
2
4
6
8
10
12
5
10
15
20
25
30
35
40
45
50
55
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20
Exp
osi
tio
n
Pri
me
Pu
re
Zone dégats des eaux appartement
P a g e | 55
3.3.2. Analyse des corrélations
Pour capter les liaisons entre les différentes variables, une analyse des corrélations est faite en amont avant de réaliser le modèle de prédiction. Il est possible d’avoir une source d’instabilité à cause des variables trop corrélées entre elles.
La présence de corrélation conduit à des situations de double comptage et à l’impossibilité
d’expliquer les effets d’une variable sur une autre. Afin de prendre en compte cette contrainte, nous allons sélectionner une des deux variables corrélées afin d’éviter une multicolinéarité. En effet, lorsque nous sommes en présence de corrélation entre deux variables, la sélection d’une des deux permet de capturer l’effet de l’autre
variable.
Pour l’analyse des corrélations, nous allons utiliser le V de cramer. Il permet de mettre en évidence
les corrélations entre les variables qualitatives et quantitatives. Le coefficient de corrélation est
compris entre -1 et 1 et nous considérons que si la valeur est supérieure à 0.8, l’information
contenue par les deux variables est pratiquement identique. Dans le cadre de notre étude, nous
allons fixer un seuil à partir duquel nous considérons que les variables sont trop corrélées entre elles.
Corrélation entre les différentes variables
A titre d’exemple, nous observons des corrélations entre les variables suivantes :
· Âge et sexe
· Âge et statut marital
· Nombre d’enfants et statut marital · La catégorie socioprofessionnelle et l’âge :
En pratique, si nous observons une tendance de la prime pure observée à l’inverse de la prime
prédite, nous sommes en présence d’une corrélation.
Figure 21 - Table de corrélation entre les différentes variables
P a g e | 56
3.3.3. Sélection de variables
Après avoir collecté un maximum de données dans le cadre de notre étude, le but de la modélisation
est de choisir le plus petit nombre de variables pour expliquer au mieux la variable que nous
cherchons à prédire.
Pour sélectionner les variables, nous allons procéder en deux étapes :
Ø Etape 1 : Utilisation des algorithmes de sélection des variables.
Compte tenu du nombre de variables important, nous utiliserons des méthodes pour le choix des
variables explicatives. Il existe trois principales méthodes pour tester la significativité des variables :
· Méthode Forward (ascendante)
C’est un modèle de régression progressive. Pour l’ensemble des variables potentiellement
explicatives, nous procédons de la manière suivante :
construction d’un premier modèle qui ne contient que l’intercept, puis à chaque itération, la variable
qui améliore le plus le critère AIC est intégré au modèle.
· Méthode Backward (descendante)
Le principe est en quelque sorte le procédé inverse de la Forward.
Cette méthode commence avec l’ensemble des variables initiales du modèle, puis elle élimine une à
une les variables les moins significatives.
· Méthde Stepwise
Cette méthode est une combinaison des deux premières. En effet, elle effectue une sélection
Forward tout en laissant la possibilité de faire sortir du modèle à chaque étape de la régression l’une
des variables retenues auparavant par le modèle non significatif. Il faut définir pour une telle
méthode un critère d’entrée et un critère de sortie. Cette méthode est la plus complète mais
nécessite un grand nombre de calculs pour un gain très faible par rapport à aux deux précédentes
méthodes. Dans la suite, nous utiliserons la méthode Forward.
Les variables retenues à l’aide de la méthode Forward sont :
P a g e | 57
Nous observons sur le graphique suivant, le pourcentage de diminution de l’AIC.
Figure 22 - Pourcentage de de diminution de l’AIC à chaque ajout de variable explicative
L’utilisation d’algorithmes permet d’obtenir une liste exhaustive des variables explicatives parmi la
multitude des variables présentes dans la base de modélisation, cependant il est essentiel de vérifier
la pertinence de ces variables sélectionnées et de tester d’autres variables qui nous semblent a priori
significatives.
Ø Etape 2 : Analyse des variables sélectionnées et ajout de variables non prises en compte.
Nous allons analyser l’ensemble des variables sélectionnées par les différents algorithmes et tenter
de détecter en plus les variables potentiellement oubliées.
C’est également l’occasion de tester les variables considérées comme tarifaires d’un point de vue
opérationnel.
Nous avons notre premier choix de variables. L’objectif à cette étape est d’en ajouter ou d’en
supprimer en fonction de leur significativité en procédant à une série de tests.
Nous proposons de décrire l’ensemble des tests réalisés.
· Comparaison des tendances
Nous comparons la prime pure prédite par rapport à la prime pure observée pour chaque variable. Le but étant de s’assurer pour chaque variable sélectionnée dans le modèle que la prime pure prédite converge bien vers la prime pure observée.
-4,50%
-4,00%
-3,50%
-3,00%
-2,50%
-2,00%
-1,50%
-1,00%
-0,50%
0,00%
Variables ajoutées
P a g e | 58
Exemple de la variable « ancienneté logement »
Figure 23 - Exemple de la variable ancienneté logement pour la comparaison entre la prime pure prédite et observée
A travers cet exemple, nous observons bien une prime observée proche de la prime prédite pour la variable « Ancienneté logement ». Nous contrôlons également que l’effet capté par cette variable est bien cohérent avec la réalité, c’est-à-dire l’estimation apportée par le modèle est bien vérifiée d’un point de vue opérationnel. Pour la variable « ancienneté logement », nous vérifions bien que la prédiction est cohérente avec la réalité c’est-à-dire plus le logement est ancien, plus la prime pure est élevée.
· Analyse des intervalles de confiance
Nous analysons ensuite les intervalles de confiance autour des estimateurs de chaque modalité d’une variable. Ce test consiste à utiliser les intervalles de confiance afin d’analyser la différence entre la prime pure prédite et la prime pure observée. Nous allons donc définir un seuil d’acception
de l’erreur de prédiction. Cela revient à vérifier en pratique que l’erreur da prédiction de la prime pure sur chaque modalité d’une variable n’est pas trop grande. Par conséquence, on définit un intervalle de confiance de 95 %
0
20
40
60
80
100
120
140
160
180
0
5
10
15
20
25
30
5-10ans < 5ans > 10ans NR
Exp
osi
tio
n
Pri
me
Pu
re
Ancienneté logement
P a g e | 59
Exemple de la variable « ancienneté logement »
Figure 24 - Exemple de la variable ancienneté logement pour l’analyse des intervalles de confiance
· Analyse de la stabilité dans le temps
Il s’agit de tester la stabilité dans le temps des variables sélectionnées. Pour chaque variable sélectionnée dans le modèle, nous allons vérifier que nous obtenons les mêmes niveaux de prédiction sur chaque année. Nous cherchons à observer la consistance de la prédiction dans le temps.
0
20
40
60
80
100
120
140
160
180
0
10
20
30
40
50
60
5-10ans < 5ans > 10ans NR
Exp
osi
tio
n
Pri
me
Pu
re
Ancienneté du logement
P a g e | 60
Exemple de la variable « ancienneté logement »
Figure 25 - Exemple de la variable ancienneté logement pour l’analyse de la stabilité dans le temps
Nous observons bien une consistance dans le temps pour la variable « Ancienneté logement ». En effet, pour chaque année, les niveaux de prédiction sont similaires. De plus, pour l’ensemble des
années, nous observons bien des primes observées proches des primes prédites.
· Analyse des indicateurs de régression L’objectif de cette étape est de s’assurer que pour chaque ajout ou suppression d’une variable de notre modèle, nous obtenons les meilleures performances possibles en termes de deviance, AIC, BIC et indice de Gini. En pratique, cela consiste à obtenir la déviance, l’AIC, le BIC les plus petits possibles et un indice de Gini le plus grand possible.
Ces différents tests permettent de confirmer ou non la sélection de variables réalisée lors de l’étape
1 de la sélection des variables. Cette étape nous permet de tester de nouvelles variables que nous pensons être significatives. Nous ajoutons la variable année dans le modèle afin de décorréler les effets du temps des effets propres à chaque variable. Nous cherchons à capturer la sinistralité atypique des années pour qu’elles n’influencent pas les effets des autres variables.
0
20
40
60
80
100
120
140
160
180
-10
0
10
20
30
40
50
60
5-10ans < 5ans > 10ans NR
Exp
osi
tio
n
Pri
me
Pu
re
Ancienneté du logement
annee (2009) (Obs)
annee (2009) (Avg)
annee (2010) (Obs)
annee (2010) (Avg)
annee (2011) (Obs)
annee (2011) (Avg)
annee (2012) (Obs)
annee (2012) (Avg)
annee (2013) (Obs)
annee (2013) (Avg)
expostion
P a g e | 61
3.3.4. Identification des interactions
A ce stade, nous avons intégré l’ensemble des facteurs significatifs à notre modèle de prédication. La totalité des critères énoncés précédemment nous a permis d’exclure les variables non significatives de notre modélisation. La qualité de notre modèle peut être améliorée en intégrant des interactions potentielles. L’objectif maintenant est de pouvoir identifier les interactions potentielles entre les différentes variables explicatives. A l’inverse des corrélations, les interactions s’observent pendant la modélisation. Une interaction
entre deux facteurs simples existe lorsque le profil de risque d’un facteur varie de manière marginale
entre les différents niveaux de l’autre facteur. L’interaction permet de différencier des populations
aux comportements différents vis-à-vis d’une autre variable.
L’identification des interactions s’effectue de la manière suivante :
Ø Etape 1
Nous listons les variables explicatives susceptibles d’interagir entre elles.
La détermination de ces variables se fait grâce à l’avis d’un expert. La connaissance du portefeuille
permet de les identifier. Pour l’étude DDEA, nous allons tester les interactions entre l’ensemble des variables sélectionnées
dans la partie précédente.
Ø Etape 2
Nous ajoutons une à une ces interactions dans le modèle.
Ø Etape 3 :
Pour chaque ajout d’interaction, nous analysons leur impact sur la modélisation. Pour garder une
interaction dans le modèle, il faut avoir une amélioration des indicateurs de Gini, AIC, BIC et
déviance.
Nous réalisons ainsi les différents tests décrits précédemment :
· Comparaison des tendances ; · Analyse des intervalles de confiance ; · Analyse de la stabilité dans le temps ; · Analyse des indicateurs de régression.
Dans le cadre de notre étude, les interactions testées n’améliorent pas le modèle.
P a g e | 62
3.3.5. Simplification du modèle
Maintenant que notre modèle final est constitué, l’étape suivante est de simplifier le nombre de
paramètres à estimer. La réduction de ces paramètres va conduire à une amélioration de notre modèle en termes de AIC,
BIC, déviance et l’indice de Gini.
Pour rappel, nous avons un estimateur pour chaque modalité de chaque variable. Dans cette partie,
nous essayerons de voir si une simplification est possible.
La simplification peut être réalisée en trois étapes :
Ø Etape 1
Nous regroupons les modalités qui possèdent des estimateurs proches. Ainsi nous nous retrouvons avec un seul paramètre à estimer pour l’ensemble des modalités regroupées.
Ø Etape 2
Une alternative au regroupement est le lissage de l’ensemble des paramètres à estimer par un ou
plusieurs polynômes. Dans le cas où nous possédons de nombreuses modalités, le lissage par un polynôme permet de diminuer considérablement le nombre de paramètres à estimer. Nous pouvons utiliser des polynômes de degré 1 ou de degré différent sur les variables avec une belle tendance comme les capitaux et le nombre de pièces.
Ø Etape 3
Pour cette étape, il s’agit d’effectuer une combinaison des deux premières étapes.
En effet, nous pouvons regrouper des variables mais également effectuer des lissages par
l’intermédiaire de polynômes. Nous pouvons ainsi réduire considérablement le nombre
d’estimateurs et améliorer par la même occasion la qualité de notre modèle.
P a g e | 63
3.4. Validation du modèle
A ce stade nous avons obtenu notre modèle final sur la base s’apprentissage. Il est donc essentiel de
réaliser une série de tests pour valider notre modèle.
3.4.1. Validation du modèle sur la base d’apprentissage Dans cette partie, nous allons décrire l’ensemble des tests permettant de valider notre modèle sur la
base d’apprentissage.
a) K-fold
La méthode de validation croisée des K-folds est une technique de validation de modèle. Elle est basée sur le principe d’échantillonnage. Principe du K-fold Nous allons diviser notre base de départ en k–échantillons, puis nous sélectionnons un des k échantillons comme base de validation et les (k-1) autres échantillons comme base d’apprentissage. Nous calibrons notre modèle sur les (k-1) échantillons et nous le validons sur le k-ème. L’opération est répétée K fois et ainsi chacune des K partitions servira de base de validation.
Figure 26 - Illustration des du principe du K-fold avec K=10
P a g e | 64
Cette technique est appliquée en utilisant k=10 folds. Le graphique suivant donne les résultats obtenus pour l’indice de Gini :
Figure 27 - Illustration des résultats du K-fold obtenus sur le modèle dégâts des eaux appartements pour le GLM
Nous constatons une stabilité du Gini entre les échantillons d’apprentissage et test sur chacun des folds. De plus pour chaque variable retenue dans le modèle, nous allons vérifier la stabilité des coefficients estimés pour les différents modèles calibrés sur chacun des folds.
Exemple de la variable « ancienneté logement »
Figure 28 - Stabilité des coefficients estimés par le GLM sur chacun des folds.
Nous remarquons ainsi une stabilité des coefficients estimés par chaque modèle.
0,00
0,10
0,20
0,30
0,40
0,50
0,60
0,70
0,80
0,90
1,00
1 2 3 4 5 6 7 8 9 10
Gin
i
Numéro de l'échantillon
échantillonapprentisage
échantillontest
0
0,2
0,4
0,6
0,8
1
1,2
5-10ans < 5ans > 10ans NR
Co
eff
icie
nts
Ancienneté logement
Modèle (1)
Modèle (2)
Modèle (3)
Modèle (4)
Modèle (5)
Modèle (6)
Modèle (7)
Modèle (8)
Modèle (9)
Modèle (10)
P a g e | 65
b) Analyse des résidus sur la base d’apprentissage
L’étude des résidus est indispensable pour la validation de modèle. Cela permet de valider la
pertinence des choix de distributions et de fonction lien. Ainsi, lorsque nos choix sont appropriés par
rapport aux données modélisées, le nuage des résidus standardisés en fonction des valeurs ajustées
doit être centré autour de 0 et ne pas présenter de tendance.
Nous obtenons le graphique de résidus standardisés sur la base d’apprentissage :
Figure 29 - Les résidus de Pearson sur la base d’apprentissage
Nous observons bien que les résidus de Pearson sont symétriques et centrés en 0. Nous observons également les résidus par rapport au critère de déviance. Si nous les représentons graphiquement, il faut qu’ils soient centrés autour de 0, ce qui signifiera que l’erreur de la
modélisation est faible.
Figure 30 - Les résidus par rapport au critère de déviance sur la base d’apprentissage
-1,5
-1
-0,5
0
0,5
1
1,5
2
2,5
3
0 20 40 60 80 100 120 140 160
Ré
sid
us
de
Pe
arso
n
Prime pure prédite
0
0,00005
0,0001
0,00015
0,0002
0,00025
0,0003
0,00035
0,0004
0,00045
0 20 40 60 80 100 120 140 160 180 200
Ré
sid
us
par
rap
po
rt a
u c
irit
ère
de
de
vian
ce
Prime pure prédite
P a g e | 66
La grande majorité des résultats se situe autour de 0 et nous ne détectons aucune structure aléatoire.
c) Analyse des tendances sur la base d’apprentissage
Nous regardons comment notre modèle se comporte par rapport aux données. Pour cela, nous allons
comparer les courbes du prédit et de l’observé sur l’ensemble de la base.
Figure 31 - Analyse des tendances sur la base d’apprentissage
Nous constatons que les courbes du prédit et de l’observé sont très proches, ce qui nous conforte dans la validation du modèle. L’ensemble de ces tests nous a permis de valider notre modélisation d’apprentissage. Nous pouvons maintenant appliquer notre modèle à la base test.
0
20000
40000
60000
80000
100000
120000
140000
160000
180000
-20
0
20
40
60
80
Exp
osi
tio
n
Mo
yen
ne
Pri
me
Pu
re
Quantile de prime pure prédite
Expostion
Données
Modèle
P a g e | 67
3.4.2. Validation du modèle sur la base test
a) Application du modèle à l’échantillon test
Nous avons calibré notre modélisation sur la base d’apprentissage. L’étape suivante consiste à
l’appliquer sur la base test. L’objectif est de s’assurer de la robustesse du modèle en contrôlant que les tendances observées sur la base d’apprentissage ressortent bien sur la base test. En pratique, nous allons figer les paramètres obtenus sur la base d’apprentissage comme des
variables offset et nous allons les appliquer à cet échantillon.
Nous réaliserons l’ensemble des tests suivant pour les variables explicatives :
· Comparaison des tendances ; · Analyse des intervalles de confiance ; · Analyse de la stabilité dans le temps ; · Analyse des indicateurs de régression.
Il s’agit des mêmes tests que pour la sélection de variables, l’idée ici est de vérifier que nous
obtenons bien les mêmes effets que sur la base d’apprentissage pour les variables sélectionnées
dans le modèle.
Pour les résidus et l’analyse de la tendance, il s’agit de la même méthodologie que la base
d’apprentissage.
P a g e | 68
b) Etude des résidus
Nous obtenons pour les résidus de Pearson:
Figure 32 - Les résidus de Pearson sur la base test
Nous observons bien que les résidus Pearson sont symétriques et centrés en 0 comme sur la base d’apprentissage. Nous observons également les résidus par rapport au critère de déviance.
Figure 33 - Les résidus par rapport au critère de déviance sur la base test
Nous constatons que la grande majorité des résidus sont centrés en 0.
-3
-2
-1
0
1
2
3
4
5
6
0 20 40 60 80 100 120 140 160
Ré
sid
us
de
Pe
arso
n
Prime pure prédite
0
0,0001
0,0002
0,0003
0,0004
0,0005
0,0006
0 20 40 60 80 100 120 140 160 180 200
Ré
sid
us
par
rap
po
rt a
u c
ritè
re d
e d
evi
ance
Prime pure prédite
P a g e | 69
c) Analyse des tendances
Comme pour la base d’apprentissage, nous allons comparer les courbes du prédit et de l’observé sur
l’ensemble de la base test.
Figure 34 - Analyse des tendances sur la base test
Comme sur la base d’apprentissage, les courbes du prédit et de l’observé sont très proches. Les différents tests nous permettent de valider notre modèle sur la base test.
0
5000
10000
15000
20000
25000
30000
35000
40000
45000
50000
-20
0
20
40
60
80
100
Exp
osi
tio
n
Mo
yen
ne
Pri
me
Pu
re
Quantile de prime pure prédite
Exposition
Données
modèle
P a g e | 70
3.4.3. Validation du modèle sur les bases d’apprentissage et de test A ce stade, nous validons notre modèle sur la base test et sur la base d’apprentissage. L’objectif est
de comparer les niveaux d’apprentissage sur les deux bases à travers les différents indicateurs
statistiques.
a) Comparaison du GINI
Le but ici est d’avoir les mêmes niveaux de performance entre la base d’apprentissage et la base test.
Ø GINI sur base d’apprentissage
Figure 35 - Indice de gini pour le GLM sur base d’apprentissage
Ø GINI sur base test
Figure 36 -Indice de gini pour le GLM sur base test
Gains Curve (Actual values)
0
2
4
6
8
10
12
14
16
0,0 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 1,0
Cumulative Exposure
Cu
mu
lati
ve
Ac
tua
l V
alu
e (
Mil
lio
ns
)
Reference
Model (Actual values)1Gini coefficient= 0,3173
Gains Curve (Actual values)
0
500 000
1 000 000
1 500 000
2 000 000
2 500 000
3 000 000
3 500 000
4 000 000
0,0 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 1,0
Cumulative Exposure
Cu
mu
lati
ve
Ac
tua
l V
alu
e
Reference
Model (Actual values)1Gini coefficient= 0,3270
P a g e | 71
Nous obtenons finalement :
Nous constatons des indices de GINI très proches entre les deux bases.
b) Niveaux d’apprentissage
L’objectif est de contrôler qu’il n’y pas de sur-apprentissage. Pour cela, nous regardons les niveaux
d’apprentissage entre la base d’apprentissage et la base test.
Base d’apprentissage Base test
Les niveaux d’apprentissage sont stables entre les deux bases. Nous en déduisons alors l’absence de
sur-apprentissage pour notre modélisation.
Sans
modèle
Avec
modèleÉvolution en %
Sans
modèle
Avec
modèleÉvolutionen %
Deviance 22 944 430 21 824 320 -4,9% Deviance 5 781 908 5 481 314 -5,2%
AIC 26 253 620 25 133 570 -4,3% AIC 6 620 567 6 320 027 -4,5%
BIC 26 253 630 25 133 900 -4,3% BIC 6 620 577 6 320 311 -4,5%
GINI 0,066 0,317 380,3% GINI 0,064 0,327 410,94%
P a g e | 72
IV. Autres méthodes de tarification
Dans cette partie, nous allons tester des méthodes alternatives aux GLM pour la tarification. L’objectif est de tarifer la garantie DDEA grâce à des méthodes de Machine Learning et ensuite de pouvoir comparer les résultats obtenus avec ceux du GLM : nous allons tester le Gradient Boosting Machine et le Random Forest. Ces méthodes peuvent être utilisées en tant que modèle de régression pour prédire une certaine variable cible. Cependant, à l’heure actuelle, elles ne peuvent pas être implémentées d’un point de
vue informatique.
4.1. Les Arbres CART (Classification And Regression Tree)
Pour une meilleure compréhension du GBM et du Random Forest, nous allons rappeler dans un
premier temps le principe général des arbres de décision CART.
Afin de décrire le principe des arbres de décision CART, nous allons utiliser les travaux de Leo
Brieman et de Roman Timofeev.
Les arbres de classification et de régression sont des outils non paramétriques de segmentation c’est-à-dire qu’ils ne nécessitent pas d’hypothèse sur la distribution des données. Dans un arbre de décision, nous cherchons à détecter des critères permettant de répartir les
individus en classes homogène par rapport à une variable cible.
La répartition des données entre deux sous-ensembles doit être la plus homogène possible à chaque étape. Afin d’avoir une répartition homogène, l’algorithme procède de la manière suivante : Dans un premier temps, il sélectionne la variable qui permet d’avoir deux sous-ensembles les plus homogènes possibles puis il choisit la façon optimale de découper les individus par rapport à cette variable. A noter que pour une variable continue, nous distinguons { \` ≤ O } et { \` > O } et pour une variable qualitative, nous distinguons { \` = t } et { \` ≠ t }. Nous définissons les notations suivantes :
· Hy : le nœud parent ;
· HÐ : le nœud fils gauche ;
· H8 : le nœud fils droit ; Les étapes de l’algorithme à chaque itération peuvent être représenté par :
P a g e | 73
Figure 37 - Représentation d’un noeud
Nous allons définir une fonction d’impureté >(H) qui va nous permettre d’avoir des classes
homogènes. Ainsi, l’objectif, est d’avoir une variable qui minimise l’impureté totale des deux nœuds fils : ?>D³cѳc∗Ò(>(H))
La réduction d’impureté peut être représentée de la manière suivante :
Figure 38 - Représentation du concept de réduction d’impureté. Idée d’illustration par M.Gahbich
Nous remarquons ainsi que la réduction d’impureté est plus importante sur la figure de gauche. Nous pouvons réécrire le problème de minimisation de la manière suivante : ?>D³cѳc∗Ó >ÔHÐÕ + Ó >(H8)
La solution de ce problème nous donne le couple d’information qui nous permet de mieux découper
les données. Le couple est de la forme :
· x{ : la variable qui sépare le mieux le jeu de données du nœud parent ;
· x{∗ : la valeur de la variable qui sépare le mieux.
Dans le cas où la fonction d’impureté est représentée par la variance du nœud, le problème de maximisation peut alors se réécrire :
?>D³cѳc∗ ÐCP<Ô¬ÐÕ + 8CP<(¬8)
P a g e | 74
4.2. Gradient Boosting Machine
4.2.1. Principe Le Gradient Boosting est une technique d’apprentissage statistique qui peut être utilisée pour des problèmes de classification ou de régression. Il repose sur le principe de Boosting qui consiste à utiliser plusieurs modèles entre eux dans le but d’obtenir un seul résultat prédictif. L’objectif est de construire une séquence de modèles de telle sorte qu’à chaque nouvelle étape, le
nouveau modèle apparaisse comme une meilleure solution que le précédent. Pour avoir une amélioration de la prédiction à chaque étape, le boosting affecte un poids plus important aux individus pour lesquels la valeur a été mal prédite. Le réajustement des poids à chaque étape permet une meilleure prédiction des valeurs difficiles. Le GBM optimise ainsi les performances d’une série de modèles avec un pouvoir prédictif faible afin de créer un modèle robuste. Généralement, les modèles de prédiction faible utilisés sont des arbres de de décision CART. Le but du Gradient Tree Boosting est de réaliser une succession d’arbres de décision où chaque arbre est construit sur l’erreur résiduelle du précédent.
4.2.2. Théorie du Gradient Boosting Pour décrire le Gradient Boosting, nous allons utiliser l’article original de Friedman en reprenant ses
notations.
L’algorithme du Gradient Boosting répond au problème d’estimation d’une fonction donnant une variable cible S en fonction de t = (t`, ….,t7). A partir d’une base d’apprentissage de valeurs (S, t")Ö connues, nous cherchons une fonction Ø∗(t) donnant S en fonction de t telle que, sur la base d’apprentissage, l’espérance d’une fonction de
perte Ù(S, Ø(t)) est minimale : Ø∗(t) = P<�?>DÚ(³)'N,³Ψ(S, Ø(t))
Le boosting approche F∗(x) par une méthode additive de la forme :
Ø(t) = w u/ℎ(t, P/)Þ/_v
avec ℎ(t, P) des fonctions dites « base-learner» choisies comme simples fonctions de t et de P = (Pv, P`, Pß, … ). Les (P/)vÑ/ÑÞ et (u/)vÑ/ÑÞ par itérations successives.
Nous partons d’un premier estimateur Øv(t) et nous poursuivons ensuite pour m=1,2,…,M
(u/, P/) = P<�?>D¥,J w Ψ(S", Ø/T`(t") + uÖ"_` ℎ(t" , P)
et
P a g e | 75
Ø/(t) = Ø/T`(t) + u/ℎ(t, P/)
Cette résolution pouvant être très complexe, la méthode du Gradient Boosting introduit l’approximation suivante pour une fonction de perte donnée ψ(y, F(x)). Cette approximation passe par deux étapes. Nous trouvons d’abord la fonction h(x, aä) par la méthode des moindres carrés.
P/ = P<�?>DJ,å w[Sç",/ − èℎ(t", P)]�Ö"
Appliquées aux pseudo-résidus :
Sç",/ = − ìíΨÔS" , Ø(t")ÕíØ(t") îÚ(³)_Úïhe(³)
Ensuite, connaissant h(x, aä), nous déterminons la valeur optimale de u/ par :
u/ = P<�?>D¥ w ΨÖ"_` (S" , Ø/T`(t") + uℎ(t", P/))
Cette approximation remplace un problème d’optimisation difficile par deux problèmes, l’un basé sur
un critère des moindres carrés, l’autre étant un simple problème d’optimisation dépendant de la
fonction Ù.
Le Gradient Tree Boosting est un Gradient Boosting dans lequel h(x, a) est le nœud *-terminal d’un
arbre de régression. A chaque itération ?, un arbre de régression découpe le t-espace en * régions (,;/)`Ñ;Ѥ disjointes et prédit une valeur constante dans chacune de ces régions :
ℎ(t, (,;/)`Ñ;Ѥ) = w S;/ççççç¤;_` ð³⋲òóï
Avec : Sç;/ = ôRS@DD@³b ⋲ õóï (Sç"/)
Comme l’arbre prédit une valeur constante Sç;/ sur région ,;/, la solution à l’équation précédente permettant de trouver u/ se réduit à : &;/ = P<�?>Dª w Ψ(S"³b⋲òóï
, Ø/T`(t" + &))
Nous mettons alors à jour l’approximation Ø/T`(t) dans chaque région : Ø/(t) = Ø/T`(t) + ö · &;/ð³⋲òóï
P a g e | 76
4.2.3. Les hyper-paramètres Afin d’avoir un modèle le plus performant possible et éviter le sur-apprentissage, il existe plusieurs paramètres à fixer et optimiser pour le GBM. Dans la suite, nous allons expliquer comment déterminer l’ensemble de ces paramètres.
Les paramètres clés
· Le nombre d’arbres Le nombre d’arbres ô correspond au nombre d’itérations effectuées par l’algorithme. Le fait d’augmenter le nombre d’itérations conduit à une diminution de l’erreur. Cependant, un nombre d’arbres trop grand risque de conduire à du sur-apprentissage.
· La profondeur de l’arbre Un autre paramètre important à spécifier est la taille (ø) des arbres, qui doit être contrôlée afin d’éviter le sur-apprentissage. Augmenter ø permet de prendre en compte les interactions entre les différentes variables. Nous remarquons également que les grandes valeurs de J entraînent une augmentation du temps de calcul d’une façon considérable. Néanmoins, nous constatons que les plus hautes performances sont atteintes avec des profondeurs d’arbres faibles. En effet, les modèles avec 4 ≤ ø ≤ 8 ont généralement les performances les plus élevées.
· Shrinkage Le paramètre de shrinkage 0 < ö ⩽ 1 permet de contrôler le taux d’apprentissage. Il modifie la mise à jour de l'algorithme par le biais du paramètre ö : Ø/(t) = Ø/T`(t) + ö · &;/ð³⋲òóï
A chaque itération, l’algorithme n’applique qu’une fraction du coefficient ö à Ø/(t) ce qui permet de retarder la vitesse d’apprentissage de l’algorithme Des valeurs petites de ö conduisent à un apprentissage plus long et nécessitent plus d’arbres pour atteindre un niveau de performance optimal. À noter que, en général ö et M sont inversement liés. Ce qui signifie que pour des valeurs élevées de ö, il faut un nombre d’arbres assez faible et inversement pour des valeurs petites de ö. Les petites valeurs (ν ⩽ 0.1) permettent un meilleur apprentissage et donc par conséquent de meilleures performances.
P a g e | 77
Détermination des paramètres clés Dans le cadre de notre étude, nous allons utiliser le Grid Search pour trouver la valeur à affecter à chaque paramètre du GBM. Nous considérons les paramètres suivants :
· Ã : le nombre d’arbres ;
· · : profondeur de l’arbre ;
· ú : le shrinkage. L’objectif du Grid Search est de trouver les valeurs optimales à affecter aux paramètres ô, * et ö. Cela revient à tester différentes combinaisons entre plusieurs valeurs de ô, * et ö afin de trouver le modèle optimal. En pratique, considérons une série de valeurs pour ô, * et ö :
· ô : Ôô`, ô�, … , ô7Õ ;
· * : (*`, *�, … , *7) ;
· ö : (ö`, ö� … , ö7) .
Pour chaque triplet (ô", *", ö") , le Grid Search calcule l’erreur de prédiction du GBM. Nous choisirons
enfin le triplet qui donne l’erreur de prédiction la plus faible.
P a g e | 78
4.2.4. Application du GBM à la garantie Dégât des Eaux Appartement Dans cette section, l’objectif est d’appliquer le GBM à la garantie DDEA. Comme pour le GLM, nous allons créer un modèle prédictif de la sinistralité future des affaires nouvelles. Nous utiliserons la base de données et l’ensemble des variables que nous avons utilisées pour la partie GLM. Le périmètre reste identique, nous allons tester une nouvelle méthode de modélisation afin de mesurer ses performances par rapport au GLM. La modélisation sera réalisée avec le logiciel R.
a) Application du GBM à la sélection de variables
Le GBM permet de réaliser une sélection de variables. Grâce à la fonction h2o.varimp() du package
h2o de R, nous pouvons accéder à l’ensemble des variables explicatives.
Sur ce schéma, nous avons les principales variables sélectionnées par le GBM. Précisions que les
variables avec une importance relative inférieure à 5 % ne sont pas affichées afin de ne pas
surcharger le graphique.
Figure 39 - Importance relative des variables pour le GBM
L’importance relative d’une variable mesure le nombre de fois où la variable est sélectionnée pour
partitionner la base d’apprentissage.
Nous définissons un seuil à partir duquel nous considérons que les variables ne sont pas
significatives. Le seuil retenu est 5 %. Les variables retenues sont :
· Le zonier Dégât des eaux appartement ; · Ancienneté du logement ; · Nombre de pièce ; · Âge du souscripteur.
5%
14%
15%
28%
Âge du souscripteur
Nombre de pièces
Ancienneté du logement
Zonier DDEA
Importance relative
P a g e | 79
Nous remarquons que le GBM sélectionne les mêmes variables que celle que nous avions retenues
pour le GLM.
A noter que la sélection de variables pour le GBM est automatique contrairement au GLM. Nous
avons accès rapidement aux variables explicatives retenues.
b) Création du modèle DDEA grâce au GBM
Pour la création du modèle DDEA, nous avons utilisé la fonction h2o.gbm du package h2o de R.
La création du modèle nécessite de fixer plusieurs valeurs de différents paramètres. Nous retrouvons
les principaux paramètres suivants :
· ntree : le nombre d’arbres ;
· distribution : la fonction de distribution ;
· shrinkage : le taux d’apprentissage ;
· max_depth : la profondeur des arbres.
Le but est d’avoir des paramètres avec des valeurs optimales. Pour cela, nous allons procéder en deux étapes : Etape 1 Nous allons tester plusieurs combinaisons de valeurs de différents paramètres. L’objectif ici est de
pouvoir dresser un premier bilan des valeurs qui apportent une meilleure prédiction. Ainsi, à ce
stade, nous allons pouvoir jauger des paramètres qui influencent le plus la qualité de la prédiction.
Nous pourrons ainsi remarquer :
· s’il est nécessaire ou non d’avoir un nombre importants d’arbre ; · la profondeur des arbres qui apporte de meilleures performances ; · le taux d’apprentissage qui semble être le plus approprié.
Etape 2 :
Après avoir remarqué les valeurs des paramètres apportant les meilleures performances, nous allons utiliser le Grid Search dans le but de trouver les valeurs optimales à affecter aux paramètres ô, * et ö. Une précision importante est que le Grid Search est limité d’un point de vue informatique et par
conséquent, nous ne pouvons pas tester l’ensemble des possibilités. La première étape parait donc être indispensable parce qu’elle nous permet d’avoir une idée des paramètres à tester pour améliorer la qualité de la prédiction.
P a g e | 80
Suite à ces deux étapes, les paramètres retenus sont :
· ntree : 250 ;
· distribution : Tweedie ;
· Le shrinkage : 0.2 ;
· max_depth : 2.
c) Validation
La validation du modèle s’effectue en deux étapes :
Ø Validation du modèle sur la base d’apprentissage Comme pour la partie GLM, nous allons valider notre modèle grâce à la méthode de validation croisée des K-folds (le principe est décrit page 63). Cette technique est appliquée en utilisant k=10 folds. Le graphique suivant donne les résultats obtenus pour l’indice de Gini :
Figure 40 - Illustration des résultats du K-fold obtenus sur le modèle dégâts des eaux appartements pour le GBM
La stabilité du Gini entre les échantillons d’apprentissage et test sur chacun des folds permet de valider notre modèle sur la base d’apprentissage.
0
0,1
0,2
0,3
0,4
0,5
0,6
0,7
0,8
0,9
1
1 2 3 4 5 6 7 8 9 10
Gin
i
Numéro de l'échantillon
échantillontrain
échantillontest
P a g e | 81
Ø Validation du modèle sur la base test L’objectif est d’appliquer notre modèle sur l’échantillon test afin de comparer les niveaux
d’apprentissage entre la base d’apprentissage et la base test. Nous allons vérifier que nous avons
bien la même performance entre les deux bases.
La comparaison des niveaux d’apprentissage s’effectue par le biais de l’indice du gini. Nous obtenons
les résultats suivant :
Ø GINI sur base d’apprentissage
Figure 41 - Indice de gini pour le GBM sur base d’apprentissage
Ø GINI sur base test
Figure 42 - Indice de gini pour le GBM sur base test
P a g e | 82
Finalement, nous avons :
GINI
Train 0,371 Test 0,365 Différence 1%
Nous constatons que les indices de GINI sont très proches entre les deux bases. Cela nous permet de vérifier qu’il n’y pas de sur-apprentissage et de valider le pouvoir prédictif de notre modèle.
P a g e | 83
4.3. Random Forest
4.3.1. Principe
Le Random Forest (forêts aléatoires) est une technique d’apprentissage statistique qui peut être
utilisée pour des problèmes de classification ou de régression. Il repose sur le principe de Bagging qui
consiste à agréger plusieurs modèles entre eux dans le but d’obtenir un seul résultat prédictif.
Dans les cas spécifiques des modèles d’arbres de décision (CART), Breiman propose une amélioration
du bagging par l’ajout d’une composante aléatoire. L’objectif est de rendre plus indépendants les
arbres de l’agrégation en ajoutant du hasard dans le choix des variables qui interviennent dans les
modèles.
Une forêt aléatoire est donc un ensemble d’arbres de décisions dans lequel la base d’apprentissage
de chaque arbre est aléatoire. En effet, les différents arbres sont construits et entrainés sur des
sous-échantillons tous différents les uns des autres.
Cette méthode permet de corriger le manque de robustesse dans le cas où un seul arbre de
régression est utilisé pour la prédiction.
L’algorithme du Random Forest peut être décrit en trois étapes :
· Étape 1 :
Pour chaque arbre de décision, nous allons construire un échantillon d’apprentissage pour chaque
arbre en effectuant un tirage aléatoire avec remise sur les observations de la base de départ et en
choisissant aléatoirement les variables considérées.
· Étape 2 :
Construction d’un arbre de décision sur chaque base construite dans l’étape 1.
· Étape 3 :
Agrégation des résultats sur chaque arbre de décision obtenu.
P a g e | 84
4.3.2. Application du Random Forest à la garantie Dégat des Eaux Appartement
Dans cette section, l’objectif est d’appliquer le Random Forest à la garantie DDEA. L’objectif est de créer un modèle prédictif de la sinistralité future des affaires nouvelles. Nous utiliserons la base de données et l’ensemble des variables que nous avons utilisées pour la partie GLM. La modélisation sera réalisée avec le logiciel R.
a) Application du Random Forest à la sélection de variables
Le Random Forest permet également de réaliser une sélection de variables. Nous pourrons ainsi
accéder à l’ensemble des variables explicatives.
Sur ce schéma, nous avons les principales variables sélectionnées par le Random Forest. Précisions
que les variables avec une importance relative inférieure à 5 % ne sont pas affichées afin de ne pas
surcharger le graphique.
Figure 43 - Importance relative des variables pour le Random Forest
Nous définissons un seuil à partir duquel nous considérons que les variables ne sont pas
significatives. Le seuil retenu est 5 %. Les variables retenues sont :
· Le zonier Dégât des eaux appartement ; · Nombre de pièce ; · Ancienneté du logement.
15%
16%
31%
Ancienneté du logement
Nombre de pièces
Zonier DDEA
Importance relative
P a g e | 85
b) Création du modèle DDEA grâce au Random Forest
Pour la création du modèle DDEA, nous avons utilisé la fonction h2o.randomForest du package h2o
de R. La méthode utilisée pour la tarification de la garantie DDEA est similaire à celle utilisée pour le
GBM.
Les principaux paramètres à définir pour le Random Forest sont :
· ntree : le nombre d’arbres ;
· mtries : nombre de variables sélectionnées aléatoirement dans chaque échantillon d’apprentissage ;
· max_depth : la profondeur des arbres.
La méthodologie pour la détermination de ces paramètres est similaire à celle utilisée pour le GBM. Nous obtenons les paramètres suivants :
· ntree : 250 ;
· mrties : 10;
· max_depth : 6.
P a g e | 86
c) Validation
La validation du modèle s’effectue en deux étapes :
Ø Validation du modèle sur la base d’apprentissage La méthode de validation croisée des K-folds (le principe est décrit page 63) va nous permettre de valider notre modèle sur la base d’apprentissage. Cette technique est appliquée en utilisant k=10 folds. Le graphique suivant donne les résultats obtenus pour l’indice de Gini :
Figure 44 - Illustration des résultats du K-fold obtenus sur le modèle dégâts des eaux appartements pour le Random Forest
La stabilité du Gini entre les échantillons d’apprentissage et test sur chacun des folds permet de valider notre modèle sur la base d’apprentissage.
Ø Validation du modèle sur la base test
Nous allons appliquer notre modèle sur l’échantillon test afin de vérifier que nous avons bien les
mêmes niveaux de performance entre la base d’apprentissage et la base test en terme de gini.
Nous pourrons ainsi valider notre modèle sur la base d’apprentissage et vérifier qu’il n’y pas de sur-
apprentissage
Nous obtenons les résultats suivants :
0
0,1
0,2
0,3
0,4
0,5
0,6
0,7
0,8
0,9
1
1 2 3 4 5 6 7 8 9 10
Gin
i
Numéro de l'échantillon
échantillontrain
échantillontest
P a g e | 87
Ø GINI sur base d’apprentissage
Figure 45 - Indice de gini pour le Random Forest sur base d’apprentissage
Ø GINI sur base test
Figure 46 - Indice de gini pour le Random Forest sur base test
P a g e | 88
Finalement, nous avons :
Gini
Train 0,365
Test 0, 331
Différence 3 %
Nous constatons que les indices de GINI sont assez proches entre les deux bases.
P a g e | 89
4.4. Comparaison des modèles
Dans cette partie, nous allons donner l’ensemble des résultats des différentes méthodes.
Méthodes Gini Train Gini Test
Gradient Boosting Machine (GBM) 0,371 0,365
Random Forest 0,366 0,331
Modèles linéaires généralisée (GLM) 0,317 0,327
Ce tableau nous indique que les deux techniques de machine Learning présentent les meilleures
performances que le GLM en terme de Gini. En particulier, le GBM est l’algorithme qui donne les
meilleures performances.
Malgré le fait que ces techniques ne soient pas implémentables actuellement dans le système
informatique d’AXA France, il est intéressant de comprendre l’apport de ces nouvelles techniques par
rapport aux approches traditionnelles. Nous pourrons ainsi utiliser le GBM et le Random Forest pour
la sélection de variables. En ce sens, lorsque nous sommes confrontés à de nombreuse variables, ces
techniques permettent de détecter rapidement les variables le plus importantes.
L’utilisation des algorithmes de Machine Learning nous permet également de valider les variables
sélectionnées dans le GLM.
P a g e | 90
V. Tarif final
Dans cette partie, nous allons déterminer la prime commerciale. Une fois le nouveau tarif obtenu, nous allons l’analyser et le comparer à l’ancien tarif. En ce sens, nous étudierons la distance tarifaire de la nouvelle gamme par rapport à l’ancienne
gamme pour les PNO. Cela revient à analyser l’écart entre les deux tarifs et identifier les éléments à
l’origine de cet écart.
5.1. Prime commerciale
5.1.1. Calcul de la prime commerciale La prime commerciale désigne la prime vendue qui assure un minimum de rentabilité à la compagnie
d’assurance.
Rappelons la composition de la prime commerciale :
· la prime pure (P1) :
Prime minimale requise pour faire face à la sinistralité du portefeuille avec une rentabilité nulle.
· la prime technique (P2) :
Prime pure sécurisée par des chargements additifs et multiplicatifs permettant de faire face à la
charge sinistre des assurés et aux différents frais.
· la prime commerciale (P3) :
Prime vendue avec la prise en compte d’une éventuelle marge.
Avec la prise en compte des différents chargements et de la marge, la prime commerciale s’écrit de la manière suivante :
Pour chaque contrat >, nous avons :
!" = ( " × (1 + $) + % ) × (1 + &)
Avec :
· la prime pure ;
· (1 + $) les chargements multiplicatifs ( $ ≥ 0 ) ;
· % les chargements additifs ( % ≥ 0) ;
· (1 + & ) les chargements globaux ( & ≥ 0 ).
P a g e | 91
Interprétation
La prime pure est sécurisée par des chargements multiplicatifs et additifs permettant la prise en compte des différents frais (acquisition, gestion de sinistres, administration, réassurance, etc.). Les chargements globaux correspondent à l’intégration de la marge et de la commission des agents. A noter que les frais ne sont pas fixes et dépendent du profil de risque. Dans le cadre de notre étude, nous allons ainsi distinguer les frais entre les maisons et les appartements pour les PNO. La nouvelle structure de la prime commerciale va nous permettre de dissocier les différents niveaux de la prime vendue. Cela nous permettra ainsi d’analyser la contribution de chaque composante (P1, P2 et P3) au tarif final et de pouvoir faire des ajustements si nécessaire sur P2 et P3 sans toucher à P1.
P a g e | 92
5.1.2. Distribution de la prime commerciale Nous allons présenter les distributions des primes commerciales des appartements et des maisons.
Ø Distribution prime commerciale Appartement
Figure 47 - Distribution prime commerciale Appartement
Ø Distribution prime commerciale Maison
Figure 48 - Distribution prime commerciale Maison
P a g e | 93
5.2. Étude de la distance tarifaire
Notre but est de comparer les tarifs du nouveau produit et du produit actuel. La comparaison s’effectuera sur l’ensemble des contrats de la base de modélisation (cf. page 30). A noter que le nouveau tarif correspond à la prime commerciale présentée dans la partie précédente. Pour un risque donné, le nouveau tarif donne une meilleure mesure du risque. Pour chaque contrat de notre base, nous allons avoir un tarif issu du nouveau produit PNO et un tarif issu du produit PNO actuel. Tout au long de cette étude, nous désignerons séparément les appartements et les maisons en raison des frais différents qui leur sont appliqués. Donnons de brèves statistiques obtenues à partir de la base de modélisation :
Nouveau Tarif Ancien Tarif Écart relatif
Appartement 95,81 € 99,85 € -4,05%
Maison 229,92 € 153,06 € 50,21%
Nous remarquons que le tarif du nouveau produit est moins élevé en moyenne que l’ancien produit
pour les appartements. Cependant le nouveau produit PNO est plus élevé en moyenne pour les maisons. Intéressons-nous de plus près aux distributions du nouveau tarif et de l’ancien tarif. Pour les appartements, nous avons :
Figure 49 - Comparaison tarif appartement
Nous constatons que les distributions des deux tarifs se superposent pour les appartements.
P a g e | 94
Pour les maisons, nous avons également :
Figure 50 - Comparaison tarif maison
Nous observons, sur ce graphique que les contrats de l’ancienne gamme sont globalement sous tarifés pour les maisons. Nous nous intéresserons également à l’écart relatif entre le tarif du nouveau produit et le tarif de
l’ancien produit. Pour rappel, l’écart relatif est définit de la manière suivante :
ÉGP<H <@IPH>a = ýRAÈ@PA þP<>a þP<>a FGHA@I − 1
Un écart relatif strictement positif correspondra à un ýRAÈ@PA þP<>a > þP<>a FGHA@I,
Alors que, un écart relatif strictement négatif correspondra à un ýRAÈ@PA þP<>a < þP<>a FGHA@I
Dans un premier temps, tentons de quantifier la proportion du périmètre impactée par des tarifs
élevés.
Proportion concernée par
un écart strictement positif Proportion concernée par
un écart strictement négatif
Appartement 49 % 51 %
Maison 90 % 10 %
Nous constatons que la moitié des appartements et 90 % des maisons voient leur tarif augmenter
strictement avec le nouveau produit. Dans la suite, nous allons tenter d’expliquer cet écart.
P a g e | 95
Ø Écart relatif Appartement
Figure 51 - Écart relatif Appartement
Constatons que l’écart relatif varie globalement entre -1 et 1 pour les appartements, ce qui signifie qu’il y a autant de clients qui sont impactés par une hausse et par une baisse du tarif.
Ø Écart relatif Maison
Figure 52 - Écart relatif Maison
Pour les maisons, la majorité des contrats voient leur tarif augmenter, l’écart relatif varie globalement de -0,5 à 2,5 %.
P a g e | 96
5.3. Explication des écarts tarifaires
Dans cette partie, nous allons tenter d’expliquer les écarts tarifaires entre le nouveau produit et le produit actuel. Pour cela, nous allons utiliser des arbres de décisions (rappel théorique page 72) pour expliquer l’écart tarifaire pour les appartements et les maisons. Notre variable à expliquer est l’écart
relatif en pourcentage.
Ø Arbre de décision pour les appartements
Figure 53 - Arbre de décision pour les écarts tarifaires sur les appartements
Deux variables expliquent clairement les écarts tarifaires positifs pour les appartements : le zonier dégâts des eaux appartement et le zonier incendie. Rappelons que le nouveau produit PNO est construit de manière à avoir un modèle par garantie. Pour chaque garantie, il a été déterminé un zonier qui est dans notre cas un maillage territorial français définissant les différentes zones de risque. Les zoniers dégâts des eaux appartement et le zonier incendie font partie de ces garanties. L’arbre de régression nous indique que le nouveau produit affecte des tarifs plus élevés que l’ancien
pour les contrats se situant dans les zones élevées pour l’incendie et le dégât des eaux.
Ancienneté logement = < 5 ans, 5-10 ans, NR no yes
Zonier dégât des eaux appartement < 12
Zonier incendie < 12 Age client = ] 60 – 70 ] ans, ] 70 – 80 ] ans, ] 80 – in] ans
P a g e | 97
Ø Arbre de décision pour les maisons
Figure 54 - Arbre de décision pour les écarts tarifaires sur les appartements maisons
Plusieurs variables expliquent clairement les écarts tarifaires positifs pour les maisons. Nous retrouvons les variables suivantes : la présence d’un insert, le nombre de pièces, l’âge et le zonier climatique. L’arbre de régression nous indique que le nouveau produit affecte des tarifs plus élevés que l’ancien tarif lorsque :
· La présence d’un insert ;
· Le nombre de pièces est élevé ;
· L’âge est inférieur à 70 ans ;
· La zone climatique est élevée. Notons que les principales variables qui expliquent l’écart observé sont différentes selon le segment
considéré. Ainsi, nous ne retrouvons pas les mêmes variables pour les maisons et les appartements.
Interprétation des écarts
Le zonier de l’ancien produit était beaucoup moins fin. Les écarts de tarifs peuvent donc être justifiés par le fait que les contrats étaient détectés en zone peu risquée avec l’ancien produit. Le nouveau étant plus fin pour chaque garantie, les contrats se retrouvent affectés dans leur vraie zone de risque qui peut être plus élevée. Ils se retrouvent affectés de leurs « vrais » tarifs. L’ancien tarif se trouve alors être une sous-estimation, d’où des écarts important.
Présence d’un insert = Non yes no
Nombre de pièces < 7
Age client = ] 70 – 80 ] ans, ] 80 – in] ans
Zonier climatique < 4
P a g e | 98
5.4. Analyse de la profitabilité du portefeuille PNO
Après avoir expliqué les écarts tarifaires entre le nouveau produit et le produit actuel, nous allons analyser la profitabilité du portefeuille PNO. L’objectif est d’identifier les clients qui génèrent le plus et le moins de rentabilité. La création d’un modèle Prime Pure par garantie va nous permettre d’utiliser un indicateur de
rentabilité : l’ELR (Expected Loss Ratio)
5.4.1. Définition de l’ELR L’ELR est un indicateur de suivi de la rentabilité d’un portefeuille d’assurance. Il va nous permettre de connaitre la rentabilité générée par chaque contrat présent dans notre portefeuille PNO. Cela nous permettra ainsi de classer les assurés entre eux en fonction de leur rentabilité générée. L’ELR est défini de la manière suivante :
'*, = -."/0 -2.0 345"/é0-."/0 607820 9:520;;0 Où :
· <>?@ A<@ ∶ correspond à l’agrégation des primes pures de l’ensemble des
garanties ;
· <>?@ C@DEA@ FGHA@II@ ∶ il s’agit du tarif vendu pour le produit actuel.
L’utilisation de la prime vendue dans la formule de l’ELR permet d’évaluer la qualité de tarification du
modèle actuel. Dans cette optique, nous allons comparer notre estimation du risque avec le tarif du produit actuel. Cette analyse, nous permettra de dire, si le risque est correctement évalué dans le tarif PNO actuel.
P a g e | 99
5.4.2. Analyse ELR Nous allons calculer un ELR pour l’ensemble des contrats présents dans la base de modélisation.
Nous obtenons la distribution suivante pour l’ELR :
Figure 55 - Distribution ELR
Nous remarquons qu’il y un certain nombre de contrats où l’ELR est supérieur à 100 %. Un ELR supérieur à 100 % reflète une situation dans lequel l’assureur n’est pas rentable, le tarif vendu est inférieur à la Prime Pure estimée. Ce qui signifie que l’estimation du risque est sous-évaluée dans le tarif actuel. Nous sommes donc en présence de contrats sous tarifés. Regardons de plus près grâce à des arbres de régression les contrats dont l’ELR est supérieur à 100 %. Cela nous permettra d’identifier les segments les moins rentables.
5.4.3. Application des arbres aux ELR Nous allons utiliser des arbres de régression dans le but d’identifier les segments qui génèrent le plus et le moins de rentabilité. Cette analyse, nous permettra également d’identifier les contrats sous tarifés.
P a g e | 100
Figure 56 - Application des arbres aux ELR
La première information qui ressort de l’arbre est que les appartements sont plus rentables que les
maisons : nous avons un ELR moyen de 41,15 % pour les appartements et un ELR moyen de 85,27 % pour les maisons. Les maisons avec un nombre de pièce supérieur à 6 se situant dans les régions 67 ou 68 (Sud-Est, Sud-Ouest) ou possédant un insert présentent les ELR les plus élevés. Les variables les plus discriminantes sont :
· Le nombre de pièces ;
· La région ;
· La présence d’insert. Concernant les appartements, la variable discriminante est le zonier dégâts des eaux appartements.
Type d’habitation = Appartement yes no
Zonier dégât des eaux appartement < 14 Nombre de pièces < 7
Région < 66
Région < 66
Nombre de pièces < 4
Présence d’un insert = Non
P a g e | 101
Bilan Cette analyse basée sur l’ELR, nous permet de valider la création de notre nouveau tarif.
En effet, le tarif actuel sous évalue l’estimation du risque et par conséquent, nous avons de
nombreux contrats où la rentabilité espérée est négative, nulle ou très proche de zéro.
Le nouveau tarif qui va être mis en place va donc permettre une meilleure évaluation du risque pour
éviter à l’assureur d’avoir une rentabilité négative.
Une fois le nouveau tarif mis en place, l’ELR va constituer un indicateur de suivi de rentabilité des
affaires nouvelles. Il va nous permettre d’identifier la typologie des contrats les plus risqués et de
classer les assurés en fonction de la rentabilité générée.
L’ELR permettra également de piloter notre portefeuille PNO actuel. En effet, nous pourrons
réajuster les tarifs des assurés sous tarifés par le biais de majorations. À l’échéance les assurés avec
un ELR supérieur à 100 % verront leur tarif augmenter afin d’avoir une meilleure prise en compte de
leur risque.
P a g e | 102
Conclusion
L’enjeu de ce mémoire était la création d’un nouveau tarif pour l’assurance PNO. En ce sens, nous
avons déterminé la prime pure, la prime technique et la prime commerciale de l’assurance PNO.
Afin d’obtenir la vision la plus correcte possible du risque de notre portefeuille d’assurés, nous avons
mis en place une refonte complète des modèles de prédiction du produit PNO. Nous avons ainsi créé
un modèle par risque visant à prédire les primes pures des garanties suivantes : bris de glace, dégât
des eaux, vol, incendie, responsabilité civile, évènements climatiques et catastrophes naturelles.
Pour tenir compte des contraintes opérationnelles liées à l’informatique et au réseau de distribution
d’AXA France, nous avons utilisé les GLM pour la tarification. En effet, actuellement il n’est pas
possible pour l’informatique d’implémenter des modèles autres que linéaires et notre tarif doit être
compréhensible par notre réseau de distribution qui se compose principalement d’agents généraux.
A noter que pour la modélisation de la garantie dégât des eaux où les risques diffèrent
considérablement entre les maisons et les appartements, nous avons créé deux modèles distincts :
DDEA et DDEM.
Dans le cadre de ce mémoire, nous avons présenté la tarification détaillée de la garantie DDEA.
Nous avons ainsi créé un modèle prédictif de la sinistralité future des affaires nouvelles.
La création d’un modèle prime pure par garantie va nous permettre d’améliorer la qualité de
prédiction du coût d’un contrat et par conséquent d’obtenir une meilleure sélection des risques.
Après la modélisation d’un modèle de prime pure par garantie, nous avons déterminé la prime commerciale avec la prise en compte des différents chargements (additifs, multiplicatifs et globaux) et de la marge. La refonte du produit PNO permet également d’obtenir un tarif qui va dissocier la prime pure, la
prime technique et la prime commerciale. Cela nous permettra ainsi d’analyser la contribution de
chaque composante (P1, P2 et P3) au tarif final et de pouvoir faire des ajustements si nécessaire sur
P2 et P3 sans toucher à P1.
Une fois le nouveau tarif obtenu, nous l’avons analysé et comparé par rapport à l’ancien tarif. En ce
sens, nous avons étudié la distance tarifaire de la nouvelle gamme par rapport à l’ancienne gamme
pour les PNO. Nous avons ainsi remarqué que le tarif du nouveau produit est moins élevé en moyenne que l’ancien produit pour les appartements et plus élevé en moyenne pour les maisons.
Après avoir analysé les écarts tarifaires entre le nouveau produit et le produit actuel, nous avons analysé la profitabilité du portefeuille PNO grâce à l’utilisation d’un indicateur de rentabilité : l’ELR L’utilisation de l’ELR nous a permis de valider la création du nouveau tarif. En effet, nous avons
remarqué que le tarif actuel sous évalue l’estimation du risque et par conséquent, nous avons de nombreux contrats où la rentabilité espérée est négative, nulle ou très proche de zéro. Le nouveau tarif qui va être mis en place va donc permettre une meilleure évaluation du risque pour éviter à l’assureur d’avoir une rentabilité négative.
P a g e | 103
Une fois le nouveau tarif mis en place, l’ELR va constituer un indicateur de suivi de rentabilité des
affaires nouvelles. Il va nous permettre d’identifier la typologie des contrats les plus risqués et de
classer les assurés en fonction de la rentabilité générée.
L’ELR permettra également de piloter notre portefeuille PNO actuel. En effet, nous pourrons
réajuster les tarifs des assurés sous tarifés par le biais de majorations. À l’échéance, les assurés avec
un ELR supérieur à 100 % verront leur tarif augmenter afin d’avoir une meilleure prise en compte de
leur risque.
Par ailleurs, cette étude nous a également permis de tester à titre de comparaison des techniques
d’apprentissage statistique pour la tarification de la garantie DDEA : le GBM et le Random Forest.
Nous avons remarqué que ces deux techniques présentent de meilleures performances que le GLM.
Malgré le fait que ces techniques ne soient pas implémentables actuellement dans le système
informatique d’AXA France, il était intéressant d’évaluer leur performance en comparaison du GLM.
Cela nous a permis de comprendre l’apport de ces nouvelles techniques par rapport aux approches
traditionnelles. Nous pourrons ainsi utiliser le GBM et le Random Forest pour la sélection de
variables. En ce sens, lorsque nous sommes confrontés à de nombreuse variables, ces techniques
permettent de détecter rapidement les variables les plus importantes.
P a g e | 104
Lexique
Assurance PNO : Assurance Propriétaire Non Occupant.
Assurance PO : Assurance Propriétaire Occupant.
Coût Moyen : C’est la charge totale des sinistres divisée par le nombre de sinistres.
Fréquence : C’est le nombre de sinistres divisé par la durée d’exposition au risque.
Prime Pure : C’est la charge totale des sinistres divisée par la durée d’exposition au risque.
GBM : Le Gradient Boosting est une technique d’apprentissage statistique qui peut être utilisée pour
des problèmes de classification ou de régression. Il repose sur le principe de Boosting qui consiste à
utiliser plusieurs modèles entre eux dans le but d’obtenir un seul résultat prédictif.
L’objectif est de construire une séquence de modèles de telle sorte qu’à chaque nouvelle étape, le
nouveau modèle apparaisse comme une meilleure solution que le précédent.
Random Forest : Le Random Forest (forêts aléatoires) est une technique d’apprentissage statistique
qui peut être utilisée pour des problèmes de classification ou de régression. Il repose sur le principe
de Bagging qui consiste à agréer plusieurs modèles entre eux dans le but d’obtenir un seul résultat
prédictif.
Indice de Gini : L'indice de Gini est un indicateur de performance du modèle. Il fournit une mesure
de la qualité de la segmentation du modèle. Il est calculé à partir de la fonction représentée par la
courbe de Lorenz.
ELR : L’ELR est un indicateur de suivi de la rentabilité d’un portefeuille d’assurance. Il va nous
permettre de connaitre la rentabilité générée par chaque contrat présent dans notre portefeuille
PNO.
Zone : ensemble de délimitations géographiques présentant un même niveau de risque.
P a g e | 105
Annexes
Tendances des variables explicatives du modèle dégâts des eaux appartement :
0
10
20
30
40
50
60
70
80
0
20
40
60
80
100
1 2 3 4 5 6 7 8
Exp
osi
tio
n
Pri
me
Pu
re
Nombre de pièces
0
20
40
60
80
100
120
140
160
180
0
5
10
15
20
25
30
5-10ans < 5ans > 10ans NR
Exp
osi
tio
n
Pri
me
Pu
re
Ancienneté logement
exposti
P a g e | 106
0
5
10
15
20
25
30
35
40
45
50
18
20
22
24
26
28
30
32
34
36
38
]00-20] ans ]20-30] ans ]30-40] ans ]40-50] ans ]50-60] ans ]60-70] ans ]70-80] ans ]80- in] ans NR
Exp
osi
tio
n
Pri
me
Pu
re
Âge du client
0
2
4
6
8
10
12
5
10
15
20
25
30
35
40
45
50
55
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20
Exp
oso
tio
n
Pri
me
Pu
re
Zonier Dégats des eaux appartements
P a g e | 107
Bibliographie
AXA Belgium (2013), Assurances & Actuariat IARD, Document interne.
AXA France (2014), Guide technique MRH, Document interne.
Blueprint AGPC (2017), Best Practice du Groupe en matière de tarification, Document interne.
GUYADER Arnaud (2013), Régression linéaire
CHARPENTIER Arthur (2005), Mathématiques de l’assurance non-vie-Tome II : Tarification et
provisionnement, Economica.
CHARPENTIER Arthur (2010), Statistique de l’assurance
TOMAS Julien, Modèles Linéaires & GLM
JEROME H. FRIEDMAN (1999), Stochastic gradient boosting, Department of Statistics Stanford.
University.
MICHAL MALOHLAVA - ARNO CANDEL (2017), Gradient Boosting Machine with H2O.
Club Algo rapport d'études (2016), Institut des Actuaires.
WikiStat, Agrégation de modèles.
WikiStat, Apprentissage de données massives avec H2O.
R. TIMOFEEV (2004), Classification And Regression Trees. Master thesis, Humboldt University.
BREIMAN Leo, Machine Learning, University of California.
LOIRET Camille (2016), Refonte du tarif Multirisque Habitation : construction de micro zoniers et
intégration de la sinistralité passée à l’adresse, ISFA, Mémoire d’actuariat
GAHBICHE Mohamed (2017), Estimation de la Prime Pure Catastrophe Naturelles au travers des
données géographiques, ISFA, Mémoire d’actuariat
P a g e | 108
Table des figures
Figure 1 - Nombre de contrat PNO par année ...................................................................................... 24
Figure 2 - Cotisations PNO (en K€) par année ....................................................................................... 24
Figure 3 - Répartition des PNO par type de bien .................................................................................. 25
Figure 4 - Comparaison du coût moyen appartement entre les PNO et les PO .................................... 26
Figure 5 - Comparaison du coût moyen maison entre les PNO et les PO ............................................. 26
Figure 6 - Comparaison de la fréquence de sinistralité appartement entre les PNO et les PO ............ 27
Figure 7 - Comparaison de la fréquence de sinistralité maison entre les PNO et les PO...................... 27
Figure 8 - Comparaison de la Prime Pure observée appartement entre les PNO et les PO ................. 28
Figure 9 - Comparaison de la Prime Pure observée maison entre les PNO et les PO ........................... 28
Figure 10 - Décomposition de la Prime Pure observée appartement pour les PNO et les PO ............. 29
Figure 11 - Décomposition de la Prime Pure observée maison pour les PNO et les PO ...................... 29
Figure 12 - Exemple pour déterminer un seuil d’écrêtement pour la garantie Dégâts des eaux
appartement. ......................................................................................................................................... 33
Figure 13 - Triangle de charges cumulées ............................................................................................. 35
Figure 14 - Illustration pour le calcul de l’indice de gini ........................................................................ 43
Figure 15 - Illustration pour le calcul de l’indice de gini en considérant un modèle saturé ................. 44
Figure 16 - Prime Pure observée en fonction du nombre de pièces ..................................................... 51
Figure 17 - Prime Pure observée en fonction de l’ancienneté du logement ........................................ 52
Figure 18 - Prime Pure observée en fonction de la présence ou non de la franchise........................... 52
Figure 19 - Prime Pure observée en fonction du nombre d’enfants ..................................................... 53
Figure 20 - Prime Pure observée en fonction de la zone dégât des eaux ............................................. 54
Figure 21 - Table de corrélation entre les différentes variables ........................................................... 55
Figure 22 - Pourcentage de de diminution de l’AIC à chaque ajout de variable explicative ................. 57
Figure 23 - Exemple de la variable ancienneté logement pour la comparaison entre la prime pure
prédite et observée ............................................................................................................................... 58
Figure 24 - Exemple de la variable ancienneté logement pour l’analyse des intervalles de confiance 59
Figure 25 - Exemple de la variable ancienneté logement pour l’analyse de la stabilité dans le temps 60
Figure 26 - Illustration des du principe du K-fold avec K=10 ................................................................. 63
Figure 27 - Illustration des résultats du K-fold obtenus sur le modèle dégâts des eaux appartements
pour le GLM ........................................................................................................................................... 64
Figure 28 - Stabilité des coefficients estimés par le GLM sur chacun des folds. ................................... 64
Figure 29 - Les résidus de Pearson sur la base d’apprentissage ........................................................... 65
Figure 30 - Les résidus par rapport au critère de déviance sur la base d’apprentissage ...................... 65
Figure 31 - Analyse des tendances sur la base d’apprentissage ........................................................... 66
Figure 32 - Les résidus de Pearson sur la base test ............................................................................... 68
Figure 33 - Les résidus par rapport au critère de déviance sur la base test.......................................... 68
Figure 34 - Analyse des tendances sur la base test ............................................................................... 69
Figure 35 - Indice de gini pour le GLM sur base d’apprentissage ......................................................... 70
Figure 36 -Indice de gini pour le GLM sur base test .............................................................................. 70
Figure 37 - Représentation d’un noeud ................................................................................................ 73
Figure 38 - Représentation du concept de réduction d’impureté. Idée d’illustration par M.Gahbich . 73
P a g e | 109
Figure 39 - Importance relative des variables pour le GBM .................................................................. 78
Figure 40 - Illustration des résultats du K-fold obtenus sur le modèle dégâts des eaux appartements
pour le GBM .......................................................................................................................................... 80
Figure 41 - Indice de gini pour le GBM sur base d’apprentissage ......................................................... 81
Figure 42 - Indice de gini pour le GBM sur base test ............................................................................ 81
Figure 43 - Importance relative des variables pour le Random Forest ................................................. 84
Figure 44 - Illustration des résultats du K-fold obtenus sur le modèle dégâts des eaux appartements
pour le Random Forest .......................................................................................................................... 86
Figure 45 - Indice de gini pour le Random Forest sur base d’apprentissage ........................................ 87
Figure 46 - Indice de gini pour le Random Forest sur base test ............................................................ 87
Figure 47 - Distribution prime commerciale Appartement ................................................................... 92
Figure 48 - Distribution prime commerciale Maison ............................................................................ 92
Figure 49 - Comparaison tarif appartement .......................................................................................... 93
Figure 50 - Comparaison tarif maison ................................................................................................... 94
Figure 51 - Écart relatif Appartement ................................................................................................... 95
Figure 52 - Écart relatif Maison ............................................................................................................. 95
Figure 53 - Arbre de décision pour les écarts tarifaires sur les appartements ..................................... 96
Figure 54 - Arbre de décision pour les écarts tarifaires sur les appartements maisons ....................... 97
Figure 55 - Distribution ELR ................................................................................................................... 99
Figure 56 - Application des arbres aux ELR ......................................................................................... 100