maud vandekerchove contrôle des modèles de prime pure et

120
Mémoire présenté le : pour l’obtention du Diplôme Universitaire d’actuariat de l’ISFA et l’admission à l’Institut des Actuaires Par : Maud Vandekerchove Titre : Contrôle des modèles de prime pure et de prime commerciale de la Responsabilité Civile par le biais de l’expected loss ratio Confidentialité : NON OUI (Durée : 1 an 2 ans) Les signataires s’engagent à respecter la confidentialté indiquée ci-dessus Membres présents du jury de l’Institut Entreprise : des Actuaires Nom : AXA FRANCE Signature : Membres présents du jury de l’ISFA Directeur du mémoire en entreprise : Nom : Doan NGUYEN TUAN Signature : Invité : Nom : Signature : Autorisation de publication et de mise en ligne sur un site de diffusion de documents actuariels (après expiration de éventuel délai de confidentialité) Signature du responsable entreprise Secrétariat : Signature du candidat Bibliothèque :

Upload: others

Post on 18-Jun-2022

1 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Maud Vandekerchove Contrôle des modèles de prime pure et

Mémoire présenté le :pour l’obtention du Diplôme Universitaire d’actuariat de l’ISFA et l’admission à

l’Institut des Actuaires

Par : Maud Vandekerchove

Titre : Contrôle des modèles de prime pure et de prime commercialede la Responsabilité Civile par le biais de l’expected loss ratio

Confidentialité : � NON � OUI (Durée : � 1 an � 2 ans)

Les signataires s’engagent à respecter la confidentialté indiquée ci-dessus

Membres présents du jury de l’Institut Entreprise :des Actuaires

Nom : AXA FRANCESignature :

Membres présents du jury de l’ISFA Directeur du mémoire en entreprise :Nom : Doan NGUYEN TUANSignature :Invité :Nom :Signature :Autorisation de publication et demise en ligne sur un site dediffusion de documents actuariels(après expiration de éventuel délai deconfidentialité)Signature du responsable entreprise

Secrétariat :

Signature du candidat

Bibliothèque :

Page 2: Maud Vandekerchove Contrôle des modèles de prime pure et

Résumé

Mots clés :Auto, Responsabilité civile, prime pure, prime commerciale, expected loss ratio (ELR), loss ratio(S/C), arbre de décision CART, gradient boosting model(GBM), algorithme PRIM (Patient RuleInduction Method), tarification, segmentation, sur-apprentissage, analyse segmentée.

En France, l’auto représente une grande part du marché des assurances.Les équipes actuarielles auto doivent être en mesure de confectionner des tarifs adaptés etconvenablement segmentés.Pour cela des contrôles réguliers des modèles doivent être effectués dans le but d’apporter deperpetuelles améliorations.L’objet de ce mémoire est d’étudier ce besoin par le biais d’un indicateur de pilotage de renta-bilité : l’Expected loss ratio, noté ELR, qui représente le rapport entre la prime pure prédite etla prime.Pourquoi cet indicateur est-il indispensable, comment peut-il nous permettre d’améliorer nosmodèles et quelles en sont ses limites face à cette activité.Nous verrons que cet indicateur peut se calculer de deux façons différentes en fonction del’analyse que l’on souhaite mener.Notre étude va porter sur la garantie responsabilité civile.Dans un premier temps nous analyserons son écart au loss ratio, noté S/C, qui représente lerapport entre la sinistralité réelle et les primes, dans le but d’améliorer notre prime pure. Eneffet, la prime pure doit être en accord avec la sinistralité actuelle, nous effectuerons ainsi uneanalyse segmentée afin de réajuster les segments déviants. Cette étude se fera par le biais d’unarbre de décision CART, méthode très efficace pour une analyse segmentée.Dans un second temps, nous nous intéresserons au modèle de prime commerciale. Nous re-marquerons l’impact de l’ancienneté de contrat sur les primes et la pertinence d’étudier sépa-rément le tarif en affaire nouvelle et le tarif en portefeuille. Nous nous concentrerons ici sur lemodèle de prime commerciale en affaire nouvelle.Cette étude se fera par le biais de l’ELR. Il s’agira cette fois aussi d’une étude segmentée dans lebut de cibler des segments d’ELR déviants. Le but de cette partie est d’utiliser l’analyse segmen-tée afin de proposer des améliorations au modèle de prime commerciale, de réperer les bonset mauvais risques en terme de sinistralité grâce à notre modèle de prime pure, de spécifier leslimites de l’ELR dans cette analyse, d’expliquer à la fois son rôle et son importance mais aussiles raisons pour lesquelles il peut se montrer insuffisant face à la problématique de stratégiecommerciale. Pour cette partie nous utiliserons la méthode GBM (modele gradient boosting)qui permet d’obtenir une classification de variable, et ensuite un outil innovant "segment fin-der" construit en interne d’AXA et basé sur l’algorithme PRIM (Patient Rule Induction Method).

i

Page 3: Maud Vandekerchove Contrôle des modèles de prime pure et

Abstract

Key words :Motor, Third Party Liability, burning cost (pure premium), commercial premium, expected lossratio (ELR), loss ratio, decision tree, gradient boosting model (GBM), PRIM (Patient Rule Induc-tion Method) algorithm, pricing, segmentation, overfitting, segmentation analysis.

Motor Insurance is a significant part of the French insurance market. It is thus essential formotor pricing actuaries to produce pricing algorithms that are both appropriate in a businesscontext and adequately segmented. These pricing algorithms must be audited and improvedon a regular basis. The aim of this thesis is to see to what extent an indicator known as ELR,and which is defined as the ratio of burning cost to premium, can be used to do this. We willsee why this metric is important and how it can be used to improve pricing algorithms whilstalso examining its limitations. The ELR can be calculated in two different ways depending onthe analysis we wish to use it for. We will focus on Third Party Liability.We will first look at the gap between expected loss ratio and actual loss ratio (i.e. predictedlosses vs actual losses). This analysis allows to evaluate and improve the quality of our bur-ning cost models. As expected burning cost should match observed burning cost, we will aimto identify the key segments on which the two differ and thus adjust our burning cost modelaccordingly. We will use a decision tree (CART) to quickly identify the segments on which thedeviation is greatest and on which corrective action is thus necessary. Secondly, we will usethe ELR to gauge the quality of our commercial (payable) pricing algorithm. We will highlightthe importance of the number of years a contract has been in force in determining its com-mercial premium – which is due to significant differences between the premium calculationmethod for New Business and subsequent renewals. This will lead us to concentrate primarilyon the New Business premium algorithm. We will try and identify segments with excessivelyhigh or low Expected Loss Ratios. This will allow us to determine – based on the extrapolatedpast claims experience contained in our burning cost model - which specific customer profilesare good risks and which are bad risks. We will see how this information can be used to makebusiness decisions, whilst also examining the weaknesses and limitations of this metric, parti-cularly as regards commercial strategic constraints. In this section we will first use the GradientBoosting Model (GBM) to derive a variable classification, and then an innovative internal AXAtool – known as segment finder, and based on the Patient Rule Induction Method (PRIM).

ii

Page 4: Maud Vandekerchove Contrôle des modèles de prime pure et

Note de synthèse

L’objectif de ce mémoire est de contrôler les modèles de prime pure et prime commerciale dela garantie Responsabilité Civile par le biais de deux indicateurs de rentabilité l’ELR (rapportentre la prime pure prédite et la prime) et le S/C (rapport entre les sinistres et la prime).Le but étant à la fois de préconiser des améliorations au modèle de prime pure et au modèle deprime commerciale mais aussi d’étudier l’ELR via cette étude, sa pertinence, son intérêt maisaussi ses limites.Pour mener cette étude nous ferons des études segmentées via des méthodes de machine lear-ning comme l’arbre de décision CART, le GBM et l’outil développé en interne d’AXA : segmentfinder.Nous étudierons ces différentes méthodes et démontrerons leur utilité et pertinence pour notreétude.Le mémoire est composé de deux grandes parties :Dans la premiere partie, nous chercherons à cibler des segments pour lesquels le modèle deprime pure est mal ajusté à la sinstralité réelle, et dans la seconde, nous chercherons des seg-ments d’ELR déviant afin de proposer des améliorations au modèle de prime commerciale.Les deux parties sont liées puisque pour pouvoir étudier les modèles de primes commercialesvia l’ELR, nous avons besoin que le modèle de prime pure soit contrrôlé.Ce mémoire a été réalisé sur la seule garantie obligatoire, cependant nous pouvons effectuer lemême travail sur toutes les autres garanties.

Problématique

Dans un milieu aussi concurrentiel que celui de l’assurance auto, la tarification est un des en-jeux les plus importants des équipes actuarielles. De ce fait, elle doit être contrôlée et réajustéesi besoin. En effet notre tarif doit être prudent afin de pouvoir couvrir tous les sinistres et lesfrais, attractif pour attirer et fidéliser les clients et bien segmenté afin de créer des classes derisques similaires. Nous devons cependant être prudent vis-à-vis du sur-apprentissage. Le surapprentissage, autrement nommé le sur-ajustement ou surinterprétation, se définit par de tropfortes similitudes entre la solution réelle et la prédiction.La prime commerciale est compensée de la façon suivante :Prime commerciale = PP + CH + T + CS + M. avec PP qui représente la prime pure, l’espérancedes sinistres , et CH, T, CS et M qui représentent les chargements pour frais, les taxes, les char-gements de sécurité et la marge. Le S/C (rapport entre les sinistres et la prime) est un indicateurimportant de pilotage de rentabilité cependant il comprend quelques limites que voici :

• On ne peut pas connaître la rentabilité future d’un contrat

• On ne connaît pas la rentabilité en affaire nouvelle

• On ne connaît pas la rentabilité d’un contrat réslié

iii

Page 5: Maud Vandekerchove Contrôle des modèles de prime pure et

iv Note de synthèse

Ces limites sont palliées grâce à l’utilisation de l’ELR (rapport entre la prime prime prédite et laprime). L’ELR peut être calculé de deux façons différentes en fonction de son utilisation.Nous l’utiliserons pour contrôler notre modèle de prime pure et celui de prime commerciale.Nous étudierons donc par le biais de cette étude l’importance de cet indicateur mais aussi seslimites.Nous travaillons tout le long de ce mémoire sur ELR et S/C attritionnels, c’est à dire dont lacharge (ou prévision de charge) n’excède pas 115 000 euros.

Partie 1

Etude réalisée

Pour utiliser l’ELR nous devons avoir des modèles qui prédisent au mieux notre prime pure.En effet, les modèles de prime pure sont particulièrement importants puisqu’ils prédisent la si-nistralité d’un contrat, grâce à la prime pure nous pourrons notamment connaître la sinistralitéfuture d’un contrat, la sinistralité d’un contrat en affaire nouvelle et la sinistralité d’un contratrésilié. Ces modèles sont prédits à partir de la sinistralité observée sur des années antérieures,nous devons donc vérifier l’adaptation du modèle avec notre sinistralité observée en 2016.Pour cela nous cherchons à repérer des segments d’écart entre le S/C et l’ELR. L’ELR et le S/Cont le même dénominateur qui sont les primes acquises sur le temps d’observations de l’image.La durée de l’image correspond au temps durant lequel le contrat a eu les mêmes caractéris-tiques. Le numérateur utilisé pour l’ELR correspond à la prime pure au prorata de la durée del’image. On calibre la prime pure de sorte que prime pure totale = sinistres totaux.

Méthode : Arbre de décision

Une étude en univarié n’est pas suffisante pour notre problème, en effet, en univarié nous necaptons pas les interactions. De ce fait, nous ne savons pas si un segment obtenu est déviantseul ou si la déviance est due à l’interaction avec une ou des autres variable(s). Nous allons uti-liser la méthode CART arbre de décision. L’arbre de décision est une méthode de segmentationnon paramétrique. L’objectif est de prédire les valeurs d’une variable cible Y avec n observa-tions à partir de variables explicatives. Ici nous expliquons les écarts en fonction des variablesexplicatives de la prime pure. Le principe de l’arbre de décision est de partitionner de façon ré-cursive et binaire l’espace des variables explicatives afin d’obtenir toutes les valeurs possiblesde la variable à prédire. L’arbre essaie de regrouper à chaque étape les parties les plus homo-gènes possibles entre elles. Pour éviter le sur-apprentissage et des calculs trop compliqués nouspouvons limiter les partitions. Ici nous choisissons comme critère d’arrêt le minbucket qui cor-respond au nombre d’observations minimales d’une feuille. Nous fixons ce paramètre à 5% del’effectif total, nous ne mettons pas un effectif plus faible pour éviter le sur-apprentissage.Les segments cherchés correspondent aux feuilles de l’arbre. Pour chaque feuille, nous préci-sons le S/C moyen, L’ELR moyen, l’écart moyen et l’effectif.

Interprétation de l’arbre de décision et conclusion

Avant de préconiser des segments de réajustement pour le modèle de prime pure, nous devonsanalyser toutes les feuilles.Nous rejetons dans une premier temps toutes les feuilles pour lesquelles les écarts ne sont passignificatifs. Pour les autres, nous devons essayer de diminuer le nombre de variables dans nosinteractions afin de simplifier le modèle. Ceci peut se faire en analysant toutes les possibilitéset donc l’arbre dans sa globalité.

Page 6: Maud Vandekerchove Contrôle des modèles de prime pure et

Note de synthèse v

Lorsque nous avons nos segments, nous devons réajuster les coefficients de la prime pure desorte que l’ELR se rapproche le plus possible du S/C. La méthode de réajustement des coeffi-cients doit se faire de façon pertinente et stratégique. Nous commençons par les segments pourlesquels nous avons supprimé une ou des variables. Une fois le réajustement effectué, nous ré-cuperons le nouvel écart des segments comprenant ces variables et corrigeons ces derniers etainsi de suite.Les segments univariés sont corrigés en dernier.

Partie 2

Etudes réalisées

Première étude

Dans la partie 2, nous partons de l’hyptothèse forte selon laquelle notre modèle de prime pureest très bien ajusté sur tous nos segments. Ainsi pour analyser notre modèle de prime commer-ciale nous analysons l’ELR.Dans cette partie il s’agit d’un ELR annualisé, c’est à dire que la prime pure prédit les sinistressur un an et les primes sont annualisées. L’ELR moyen est calibré à 100%. Nous commençonspar observer notre ELR en fonction de la durée de contrat, nous nous apercevons que celui cidiminue avec le temps, autrement dit plus le contrat est récent plus l’ELR sera élevé, et inver-sement plus le contrat est ancien plus l’ELR sera faible. Cela est dû à une stratégie commercialequi vise à augmenter le tarif avec l’ancienneté de contrat alors que la sinistralité diminue. Cettestratégie vise à attirer les clients en ayant un prix attractif en affaire nouvelle. En fonctionnantainsi, la perte de rentabilité d’un contrat en affaire nouvelle est rattrappée avec le temps. Pourcette raison, afin de ne pas biaiser l’analyse nous choississons de séparer les ELR en affaire nou-velle et les ELR en portefeuille. Nous nous concentrerons ici seulement sur les ELR en affairenouvelle, contrairement à la partie précédente nous aurons donc une ligne par contrat qui cor-respond aux caractéristiques du contrat lors de l’affaire nouvelle. Les contrats ont tous le mêmepoids dans notre base étant donné que les primes sont annualisées.Nous cherchons à cibler des segments pour lesquels notre ELR dévie fortement par rapport àla moyenne. Nous séparons donc :

• Les ELR trop élevés : tarifs en affaire nouvelle trop bas par rapport à la prime pure.

• Les ELR trop faibles : tarifs en affaire nouvelle trop élevés par rapport à la prime pure.

Nous voulons savoir si, comme pour l’ancienneté de contrat, ces divergences d’ELR sont dues àune stratégie commerciale ou si le tarif est tout simplement mal ajusté. Dans ce cas la stratégiecommerciale viserait à attirer les bons risques en terme de sinistralité et à éviter les mauvaisrisques. Ainsi, nous étudions la prime pure pour tous les segments obtenus.Cette étude de la sinistralité peut bien entendu être réalisée grâce à la fiabilité de notre modèlede prime pure car nous ne pouvons pas connaître la sinistralité réelle d’un contrat qui souscriten affaire nouvelle.Après étude, les segments d’ELR élevés ont une sinistralité élevée, et les segments d’ELR faiblesont une sinistralité assez faible.Il n’y a donc pas de stratégie commerciale mise au point en fonction de la sinistralité sur cessegments.

Page 7: Maud Vandekerchove Contrôle des modèles de prime pure et

vi Note de synthèse

Seconde étude

Nous cherchons ensuite à determiner les bons et mauvais risques en terme de sinistralité etcomment intégrer une stratégie commerciale sur ces segments afin d’améliorer la rentabilitéde nos contrats.Cette étude démontre également l’importance de notre partie 1, en effet, en plus de nous avoirpermis d’utiliser les ELR pour revoir notre tarif affaire nouvelle, nous pouvons également nousfier à notre prime pure pour cibler les bons et mauvais risques (la sinsitralité réelle en affairenouvelle n’étant pas connue). Une fois que nous connaissons nos bons et mauvais risques,nous élaborons le sujet de stratégie commerciale et la manipulation des ELR pour l’introduire.

Troisième étude

La troisième étude, plus opérationnelle, explique pourquoi l’ELR n’est pas le seul indicateur àsuivre pour intégrer de la stratégie commerciale et revoir les tarifs.En effet, la stratégie consistant à attirer les bons risques et à fuir les mauvais en manipulantl’ELR a ses limites. Dans un milieu aussi concurrentiel nous devons tenir compte du marché,et avons donc besoin d’indicateurs supplémentaires qui reflètent la concurrence.Le taux de transformation nous permet d’avoir un regard critique sur notre tarif en affaire nou-velle, il nous indique si celui-ci est apprécié des clients en tenant compte du nombre de devistransformés. Les clients utilisant fortement les comparateurs, si le taux de transformation estbas, nous pouvons conclure que notre tarif est trop élevé et inversement. L’ELR est donc unindicateur indispensable pour le contrôle du tarif cependant comme il ne tient pas compte dumarché, il doit être utilisé avec le taux de transformation.

Méthodes utilisées : Gradient boosting model et outil segment finder

Dans notre partie 2, les méthodes de machine learning utilisées sont le gradient boosting mo-del (GBM) et l’outil innovant segment finder.

Gradient boosting model

Le gradient boosting model est une méthode de descente de gradient.Le principe de base du GBM est de construire une séquence de modèles de sorte que pourchaque étape, chaque modèle ajouté à la combinaison, apparaisse comme un pas vers unemeilleure solution.Nous avons une variable à expliquer Y et des variables explicatives. Dans notre cas la variableà expliquer est l’ELR et les variables explicatives correspondent aux variables explicatives desmodèles de prime pure ou prime commerciale.Le GBM ici est mis en application pour obtenir une classification des variables. En effet, il nousrenseigne sur les variables ayant le plus d’impacts sur notre ELR. Nous choississons les para-mètres adéquats grâce à la méthode des 10-Folds et grâce à des indicateurs de performance demodèles sur l’échantillon test.La foncion de perte est la fonction gaussienne, puisque l’ELR est une variable continue.

L’outil segment finder

Cet outil permet de cibler des valeurs extremes.Il se décompose en deux étapes :

Page 8: Maud Vandekerchove Contrôle des modèles de prime pure et

Note de synthèse vii

• Réalisation d’un arbre de décision pour pré-sélectionner des segments.

• Recherche des segments à valeurs extrêmes sur la pré-sélection.

L’outil comporte en paramètres :

• La déviance : Seuil de dépassement de la moyenne globale.

• L’exposition minimale par segments.

• Le nombre de variables dans une interaction.

L’agorithme PRIM, développé par Friedman et Fisher [1] se décompose en deux étapes :

• Le top down peeling

• Le bottom-up pasting

Le top down peeling :On commence avec une boîte qui recouvre l’ensemble du domaine (des données), à chaqueétape, nous cherchons une sous-boîte b*, telle que la moyenne de notre variable cible Y surnotre nouvelle boîte (B-b*) soit supérieure à la moyenne sur la boîte B.Nous appliquons cette procédure ainsi de suite, le critère d’arrêt est le minimum d’expositionsouhaitée dans chaque segment.Le bottom-up pasting :Le bottom-up pasting permet de réajuster les limites de la boîte obtenue grâce au top downpeeling. Le principe de cet algorithme est tout simplement le procédé inverse du peeling. Eneffet, nous démarrons avec la boîte finale obtenue par l’étape du peeling, on va noter cette boîteB, nous cherchons à élargir cette boîte dans le but d’améliorer notre moyenne.Nous cherchons donc des sous boîtes b* telles que en ajoutant b* à B la moyenne augmente.

Cet outil sera utilisé pour cibler des segments d’ELR déviants. Nous sélectionnons pour pa-ramètre la déviance à 120% (qui dépasse la moyenne d’au moins 20%) et une exposition de5% minimum par segment. Etant donné que cet outil cible uniquement les valeurs extrêmes(ici dépassant la moyenne de 20%), nous devons l’appliquer deux fois. Dans un premier tempspour repérer les ELR trop élevés et dans un second temps sur la variable new ELR= 200-ELRafin d’obtenir les ELR trop faibles.Cet outil sera également appliqué pour cibler les bons et mauvais risques grâce à l’étude de laprime pure.

Conclusion : Pilotage des ELR pour le tarif affaire nouvelle

Grâce à l’outil segment finder, nous avons ciblé des segments d’ELR déviants. Après étude deces segments, il en résulte que ces déviances ne sont pas liées à des stratégies commerciales enfonction de la sinistralité. Il y a donc deux options soit ces tarifs sont mal ajustés et nous devonscorriger les coefficients du modèle de prime commerciale en affaire nouvelle et ajouter les in-teractions manquantes, soit ils sont dûs à la concurrence. La stratégie commerciale consistantà augmenter les primes en affaire nouvelle des mauvais risques afin d’avoir un ELR faible et àdiminuer celles des bons risques afin d’avoir un ELR très élevé a ses limites. En effet, son but se-rait d’attirer les bons risques et d’être moins attractifs sur les mauvais risques. Cependant, celafonctionne uniquement si nous avons suffisament de mauvais risques qui souscrivent pouréquilibrer la perte de rentabilité des bons risques. Or, si les tarifs sont plus avantageux sur lemarché, nous aurons peu de souscriptions. De plus, pour être attratif sur les bons risques, il

Page 9: Maud Vandekerchove Contrôle des modèles de prime pure et

viii Note de synthèse

faut avoir des prix plus avantageux que le marché, ainsi si pour cela nous ne sommes pas obli-gés de sous tarifer le contrat par rapport aux sinistres, il sera inutile d’élever les ELR sur cessegments. En synthèse, pour que le tarif affaire nouvelle soit revu, l’ELR est indispensable maisinsuffisant, en effet il nous permet de connaître la rentabilité des contrats mais ne tient pascompte de la concurrence. Un indicateur tel que le taux de transformation doit également êtrepris en compte et surveillé. En cumulant ces deux indicateurs, nous pouvons avoir quatre cas :

• Segments sur tarifés (ELR bas) et taux de transformation élevés :Cela signifie que notre tarif est attractif, ainsi nous pouvons le conserver tel quel et gagneren rentabilité.

• Segments sur tarifés (ELR bas) et taux de transformation pas assez élevés :Nous pouvons diminuer notre tarif en diminuant les coefficients du modèle de primecommerciale sur ces segments et ajouter les interactions manquantes, ainsi nous auronsdes prix plus attractifs.

• Segments sous tarifés (ELR élevé) et taux de transformation élevés :Cela signifie que nos prix sont attractifs mais que les contrats ne sont pas rentables. Nouspouvons essayer d’augmenter la rentabilité des segments en se rapprochant de l’ELRmoyen, pour cela nous devons réhausser les coefficients du modèle de prime commer-ciale et ajouter les interactions, ainsi le taux de transformation diminuera peut être maisnous gagnerons en rentabilité sur les contrats souscrits.

• Segments sous tarifés (ELR élevé) et taux de transformation pas assez élevés :Ici, nos prix ne sont pas attractifs ainsi nous souscrivons peu, cependant les contrats sou-crits ne sont pas rentables. Si nous diminuons nos tarifs nous gagnerons en attractivitémais nos contrats seront encore moins rentables ce qui n’est pas dans notre intérêt. Laméthode proposée est donc de laisser le tarif tel quel, ainsi nous perdrons en rentabilitémais nous continuerons à souscrire une petite part de ces contrats.

Il en est de même pour les bons et mauvais risques, nous pouvons utiliser les segments trouvéspour mettre au point des stratégies commerciales. Pour cela nous devons surveiller la concur-rence par le biais des taux de transformation et la rentabilité par le biais des ELR.

Conclusion générale sur l’ELR

La revue du modèle de prime pure est indispensable pour pouvoir étudier le rentabilité descontrats en affaire nouvelle.En effet, si nous ne revoyons pas nos modèles de prime pure en comparant la sinistralité préditeavec la sinistralité réelle, nous ne pouvons pas utiliser aisément la prime pure prédite commeespérance des sinistres et, ne disposant pas de la sinistralité réelle, nous ne pouvons pas étudierleur rentabilité et cibler les bons et mauvais risque.L’ELR pour la revue du tarif est indispensable puisque c’est le seul indicateur qui nous permetde piloter la rentabilité, et en nous basant uniquement sur le marché, nous risquerions d’avoirdes prix attractifs mais des contrats pas rentables.Ainsi, l’ELR doit être étudié avec le taux de transformation pour essayer de combler au mieuxle besoin d’attractivité et de rentabilité.

Page 10: Maud Vandekerchove Contrôle des modèles de prime pure et

Synthesis

This thesis seeks to analyse the Expected Burning Cost and Commercial Premium algorithmsfor Third Party Liability using two quantitative indicators : Expected Loss Ratio (ELR), whichis defined as the ratio of predicted Burning Cost and Earned Premium and the Observed LossRatio, which is the ratio of actual incurred losses to premium.We will will use this metric to suggest possible improvements to AXA’s Burning Cost Model, andcommercial pricing algorithm, but also look at the strengths and weaknesses of the ELR as ametric for doing this.Over the course of this thesis, we will carry out segmented analysis using machine learningmethods, such as Classification and Regression Trees (CART), Gradient Boosting (GBM) and aninternal AXA tool called segment finder.We will look at these three methods in depth and will justify in what way these are well suitedto the analysis we intend to carry out.This thesis consists of two main sections :In the first section, we will try and identify segments in which the Burning Cost Model does notaccurately predict observed losses. In the second half, we will identify segments which have ex-cessively high or low ELR in order to recommend improvements to the Commercial Premiumalgorithm.Both parts are inextricably linked, as it would be futile to use the ELR to recommend Commer-cial pricing improvements without first checking that the Burning Cost model that underliesthe ELR metric is accurately predicting Burning Cost.This thesis has only been applied to Third Party Liability (the only compulsory cover in France),however, the methods covered in this thesis can be applied analogously to all other types of co-ver.

Context

In a market as price sensitive as the French motor insurance market, pricing is one of the mostimportant issues for an actuarial team. Pricing algorithms must thus be audited and adjustedon a regular basis. A pricing algorithm must be both conservative in order to adequately coverlosses and expenses, competitive in order to attract and retain clients, but also segmented inorder to create homogeneous risk classes. A major risk in burning cost modelling and pricingis that of overfitting. Overfitting is when there are too many similarities between an observedsignal and the predictions generated by a model which has been fitted on those observations,in such a way that the predictive model has incorporated a certain amount of stochastic noisewhich will not be borne out in future observations. Commercial Premium is defined as follows :Commercial Premium = PP + CH + T + CS +M Where PP is Pure Premium/Burning Cost, and CH,T, CS, M are respectively loadings for expenses and taxes, safety margins and profit margins.The observed loss ratio – i.e. the ratio between observed losses and premium is an important

ix

Page 11: Maud Vandekerchove Contrôle des modèles de prime pure et

x Synthesis

profitability indicator. Using this metric does however have certain limitations such as :

• We do not know how profitable a policy will be in future.

• We do not know how profitable a New Business policy will be before it expires.

• We do not know profitable lapsed/cancelled contracts might have been.

ELR (the ratio of predicted Burning Cost to Earned Premium) compensates for this. ELR canbe calculated in two ways depending on the type of analysis we wish to use it for. We will useit in two different ways : firstly to audit our Burning Cost model and secondly our CommercialPremium algorithm.We will also take this opportunity to discuss the advantages and disadvantages of using thisindicator in each of these situations.In this thesis, we will look exclusively at the attritional ELR and attritional observed Loss Ratio– i.e. where large losses have been capped at 115 000 euros.

Section 1

Principle

If ELR is to be a useful indicator, it must be as reliable as possible : our Burning Cost Modelsmust thus accurately predict Burning Cost.Burning Cost models are important because they allow us to predict future expected losses fora contract before any losses have actually occurred, or future losses for that contract over seve-ral periods of insurance, as well as the losses a cancelled contract would have incurred had itnot been cancelled. Our existing models were fitted on losses incurred in previous years – wemust thus see how accurately they predict 2016 losses.In order to do this, we have to find segments in which there is a large deviation between Ob-served and Expected Loss Ratio. Expected Loss Ratio and Observed Loss Ratio have the samedenominator, which is earned premium over each contract’s period of exposure. A period of ex-posure is the length of time (measured in policy years) over which a contract had the same riskfactors. The denominator – earned premium – is thus annual premium prorated by the periodof exposure. We also calibrate our burning cost model through base level adjustments in orderto ensure that total predicted burning cost matches observed losses.

Decision tree method

A univariate approach to this problem is insufficient as it does not capture interactions. A uni-variate segment, identified through a univariate approach, and on which predicted BurningCost does not match observed losses might be deviating because of a strong interactive effectwith one or more variables, as opposed to simply the one variable which defines that segment.We will use the CART method for decision trees. A decision tree is a non parametric method ofobtaining segments. The principle involves predicting the values of a response variable Y withn observations using known explanatory variables. Here, we will try and predict the deviationbetween observed and predicted burning cost using the BC model’s rating variables. The prin-ciple behind a decision tree is that of recursively splitting the set of observations according tobinary rules derived from the set of explanatory variables in order to cover the set of possiblevalues of the response variable. The decision tree algorithm tries to find, at each level, the splitwhich leads to two segments which are as homogeneous as possible. In order to avoid over-fitting, and to reduce calculation time, it is important to apply certain partitioning criteria –

Page 12: Maud Vandekerchove Contrôle des modèles de prime pure et

Synthesis xi

here we use the minbucket one, which imposes that after each split, no set of observations cancontain less than a certain percentage of the initial amount of observations. We set this thre-shold to be 5%, as any lower would lead to an increased chance of overfitting.The segments identified are the leaves of the tree. For each leaf, we can compute the averageELR, the average loss ratio, the average difference between the two, and the exposure or num-ber of observations in the leaf.

Interpreting the decision tree

In order to suggest segments in which the burning cost model should be recalibrated, we haveto look at each leaf individually.We first ignore all leaves in which the observed gap is not significant. In the other leaves, wehave to try and reduce the number of variables in our interactions in order to simplify ourmodel.Once this has been done, we can adjust the Burning Cost model to ensure that the ELR is asclose as possible to the Observed Loss Ratio across these segments. The method for readjustingcoefficients must be both pertinent and strategic. We begin with the segments in which weremoved one or more variables. Once the readjustment has been done, we have a new set ofgaps between expected and observed loss ratios on the segments which were defined by thesevariables, and proceed iteratively.Univariate segments are corrected last.

Section 2

Principle

First analysis

In section 2, we begin with the hypothesis that our pure premium model is well adjusted acrossall segments, and is an accurate predictor of our burning cost. We can thus assume that we canconclude as to the quality of our commercial premium algorithm by looking at ELR.

In this section we look at the annual ELR, i.e. we pro-rate our burning cost over one year, anddo the same for payable premium. We also rebase our ELR so that the average ELR is set to100%. We first begin by looking at our ELR by policy age. We note that a contract’s ELR dimi-nishes over time – that is to say that the younger a policy is, the higher its ELR and the older apolicy, the lower its ELR. This is because it is AXA’s commercial strategy to increase a policy’spremium at each renewal despite the fact that the underlying risk tends to decrease. This isbecause AXA’s new business price must be low enough to be attractive to new customers whoare shopping around. The contract then becomes profitable as time goes by and the customerkeeps renewing their policy. As AXA’s pricing strategy is different for new business and rene-wals, we choose to distinguish between the two and concentrate exclusively on the ELR forNew Business policies. We will thus have a dataset with one line per contract, correspondingto its characteristics at new business. As we look at contracts on an annual basis, each contractwill be weighted equally in our analysis.We will try and identify segments in which our ELR deviates strongly from the average ELR.These are segments in which :

• ELR is too high : the new business price is too low when compared to burning cost.

• ELR is too low : the new business price is much higher than burning cost.

Page 13: Maud Vandekerchove Contrôle des modèles de prime pure et

xii Synthesis

We would like to establish whether – as was the case for policy age – these variations in ELR aredue to a strategic, commercial decision, or simply due to an ill-adjusted pricing algorithm. Inthe latter case the algorithm should be re-adjusted in order to try and attract more good risksand dissuade bad risks. We thus need to look at expected burning cost over all the segments weobtain.This however, relies exclusively on the ELR model being correct, as expected burning cost is ouronly indicator of a New Business policy’s profitability. This is because we cannot look at actualobserved losses for a New Business policy, as it would have no previous loss experience withAXA.We observe that segments with a high ELR have a high burning cost and that segments with alow ELR have a low burning cost.This allows us to conclude that there is no obvious adequate commercial pricing strategy forthese segments.

Second analysis

We then seek to determine good and bad risks in terms of burning cost, and then to find a wayof using this information to build a commercial strategy on these segments, with the aim ofimproving our book’s profitability.This allows to reiterate the importance of the first part of this thesis, as all this analysis relies onhaving a burning cost model that is a good predictor of loss experience. Once we have identifiedour good and bad risks, we will then look at our commercial pricing strategy and how ELR canbe used to derive it.

Third analysis

The third piece of analysis will look at the ELR’s uses in practice. We will explain why the ELR isnot the only indicator that needs to be monitored by insurance executives and actuaries whensetting commercial premium.The commercial strategy which consists of using the ELR to capture good risks and dissuadebad ones has its limits. It is also important to take into account competitor premiums whensetting commercial rates.Conversion rate is another way of gauging the efficacy of new business pricing. It allows usto see the percentage of clients who convert quotes into policies. As customers tend to shoparound and obtain competitor quotes, segments with high conversion rates are segments onwhich AXA is presumably competitive, and segments with low conversion rates are ones onwhich AXA is too expensive. ELR is thus an extremely useful indicator of profitability. It howeverdoes not take into account competitors’ pricing strategies and must thus be used in conjunc-tion with other indicators such as conversion rate in order to define an optimal commercialpremium algorithm.

Methods used : Gradient boosting and segment finder

In section 2 we used two machine learning methods : Gradient Boosting , and a second inno-vative method which was developed internally by AXA and which is known as segment finder.

Page 14: Maud Vandekerchove Contrôle des modèles de prime pure et

Synthesis xiii

Gradient boosting model

The Gradient Boosting Model is based on the steepest descent principle.The key concept behind GBM is that of building a sequence of models such that, for each newmodel added to the sequence, the overall combination of this sequence models gets closer to abetter predictive model.We have a variable Y that we are seeking to predict and a set of explanatory variables. In thiscase, the response variable we are seeking to explain is the ELR, and the explanatory variablesare those used in our pure premium model and commercial premium algorithm.The GBM is used here to classify variables. It provides us with insight as to which factors havethe strongest impact in determining a policy’s Expected Loss Ratio. We use 10-fold cross vali-dation and other KPI derived from the train sample to define the optimal parameters for theGBM.We choose the loss function to be a gaussian variable since the response – ELR – is a continuousquantitative variable.

Segment finder tool

This tool is used to identify extreme values.It does this in the following way :

• Creating a decision tree to identify segments.

• Looking for segments with extreme values amongst those preselected by the decisiontree.

The tool’s inputs are :

• Deviance threshold : The threshold beyond which we consider a value to be extreme.

• Minimal exposure per segment.

• Number of interactions.

The PRIM algorithm, which was created by Friedman and Fisher [FF99] consists of two steps :

• Top down peeling

• Bottom-up pasting

Top down peeling :We start with a box B which covers our set of observations. We try and find a sub-box, b* of Bsuch that the average value of Y over (B-b*) is higher than that over the initial box B. We thenapply the same principle to B – b* until we cannot ”peel” away any more boxes without goingbelow the minimal exposure threshold defined as an algorithm input.Bottom-up pasting :Bottom-up pasting allows us to readjust the boundaries of the final box we previously obtainedthrough top down peeling. It is follows the opposite principle to the peeling algorithm. We be-gin with the final box, B, obtained through peeling. We then try and find a sub-box b* such thatthe average of Y over B + b* is higher than it was over B.This tool will be used to identify segments in which the ELR is excessively high. We will set ourdeviance parameter to 120% and exposure parameter to 5% (i.e. we wish to find segments witha minimum exposure of 5% of the total portfolio on which the ELR is more than 20% higher

Page 15: Maud Vandekerchove Contrôle des modèles de prime pure et

xiv Synthesis

than the average ELR) . We use this tool twice when seeking to identify deviant ELR segments :first to identify high ELR segments, and the second time taking Y = 200 – ELR as our new res-ponse variable in order to identify segments with excessively low ELR (ELR lower than 80% ofthe average ELR).We will also use this tool to identify good and bad risks by applying it to predicted Burning Cost(as opposed to ELR, which is also influenced by variations in commercial premium structures).

Conclusion : Using ELR to impact New Business Pricing

We used segment finder to identify segments on which our ELR was too high or low. After loo-king at these segments in detail, we see that these are not specifically due to commercial stra-tegy. This allowed us to conclude that : either our pricing is misaligned and needs to be adjustedby correcting the coefficients in the New Business pricing algorithm and adding missing inter-actions to this algorithm, or it is due to the fact that it is specifically low or high in order tomatch market premiums. The commercial strategy which consists in increasing new businesspremium for bad risks in order to give them a low ELR and in reducing new business premiumfor good risks in order to give them a higher ELR has its limitations. It would enable us to attractmore good risks and would lead to us being less attractive for bad risks. However, such a stra-tegy would only work if we still manage to attract enough bad risks at a low ELR to balance outgood risks with a high ELR. Unfortunately, if the price of bad risks has increased too much, wewill get very little business in those segments. Moreover, in order to attract good risks, our priceonly has to be in line or slightly lower that the market price. There is thus no need to excessivelylower the price on these risks and thus sacrifice profitability on those segments if the marketdoes not call for it. In summary, while ELR is thus a useful tool for gauging the profitability ofa new business contract, it does not take into account competitor’s pricing. The quality of ourpricing with respect to that of our competitor’s is measured by looking at conversion rate – thisis thus another crucial metric in setting pricing strategy. Looking at these two indicators, wehave the four following cases :

• Overpriced segments (low ELR) with high conversion rate :This suggests our pricing is competitive and can be kept as it is, whilst remaining profi-table.

• Overpriced segments (low ELR) with low conversion rates :We can reduce our price - thus making it more attractive - on these segments by modi-fying the coefficients used and adding interactions to the commercial pricing algorithm.

• Underpriced segments (high ELR) with high conversion rates :This suggests our pricing is attractive with respect to the market, but that the policies wesell are not profitable. We could try and improve the profitability of this segment by mo-difying the commercial pricing algorithm in such a way that the price is higher. Conver-sion rate would diminish, but the New Business policies sold in those segments would bemore profitable.

• Underpriced segments (high ELR) with low conversion rate :Here, our pricing is not attractive as comparatively few quotes are converted into policies.However, we are still not profitable enough on these segments. If we reduce our pricing,we will improve our product’s attractiveness but policies sold will be even less profitable,which is not a good thing. We thus suggest leaving the pricing as it is – we will remainslightly unprofitable in those segments, but we will also avoid selling large volumes ofthese unprofitable policies as most of those risks will go to our competitors.

Page 16: Maud Vandekerchove Contrôle des modèles de prime pure et

Synthesis xv

We can reason in a similar way with the segments of good and bad risks identified by segmentfinder. We can use these segments to come up with pricing strategies but must evaluate thesepricing strategies by also examining competitiveness (by looking at conversion rate) and profi-tability (by looking at ELR).

Conclusion

It is vital to first review the accuracy of our Burning Cost model before analysing the profitabi-lity of our New Business policies.This is because, if we do not verify first that losses predicted by this model actually tally withobserved losses, we cannot use predicted Burning Cost with any confidence when looking at aNew Business policy’s expected losses. As we don’t have actual observed losses for a New Bu-siness contract that has just been sold, we cannot examine how profitable they are and thusidentify which are good or bad risks.The ELR is the best possible indicator of profitability when assessing the New Business pricingalgorithm, as it is the only one which adequately assesses profitability. If we were to align ourpricing with the market, by, say looking exclusively at conversion rate, we would sell contractsat attractive prices, but this would happen at the expense of portfolio profitability.ELR must thus be examined simultaneously with conversion rate as this is the best way of ma-king decisions which take into account both the necessity of having an attractive pricing stra-tegy and of preserving the profitability of our book.

Page 17: Maud Vandekerchove Contrôle des modèles de prime pure et

Remerciements

Je tiens tout d’abord à adresser mes remerciements à Guillaume GORGE, Julien DURAND, CyrilLARMURIER et Manjula MOHEE GALI pour m’avoir permis de réaliser ce mémoire, pour leurconfiance et leur soutien.

Je tiens à remercier tout particulièrement ma tutrice d’entreprise Doan Trang NGUYEN TUAN,pour son aide, son soutien, sa bonne humeur et son optimisme qui m’ont permis d’avancertout au long de cette étude.

J’adresse notamment ma reconnaissance à toutes les personnes en charge du pricing Auto,avec qui mes échanges ont été fructueux et en particulier Amaury RAULT, Jennifer PARIENTE,Vincent CESCUTTI, Alexandre DE LA MORINERIE et Aurélie MENARD.

Mes remerciements à Clément LADIER de l’équipe "Center of Pricing Excellence" pour m’avoirprésenté l’outil développé en interne d’AXA qui m’a permis de réaliser mes études.

Je tiens également à remercier Anne-Laure LE GALLO, Charles PARTINGTON et Mohamed HA-LIMI pour leur gentillesse et leur aide.

Je remercie de façon générale l’ensemble de la Direction du marché IARD de la branche Parti-culiers/Professionnels d’AXA France.

Enfin, je remercie Yahia SALHI pour son aide. Merci également à mes proches pour leur soutienet leurs encouragements.

xvi

Page 18: Maud Vandekerchove Contrôle des modèles de prime pure et

Table des matières

Résumé i

Abstract ii

Note de synthèse iii

Synthesis ix

Remerciements xvi

Introduction 3

1 Cadre et objectif de l’étude 51.1 L’offre Auto AXA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51.2 La tarification . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6

1.2.1 Contexte . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61.2.2 Décomposition de la prime d’assurance . . . . . . . . . . . . . . . . . . . . 71.2.3 La segmentation en assurance . . . . . . . . . . . . . . . . . . . . . . . . . . 8

1.3 Les indicateurs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 91.3.1 Indicateur important le S/C (loss ratio) . . . . . . . . . . . . . . . . . . . . . 91.3.2 Limites du S/C . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 91.3.3 L’ELR (expected loss ratio) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 101.3.4 Avantages de l’ELR . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 121.3.5 Maniement du S/C et ELR pour contrôler la rentabilité et améliorer nos

modèles . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 121.4 Construction de la base . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13

1.4.1 La base sinistre . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 141.4.2 Le calcul des primes pures . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15

2 Pré-requis 162.1 Analyses des corrélations entre variables . . . . . . . . . . . . . . . . . . . . . . . . 16

2.1.1 Le coefficent de Pearson . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 162.1.2 Le test V de Cramer . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 172.1.3 Le Test de Kruskal-Wallis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17

2.2 Ciblage de segments : Arbre de décision et gradient boosting model . . . . . . . . 182.2.1 Le gradient tree boosting . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 182.2.2 Le sur-apprentissage . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 192.2.3 Les arbres de décision . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 202.2.4 Le gradient boosting model . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22

2.3 Ciblage de segments : Utilisation de l’outil segment finder . . . . . . . . . . . . . . 25

1

Page 19: Maud Vandekerchove Contrôle des modèles de prime pure et

2 Table des matières

2.3.1 Contexte . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 252.3.2 Algorithme PRIM . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26

3 Contôle de la prime pure : Etude des écarts entre S/C et ELR 323.1 Analyses statistiques univariées . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32

3.1.1 L’âge du conducteur . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 333.1.2 L’âge d’obtention du permis . . . . . . . . . . . . . . . . . . . . . . . . . . . 343.1.3 La durée de détention du véhicule . . . . . . . . . . . . . . . . . . . . . . . . 343.1.4 Les régions de souscription AXA France . . . . . . . . . . . . . . . . . . . . . 353.1.5 Le zonier RC . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 363.1.6 La carrosserie du véhicule . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 373.1.7 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37

3.2 Analyse des corrélations . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 393.2.1 Analyse des variables quantitatives . . . . . . . . . . . . . . . . . . . . . . . 403.2.2 Analyse des corrélations des variables qualitatives . . . . . . . . . . . . . . 413.2.3 Analyse des corrélations des variables qualitatives et quantitatives . . . . . 41

3.3 Ciblage des segments par arbre de décision . . . . . . . . . . . . . . . . . . . . . . 423.3.1 Etude des écarts positifs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 433.3.2 Etude des écarts négatifs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49

3.4 Propositions d’améliorations et méthodes . . . . . . . . . . . . . . . . . . . . . . . 533.4.1 Méthode 1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 533.4.2 Méthode 2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 543.4.3 Méthode 3 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56

4 Contôle de la prime commerciale : Etude de l’ELR 574.1 L’ancienneté de contrat . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 574.2 Analyses statistiques univariées . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59

4.2.1 L’âge du véhicule . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 614.2.2 Le nombre de km annuel . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 614.2.3 Age d’obtention du permis . . . . . . . . . . . . . . . . . . . . . . . . . . . . 624.2.4 La situation matrimoniale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 634.2.5 La classe de prix du véhicule SRA . . . . . . . . . . . . . . . . . . . . . . . . . 634.2.6 La zone de garage RC . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 644.2.7 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 65

4.3 Tests des corrélations entre variables . . . . . . . . . . . . . . . . . . . . . . . . . . 664.4 Sélection de variables par utilisation du gradient boosting model . . . . . . . . . 674.5 Etude des ELR avec l’outil segment finder . . . . . . . . . . . . . . . . . . . . . . . . 73

4.5.1 Segments d’ELR élevé avec segment finder . . . . . . . . . . . . . . . . . . . 734.5.2 Segments d’ELR faible avec segment finder . . . . . . . . . . . . . . . . . . 774.5.3 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 80

4.6 Etude des primes pures et stratégie commerciale . . . . . . . . . . . . . . . . . . . 824.6.1 Etude des mauvais risques en terme de sinistralité . . . . . . . . . . . . . . 824.6.2 Etude des bons risques en terme de sinistralité . . . . . . . . . . . . . . . . 854.6.3 Préconisation sur le tarif affaire nouvelle et conclusions sur L’ELR . . . . . 88

Conclusion 91

Annexes 95

Page 20: Maud Vandekerchove Contrôle des modèles de prime pure et

Introduction

« New York n’est pas la création des hommes, mais celle des assureurs... », disait Henry Ford.En effet, sans les assurances, il n’y aurait pas de gratte-ciel, car aucun ouvrier n’accepterait detravailler à une telle hauteur.

L’assurance est, par définition, un système qui permet de prémunir un individu, une associa-tion ou une entreprise contre les conséquences financières et économiques liées à la surve-nance d’un risque potentiel. Il existe deux principaux types d’assurance : l’assurance non vie(biens, responsabilité et santé) et l’assurance vie (vie, décès, épargne, retraite). A côté de cettedistinction, on trouve une autre distinction entre les assurances IARD (Incendie, Accidents,Risques Divers) et les assurances de personnes. Les assurances IARD regroupent les assurancesde biens et les assurances de responsabilité alors que les assurances de personnes concernentles assurances « santé » et les assurances « vie ».

L’assurance automobile appartient à la branche IARD de l’assurance non-vie. Elle concernela plupart d’entre nous, puisque, dès lors que l’on possède un véhicule, nous sommes dansl’obligation de souscrire (depuis 1958), au minima, une assurance de responsabilité civile. Lebut principal de l’assurance automobile est d’apporter un soutien financier face aux pertessubies par un assuré ou une personne tierce, notamment lors d’un accident de la route, maisaussi pour des dommages subis en dehors de la circulation.

Tout au long de ce mémoire, le contrôle et l’ajustement de tarification des contrats d’assuranceautomobile pour la garantie Responsabilité Civile par le biais l’ELR (expected loss ratio) feral’objet de notre étude .

La tarification des contrats d’assurance est un travail délicat puisque le montant total des si-nistres est, par définition, inconnu par avance. Ceci est dû à l’inversion du cycle de produc-tion en assurance. En effet, l’assureur calcule une prime que l’assuré devra régler sans savoirla hauteur des indemnités qu’il sera amené à verser à l’assuré en cas de sinistre. Pour perdurer,un organisme d’assurance doit pouvoir payer l’ensemble des sinsitres que ses assurés subirontdans le futur, plus ou moins lointain, ainsi que ses propres coûts de gestion et de distribution.Ainsi, l’équilibre « sinistres/primes » est vital dans la durée pour que l’entreprise d’assurancerespecte la condition de solvabilité.

L’ELR permet de combler la non connaissance de la rentabilité future d’un contrat. En effet,il est défini par le rapport entre la prime pure prédite et la prime. La prime pure repésentel’espérance des sinistres. L’ELR est donc un indicateur de pilotage de rentabilité important.Pour pouvoir utiliser correctement cet indicateur, notre modèle de prime pure doit être sur-veillé et réajusté si besoin. La première partie de ce mémoire va être consacrée à l’étude de cemodèle. En effet, nous chercherons à repérer des segments sur lesquels le modèle de primepure est mal ajusté à la sinistralité réelle. Dans ce mémoire, nous n’avons pas pour rôle de

3

Page 21: Maud Vandekerchove Contrôle des modèles de prime pure et

4 Introduction

corriger les modèles mais de les analyser de façons segmentées via l’ELR afin de proposer desaméliorations.Dans la seconde partie, nous analyserons la prime commerciale et plus particulièrement letarif en affaire nouvelle puisque, pour des raisons de stratégies commerciales, nous devonsdifférencier le tarif en portefeuille du tarif en affaire nouvelle. Cette analyse aura pour but derepérer des segments d’ELR déviants, c’est-à- dire s’éloignant fortement de la moyenne. Ainsinous pourrons démontrer la nécessité de cet indicateur pour le contrôle de notre tarif maisaussi connaître ses limites. Nous préconiserons des méthodes d’améliorations.

Ce mémoire utilisera des méthodes de machine learning permettant d’effectuer la classifica-tion de variables et les analyses segmentées. Nous utiliserons l’arbre de décions CART, le gra-dient boosting model pour obtenir une hierarchisation des variables et aussi l’outil innovantsegment finder développé en interne d’AXA. Cet outil a pour but de cibler les valeux extrêmes.Il utilise l’algorithme PRIM (Patient rule induction method).

Page 22: Maud Vandekerchove Contrôle des modèles de prime pure et

Chapitre 1

Cadre et objectif de l’étude

Ce premier chapitre a pour but d’introduire la problématique, de présenter le cadre de l’étude,de préciser le périmètre étudié et d’expliquer la construction de la base.En effet, après avoir présenté l’offre auto d’AXA, nous élaborerons l’importance de contrôlernotre tarif et le besoin de segmentation.Nous présenterons nos deux indicateurs de pilotage de rentabilité : le loss ratio (noté S/C etqui représente le rapport entre sinistres et primes) et l’Expected loss ratio (noté ELR et quireprésente le rapport entre les primes pures prédites et les primes). Ce dernier sera étudié parle biais de ce mémoire. Nous expliquerons comment notre base a été construite et préciseronsnotre périmètre d’étude. Tout au long de ce mémoire, le loss ratio sera noté S/C et l’Expectedloss ratio sera noté ELR.

1.1 L’offre Auto AXA

Notre étude va porter sur les véhicules 4 roues, le réseau Agent et sur les cinq régions de sous-cription AXA France qui sont :

• L’Ile de France

• Le Nord-est

• L’Ouest

• Le Sud-Est

• Le Sud-Ouest

Il existe deux types de souscriptions possibles pour les véhicules 4 roues :

• L’offre assurance auto standard souscrite en agence : l’offre PE044.

• L’offre assurance en ligne qui est obligatoirement souscrite en ligne chez soi ou en agence.

Les garanties 4 Roues

Ce produit 4R (4 roues) propose un grand nombre de garanties, dont seule la responsabilitécivile est obligatoire.

5

Page 23: Maud Vandekerchove Contrôle des modèles de prime pure et

6 Chapitre 1. Cadre et objectif de l’étude

Voici les principales garanties AXA :

• Responsabilité civile (RC) : Elle couvre les dommages matériels et corporels causés à au-trui.

• Incendie Vol(IV) : Elle permet de couvrir le vol ou la tentative de vol du véhicule maisaussi les incendies extérieurs ou intérieurs.

• Dommage (Dom) : Elle assure, en cas d’accident responsable, les dommages causés auvéhicule, même en l’absence de tiers.

• Bris de glace (Bdg) : Elle couvre en cas d’impact sur les surfaces vitrées du véhicule.

• Assurance : Cette garantie ne consiste pas à réparer les conséquences d’un sinistre maisà apporter de l’aide après un accident ou une panne.

Les niveaux de garanties

Au sein d’AXA, le client peut choisir parmi trois formules de souscriptions correspondant à desniveaux de protection plus ou moins élevés.

• Niveau 1 Tiers : Responsabilité civile

• Niveau 2 Intermédiarire : Responsabilité civile + Incendie vol

• Niveau 3 Tous risques : Responsabilité Civile + Incendie vol + Dommage

Il est bien entendu possible de souscrire des garanties facultatives supplémentaires telles quel’assistance.

Dans notre étude, nous allons nous concentrer sur la garantie Responsabilité Civile.

1.2 La tarification

1.2.1 Contexte

Les équipes actuariat de la Direction de l’offre sont en charge de la tarification des produitsqu’elles proposent mais aussi de son conrôle.

En effet, la tarification est complexe et demande beaucoup de précautions.Dans un milieu aussi concurrentiel que celui de l’assurance auto le tarif doit être :

• Bien segmenté : En effet nous devons segmenter le portefeuille grâce à toutes les infosdont nous disposons dans nos bases sur les assurés afin de les regrouper par groupe derisques similaires.

• Attractif : Pour attirer les nouveaux clients mais aussi fidéliser les anciens.

• Prudent : Afin de pouvoir couvrir tous les sinistres et les frais de l’assureur.

De plus, nous devons répondre à certaines contraintes dans le calcul de notre tarif, et ne pou-vons pas utiliser toutes les variables comme nous le souhaitons.Par exemple, depuis 2012, nous n’avons plus le droit d’utiliser la variable sexe dans nos modèleset donc de segmenter par genre.

Page 24: Maud Vandekerchove Contrôle des modèles de prime pure et

1.2. La tarification 7

Outre l’inderdiction d’utiliser certaines variables dans le tarif, nous avons aussi l’obligation deprendre en compte le coeficient de réduction majoration (CRM) autrement nommé bonus ma-lus.La prise en compte de cette variable dans nos modèles vise à inciter les automobilistes à res-pecter le code de la route et faire preuve de prudence.

1.2.2 Décomposition de la prime d’assurance

La prime d’assurance représente la prime que l’assuré doit réeellement payer pour bénéficierde la couverture d’assurance en cas de sinistre.Elle est appelée prime commerciale et nous la décomponserons en 3 parties :

• P1 : La prime pure modélisée

• P2 : L’allocation des frais

• P3 : La prime commerciale : la prime finale que payera l’assuré

Ces 3 parties seront notées de la façon suivante dans la suite du mémoire :

• P1= PP

• P2 : CH + T + P1

• P3 : CS + M + P2

avec en détail :

• PP : La prime pureElle correspond à l’espérance des sinistres, soit le montant attendu des sinistres pour lapériode d’assurance étudiée.

• CH : Les chargements pour fraisCe sont les coûts supplémentaires, que doit régler l’assureur, non liés à la sinistralitécomme par exemple les coûts d’acquisition des contrats, à l’administration, à la gestion...

• T : Le taxesLes produits d’assurance sont soumis à une taxe fiscale reglementée par le code des ass-surances. Cette taxe est plus ou moins élevée en focntion des garanties. Les montantssont versés par les compagnies d’assurance au Trésor public.

• CS : Chargements de SécuritéCes chargements permettent de protégerer l’assureur en cas de sur-sisnitralité imprévue.Ils constituent donc une sécurité supplémentaire pour la couverture des sinistres.

• M : la MargeElle comprend la rémunération des fonds propres demandée par les actionnaires et lamarge bénéficiaire de l’assureur sur le produit.

La prime commerciale et la prime pure peuvent fortement différer.Cet éloignement est plus ou moins important selon les segments.Afin de contrôler la rentabilité de nos contrats, nous devons utiliser des indicateurs qui per-mettent de nous alerter en cas de perte.

Page 25: Maud Vandekerchove Contrôle des modèles de prime pure et

8 Chapitre 1. Cadre et objectif de l’étude

En effet, la prime payée peut être insuffisante et ne pas couvrir l’ensemble des sinistres etcharges détaillées ci-dessus et inversement trop élevée et donc entrainer des résiliations.Il est donc indispensable de mener des études régulières sur ces indicateurs, afin de pouvoirremettre en question et améliorer nos modèles (prime pure et prime commerciale) pour unemeilleure tarification et de ce fait une meilleure rentabilité.

1.2.3 La segmentation en assurance

Intêret de la segmentation

La mutualisation est très importante en assurance, c’est pourquoi la segmentation est une né-cessité.En effet, les conducteurs automobiles ne présentent pas tous le même risque, de ce fait un tarifindividuel ne respecterait pas le principe de mutualisation.Par exemple : Nous avons deux conducteurs, un bon et un mauvais. Nous avons l’assureur Aqui ne pratique pas la segmentation et l’assureur B qui lui l’applique.Voici ce que nous observons :

Graphique 1.1 – Primes payées Assureur A vs Assureur B

Avec l’assureur A tous les conducteurs payent le tarif moyen qui est 500 euros. Les bons conduc-teurs ne sont donc pas avantagés par rapport aux mauvais.En revanche, avec l’assureur B les tarifs sont différenciés et le bon conducteur paye beaucoupmoins cher que le mauvais conducteur.Ils payent plus ou moins cher en fonction du fait qu’ils soient plus ou moins risqués.Voici ce qu’il se passe en cas de sinistres pour ces deux mêmes conducteurs :

Graphique 1.2 – Sinistralité : bons conducteurs vs mauvais conducteurs

Dans le cas de l’assureur A, le bon conducteur aura payé 500 euros pour seulement 150 euros desinistres, alors que le mauvais conducteur aura payé le même tarif pour 850 euros de sinistres.Ainsi, le bon conducteur paye pour rentabiliser le mauvais conducteur.Alors qu’avec l’assureur B, les conducteurs payent en fonction des risques qu’ils représententpour la compagnie.De cette façon, les bons conducteurs vont forcément privilégier l’assureur B qui propose une

Page 26: Maud Vandekerchove Contrôle des modèles de prime pure et

1.3. Les indicateurs 9

prime plus faible.A contrario l’assureur A attirera les mauvais risques.L’assureur A n’aura donc plus les bons risques pour compenser les sinistres des mauvais conduc-teurs et fera faillite.En conclusion, dans un marché aussi concurrentiel que celui de l’assurance auto, il est évidentque nous devons segmenter et tenir compte de la rentabilité des contrats.

La segmentation se fait de façon très fine, elle consiste à regrouper par populations homogènes,qu’on appelera classes tarifaires, les conducteurs qui présentent les mêmes risques.Dans chaque groupe la prime payée sera le tarif moyen de sa classe.

Limites de la segmentation

Comme précisé auparavant la segmentation est très importante, cependant nous devons faireattention à ne pas segmenter à l’extrême.En effet, avec une segmentation très poussée, nous aurions des classes tarifaires avec de trèsfaibles effectifs.Or, sur un échantillon très faible il est très difficile et surtout beaucoup moins fiable de prédireune espérance de sinistres.Le risque serait que la prédiction soit très adaptée au cas particulier de notre base et ne puissepas se généraliser.Ainsi, en changeant de base, les tarifs de ces classes seraient mal estimés et donc inadaptés, cequi provoquerait une perte potentielle pour l’assureur.L’effectif de chaque classe est donc un élément important à prendre en compte.La segmentation doit être limitée quitte à accepter une certaine mutualisation dans le tarif.Pour contrôler les modèles et la segmentation, nous devons utiliser des indicateurs de rentabi-lité tels que le S/C et l’ELR définis ci-dessous.

1.3 Les indicateurs

1.3.1 Indicateur important le S/C (loss ratio)

Le S/C est un indicateur important en assurance qui permet de vérifier la rentabilité d’unepolice d’assurance puisqu’il représente le rapport entre le montant des sinistres et celui desprimes acquises sur la même période.Nous devons être en capacité de régler tous nos sinistres avec les primes et, comme vu préc-demment, avoir une marge pour l’ensemble des autres charges prises en compte par l’assureur.Un contrat rentable pour l’assurance est donc un contrat qui a un S/C peu élevé.Bien entendu une cotisation trop élevée n’est pas attractive et ne fidélise pas les clients.Nous devons donc surveiller régulièrement notre S/C et l’analyser de façon segmentée, afind’adapter nos modèles en fonction.Dans ce mémoire, le S/C calculé correspond au S/C attritionnel de la responsabilité civile.Bien entendu nous sommes en capacité de calculer des S/C sur toutes les garanties auto.

1.3.2 Limites du S/C

Malgré le fait que le S/C soit un indicateur indispensable, il comporte certaines limites dans lesuivi et le pilotage de notre rentabilité.En effet, le S/C se base uniquement sur la sinistralité passée, il ne prédit pas la sinistralité future,il reflète seulement ce qui s’est réellement passé.

Page 27: Maud Vandekerchove Contrôle des modèles de prime pure et

10 Chapitre 1. Cadre et objectif de l’étude

De ce fait, nous ne pouvons pas connaître la rentabilité future d’un contrat.En outre, il est impossible d’obtenir un S/C en affaire nouvelle, en effet lorsque l’assuré souscrit,nous ne connaissons pas sa sinistralité passée, de ce fait nous ne pouvons pas utiliser le S/Ccomme indicateur de la rentabilité en affaire nouvelle.De la même façon, on ne peut pas obtenir un S/C sur un contrat résilié. Effectivement, nous neconnaissons pas la sinistralité et donc pas la rentabilité d’un assuré lorsque son contrat n’estplus dans notre portefeuille.Toutes ces limites expliquent pourquoi, bien que très utile dans certains cas, pour piloter larentabilité nous devons le combiner avec d’autres indicateurs.

1.3.3 L’ELR (expected loss ratio)

La prime pure

La prime pure constitue le risque probable de sinistres que représente le risque à assurer.En d’autres termes, la prime pure représente l’espérance des sinistres.Prime Pure=PP=E(S).Soit S la somme totale des sinistres telle que :

S =N∑

i=1Ci (1.1)

avec N le nombre de sinistres (fréquence) et Ci le coût du sinistre i.Les Ci suivent tous la même loi et on fait l’hypothèse que le coût et la fréquence sont indépen-dants.On a alors :

E(S) = E(N∑

i=1Ci ) (1.2)

On sait, selon les propriétés de l’espérance que :

E(E(X |Y ) = E(X ) (1.3)

De ce fait :

E(S) = E(E(N=n∑i=1

Ci )|N )) (1.4)

Les Ci étant indépendants et suivant la même loi on a :

E(S) = E(nE(C )) (1.5)

Et grâce à l’indépendance de N et de Ci nous avons :

PP = E(S) = E(N )E(C ) = F r équence ∗ coûtmoyen (1.6)

La prime pure modélisée estime la sinistralité d’un contrat sur un an.Nous avons un modèle par garantie, donc un modèle propre à la garantie RC.La fréquence est estimée sur les sinistres graves et attritionnels en revanche le coût moyen estestimé uniquement sur les attritionnels.Les sinistres attritionnels en RC sont les sinistres dont la charge n’excède pas 115 000 .

Page 28: Maud Vandekerchove Contrôle des modèles de prime pure et

1.3. Les indicateurs 11

Le calcul de l’ELR

L’ELR de façon générale est défini par la formule ci-dessous : ELR=E(S)/Primes payées = PrimePure/Prime commerciale.Dans cette étude nous allons utiliser deux ELR différents :

• L’ELR classique : ELR=Prime Pure modèlisée *W / Primes acquises W s’exprime en année,il représente la fraction de temps que le contrat a passé dans le portefeuille en ayant lesmêmes caractéristiques.En effet, la prime pure prédit les sinistres sur un an, ici nous l’étudions seulement sur letemps resté dans le portefeuille.Les primes acquises sont également proratisées, elles représentent les primes réellementpayées sur la même période.Cet ELR possède le même dénominateur que le S/C.

• L’ELR annualisé : ELR annualisé = Prime Pure modélisée/ Prime annualisée Ici, la primepure n’a pas de poids, elle n’est pas calculée au prorata de temps passé dans le porte-feuille, on étudie les risques sur un an et non seulement sur le temps passé dans le por-tefeuille.Avec ce cacul d’espérance des sinsitres nous tenons moins compte du mix en portefeuille.De la même façon nous n’utilisons pas la prime acquise mais la prime annualisée, ce quicorrespond à l’espérance des primes sur un an.

Pour que cela soit plus clair voici un exemple.Soit un contrat C qui est resté six mois dans notre portefeuille avec exactement les mêmes ca-ratéristiques.Nous avons alors w = 1/2 et donc :

Prime Pure modélisée Prime Pure proratisée Prime acquises Primes annualisées

120 60 100 200

Tableau 1.1 – ELR annualisé vs ELR classique

La prime pure modélisée prédit les sinistres sur un an, de ce fait pour obtenir la prime prorati-séé nous multiplions par w (1/2).A partir de nos bases, nous obtenons la prime acquise sur ces six mois, pour l’annualiser nousmultiplions donc par 1/W = 2.Bien entendu, sur un contrat donné, cela nous donne des ELR identiques mais en admettantmaintenant, que nous souhaitions étudier l’ELR de façon segmentée et zoomer sur un risquex.Nous avons dans notre portefeuille deux contrats correspondant au risque x :

• C1 présent 3 mois dans le portefeuille (w=1/4)

• C2 présent 6 mois (w=1/2)

Page 29: Maud Vandekerchove Contrôle des modèles de prime pure et

12 Chapitre 1. Cadre et objectif de l’étude

Nous avons :

Contrat Prime Pure modélisée Prime Pure proratisée Prime acquises Primes annualisées

C1 80 20 40 160C2 140 70 100 200

Tableau 1.2 – ELR annualisé vs ELR classique 2

Ainsi notre ELR proratisé = 20+7040+100 = 64.3%

et notre ELR annualisé = 140+80160+200 = 61.1%

L’ELR proratisé est une moyenne pondérée qui dépend de w, alors que l’ELR annualisé ne prendpas en compte le temps resté en portefeuille, il considère les deux contrats comme ayant lemême poids, comme s’ils étaient restés un an dans le portefeuille tous les deux.Nous verrons par la suite que nous aurons besoin de ces deux ELR pour nos études.Dans un premier temps, nous allons expliquer les avantages et l’utilité d’un tel indicateur.

1.3.4 Avantages de l’ELR

Pourquoi nous nous orientons vers cet indicateur?Grâce à l’estimation des sinistres par le modèle de prime pure, l’ELR nous permet d’étudier larentabilité de certains contrats pour lesquels la sinistralité n’était pas renseignée.En effet, il nous permet :

• La prédiction des S/C futur :Les futurs sinistres d’un assuré ne sont pas connus mais nous pouvons les estsimer parle biais du modèle de prime pure.

• De connaître la rentabilité d’un contrat en affaire nouvelle : Nous ne connsaissons pas lasinistralité antécédente d’un contrat qui entre en portefeuille, mais en avons une estima-tion par le biais de la prime pure.

• De connaître la rentabilité d’un contrat résilié : De la même façon que pour les affairesnouvelles, lorsque le contrat n’est plus dans notre portefeuille, nous n’avons aucune in-formation sur sa sinistralité, c’est pourquoi nous utilisons la prime pure.

En synthèse, l’ELR est un indicateur de suivi et pilotage de la rentabilité indispensable qui nouspermet de pallier les limites du S/C.

1.3.5 Maniement du S/C et ELR pour contrôler la rentabilité et améliorer nos mo-dèles

Comme nous l’avons expliqué précédemment, la tarification est un enjeu très important del’actuariat auto. Nous devons de ce fait avoir un contrôle régulier sur nos modèles de primepure et prime commerciale.Le contrôle passe par l’étude de rentabilité de nos contrats. En effet, nous devons faire desétudes segmentées de rentabilité afin de nous assurer que le tarif est bien adapté.Pour répondre à ce besoin, nous allons étudier nos deux indicateurs de rentabilité cités ci-dessus en les analysant de façon segmentée.Nous allons mener deux études, l’une concernant le modèle de prime pure et l’autre visant àaméliorer le modèle de prime commerciale.Nos études porteront sur l’année 2016.Voici les méthodes utilisées pour ces deux parties :

Page 30: Maud Vandekerchove Contrôle des modèles de prime pure et

1.4. Construction de la base 13

• Contrôle et amélioration du modèle de prime pure :Notre modèle de prime pure a été estimé à partir de la sinistralité antérieure à 2016, ainsi,pour vérifier que notre prime pure estime bien les sinistres de 2016 et est donc toujoursadaptée, nous devons comparer les écarts de S/C et ELR par segment.Pour cela nous choisissons d’analyser l’ELR calculé au prorata du temps passé en porte-feuille.En effet, pour pouvoir comparer les écarts de façon pertinente, nous devons prendre encompte le temps d’exposition puisque le S/C en tient également compte.

• Amélioration du modèle de prime commerciale :Dans un secon temps, après revue du modèle de prime pure, nous pourrons effectuerune analyse segmentée des ELR dans le but de contrôler la prime commerciale.A noter que, dans notre cas, le modèle de prime commerciale est distinct du modèlede prime pure, c’est-à-dire que sa construction ne dépend pas du modèle de prime pureauquel on aurait ajouté une estimation des autres composantes de la prime commerciale(frais, marge etc.)Il s’agit de deux modèles distincts et non liés.Il est donc d’autant plus important de suivre cet indicateur.Pour cette partie, nous choisissons d’étudier l’ELR annualisé, afin d’avoir une vision ducontrat sur un an, et d’avoir le même poids pour tous.

Ces deux études nous permettront de cibler les différents segments pour lesquels les modèlesne seraient plus adaptés et de proposer des améliorations.Nous allons travailler sur les S/C et ELR attritionnels.En effet, les sinistres graves sont des évènements exceptionnels qui impactent lourdement lacharge et le S/C.Pour une analyse segmentée, le fait de conserver les sinistres graves peut biaiser notre étude.De ce fait, pour améliorer l’analyse et le contrôle du modèle prime pure qui est lui réalisé surles attritionnels, nous sélectionnons uniquement les sinistres attritionnels.Maintenant que nous avons détaillé le calcul des indicateurs, nous allons procéder à la construc-tion de la base d’étude.

1.4 Construction de la base

Notre base est vue à fin décembre 2016, nous observons tous les contrats en cours au 1er janvier2016.Nous sélectionnons toutes les variables explicatives du modèle de prime pure et du modèle deprime commerciale.La base est construite à partir d’un système de données étbali par image. Nous avons une lignepar image.Un contrat conserve la même image tant qu’il ne connaît pas de modifications, c’est à diretant qu’il conserve les mêmes caractéristiques. Une nouvelle image est créée lorsqu’il y a unmouvement sur le contrat, à chaque mouvement nous avons donc une nouvelle ligne.Il peut donc y avoir plusieurs images pour un contrat avec une date de début d’image et unedate de fin d’image.Les mouvements pouvant justifier de la création d’une nouvelle ligne et donc d’une nouvelleimage sont :

• Les affaires nouvelles

• Les remplacements

Page 31: Maud Vandekerchove Contrôle des modèles de prime pure et

14 Chapitre 1. Cadre et objectif de l’étude

• Les anniversaires de contrats (s’il n’y a pas eu de majorations on aura la création d’uneligne identique)

Pour obtenir les élements nécessaires aux calculs de nos indicateurs, nous avons besoin de :

• La prime pure E(S)

• Les primes annualisées E(P)

• Les sinistres S

• Les primes acquises C

Les primes acquises sont directement disponibles dans nos bases.Elles correspondent donc aux primes acquises pendant la durée de l’image (laps de temps pen-dant lequel le contrat a gardé les mêmes caratéristiques).Puisque ces durées sont connues pour chaque image, nous pouvons calculer nos primes an-nualisées.Récupérons désormais les sinistres.

1.4.1 La base sinistre

Nous disposons d’une base comprenant tous les sinistres par année de survenance.Pour notre étude, nous sélectionnons tous les sinistres en Responsabilité civile (RC) ayant eulieu durant l’année 2016.Il sont distingués en deux : les sinistres matériels et les sinistres corporels.Une fois ces sinistres sélectionnés, nous allons les vieillir (les projeter à l’ultime).En effet, nous observons des sinistres ayant eu lieu en 2016 à vision fin 2016.Or, nous savons qu’en assurance auto RC, la charge sinistre évolue dans le temps, en particulierpour le corporel qui a un déroulé très long.Afin de pouvoir calculer un S/C adéquat nous devons donc estimer les sinistres à l’ultime.Pour cela, nous utilisons les CFP (charge finale prévisible) fournies par les équipes comptespour calculer un coefficient de vieilissement pour les sinistres RC matériels et pour les sinistresRC corporels.

Grâce à ces derniers nous pouvons calculer, par sinistre, la charge RC à l’ultime grâce à la for-mule suivante :

Charge RC à l’ultime = Charge RC mat * cv mat + Charge RC corp * cv corpavec : cv= coefficient de vieillissement.

La prochaine étape consiste à conserver uniquement les sinistres attritionnels.Comme précisé précédemment, les sinistres attritionnels RC sont les sinistres pour lesquels lacharge n’excéde pas 115 000 euros. C’est-à-dire qu’un sinistre RC est considéré comme grave sisa charge finale excède 115 000 euros.Nous supprimons donc la sur-crête de grave en sélectionnant :

• La charge réelle si celle-ci n’excède pas 115 000 euros.

• 115 000 euros si la charge est supérieure à 115 000 euros.

Ensuite, nous devons merger avec notre base d’entrée qui est construite par image, le merge sefait donc par image.

Page 32: Maud Vandekerchove Contrôle des modèles de prime pure et

1.4. Construction de la base 15

Pour se faire nous regroupons nos sinistres par image afin de ne plus avoir une ligne par sinistremais une ligne par image.En effet, il peut y avoir plusieurs sinistres pour une image donnée. Ce qui nous intéresse est deconnaitre le montant total de sinistres pour un risque donné (ou image) c’est à dire pendant ladurée pour laquelle le contrat a les mêmes caractéristiques.Ainsi, nous pouvons calculer le S/C par image.

1.4.2 Le calcul des primes pures

Pour pouvoir débuter nos études, il ne nous manque plus que les primes pures.Nous disposons des coefficients des deux modèles : Fréquence et Coût moyen ainsi que toutesles variables explicatives.Nous calculons la fréquence et le coût moyen estimés pour chaque image en fonction de leurscaractéristques.Ensuite, il nous reste à appliquer :Prime Pure= Frequence * Coût Moyen.Comme nous l’avons précisé, la prime pure estime la sinistralité sur un an, pour le calcul del’ELR proratisé, il suffit juste de calculer la prime pure au prorata du temps de l’image.Ensuite, notre permière partie (chapitre 3) a pour but de comparer nos ELR et S/C par segment.Pour cela, nous devons calibrer la prime pure avec les sinistres.Ainsi, nous pourrons repérer les segments déviants.C’est à dire que nous devons avoir :

∑Pr i mePur e =

∑Si ni str e (1.7)

Nous calculons donc le coefficient permettant de satisfaire cette égalité et l’appliquons sur l’en-semble des primes pures de chaque image.

Page 33: Maud Vandekerchove Contrôle des modèles de prime pure et

Chapitre 2

Pré-requis

Pour commencer, nous allons expliciter les méthodes que nous allons utiliser pour notre étudesegmentée.

2.1 Analyses des corrélations entre variables

La première étape est d’éliminer les variables corrélées car elles pourraient biaiser notre ana-lyse. Nous allons utiliser trois types de corrélations :

• Le coefficent de Pearson : Il est utilisé pour connaître la corrélation entre deux variablesquantitatives.

• Le V de cramer : Il est utilisé pour connaître la corrélation entre deux variables qualita-tives.

• Le Test de Kruskal-Wallis : Il est utilisé pour connaître la corrélation entre une variablequalitative et une variable quantitative.

2.1.1 Le coefficent de Pearson

Ce coefficient est utilisé pour analyser la corrélation de variables numériques. Il permet dedétecter la précense ou l’absence d’une relation linéaire entre deux variables. Pour cela, il fautcalculer la covariance qui correspond à la moyenne du produit des écarts à la moyenne

COV (X ,Y ) = 1

N

N=n∑i=1

(X i −X )(Y i −Y )|N )). (2.1)

Le coefficient de corrélation linéaire de deux variables X et Y est égal à la covariance de X et Ydivisée par le produit des écarts types de X et Y.

r (X ,Y ) = COV (X ,Y )

∂X∂Y(2.2)

16

Page 34: Maud Vandekerchove Contrôle des modèles de prime pure et

2.1. Analyses des corrélations entre variables 17

Voici comment interpréter le coefficient de Pearson :

Graphique 2.1 – Interprétation coefficient de Pearson

Nous admettrons donc que les variables quantitives de notre modèle sont corrélées, si :

r ε[0.5;1] (2.3)

2.1.2 Le test V de Cramer

Cette fois il s’agit d’analyser la corrélation entre deux variables qualitatives. Pour calculer cescorrélations, on utilise le test du khi2 ( χ2).Le V de Cramer est défini par la formule suivante :√

χ2

χ2max=

√χ2

n[mi n(l ,c)−1](2.4)

avec :

• n : l’effectif

• l : nombre de lignes

• c : nombre de colonnes

De la même façon que pour le coefficient de Pearson, plus V est proche de 0 plus les variablessont indépendantes, et plus le V est proche de 1, plus les variables sont liées.

2.1.3 Le Test de Kruskal-Wallis

Le test de Kruskal-Wallis est un test non paramétrique. On peut l’utiliser pour comparer desmoyennes. Pour ce test nous avons :L’hypothèse nulle H0 : les distributions sont égales.L”hypothèse H1 : les distributions sont différentes.Ainsi, si les variables sont indépendantes, l’hypothèse H0 est rejetée. ce rejet s’exprime par unep-value inférieure à un seuil α que nous devons fixer.

Page 35: Maud Vandekerchove Contrôle des modèles de prime pure et

18 Chapitre 2. Pré-requis

Graphique 2.2 – Interprétation test de Kruskal-Wallis

2.2 Ciblage de segments : Arbre de décision et gradient boosting mo-del

Dans les études menées dans les chapitres 3 et 4, ce qui nous intéresse est de cibler des seg-ments de variables.En effet, dans notre première partie (chapitre 3) : nous cherchons des segments pour lesquelsnos écarts (SC-ELR) sont importants et, dans notre seconde partie, des segments pour lesquelsl’ELR annualisé s’éloigne nettement de la moyenne.Nous ne cherchons en aucun cas à modéliser.Nous avons un rôle de contrôle des modèles (prime pure dans un premier temps et prime com-merciale ensuite) et d’alerte au cas où il faudrait revoir des coefficients.Pour cette raison nous n’utilisons pas de GLM (modèle linéaire généralisé).En effet, les GLM ne sont pas efficaces pour des sélections de variables, ils sont très utiles pourcalibrer un modèle avec des variables pré-sélectionnées.Le principe du GLM ne sera pas détaillé dans ce présent mémoire mais le lecteur est invité à sereporter à l’article Modèles linéaires généralisés [2].Comme précisé auparavant, les modèles ont été construits sur des bases antérieures à 2016,c’est pourquoi, le mix en portefeuille ayant changé, nous devons réajuster les coéfficents.

La méthode d’apprentissage automatique du Gradient Boosting permet de réaliser un tri surl’ensemble des variables.Dans notre cas il nous servira donc à sélectionner des segments.

2.2.1 Le gradient tree boosting

Le gradient Boosting est une technique d’apprentissage automatique utilisée pour des pro-blèmes de régression ou de classification.Une des méthodes les plus connues est l’Adaboost (Adaptive Boosting) mais elle ne sera pas dé-taillée dans ce présent mémoire, le lecteur est invité à se reporter à l’article : A decision TheoreticGeneralization of On-line Learning and an Application to Boosting [3] pour plus de précisionssur cette méthode.Le principe du boosting est de procéder à des subdivisions récursives d’un problème initial degrande taille.En effet, le but est de diviser ce problème de grandes tailles en de multiples problèmes de taillesréduites, c’est un modèle d’aggrégation dit "adaptif" c’est-à-dire que l’ensemble des prédic-tions dépend des prédictions précédentes.Il s’oppose aux modèles d’agrégation dits "parallèles", qui assemblent des arbres construit in-dépendamment des autres.Voici deux exemples de modèles d’agrégation : le bagging et le random forest (forêts aléatoires).Plus concrétement, la méthode du gardient tree boosting consiste à réaliser une successiond’arbres de décisions pour lesquels chaque modèle est construit sur l’erreur résiduel du précé-dent.

Page 36: Maud Vandekerchove Contrôle des modèles de prime pure et

2.2. Ciblage de segments : Arbre de décision et gradient boosting model 19

Ces méthodes de boosting sont adaptées pour notre problématique, cependant nous devonsêtre très prudents vis-à-vis du sur-apprentissage.

2.2.2 Le sur-apprentissage

Le sur apprentissage, autrement nommé le sur-ajustement ou surinterprétation (overfitting enanglais) se définit par de trop fortes similitudes entre la solution réelle et la prédiction.[4]Par exemple, si nous souhaitons expliquer une variable Y par des variables explicatives X1...Xp .Nous recherchons en réalité une fonction φ() :RP→R telle que φ(X1...Xp ) se rapproche de Y.Dans le cas du sur-apprentissage nous avons : φ(X1...Xp ) = YIl n’y a donc plus de différences entre la fonction de prédiction et la variable prédite, elles sontidentiques.Ainsi, la fonctionφ(X1...Xp ) est parfaitement adaptée à notre base de données et perd son pou-voir de prédiction.De ce fait, si nous modifions notre base d’entrée, la fonction de prédictionφ ne sera plus adap-tée.Pour l’étude menée dans ce mémoire, ce n’est pas la prédiction proprement dite de la fonctionφ qui nous intéresse puisque nous ne voulons pas modéliser Y.Cependant, nous souhaitons corriger et apporter des améliorations aux modèles. Ceci se faitpar le biais de l’étude la base de 2016, mais nous souhaitons bien entendu que nos améliora-tions s’adaptent aux bases des années futures.Nous devons donc être très vigilents envers ce phénomène.

Pour que cela soit plus explicite, voici l’espérance de la somme des écarts au carré :

E [( �φ(X )−φ(X ))2]= E [ �φ(X )2]−2φ(X )E [ �φ(X )]+φ(X )2

= E [ �φ(X )2]−E [ �φ(X )]2 +E [ �φ(X )]2 −2φ(X )E [ �φ(X )]+φ(X )2

= V [ �φ(X )]+ (E [ �φ(X )]−φ(X ))2

= Variance + Biais2

Nous cherchons donc à minimiser cet écart, si le modèle est sur-paramétré la variance sera trésélevée et le biais faible.En cas de modèle trop simple, nous obtiendrons le contraire, à savoir une variance petite et unbiais élevé.Il nous faut donc trouver un compromis entre un modèle trop simple et trop paramétré.

Page 37: Maud Vandekerchove Contrôle des modèles de prime pure et

20 Chapitre 2. Pré-requis

Voici une illustration de sur-apprentissage :

Graphique 2.3 – Illustration de sur-apprentissage

Dans cette exemple, nous souhaitons réalisé une partition optimale à partir de deux popula-tions.

• La population 1 représentée en vert

• La population 2 représentée en orange

La droite rouge représente la partition optimale.La courbe bleue représente le modèle sur-paramétré.Comme nous pouvons le constater, le modèle sur-paramétré colle aux données et pour pouvoirrécuperer toutes les données, il doit s’éloigner de la droite rouge (partition optimale).De ce fait, si nous changeons d’échantillon, le modèle sur-paramétré estimé ici ne sera pas per-formant.Le modèle sur-paramétré généralise le cas des populations sur lesquelles il est estimé et pro-voque donc une mauvaise généralisation.Il est donc nécessaire de garder une forme de généralité, il faut apprendre sur les données maispas de façon saturée.Le but est donc de regrouper les variables similaires pour extraire de l’information robuste etéviter ce phénomène de surinterprétation.

2.2.3 Les arbres de décision

Cette méthode sera utilisée dans le chapitre 3 pour repérer les écarts entre S/C et ELR.L’arbre de décision est une méthode de segmentation. Il fait partie des méthodes dites non pa-ramétriques.L’objectif est de prédire les valeurs d’une variable cible Y avec n observations à partir de va-riables explicatives. Le principe de l’arbre de décision est de partitionner de façon récursive etbinaire l’espace des variables explicatives afin d’obtenir toutes les valeurs possibles de la va-riable à prédire.L’arbre essaie de regrouper à chaque étape les parties les plus homogènes possibles entre elles.Pour éviter le sur-apprentissage et des calculs trop compliqués nous pouvons limiter les parti-tions.Les résultats de l’arbre de décision ont pour avantage d’être interprétables et exploitables.Cette technique est donc adaptée pour notre étude car elle va nous permettre de cibler des seg-ments.

Page 38: Maud Vandekerchove Contrôle des modèles de prime pure et

2.2. Ciblage de segments : Arbre de décision et gradient boosting model 21

Voici une illustration d’arbres de décision pour que cela soit plus clair :

Graphique 2.4 – Exemple d’arbre de décision

Explications :

Une feuille de l’arbre est associée à une classe d’individus et un noeud est associé à une ques-tion, un test.Le noeud initial, autrement appelé racine, est le noeud par lequel on débute, celui auquel onsoumet le premier test et selon la réponse on se déplacera vers tel ou tel fils du noeud.Un noeud est donc l’intersection d’un ensemble de règles et les sous populations créées à par-tir des tests sont distinctes.Nous avons sélectionné un cas simple pour l’exemple mais le process continue ainsi de suitejusqu’à la rencontre d’une feuille ou noeud terminal.

Interprétation :

Dans le cas ci-dessus, notre premier test est A=0, si oui nous nous dirigeons vers le noeud filsde gauche, si non nous nous dirigeons vers la feuille de droite.Ici, si A=0, le test s’arrête ici, en revanche si ce n’est pas le cas, nous avons plusieurs possibilitéspour B.C’est pourquoi nous testons le noeud fils de gauche avec la question B =0 ?

Il existe deux types d’arbres de décision :

• Les arbres de classfication : Ils sont utilisés lorsque la variable d’intérêt est qualitative, laprédiction sera une étiquette.

• Les arbres de régression : Ils sont utilisés lorsque la variable d’intérêt est quantitative, laprédiction sera une valeur numérique.

Page 39: Maud Vandekerchove Contrôle des modèles de prime pure et

22 Chapitre 2. Pré-requis

Un arbre de décision se construit en trois étapes :

• Initialisation : La partition contient une seule prédiction constituant la racine.

• Expansion : Pour cette étape, nous devons fixer au préalable un critère d’arrêts nouspouvons choisir :

– Une valeur définissant le nombre d’éléments minimun que doit contenir une feuille.

– Une valeur correpondant au nombre d’éléments minimun que doit contenir unnoeud.

– Un nombre maximum de variables pour une interaction.

Ces valeurs constituent des seuils d’arrêt, lorsque notre condition n’est plus respectée,l’arbre cesse de s’aggrandir.

• Elagage : Les branches de l’arbre qui n’améliorent pas la qualité de prédiction du modèlesont retirées.

Il existe plusieurs types d’arbre de décision, ici nous nous concentrons sur l’algorithme CART(classification and regression tree).Cet algorithme présente de très bonnes performances de classement et ne nécessite pas deparamétrages.Pour plus de précision sur cet algorithme le lecteur peut se réferer à l’ouvrage de Leo BreimanClassification and regression trees [5].

2.2.4 Le gradient boosting model

Cette méthode sera utilisée dans le chapitre 4 pour avoir un classement des variables qui im-pactent l’ELR.Le gradient boosting model (GBM) est une méthode de descente de gradient. Le principe debase du GBM est de construire une séquence de modèles de sorte que pour chaque étape,chaque modèle ajouté à la combinaison, apparaisse comme un pas vers une meilleure solu-tion.Soit Y notre variable à expliquer, nous disposons d’un échantillon de taille n constitué de p va-riables explicatives.Soit Xi = (xi ,1...xi ,p ) le vecteur des p variables explicatives de l’observation i.Notre objetif est de trouver une fonction φ : R −→ Rp : , telle que φ (.) soit le plus proche de Ypossible et minimise l’espérérance de la fonction de perte L : R−→R, avec L(y,y) grand si y esttrès différent de Y.La fonction de perte L est supposée convexe et différentiable.Le pas vers une meilleure solution est franchi dans la direction du gradient de la fonction L,afin d’améliorer les propriétés de convergence.

On note la fonction de risque R telle que :

R(φ) = E [L(Y ,φ(X )] (2.5)

Nous cherchons donc à minimser notre fonction R. Le gradient de la fonction de perte L parrapport à un scalaire θ est défini ainsi :

σL(φ(x)

σx= l i mσx→0

L(x +σx)−L(x)

σx(2.6)

Page 40: Maud Vandekerchove Contrôle des modèles de prime pure et

2.2. Ciblage de segments : Arbre de décision et gradient boosting model 23

Le gradient représente la variation d’une fonction (ici L), par rapport à la variation de ses diffé-rents paramètres (ici x).Nous cherchons à minimiser L(θ).Pour trouver le θ qui minimise cette fonction, nous allons appliquer la descente de gradient.Utilité de la descente de gradient :La descende de gradient s’applique lorsque qu’on cherche le minimum d’une fonction dont onconnaît l’expression analytique, qui est dérivable mais dont le calcul direct du minimum estdifficile.Principe :Le principe de la descente de gradient est de partir d’un point aléatoire (une valeur de θ) puisde se déplacer dans la direction de la plus forte pente.En appliquant un certain nombre d’itérations, l’algorithme converge vers une solution qui estun minimum local de L.Soit une valeur de θk à la k-ième itération, voici comment se représente la descente de gradientà la k+1 ème itération :

θk+1 = θk −εkσL(θk )

σθk. (2.7)

εk est un scalaire appelé pas de gradient (learning rate).Il peut être fixé ou adaptatif.Minimisation de la fonction risque :Nous souhaitons que le risque R(φ) soit minimal. Pour cela nous cherchons φ∗ tel que :

φ∗ = ar g mi nθ

Ry,x (φ(x)) (2.8)

Or :R(φ) = E [L(Y ,φ(X )] (2.9)

et grâce aux propriétés de l’espérance nous obtenons :

φ∗ = ar g mi nθ

Ey,x [L(y),φ(x)] = ar g mi nθ

Ex [L(y),φ(x)|x] (2.10)

Le principe du boosting est de répéter la même opération un grand nombre de fois.Soit M le nombre d’itérations, voici le modèle additif :

φ(X ,βm , am)M1 =

M∑m=1

βmh(x; am) (2.11)

La fonction h(x ;a) est une fonction paramétrique simple, elle relie les variables explicatives xaux paramètres am . On appelle la fonction h weak learner.Nous posons :

θk = φk (x)f (θk ) = L(y,θk )

yk = −σ f (θk )σθk

En remplaçant dans notre formule cela nous donne :

φk+1(x) =φk +εk yk (2.12)

Page 41: Maud Vandekerchove Contrôle des modèles de prime pure et

24 Chapitre 2. Pré-requis

Algorithme du Gradient Boosting :

Initialisation :

φ0(x) = ar g mi nΥ

p∑i=1

L(yi ,Υ) (2.13)

Pour m=1 jusqu’à M faire :

yi =−[σL(yi ,φ(xi ))

σφ(xi )]φ(x) =φm−1(x), i = 1, ...., p. (2.14)

am = ar g mi na,β

p∑i=1

[yi −βh(xi , a)]2 (2.15)

εm = ar g mi nε

p∑i=1

L(yi ,φm−1(xi )+εh(x, am)) (2.16)

φm(x) =φm−1(x)+εmh(x, am) (2.17)

Fin

On a comme résultat :

φ(x) =M∑

i=1εmh(x, am) (2.18)

En somme, le gradient boosting est un algorithme itératif qui distribue initialement des poidségaux à toutes les prédictions puis les adapte à chaque étape, de sorte que les mauvaises pré-dictions soient sur-pondérées à l’étape suivante pour que le modèle de prédiction "faible" yaccorde plus d’attention.

Jusqu’ à présent, nous n’avons évoqué les boosting des arbres de décision que sous l’angle desproblèmes de régression c’est-à-dire, visant à prévoir une variable dépendante continue.La technique peut aisément se généraliser aux problèmes de classification.L’algorithme reste globalement le même, mais il faudra définir une fonction de coût adaptéeau classement et en dériver le gradient.Pour plus d’informations le lecteur pourra se référer aux documents suivants : [6] [7] [8]Même si on est dans le cadre du classement, le mécanisme interne repose toujours sur un arbrede régression.

Paramétrage :

Dans le but d’éviter le sur-apprentissage, que nous avons explicité auparavant, et d’optimiserson utilisation, le gradient boosting model possède plusieurs hyper-paramètres que voici :

• Le nombres d’arbres réalisés M et nombre d’observations minimal par feuille

• Le "bagging"

• Le "shrinkage"

Le nombre d’arbres réalisés M :

Le nombre d’arbres M correspond au nombre d’itérations effectuées par l’algorithme. La fonc-tion gbm.perf du package gbm de G.Ridgeway permet de déterminer le nombre d’arbres opti-mal.

Page 42: Maud Vandekerchove Contrôle des modèles de prime pure et

2.3. Ciblage de segments : Utilisation de l’outil segment finder 25

Il consitue un critère d’arrêt.Fixer le nombre minimal d’observations par feuille, permet d’éviter de créer des groupes à ef-fectif trop faible.En effet, si une feuille est créée à partir de trop peu d’observations elle sera trop spécifique à labase de données et entrainera donc le sur-apprentissage.

Le bagging :

Le bagging (pour bootstrap averaging) représente la touche aléatoire.Il consiste à sélectionner seulement une partie des données à chaque itération.La sélection des données se fait aléatoirement, on parle de stochastic gradient boosting. En ef-fet, un échantillon aléatoire est tiré sans remise des données à chaque itération.L’échantillon aléatoire ainsi sélectionné remplace l’échantillon total et est donc utilisé par lemodèle de prédiction faible pour calculer la mise à jour de l’algorithme.Il permet également de diminuer le temps de calcul, cependant il faut être vigilent sur le faitque, si l’échantillon utilisé pour ajuster le modèle aux données est trop faible, l’algorithmerisque de voir son efficacité diminuée.Le shrinkage :

Dans son article [7], Friedman suggère de remplacer la dernière étape de la boucle de l’algo-rithme de Gradient boosting par :

φm(x) =φm−1(x)+ vεmh(x, am) (2.19)

Le paramètre v appelé shrinkage est tel que : v ε[0,1].Il permet de réguler la contribution de chaque arbre.A chaque itération, l’algorithme n’applique qu’une fraction v du coefficient εm .Ainsi, la vitesse d’apprentissage de l’algorithme est retardée. Si v est trop faible (v<0.1) nous ob-serverons des lenteurs de convergence, en revanche s’il est trop élévé nous aurons le problèmedu sur-apprentissage.Une bonne valeur se trouvera autour de 0.1.

2.3 Ciblage de segments : Utilisation de l’outil segment finder

Cet outil sera utilisé plusieurs fois dans le chapitre 4, il permettra de répérer les segments pourlesquels les ELR moyens s’éloignent considérablement de la moyenne gloable et de cibler lesbons et mauvais risques en terme de sinistralité.

2.3.1 Contexte

Pour repérer nos segments d’écarts, nous allons utiliser un outil très pratique et développé eninterne d’AXA qui s’appelle : Segment finder.Cet outil correspond exactement à nos besoins pour cette étude.En effet, il va nous permettre de cibler rapidement nos segments de déviance.L’algorithme qu’utilise cet outil est l’agorithme PRIM (Patient rule induction method).

Page 43: Maud Vandekerchove Contrôle des modèles de prime pure et

26 Chapitre 2. Pré-requis

2.3.2 Algorithme PRIM

Intérêt

L’intérêt de cet algorithme est de de cibler des segments pour lesquels notre variable cible Yprend des valeurs extrêmes.Il nous permet donc de trouver un ensemble de modalités ou interactions de modalités pourlesquelles Y serait élevée/ très élevée.

Concept

Soit Y notre variable cible, nous notons : X1, .., Xp les variables explicatives.Les variables explicatives peuvent être quantitatives (âge) ou qualitatives (ville d’habitation parexemple).La variable d’intérêt (cible) Y peut être quantitative ou binaire (comprenant les valeurs 0 (non)ou 1 (oui)).Dans le cas où la variable serait qualitative, il faudra diviser notre variable Y en plusieurs sousvariables binaires, c’est à dire comprenant chacune les modalités 0 et 1 et utiliser l’algorithmepour chacune de ces sous variables Y.Par exemple, si nous avons Y qui représente les cinq régions de souscription AXA France à sa-voir :

• Ile de France

• Nord-Est

• Ouest

• Sud-Est

• Sud-Ouest

Nous devons créer cinq sous variables de Y : Y1,Y2,Y3,Y4,Y5

Y1 la variable d’appartenance à l’Ile de France avec les modalités 1 si oui et 0 si non, la variableY2 la variable d’appartenance au Nord-Est et ainsi de suite.Une fois ces variables cibles créées, nous devons appliquer l’algorithme cinq fois, une fois surchacun des Yi .Soit S j l’ensemble des modalités possibles pour la variable X j , nous avons le domaine de seg-ments suivants :

S = S1 ∗S2 ∗ ...∗Sp (2.20)

Notre objectif est de trouver une région(segment) R ⊂ S telle que :

Y R >= Y (2.21)

où Y est la moyenne globale de Y est YR la moyenne de la région R.Les régions que nous cherchons prennent une forme rectangulaire nous les nommerons boîte.

Soit si ⊂ Si , une boîte est définie de la sorte :B = s1 ∗ s2 ∗ ...∗ sp .où x ∈ B ≡∩p

j=1(x j ∈ s j )Lorsque si = Si , nous supprimons la variable de la boîte, car cela signifie que les segments (mo-dalités) de cette variable n’influent pas sur la variable cible Y.

Page 44: Maud Vandekerchove Contrôle des modèles de prime pure et

2.3. Ciblage de segments : Utilisation de l’outil segment finder 27

Afin que cela soit plus clair, voici des exemples de boîte provenant de l’article Rule inductionby bump hunting [9], tout d’abord si nous avons deux variables explicatives X1 et X2 quantita-tives :

Graphique 2.5 – Exemple boîte avec variables explicatives quantitatives

dans ce cas la, la boîte est définie par :

x ∈ B ≡{

a É X 1 É bc É X 2 É d

Un deuxième exemple avec cette fois X1 et X2 des variables qualitatives :

Graphique 2.6 – Exemple boîte avec variables explicatives qualitatives

Explication de l’algorithme PRIM

Cet algorithme a été développé par Friedman et Fisher [1]. La construction des boîtes par cetalgorithme comprend deux étapes :

• Le top down peeling

• Le bottom-up pasting

Page 45: Maud Vandekerchove Contrôle des modèles de prime pure et

28 Chapitre 2. Pré-requis

Le top down peeling :

On commence avec une boîte qui recouvre l’ensemble du domaine (des données), à chaqueétape, nous cherchons une sous-boîte b*, telle que la moyenne de notre variable cible Y surnotre nouvelle boîte (B-b*) soit supérieure à la moyenne sur la boîte B.Nous appliquons cette procédure ainsi de suite.Chaque sous boîte b* est définie sur une seule variable.Selon le type de la variable (quantitative ou qualitative) on applique les méthodes suivantes :

Variable numérique :

b j = {x|x j < x j(α)}b j+= {x|x j > x j(1−α)}

avec x j(α) le α quantile de x j dans le boîte utilisée, (autrement dit P (x j < x j(α))

Variable qualitative :

b j m = {x|x j = s j m}, s j m∈ S j

on retire la modalité pour laquelle la moyenne est la plus petite, en s’assurant bien que cettemodalité représente bien un effectif pas trop important pour être rétiré.

L’algorithme se traduit de cette façon :

RépèteC(b) <- Le domaine des modalités qui peuvent potentiellement être retiréesb* <−ar g maxb∈C (b) yB −bB <- B-b*βB <- support de BJusqu’à ce que : βB ≤β0

Retourne B

Ceci est un algorithme appelé hill-climbing car, à chaque étape de la recherche, nous retironsune sous-boîte, ce qui nous donne une amélioration de la moyenne de la variable cible Y.Cet alogrithme se termine lorsque, pour améliorer la moyenne de la dernière boîte obtenue,nous devons avoir un effectif inférieur à l’effectif minimun β0 défini par l’utilisateur.

Page 46: Maud Vandekerchove Contrôle des modèles de prime pure et

2.3. Ciblage de segments : Utilisation de l’outil segment finder 29

Pour que cela soit plus clair nous allons reprendre l’exemple 1 de l’article Rule induction bybump hunting [9]

Graphique 2.7 – Données de l’exemple 1

Nous avons dans cet exemple, une variable cible Y qui est binaire (0 ou 1).Nous avons 10 observations, trois variables qualitatives (genre, situation matrimoniale et pro-priétaire) et deux variables numériques (l’âge et le revenu).Nous fixons notre β0 à 0.4 et notre α à 1/3.La moyenne de base de Y est : Y =0.5.Nous cherchons les sous boîtes b* à retirer pour augmenter notre moyenne (0.5), en contrôlantque l’effectif de b* ne dépasse pas α.Pour cela, la première étape consiste à calculer les moyennes sans la modalité qu’on tente deretirer (b*).Pour les variables qualitatives :Pour chaque variable, on calcule la moyenne hors b*, c’est à dire on étudie la moyenne sur lesmodalités de la variable n’ayant pas pour critère b*.Pour cela, on somme la variable Y (ou on compte le nombre de 1) sur la/les modalité(s) hors b*et on divise par l’effectif correspondant.Par exemple si nous testons de retirer les non-mariés, nous avons b*= les non-mariés, il fautalors étudier la moyenne des mariés.Nous avons dans notre base six mariés et dans les six nous en avons quatre pour lesquels Y=1,de ce fait notre moyenne, si nous retirons les non-mariés, est de : 4/6=2/3.Nous procédons ainsi de suite en testant pour b* toutes les modalités des variables qualitatives.

Pour les variables numériques :

Graphique 2.8 – Variable revenus

Pour les revenus, si nous supprimons les revenus inférieurs à 28, nous avons une moyenne de5/8, et nous retirons 1/5 des données.Nous ne pouvons pas extraire les revenus inférieurs à 30 car bien que cela augmente notremoyenne (2/3), cela nous fait supprimer 4/10 soit 2/5 des observations ce qui est supérieur à α(1/3).

Page 47: Maud Vandekerchove Contrôle des modèles de prime pure et

30 Chapitre 2. Pré-requis

Graphique 2.9 – Variable âge

Pour l’âge, par rapport à notre α nous pouvons supprimer les personnes âgées de plus de 45ans (3/7 de l’effectif total) mais cela nous donne une moyenne de 3/7 inférieure à la moyenneglobale de 0.5.Nous pouvons également supprimer les personnes de moins de 25 ans (3/7 de l’effectif égale-ment) et cette fois ci nous aurons bien une moyenne supérieure à la moyenne globale (4/7 vs1/2).Une fois toutes les possibilités de b* étudiées, nous remarquons que le b* optimal pour notrecas est "les non-mariés" car si nous les retirons nous avons une moyenne de 2/3.Nous enlevons donc les non-mariés, notre effectif actuel est de 60% de l’effectif de initial, ornous avons fixé β0 à 0.4. Nous devons donc continuer à retirer d’autres segments.Nous appliquons cette méthode sur notre nouvelle boîte, c’est à dire (B-b*) autrement dit lesmariés.Nous avons alors 6 observations, et le tableau suivant :

Graphique 2.10 – Données avec notre nouvelle boîte (les mariés)

Si nous retirons les moins de 36 nous obtenons une moyenne de 1.En retirant ces âges là, nous retirons 2 observations sur 6 soit 1/3, ce qui respecte bien notre αfixé.

Ainsi, nous avons désormais :B= {Marié=oui ∩ âge>=36 ans} et Y = 1.Cette boîte représente 40% de notre boîte de départ, comme nous avons fixé notre β0 à 0.4,nous avons donc trouvé notre boîte finale.

Le botom-up pasting :

Le top down peeling nous permet de créer une boîte, selon ce principe :Chaque sous boîte de cette boîte finale est obtenue en retirant une partie de la boîte précé-dente.A chaque étape, on regarde quelle part nous pouvons retirer de la boîte précédente pour amé-liorer notre moyenne, de ce fait les limites de la boîte sont déterminées sans connaissance desprochains retraits.Cependant, ces limites peuvent être réajustées avec le botom up pasting. Le principe de cetalgorithme est tout simplement le procédé inverse du peeling.En effet, nous démarrons avec la boîte finale obtenue par l’étape du peeling. On va noter cette

Page 48: Maud Vandekerchove Contrôle des modèles de prime pure et

2.3. Ciblage de segments : Utilisation de l’outil segment finder 31

boîte B. Nous cherchons à élargir cette boîte dans le but d’améliorer notre moyenne.Cet élargissement se fait de façon itérative, nous cherchons une petite boîte b* telle que b* ap-partienne à l’ensemble des classes eligibles (soit b* ∈ C(b)) et qu’elle maximise la moyenne dela boîte suivante : B<-B

⋃b* , en commençant donc notre algorithme en posant B= Boîte finale

obtenue par le peeling.L’ensemble des classes eligibles du pasting est défini de la même façon que pour le peeling (ex-plicité plus haut).Cette étape de pasting se termine dès que la moyenne de notre variable cible Y commence àchuter sur notre boîte obtenue.

La validation croisée :

Une fois les étapes de peeling et pasting terminées, il paraîtrait logique de sélectionner la boîtequi apporte la plus grande moyenne de notre variable cible.Cependant, nous devons être vigilents vis à vis du sur-apprentissage, en effet la boîte trouvéepeut avoir une moyenne très élevée sur les données utilisées mais cela peut être dû aux parti-cularités de l’échantillon. Ce risque est d’autant plus grand que l’effectif de la boîte est faible.Pour faire face à ce problème nous partitionnons les données en deux.Un échantillon d’entraînement dit "train" et un échantillon "test".Nous appliquons dans un premier temps le "peeling" et le "pasting" sur les données train, en-suite les données test sont utilisées pour obtenir une estimation de la moyenne de notre va-riable cible Y dans chaque boîte successive de la séquence.Ainsi, nous sélectionons les boîtes ayant également une moyenne élevée sur l’échantillon testet diminuons les risques de sur-apprentissage.

Page 49: Maud Vandekerchove Contrôle des modèles de prime pure et

Chapitre 3

Contôle de la prime pure : Etude des écartsentre S/C et ELR

Dans ce chapitre, nous cherchons à repérer des segments sur lesquels le modèle de prime pureest mal ajusté à la sinistralité réelle de 2016 en analysant les écarts entre le S/C et l’ELR.Nous rappelons que le modèle de prime pure a été estimé à partir de la sinistralité des annéesantérieures à 2016 et plus précisément :Modèle de Fréquence : 2014-2015Modèle de coût moyen : 2013-2014Pour cela nous allons commencer par une analyse en univariée sur quelques variables sélec-tionnées. Ensuite nous utiliserons un arbre de décision pour généraliser l’analyse sur toutesles variables explicatives de la prime pure et détecter des segments non repérés par l’analyseunivariée en ayant au préalable supprimé les variables corrélées.Pour tout ce chapitre nous aurons donc comme variable à expliquer la variable Y telle que :Y = écart = S/C-ELR.Nous rappelons que les primes pures ont été calibrées avec les sinistres, c’est à dire que : ELRmoyen = S/C moyen et donc :

écar tmoyen = S/C moyen −ELRmoyen = 0 (3.1)

Cette calibration a été faite pour l’analyse segmentée.De cette façon, si sur certains segments l’écart moyen est strictement négatif cela signifie que laprime pure est sur estimée par rapport à la sinistralité réelle et si l’écart moyen est strictementpositif cela signifie que la prime pure est sous estimée par rapport à la sinistralité réelle. Unefois les segments détectés, nous proposerons des ajustements et améliorations pour le modèlede la prime pure.Ici, nous choisissons d’utiliser l’ELR classique car il permet de conserver le mix en portefeuille,ainsi la prime pure et les sinistres seront observés sur la même période et l’ELR et le S/C aurontle même dénominateur.

3.1 Analyses statistiques univariées

Afin d’introduire le sujet et de présenter les données, nous allons commencer par analyser lesécarts en univarié sur quelques variables.Pour choisir nos variables, nous allons sélectionner les variables du modèle de prime pure quipossèdent le plus gros spread. Le spread est la différence entre le coefficient maximum et lecoefficient minimum d’une variable tarifaire.

32

Page 50: Maud Vandekerchove Contrôle des modèles de prime pure et

3.1. Analyses statistiques univariées 33

Les variables sont donc :

• L’âge du conducteur

• La durée de détention du véhicule

• L’âge d’obtention du permis

• Les régions de souscription AXA France

• Le zonier RC

• La carosserie du véhicule

3.1.1 L’âge du conducteur

Cette variable est particulièrement importante car elle est utilisée dans les deux modèles : coûtmoyen et fréquence. En ce qui concerne la fréquence, ce sont les moins de 21 ans qui sont lesplus risqués et les 26-32 ans qui ont le moins de sinistres en Responsabilité Civile en moyenne.Pour le coût moyen : ce sont également les moins de 21 ans qui portent les plus gros risques etles 24-59 ans qui ont les sinistres les moins coûteux.

Représentation des écarts et exposition

Voici l’évolution des écarts en fonction de l’âge du conducteur principal, ainsi que la représen-tation de cette variable dans notre base.

Graphique 3.1 – L’écart en fonction de l’âge

Sur ce graphe, nous avons les écarts en bleu et l’exposition en orange.L’axe principal correspond aux écarts et l’axe secondaire à l’exposition.

Constats

La classe la plus représentée est la classe d’âge 36-50ans, les 51-65 ans sont également bienreprésentés dans notre portefeuille et ce sont les 80 ans et plus qui sont les moins nombreux.L’écart fluctue entre -2pts et 2pts pour les 4 premières classes d’âges ici présentes (18-25, 26-35,36-50, 51-65ans).

Page 51: Maud Vandekerchove Contrôle des modèles de prime pure et

34 Chapitre 3. Contôle de la prime pure : Etude des écarts entre S/C et ELR

En revanche, pour les plus de 80 ans nous observons un écart très élevé d’à peu près +15pts.Bien qu’étant les moins représentés, ils représentent tout de même plus de 5% de notre base.Sur ces âges, le S/C dépasse largement l’ELR, la prime pure est donc sous estimée.

3.1.2 L’âge d’obtention du permis

Cette variable est tarifante pour le modèle coût moyen de la RC, en effet, les conducteurs quiont eu leur permis à 18 ans, sont moins risqués que les conducteurs qui ont obtenu leur permisen étant plus âgés. De façon générale, plus nous avons le permis âgé plus le coût moyen dessinistres RC sera élevé.

Représentation des écarts et exposition

Graphique 3.2 – L’écart en fonction de l’âge d’obtention de permis

Constats

Les obtentions de permis à 18 ans représentent la moitié de notre portefeuille.Les obtentions de permis à plus de 30 ans représentent moins de 10%. Nous n’observons pasde classes ayant un écart particulièrement important comme pour la variable âge, mais nouspouvons tout de même noter que l’écart positif le plus élevé se trouve sur les obtentions de per-mis à 22-30ans (+2,7pts à peu près), la prime pure n’est donc pas assez élevée sur ce segment.L’écart le plus négatif est sur les obtentions de permis à 18ans (-1,3pts), ils ont donc une primepure trop élévée.

3.1.3 La durée de détention du véhicule

La durée de détention du véhicule est utilisée dans les deux modèles : Coût moyen et Fré-quence.Pour le coût moyen : Les durées de détention récentes sont celles qui ont le côut moyen préditle plus élevé.Pour la fréquence : Les durées de détention récentes sont également celles qui ont le plus grandnombre de sinistres prédits, les durées ayant le nombre de sinistres prédits le plus faible sontles 7-9ans.

Page 52: Maud Vandekerchove Contrôle des modèles de prime pure et

3.1. Analyses statistiques univariées 35

Représentation des écarts et exposition

Graphique 3.3 – L’écart en fonction de la durée de détention de véhicule

Constats

Plus la durée de détention est récente, plus elle est représentée dans notre base.Les durées de détention ayant les plus gros écarts sont celles qui sont peu représentées dans leportefeuille.Nous notons tout de même -4.5pts pour les durées de détention d’un an et un peu plus de 2ptspour les durées de détention de 4 ans.

3.1.4 Les régions de souscription AXA France

Les régions de souscription AXA France sont utilisées dans le modèle de coût moyen, la régionSud-Est étant la région la plus coûteuse et la région Ouest la moins coûteuse.

Représentation des écarts et exposition

Graphique 3.4 – L’écart en fonction des régions AXA France

Constats

Les régions Ouest et Sud-Est sont les plus représentées dans notre portefeuille elles repré-sentent à elles deux quasiment la moitié de notre portefeuille.L’Ile de France est la moins présente (un peu plus de 10%) mais a un écart moyen de plus de8pts, ce qui signifie que sur cette région notre ELR n’est pas assez élévée et donc la prime pureest sous estimée.

Page 53: Maud Vandekerchove Contrôle des modèles de prime pure et

36 Chapitre 3. Contôle de la prime pure : Etude des écarts entre S/C et ELR

3.1.5 Le zonier RC

Le zonier est une classification du risque fonction du lieu d’utilisation du véhicule en France,plus exactement c’est en fonction de la zone garage du véhicule.En effet, le risque est plus ou moins important selon le lieu où nous circulons.Certaines zones sont plus risquées que d’autres, de ce fait la prime pure doit dépendre de cettevariable.Les zonier existent pour toutes les garanties auto et sont spécifiques à chacune.Ici nous utilisons donc le zonier RC.Il est réparti en 17 zones de risques, allant de 101 à 117.

Le zonier RC influe sur le nombre de sinistres mais aussi le coût, il est donc une variable tari-fante du modèle de frequence et du modèle de coût moyen.En ce qui concerne la fréquence, le risque grandit de façon croissante avec le numéro de lazone. La 117 est donc la zone où il y le plus de sinistres RC et la zone 101 est la moins risquée.Pour le coût moyen, la zone 117 est également la plus risquée, en revanche les zones 104 à 116ont les sinistres les moins coûteux.

Représentation des écarts et exposition

Graphique 3.5 – L’écart en fonction du zonier RC

Constats

Toutes les zones ne sont pas représentées de la même façon, en effet, la zone 105 est la seule àreprésenter plus de 10% de notre base.Les zones 113 à 117 ne représentent chacune même pas 3%.Les écarts sont particulièrement élevés pour les zones 115 à 117.En effet, plus de 15 pts pour la zone 115, +13pts pour la zone 116 et presque 15 pts pour la zone117. Sur ces zones la prime pure est sous estimée. Cependant elles représentent un effectif trèsfaible (même pas 5% à elles 3).Pour autant, nous avons remarqué que ces zones avaient dejà des coefficients de fréquenceplus élevés que les autres, et pour la 117, le coefficient de coût moyen est également plus élevé.Ceci peut signifier que les coefficients ne sont pas assez élevés pour estimer la sinistralité de2016 ou que l’effectif est tellement faible sur notre base qu’il est très difficile d’en tirer desconclusions.

Page 54: Maud Vandekerchove Contrôle des modèles de prime pure et

3.1. Analyses statistiques univariées 37

Pour les écarts négatifs, nous avons les zones 103 et 113 qui ont des écarts de -5pts à peu prèset donc une prime pure trop élevée par rapport à la sinistralité réelle.

3.1.6 La carrosserie du véhicule

La carrosserie du véhicule est utilisée dans les modèles de fréquence et de coût moyen. Enterme de coût moyen, les véhcilues les plus risqués sont les 4X4, les Berlines, les mini bus,les coupés, les camionnettes et la classe "autres". Pour la fréquence, ce sont les berlines. Lesberlines sont donc en terme de fréquence et de coût les carrosseries les plus à risque.

Représentation des écarts et exposition

Graphique 3.6 – L’écart en fonction de la carrosserie de véhicule

Constats

Les Berlines représentent la moitié de notre portefeuille.Toutes les autres carrosseries n’excédent pas les 10% chacune.En particulier les mini-bus, cabriolets et coupés sont très faiblement représentés (respective-ment 0.6%, 1,9%, 1,8%).Les écarts sont particulièrement élevés sur les mini-bus (+10pts).Nous avons également +4pts sur les cabriolets et +5pts sur les coupés.Sur ces trois carroseries, la prime pure est sous estimée, cependant les effectifs sont très faibles,ils doivent donc être analysés avec prudence.Dans le cas inverse, nous avons les "tout terrain" qui ont un écart moyen de -4pts et donc uneprime pure sur-estimée, supérieure à la sinsitralité réelle.

3.1.7 Conclusion

Cette première partie avait pour but d’initier l’analyse en présentant les divergences entre ELRet S/C.Nous avons remarqué que sur les quelques variables sélectionnées (présentes dans le modèleset choisies en fonction de leur spread), nous trouvions des classes pour lesquelles la prime pureétait mal estimée.La prime pure a été estimée sur des bases d’années antérieures, c’est pourquoi il est indispen-sable de contrôler nos modèles et donc de cibler les segments pour lesquels elle ne serait plusadaptée à la base de 2016.

Page 55: Maud Vandekerchove Contrôle des modèles de prime pure et

38 Chapitre 3. Contôle de la prime pure : Etude des écarts entre S/C et ELR

Les segments d’écarts positifs élevés ciblés sont donc :

• Les 80 ans et plus (+15pts)

• Les durées de détention 8,10,14,15 et 20 ans (au alentour de +5pts pour les 8 ans, +8ptspour les 10,14 et 15 ans et +12pts pour les 20 ans)

• L’ile de France (+8pts)

• Les zones de garage RC de 115 à 117 (aux alentours de +14 pts)

• Les mini-bus (+10 pts), les cabriolets (+4pts), les coupés (+5pts)

Et pour les écarts négatifs :

• Les durées de détention de 1 an (-5pts)

• Les zones 103 et 113 (-5pts)

• Les "tout terrain" (-4pts)

Pour ces segments, nous avons une mauvaise prédiction de la prime pure par rapport à la si-nistralité réelle de 2016, soit elle est sous estimée (écart positif) soit elle est sur-estimée (écartnégatif).Ces écarts peuvent être dus à un changement de mix en portefeuille par rapport aux années2013,2014 et 2015.Nous avons sélectionné les écarts significatifs car, comme expliqué dans les parties tarificationet segmentation, la prime pure ne peut pas être parfaitement modélisée et nous devons l’ac-cepter.En effet, si nous corrigeons tous les écarts, notre prime pure sera trop adaptée à la base 2016 etrisquerait de ne plus coller avec des années différentes.Une fois que nous avons ces segments, la première chose que nous devons observer est l’ex-position de chaque segment. En effet, un effectif trop faible ne peut pas être généralisé, car cesécarts pourraient être dus à cet échantillon en particulier et non à la modalité en elle même.Tout à l’heure nous avons évoqué le changement de mix en portefeuille, en cas de changementde mix en portefeuille, les modalités n’ont plus la même réprésentation dans le portefeuille.Ainsi, si nous construisons un modèle de prime pure sur une base B1 où notre modalité A estfortement représentée et que nous appliquons ce modèle sur une autre base B2 où A est très fai-blement représentée, nous pourrions avoir dans B2 des sinistres complétement différents pournotre modalité A, du simple fait que nous avons, pour ce faible échantillon, aléatoirement dessinistres très élévés (ou trop faibles) qui ne représentent pas du tout la généralité. Dans ce cas,notre modèle de prime pure ne sera pas du tout adapté pour autant qu’il soit bien prédit.Ceci peut expliquer pourquoi nous ne devons pas corriger les écarts sur des effectifs trop faibles,nous ne pouvons pas savoir si l’échantillon reflète la réalité ou s’il s’agit de cas particuliers. Ensupprimant les segments d’effectifs trop faibles (inférieur à 5%), nous observons alors :Les segments d’écarts positifs élevés restants en univariés :

• Les 80 ans et plus

• L’ile de France

Page 56: Maud Vandekerchove Contrôle des modèles de prime pure et

3.2. Analyse des corrélations 39

et pour les écarts négatifs :

• Les durées de détention de 1 an

• La zone 103

Maintenant que nous avons nos segments avec des effectifs raisonnables, nous devons nousposer une autre question :Ces écarts sont-ils dus seulement à la modalité elle-même ou à une interaction de modalitésque nous ne pouvons pas capter ici ?En effet, pour les durées de détention de 1 an par exempe, nous pouvons avoir une interac-tion forte avec une autre modalité qui augmente fortement nos écarts et donc notre moyenned’écart sur cette durée de détention.Nous devons donc étudier ces écarts par le biais d’une autre méthode captant les interactions.Nous allons par la suite poursuivre l’analyse de nos écarts avec toutes les variables explicativesde la prime pure (au nombre de 18).Dans un premier temps, nous allons faire des analyses de corrélations afin de ne pas avoir desvariables redondantes.

3.2 Analyse des corrélations

Nous disposons au total de 18 variables explicatives pour notre modèle prime pure de la garan-tie RC, parmi lesquelles, 7 sont des variables quantitatives et 11 des variables qualitatives.

Voici les 7 variables quantitatives :

• Coéfficient reduction/majoration

• Age du conducteur

• Ancienneté du véhicule

• Durée de détention du véhicule

• Ancienneté de bonus 50

• Age obtention du permis

• Scoring sinistre RC

Et les 11 variables qualitatives :

• Fractionnement des primes

• Nombre de kilomètres annuel (répartis en 3 classes)

• Usage du véhicule

• CSP : code socio-professionnel

• Zone de garage RC

• Région AXA France

Page 57: Maud Vandekerchove Contrôle des modèles de prime pure et

40 Chapitre 3. Contôle de la prime pure : Etude des écarts entre S/C et ELR

• Energie du véhicule

• Groupe SRA du véhicule

• Puissance du véhicule

• Transmission du véhicule

• Carrosserie du véhicule

Ces variables sont présentes dans le modèle Fréquence et/ou le modèle Coût moyen.

Nous allons commencer par analyser les corrélations entre variables quantitatives.

3.2.1 Analyse des variables quantitatives

Nous allons utiliser, pour ces variables, le coefficient de pearson détaillé auparavant dans cemémoire. Comme précisé auparavant, les variables sont corrélées si r ∈ [0.5 ;1]. Voici la repré-sentation graphique des corrélations grâce à la fonction corrplot sous R.

Graphique 3.7 – Corrplot variables quantitaives

Les corrélations positives sont en bleu et négatives en rouge, plus le cercle est grand et foncéplus les variables sont corrélées.Les deux seules variables quantitatives corrélées sont l’ancienneté du véhicule et la durée dedétention avec un coefficient de 0.52.Comme le modèle de prime pure est composé de deux modèles, nous allons vérifier si ces deuxvariables proviennent du même modèle, si ce n’est pas le cas nous pouvons les conserver. Eneffet, l’une peut influer seulement sur le coût moyen et l’autre seulement sur le nombre desinistres, nous n’aurons alors pas de double effet.Les deux variables influent sur le modèle de fréquence et la variable durée de détention estégalement présente dans les variables explicatives du modèle de Coût moyen.De ce fait, pour la suite, nous supprimons la variable ancienneté du véhicule.

Page 58: Maud Vandekerchove Contrôle des modèles de prime pure et

3.2. Analyse des corrélations 41

3.2.2 Analyse des corrélations des variables qualitatives

Pour cette analyse, nous allons utiliser le test V de cramer explicité auparavant.Pour cela, nous utilisons la fonction assocstats sous R.Les variables corrélées sont les suivantes :

• La transmission du véhicule et la carrosserie du véhicule avec un V de cramer de 0.59

• La puissance du véhicule et le goupe SRA avec un V de cramer de 0.84.

• L’usage du véhicule et la CSP avec un V de cramer de 0.56.

De la même façon que pour les variables quantitatives, nous allons vérifier si ces variables ap-partiennent au même modèle (fréquence et coût moyen).La carrosserie du véhicule influe sur les deux modèles alors que la transmission influe seule-ment sur le modèle coût moyen.Nous avons donc un double effet sur le coût moyen, nous supprimons donc la transmission duvéhicule.La puissance du véhicule influe sur le coût moyen alors que le goupe SRA influe sur la fré-quence, ne faisant pas partie du même modèle, nous conservons les deux variables.L’usage et le CSP appartiennent au modèle fréquence, ici aussi nous observons donc un doubleeffet. Nous conservons la variable usage car elle a des corrélations plus faibles avec les variablesrestantes que le CSP.

3.2.3 Analyse des corrélations des variables qualitatives et quantitatives

Il nous reste désormais 15 variables explicatives car nous avons supprimé :

• L’ancienneté du véhicule

• La transmission du véhicule

• La CSP

Nous allons analyser les corrélations entre chaque variable quantitative et qualitative par lebiais du test de Kruskal-wallis, pour cela nous utilisons la fonction : kruskal.test sous R.Toutes les p-value sont inférieures à 5%, nous pouvons donc conserver les 15 variables.Cela peut paraître surprenant que certaines variables soient corrélées alors qu’elles sont pour-tant présentes dans le modèle de prime pure.L’explication vient du mix en portefeuille.En effet, comme nous l’avons constaté les corrélations sont toutes assez légères puisque que cesoit le coefficient de pearson ou le V de cramer ils sont toujours inférieurs à 0.6.Les modèles ayant été estimés sur des années antérieures, un changement de mix peut dimi-nuer ou augmenter légèrement nos coefficients de corrélations.Avec un tel changement nous obtenons des coefficients inférieurs à 0.5 et donc des variablesconsidérées comme non-corrélées entre elles.Le mix de 2016 n’est pas le même que celui de 2013,2014 et 2015, c’est pourquoi il est indispen-sable de contrôler ces modèles sur nos nouvelles bases.

Page 59: Maud Vandekerchove Contrôle des modèles de prime pure et

42 Chapitre 3. Contôle de la prime pure : Etude des écarts entre S/C et ELR

3.3 Ciblage des segments par arbre de décision

Dans cette partie, nous souhaitons automatiser et élargir notre analyse de détection de seg-ments d’écarts entre S/C et ELR. En effet, nous utilisons ici toutes les variables explicatives noncorrélées de la prime pure et nous souhaitons cibler les segments non repérés par l’analyseunivariée.L’arbre de décision CART correspond à nos besoins pour cette étude, en effet il permet de réa-liser une étude segmentée à partir d’une variable à expliquer (les écarts) et des variables expli-catives en prenant en compte les interactions. Ainsi, nous pourrons savoir quelles variables etquelles interactions impactent réellement nos écarts de S/C et ELR. Cette méthode est décritedans le chapitre "pré-réquis".Dans notre cas il s’agit d’arbre de régression puisque notre variable à expliquer Y est continue.Notre but est de repérer des segments et non de prédire. L’arbre de décision comprend plu-sieurs paramètres d’arrêts, celui qui nous intéresse ici est le minbucket. Le minbucket sous Rest le nombre minimal d’observations présents dans chaque feuille. En effet, comme expliquéauparavant, si nous avons peu d’observations dans une feuille, nous ne pouvons pas conclureque la prime pure est mal ajustée pour éviter le sur-apprentissage.Nous décidons donc de sélectionner un minimum de 5% des observations pour créer unefeuille.Sur chaque noeud et feuille de l’arbre, nous allons afficher :

• Le S/C moyen

• L’ELR moyen

• L’écart moyen : S/C moyen - ELR moyen

• La part d’année police (exposition)

Page 60: Maud Vandekerchove Contrôle des modèles de prime pure et

3.3. Ciblage des segments par arbre de décision 43

Voici l’arbre que nous obtenons [10] [11] :

Graphique 3.8 – Arbre de décision des écarts

Nous obtenons alors 11 feuilles, c’est à dire 11 segments pour lesquels nous avons des écarts etune exposition non négligeable. Nous avons 7 feuilles pour lesquelles les écarts sont positifs et4 feuilles pour lesquels les écarts sont négatifs.

3.3.1 Etude des écarts positifs

Nous allons tout d’abord zoomer sur les écarts positifs, c’est à dire lorsque S/C>ELR. Nous ob-tenons les segments suivants :

• Feuille 1 :Age : 80 ans ou plus

• Feuille 2 :Age : moins de 80 ansRégion : Ile de France

• Feuille 3 :Age : moins de 52 ansRégion : Hors Ile de FranceZone RC ∈ {102,107,109,112,114,115,116 ou 117}

• Feuille 4 :Age : moins de 52 ansRégion : OuestZone RC ∈ {101,103,104,105,106,108,110,111,113}Groupe SRA ∈ {20, 21, 25,28-30, 33,34, 37,38 42,>43}

Page 61: Maud Vandekerchove Contrôle des modèles de prime pure et

44 Chapitre 3. Contôle de la prime pure : Etude des écarts entre S/C et ELR

• Feuille 5 :Age : moins de 52 ansRégion : Hors Ile de France et OuestZone RC ∈ {101,103,104,105,106,108,110,111,113}Groupe SRA ∈ {20, 21, 25,28-30, 33,34, 37,38 42,>43}

• Feuille 6 :Age : 52-80 ansRégion : Hors ile de FranceDurée de détention de véhicule : 2 ans et demi ou plusCarrosserie de véhicule ∈ {4*4, Bus, Coupé, Monospace, Ludospace}

• Feuille 7 :Age : 52-80 ansRégion : Hors ile de FranceDurée de détention de véhicule : 2 ans et demi ou plusCarrosserie de véhicule ∈ {Berline,Break, Cabriolet, Camionnette, SUV ou tout terrain}Zone de garage RC ∈ {101 102 107 111 114-117}

Sur ces segments, la prime pure est sous estimée, c’est à dire que la sinistralité réelle est supé-rieure à la sinistralité prédite.Pour les feuilles 5 et 7, l’écart est moindre, nous aurions pu segmenter ces feuilles afin de dé-terminer d’autres sous segments améliorant ainsi la précision. Cependant, nous ne souhaitonspas observer des effectifs faibles et avoir trop d’interactions entre les variables.C’est pourquoi nous nous basons uniquement sur les modalités pour lesquelles les écarts sontimportants et où l’effectif n’est pas trop faible.

Etude de la feuille 1

Graphique 3.9 – Feuille 1

Nous observons que pour les 80 ans ou plus, l’écart moyen est particulièrement élevé.Ce qui signifie que la prime pure est trop faible par rapport à la sinistralité réelle .Il va donc falloir revoir le coefficient de ce segment à la hausse.Une fois ce segment écarté pour la suite de l’analyse, nous zoomons sur les moins de 80 ans.

Page 62: Maud Vandekerchove Contrôle des modèles de prime pure et

3.3. Ciblage des segments par arbre de décision 45

Etude de la feuille 2

Graphique 3.10 – Feuille 2

La région Ile de France se démarque, en effet, au global sur les moins de 80 ans nos écarts sonten moyenne de -0.96pts alors que pour l’Ile de France nous avons un écart de 8.56pts.Nous obtenons ainsi un deuxième segment à revoir à la hausse. En effet, pour les plus de 80 ansquelles que soient les caractéristiques des autres variables, les coefficients sont à augmenter, etnous venons de voir que pour les moins de 80 ans nous avons également une sous-estimationde la sinistralité pour cette région.

Etude de la feuile 3

Graphique 3.11 – Feuille 3

Lorsque nous zoomons sur les moins de 80 ans et les régions hors Il de France, nous avons unécart moyen de -2.10pts.Si on ajoute en plus la condition sur l’âge "moins de 52 ans", l’écart moyen est de 2.15pts, et cesegment (moins de 52 ans, hors Ile de France) représente 37.9% de l’effectif.

Page 63: Maud Vandekerchove Contrôle des modèles de prime pure et

46 Chapitre 3. Contôle de la prime pure : Etude des écarts entre S/C et ELR

A l’intérieur de ce segment, il existe des disparités d’écarts. En effet, en fonction de la zone degarage RC, du groupe SRA et de la région nous n’avons pas du tout les mêmes écarts (exemple :9.38pts d’écarts pour les zones 102,107,109,112,114,115,116 et 117 vs -1.26pts pour les autreszones).Nous avons ici plusieurs choix :

• Soit nous nous contentons d’augmenter les moins de 52 ans qui sont sous estimés enterme de sinistralité et nous abandonnons les sous segments.

• Soit nous ajoutons toutes les interactions présentes dans la feuille dans les modèles deprime pure.

• Soit nous cherchons, en examinant l’arbre, à réduire le nombre d’interactions de la feuille.

Dans ce cas présent, nous rejetons la première hypothèse, en effet les moins de 52 ans ne rési-dant pas en Ile de France représentent 38% de l’effectif total et ont en moyenne seulement unécart de 2.15%.L’écart moyen de ce segment est donc trop faible alors qu’il connaît de fortes disparités à l’in-térieur de ses sous segments, de plus comme son exposition est élevée, nous choisissons desegmenter davantage.Le plus simple et le plus précis serait d’ajouter toutes les interactions, cependant nous devonsêtre vigilents concernant les intéractions afin de ne pas coller trop à la base et donc de provo-quer de la sur-segmentation et du sur-apprentissage.Les interactions seront donc ajoutées seulement si nous avons un très fort écart et qu’ellesjouent un rôle majeur dans la responsabilité de notre écart.Nous allons donc chercher, dans un premier temps, à réduire le nombre d’interactions de lafeuille.Il est impossible de supprimer l’âge dans l’interaction, en effet, cet écart dépend forcément del’âge étant donné que pour les 52-80 ans, ne résidant pas en Ile de France, la moyenne est de-5.5pts avec une exposition de 48.1%. De plus, lorsque que l’on regarde les sous segments, qua-siment tous sont négatifs et les seuls positifis ne sont pas expliqués par l’âge.Essayons de voir ce qu’il en est pour la région :Nous avons vu précédemment que la région Ile de France était sous estimée en terme de primepure quelles que soient les modalités des autres variables.De ce fait, les moins de 52 ans de zone de garage 102 107 112 114 115 116 117 résidant en Ile deFrance ont un écart positif.Si nous sommes hors Ile de France avec les mêmes critères, nous nous retrouvons exactementdans notre feuille 3.Autrement dit, quelle que soit la région, pour ce critère d’âge et ce critère de zone de garage RCnotre écart sera positif. Pour cette raison, nous supprimons la région de notre interaction.Peut-on supprimer la zone de garage ?Nous ne pouvons pas car elle contient trop de disparités dans ces sous segments (-1.26pts vs9.93pts).Ce qui signifie que le critère Zone de garage RC : 102 107 109 112 114 115 116 117 est en partiereponsable de l’écart de notre feuille.Bien entendu, l’écart, bien que positif et non négligeable, ne sera pas le même si l’assuré résideen Ile de France ou dans les autres régions AXA France. Cependant, il ne faut pas trop com-plexifier notre modèle tout en rectifiant les écarts principaux.Au final nous avons donc l’intersection suivante :

Age (moins de 52 ans) * Zone de garage RC (102 107 109 112 114 115 116 117)A ajouter au modèle de prime pure.

Page 64: Maud Vandekerchove Contrôle des modèles de prime pure et

3.3. Ciblage des segments par arbre de décision 47

Etude de la feuille 4

Graphique 3.12 – Feuille 4

Nous allons examiner si toutes ces variables sont nécessaires ou si nous pouvons en éliminer.Cette feuille a été un peu étudiée par le biais de la feuille 3, dans le sens où nous ne pouvonspas supprimer l’âge, pour les mêmes raisons explicitées ci-dessus.La zone de garage RC?Lorsque nous observons la feuille 3, nous avons un écart positif, quels que soient les critèresdes autres variables non présentes dans la feuille, donc quel que soit le groupe SRA et quelleque soit la région hors Ile de France.De ce fait, si nous avons le segment :

• Les moins de 52 ans

• Résidant en région Ouest

• Groupe SRA : 20, 25,28-30, 33,34, 37,38 42 et plus de 43

L’écart sera positif puisque :

• Si la zone de garage ∈ 102,107,109,112,114-117 nous sommes donc dans un sous segmentde la feuille 3.

• Si la zone de garage ∈ 101,103,104, 105, 106, 108„110,111, 113 nous sommes exactementdans la feuille 4.

Nous pouvons donc retirer la zone de garage RC de notre interaction.La région?Lorsque nous regardons la feuille 4 hors région et hors zone puisque nous venons de la retirer,nous avons comme regroupement :

• Les moins de 52 ans

• Groupe SRA : 20, 25,28-30, 33,34, 37,38 42 et plus de 43

Pour ces critères là, quelle que soit la région, notre écart sera positif.En effet, notre feuille 2 nous a prouvé que, pour l’Ile de France, quels que soient les autrescritères, notre prime pure était sous estimée. Notre feuille 5 nous prouve que si nous sommes

Page 65: Maud Vandekerchove Contrôle des modèles de prime pure et

48 Chapitre 3. Contôle de la prime pure : Etude des écarts entre S/C et ELR

au Nord Est, Sud-Est ou Sud-Ouest nous avons une moyenne d’écart positif bien que faible. Etsi nous sommes en ouest nous sommes exactement dans la feuille 4. Nous avons donc deuxoptions :

• Soit nous conservons la région dans notre interaction au risque d’avoir une interactionde nombreuses variables et donc de risquer le sur-apprentissage.

• Soit nous retirons la région et cela reviendrait à examiner le noeud précédent la feuille4. Le risque serait alors d’augmenter les régions suivantes de la même façon : Nord-Est,Ouest, Sud-Est et Sud-Ouest, alors qu’elles connaissent des disparités.

Le groupes SRA?Le groupe SRA ne peut pas être supprimé puisque nous remarquons que pour certains groupesSRA, représentant tout de même 11,4%, nous avons un écart négatif de -5.3pts.En résumé, nous avons donc 2 propositions pour l’amélioration du modèle prime pure :

• Age (Les moins de 52 ans) *Groupe SRA (20-22, 25,28-30, 33,34, 37,38 42 et plus de 43)

• Age (Les moins de 52 ans) *Groupe SRA (20-22, 25,28-30, 33,34, 37,38 42 et plus de 43) *Région (ouest)

Nous optons pour le second choix. En effet si nous supprimons la région, nous augmenteronsles écarts de la feuille 5, qui a pour écart moyen une valeur très proche de 0 et qui représentetout de même 10% de notre portefeuille.

Etude de la feuille 6

Graphique 3.13 – Feuille 6

L’hypothèse de réajuster directement le noeud précédent notre feuille afin de simplifier les rec-tifications est immédiatement rejetée. En effet, le noeud précédent regroupe :

• Les 52-80 ans

• Non résidant en Ile de France

• Durée de détention d’au moins 2,5 ans

Ce noeud a un écart moyen de -2.63pts, et une exposition de 30,30% soit 1/3 de notre base.Il y a de trop fortes diversités de notre variable cible (écart) à l’intérieur de ce segment, de plusson exposition étant importante, nous décidons de segmenter davantage.

Page 66: Maud Vandekerchove Contrôle des modèles de prime pure et

3.3. Ciblage des segments par arbre de décision 49

Nous ne pouvons également pas retirer la durée de détention, car lorsqu’elle est inférieure à 2ans et demi, tous les écarts sont négatifs sur ses sous-segments.La région?Sur cette feuille, nous nous trouvons sur les régions hors ile de France, cependant nous savonsque sur la région Ile de France, quels que soient les autres critères, l’écart est positif, donc l’écartpositif pour ce segment est indépendant de la région.L’âge?Pour les plus de 80 ans l’écart est toujours positif, en revanche, pour les moins de 52 ans, enfonction de la carrosserie et la zone de garage, l’écart est en moyenne négatif.Nous avons donc deux options :

• Soit nous conservons la variable âge dans l’intersection.

• Soit nous la supprimons, et ajustant donc les coefficients quel que soit l’âge, de cette fa-çon, nous allons creuser l’écart négatif sur certains segments, il faudra donc les redresserlorsque nous verrons les réajustements des écarts négatifs.

Nous optons pour le premier choix. En effet, cela complexifie notre modèle mais le secondchoix compliquerait davantage la correction du modèle de prime pure.Pour cette feuille nous préconisons donc l’ajout au modèle de prime pure de l’interaction sui-vante :

Durée de détention (plus de 2,5 ans)*La carroserie de véhicule (4*4, Bus, Coupé, Monospace,Ludospace)

3.3.2 Etude des écarts négatifs

Nous avons dans ce cas les 4 feuilles suivantes :

• Feuille 8 :Age : moins de 52 ansRégion : Hors Ile de FranceZone de garage RC ∈ {101, 103, 104, 105, 106, 108, 110, 111, 113}Groupe SRA ∈ {22, 23, 24, 26, 27, 31, 32, 35, 36, 39, 40, 41, 43}

• Feuille 9 :Age : 52-80 ansRégion : Hors Ile de FranceDurée de détention du véhicule : au moins 2,5 ansCarrosserie de véhicule ∈ {Berline, Break, Cabriolet, Camionnette, SUV, tout terrainZone de garage RC : ∈ {103, 104, 105, 106, 108, 109, 110, 112, 113}

• Feuille 10 :Age : 52-80 ansRégion : Hors Ile de FranceDurée de détention du véhicule : inférieure à 2,5 ansZone de garage RC ∈ {104, 106, 108, 112, 114, 115, 116, 117}

• Feuille 11 :Age : 52-80 ansRégion : Hors Ile de France

Page 67: Maud Vandekerchove Contrôle des modèles de prime pure et

50 Chapitre 3. Contôle de la prime pure : Etude des écarts entre S/C et ELR

Durée de détention du véhicule : inférieure à 2,5 ansZone de garage RC ∈ {101, 102, 103, 105, 107, 109, 110, 111, 113}

Ici, nous sommes dans le cas opposé de l’étude précédente, c’est à dire que notre ELR est su-périeur à notre S/C.Autrement dit, notre prime pure est sur-estimée puisque nos sinistres prédits sur ces segmentssont supérieurs à la sinistralité réelle.De la même façon que pour les écarts positifs, il faudra réajuster les coefficients du modèle deprime pure, cette fois-ci à la baisse, afin de diminuer notre ELR sur ces segments.

Etude de la feuille 8

Graphique 3.14 – Feuille 8

Dans cette feuille, nous ne pouvons pas supprimer la région puisque pour l’Ile de France nousavons des écarts positifs.De la même façon, nous ne pouvons également pas supprimer l’âge puisque pour les plus de80 ans les écarts sont positifs également.Pour la zone de garage RC, nous observons que pour les moins de 52 ans, hors Ile de Franceen fonction de la zone l’écart sera positif ou négatif, de ce fait cette variable ne peut pas êtreretirée car elle est en partie responsable de notre écart la feuille 8.Il est en de même pour le groupe de véhicule.

Nous constatons donc que pour corriger correctement cet écart, nous devons ajouter l’interac-tion suivante :Age (moins de 52 ans)*Région (hors Ile de France)* Zone de garage RC (101 103 104 105 106 108110 111 113)* Groupe de véhicule SRA (22,23,24, 26, 27, 31,32,35,36,39,40,41,43).

Page 68: Maud Vandekerchove Contrôle des modèles de prime pure et

3.3. Ciblage des segments par arbre de décision 51

Etude de la feuille 9

Graphique 3.15 – Feuille 9

Rajouter cinq interactions au modèle de prime pure le compliquerait davantage.Nous devons trouver une autre solution, soit nous abandonnons cette feuille, soit nous dimi-nuons les nombre d’interactions.Comme vu précédemment nous ne pouvons supprimer ni l’âge ni la région.Nous ne pouvons également pas supprimer la carrosserie puisqu’en fonction de cette dernièreles écarts sont de 6.31pts vs -5.42pts.La durée de détention?Lorsque nous sommes dans cette feuille, que la durée de détention soit inférieure ou supé-rieure à 2,5 ans, notre écart sera négatif.En effet, lorsque nous regardons le noeud des durées de détention inférieures à 2 ans et demis,nous avons un écart en moyenne de -10.32pts.Une première hypothèse serait donc de retirer la durée de détention dans l’interaction.Ainsi, pour corriger notre ELR, la méthode serait donc de corriger le segment :

• Les 52-80 ans

• Les non-résidant en Ile de France

• Les carrosseries de véhicule Berline, Break, Cabriolet, Camionnette, SUV ou tout terrain

• Les zones de garage RC : 103,104, 105, 106,108 109, 110, 112 et 113

de telle sorte que l’ELR se rapproche le plus possible du S/C sur ce segment.Ensuite, il faudrait reconstruire un arbre pour observer les changements d’écarts sur le segmentdurée de détention inférieure à 2 ans et demis. En effet, le fait de retirer la durée de détentiondans l’interaction va certainement diminuer les écarts des feuilles 10 et 11 ainsi que du noeudqu’elles ont en commun.Ceci n’est ni la méthode la plus simple ni la plus rapide.La zone de garage RC?Une autre hypothèse serait de conserver la durée de détention mais de supprimer la zone degarage, cela reviendrait à rectifier le noeud précédent la feuille 9.Ainsi nous réajusterons les coefficients de prime pure de sorte à avoir l’ELR moyen le plusproche possible de 39.7% (S/C moyen sur ce segment).Le problème de cette méthode est que cela diminuerait les écarts sur notre feuille 9, en re-vanche cela augmenterait l’écart moyen sur la feuille 7.

Page 69: Maud Vandekerchove Contrôle des modèles de prime pure et

52 Chapitre 3. Contôle de la prime pure : Etude des écarts entre S/C et ELR

Nous rappelons que la feuille 7 a pour écart moyen 0.27pts et comme exposition 8.4%.Avec cette seconde méthode, nous ferions apparaitre des écarts sur un segment où il n’y enavait quasiment pas à l’origine.Ceci n’est pas ce que nous souhaitons puisque notre but est de réduire les écarts de segment,de ce fait nous décidons d’ajouter l’interaction :Age (52-80 ans) * Région (Hors Ile de France) * Carrosseries de véhicule (Berline, Break, Cabrio-let, Camionnette, SUV ou tout terrain) * zone de garage RC (103,104, 105, 106,108 109, 110, 112et 113)

Etude de la feuille 10 et feuille 11

Feuille 10 :

Graphique 3.16 – Feuille 10

Feuille 11 :

Graphique 3.17 – Feuille 11

Ces deux feuilles diffèrent seulement au niveau de la zone de garage RC.Elles ont toutes les deux un écart moyen négatif et n’ont pas la même exposition.En effet, la feuille 11 qui a l’écart le plus prononcé a une exposition qui représente plus dudouble de l’exposition de la feuille 10.

Page 70: Maud Vandekerchove Contrôle des modèles de prime pure et

3.4. Propositions d’améliorations et méthodes 53

Si nous observons maintenant le noeud commun aux 2 feuilles :

Graphique 3.18 – Noeud commun aux feuilles 10 et 11

L’écart est négatif et l’exposition représente 17.8%.Bien entendu, en fonction de la zone de garage RC, l’écart n’a pas la même importance, nousavons donc 2 choix :

• Ajouter la zone de garage RC dans l’interaction.

• Corriger uniquement le noeud.

Corriger le noeud réduirait l’écart pour la feuille 11 mais passerait en positif l’écart sur la feuille10, cependant l’effectif de la feuille 11 est beaucoup plus important. Ajouter l’interaction com-plexifierait davantage le modèle de prime pure. De ce fait nous choisissons de corriger le noeudet donc d’ajouter l’interaction :

Age (52-80 ans) * Région (Hors Ile de France) * Durée de détention du véhicule (<2,5ans)

3.4 Propositions d’améliorations et méthodes

Nous pouvons donc proposer 3 méthodes d’améliorations du modèle de prime pure.En effet, ici notre but est de contrôler le modèle de prime pure et de proposer des solutionsd’améliorations en ciblant des segments pour lesquels elle est mal estimée.Cependant, il est à la main de l’équipe prime pure de choisir parmi les propositions de mé-thodes suivantes et de rectifier le modèle :

• Méthode 1 : Nous tenons compte de l’arbre et ajoutons et corrigeons exactement tout cequi est présent dans nos feuilles.

• Méthode 2 : Nous sélectionnons les segments résultant de notre analyse.

• Méthode 3 : Nous limitons le nombre d’interactions par exemple en augmentant notreexposition minimum par feuille.

3.4.1 Méthode 1

La méthode 1 est celle qui va le plus complexifier notre modèle mais qui sera la plus simple àappliquer. En effet pour cette méthode, il suffit de corriger les coefficients de la prime pure etd’ajouter les interactions de chaque feuille de l’arbre de décision afin de se rapprocher le pluspossible de l’égalité : ELR = S/C.Pour l’ajout des interactions, il suffit de mettre tous les coeffcients n’appartenant pas au seg-ment à corriger à 1 et de régler les autres de telle sorte que ELR=S/C.

Page 71: Maud Vandekerchove Contrôle des modèles de prime pure et

54 Chapitre 3. Contôle de la prime pure : Etude des écarts entre S/C et ELR

Pour un écart positif et donc une prime pure sous-estimée il faudra augmenter les coefficientsdes modalités présentes dans l’interaction ou de la modalité seule si ce segment dépend d’uneseule variable.Pour un écart négatif, et donc une prime pure sur-estimée il faudra réduire les coefficients.Risque de cette méthode : coller aux données de 2016, sur-segmentation et sur-apprentissage.

3.4.2 Méthode 2

Cette méthode est un compromis entre la méthode 1 et la méthode 3, elle permet de rectifierplus de segments que la méthode 3 sans pour autant trop complexifier le modèle et ainsi limi-ter le risque de sur-apprentissage.Si nous souhaitons corriger le modèle par le biais de cette méthode, la démarche est plus com-pliquée que pour la méthode 1.Rappelons dans un premier temps les segments que nous avons ciblés avec notre analyse.

• Segment 1 :Les plus de 80 ans

• Segment 2 :La région Ile de France

• Segment 3 :Age (moins de 52 ans) *Zone de garage RC (102 107 109 112 114 115 116 117)

• Segment 4 :Age(Les moins de 52 ans)*Groupe SRA (20, 25,28-30, 33,34, 37,38 42 et plus de 43)*Région (ouest)

• Segment 5 :Durée de détention (plus de 2,5 ans)*La carroserie de véhicule (4*4, Bus, Coupé, Monospace, Ludospace)*Age (52-80 ans)

• Segment 6 :Age (moins de 52 ans)*Région (hors Ile de France)*Zone de garage RC (101 103 104 105 106 108 110 111 113)*Groupe de véhicule SRA (22,23,24, 26, 27, 31,32,35,36,39,40,41,43)

• Segment 7 :Age (Les 52-80 ans)*Région (Les non-résidants en Ile de France) *Zone de garage RC (103,104, 105, 106,108 109, 110, 112 et 113)*Les carrosseries de véhicule (Berline, Break, Cabriolet, Camionnette, SUV ou tout terrain)

• Segment 8 :Age (Les 52-80 ans)*Région (Les non-résidants en Ile de France)*Les durées de détention (moins de 2 ans et demi).

Page 72: Maud Vandekerchove Contrôle des modèles de prime pure et

3.4. Propositions d’améliorations et méthodes 55

Pour les segments 1 à 5 qui ont des écarts positifs :

Etape 1 : Pour commencer, ajouter les interactions : Elles sont au nombre de trois et corres-pondent aux segments cités ci-dessus : 3,4 et 5.Dans ce cas, pour les interactions, il suffit de mettre tous les coefficients des modalités noncomprises dans l’interaction à 1, et d’augmenter les coefficients de l’interaction afin de se rap-procher du S/C et donc de la sinistralité réelle.Protocole :Commençons par ajouter le segment 4 : Il s’agit de l’interaction résultant de l’étude de la feuille4 :Nous réglons nos coefficients du modèle de telle sorte que la prime pure prédite soit la plusproche de la sinistralité réelle. Nous souhaitons que notre ELR soit le plus proche possible duS/C sur ce segment. Cependant, comme nous avons retiré la zone de garage dans l’interactionnous allons augmenter toutes les zones de la même façon.La feuille 3 comprenant la zone dans ces interactions risque de voir son écart moyen modifié.Segment 3 : Nous récupérons, dans un premier temps, le nouvel S/C et écart moyen de la feuille3 qui sera sans doute réduit dû aux modifications précédentes mais toujours positif.Pour cette interaction, nous avons supprimé la région, de ce fait, toutes les régions seront ré-augmentées de la même façon.Une fois après avoir modifié notre prime pure sur ce segment afin qu’elle se rapproche le pluspossible de la sinistralité réelle, nous ajoutons le segment 5.Segment 5 : Ceci correspond à l’étude de la feuille 6, ici aussi les régions ont été suprriméeset seront donc toutes augmentées de la même façon. Nous devons également augmenter lescoefficients de la prime pure pour ces interactions de façon à nous rapprocher le plus possiblede notre S/C.

Etape 2 : Les variable univariées :Une fois ces interactions ajoutées, nous examinons le nouvel écart moyen sur l’Ile de Francepuisque ce dernier a été modifié par le biais des interactions, il doit de ce fait être moins im-portant.Nous récuperons le nouveau S/C de ce segment et augmentons nos coefficients pour nous enrapprocher le plus possible.Nous faisons de même pour le segment 1 (80 ans ou plus) qui a lui été modifié par le biais del’Ile de France.

Pour les segments 6 à 8 qui ont des écarts négatifs :

Ici, nous avons uniquement des interactions.Pour les écarts négatifs, nous ajoutons les interactions au modèle, nous fixons les coefficientsdes modalités non utilisées dans l’interaction à 1, et diminuons les coefficients des modalitésprésentes de telle sorte que notre ELR se rapproche le plus de notre S/C sur le segment.Nous commençons ici par le segment 6 :Il suffit juste d’ajouter l’interaction, ce segment ne comprend aucune complication puisquedans l’interaction nous avons conservé toutes les variables présentes dans la feuille 8.Nous ajoutons ensuite le segment 7 :Ce segment correspond à l’étude de la feuille 9.Ici, nous avons supprimé la variable "durée de détention du véhicule".De ce fait, lorsque nous allons ajouter l’interaction au modèle afin de diminuer la prime puresur ce segment, nous allons diminuer de la même façon toutes les durées de détention.La prime pure du noeud commun aux feuilles 10 et 11 (segment 8) va donc diminuer.

Page 73: Maud Vandekerchove Contrôle des modèles de prime pure et

56 Chapitre 3. Contôle de la prime pure : Etude des écarts entre S/C et ELR

C’est pourquoi, une fois l’interaction ajoutée et l’écart proche de 0 sur ce segment, nous devonsrécupérer le nouvel écart et le S/C que nous observons sur le segment 8.Cet écart sera sûrement moins important mais toujours existant.Segment 8 : Une fois le nouveau S/C et écart récupéré, nous avons juste à régler les coefficientsen fonction de ces derniers.

Bien entendu nous devons faire des contrôles au fur et à mesure des rectifications et vérifierque l’ajout d’interactions ne complique pas le modèle.

3.4.3 Méthode 3

La méthode 3 consiste à limiter le nombre d’interaction ou à augmenter l’exposition minimalede chaque feuille :

Graphique 3.19 – Arbre de déision des écarts interactions limitées

Nous pourrions par exemple sélectionner les segments issus de l’arbre ci-dessus où nous avonsajouté dans les critères d’arrêt un nombre maximum de variables dans une interaction à ne pasdépasser grâce à la fonction maxdepth du rpart.control sous R.Nous pourrions également augmenter le nombre minimal d’observations de chaque feuille ounous concentrer uniquement sur les noeuds du premier arbre.Pour faire un parallèle avec notre étude univariée faite auparavant, nous nous apercevons quenous avons certains segments en commun, d’autres sont en fait le resultat de plusieurs inter-actions.

Maintenant que nous avons proposé des améliorations au modèle de prime pure, nous allonsnous intéresser au contrôle du modèle de prime commerciale.

Page 74: Maud Vandekerchove Contrôle des modèles de prime pure et

Chapitre 4

Contôle de la prime commerciale : Etude del’ELR

Notre rôle, dans ce chapitre, est de contrôler notre modèle de prime commerciale par le biaisde l’ELR.Pour cela, nous allons partir de l’hyptothèse forte selon laquelle le modèle de prime pure estbien ajusté sur tous les segments. C’est à dire que nous avons :Prime pure = Sinistre réellement passé pour chaque segment.Sous une telle hypothèse, l’ELR nous permet d’analyser convenablement la rentabilité des contrats.Cette analyse se fera de façon segmentée afin de repérer des segments pour lesquels l’ELRs’éloigne nettement de la moyenne globale.Dans un premier temps nous allons étudier la stratégie commerciale mise en place sur le ta-rif en fonction de l’ancienneté de contrat, ensuite nous allons réaliser des analyses d’ELR enunivarié sur quelques variables, nous utiliserons après le gradient bossting model et l’outil seg-ment finder pour la détection de segments non repérés par l’analyse univariée. Nous réfléchi-rons également à des stratégies commerciales à mettre en place.Nous verrons que l’ELR est un indicateur très utile et indispensable pour contrôler notre tarifmais qu’il connaît certaines limites.Attention, dans ce chapitre, il s’agit d’un ELR annualisé, c’est à dire que nous n’avons aucunenotion d’années police. Ici la prime pure en numérateur correspond à ce que va nous coûterle contrat s’il reste toute l’année en portefeuille, et le dénominateur de la prime commercialecorrespond à une prime annualisée, en d’autres termes ce que le contrat va nous rapporter surun an. Dans un sens, c’est comme si l’on réglait toutes les années polices à 1 et qu’on observaitle contrat sur un an. De plus, nous travaillons sur les contrats en cours au 31 décembre 2016(notre date de vision).Pour cette étude, nous ajoutons les variables explicatives de la prime commerciale qui ne setrouvent pas dans le modèle de prime pure (nous les détaillerons par la suite).

4.1 L’ancienneté de contrat

L’ancienneté de contrat est la différence entre la date d’effet d’affaire nouvelle et la date de vi-sion de notre base (31 décembre 2016).Voici notre courbe des ELR et notre répartition en portefeuille pour cette variable :

57

Page 75: Maud Vandekerchove Contrôle des modèles de prime pure et

58 Chapitre 4. Contôle de la prime commerciale : Etude de l’ELR

Graphique 4.1 – Evolution de l’ELR en fonction de l’ancienneté

Comme nous pouvons le constater, la courbe des ELR décroît progressivement en fonction del’ancienneté.Il s’agit d’une stratégie commerciale. En effet, les prix seront plus attractifs en affaire nouvelleafin d’attirer le client.De ce fait, les contrats récents sont déficitaires pour l’entreprise puisque leurs primes commer-ciales ne sont pas assez élévées par rapport aux frais engendrés par le contrat.Pour rappel, ici notre numérateur est uniquement la prévision des sinistres attritionnels, il neprend pas en compte la partie des sinistres graves, des frais etc.Pour que cela soit plus clair voici l’évolution de la prime pure RC moyenne et de la prime com-merciale RC moyenne en fonction de l’ancienneté de contrat.

Graphique 4.2 – Evolution de la prime pure et prime commerciale moyenne en fonction del’ancienneté

Comme nous pouvons le constater, les moyennes sont très proches en affaire nouvelle puisles courbes s’éloignent, la prime pure diminue alors que la prime commerciale augmente avecl’ancienneté de contrat, ces tendances ont pour but de rattrapper le retard que nous avons endébut de vie de contrat.En effet, en affaire nouvelle, le contrat n’est pas rentable, par la suite sa prime commercialeaugmentera afin de rattrapper la perte engendrée lors de l’acquisition. De façon générale, les

Page 76: Maud Vandekerchove Contrôle des modèles de prime pure et

4.2. Analyses statistiques univariées 59

contrats anciens rattrappent la perte de rentabilité des contrats récents.Ainsi, nous pouvons attirer les clients avec des prix attractifs en affaire nouvelle tout en de-meurrant rentables sur l’ensemble de notre portefeuille.Pour mener correctement notre analyse sur l’ELR, il serait pertinent de séparer les ELR par an-cienneté de contrat.En effet, ici nous souhaitons étudier les segments pour lesquels l’ELR moyen diffère de l’ELRmoyen global et en trouver les causes. Si nous ne tenons pas compte de l’ancienneté de contratnous risquons de biaiser l’analyse.En effet, comme observé dans cette partie, le tarif comptant (tarif en affaire nouvelle) diffèredu tarif en portefeuille (au terme : les majorations).Pour cela, nous allons étudier par la suite uniquement les affaires nouvelles, cependant ce tra-vail peut être effectué de la même façon sur les contrats avec plus d’ancienneté.

4.2 Analyses statistiques univariées

Dans cette partie, nous sélectionnons donc uniquement les affaires nouvelles de 2016 et les ca-ractéristiques du contrat à cette période. Comme nos ELR sont annualisés, nous considéronsdonc que tous les contrats en affaire nouvelle sélectionnés sont restés un an dans notre porte-feuille avec les mêmes caractéristiques.Ce qui nous intéresse est de faire une analyse segmentée et donc de repérer les segments quidiffèrent de notre moyenne. Nous allons calibrer notre ELR moyen affaire nouvelle à 100% pourque nos écarts soient plus simples à observer.En effet, de cette façon, nous pourrons directement savoir, en observant les segments, de quelpourcentage diffère leur ELR moyen.

Pour cette étude d’ELR, nous avons sélectionné les variables explicatives suivantes :Variables quantitatives :

• Coefficient réduction/majoration

• Age du conducteur

• Ancienneté du véhicule

• Durée de détention du véhicule

• Ancienneté de bonus 50

• Age obtention du permis

• Scoring sinistre RC

Variables qualitatives :

• Fractionnement des primes

• Nombre de kilomètres annuel (répartis en 3 classes)

• Usage du véhicule

• CSP : code socio-professionnel

Page 77: Maud Vandekerchove Contrôle des modèles de prime pure et

60 Chapitre 4. Contôle de la prime commerciale : Etude de l’ELR

• Zone de garage RC

• Région de souscription AXA France

• Energie du véhicule

• Groupe SRA du véhicule

• Puissance du véhicule

• Transmission du véhicule

• Carrosserie du véhicule

• Règle de tarif

• Véhicules spéciaux

• Marque du véhicule

• Vitesse max du véhicule

• Situation matrimoniale

• Classe de prix du véhicule

Ces variables sont donc présentes dans au moins un des deux modèles (prime pure et primecommerciale).Comme précisé auparavant, le modèle de prime commerciale n’est pas lié au modèle de primepure. C’est pour cette raison qu’il est particulièrement utile d’examiner notre ELR et nécessairede conserver les variables de prime pure non présentes dans le modèle de prime commerciale.Ainsi, si nous découvrons des segments de déviances d’ELR sur ces variables, nous pourronspréconiser de les ajouter au modèle de prime commerciale.On rappelle que nous sommes sur le produit PE044, les régions de souscription AXA France etle réseau Agent.

Pour initier l’étude nous allons commencer par analyser l’ELR sur 6 variables tarifaires impor-tantes du modèle de prime commerciale RC :

• L’âge du véhicule

• Nombre de kilomètres annuel (répartis en 3 classes)

• Age d’obtention du permis

• la situation matrimoniale

• la classe de prix du véhicule

• La zone de garage RC

Page 78: Maud Vandekerchove Contrôle des modèles de prime pure et

4.2. Analyses statistiques univariées 61

4.2.1 L’âge du véhicule

L’âge du véhicule est également utilisé dans le modèle de prime pure. Voici ci-dessous, l’ELRmoyen et l’exposition de chacune des modalités de cette variable dans les affaires nouvelles del’année 2016.

Graphique 4.3 – ELR en fonction de l’âge du véhicule

Dans ce graphique et dans les cinq graphiques suivants, l’ELR est représenté par la courbebleue et l’exposition par l’histogramme orange. L’axe principale correspond à l’ELR et l’axe se-condaire à l’exposition.Dans nos affaires nouvelles de 2016, les véhicules les plus représentés sont les véhicules d’unan (plus de 8%), les véhicules anciens sont en revanche plus rares.L’ELR n’est pas du tout stable pour cette variable, il décroît avec l’âge du véhicule.C’est à dire qu’il commence à plus de 120% pour les véhicules neufs et chute petit à petit jus-qu’à moins de 50% pour les véhicules très anciens.Il encadre la moyenne pour les véhicules de 7 à 12 ans, il est trop élevé sur les véhicules plusrécents et trop faible sur les véhicules anciens.Un ELR trop élevé signifie que le contrat est sous tarifé par rapport à sa sinistralité et un ELRtrop faible signifie que le contrat est a contrario sur tarifé par rapport à ses sinistres (puisquenotre modèle de prime pure prédit parfaitement nos sinistres selon notre hypothèse initiale).On pourrait ainsi penser que cette tarifiaction explique la répartition des affaires nouvelles, àsavoir que les contrats sur tarifés sont moins présents que les contrats sous tarifés.

4.2.2 Le nombre de km annuel

Cette variable n’est pas comprise dans le modèle de prime pure mais elle est particulièrementimpactante sur notre tarif en affaire nouvelle.

Page 79: Maud Vandekerchove Contrôle des modèles de prime pure et

62 Chapitre 4. Contôle de la prime commerciale : Etude de l’ELR

Graphique 4.4 – ELR en fonction du nombre de km annuel

Cette variable contient 3 modalités qui n’ont pas du tout la même représentation dans notrebase d’affaires nouvelles.Les "others", qui n’ont pas de km limités à moins de 10 000 km, représentent à peu près 75% denotre base. Sur ce segment, l’ELR dévie légerement en dépassant la moyenne de 7% à peu près,on observe donc une faible sous tarification pour ces contrats là.L’ELR dévie fortement sur les moins de 8 000 km, aux alentours de 20% inférieur à la moyenne,ces contrats ont donc une prime commerciale trop élevée par rapport à leur sinistralité. Il enest de même pour les moins de 10 000 km qui sont eux très peu représentés dans notre base(1%).

4.2.3 Age d’obtention du permis

Cette variable est utilisée dans les deux modèles : prime pure et prime commerciale.

Graphique 4.5 – ELR en fonction de l’âge d’obtention du permis

Les obtentions de permis à 18 ans représentent la moitié de nos affaires nouvelles en 2016.Plus l’âge d’obtention augmente, plus les effectifs deviennent faibles.Nous n’observons pas d’ELR s’éloignant considérablement de la moyenne, l’ELR reste assezstable autour de la moyenne, excepté pour les assurés ayant eu leur permis à 30 ans ou plus.Pour ces derniers, les ELR dépassent notre moyenne d’environ 15%, les primes commerciales

Page 80: Maud Vandekerchove Contrôle des modèles de prime pure et

4.2. Analyses statistiques univariées 63

sont donc sous tarifées. Cependant ces contrats sont très faiblement représentés dans notrebase.

4.2.4 La situation matrimoniale

Cette variable impacte notre modèle de prime commerciale mais n’est pas présente dans notremodèle de prime pure.

Graphique 4.6 – ELR en fonction de la situation matrimoniale

Les mariés sont fortement représentés : 63% de nos affaires nouvelles. Les veufs et séparés sont,à l’opposé, peu représentés (veufs : 3% et séparés : 1%).Sur cette variable, l’ELR varie entre 94% et 101%, il ne s’éloigne donc pas significativement dela moyenne.Notons tout de même que pour les concubins et mariés, l’ELR est très légèrement supérieur à lamoyenne (donc primes très légèrement sous tarifées) et pour les divorcés, séparés, célibataireset veufs, il est inférieur à la moyenne (donc primes légèrement sur tarifées).

4.2.5 La classe de prix du véhicule SRA

SRA signifie Sécurité et Réparations Automobiles. Cette variable est utilisée dans le modèle deprime commerciale et non dans celui de prime pure.Les prix du véhicule augmentent avec l’ordre alphabétique, c’est à dire que les prix du véhiculeaugmentent de façon croissante de la classe A à la classe Z5.Les véhicules de classe A sont donc les moins chers et les véhicules Z5 les plus chers.

Page 81: Maud Vandekerchove Contrôle des modèles de prime pure et

64 Chapitre 4. Contôle de la prime commerciale : Etude de l’ELR

Graphique 4.7 – ELR en fonction de la classe de prix du véhicule

Les voitures peu chères et très chères sont peu représentées.L’ELR dépasse légèrement la moyenne pour les classe de L à R, avec pour maximum de dé-viance +11% pour la classe N.Pour les classes A à H et supérieures à U, l’ELR est inférieur à la moyenne, et plus particulière-ment pour les classes A, D et supérieures ou égales à V.Ces trois segments représentent en outre de très faibles effectifs.

4.2.6 La zone de garage RC

Cette variable est utilisée dans les deux modèles (prime pure et prime commerciale)

Graphique 4.8 – ELR en fonction de la zone de garage RC

Les zones n’ont pas la même réprensation dans nos affaires nouvelles.Les zones de 113 à 117 sont les moins représentées.L’ELR reste assez stable des zones 102 à 114.Pour la zone 101, il est inférieur à la moyenne de 10% et manifeste donc une lègère sur tarifica-tion de la prime commerciale.Les zones 115 et 116 manifestent également une sur tarification de la prime commerciale ce-pendant ces zones ont des effectifs très faibles.La zone 117 est, à l’opposé, sous tarifée (ELR qui dépasse la moyenne de quasiment +20%),

Page 82: Maud Vandekerchove Contrôle des modèles de prime pure et

4.2. Analyses statistiques univariées 65

cette zone a également une représentation dans nos affaires nouvelles assez faible.

4.2.7 Conclusion

Nous avons donc remarqué que selon les variables l’ELR était plus au moins stable en fonctiondes différentes modalités.En effet, pour l’âge du véhicule, le nombre de km annuel, la classe de prix du véhicule et lazone de garage RC, l’ELR diffère énormément en fonction des modalités, alors que pour l’âged’obtention du permis et la situation matrimoniale il fluctue beaucoup moins.Nous avons repéréré plusieurs segments parmi les 6 variables étudiées pour lesquels nousavions de fortes déviances.

Segments pour lesquels l’ELR est très élevé et donc le tarif en affaire nouvelle est sous-tarifé :

• La zone 117

• Les véhicules âgés de 0 à 4 ans

• Les obtentions du permis après 30 ans

Segments pour lesquels l’ELR est très faible et donc le tarif en affaire nouvelle est sur-tarifé :

• Nombre de km annuel : moins de 8 000 et moins de 10 000

• La zone 116

• Les classe de A à D

• Les classes égales ou supérieures à V

• Les véhicules âgés de plus de 14 ans

Cependant, nous devons, comme effectué lors de l’étude des écarts entre S/C et ELR dans lechapitre 3, tenir compte des effectifs de chaque modalité.En effet, pour pouvoir justifier d’une réelle sous ou sur tarification d’un segment, l’effectif doitêtre suffisamment grand.Par exemple pour la zone de garage RC, les grosses fluctuations s’observent sur les zones trèspeu représentées. Il est donc un peu risqué de conclure à partir de la moyenne d’un échantilloncontenant si peu d’observations.De plus, nous devons tenir compte des interactions. En effet, certaines modalités ont peut êtrede fortes déviances car elles ont une forte interaction avec une/des modalité(s) d’autres va-riables.Ceci explique pourquoi une étude en univariée ne permet pas de conlure directement.En outre, pour vérifier qu’il s’agit réellement d’une sur/sous tarification et qu’il faut donc ré-ajuster les coefficients de la prime commerciale, nous devons nous assurer que ces déviancesne soient pas des stratégies commerciales.Nous allons, par la suite, poursuivre notre étude d’ELR avec cette fois ci 24 variables explica-tives mais, dans un premier temps, nous allons analyser leurs corrélations afin de ne pas avoirde redondance.

Page 83: Maud Vandekerchove Contrôle des modèles de prime pure et

66 Chapitre 4. Contôle de la prime commerciale : Etude de l’ELR

4.3 Tests des corrélations entre variables

Comme dans l’étude précédente, nous allons tester les corrélations entre variables, pour celanous utilisons les mêmes tests que pour le chapitre précédent, à savoir :

• Coefficient de pearson pour les variables quantitatives.

• V de cramer pour les variables qualitatives.

• Test de Kruskal-wallis pour les variables. qualitatives/quantitatives

Pour les variables quantitatives :

Nous avons 7 variables quantitatives, et aucune corrélation dans notre nouvelle base. Les va-riables "âge du véhicule" et "durée de détention" étaient corrélées dans notre ancienne basealors que cette fois-ci nous avons un coefficient de pearson à 0.31, donc on les conserve.

Graphique 4.9 – Corrplot variables quantitatives

Pour les variables qualitatives :

Nous avons les corrélations suivantes :

• Usage et CSP : V de cramer : 0.53

• Véhicule transmission et véhicule marque : V de cramer : 0.59

• Véhicule tranmission et véhicule carrosserie : V de cramer : 0.6

• Véhicule puissance et véhicule classe de prix : V de cramer : 0.75

• Véhicule puissance et vitesse max : V de cramer : 0.7

• Véhicule puissance et groupe SRA : V de cramer : 0.85

Page 84: Maud Vandekerchove Contrôle des modèles de prime pure et

4.4. Sélection de variables par utilisation du gradient boosting model 67

On supprime donc le véhicule transmission qui possède 2 corrélations fortes avec d’autres va-riables et la puissance du véhicule qui est, elle, corrélée avec 3 variables.On choisit de conserver l’Usage qui possède moins de corrélation avec les autres variables quele CSP.

Pour les variables qualitatives/quantitatives :Toutes les p-values sont inférieures à 5%, de ce fait nous conservons toutes les variables res-tantes.

4.4 Sélection de variables par utilisation du gradient boosting model

Nous choisissons cette méthode car, grâce au gradient boosting model (GBM), nous pourronsobtenir les influences relatives de chaque variable explicative sur notre ELR. Nous aurons doncun classement des variables les plus impactantes[12] [13].Nous ne souhaitons pas modéliser notre ELR, nous souhaitons seulement faire une sélectionde variables.Comme explicité dans le chapitre pré-requis, pour notre modèle GBM, nous devons choisir lescritères adéquats pour avoir les meilleurs résultats possibles.Pour se faire nous allons tester plusieurs paramètres.Pour choisir nos paramètres, nous allons procéder ainsi :Nous découpons notre base en deux :

• Une table train

• Une table test

Notre base train est une sélection aléatoire de 80% de notre base initiale et notre base test seradonc les 20% restants.Sur notre base train, nous allons appliquer la méthode des K-Folds.

Méthode des K-Folds :La technique des K-Folds, fait partie des techniques de validation de modèle.Elle consiste à partitionner la base de départ en K sous bases de tailles égales, puis de calibrerK fois sur (K-1) partitions (échantillon d’apprentissage) et valider sur la Kème.

Page 85: Maud Vandekerchove Contrôle des modèles de prime pure et

68 Chapitre 4. Contôle de la prime commerciale : Etude de l’ELR

Voici un schéma explicatif décrivant la méthode des 10 fold (k=10) :

Graphique 4.10 – Méthode 10-Folds

Nous choisissons, pour notre modèle, d’utiliser un 10-Fold afin de bien segmenter pour mieuxtester nos paramètres.Nous comparons ensuite la moyenne des coefficients de Gini sur les échantillons test et sur leséchantillons d’apprentissages du 10-Folds.

Coefficient de Gini :L’indice de Gini est un indicateur de performance de modèle. [14]Il est calculé à partir de la fonction représentée par la courbe de Lorenz.Développée en 1905 par Max O.Lorenz, la courbe de Lorenz, ou courbe de gain, permet de re-présenter graphiquement les inégalités de revenus au sein d’une population. La fonction quilui est associée calcule la part des revenus par rapport à la part des détenteurs.Dans notre étude, la courbe de gain représente en abscisse la part cumulée des contrats, et enordonnée, la part cumulée des ELR.La part cumulée des ELR n’a pas trop de sens en soi mais ce qui nous interesse ici est d’ordrehierarchique, nous souhaitons juste valider notre classement de variables.Ce coeffcient est calculé à partir de l’aire sous la courbe et correspond au ratio entre les aires Aet B de la figure ci-dessous.

Page 86: Maud Vandekerchove Contrôle des modèles de prime pure et

4.4. Sélection de variables par utilisation du gradient boosting model 69

Graphique 4.11 – Illustration pour le calcul du coefficent de Gini

La première bissectrice (courbe bleue) correspond au modèle aléatoire ou égalité parfaite lorsquel’on observe une mutualisation égale à la charge égale de la charge sur l’ensemble des assurés"x% des assurés détiennent x% du risque".La courbe rouge représente le modèle testé et le modèle parfait est représenté par la courbereliant les points (0,0),(0,1),(1,1).Si l’aire entre la courbe de gain et l’égalité parfaite vaut A, et que l’aire au dessus de la courbede gain vaut B, alors l’indice de Gini est défini ainsi :

Gi ni = A

A+B(4.1)

Etant donné que A + B = 0.5, l’indice de Gini vaut G=2A, ou encore G=1-2B.En supposant que la courbe de Lorenz représente la fonction y=L(x), alors la valeur de l’aire Bpeut s’exprimer à l’aide de l’intégrale :

B = 1−∫ 1

0L(x)dx (4.2)

ainsi, l’indice de Gini peut alors s’exprimer comme suit :

G = 2∫ 1

0L(x)dx−1 (4.3)

Dans le graphique précédent, le modèle parfait ou saturé est représenté par le carré supérieur.Cependant, il peut être défini par une seconde courbe plus proche du carré supérieur.Nous allons ainsi normaliser l’indice de Gini standard par l’indice de Gini de la distributionparfaite.

Page 87: Maud Vandekerchove Contrôle des modèles de prime pure et

70 Chapitre 4. Contôle de la prime commerciale : Etude de l’ELR

Graphique 4.12 – Illustration pour le calcul du coefficent de Gini en consiédrant un modèlesaturé

avec :

• A : Aire entre la courbe du modèle obtenu et la bissectrice

• B : Aire entre la courbe du modèle obtenu et et le modèle parfait

• C : Aire entre la courbe du modèle parfait et la partie supérieure du carré

Considérons désormais le nouveau graphique, le Gini standard pour le modèle saturé est :

GS = A+B

A+B +C(4.4)

Et pour le modèle testé :

GT = A

A+B +C(4.5)

Ainsi le Gini normalisé est :

G = GT

GS(4.6)

En remplacant les GS et GT par leur formule :

G = A

A+B(4.7)

Application : choix des paramètresAprès plusieurs tests sur les paramètres, nous sélectionnons ces derniers :

• n.trees (nombre d’arbre réalisés) : 300

• n.minobsinnode (nombre d’observations minimal par feuille) : 5% de notre base

• bag.fraction (bagging) : 0.7

Page 88: Maud Vandekerchove Contrôle des modèles de prime pure et

4.4. Sélection de variables par utilisation du gradient boosting model 71

• shrinkage : 0.05

• Fonction de perte : distribution gaussienne

Nous choisissons la distribution gaussienne car notre variable à expliquer (l’ELR) est une va-riable continue.Le nombre d’arbres optimal nous est donné grâce à la fonction gbm.perf sous R.

Le coefficent de Gini moyen sur nos échantillons train de la méthode 10-Folds est de : 0.1525952et il est de 0.1525831 en moyenne sur nos échantillons test.Comme nous pouvons le constater, ils sont très proches, notre modèle est fiable.

Nous allons tout de même procéder à une dernière vérification.En effet, avant d’effectuer le 10-Folds nous avons divisé notre base en 2 (80% vs 20%).Nous allons désormais comparer l’"ideal curve" avec la prédiction obtenue par le GBM surnotre base test (qui n’a pas été utilisée dans la méthode du 10-Folds).L’ideal curve représente la meilleure prédiction que l’on puisse avoir, le meilleur modèle pos-sible.Le Modified Gini correspond au rapport entre le gini de notre base et le gini idéal (celui del’ideal curve).Plus le gini modifié est proche de 1, plus notre modèle est proche du modèle "idéal".

Voici le graphique :

Graphique 4.13 – Ideal curve et Gini modifié sur l’échantillon test

Notre Gini modifié est assez élévé (0.679), en d’autres termes, cela signifie que 67.9% de nosdonnées sont parfaitement prédites et, comme nous pouvons le constater, notre courbe deprédiction est assez proche de l’"ideal curve".

Page 89: Maud Vandekerchove Contrôle des modèles de prime pure et

72 Chapitre 4. Contôle de la prime commerciale : Etude de l’ELR

Regardons sur l’échantillon d’apprentissage :

Graphique 4.14 – Ideal curve et Gini modifié sur l’échantillon d’apprentissage

Notre Gini modifié est de 0.683, très proche du Gini modifié de l’échantillon test.Nous validons donc notre modèle gradient boosting model.

Comme précisé dans le chapitre "pré-requis", le GBM va nous renseigner sur l’influence rela-tive des variables sur notre variable cible qui est ici l’ELR en affaire nouvelle. Il nous permetdonc de connaître les variables les plus impactantes sur l’ELR.

Graphique 4.15 – Influence relative des variables sur l’ELR

Nous avons sélectionné uniquement les variables ayant une influence non nulle.Maintenant que nous avons, par ordre d’importance, les variables les plus impactantes surl’ELR, c’est à dire les variables pour lesquelles l’ELR diverge le plus en fonction des modali-tés, nous allons zoomer pour connaître les modalités et les interactions de ces variables pourlesquelles nous avons les ELR les plus bas et les plus élevés.Pour cela nous allons utiliser l’outil segment finder présenté dans le chapitre pré-requis.

Page 90: Maud Vandekerchove Contrôle des modèles de prime pure et

4.5. Etude des ELR avec l’outil segment finder 73

4.5 Etude des ELR avec l’outil segment finder

L’outil segment finder, développé en interne d’AXA, se décompose en deux étapes. Dans unpremier temps l’outil crée un arbre de décision CART afin de pré-sélectionner les variables lesplus impactantes sur notre ELR et, dans un second temps, il applique l’algorithme PRIM surcette pré-selection.Nous étudierons directement les segments ciblés après application de l’algorithme PRIM. Onrappelle qu’on a calibré notre base de telle sorte à ce que :ELR moyen global=100%Comme expliqué dans le chapitre pré-requis, l’algoritme PRIM nous permet de repérer des va-leurs extrêmes, de ce fait nous devons, d’une part, l’utiliser pour repérer les segments d’ELRélévés, et d’autre part, modifier la variable explicative de la sorte : new ELR = 200 - ELR pourrepérer les segments d’ELR faibles.

4.5.1 Segments d’ELR élevé avec segment finder

Un ELR trop élevé signifie que la prime pure est très élevée par rapport à la prime commerciale,c’est à dire que le contrat n’est pas rentable.Partant du principe que la prime pure est parfaitement ajustée, l’explication vient forcémentde la prime commerciale.

• Soit notre prime commerciale doit être revue sur certains segments, car trop faible.

• Soit il s’agit d’une stratégie commerciale pour attirer le client.

Ciblage des segments

Par rapport à l’algorithme PRIM de base décrit dans le chapitre "pré-requis", notre outil pos-sède deux paramètres supplémentaires en plus de l’exposition qui sont le nombre maximumde variables dans une interaction et le minimum de déviance qu’on souhaite observer dans nossegments.Nous paramétrons notre outil de la sorte :

• Déviance : +20% par rapport à la moyenne, comme notre moyenne est calibrée à 100%,de ce fait pour une déviance de 20%, notre ELR sera calibré à 120%.

• Minimum d’exposition dans les segments : 5%, afin de ne pas tirer des conclusions surdes segments d’effectifs trop faibles.

• On limite le nombre de variable dans une interaction à 3, afin de garder la lisibilité dumodèle.

Nous obtenons 8 segments que voici :

Page 91: Maud Vandekerchove Contrôle des modèles de prime pure et

74 Chapitre 4. Contôle de la prime commerciale : Etude de l’ELR

Graphique 4.16 – Segments ayant des ELR élevés par rapport à la moyenne

Nous retrouvons en abscisse l’exposition (toujours supérieure à 5%) et en ordonnée la déviancepar rapport à la moyenne (avec pour minimum 120%).Attention, une déviance à 120% signifie que notre segment a un ELR moyen qui est 20% plusélevé que la moyenne.

Voici le détail des différents segments :

Segment Déviance Exposition

S1 137% 7.8%S2 129 % 8.8%S3 128 % 13.9 %S4 124.5 % 6.8%S5 122% 9.8%S6 125 % 14.8%S7 122 % 13.1%S8 120 % 11.4%

Tableau 4.1 – Segments d’ELR moyen élevé

avec :

• S1 :Ancienneté de bonus 50 = 0Âge du véhicule ∈ [0,6 ans]

• S2 :Durée de détention du véhicule = 0Âge du véhicule ∈ [1,4 ans]

Page 92: Maud Vandekerchove Contrôle des modèles de prime pure et

4.5. Etude des ELR avec l’outil segment finder 75

• S3 :Véhicules spéciaux = Véhicules aménagésAncienneté de bonus 50 =0

• S4 :Age du véhicule = 0

• S5 :Age du véhicule ∈ [2,5 ans]Région ∈ {Sud-Est, Sud-Ouest}

• S6 :Véhicules spéciaux = Véhicules aménagésRégion ∈ {Sud-Est, Sud-Ouest}Durée de détention du véhicule = 0

• S7 :Age du véhicule ∈ [1,5 ans]Age obtention du permis ∈ [19,66 ans]

• S8 :Nombre de km limité =OtherAge obtention du permis ∈ [21,36ans]Durée de détention du véhicule ∈ [0,1an]

Nous remarquons que nous retrouvons comme variables impactantes les mêmes que celles is-sues du gradient boosting model (GBM).Afin de bien comprendre que les interactions jouent un rôle important dans nos segments devaleurs extrêmes voici le détail par variable univariée utilisée dans nos segments :

Graphique 4.17 – Modalités utilisées dans nos interactions de segments

Comme nous pouvons le constater, toutes les variables observées séparament ont des déviancessupérieures à 100%, c’est à dire que leur ELR est toujours supérieur à la moyenne.Cependant ces déviances augmentent considérablement avec les interactions. Par exemple, sion observe les modalités : "âge du véhicule ∈ [0,6ans]" et "ancienneté de bonus 50 = 0", nousconstatons que, séparement, elles ont des déviances non négligeables.

Page 93: Maud Vandekerchove Contrôle des modèles de prime pure et

76 Chapitre 4. Contôle de la prime commerciale : Etude de l’ELR

Cependant lorsqu’elles interagissent, la déviance passe de 117/119% à 137%. L’interaction jouedonc un rôle majeur dans nos segments.Nous nous concentrons donc, pour la suite, uniquement sur les huit segments ciblés par l’outil.

Analyse des segments

Comme expliqué précedemment, nous ne pouvons pas directement conclure que la primecommerciale doit être réhaussée puisque nous devons d’abord vérifier qu’il ne s’agit pas d’unestratégie commerciale.Pour cela nous allons procéder à une étude de la prime pure.En effet, comme nous l’avons indiqué en initiant ce chapitre, nous sommes partis de l’hypo-thèse forte que notre sinistralité était parfaitement prédite par la prime pure. De ce fait, si leniveau des ELR est expliqué par une stratégie commerciale liée à la sinistralité, nous devrionsobserver, sur ces segments, des primes pures plus faibles que la moyenne.En effet, si la prime pure est faible, la sinistralité prédite est faible et donc l’assuré est un bonrisque.Ainsi, la stratégie consisterait à l’attirer en lui confectionnant un tarif affaire nouvelle avanta-geux.

Voici les déviances des primes pures des segments 1 à 8 par rapport à la moyenne :

Graphique 4.18 – Comparaison des primes pures par rapport à la moyenne

Pour tous les segments, la prime pure est largement supérieure à la prime pure moyenne.Cela signifie que leur sinistralité est élevée, ce ne sont donc pas des bons risques.Il ne s’agit donc pas d’une stratégie commerciale (dans le sens de souhaiter attirer des bonsrisques).Sur ces segments la prime commerciale est donc sous estimée.Conserver des tarifs en affaire nouvelle bas (par rapport à leur sinistralité) sur ces segmentsn’est pas rentable pour la compagnie puisqu’ils nous coûtent plus que ce qu’ils nous rap-portent.La solution proposée, pour augmenter la rentabilité de ces contrats, est donc de réhausser lescoefficients du modèle de prime commerciale de ces huit segments. A vérifier cependant sicela n’est pas dû à une stratégie d’odre plus global avec du multi-équipements ou une étude dumarché.

Page 94: Maud Vandekerchove Contrôle des modèles de prime pure et

4.5. Etude des ELR avec l’outil segment finder 77

4.5.2 Segments d’ELR faible avec segment finder

Nous allons désormais nous interesser aux ELR faibles. Pour cela il convient d’étudier les mini-mum et non les maximum.Cependant, notre outil est prévu pour repérer les maximum, nous allons donc créer une nou-velle variable d’ELR telle que :New ELR = 200-ELRNous rappelons que nous avons calibré notre ELR moyen à 100%. De cette façon, un ELR à70% et donc à 30% inférieur à la moyenne, vaudra désormais 130% et sera donc sélectionné parl’algorithme.

Ciblage des segments

Nous sélectionnons les paramètres :

• Déviance : +20% par rapport à la moyenne (ce qui correspondra en réalité à sélectionnerles segments pour lesquels l’ELR moyen est inférieur à 20% de la moyenne globale)

• Minimum d’exposition dans les segments : 5%

• Nombre maximum d’interactions : 3

Nous obtenons les huit segments suivants :

Graphique 4.19 – Segments ayant des ELR faibles par rapport à la moyenne

Attention, ici une déviance de x% signifie que notre ELR calibré est égal à 200-x%.Exemple : Si nous observons sur le graphique une déviance de 120%, nous avons en réalité unELR inférieur à la moyenne de 20%, comme notre ELR moyen est calibré à 100%, notre ELR dusegment est calibré à 80% dans ce cas là.En d’autres termes, l’ELR moyen du segment est égal à 80% de l’ELR moyen.

Page 95: Maud Vandekerchove Contrôle des modèles de prime pure et

78 Chapitre 4. Contôle de la prime commerciale : Etude de l’ELR

Voici le détail des différents segments :

Segment Déviance Exposition

S1 140% 7.6%S2 136 % 5.9%S3 126 % 6.7%S4 124 % 6.6%S5 128 % 5.2%S6 123 % 10.9%S7 133 % 10%S8 125 % 13.1%

Tableau 4.2 – Segments d’ELR moyen faible

avec :

• S1 :Age du véhicule ∈ [18,57]

• S2 :Nombre de km limité ∈ {moins de 8 000, moins de 10 000km}Durée de détention du véhicule ∈ [5,17]

• S3 :Age du véhicule ∈ [16,17]

• S4 :Ancienneté de Bonus 50 ∈ [16,26]

• S5 :Ancienneté de bonus 50 = 8 ans ou plusAge du véhicule ∈ [12,15]

• S6 :Durée de détention ∈ [6,12]

• S7 :Véhicules spéciaux ∈ {Autres 4R sans boîte auto, Autres 4R avec boîtes auto}Durée de détention = 1 an ou plusAge obtention du permis ∈ [18,21]

• S8 :Nombre km limité = Less 8000 kmAge obtention du permis ∈ [18,19]

De même que pour les segments ayant des ELR élevés, nous retrouvons les mêmes variablesqu’issues du GBM.

Page 96: Maud Vandekerchove Contrôle des modèles de prime pure et

4.5. Etude des ELR avec l’outil segment finder 79

Nous zoomons également sur les variables présentes dans nos interactions :

Graphique 4.20 – Modalités utilisées dans nos interactions de segments

Comme nous pouvons le constater les interactions jouent un rôle important sur la déviance.En effet, les déviances sont plus importantes dans nos segments que dans les modalités seules.Nous rappelons qu’une déviance à 120% signifie ici que notre ELR moyen sur le segment repré-sente (200-120) 80% de l’ELR moyen global.Parmi les modalités du tableau, certaines correspondent à nos critères de recherche, à savoir,une déviance d’au moins 120% sur un segment d’exposition supérieure à 5%. Ces segmentsn’ont pas directement étaient sélectionnés par l’algorithme PRIM, pour la simple et bonne rai-son que comme nous l’avons expliqué dans le chapitre "pré-requis", l’agorithme continue tantque l’exposition peut diminuer (tout en respectant le seuil de 5%) et que la moyenne du seg-ment peut augmenter (déviance).Lorsque nous regardons par exemple, le segment 2, dans l’avant dernière étape l’algorithmeavait pour boîte B :B={Nombre de km limité"=moins de 8 000, moins de 10 000}.Cette boîte a pour ELR moyen : 120% et représente 24% de l’effectif total.L’agorithme a alors examiné si nous pouvions trouver une boîte b* telle que B-b* ait un ELRmoyen plus élevé que B et telle que l’exposition de B-b* soit au minimum égale à 5%.L’algorithme a trouvé b* telle que :b* = détention de véhicule ∉ [5,17].Ainsi, nous obtenons, comme dernière boîte, le segment 2 qui a un ELR moyen de 136% et uneexposition supérieure à 5% (5.9%).Cela explique pourquoi il est particulièrement important de regarder, en plus des segments, lesrésultats obtenus par modalités présentes dans nos segments.

Ainsi nous sélectionons, en plus des segments précédents, les suivants :

• S9 : Nombre de km limité ∈ {moins de 10 000 , moins de 8 000}

• S10 : Durée de détention du véhicule ∈ [5,17ans]

• S11 : Véhicules spéciaux ∈ {autres 4r sans boîte auto, autres 4r avec boîtes auto}

Analyse de notre segment

Un ELR bas, sous hypothèse toujours que la prime pure est bien prédite, signifie que la primeest trop élevée par rapport à la sinistralité prédite.Ce qui fait que le contrat est très rentable pour l’assurance. Le risque est d’avoir peu de sous-criptions car le client va privilégier les tarifs concurrents qui sont peut être mieux segmentés.Avant de décider qu’il faut réduire les coefficients de la prime commerciale sur ces segments,

Page 97: Maud Vandekerchove Contrôle des modèles de prime pure et

80 Chapitre 4. Contôle de la prime commerciale : Etude de l’ELR

nous devons vérifier qu’il ne s’agisse pas d’une stratégie commerciale afin d’éviter les mauvaisrisques.En effet, en supposant que ces segments soient des mauvais risques en terme de sinistraliténous aurons 2 cas de figures :

• Soit l’assuré ne souscrit pas et nous avons évité un mauvais risque.

• Soit il souscrit mais sa prime commerciale étant très élevée, malgré sa sinistralité consé-quente, il sera rentable.

Pour vérifier cette hypothèse selon laquelle ces segments pourraient être des mauvais risquesen terme de sinistralité, il nous suffit d’examiner leurs primes pures.

Graphique 4.21 – Comparaison des primes pures par rapport à la moyenne

Comme nous pouvons le constater, toutes les moyennes de prime pures sur nos segments sontinférieures à la moyenne.Nous rejetons donc l’hypothèse de stratégie commerciale qui viserait à fuir les mauvais risques.Ces segments sont des bons risques pour l’assureur en terme de sinistralité.Bien que ces contrats soient plus que rentables pour l’assureur, le risque de conserver un telELR est que les tarifs soient trop élévés par rapport au marché. Effectivement, si nous conser-vons un tarif élévé, nous perdrons en attractivité et les assurés vont privilégier la concurrenceet, comme ce sont des bons risques, il n’est pas dans notre intérêt de les perdre.A moins que les tarifs concurentiels s’avèrent encore plus chers, il faudrait réhausser l’ELR surces segments en diminuant les coefficients de primes commerciales.La stratégie idéale sur ces segments serait donc d’être légèrement en dessous du marché touten préservant une marge raisonnable.

4.5.3 Conclusion

En synthèse, grâce à cette étude de rentabilité par le biais de l’ELR, nous mettons une alerte sur19 segments :

Tarifs trop bas par rapport à la sinistralité :

• S1 : "Ancienneté de bonus 50" = 0 * "Âge du véhicule" ∈ [0,6 ans]

Page 98: Maud Vandekerchove Contrôle des modèles de prime pure et

4.5. Etude des ELR avec l’outil segment finder 81

• S2 : "Durée de détention du véhicule" = 0 * Âge du véhicule ∈ [1,4 ans]

• S3 : "Véhicules spéciaux" = Véhicules aménagés * "Ancienneté de bonus 50" =0

• S4 : "Age du véhicule" = 0

• S5 : "Age du véhicule" ∈ [2,5 ans] * "Région" ∈ {Sud-Est, Sud-Ouest}

• S6 : "Véhicules spéciaux" = Véhicules aménagés * "Région" ∈ {Sud-Est, Sud-Ouest} * "Du-rée de détention du véhicule" = 0

• S7 : "Age du véhicule" ∈ [1,5 ans] * "Age obtention du permis" ∈ [19,66 ans]

• S8 : "Nombre de km limité" =Other* "Age obtention du permis" ∈ [21,36ans] * Durée dedétention du véhicule ∈ [0,1an]

Tarifs trop élevés par rapport à la sinistralité :

• S1 : "Age du véhicule" ∈ 18 ans ou plus

• S2 : "Nombre de km limité"∈ {moins de 8 000 km, moins de 10 000 km}*"durée de déten-tion du véhicule" ∈ [5,17]

• S3 : Age du véhicule ∈ [16,17]

• S4 :Ancienneté de Bonus 50 ∈ [16,26]

• S5 :"Ancienneté de bonus 50" = 8 ans ou plus * "Age du véhicule" ∈ [12,15]

• S6 : Durée de détention ∈ [6,12ans]

• S7 : "Véhicules spéciaux" ∈ {Autres 4R sans boîte auto, Autres 4R avec boîte auto}* "duréede détention" : 1 an ou plus * "Age obtention du permis" ∈ [18,21ans]

• S8 : "Nombre km limité" = Less 8000 km * "Age obtention du permis" ∈ [18,19ans]

• S9 : Nombre de km limité ∈ {moins de 10 000 , moins de 8 000}

• S10 : Durée de détention du véhicule ∈ [5,17ans]

• S11 : Véhicules spéciaux ∈ {autres 4r sans boîte auto, autres 4r avec boîte auto}

Hormis si ces segments d’ELR en marge sont expliqués par une étude des prix du marché, nousdevons modifier les coefficients du modèle de prime commerciale, revoir à la hausse les coef-ficients des segments aux tarifs trop bas et à la baisse les coefficients des segments aux tarifstrop élevés. Attention, lorsque les modalités sont présentes dans un segment isolé et dans uneinteraction, il faut rectifier les coefficients de l’interaction en premier et ensuite vérifier l’im-pact sur l’ELR du segment isolé. Si celui-ci est au bon niveau il n’est pas nécessaire de réajusterles coefficients en univarié.En effet, la déviance du segment isolé peut être seulement dûe à son interaction avec une autrevariable, dans le cas inverse il faudra bien entendu réajuster le coefficient de la modalité enunivarié après celui de l’interaction.

Bien entendu, nous avons sélectionné une déviance de 120%, un minimum d’exposition de 5%et 3 variables maximum dans une interaction, car il nous semblait judicieux d’utiliser ces pa-ramètres. Mais si les équipes en charge du tarif commercial souhaitent observer les segments

Page 99: Maud Vandekerchove Contrôle des modèles de prime pure et

82 Chapitre 4. Contôle de la prime commerciale : Etude de l’ELR

selon des critères différents, nous pouvons effectuer une étude simialire avec les mêmes mé-thodes.Cependant, pour éviter le sur-apprentissage, il est préférable de sélectionner un des effectifsnon négligeables et limiter le nombre d’interactions.Nous sélectionnons également cette déviance pour corriger les écarts trop importants et ac-cepter ce niveau de sophistication que nous jugeons satisfaisants.Maintenant que nous avons ciblé les segments d’ELR déviants, nous souhaitons cibler les seg-ments à forte sinistralité et ensuite ceux à faible sinistralité. En d’autres termes, nous souhai-tons cibler les bons et mauvais risques en terme de sinistralité.

4.6 Etude des primes pures et stratégie commerciale

Nous restons encore sous hypothèse que notre prime pure est bien prédite.Grâce à cela, nous pouvons examiner les bons et mauvais risques en terme de sinistralité par lebiais d’une étude de la prime pure.Cet exercice peut être réalisé uniquement si nous avons confiance en notre prime pure, c’estpourquoi la partie 1 de ce mémoire est particulièrement importante. En effet, en plus de sonutilité pour analyser la rentabilité d’un contrat par le biais de l’ELR, nous pouvons égalementanalyser la prime pure afin de connaître les bons et mauvais risques des contrats qui viennentde souscrire puisque comme nous l’avons précisé au préalable, nous ne connaissons pas la si-nistralité réelle d’un assuré lors de la souscription.Comment procéder?Nous pourrions, dans un premier temps, étudier les segments pour lesquels la prime pure dif-fère, c’est-à-dire qu’elle est soit trop faible soit ou élevée.

4.6.1 Etude des mauvais risques en terme de sinistralité

Les mauvais risques en terme de sinsitralité correspondent aux contrats qui ont une prime pureélevée. Nous allons également utiliser segment finder pour cibler ces segments.Tout d’abord nous calibrons nos données afin que notre prime pure moyenne soit égale à 100.Nous sélectionnons les paramètres :

• Déviance : +20% par rapport à la moyenne

• Minimum d’exposition dans les segments : 5%.

• Maximum intéractions : 3

Page 100: Maud Vandekerchove Contrôle des modèles de prime pure et

4.6. Etude des primes pures et stratégie commerciale 83

Voici les 12 segments répondant à nos critères :

Graphique 4.22 – Segments des mauvais risques en terme de sinistralité

Et en détail :

Segment Déviance Exposition

M1 155% 5.2%M2 149 % 11 %M3 143% 6.1 %M4 138% 10.8%M5 140 % 6.8%M6 126% 10%M7 131 % 11%M8 138 % 16%M9 124% 13%

M10 136 % 8.7%M11 133% 17.4%M12 127% 39%

Tableau 4.3 – Mauvais risques

avec :

• M1 :Zone de garage RC ∈ {112,114,115,117}Nombre km limité = others

• M2 :Zone de garage RC ∈ {111,112,113,114,115,117}Nombre km limité ∈ {others,moins de 10 000}

• M3 :Age du véhicule ∈ [0,6ans]Durée de détention du véhicule =0Ancienneté de bonus 50 ∈ [0,1an]

Page 101: Maud Vandekerchove Contrôle des modèles de prime pure et

84 Chapitre 4. Contôle de la prime commerciale : Etude de l’ELR

• M4 :Age du véhicule ∈ [1,7ans]Durée de détention du véhicule ∈ [0,1an]Ancienneté de bonus 50 ∈ [0,2ans]

• M5 :Durée de détention du véhicule ∈ [0,1an]Nombre km limité ∈ {others,moins de 10 000}Zone de garage RC ∈ {110,109}

• M6 :Zone de garage RC ∈ {110,108}Nombre km limité =others

• M7 :Nombre km limité =othersDurée de détention du véhicule ∈ [0,2ans]Age obtention du permis ∈ [21,35ans]

• M8 :Nombre km limité = othersDurée de détention du véhicule ∈ [0,3ans]Région = Sud-Est

• M9 :Nombre km limité =othersDurée de détention du véhicule = 0Ancienneté de bonus 50 ∈ [2,7ans]

• M10 :Age du véhicule ∈ [0,13ans]Regle de tarif ∈ {Standard, Sans antécédents}

• M11 :Zone de garage RC ∈ {107,111,112,113,114,117}Durée de détention du véhicule ∈ [0,2ans]

• M12 :Nombre km limité =othersDurée de détention du véhicule ∈ [0,1an]Ancienneté de bonus 50 ∈ [0,8ans]

Pour ces segments, la prime pure est très élevée (au moins 20% de plus que la prime puremoyenne au global), ce qui signifie que ces contrats ont une sinstralité trés coûteuse pour lacompagnie.Nous avons des interactions qui amplifient notre déviance à la moyenne, cependant, en zoo-mant sur les modalités des variables hors interactions, nous nous apercevons que, pour cha-cune, la prime pure moyenne est plus élevée que la moyenne globale.Nous avons par exemple :

• La région Sud-Est (déviance : 115%)

• Le nombre de km limité = other (déviance : 110%)

Page 102: Maud Vandekerchove Contrôle des modèles de prime pure et

4.6. Etude des primes pures et stratégie commerciale 85

• Les zones 112,114,115 et 117 (déviance : 137%)

• Les régles de tarif ∈ {standard, sans antécédent} (déviance : 125%)

• Durée de détention = 0 (déviance : 112%)

Ce sont des modalités plus risquées que la moyenne en terme de sinistralité.Une première stratégie commerciale envers ces contrats seraient d’augmenter leur prime com-merciale de telle sorte que leur ELR soit faible, ainsi si l’assuré souscrit, il devient rentablepuisque sa prime sera tout de même plus élevée que ses sinistres et s’il décide de ne pas sous-crire, nous évitons un mauvais risque.Avant d’approfondir sur cette stratégie et présenter ses limites, nous allons cibler les "bonsrisques".

4.6.2 Etude des bons risques en terme de sinistralité

A l’inverse, les bons risques en terme sinistralité sont les contrats pour lesquels la prime pureest faible par rapport à la moyenne.Nous allons également utiliser segment finder pour cibler ces segments. Comme lorsque nousavons travaillé avec les ELR pour pouvoir rechercher nos minimun et non nos maximun grâceà l’algorithme PRIM, nous créons la variable :new prime pure = 200 - prime pureAinsi, par exemple, pour une prime pure calibrée à 80, qui signifiera en fait une prime pure quiest égale à 80% de la prime pure moyenne, nous aurons comme new prime : 120% et ce seg-ment sera donc sélectionné par l’algorithme.Nous utilisons les mêmes paramètres que dans la partie précédente.

Nous obtenons les segments suivants :

Graphique 4.23 – Segments des bons risques en terme de sinistralité

Page 103: Maud Vandekerchove Contrôle des modèles de prime pure et

86 Chapitre 4. Contôle de la prime commerciale : Etude de l’ELR

Et en détail :

Segment Déviance Exposition

B1 151% 5.6%B2 153% 5.2 %B3 150% 7.5 %B4 149% 5.3%B5 143% 13.9 %B6 143% 7.1%B7 145 % 9.2%B8 136% 9%B9 138% 8.2%

B10 141 % 14.3%B11 134% 9 %B12 132% 9.3%B13 131% 14.5%B14 128% 15%B15 136% 15.1%

Tableau 4.4 – Bons risques

avec :

• B1 :Age du véhicule ∈ [16,57]Durée de détention du véhicule ∈ [3,39]

• B2 :Age du véhicule ∈ [12,52]Zone de garage RC ∈ {101,102,103,104,116}Nombre de km limité ∈ {moins de 8 000, moins de 10 000}

• B3 :Age du véhicule ∈ [2,52]Zone de garage RC ∈ {101,102,103,104,105,106,107,108}Nombre de km limité ∈ {moins de 8 000, moins de 10 000}

• B4 :Age du véhicule ∈ [13,46]Zone de garage RC ∈ {101,102,103,104,105,106}Ancienneté de Bonus 50 = 8 ans ou plus

• B5 :Nombre de km limité ∈ {moins de 8 000, moins de 10 000}Zone de garage RC ∈ {101,102,103,104,105,106}

• B6 :Durée de détention du véhicule ∈ [5,33]Zone de garage RC ∈ {101,102,103,104}

• B7 :Age du véhicule ∈ [17,56]Zone de garage RC ∈ {101,102,103,104,105,106,107,108,109}

Page 104: Maud Vandekerchove Contrôle des modèles de prime pure et

4.6. Etude des primes pures et stratégie commerciale 87

• B8 :Age du véhicule ∈ [9,16]Zone de garage RC ∈ {101,102,103,104,105,106}Durée de détention du véhicule ∈ [2,15]

• B9 :Durée de détention du véhicule ∈ [2,15]Ancienneté de Bonus 50 ∈ [8,40]Zone de garage RC ∈ {101,102,103,104,105,106,107,108,109}

• B10 :Age du véhicule ∈ [12,56]Nombre de km limité ∈ {moins de 8 000, moins de 10 000}

• B11 :Zone de garage RC ∈ {101,102,103,104}Ancienneté de Bonus 50 = 9 ans ou plus

• B12 :Zone de garage RC ∈ {101,102,103,104}Règle de tarif = ExcellenceAge du véhicule ∈ [11,16]

• B13 :Zone de garage RC ∈ {101,102,103,104,105,106,107,108,109}Durée de détention du véhicule ∈ [2,15]Région ∈ {Ile de France, Nord-Est, Ouest}

• B14 :Energie du véhicule = EssenceZone de garage RC ∈ {101,102,103,104,105,106,107,108}Ancienneté de Bonus 50 = 1 an ou plus

• B15 :Ancienneté de Bonus 50 ∈ [5,53ans]Nombre de km limité ∈ {moins de 8 000, moins de 10 000}

Sur ces segments, la prime pure est faible ce qui signifie que nous avons à faire à de bons risquesen terme de sisnistralité.De même que pour les mauvais risques, les segments sélectionnés avec segment finder ont desinteractions, cependant en univarié, ces variables ont tout de même un impact sur la déviance,dans le sens où leur prime pure moyenne est plus faible que la moyenne.Comme par exemple :

• Les anciennetés de véhicules de plus de 16 ans (moyenne prime pure = 63% moyenneglobale).

• Nombre de km limité∈ {moins de 8 000km, moins de 10 000km} (moyenne = 70% moyenneglobale).

• Les zones de garage RC : 101 à 104 (moyenne=80% de la moyenne globale).

Ce sont de ce fait des contrats que nous souhaitons attirer, une stratégie qu’on pourrait adopterserait donc de confectionner des tarifs en affaire nouvelle attractifs sur ces segments afin defavoriser leur souscription tout en conservant un tarif qui reste rentable pour la compagnie.

Page 105: Maud Vandekerchove Contrôle des modèles de prime pure et

88 Chapitre 4. Contôle de la prime commerciale : Etude de l’ELR

4.6.3 Préconisation sur le tarif affaire nouvelle et conclusions sur L’ELR

Comme nous pouvons le constater, des variables comme : la région de souscription, la zone degarage RC, l’âge du véhicule, la durée de détention du véhicule, le nombre de km limité annuelou encore l’ancienneté de bonus 50 sont particulièrement impactantes sur notre prime pure.En effet, en fonction des modalités des variables nous avons des moyennes qui s’écartent for-tement de la moyenne dans les deux sens.En faisant interagir certaines modalités entre elles, le phénomène s’amplifie.Notre but est d’attirer des contrats rentables tout en améliorant notre chiffre d’affaires pour sefaire nous pouvons mettre au point des stratégies.Comme précisé auparavant, une méthode serait d’augmenter les primes en affaire nouvelle desmauvais risques afin d’avoir un ELR faible et de diminuer celles des bons risques afin d’avoir unELR très élevé, ainsi nous attirerions les bons risques et serions moins attractifs sur les mauvaisrisques.Le risque de cette technique est que si nos tarifs en affaire nouvelle pour les bons risques de-viennent avantageux au point de ne plus être rentables, il faut absolument les équilibrer avecles mauvais risques qui eux auront un ELR très bas. Nous devons donc être sûr que notre mixen portefeuille assure l’équilibre entre mauvais et bons risques.Cependant, si nous augmentons trop les tarifs des mauvais risques, ils ne souscriront plus et seretourneront vers la concurrence, de ce fait notre chiffre d’affaires va chuter et nous n’auronsplus aucun équilibre pour assurer la rentabilité de nos affaires nouvelles.Prenons un exemple pour illustrer ce cas, soit A un bon risque et B un mauvais risque. Admet-tons que nous souhaitions appliquer un objectif d’ELR de 80% sur les bons risques et 50% surles mauvais risques. Nous avons :

Risque Tarif marché Prime pure Objectif ELR Tarif avec objectif

A 100 60 80 75B 510 300 50 600

Tableau 4.5 – Tarif en fonction de l’ELR

Si nous nous fions seulement à l’objectif d’ELR pour le risque A, nous aurions un tarif de 75euros vs 100 euros sur le marché. Nous serions donc attractif car bien en dessous du marché.Toutefois, si nous choisissons un tarif à 95 euros (à peine en dessous du marché), nous reste-rions attractifs tout en améliorant notre rentabilité et notre chiffre d’affaires.Considérons maintenant le risque B, avec un objectif d’ELR à 50% notre tarif serait à 600 euros.Ce tarif nous permet d’être très rentable mais il est au dessus du marché, de ce fait nous auronspeu de souscriptions. Si nous choisissons d’appliquer le tarif du marché nous aurons un ELRde 59% donc rentable.

En récapitulant nous avons :

Risque Tarif marché Prime pure Tarif choisi ELR réel ELR avec objectif

A 100 60 95 63 80B 510 300 510 59 50

Tableau 4.6 – Tarif en fonction du marché

Dans cet exemple bien précis, l’ELR final du bon risque est très proche de celui du mauvaisrisque.

Page 106: Maud Vandekerchove Contrôle des modèles de prime pure et

4.6. Etude des primes pures et stratégie commerciale 89

Pour le risque A, choisir le tarif en fonction d’un objectif d’ELR n’aurait pas été le plus pertinent.En effet, nous baser sur le marché a permis de gagner en rentabilité tout en restant attractif.Pour le risque B, si nous nous étions basé sur l’objectif d’ELR nous n’aurions pas été attractifs.Ainsi, la prise en compte de la concurrence nous a permis d’avoir des tarifs attractifs et ren-tables. Conserver un ELR faible sur les mauvais risques et élevés sur les bons n’auraient pas étéfructueux.Une autre alternative, pour conserver cette stratégie de différencier les types de risques parniveau d’ELR, serait de majorer considérablement les bons risques afin qu’ils deviennent ren-tables dans le temps. Comme nous l’avons vu dans la partie "ancienneté de contrat", les contratssont beaucoup moins rentables en affaire nouvelle et se rentabilisent dans le temps. Cependantde fortes majorations entraîneraient des résiliations.Pour mettre au point une statégie commerciale tenant compte des bons et mauvais risques, ilest donc très important d’avoir des indicateurs de marché sur la concurrence. En outre, l’ELR semontre tout de même indispensable pour la mise en place du tarif car il nous indique un seuilde rentabilité. En effet, si nous tenons uniquement compte de la concurrence, nous pourrionschoisir des prix attratifs mais pas rentables qui provoqueraient un déficit pour la compagnie. Ilest donc très important d’alerter sur les segments pas rentables.

De façon génerale pour la mise en place du tarif il faut :

• Tenir compte de la concurrence pour conserver l’attractivité

• Surveiller la rentabilité avec l’ELR

Les tarfis concurrents n’étant bien entendu pas connus, nous devons utiliser un indicateur demarché sur la concurrence : le taux de transformation.

Il est défini ainsi :

Taux de transformation = A+BB+C

avec :

• A : Nombre de devis transformés en affaire nouvelle dans les deux mois qui suivent lademande de devis

• B : Nombre d’affaires nouvelles total sans devis

• C : Nombre total de devis

Par le biais d’internet, un grand nombre d’assurés comparent les devis proposés par différentescompagnies.Si le taux de transformation est élevé, cela signifie que le tarif proposé par la compagnie a réussià battre celui de la concurrence.Nous devons donc suivre cet indicateur régulièrement et par segment pour savoir si nos tarifsproposés sont pertinents et suffisamment attractifs.Cet indicateur est donc très important pour le calage du tarif.En synthèse, l’ELR est un indicateur très important et indispensable pour la revue du tarif enaffaire nouvelle, il nous permet d’étudier la rentabilité des contrats et de cibler des segmentsde sur-tarification et de sous-tarification. Cependant, il doit être combiné avec le taux de trans-formation pour tenir compte du marché et surveiller l’attractivité du tarif.

Page 107: Maud Vandekerchove Contrôle des modèles de prime pure et

90 Chapitre 4. Contôle de la prime commerciale : Etude de l’ELR

Voici comment les utiliser :

• Cas 1 : ELR bas et taux de transformation élevés :Signification : Segments sur tarifés et attractifs.Mesure : Notre tarif est élevé mais compétitif, ainsi nous pouvons le conserver tel quel etgagner en rentabilité.

• Cas 2 : ELR bas et taux de transformation pas assez élevés :Signification : Segments sur tarifés et pas suffisamment attractifs.Mesure : Nous pouvons diminuer notre tarif en diminuant les coefficients du modèle deprime commerciale sur ces segments et, en ajoutant les interactions manquantes, ainsinous aurons des prix plus attractifs.

• Cas 3 : ELR élevés et taux de transformation élevés :Signification : Segments sous tarifés et attractifs.Mesure : Nos prix sont attractifs mais les contrats ne sont pas rentables ainsi nous pou-vons essayer d’augmenter la rentabilité des segments en se rapprochant de l’ELR moyen.Pour cela nous devons réhausser les coefficients du modèle de prime commerciale etajouter les interactions, ainsi le taux de transformation diminuera peut être mais nousgagnerons en rentabilité sur les contrats souscrits.

• Cas 4 : ELR élevés et taux de transformation pas assez élevés :Signification : Segments sous tarifés et pas suffisamment attractifs.Mesure : Nos prix ne sont pas attractifs de ce fait nous souscrivons peu et les contratssoucrits ne sont pas rentables, ainsi si nous diminuons nos tarifs nous gagnerons en at-tractivité mais nos contrats seront encore moins rentables, ce qui n’est pas dans notreintérêt. La méthode proposée est donc de laisser le tarif tel quel, ainsi nous perdrons enrentabilité mais nous continuerons à souscrire une petite part de ces contrats.

Il en est de même pour les bons et mauvais risques, nous pouvons utiliser les segments trouvéspour mettre au point des stratégies commerciales. Pour cela nous devons surveiller la concur-rence par le biais des taux de transformation et la rentabilité par le biais des ELR.

Page 108: Maud Vandekerchove Contrôle des modèles de prime pure et

Conclusion

Dans l’intention de surveiller notre tarif, ce présent mémoire avait pour but de contrôler nosmodèles de prime pure et de prime commerciale de la garantie Responsabilité civile par le biaisde l’indicateur de pilotage de rentabilité qu’est l’ELR (rapport entre prime prédite et prime).Au travers de cette étude, nous souhaitions donc démontrer l’importance de l’ELR pour l’ana-lyse du tarif mais aussi présenter ses limites.

La finalité de cette étude est d’avoir répondu à la problématique en proposant des méthodesd’améliorations aux modèles grâce aux études segmentées de l’ELR mais aussi en démontrantl’importance et les limites de ce dernier.

Notre première partie était consacrée à l’étude de prime pure, l’objectif était de cibler des seg-ments pour lesquels elle était mal ajustée à la sinistralité de 2016. Pour cela nous avons analyséles écarts entre S/C et ELR (S/C-ELR) par le biais de la méthode d’arbre de décision CART sousR. Nous avons utilisé comme critère d’arrêt de l’arbre le minbucket qui correspond à l’exposi-tion minimale de chaque feuille, nous avons choisi 5%. Cette exposition minimale vise à éviterle sur-apprentissage. Nous avons calibré notre écart moyen à 0. L’arbre de décision nous a per-mis de cibler des segments non repérés par l’analyse univariée. Ainsi, grâce à une analyse de cedernier nous avons proposé des méthodes d’améliorations au modèle, qui consistent à réajus-ter des coefficients et à ajouter des interactions de telle sorte que l’ELR se rapproche le pluspossible du S/C sur les segments. Les variables qui interviennent le plus dans nos segmentsd’écarts sont : l’âge, la région de souscription AXA, la zone de garage RC, le goupe SRA, la duréede détention du véhicule, la carrosserie du véhicule. En effet, sur certaines modalités et interac-tions de ces variables, la prime pure prédite est mal estimée. Cette étude est primordiale pourpouvoir utiliser l’ELR. En effet, si nous souhaitons connaître la rentabilité d’un contrat, il fautque la prime pure soit bien prédite pour que notre ELR soit fiable.

Dans la seconde partie, notre but était de contrôler le tarif par le biais de l’ELR. Pour cela,comme nous l’avons expliqué dans la première partie d’étude, nous avons besoin que la primepure soit fiable, c’est pour cette raison que nous sommes partis de l’hypothèse forte selon la-quelle la prime pure était bien prédite sur tous les segments. Sous une telle hypothèse, la renta-bilité des contrats peut être pilotée par l’ELR. Cette étude de rentabilité a été réalisée de façonssegmentées. En effet, l’objectif était de trouver des segments pour lesquels l’ELR s’éloignaitfortement de la moyenne. En d’autres termes nous souhaitions cibler les segments sur-tariféset sous-tarifés. Afin que l’étude ne soit pas biaisée, nous nous sommes concentrés sur le ta-rif affaire nouvelle puisque nous avons montré qu’il existait une stratégie commerciale liée àl’ancienneté de contrat. Nous avons utilisé la méthode gradient boosting model afin d’obte-nir une hierarchie des variables impactant l’ELR, autrement dit un classement d’influence desvariables sur notre indicateur. Les variables ayant le plus d’impact sont les suivantes : Age duvéhicule, ancienneté de bonus 50, durée de détention du véhicule, nombre de km limité an-nuel, véhicules spéciaux et véhicule carrosserie. Dès lors que nous connaissions les variables

91

Page 109: Maud Vandekerchove Contrôle des modèles de prime pure et

92 Conclusion

impactantes, nous avons utilisé l’outil innovant développé en interne d’AXA : segment finder.Cet outil utilise l’algortihme PRIM. Nous avons choisi pour paramètres, une déviance à 120%,un minimum d’exposition par segment de 5% et un maximum de trois variables dans nos seg-ments. Cet outil a repondu à nos besoins puisqu’il nous a permis de cibler les segments d’ELRdéviants, autrement dit les segments sur-tarifés et sous-tarifés. Les variables résultantes étaientles mêmes que celles du gradient boosting model. L’étude de la sinistralité de ces segments, parle biais de la prime pure, a révélé que les tarifs n’étaient pas le fruit d’une stratégie commercialevisant à sur-tarifer les mauvais risques et sous-tarifer les bons risques. L’hypothèse de fiabilitéde la prime pure nous a également permis de détecter les bons et mauvais risques en termede sinistralité grâce à l’outil segment finder également. Nous avons démontré que la méthodeconsistant à élever les ELR des bons risques dans le but de les attirer et à abaisser ceux desmauvais risques pour compenser n’était pas la méthode la plus pertinente puisque les mauvaisrisques privilégieront la concurrence et nous n’aurons plus aucun équilibre. La mise au pointdu tarif doit également tenir compte de la concurrence. En effet, pour augmenter notre chiffred’affaires le tarif doit être compétitif. La compétitivité est assurée par le biais d’une étude demarché que l’ELR ne permet pas d’assurer, c’est pourquoi pour répondre au besoin d’attracti-vité du tarif, la revue du modèle de prime commerciale doit également utiliser l’étude du tauxde transformation. En associant ces deux indicateurs nous pourrions appliquer la régle sui-vante :

• ELR bas et taux de transformation élevés :Action : Conserver le tarif tel quel et gagner en rentabilité.

• ELR bas et taux de transformation pas assez élevés :Action : Diminuer notre tarif en diminuant les coefficients du modèle de prime commer-ciale sur ces segments et ajouter les interactions manquantes, afin de favoriser l’attracti-vité

• ELR élevés et taux de transformation élevés :Action : Réhausser les coefficients du modèle de prime commerciale et ajouter les in-teractions, ainsi le taux de transformation diminuera peut être mais nous gagnerons enrentabilité sur les contrats souscrits.

• ELR élevés et taux de transformation pas assez élevés :Action : Conserver le tarif tel quel, ainsi nous perdrons en rentabilité mais nous conti-nuerons à souscrire une petite part de ces contrats.

En synthèse sur l’ELR, cet indicateur est plus qu’indispensable puisque sans lui nous ne connai-trions pas la rentabilité des contrats dont la sinistralité est inconnue. Dans le cas étudié dansce mémoire il s’agissait des affaires nouvelles. La prime pure prédite, numérateur de l’ELR, doitdonc être régulièrement contrôlée et réajustée. Pour cela une comparaison de la sinistralitéréelle et de la prime pure prédite via l’étude segmentée des écarts entre S/C et ELR s’avère per-tinente. La prime pure bien prédite nous permet de cibler les bons et mauvais risques en termede sinistralité et, par le biais de l’ELR, nous pouvons connaître les segments sous tarifés et surtarifés par rapport à leur sinistralité. La rentabilité d’un contrat est particulièrement impor-tante puisque si nos contrats ne sont pas rentables, la compagnie sera en déficit. Le contrôle detarification doit donc forcément utiliser l’ELR. En outre, cet indicateur a des limites puisqu’ilne nous donne aucun renseignement sur les tarifs concurrentiels et l’attractivité de nos tarifs.C’est pour cette raison qu’il n’est pas suffisant pour le contrôle du tarif, il doit être combiné autaux de transformation.

Page 110: Maud Vandekerchove Contrôle des modèles de prime pure et

Conclusion 93

Les trois méthodes utilisées, gradient boosting modèle, arbre de décision CART et algorithmePRIM par le biais de l’utilisation de segment finder ont aisément répondu à notre besoin d’étudessegmentées. Les segments obtenus avec segment finder, l’outil innovant et développé depuispeu en interne d’AXA, étaient en accord avec notre classement de variables issu du GBM. L’arbrede décision et l’algorithme PRIM se présentent comme deux méthodes différentes pour ciblerdes segments. L’arbre permet de repérer tous les segments déviants de la variable cible à lahausse ou à la baisse en une seule fois alors que notre outil segment finder est focalisé sur lesvaleurs extrêmes c’est pourquoi il demande deux relances et une modification de la variablecible pour obtenir les minimum. Ce dernier permet cependant de cibler uniquement les seg-ments dépassant la moyenne de façon non négligeable. L’analyse est également plus rapidepuisque le nombre de variables optimal dans chaque segment est obtenu directement alorsqu’avec la méthode CART, une analyse des feuilles et de l’arbre dans sa globalité est requise.Cependant, toutes deux se sont montrées pertinentes et nous ont permis de répondre de laproblématique.Comme nous l’avons précisé, notre rôle est d’analyser et contrôler les modèles mais il n’est pasà notre main de les modifier. En effet, ce sont à des équipes en charge des modèles que revientcette responsabilité. En synthèse sur les modèles et en extension de l’étude réalisée, il faudraitdans un premier temps revoir le modèle de prime pure grâce aux préconisations faites dansle chapitre 3. Dans un second temps, il serait pertinent de calculer les taux de transformationssur les segments d’ELR déviants ciblés dans le chapitre 4. Ainsi, grâce à la méthode proposée ci-dessus et explicitée dans le chapitre 4, nous pourrions revoir le tarif en affaire nouvelle puisquerentabilité et attractivité seraient au rendez-vous. Il n’est pas impossible d’élaborer une straté-gie commerciale grâce à la connaissance des bons et mauvais risques ciblés dans le chapitre 4mais pour cela nous devons également surveiller le marché. De plus, ce travail a eu lieu sur laseule garantie obligatoire, la responsabilité civile, mais des études similaires peuvent permettrede revoir les modèles des autres garanties (Dommages, Incendie Vol etc...).

Page 111: Maud Vandekerchove Contrôle des modèles de prime pure et

Bibliographie

[1] J.H FRIEDMAN and N.I FISHER. Bump-hunting in high-dimensional data. 1999.

[2] Jonathan LENOIR. Modèles linéaires généralisés.

[3] Yoav FREUND and Robert E. SCHAPIRE. A decision-theoretic generalization of on-linelearning and an application to boosting. Journal of Computer and System Sciences 55,1997.

[4] MARTINEZ Jean-Marc SAMUELIDES Manuel GORDON Mirta BADRAN Fouad THI-RIA Sylvie DREYFUS, Gérard. Apprentissage statistique : Réseaux de neuro-Cartes topo-logiques Machines à vecteurs supports. 2011.

[5] FRIEDMAN Jérôme H OLSHEN Richard A STONE Charles J BREIMAN, Léo. Classificationand regression trees. 1984.

[6] Greg RIDGEWAY. Generalized boosted models : A guide to the gbm package. Août 2007.

[7] Jerome FRIEDMAN. Greedy function approximation : a gradient boosting machine. Theannals of Statistics, 2001.

[8] Jerome FRIEDMAN. Stochastic gradient boosting. Computational Statistics & Data Analy-sis, 2002.

[9] Utrecht University. Rule induction by bump hunting.

[10] Ricco Rakotomalala. Introduction à r arbe de décision.

[11] Amaury RAULT. R part nude custom. Document interne AXA.

[12] Ricco Rakotomalala. Tanagra data mining. Mai 2016.

[13] Charles CESE. Using machin learning. Document interne AXA.

[14] Charles CESE. Lorenz and GINI. Document interne AXA, Janvier 2016.

94

Page 112: Maud Vandekerchove Contrôle des modèles de prime pure et

Annexes

Lexique et notations

Responsabilité civile : Cette garantie est notée RC, l’assurance de responsabilité civile est uncontrat qui garantit les conséquences pécuniaires encourues par l’assuré lorsque celui-ci causeun dommage matériel ou corporel à un tiers que ce soit par sa négligence, son imprudence, sesenfants préposés, animaux ou choses dont il est responsable. Cependant, elle ne couvre pas lesfaits que l’assuré aurait commis intentionnellement.Responsabilité civile automobile : Elle est obligatoire depuis 1958 et régie par le code des as-surances. En effet, le propriétaire d’un véhicule qui veut le mettre en circulation doit l’assurer,au moins avec une garantie responsabilité civile (autrement appelée assurance au tiers). Cettegarantie sert à réparer les dommages que le véhicule pourrait occasionner à autrui. Elle nepermet pas d’indemniser le conducteur responsable d’un accident de ses propres dommages,mais ses passagers seront indemnisés, quel que soit le lien qu’ils ont avec lui.Modalités : Ensemble des valeurs que peut prendre une variable.Prime pure : Elle est notée PP. La prime pure constitue le risque probable de sinistre que repré-sente le risque à assurer. En d’autres termes elle représente l’espérance des sinistres.Image : Dans notre chapitre 3 notre base est par image et non par contrat. Un contrat conservela même image tant qu’il ne connaît pas de modifications. C’est-à dire tant qu’il conserve lesmêmes caractérisques. Dès qu’il y a un mouvement sur le contrat, nous changeons d’image.Chaque image possède une date de début et une date de fin. Pour un contrat donné nous pou-vons donc avoir plusieurs images.Mouvement du contrat : Les mouvements de contrat qui entrainent donc la création d’unenouvelle image sont : les affaires nouvelles, les remplacements, les anniveraires de contrat.Prime acquise : Notre prime acquise est calculée par image c’est à dire qu’elle correspond à laprime acquise pendant la durée de l’image.S/C : Loss ratio : Rapport entre les sinistres et les primes.ELR : Expected loss ratio : Rapport entre les primes pures prédites et les primes.SRA : Sécurité et réparations automobiles

95

Page 113: Maud Vandekerchove Contrôle des modèles de prime pure et

96 Annexes

Base de données pour calculer la prime annualisée

Nous avons deux systèmes de bases de données, l’un par image l’autre par contrat. Dans ce mé-moire nous avons utilisé la base par image et nous avons annualisé les primes acquises pourle calcul de l’ELR annualisé. Cependant nos primes annualisées sont directement disponiblesdans la base par contrat. Pour vérifier la cohérence des bases, nous avons utilisé notre basepar contrat pour comparer les primes annualisées qui en résultaient avec celles que nous ob-tenions en annualisant. Pour cela, nous avons tout d’abord récupérer de cette base toutes lesdernières primes RC à chaque fin de mois (de décembre 2015 à décembre 2016). Ainsi que lesanciennes primes à chaque fin de mois également. Ensuite, nous avons appliqué la méthodesuivante pour obtenir la prime annualisée correspondant à son image :

• Si le contrat n’est pas résilié :

– Si la fin d’image a pour date : 01/01/17 on récupère la dernière prime de fin dec2016

– Si le mois de fin image a lieu 2 mois après le mois de début image : alors la primerécupérée est la dernière prime à la fin du mois de début image.

– Si la fin d’image a lieu le mois suivant le début d’image et que le jour de fin d’imagen’est pas le premier du mois : alors la prime récupérée est la dernière prime à la findu mois de début image.

– Si la fin image a lieu le même mois que le début image et que le jour de début imageest le premier du mois : on récupère la dernière prime du mois précédent le débutd’image.

– Si la fin d’image a lieu le mois suivant le début d’image et que le jour de fin d’imageest le premier du mois on récupère l’avant dernière prime de la fin du mois de débutimage

– Si la fin image a lieu le même mois que le début image et que le jour de début imagen’est pas le premier du mois : on récupère l’avant dernière prime de la fin du moisde début image.

• Si le contrat est résilié pendant l’année 2016 : on récupère la dernière prime du moisdurant lequel a eu lieu la résil.

Après comparaison, les primes obtenues sont similaires à celles issues de notre base d’image.

Page 114: Maud Vandekerchove Contrôle des modèles de prime pure et

Annexes 97

Modalités des variables qualitatives utilisées

Le fractionnement des primes :

• Annuel

• Biannuel ou trismestriel

• Mensuel

Nombre de km annuel :

• Moins de 8 000

• Moins de 10 000

• Autres

Usage du véhicule :

• Privé

• Professionnel

• Privé professionnel

Zone de garage RC : Le zonier RC est confidentiel, il est découpé en 17 zones de risques allantde 101 à 117.Régions de souscription AXA France :

• Ile de France

• Nord-Est

• Ouest

• Sud-Est

• Sud-Ouest

Energie du véhicule :

• Essence

• Gazoil

• Autre

Groupe SRA du véhicule : Noté de 20 à 50, le groupe représente la puissance de l’automobile(20=faible puissance, 50=forte puissance) mais également sa dangerosité.Carrosserie du véhicule

• 4*4

• Berline

• Break

• Mini-bus

Page 115: Maud Vandekerchove Contrôle des modèles de prime pure et

98 Annexes

• Cabriolet

• Coupé

• Camionette

• Ludospace

• Monospace

• SUV

• Tout-terrain

Règle de tarif

• Standard hors cible

• Excellence hors cible

• Règle particulière

• Descente rapide hors cible

• Standard cible

• Excellence cible

• Descente rapide cible

• Bonus famille hors cible

• Bonus famille cible

Véhicules spéciaux

• Voiturettes sans permis

• Voiturettes avec permis

• 4 Roues de collection

• Campings cars

• Véhicules aménagés

• Autres 4 Roues : avec boîte auto

• Autres 4 Roues : sans boîte auto

Marque du véhicule

• ALFA ROMEO

• AUDI

• AUTRES

• BMW

Page 116: Maud Vandekerchove Contrôle des modèles de prime pure et

Annexes 99

• CITROEN

• FIAT

• FORD

• HONDA

• LAND ROVER

• MAZDA

• MERCEDES

• MITSUBISHI

• NISSAN

• OPEL

• PEUGEOT

• RENAULT

• ROVER

• SEAT

• TOYOTA

• VOLKSWAGEN

• VOLVO

Vitesse max du véhicule

• 001-130

• 130-140

• 140-150

• 150-160

• 160-170

• 170-180

• 180-190

• 190-200

• 200-220

• S220

Situation matrimoniale

• Concubin

Page 117: Maud Vandekerchove Contrôle des modèles de prime pure et

100 Annexes

• Divorcé

• Marié

• Séparé

• Célibataire

• Veuf

Classe de prix du véhicule SRAElle est notée de A à Z5 avec A la classe ayant le prix le plus bas et Z5 la classe de prix ayant leprix le plus élevé.

Page 118: Maud Vandekerchove Contrôle des modèles de prime pure et

Table des figures

1.1 Primes payées Assureur A vs Assureur B . . . . . . . . . . . . . . . . . . . . . . . . . 81.2 Sinistralité : bons conducteurs vs mauvais conducteurs . . . . . . . . . . . . . . . 8

2.1 Interprétation coefficient de Pearson . . . . . . . . . . . . . . . . . . . . . . . . . . 172.2 Interprétation test de Kruskal-Wallis . . . . . . . . . . . . . . . . . . . . . . . . . . . 182.3 Illustration de sur-apprentissage . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 202.4 Exemple d’arbre de décision . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 212.5 Exemple boîte avec variables explicatives quantitatives . . . . . . . . . . . . . . . 272.6 Exemple boîte avec variables explicatives qualitatives . . . . . . . . . . . . . . . . 272.7 Données de l’exemple 1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 292.8 Variable revenus . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 292.9 Variable âge . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 302.10 Données avec notre nouvelle boîte (les mariés) . . . . . . . . . . . . . . . . . . . . 30

3.1 L’écart en fonction de l’âge . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 333.2 L’écart en fonction de l’âge d’obtention de permis . . . . . . . . . . . . . . . . . . . 343.3 L’écart en fonction de la durée de détention de véhicule . . . . . . . . . . . . . . . 353.4 L’écart en fonction des régions AXA France . . . . . . . . . . . . . . . . . . . . . . . 353.5 L’écart en fonction du zonier RC . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 363.6 L’écart en fonction de la carrosserie de véhicule . . . . . . . . . . . . . . . . . . . . 373.7 Corrplot variables quantitaives . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 403.8 Arbre de décision des écarts . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 433.9 Feuille 1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 443.10 Feuille 2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 453.11 Feuille 3 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 453.12 Feuille 4 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 473.13 Feuille 6 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 483.14 Feuille 8 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 503.15 Feuille 9 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 513.16 Feuille 10 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 523.17 Feuille 11 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 523.18 Noeud commun aux feuilles 10 et 11 . . . . . . . . . . . . . . . . . . . . . . . . . . . 533.19 Arbre de déision des écarts interactions limitées . . . . . . . . . . . . . . . . . . . . 56

4.1 Evolution de l’ELR en fonction de l’ancienneté . . . . . . . . . . . . . . . . . . . . . 584.2 Evolution de la prime pure et prime commerciale moyenne en fonction de l’an-

cienneté . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 584.3 ELR en fonction de l’âge du véhicule . . . . . . . . . . . . . . . . . . . . . . . . . . . 61

101

Page 119: Maud Vandekerchove Contrôle des modèles de prime pure et

102 Table des figures

4.4 ELR en fonction du nombre de km annuel . . . . . . . . . . . . . . . . . . . . . . . 624.5 ELR en fonction de l’âge d’obtention du permis . . . . . . . . . . . . . . . . . . . . 624.6 ELR en fonction de la situation matrimoniale . . . . . . . . . . . . . . . . . . . . . 634.7 ELR en fonction de la classe de prix du véhicule . . . . . . . . . . . . . . . . . . . . 644.8 ELR en fonction de la zone de garage RC . . . . . . . . . . . . . . . . . . . . . . . . 644.9 Corrplot variables quantitatives . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 664.10 Méthode 10-Folds . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 684.11 Illustration pour le calcul du coefficent de Gini . . . . . . . . . . . . . . . . . . . . 694.12 Illustration pour le calcul du coefficent de Gini en consiédrant un modèle saturé 704.13 Ideal curve et Gini modifié sur l’échantillon test . . . . . . . . . . . . . . . . . . . . 714.14 Ideal curve et Gini modifié sur l’échantillon d’apprentissage . . . . . . . . . . . . 724.15 Influence relative des variables sur l’ELR . . . . . . . . . . . . . . . . . . . . . . . . 724.16 Segments ayant des ELR élevés par rapport à la moyenne . . . . . . . . . . . . . . 744.17 Modalités utilisées dans nos interactions de segments . . . . . . . . . . . . . . . . 754.18 Comparaison des primes pures par rapport à la moyenne . . . . . . . . . . . . . . 764.19 Segments ayant des ELR faibles par rapport à la moyenne . . . . . . . . . . . . . . 774.20 Modalités utilisées dans nos interactions de segments . . . . . . . . . . . . . . . . 794.21 Comparaison des primes pures par rapport à la moyenne . . . . . . . . . . . . . . 804.22 Segments des mauvais risques en terme de sinistralité . . . . . . . . . . . . . . . . 834.23 Segments des bons risques en terme de sinistralité . . . . . . . . . . . . . . . . . . 85

Page 120: Maud Vandekerchove Contrôle des modèles de prime pure et

Liste des tableaux

1.1 ELR annualisé vs ELR classique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 111.2 ELR annualisé vs ELR classique 2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12

4.1 Segments d’ELR moyen élevé . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 744.2 Segments d’ELR moyen faible . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 784.3 Mauvais risques . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 834.4 Bons risques . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 864.5 Tarif en fonction de l’ELR . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 884.6 Tarif en fonction du marché . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 88

103