par: cristina sontu

103
Mémoire présenté devant l’ENSAE ParisTech pour l’obtention du diplôme de la filière Actuariat et l’admission à l’Institut des Actuaires le 08/11/2017 Par : Cristina Sontu Titre : Étude de l’évolution des règles de souscription en assurance automobile grâce à un produit télématique Confidentialité : NON OUI (Durée : 1 an 2 ans) Les signataires s’engagent à respecter la confidentialité indiquée ci-dessus Membres présents du jury de la filière Entreprise : Axa Global Direct France Nom : Benjamin Mahé Signature : Membres présents du jury de l’Institut Directeur du mémoire en entreprise : des Actuaires Nom : Benjamin Mahé Signature : Autorisation de publication et de mise en ligne sur un site de diffusion de documents actuariels (après expiration de l’éventuel délai de confidentialité) Signature du responsable entreprise Secrétariat : Signature du candidat Bibliothèque : École Nationale de la Statistique et de l’Administration Économique (ENSAE) 5, avenue Henry Le Chatelier - 91120 PALAISEAU, FRANCE

Upload: others

Post on 17-Jun-2022

3 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Par: Cristina Sontu

Mémoire présenté devant l’ENSAE ParisTechpour l’obtention du diplôme de la filière Actuariat

et l’admission à l’Institut des Actuairesle 08/11/2017

Par : Cristina Sontu

Titre : Étude de l’évolution des règles de souscription enassurance automobile grâce à un produit télématique

Confidentialité : � NON � OUI (Durée : � 1 an � 2 ans)

Les signataires s’engagent à respecter la confidentialité indiquée ci-dessusMembres présents du jury de la filière Entreprise : Axa Global Direct France

Nom : Benjamin MahéSignature :

Membres présents du jury de l’Institut Directeur du mémoire en entreprise :des Actuaires

Nom : Benjamin MahéSignature :

Autorisation de publication et demise en ligne sur un site dediffusion de documents actuariels(après expiration de l’éventuel délai deconfidentialité)Signature du responsable entreprise

Secrétariat :

Signature du candidatBibliothèque :

École Nationale de la Statistique et de l’Administration Économique (ENSAE)5, avenue Henry Le Chatelier - 91120 PALAISEAU, FRANCE

Page 2: Par: Cristina Sontu
Page 3: Par: Cristina Sontu

Cristina SONTU ENSAE ParisTech

2017 - Mémoire d’Actuariat

Étude de l’évolution des règles desouscription en assurance automobile

grâce à un produit télématique

CONFIDENTIEL

Mémoire réalisé sous la direction de

Benjamin Mahé, responsable projets et équipe actuarielle produits

YouDrive, Direct Assurance, Suresnes

Octobre 2016 - Septembre 2017

Tuteur - ENSAE ParisTech

Romuald Elie

Page 4: Par: Cristina Sontu
Page 5: Par: Cristina Sontu

Résumé

Un des avantages du produit d’assurance automobile télématique YouDrive, le précurseurdes contrats Pay How You Drive en France, est de permettre à l’assureur de collecter de nou-velles informations lui permettant de réduire l’asymétrie d’information. Cela pourrait faireévoluer certaines règles de souscriptions mises en place notamment sur des segments pour les-quels l’asymétrie d’information est particulièrement importante. Dans ce mémoire, nous nousintéressons en particulier au segment des enfants conducteurs secondaires sur le contrat de leurparent, segment pour lequel le fronting est très répandu sur les contrats d’assurance tradition-nels. Dans l’optique de construire un tarif commercial télématique de base sur cette cible, cemémoire propose une méthodologie afin d’estimer la prime pure sur les différentes garanties, enprenant comme exemple la garantie responsabilité civile matérielle.

Mots-clés : télématique, pay how you drive, asymétrie d’information, sélection des risques,règles de souscription, fronting, prime pure, tarification.

Page 6: Par: Cristina Sontu

Abstract

One of the advantages of the telematics motor insurance product YouDrive, the precursor ofPay How You Drive policies in France, is that it allows the insurer to collect new informationenabling to reduce information asymmetry. This could trigger some evolutions on the existingunderwriting rules, especially those put in place on population segments where the asymmetryof information is important. In this paper, we are particularly interested in the segment ofchildren declared as secondary drivers on their parent’s insurance policy. This is a segmentamong which fronting is very popular on traditional insurance contracts. In order to estimate atelematics insurance premium on this population segment, this paper introduces a methodologyfor estimating pure premium on various types of insurance coverages, taking as an example thethird-party liability insurance for material damage.

Key-words : telematics, pay how you drive, information asymmetry, risk selection, under-writing rules, fronting, pure premium, pricing.

Page 7: Par: Cristina Sontu

Remerciements

Je tiens à remercier toutes les personnes qui ont contribué au bon déroulement de monalternance et qui m’ont aidé dans la rédaction de ce mémoire :

M. Benjamin Mahé, responsable du pôle Telematics et Partenariats, mon maître de stageet mon superviseur, pour sa pédagogie, sa gentillesse, ses conseils et son soutien tout au longde cette année.

M. Kevin Masset, chargé d’études actuarielles risques spéciaux, mon deuxième superviseur,pour le temps qu’il m’a accordé, sa disponibilité et ses multiples relectures du mémoire.

Mme Isabelle Antoine, directrice du département technique, et Mme Anne-Gaëlle Moisy,manager équipe Telematics, pour m’avoir permise de rejoindre l’équipe YouDrive lors de monalternance et, à la suite de cette dernière, la direction technique.

Mme Claire Mouminoux et MM. Vincent Grari, Jean Delalande, Xuan Quang Do, pourleurs appuis scientifiques et leurs idées enrichissantes.

Mme Léa Couturier, chargée d’études actuarielles, collègue et amie, pour son amabilité,son empathie et son soutien. Pour leur accueil chaleureux au sein de l’équipe YouDrive et leuramitié, merci à Justine, Aline, Thu-Hoai, Guillaume, Aurélie, Cécilia, Anthony, Ali, Yves-Marieet Pierre.

M. Romuald Elie pour son accompagnement depuis l’ENSAE.

Et finalement, un remerciement spécial à Anatolie, Valentina, Daniel et Ion, ma famille,pour leur soutien et confiance.

Page 8: Par: Cristina Sontu

Table des matières

Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1

1 Le marché de l’assurance - un marché en information incomplète 31.1 Antisélection et segmentation . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3

1.1.1 Les modèles théoriques de base sur la théorie de l’antisélection . . . . . . 31.1.2 Revue de la littérature empirique sur l’antisélection en assurance . . . . . 71.1.3 Segmentation dans le contexte de l’antisélection et des contraintes légales

à la tarification . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 91.1.4 Les risques liés à la sur-segmentation . . . . . . . . . . . . . . . . . . . . 10

1.2 Aléa moral . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 121.2.1 Modèle théorique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 121.2.2 Modalités de réduction de l’aléa moral . . . . . . . . . . . . . . . . . . . 14

1.3 Fraude à l’assurance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 161.3.1 Modèle théorique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 161.3.2 Solutions contre la fraude à l’assurance . . . . . . . . . . . . . . . . . . . 18

2 L’assurance télématique : une réduction de l’asymétrie d’information ? 202.1 Émergence et développement de l’assurance télématique . . . . . . . . . . . . . . 21

2.1.1 Le contexte du marché de l’assurance non-vie favorable au développementde l’assurance télématique . . . . . . . . . . . . . . . . . . . . . . . . . . 21

2.1.2 Les différentes types d’assurance comportementale et les premiers pion-niers du domaine . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23

2.1.3 Développement et prévisions . . . . . . . . . . . . . . . . . . . . . . . . . 252.2 Les bénéfices et les contraintes de l’assurance télématique . . . . . . . . . . . . . 26

2.2.1 Du point de vue des assureurs . . . . . . . . . . . . . . . . . . . . . . . . 262.2.2 Du point de vue des souscripteurs . . . . . . . . . . . . . . . . . . . . . . 28

2.3 L’offre télématique YouDrive de Direct Assurance . . . . . . . . . . . . . . . . . 30

3 Sélection des risques : évolutions possibles grâce à l’assurance télématique ? 333.1 Les aspects juridiques et réglementaires de la sélection des risques . . . . . . . . 33

3.1.1 Fondement juridique et limites à la sélection des risques . . . . . . . . . . 343.1.2 Sélection du risque dans Solvabilité II . . . . . . . . . . . . . . . . . . . . 36

3.2 Règles de souscription et mesure du risque rejeté . . . . . . . . . . . . . . . . . . 383.2.1 Catégories des segments rejetés . . . . . . . . . . . . . . . . . . . . . . . 383.2.2 Aperçu du risque des segments rejetés - les dérogations aux règles de

souscription . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 393.3 Évolutions possibles des règles de souscription grâce à l’assurance télématique . 41

4 Évolution d’une règle de souscription avec le produit telematics 434.1 Contexte et problématique de l’ouverture . . . . . . . . . . . . . . . . . . . . . . 44

4.1.1 Choix du profil de risque . . . . . . . . . . . . . . . . . . . . . . . . . . . 444.1.2 Tarification et hypothèses de travail . . . . . . . . . . . . . . . . . . . . . 45

Page 9: Par: Cristina Sontu

4.1.3 Données et comparaison des profils . . . . . . . . . . . . . . . . . . . . . 464.2 Modélisation statistique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46

4.2.1 Rappel théorique sur le modèle collectif, la prime pure et les GLM . . . . 474.2.2 Analyse des variables . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 494.2.3 Effets non-linéaires - découpage des variables quantitatives . . . . . . . . 57

4.3 Prédiction de l’âge des enfants désignés . . . . . . . . . . . . . . . . . . . . . . . 604.3.1 Présentation des données . . . . . . . . . . . . . . . . . . . . . . . . . . . 604.3.2 Prédiction par arbre de décision . . . . . . . . . . . . . . . . . . . . . . . 614.3.3 Prédiction par forêt d’arbres décisionnels . . . . . . . . . . . . . . . . . . 634.3.4 Résultats . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 64

4.4 Prime pure - modélisation de la fréquence des sinistres . . . . . . . . . . . . . . 654.4.1 Sélection des variables - théorie et pratique . . . . . . . . . . . . . . . . . 654.4.2 Modélisation de la fréquence de sinistralité . . . . . . . . . . . . . . . . . 69

4.5 Prime pure - modélisation des coûts des sinistres . . . . . . . . . . . . . . . . . . 724.5.1 Méthode . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 724.5.2 Traitement et sélection de variables . . . . . . . . . . . . . . . . . . . . . 734.5.3 Modélisation des coûts . . . . . . . . . . . . . . . . . . . . . . . . . . . . 75

4.6 Estimation de la prime pure de la cible à ouvrir . . . . . . . . . . . . . . . . . . 774.6.1 Sur-sinistralité des enfants désignés . . . . . . . . . . . . . . . . . . . . . 774.6.2 Sur-sinistralité des enfants conducteurs principaux par rapport aux pa-

rents conducteurs principaux . . . . . . . . . . . . . . . . . . . . . . . . . 774.6.3 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 78

Conclusion générale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 79Glossaire . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 81Liste des figures . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 84Liste des tableaux . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 85Note de synthèse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 86Executive summary . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 89Bibliographie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 92

Page 10: Par: Cristina Sontu

Introduction

Depuis plusieurs années, la technologie disruptive de l’Internet des Objets est en train demodifier profondément le modèle d’affaires de divers acteurs économiques. Le secteur de l’assu-rance automobile est réceptif à cette révolution numérique et intègre les nouvelles opportunitésqui se présentent. C’est dans ce cadre que l’assurance automobile connectée a connu un dé-veloppement accéléré, avec de plus en plus d’assureurs ou de start-ups lançant des produitsd’assurance télématique, selon le modèle des polices pay-how-you-drive, dont la prime d’assu-rance est personnalisable pour chaque assuré et dépend de son comportement de conduite.

Le succès de ce type d’assurance se traduit par son caractère innovateur, qui apporte unenouvelle vision sur le risque des assureurs. Pendant longtemps à la recherche de solutions pourlimiter l’asymétrie d’information présente sur le marché de l’assurance, les assureurs ont viteapprécié les avantages apportées par un tel produit : une meilleure segmentation du risque,permettant une tarification plus fine et proche de la qualité de conduite ; une interaction fré-quente qui pousse l’assuré à adopter un comportement plus prudent au volant, diminuant ainsile risque d’aléa moral ; un effet vertueux dû au feedback sur la conduite etc.

Aujourd’hui, un des rares leviers que les assureurs ont pour parer à l’asymétrie du marchéest la sélection des risques, sous condition que celle-ci soit conforme à la loi. Des règles desouscription visent donc à limiter l’exposition de l’assureur à des segments de population dontil ne sait pas bien estimer le risque ou qu’il ne souhaite pas couvrir. Dans ce rapport, nousallons nous intéresser à la façon dont le produit télématique YouDrive pourrait faire évoluer lesrègles de souscription de Direct Assurance.

Plus précisément, étant donné l’impact de l’assurance télématique sur l’antisélection et l’aléamoral, on cherchera, dans le même ordre d’idées, à se demander quel est l’impact des telematicssur un troisième phénomène - la fraude. Et si le produit connecté apporte une vraie valeurajoutée pour mieux discriminer les fraudeurs de certains segments qui sont actuellement refusésla souscription, alors une autre question se pose : à quel tarif ouvrir la souscription, sachantqu’on ne dispose pas d’un historique de sinistralité sur ces cibles ?

Dans ce mémoire nous nous intéressons initialement aux trois phénomènes qui caractérisentl’asymétrie d’information sur le marché de l’assurance et qui constituent le fondement théo-rique de la sélection des risques. Ensuite, nous abordons le contexte d’émergence de l’assurancetélématique et son impact multilatéral sur l’asymétrie d’information. La présentation du cadrejuridique et réglementaire de la sélection des risques est suivie de quelques exemple concrets derègles de souscription et de l’étude de leur évolution potentielle grâce à l’assurance télématique.Finalement, nous nous focalisons sur un segment jusqu’ici rejeté, qui est particulièrement inté-ressant pour le produit YouDrive, et nous cherchons à estimer un tarif initial pour rendre sonouverture possible.

1

Page 11: Par: Cristina Sontu

Pour des raisons de confidentialité, les données de cette étude ont été modifiées.Toutefois, les résultats exposés respectent les ordres de grandeur des vrais résultats.

2

Page 12: Par: Cristina Sontu

Chapitre 1

Le marché de l’assurance - un marchéen information incomplète

Une des conditions centrales d’application de la théorie de la concurrence pure et parfaiteest la transparence de l’information : l’information doit être gratuite, immédiate et à dispositionde tous les acteurs du marché. Or, sur les marchés réels, l’information dont les agents disposentn’est pas complète. Cette situation concerne particulièrement le marché de l’assurance - unsecteur très spécifique étant donné son cycle de production inversé. 1

La littérature scientifique sur l’asymétrie de l’information se concentre autour de trois phé-nomènes centraux :

— Antisélection (eng : adverse selection) : une information asymétrique est présente surune des caractéristiques du produit ou du service échangé ;

— Aléa moral (eng : moral hazard) : l’agent participant à l’échange peut se comporterdifféremment lorsqu’il n’est plus exposé au risque ;

— Fraude : il existe une asymétrie d’information à la souscription et lors de la déclarationd’un sinistre.

L’antisélection est susceptible d’apparaître avant la signature du contrat, la problématiquede l’aléa moral se pose après sa signature et une fraude peut avoir lieu tant en amont qu’enaval de la souscription d’une police d’assurance.

Dans la suite, nous allons présenter plus en détail ces trois problématiques de l’économie del’information et les façons dont les compagnies d’assurance cherchent à diminuer leur impact.

1.1 Antisélection et segmentation

1.1.1 Les modèles théoriques de base sur la théorie de l’antisélection

The Market for "Lemons" de G. Akerlof (1970) est l’article qui a posé la base de la théorie del’antisélection et qui a permis à son auteur d’être récompensé en 2001 par le Prix de la Banque

1. La prime est connue avant le montant de la prestation, car, au moment de la vente, l’assureur ne sait pascombien ses garanties vont lui coûter.

3

Page 13: Par: Cristina Sontu

de Suède en sciences économiques en mémoire d’Alfred Nobel. Il décrit le fonctionnement dumarché des voitures d’occasion, appelées lemons. L’achat d’une telle voiture constitue un risquepour l’acheteur, car la qualité du véhicule n’est pas forcément une information dont il disposeavant son achat et des défauts importants pourraient se révéler après.

Dans la modélisation du marché considéré, l’auteur relâche deux conditions de la concurrencepure et parfaite : il introduit une hétérogénéité dans la qualité des voitures échangées (toutes lesautres caractéristiques restant homogènes) et une asymétrie d’information entre les vendeursqui connaissent la qualité de la voiture et les acheteurs qui ne la connaissent pas.

Un des résultats du modèle est que les vendeurs peuvent mentir sur l’état de leur véhicule etdonc tenter de vendre un bien de mauvaise qualité au prix d’un bien de bonne qualité. Commeles acheteurs ne peuvent pas distinguer les véhicules en bon état des véhicules en mauvais état,ils devront prendre le risque que le vendeur mente lors du processus d’achat. Le prix auquelils seront prêts à acheter tiendra compte de ce risque et sera plus faible que celui proposé enabsence de risque.

Par conséquent, le prix des véhicules en bon état va baisser et les vendeurs de véhicules enbon état devront accepter un prix inférieur à celui qu’ils auraient obtenu si le marché était eninformation complète. Dans le cas extrême, cela peut conduire à leur éviction totale du marchéentraînant une réduction du surplus global étant donné que des transactions mutuellementavantageuses n’ont plus lieu.

Le fonctionnement du marché de l’assurance est très similaire à cet exemple. Illustrons celaen reprenant le cadre décrit par Rothschild et Stiglitz (1976) et repris dans Eeckhoudt, Gollieret Schlesinger (2005).

On considère ici le marché de l’assurance automobile. Traditionnellement, pour tarifer, lesassureurs divisent les assurés dans des classes de risques homogènes, construites selon les carac-téristiques observables de ces derniers. Cependant, des profils de risques différents coexistentau sein de la même classe, parce que les variables tarifaires qui permettent leur discriminationne font pas partie des informations à disposition des compagnies d’assurance.

Considérons ici une classe de risque et supposons qu’elle regroupe seulement 2 types d’in-dividus : les individus à haut risque et les individus à bas risque. Soit λ ∈ [0, 1] la proportiondes individus à haut risque avec les probabilités d’accident égales à :

— qH pour les individus à haut risque ;— qL pour les individus à bas risque.

Ainsi, la probabilité moyenne d’accident est : q∗ = λqH + (1 − λ)qL , avec qH , qL ∈ [0, 1],et q∗ ∈ [qL, qH ]. On suppose également que les compagnies d’assurance sont en concurrence etque les préférences des individus sont caractérisées par des fonction d’utilité de Von Neumann- Morgenstern 2. Introduisons d’autres notations :

— P - prime payée ;— X - perte en cas d’accident ;— I(X) - prestation en cas d’accident.La Figure 1.1 illustre ce problème graphiquement. L’abscisse représente la richesse de l’assuré

w1 s’il n’a pas eu d’accident et l’ordonnée sa richesse w2 s’il en a eu. Nous avons représenté sur cegraphique deux profils d’individus disposant chacun d’une richesse initiale w0 et pouvant décider

2. Ces fonctions d’utilité caractérisent un décideur rationnel et satisfont les quatre axiomes suivantes : pré-ordre total, monotonie, continuité et indépendance. Pour plus de détails, voir Von Neuman et al. (1944).

4

Page 14: Par: Cristina Sontu

de s’assurer ou non. Selon leur décision et l’état de la nature, leur richesse est la suivante :• S’ils décident de ne pas s’assurer (point A) :

— w1 = w0 si pas d’accident ;— w2 = w0 −X en cas d’accident.• Les contrats B, C et D offrent une assurance complète pour des profils H à haut risque,

et respectivement, L à bas risque et M à moyen risque. On suppose également que lecoût de l’assurance dépend du risque Pi = qiX avec qH > qM > qL :— w1 = w0 − Pi si pas d’accident ;— w2 = w0 − Pi en cas d’accident (sous hypothèse de couverture complète).

On suppose ici que les assureurs ne proposent que des contrats à couverture complète : I(X) =X. Ces derniers vont donc se situer sur la bissectrice w1 = w2.

Figure 1.1 – Le modèle d’Akerlof avec 2 profils de risque différents

Les droites actuarielles [AH], [AM] et [AL] sont les droites de profit nul pour l’assureur(Profit = qiX, avec qi ∈ qh, ql, q∗ et leur pente représente le taux d’échange entre les deux étatsdu monde. Tout contrat à droite (resp. à gauche) de la droite actuarielle génère une perte (resp.un gain) pour l’assureur sur le segment respectif de population.

On remarque que la droite actuarielle des individus à bas risque a une pente égale à −1−qlql

,supérieure en valeur absolue à celles des individus à haut risque : −1−qh

qh.

Lorsque l’assureur connaît le profil de risque de chaque type d’individu, il propose, comme ci-dessus, un contrat pour chacun qui va permettre à chacun des segments de maximiser son utilité,sous la contrainte de profit positif pour l’assureur. En raison de l’ hypothèse de concurrenceentre les assureurs, leur profit est nul et le contrat optimal est le point de tangence entre ladroite actuarielle et la courbe d’indifférence de l’individu.

Si l’assureur ne peut pas distinguer les deux profils de risque, il offre le contrat correspondantà la probabilité moyenne de risque et une couverture complète : D. Ainsi, comme ce point sesitue à droite de la droite actuarielle des hauts risques - l’assureur est en perte sur ce segment,mais celle-ci est compensée grâce au profit positif sur les bas risques (D est situé à gauche dela droite actuarielle des bas risques).

5

Page 15: Par: Cristina Sontu

Figure 1.2 – Conséquence de l’antisélection : les individus à bas risque préfèrent ne pas s’as-surer

La conclusion centrale de ce modèle est que si la proportion des hauts risques λ est suffi-samment grande, alors les bas risques vont préférer ne pas s’assurer que d’acheter un contratqu’ils jugent beaucoup plus cher par rapport au risque qu’ils portent (voir Figure 1.2 - la courbed’indifférence des bas risques passant par le point D a un niveau d’utilité inférieur à celui dela courbe passant par le point A). Cela implique que l’assureur va se retrouver avec seulementdes individus à haut risque dans son portefeuille, auxquels il propose le contrat D. Le tarif estinsuffisant et ce contrat va générer des pertes pour l’assureur.

A plus long terme, la prime proposée par l’assureur va converger vers une juste tarificationet son profit deviendra nul lorsqu’elle atteindra le montant impliqué par le point B. En fait,une fois que les individus souscrivent, l’assureur peut observer leur sinistralité et actualiser sesinformations sur le vrai risque couvert. Toutefois, les individus à bas risque resteront pénaliséspar cette asymétrie d’information, car ils ne seront plus assurés.

Pour compléter ce scénario, le modèle de Rothschild-Stiglitz vient relâcher l’hypothèse decontrats à couverture complète : les agents peuvent à présent choisir des contrats à couverturepartielle. L’idée sur laquelle le modèle repose est que les individus à haut risque ont une dispo-sition plus grande à acheter des contrats avec un degré de couverture élevé. Ainsi, en proposantdeux types différents de contrats, l’assureur peut discriminer entre les deux profils de risque carle choix des individus révèle leur type.

Définition : L’équlibre Rothschild-Stiglitz

Un équlibre au sens de Rothschild-Stiglitz est un menu de contrats (P1, I1),...,(Pn, In) telque :

— Chaque contrat du menu apporte une profit positif ;— Aucun nouveau contrat ne peut faire un profit strictement positif si offert en com-

plément de ceux déjà présents dans le menu.

Rothschild et Stiglitz (1976) montrent que lorsqu’un équilibre existe, il est nécessairementséparateur : les bas risques choisissent d’être moins couverts que les hauts risques. Cependant,si la proportion des hauts risques est suffisamment grande ou lorsque l’écart entre les bas et leshauts risques est très élevé, alors un équilibre peut ne pas exister. 3

3. Un équilibre est dit pooling si tant les individus à bas risque que ceux à haut risque choisissent le même

6

Page 16: Par: Cristina Sontu

Le dernier résultat énoncé ici est notamment une des explications qui justifient lasélection des risques opérée par les assureurs et que nous abordons plus en détail dansle Chapitre 3 de ce mémoire. Lorsqu’il y a une forte suspicion de sur-sinistralité sur unsegment, l’assureur peut choisir de ne pas l’assurer.

Considérons un segment d’individus, homogène selon les variables tarifaires tradition-nelles utilisées par les assureurs (l’âge, l’ancienneté de permis, le type de véhicule etc.).Au sein de ce segment, supposons qu’il y ait de bons risques et de mauvais, mais quipeuvent être discriminés uniquement à partir d’une information X. Lorsqu’un assureurne peut pas observer X, pour éviter de proposer une prime trop faible pour les hautsrisques et trop haute pour les bas risques, et conduire ainsi à une éviction probable desbas risques du marché, il peut décider de rejeter les individus qu’il estime être à hautrisque.

Lorsque X est observée, l’assureur peut être compétitif sur les hauts et les bas risqueset les deux segments peuvent bénéficier d’une couverture complète donc optimale. Avecl’hypothèse que les données de conduite sont suffisantes pour discriminer les deux typesde risque, l’assurance télématique peut améliorer, au global, le bien-être social.

1.1.2 Revue de la littérature empirique sur l’antisélection en assu-rance

Si la théorie sur la sélection en assurance a été fondée dans les années 70, la littératureempirique est à une phase de développement relativement récente. Celle-ci s’est concentréeessentiellement sur l’étude de la présence d’une corrélation entre le risque et le degré de cou-verture. En effet, cette corrélation est une des prédictions de base de la théorie classique : plusl’individu se considère comme étant à haut risque, plus il demandera à se couvrir.

Cependant, un simple test de corrélation n’est pas suffisant, car l’autre source d’asymétried’information - l’aléa moral (traité plus en détail dans la section 1.2) - génère aussi une cor-rélation positive entre la sinistralité (mesure de risque) et la demande d’assurance. Les deuxphénomènes - l’antiséléction et l’aléa moral - sont difficiles à démêler et certaines études sesont dédiées à la construction de techniques pour permettre leur séparation ou se sont limi-tées uniquement à l’identification de la présence d’une asymétrie d’information sur le segmentconsidéré.

Les résultats de cette abondante recherche montrent que l’existence de la sélection adversevarie selon le marché d’assurance considéré et, parfois, au sein même du marché. Elle dépenddu "produit d’assurance, des caractéristiques des assurés ainsi que du cadre réglementaire". 4

Les premières études sur le marché de l’assurance automobile suggéraient que la corrélationpositive prédite par la théorie est également observée en pratique. 5.

contrat (i.e. n = 1), et il est dit séparateur si les deux types d’individus choisissent des contrats différents (i.e.n = 2).

4. Cohen, Alma et Peter Siegelman, 2010. "Testing for Adverse Selection in Insurance Markets." Journal ofRisk and Insurance, 77(1) : 39-84.

5. Il s’agit notamment de Dahlby (1983), Dahlby (1992), Puelz et al. (1994) etc.

7

Page 17: Par: Cristina Sontu

Une des plus connues études du marché français de l’assurance automobile - "Testing forAsymmetric Information in Insurance Markets." par Chiappori et al. (2000), a eu comme conclu-sion que les effets prédits par la théorie sur l’asymétrie de l’information n’étaient pas valablesen pratique. Cependant, leur étude a été réalisée sur un nombre limité de jeunes conducteurset on peut estimer qu’ils n’ont pas encore assez d’expérience pour évaluer leur propre niveaude risque et donc intégrer cette information privée dans leur choix de couverture. Par ailleurs,Cohen (2005) a trouvé le même résultat sur le segment des jeunes conducteurs d’Israël, mais aaussi prouvé l’existence d’une corrélation positive pour les conducteurs plus expérimentés.

Les deux conséquences principales de l’antisélection ont été également étudiées par Saito(2009) sur des données issues du marché de l’assurance automobile au Japon :

— les conducteurs à haut risque demandent plus d’assurance ;— une augmentation significative des primes d’assurance peut amener à l’éviction des bons

conducteurs du marché.L’auteur ne trouve pas de preuve soutenant ces résultats théoriques, mais montre, comme pourles études mentionnées ci-dessus, que ceci pourrait s’expliquer (au moins partiellement) par uneconception erronée des risques par les assurés.

D’autres études trouvent des résultats empiriques en accord avec les prédictions théoriques.A titre d’exemple, on peut mentionner Shi et al. (2012), qui a exploité les données d’un grandassureur auto de Singapour et a utilisé une approche par copule, en modélisant conjointementle choix de couverture de l’assuré et sa sinistralité. Un autre exemple dans ce sens est présentépar Spindler et al. (2013), qui a analysé le marché de l’assurance automobile en Allemagne eta montré que l’ampleur de l’asymétrie d’information est dépendante du degré de couverture etdu risque couvert.

Les principales raisons entraînant la non-identification empirique de l’antisélection

Comme mentionnée ci-dessus, une des raisons entraînant la non-identification empirique del’antisélection concerne l’hypothèse d’auto-appréciation du niveau de risque par chaque indi-vidu, impliquée par les modèles théoriques. En manque d’expérience, les jeunes conducteursne sont pas capables de s’autoévaluer objectivement et donc leur choix d’assurance est trèssubjectif.

Une autre raison à la base de ces résultats pourrait être le processus efficace de souscriptionmis en place par les compagnies d’assurance, qui discrimine bien les individus à haut risque etpermet donc aux compagnies d’assurance de définir et maîtriser leur appétit au risque.

Finalement, on pourrait aussi envisager que certains assurés très averses au risque de-mandent plus d’assurance et ont finalement moins de sinistres. Cet effet opposé à l’antisélection,appelé "sélection avantageuse" (eng : advantageous selection), n’a pas été considéré par la théo-rie classique sur la sélection. Il est la conséquence du fait que les individus plus averses aurisque achètent une assurance plus complète, mais ils prennent également plus de précautionset s’engagent dans des activités moins risquées, ce qui impacte à la baisse leur sinistralité.

8

Page 18: Par: Cristina Sontu

1.1.3 Segmentation dans le contexte de l’antisélection et des contrainteslégales à la tarification

Le lien existant entre les caractéristiques hétérogènes des assurés et la sinistralité observéedonne la possibilité aux assureurs de faire varier la prime d’assurance en fonction de celles-ci.Cette technique, appelée segmentation, est définie comme suit. 6

Définition : Segmentation

"On qualifie de segmentation toute technique que l’assureur utilise pour différencier laprime, et éventuellement aussi la couverture, en fonction d’un certain nombre de caracté-ristiques spécifiques au risque à assurer, et ce afin de parvenir à une meilleure concordanceentre les coûts qu’une personne déterminée met à charge de la collectivité des preneursd’assurance et la prime que cette personne doit payer pour la couverture offerte."

Le processus de segmentation ne consiste pas uniquement dans la discrimination tarifairedes individus, mais elle comporte différentes étapes qui sont résumées dans la Figure 1.3.

L’antisélection peut intervenir à chaque étape de ce processus. Nous allons présenter unexemple sur l’importance de la segmentation tarifaire a priori pour éviter l’antisélection, dansun contexte de concurrence accrue entre les assureurs.

Figure 1.3 – Les différentes étapes de la segmentation

Supposons qu’on a deux compagnies d’assurance A et B. Les deux possèdent les mêmesinformations sur les individus, mais la compagnie A a trouvé une variable tarifaire supplémen-taire qui permet de pousser plus loin la segmentation qu’elle applique. Ainsi, pour une classede risque donnée, si l’assureur A propose une prime égale à 110 pour les hauts risques et 90pour les bas risques, alors la prime proposée par l’assureur B correspond au niveau de risquemoyen, donc 100, sous hypothèse de catégories équipondérées d’après cette nouvelle variable.

Type individu / type assureur Assureur A Assureur BIndividu à haut risque 110 100Individu à bas risque 90 100

Dans cet exemple l’assureur B sera une victime de l’antisélection, car il va se retrouver avectous les individus à haut risque dans son portefeuille. En effet, tous les bas risques choisiront

6. Denuit, Michel, et Arthur Charpentier, 2004. "Mathématiques de l’assurance non-vie." Tome I. Economica,162.

9

Page 19: Par: Cristina Sontu

l’assureur A, qui leur propose une prime plus faible. Les hauts risques choisiront le tarif non-segmenté, alors que leur vrai risque est plus élevé que le montant qu’ils doivent payer.

Encadrement légal des variables tarifaires

Les variables utilisées par les assureurs pour segmenter les assurés et définir leurs profils derisque sont d’une riche variété et origine. Traditionnellement, pour leurs modèles de tarification,les compagnies d’assurance s’appuient notamment sur des critères sociaux, économiques etdémographiques comme : l’âge, la situation professionnelle, le statut marital, la région habitéeetc. Pour les produits d’assurance auto, des informations spécifiques concernant le véhicule etses antécédents sont demandées comme : l’année de production, l’année d’achat, le modèle, lesantécédents d’assurance du véhicule etc.

Le sexe a été longtemps utilisé comme variable tarifaire lors du calcul des primes d’assurance.En assurance auto, celui-ci est considéré comme une variable explicative très significative pourdécrire le niveau de risque d’un individu. Si elle est légitime d’un point de vue actuariel, lasegmentation selon le sexe de la personne a été contestée légalement. C’est dans ce cadre quele 13 décembre 2004, la Commission Européenne a adopté la directive 2004/113/CE, qui met"en œuvre le principe de l’égalité de traitement entre les femmes et les hommes dans l’accèsà des biens et services et la fourniture de biens et services" et interdit donc de prendre enconsidération le critère du sexe pour calculer les primes et les prestations d’assurances.

Cependant, l’article 5, paragraphe 2, de cette directive permettait aux États membres del’UE de déroger à cette règle. Ce n’est que le 1er mars 2011 que la Cour de Justice de l’UnionEuropéenne a choisi de mettre un terme à cette dérogation. Ainsi, à partir du 21 décembre2012, les compagnies d’assurance doivent fixer des primes et des prestations unisexes.

Cette décision a constitué un catalyseur pour la recherche et le développement d’autrestechniques de segmentation qui pourraient compenser la perte d’une variable tarifaire impor-tante. L’émergence du Big Data et implicitement, des variables tarifaires possibles, a égalementconstitué un facteur déterminant dans ce sens. C’est dans ce contexte que l’assurance autoconnectée a connu un développement accéléré et qu’un grand nombre d’assureurs se sont lancésdans une spirale de segmentation, qui peut présenter plusieurs dangers pour la société.

1.1.4 Les risques liés à la sur-segmentation

La motivation commerciale des assureurs à segmenter de plus en plus afin d’estimer lerisque de manière plus précise que leurs concurrents les incite à se lancer dans une spirale desegmentation. Celle-ci présente plusieurs dangers tant pour les assureurs que pour les assurés.

Remise en cause du principe de mutualisation

La mutualisation des primes et des risques est un des principes fondateurs de l’assurance.Elle permet à tout assuré d’être indemnisé en fonction du niveau des garanties souscrites,indépendamment de son ancienneté d’assurance. Pour être valide d’un point de vue statistique,cette mutualisation doit s’appliquer au sein d’une population de risques homogènes, d’où le

10

Page 20: Par: Cristina Sontu

besoin des assureurs de segmenter et de regrouper les individus dans des classes de risquepotentiellement identiques, où toute variation serait due uniquement à l’aléa.

D’un côté, l’application de la loi des grands nombres requiert un nombre suffisant d’individusdans chaque classe. D’un autre côté, le nombre croissant de variables tarifaires diminue l’effectifdes segments. 7 La question du bon équilibre entre segmentation et mutualisation est à l’ordredu jour des organismes réglementaires.

La sélection des risques peut transformer la segmentation en facteur d’exclusion sociale :certaines personnes se retrouvent dans l’impossibilité de souscrire une assurance. Pour quelquesassurances obligatoires (RC automobile, l’assurance construction, l’assurance des catastrophesnaturelles et l’assurance de la RC médicale), un organisme d’État a été mis en place - le BureauCentral de Tarification (BCT). Celui-ci peut fixer la prime moyennant laquelle une compagnied’assurance ayant la possibilité légale de couvrir le risque proposé devra le garantir. En pratique,l’individu doit choisir l’entreprise d’assurance auprès de laquelle il souhaite être assuré et celapeut être sur la base du tarif de celle-ci que le BCT peut obliger l’assureur désigné à acceptercette personne.

Diminution de la rétention client

L’émergence du risque de sur-segmentation implique aussi un risque d’augmentation du tauxde résiliation des contrats par les clients. La numérisation a accéléré la vitesse de circulationde l’information et les assurés peuvent désormais facilement découvrir les nouvelles offres lesciblant. La très forte augmentation du trafic sur les sites des comparateurs d’assurance, quiclassent les compagnies d’assurance en fonction du tarif proposé, vient confirmer ce fait. 8

La loi n. 2014-344 du 17 mars 2014, dite « loi consommation » ou « loi Hamon », permetde résilier plus facilement les contrats d’assurance. Entrée en vigueur le 1er janvier 2015, cetteloi prévoit la résiliation des contrats tacitement reconductibles, sans frais ni pénalités, un anaprès la souscription. En plus, les clients n’ont aucune démarche à faire car c’est la compagniequi se charge de faire le changement d’assureur. Ceci augmente naturellement la mobilité desassurés et vient donc accroître le risque d’attrition.

Pour l’assureur, la valeur des clients augmente avec la durée de leur rétention en portefeuille(la duration). Plus les clients sont fidèles, plus l’entreprise peut rentabiliser les coûts investislors de la souscription pour l’attirer. Par conséquent, une rotation fréquente des clients vientdiminuer la profitabilité des assureurs.

Pour l’assuré, il est évident que le fait de pouvoir plus facilement changer d’assureur etd’avoir à tout moment accès aux prix des différentes offres du marché est un élément positif.Cependant, ce modèle a aussi des limites, puisque poussé à l’extrême, les assurés pourraientchanger chaque année d’assureur et ne plus savoir les modalités de prise en charge en cas desinistre. Le modèle anglais, au sein duquel la durée de rétention des assurés est très faible,semble atteindre ce type de limites.

7. Cela baisse la robustesse des estimations et pose un risque de sur-apprentissage des modèles tarifaires.8. Hausse moyenne de 18,5% par an en 2012-2015, selon l’étude Xerfi "Les comparateurs s’efforcent de

conquérir le marché français".

11

Page 21: Par: Cristina Sontu

Dans cette partie, nous avons abordé le phénomène de l’antisélection du point de vuethéorique et empirique et nous avons présenté les mesures prises par les compagniesd’assurance pour le contourner ainsi que les conséquences que celles-ci impliquent pourles agents. La recherche de nouvelles sources d’information ou de nouvelles techniquespermettant d’améliorer la précision de la segmentation sont parmi les principaux leviersdes assureurs pour se prémunir contre ce risque.

Dans la suite, nous allons découvrir un autre phénomène qui vient perturber le fonc-tionnement du marché de l’assurance - l’aléa moral.

1.2 Aléa moral

L’aléa moral est un autre effet observé sur le marché de l’assurance et lié à l’asymétried’information entre l’assuré et l’assureur. Il apparaît lorsque la fréquence et/ou la sévérité dusinistre couvert dépend d’une action préventive que l’assuré pourrait prendre, mais qui n’estpas observable par l’assureur. Cependant, comme cette action demande à l’assuré un certaineffort ou coût, il n’aura pas la motivation à le faire s’il ne porte plus le risque et qu’il l’a cédécomplètement à la compagnie d’assurance. Par exemple, une personne qui a une assuranceautomobile en tous risques 9 peut avoir un comportement de conduite plus risqué et être plusnégligente avec sa voiture que si elle était assurée au tiers 10.

1.2.1 Modèle théorique

Nous allons reprendre ici un modèle théorique pour représenter les enjeux posés par l’aléamoral dans le secteur de l’assurance.

Par rapport au modèle théorique sur la sélection adverse (section 1.1), ici les individus sonttous identiques et ils diffèrent seulement dans leur choix de faire ou ne pas faire d’effort deprévention. Soit U son utilité ; e le niveau d’effort ; c le coût d’effort ; qi son niveau de risque,avec i ∈{H,L} ; wf la richesse selon l’état de la nature, avec f = 1 s’il n’a pas d’accident etf = 2 en cas d’accident. Lorsqu’un individu fait un effort, alors :

— e est égal à 1— qi = qL— U = u(wf )− c

Si l’assuré ne prend pas de mesure préventive :— e est égal à 0— qi = qH— U = u(wf )L’asymétrie d’information entre les deux agents vient du fait que l’assureur n’observe pas

le niveau d’effort de l’individu : donc il ne sait pas dans quelle catégorie de risque l’assurer.

Pour motiver l’individu à développer un comportement auto-protecteur, l’assureur doit pro-poser un contrat tel que l’utilité espérée de l’individu (1 − qi)u(w1) + qiu(w2) en cas d’effort

9. L’assurance tous risques est l’assurance la plus complète, couvrant un haut niveau de garanties pour leconducteur et pour son véhicule : responsabilité civile + dommages.10. L’assurance au tiers garanti uniquement les risques responsabilité civile.

12

Page 22: Par: Cristina Sontu

soit supérieure à celle qu’il a par défaut (sans prendre aucune mesure préventive). Le contratdoit donc satisfaire la contrainte d’incitation suivante :

(1− qL)u(w1) + qLu(w2)− c ≥ (1− qH)u(w1) + qHu(w2)<=> (qH − qL)[u(w1)− u(w2)] ≥ c.

La dernière inégalité nous suggère que la différence d’utilité entre les 2 états de la naturedoit être suffisamment grande pour compenser le coût de l’effort. Pour représenter la contrainted’incitation graphiquement, nous la réécrivons :

w2 ≤ δ(w1), avec δ(w1) = u−1[(w1)− c

qH−qL

], δ′ > 0 et δ(w1) < w1

Figure 1.4 – Optimalité avec incitation à l’effort

La Figure 1.4 montre que le contrat optimal proposé par l’assureur (cf. point B sur legraphique ci-dessus) qui maximise l’utilité de l’individu (cf. courbe d’indifférence en orange)sous la contrainte d’incitation à l’effort (cf. courbe bleue), est à couverture partielle - la richesseen cas de sinistre est inférieure à celle sans sinistre. Comme dans la section précédente, il va sesituer sur la droite actuarielle, car les assureurs sont en concurrence.

L’intuition derrière ce résultat est que pour motiver les assurés à prendre plus de précautionsil faut laisser une partie du risque à leur charge. En ayant une couverture partielle, ils devrontaussi participer en cas de sinistre, donc seront plus incités à prendre des mesures préventives,même si elles requièrent un effort supplémentaire. Il y a donc un arbitrage entre l’assurance etl’incitation à l’effort.

Comparaison des résultats du modèle d’aléa moral avec ceux du modèle de sélectionadverse

La conclusion obtenue dans cette partie est qu’un contrat à couverture partielle favorise lecomportement auto-protecteur et diminue le risque. Il y a donc une corrélation positive entre lacouverture et le risque - un résultat similaire au modèle de Rothschild-Stiglitz (1.1.1) est ainsiobservable.

Cependant, la direction de causalité est différente dans les deux problèmes et correspondégalement à l’étape où ce problème se pose : avant ou après la signature du contrat. D’un côté,

13

Page 23: Par: Cristina Sontu

la sélection adverse prévoit que si un individu est plus risqué, alors il préférera les contrats avecune plus grande couverture. De l’autre côté, sous aléa moral, l’individu avec une couvertureplus grande aura moins d’incitation à adopter un comportement auto-protecteur et sera doncplus risqué.

Ainsi, le test empirique de présence d’une corrélation positive entre le risque et la couverturepeut être suffisant pour mesurer l’ampleur agrégée de ces deux phénomènes, mais, comme vudans la partie 1.1.2, leur différentiation est très difficile en pratique.

1.2.2 Modalités de réduction de l’aléa moral

Avec le temps, les assureurs ont développé diverses méthodes pour diminuer l’aléa moral etinciter les individus à prendre des mesures pour réduire leur risque.

Nous allons voir que les contrats prévoient désormais des modalités d’indemnisation spéci-fiques, principalement basées sur des franchises, de façon à ce que l’asymétrie d’information neconstitue plus un problème majeur.

En plus, comme ce phénomène affecte négativement la société entière, l’État joue son rôlede protecteur social et intervient. Nous allons donc également voir l’utilité des systèmes debonus-malus dont le but est d’inciter les individus à conduire mieux et avoir moins d’accidents.

Conséquences sur les modalités d’indemnisation

Il n’est pas optimal de proposer des contrats à couverture complète du risque, comme celaa pu être évoqué lors de la présentation du modèle théorique d’aléa moral. Ainsi, les assureursproposent habituellement des contrats à franchise.

(a) Effort impactant uniquement laprobabilité d’accident

(franchise absolue)

(b) Effort impactant la probabilitéd’accident et la distribution de la

charge

Figure 1.5 – Structure optimale d’indemnisation sous aléa moral

Le type de franchise optimale dépend du lien entre le comportement d’auto-protection del’assuré et sa sinistralité. La fixation d’une franchise non-proportionnelle (franchise absolue ourelative) est recommandée lorsque l’effort préventif affecte la probabilité d’accident de l’assuré.Cependant, s’il a également un impact sur la distribution conditionnelle de la charge du sinistre,

14

Page 24: Par: Cristina Sontu

alors il est optimal de combiner la franchise non-proportionnelle avec une proportionnelle, quidépend du coût du sinistre. Ainsi, l’assuré sera encore plus motivé à être prudent. Les Figures1.5a et 1.5b illustrent la structure optimale d’indemnisation en fonction de ces 2 cas.

Le assureurs ont donc plusieurs leviers sur la structure du contrat qui peuvent inciter lesassurés à adopter un comportement auto-protecteur.

Le système bonus-malus en assurance automobile

Le système bonus-malus, appelé aussi coefficient de réduction-majoration, représente unemodalité de mesurer le risque par la sinistralité passée, répandue essentiellement en assuranceautomobile. En France, il est réglementé par l’État et son fonctionnement est décrit dans leCode des assurances. Nous allons le résumer ci-dessous.

Lorsque l’assuré conducteur d’un véhicule terrestre à moteur n’a pas des antécédents d’as-surance, son coefficient de réduction-majoration est égal à 1. Chaque année, il diminue de 5%s’il n’a pas eu de sinistre responsable et augmente de 12,5% en cas de sinistre partiellementresponsable et de 25% en cas de sinistre à part de responsabilité entière. 11 Ses valeurs peuventêtre comprises dans l’intervalle [0,5 ;3,5]. Le Tableau 1.1 présente l’évolution du CRM pour unassuré qui n’a jamais eu d’accident (partiellement) responsable depuis qu’il était à un CRMégal à 1. Comme on peut le voir, il peut atteindre 50% de bonus sur la prime de référence après13 ans d’antécédents.

Table 1.1 – Évolution du CRM sans sinistre responsable

Année d’assurance CRM Bonus0 1,00 0%1 0,95 5%2 0,90 10%3 0,85 15%4 0,80 20%5 0,76 24%6 0,72 28%7 0,68 32%8 0,64 36%9 0,60 40%10 0,57 43%11 0,54 46%12 0,51 49%13 0,50 50%

Le bonus-malus permet à la compagnie d’assurance de mieux cerner le risque de l’individuet d’adapter son tarif en fonction de celui-ci. Il permet de prendre en compte non seulement lasinistralité sur les 3 dernières années (comme c’est souvent le cas à la souscription), mais donneaussi une appréciation de son comportement de conduite sur un plus long terme.

De plus, son caractère obligatoire incite les individus à adopter une conduite prudente.

11. Coefficients valables pour un usage différent des "tournées régulières".

15

Page 25: Par: Cristina Sontu

Ainsi, cet outil actuariel aide les compagnies d’assurance à diminuer l’asymétrie d’informationdue à la sélection adverse et à l’aléa moral.

Le transfert de l’exposition au risque de l’assuré vers l’assureur peut rendre le premiermoins prudent, ce qui impacte non seulement la profitabilité de l’assureur, mais aussi lasociété dans son ensemble.

L’assureur peut donc ajuster le contrat afin d’inciter les individus à être plus prudentset s’assurer que l’assuré fait bien un effort pour ne pas avoir de sinistre.

Nous allons maintenant approfondir le cas de la fraude à l’assurance qui constitue unautre aspect de l’asymétrie d’information en assurance et qui engendre un biais dans larelation assureur-assuré que l’assureur s’efforce de minimiser.

1.3 Fraude à l’assurance

La fraude à l’assurance constitue le fait de mentir ou d’oublier volontairement des informa-tions à la souscription ou lors de la déclaration d’un sinistre afin de faire baisser sa cotisationou d’augmenter le montant des indemnisations perçues. Selon l’Agence pour la Lutte contrela Fraude à l’Assurance 12, cette asymétrie d’information est un vrai enjeu financier pour lesecteur et coûte 2,5 milliards d’euros, soit 2% des primes brutes collectées en assurance non-vieen France pour l’année 2015.

Plusieurs types de fraude sont possibles, mais on peut les classer globalement dans deuxcatégories : la "hard fraud" et la "soft fraud". La première implique une organisation ou uneplanification de sinistre, alors que la deuxième a lieu lorsque l’assuré exagère le montant desa perte ou omet de donner toutes les informations nécessaires à l’assureur pour que celui-ciévalue correctement son profil de risque.

1.3.1 Modèle théorique

Dans cette section nous présentons un modèle simple de fraude à l’assurance, qui consisteà déclarer un sinistre fictif.

Soit θ la proportion des fraudeurs potentiels dans la population assurée. Ceux-ci déclarentun sinistre fictif, afin de bénéficier d’une indemnisation I, sachant que, s’ils sont démasqués(avec une probabilité x), ils risquent non seulement de ne pas la recevoir, mais également depayer une amende B. On reprend les mêmes notations que dans les chapitres précédents : Ppour la prime d’assurance, w0 pour sa richesse initiale, u pour la fonction d’utilité et q pourla probabilité d’accident (fixe, car nous considérons une homogénéité du risque de sinistralitéentre les individus).

L’utilité de l’individu s’il n’a pas de sinistre est la suivante :— u(w0 − P ) s’il ne fraude pas ;

12. Comme son nom l’implique, cette association créée en 1989 a comme mission la promotion de la luttecontre la fraude à l’assurance en France.

16

Page 26: Par: Cristina Sontu

— u(w0 − P + I) s’il fraude et n’est pas détecté ;— u(w0 − P −B) s’il fraude et est détecté.

Un individu a une probabilité 1− x de ne pas être audité et de rester avec une richesse dew0 − P + I, et une probabilité x d’être audité et d’avoir une richesse de w0 − P − B. Ainsi, ildécide de frauder si son utilité espérée suite à la fraude est supérieure à celle de ne pas frauder :

(1− x)u(w0 − P + I) + xu(w0 − P −B) ≥ u(w0 − P ).

Donc la fraude est un comportement optimal pour un individu rationnel (homo economicus),lorsque la probabilité d’être audité x satisfait la condition suivante :

x <u(w0 − P + I)− u(w0 − P )

u(w0 − P + I)− u(w0 − P −B) .

Le "seuil de déclenchement" de la fraude est donc une fonction croissante du montant del’indemnité à percevoir I et décroissante du montant de l’amende à payer B.

Supposons qu’auditer coûte c à l’assureur, alors la prime actuarielle est la suivante :

P = q

[I + c

u(w0 − P + I)− u(w0 − P )u(w0 − P + I)− u(w0 − P −B)

].

La Figure 1.6 présente le contrat optimal (point B) dans ce contexte. Ainsi, l’utilité del’individu est maximisée lorsque I < L, donc lorsque la couverture est partielle : l’indemnisationproposée doit être inférieure à la charge du sinistre. L’intuition est qu’une couverture plusbasse décourage la fraude, donc les primes actuarielles baissent et l’utilité espérée des individushonnêtes augmente.

Figure 1.6 – Optimalité avec dissuasion de la fraude

Si les assureurs ne luttent pas contre la fraude, alors tous les opportunistes vont frauder etla prime actuarielle devient :

P = [q + θ(1− q)]I.

17

Page 27: Par: Cristina Sontu

Lorsque la proportion des fraudeurs θ est petite, ce n’est pas optimal d’auditer les sinistres,car sinon le coût de l’audit serait trop grand par rapport au bénéfice apporté par la dissuasionde la fraude.

1.3.2 Solutions contre la fraude à l’assurance

Dispositions réglementaires

Le Code des assurances prévoit des sanctions civiles en cas de fraude à l’assurance. Cepen-dant, en cas d’escroquerie ou de faux en écriture, des actions pénales peuvent également êtrelancées à l’encontre des fraudeurs.

Lorsque la fraude est catégorisée comme une "fausse déclaration intentionnelle", l’articleL113-1 du Code des assurances prévoit la nullité du contrat d’assurance : "[...] l’assureur nerépond pas des pertes et dommages provenant d’une faute intentionnelle ou dolosive de l’assuré".Le contrat est dit de ne jamais avoir existé et le titulaire de la police doit alors rembourser leséventuelles indemnités perçues dans les dernières deux années. Les primes d’assurance payéessont conservées au titre de dommages et intérêts (article L113-8).

A titre d’exemple, les conséquences pour le fraudeur peuvent être les suivantes :— La résiliation du contrat d’assurance (ce qui implique une prime plus élevée pour le

prochain contrat d’assurance souscrit, car la plupart des compagnies demandent desinformations sur les antécédents d’assurance) ;

— Une amende allant jusqu’à 375 000 euros et une peine d’emprisonnement de maximum5 ans (article 313-1 du Code pénal) ;

— Une interdiction de conduire pendant une période délimitée etc.

L’exagération intentionnelle de la gravité d’un sinistre entraîne la déchéance de garantie.Ceci implique un refus de prise en charge du sinistre en cause de la part de l’assureur, mais lecontrat n’est pas résilié - la période après la survenance de ce sinistre reste couverte.

Mesures à disposition des compagnies d’assurance

Les assureurs peuvent eux aussi se protéger des tentatives de fraude. Outre la prédiction dela fraude (techniques de scoring et data mining) à partir des variables traditionnelles, l’explo-ration des données non-structurées (par ex : les appels vocaux) gagne en ampleur et peut êtrerévélatrice d’un comportement frauduleux.

Un autre outil très commun à leur disposition reste la sélection des risques. Un assureur peutexclure de sa cible les profils les plus susceptibles à frauder. Par exemple, on peut mentionnerle segment des parents qui mettent leur enfant en conducteur secondaire plutôt que principalpour éviter la surcharge appliquée aux jeunes conducteurs. Celle-ci constitue une des fraudesles plus fréquentes et elle est très difficile à auditer.

18

Page 28: Par: Cristina Sontu

Nous avons utilisé ce chapitre pour expliquer l’asymétrie d’information existante surle marché de l’assurance et ses conséquences pour les agents. Nous avons vu pourquoiles assureurs cherchent constamment à segmenter plus finement leurs tarifs, quand ilsdoivent proposer des assurances à couverture incomplète et quels sont leurs leviers pourdiminuer la sinistralité de leur portefeuille.

Ce chapitre sur l’économie de l’information vient justifier la sélection des risquesopérée par les compagnies d’assurances et l’intérêt naturel de celles-ci pour l’assurancetélématique.

Nous allons présenter plus en détail ce type d’assurance ainsi que son émergence etson développement et nous allons passer en revue ses avantages et ses inconvénients tantpour l’assureur que pour l’assuré.

19

Page 29: Par: Cristina Sontu

Chapitre 2

L’assurance télématique : uneréduction de l’asymétried’information ?

L’assurance télématique, également nommée assurance connectée, assurance comportemen-tale ou usage-based insurance UBI 1 est un type d’assurance auto qui a révolutionné ces dernièresannées le secteur par son caractère innovant et perturbateur. La technologie qu’elle embarqueet l’information collectée par l’assureur lui permet de mieux connaître le risque de son assuréet réduire ainsi l’asymétrie d’information caractéristique de la relation entre ces deux agentsque nous avons présentée dans le Chapitre 1.

La structure tarifaire de l’assurance télématique diminue l’aléa moral ; les données sur laconduite affinent la segmentation et réduisent le risque d’antisélection ; son tarif basé sur lecomportement de conduite permet de décourager la fausse déclaration à la souscription etc. Sesnombreux avantages, ainsi que les services additionnels qu’elle rend possibles ont fait d’elle unproduit phare, adopté par de plus en plus d’assureurs.

La télématique est le domaine au carrefour des services de télécommunication et de l’in-formatique. La technologie utilisée permet une collecte de données sur la position et le mou-vement du véhicule. L’assurance télématique consiste à utiliser ces informations pour ajusterla prime d’assurance en fonction du kilométrage et/ou comportement de conduite du véhicule.

Malgré son développement relativement récent, l’assurance connectée a attiré l’attentiondes assureurs depuis longtemps, mais l’enthousiasme initial a été découragé par les coûts élevésd’installation du dispositif, sa complexité, ainsi que par la réticence des individus à souscrire cenouveau produit d’assurance. L’apparition des smartphones, des voitures connectées, l’élargis-sement des capacités de stockage et d’analyse des données, combiné avec un processus d’instal-lation plus facile et moins cher, ont permis un regain d’intérêt pour l’assurance connectée cesdernières années.

L’intérêt croissant des assureurs pour le UBI peut être également expliqué par l’environ-nement du marché de l’assurance auto ces dernières années, caractérisé par une compétitionacerbe entre les assureurs, par la persistance des taux d’intérêt bas et l’augmentation continuedes coûts des sinistres. Par ailleurs, les récentes contraintes réglementaires pesant sur la tarifi-

1. Toutefois, ces définitions ne sont pas parfaitement équivalentes.

20

Page 30: Par: Cristina Sontu

cation des contrats auto ont catalysé la nécessité de pousser plus loin la segmentation tarifaire,afin de mieux estimer le risque de l’assuré.

Dans la suite, nous décrivons plus en détail les différents types d’assurance télématique etleur développement dans le monde. Ensuite, nous résumons les bénéfices et les inconvénientsposés par ce produit à deux agents du marché de l’assurance. Pour conclure, nous présentonsla première assurance connectée en France - YouDrive, sur laquelle ce mémoire se base.

2.1 Émergence et développement de l’assurance téléma-tique

2.1.1 Le contexte du marché de l’assurance non-vie favorable audéveloppement de l’assurance télématique

Ces derniers années, le contexte du marché de l’assurance non-vie a été très propice audéveloppement de l’assurance télématique. Outre l’émergence du Big Data et des technologiesavancées de collecte et traitement de données qui viennent avec, d’autres facteurs ont égalementcontribué à son développement.

Stagnation des cotisations et hausse du coût des sinistres

Dans les pays développés, le secteur de l’assurance non-vie a déjà atteint un niveau élevéde maturité, caractérisé par un grand nombre de compétiteurs et par un ralentissement de lacroissance du niveau des primes (cf. Figure 2.1). Bien que le parc de véhicules assurés augmenteen moyenne de 1,4% par an depuis 2011 (l’assurance automobile est le segment le plus importantde l’assurance non-vie), la croissance des primes a stagné.

Figure 2.1 – La croissance du marché mondial de l’assuranceSource données : Swiss Re

21

Page 31: Par: Cristina Sontu

Un autre facteur influençant directement la profitabilité des assureurs est le coût des si-nistres. En France, en assurance auto, celui-ci est à la hausse, notamment à cause de l’aug-mentation du coût moyen des accidents corporels, qui présente une hausse moyenne de +4,8%par an depuis 2010 (cf. Figure 2.2). La fréquence de ces sinistres augmente également, mettantfin à une série ininterrompue de baisse depuis 1996. Le taux moyen de croissance du coût desaccidents matériels est de +1,6% / an dans le période 2010 - 2016 et est essentiellement expliquépar le coût croissant des pièces de rechange.

Figure 2.2 – Évolution de la sinistralité auto en FranceSource graphique : LeLynx.fr | Source données : FFA 2016(e)

Dans ce contexte, l’assurance automobile est parfois considérée comme un produit d’appelsur lequel les assureurs peuvent difficilement générer un profit. Ainsi, la possibilité de créer unnouveau produit disruptif qui pourrait changer leur rentabilité sur ce segment est au cœur dela stratégie de nombreux assureurs.

Ralentissement de la rentabilité financière des assureurs et les contraintes régle-mentaires liées à la tarification

Outre leur activité principale, une partie du profit des assureurs est due aux placementsfinanciers des provisions mises de côté en vue de faire face aux indemnisations futures. Si avantla crise financière de 2008 cette activité pouvait compenser les éventuelles pertes dues à leuractivité technique, actuellement elle est de moins en moins rentable à cause des taux d’intérêtsbas. 2

La Figure 2.3 présente l’évolution des revenus financiers et des plus-values réalisées enassurances de biens et de responsabilité en France (en % des primes). Cette figure présenteégalement le taux moyen de rendement des emprunts d’État et des obligations assimilables duTrésor émises par l’État français, à taux fixe, et d’une durée supérieure à 7 ans (TME). Il estun vrai indice de la rentabilité financière attendue par les assureurs, car ceux-ci placent 61%de leurs actifs en obligations, ce qui leur donne un vrai statut d’investisseurs institutionnels etun rôle important dans le financement de l’économie.

2. FFA, 2015. "Tableau de bord de l’assurance." https://www.ffa-assurance.fr/content/tableau-de-bord-de-assurance-en-2015/

22

Page 32: Par: Cristina Sontu

Figure 2.3 – Revenus non-techniques des assureurs non-vie et TMESource données : FFA, Banque de France

Les contraintes liées à la segmentation tarifaire constituent une autre prémisse favorableà la recherche de variables tarifaires autres que celles obtenues traditionnellement. Commementionné auparavant, le 1er mars 2011, la Commission Européenne a décidé d’interdire ladistinction des primes d’assurance entre les femmes et les hommes, toutes choses égales parailleurs. Pourtant, le genre était une des variables les plus significatives et qui, en interactionavec les autres, permettait de bien discriminer les bons conducteurs des moins bons. Cettenouvelle contrainte a motivé les assureurs à chercher d’autres critères de segmentation.

On pourrait mentionner de nombreux autres facteurs décrivant le contexte du marché del’assurance non-vie, favorables au développement de l’UBI, comme : la digitalisation du mondefinancier, l’accroissement de la compétition entre les assureurs suite aux lois Hamon et Chatelet à l’essor des agrégateurs de prix etc.

2.1.2 Les différentes types d’assurance comportementale et les pre-miers pionniers du domaine

L’assurance comportementale a connu un développement vertigineux ces derniers années.Pourtant, il ne s’agit pas d’un concept très récent. Les premiers produits ont été lancés avantles années 2000 et ont connu différentes formes. On peut les diviser dans deux catégories :

— les polices basées sur l’auto-déclaration ;— les polices télématiques.Les premières proposent un tarif basé sur la déclaration régulière par l’assuré de la distance

qu’il a parcouru, tel qu’enregistré par son odomètre. Ainsi, au lieu de baser le tarif sur uneestimation forfaitaire du kilométrage, ce produit permet de tarifer en fonction de l’utilisationréelle du véhicule.

Comme il s’agit d’une auto-déclaration, les compagnies d’assurance effectuaient des vérifi-cations systématiques. Cependant, ce système présente un risque élevé de fraude, d’autant plusque les odomètres sont assez facilement manipulables. Parmi les premiers pionniers du domaine,on peut mentionner la "police kilométrage" introduite par Polis Direct en 2004 aux Pays-Bas,

23

Page 33: Par: Cristina Sontu

qui proposait des remises allant jusqu’à 50%, mais aussi des augmentations si le kilométrageréel était supérieur à celui déclaré à la souscription.

De nombreux types d’assurance télématique existent, leur fonctionnement est basé sur unboîtier, un smartphone ou sur le véhicule lui-même, qui rend automatique la déclaration de plu-sieurs paramètres du véhicule. Selon ces paramètres, on distingue deux catégories d’assurancestélématiques :

— Pay As You Drive (fr : Payez lorsque vous conduisez) ;— Pay How You Drive (fr : Payez comme vous conduisez).

Pay As You Drive (PAYD)

Tout comme les polices basées sur l’auto-déclaration, les polices PAYD promettent uneremise en fonction du kilométrage réel du véhicule. Leur fonctionnement est, en général, basésur un dispositif GPS installé dans le véhicule, qui peut enregistrer non seulement le kilométrageeffectué, mais aussi la localisation du véhicule, l’heure etc. Ainsi, plusieurs services additionnelspeuvent être proposés par les assureurs, comme :

— une localisation du véhicule en cas de vol ;— une information en temps réel sur le trafic routier ;— une assistance en cas d’urgence etc.

La première compagnie d’assurance à avoir proposé ce type de police est Hollard Insu-rance. L’offre a été lancée sur le marché de l’Afrique de Sud en 2006 et s’adressait aux petitsconducteurs. Des remises allant jusqu’à 30% étaient proposées et la souscription était ouverteseulement sur les canaux directs de distribution.

Pay How You Drive (PHYD)

Les polices PHYD proposent un tarif en fonction du comportement de conduite des conduc-teurs et leur objectif est de s’approcher encore plus que les polices PAYD du vrai risque portépar ceux-ci. Leur fonctionnement se base sur la transmission des données de conduite à l’assu-reur. Ceci peut être fait par le véhicule lui-même, via le téléphone mobile de l’assuré ou par lebiais d’un boîtier branché sur le port OBD 3 du véhicule.

En général, les boîtiers télématiques s’appuient sur quatre éléments principaux :— une puce GPS, qui collecte des données sur la conduite du véhicule ;— un accéléromètre, qui permet de déceler une conduite dite agressive ;— une carte SIM, qui transmet l’information via les réseaux téléphoniques ;— un firmware (logiciel informatique) qui lui permet d’organiser le fonctionnement des

capteurs ainsi que la transmission d’information.

Les données capturées par les boitiers peuvent être croisées avec d’autres données externes,comme la météo, le trafic aux alentours et l’allure du véhicule etc. Par ailleurs, la réglementationprévoit que seulement les données dont la finalité a été explicitement décrite dans le contratd’assurance soient collectées, celles-ci sont donc spécifiques pour chaque produit et chaqueassureur.

3. On-Board Diagnostics - un diagnostic embarqué dans la plupart des véhicules produits à partir des années2000

24

Page 34: Par: Cristina Sontu

Actuellement, le tarif des polices PHYD ne dépend pas uniquement du kilométrage et ducomportement de conduite : ces informations viennent compléter la classification du risquebasée sur des variables traditionnelles. Elles viennent donc améliorer la convergence du prixvers le vrai risque couvert. Ainsi, à la souscription, elles s’ajoutent à l’historique de sinistralité,aux données socio-démographiques, aux données sur les véhicules etc.

La première offre PHYD a été proposée par Liberty Mutual en 2009 aux États-Unis et étaitdestinée aux flottes commerciales. Elle était vendue comme une offre qui permet d’augmenterla sécurité des conducteurs, baisser leur prime et leur consommation de carburant grâce à troisindicateurs :

— un indicateur sécurité - basé sur le risque impliqué par le comportement de conduite ;— un indicateur de consommation de carburant ;— un indicateur pour le discount tarifaire (pouvant aller jusqu’à 40%).

2.1.3 Développement et prévisions

Le marché de l’assurance télématique est actuellement dans une phase de forte croissance,qui devrait encore s’accélérer dans les années qui suivent. Proposées tant par les grands assureursque par de petites start-ups, les nombre de lancements est sur une dynamique positive, ayantplus que doublé dans les deux dernières années.

Actuellement, c’est essentiellement trois pays d’Amérique de Nord et d’Europe qui comptentle plus d’offres télématiques : les États-Unis, le Royaume-Uni et l’Italie. Les autres marchésdes pays développés restent toutefois très prometteurs. La France occupe la 3ème place duclassement européen et est un des marchés où l’assurance télématique a le plus de chances de sedévelopper, étant donné le montant élevé des primes et des fraudes à l’assurance. La premièreassurance télématique sur le marché français est YouDrive, lancé en 2015 par Direct Assurance- entité française d’Axa Global Direct, l’assurance directe du groupe AXA.

En Europe, le nombre de clients des assurances télématiques a plus que doublé dans l’inter-valle de deux ans (2013 - 2015). 4. Rien qu’en Italie, le nombre de polices télématiques déclaréen décembre 2015 par Generali, le plus grand assureur italien, dépassait les 800k et représentaitun tiers des affaires nouvelles. Generali a également déclaré une amélioration de ses indicateursopérationnels :

— Une réduction de 5 points du Loss Ratio moyen ; 5

— Une hausse de 3 points du taux de rétention moyen.

La façon dont l’assurance télématique permet d’obtenir de meilleurs résultats techniquesainsi que les contraintes qu’elle implique pour les assureurs et les assurés seront plus amplementdétaillées dans la section suivante.

4. Global Usage-based Insurance Study, 2016, Ptolemus Consulting Group.5. Le Loss Ratio est un indicateur de performance, égal au ratio entre le montant des sinistres à dédommager

sur le montant des primes encaissées.

25

Page 35: Par: Cristina Sontu

2.2 Les bénéfices et les contraintes de l’assurance télé-matique

L’UBI présente plusieurs avantages tant pour les compagnies d’assurance, que pour lesassurés. Il a été montré qu’elle apporte des bénéfices en terme de sinistralité et de rétention, etles assureurs peuvent bénéficier non seulement de primes plus adaptées à leur vrai risque, maiségalement de nombreux services à valeur ajoutée.

Cette assurance innovante a également un objectif sociétal et environnemental. En fournis-sant des données détaillées sur le comportement des assurés et en les incitant financièrementà adopter une conduite prudente, elle joue un rôle de prévention. Elle décourage également laconduite non-nécessaire et contribue ainsi à une diminution de la pollution de l’environnement.

Pour profiter de ces avantages, il faut accepter quelques changements qui peuvent s’avérercontraignants pour les deux agents participant à l’échange.

2.2.1 Du point de vue des assureurs

Un des plus importants avantages que l’UBI présente pour les assureurs est la diminution dela sinistralité. Cela vient de l’impact que l’assurance télématique a sur l’asymétrie d’information,impact que nous présentons dans la suite.

Auto-sélection à la souscription

Comme vu dans la partie 1.1.1, l’antisélection est un phénomène impactant positivementles assureurs qui proposent des tarifs plus segmentés, car ils récupèrent plus d’individus à basrisque. La télématique permet de segmenter plus finement qu’une assurance traditionnelle etde récompenser les bons conducteurs. C’est donc les individus qui conduisent peu et bien quisont les premiers à avoir intérêt à souscrire une assurance PAYD ou PHYD.

Les individus les plus risqués n’aimeraient pas que cette information privée sur leur risquesoit dévoilée par les assureurs et que la prime d’assurance varie en fonction de celle-ci. Ils sontdonc naturellement découragés d’y souscrire.

Ainsi, le portefeuille télématique est composé essentiellement d’individus se considérantcomme de bons conducteurs, capables de se faire récompenser pour leur comportement auvolant.

Antisélection pendant la vie du contrat

Sous réserve que l’assureur parvienne, à partir des données télématiques, à identifier lesconducteurs les moins risqués, l’assurance télématique permettra de les récompenser, en leurproposant des primes inférieures à celles qu’ils auraient pu obtenir avec un produit traditionnel.

Cette segmentation ne se réalise pas uniquement à la souscription. En fait, selon la structuretarifaire du produit d’assurance, les moins bons conducteurs peuvent être pénalisés pour leurconduite et ils auront donc intérêt à résilier leur contrat pour choisir un assureur qui ne tarifiepas en fonction de son comportement au volant.

26

Page 36: Par: Cristina Sontu

Effet psychologique

L’assurance PHYD a également un effet psychologique sur les assurés. Le fait que la récom-pense que ces derniers percevront dépende de leur comportement de conduite responsabilise etincite les conducteurs à être plus prudents au volant. Ce phénomène est encore plus accentuélorsque les assurés ont la possibilité de consulter régulièrement leur performance ou lorsquecelle-ci leur est souvent communiquée.

Par exemple, les flottes utilisant les télématiques pour la gestion du parc automobile ontdéclaré une diminution immédiate dans la fréquence de sinistres, ainsi que dans les coûts decarburant. Ceci est une conséquence du monitoring, qui dissuade l’utilisation des véhicules deservice dans un but personnel.

Cet effet psychologique vient donc réduire l’aléa moral et inciter les assurés à adopter uncomportent auto-protecteur. Il permet de diminuer aussi les cas de fraude à l’assurance.

Autres conséquences bénéfiques de l’assurance télématique

Outre la diminution de la sinistralité, l’assurance comportementale apporte des gains derétention pour l’assureur, ce qui est très apprécié dans le contexte actuel de forte augmentationdes taux de résiliation client. Cet effet s’explique par la transformation de la relation clienten assurance auto. Avec un produit classique, il n’y a que très peu de points de contact avecl’assureur : la souscription, la résiliation, et la déclaration d’un sinistre. Avec les UBI, aucontraire, la fréquence des contacts augmente significativement.

La technologie télématique, une fois mise en place, permet à l’assureur d’augmenter lapalette des services qu’il propose. Par exemple, il peut proposer une assistance plus réactive encas d’accident, la localisation d’un véhicule volé etc. Ces services à valeur ajoutée constituentun vrai plus qui démarque l’offre sur le marché.

Il convient également de mentionner les bénéfices tirés en terme d’image de marque. Lacompagnie d’assurance qui lance un tel produit se construit une image positive d’acteur innovantet soucieux du bien-être de ses assurés.

Ainsi, l’assurance "à l’usage" est une innovation qui permet de diminuer l’asymétrie d’infor-mation entre la compagnie d’assurance et l’assuré, qui a été depuis toujours une caractéristiqueintrinsèque au secteur de l’assurance auto.

Les contraintes impliquées par le lancement d’un produit d’assurance téléma-tique

Tous les produits innovants et disruptifs pour différents secteurs ont été confrontés à denombreuses contraintes lors de leur lancement et développement initial. L’UBI n’en a pas étépréservée.

Une des principales difficultés auxquelles les assureurs sont confrontés c’est la manque deconfiance dans la sécurité des données collectées et la peur d’ingérence dans leur vie privée.En France, la réglementation mise en place et la surveillance de la CNIL permet de donnerconfiance aux assurés potentiel.

27

Page 37: Par: Cristina Sontu

Les régulateurs locaux qui ont pour mission de protéger la vie privée des assurés, ont aussiretardé le lancement de l’assurance connectée. Par exemple, l’initiative de lancement d’uneoffre PHYD par MAAF en 2005 a été bloquée par la CNIL. Le produit était destiné aux jeunesconducteurs et envisageait d’enregistrer les dépassements de vitesse et d’ajuster la cotisationen fonction de celles-ci. La CNIL a fait référence à la loi "Informatique et Libertés" de 1978,qui interdisait la mesure et le stockage des infractions de la loi par des organismes autres quepubliques.

Une autre contrainte non négligeable est le coût de déploiement d’une telle technologie. Lesystème informatique, les boîtiers, le personnel formé et sensibilisé à la data représentent desinvestissements considérables. Cependant, le coût de la technologie a beaucoup diminué depuisles premières tentatives de lancement de l’assurance télématique et les logiciels informatiquespermettant de traiter ces données massives ont vu leur puissance augmenter exponentiellement.

2.2.2 Du point de vue des souscripteurs

Les souscripteurs des produits d’assurances télématiques bénéficient aussi de beaucoupd’avantages. Les plus grands gagnants sont les bons conducteurs, qui paient moins lorsquel’assureur peut observer directement leur comportement de conduite et ne sont donc plus mu-tualisés avec les mauvais conducteurs selon l’homogénéité des autres critères qu’ils partagent.La remise qu’ils reçoivent peut prendre diverses formes : un discount mensuel, un tarif inférieurau renouvellement, des cadeaux de la part de l’assureur etc.

La possibilité d’avoir accès à ses données de conduite et à leur analyse objective est un desgros points forts de l’UBI. Par exemple, les clients de YouDrive (l’assurance connectée de DirectAssurance) ont accès à un tableau de bord qui leur rappelle les trajets parcourus, le score deconduite obtenu, les événements qui se sont produits pendant chaque trajet etc. Cela offre unpoint de vue objectif sur les qualités du conducteur et un feedback qui permet de les améliorer.

En fonction de l’offre souscrite et des possibilités offertes par la technologie télématiqueboîtier, le produit peut augmenter la sécurité du chauffeur. Les boîtiers peuvent éventuellementdétecter les forts impacts sur le véhicule et contacter directement l’assureur, qui, à son tour,peut appeler le conducteur pour s’assurer qu’il n’est pas dans un état grave et appeler lessecours le cas échéant.

Un autre service actuellement proposé par certains assureurs permet de retrouver une voituresi elle a été volée. Le signal GPS permet de localiser le véhicule, à condition que le boîtier nesoit pas repéré et jeté par le voleur.

Les données récoltées par le boîtier peuvent également servir comme preuve lors d’un litige,pour la reconstruction d’un accident, ou même lors de la déclaration du sinistre.

Tous ces services à valeur ajoutée sont soumis à la condition que l’assuré donne son accordsur la collecte et le traitement de ses données de conduite. Ce fait a constitué un vrai frein audéveloppement de l’UBI, notamment en Europe, où les individus sont plus conservateurs faceaux nouvelles technologies qui pourraient soulever des problèmes de confidentialité. Cependant,les données collectées par les boîtiers sont des données à caractère personnel, donc protégéespar la réglementation.

28

Page 38: Par: Cristina Sontu

Les données à caractère personnel et leur réglementation

La loi “Informatique et Libertés” du 6 janvier 1978 a donné une première définition desdonnées à caractère personnel et de leur traitement :

"Constitue une donnée à caractère personnel toute information relative à une personnephysique identifiée ou qui peut être identifiée, directement ou indirectement, par référence à unnuméro d’identification ou à un ou plusieurs éléments qui lui sont propres. Pour déterminer siune personne est identifiable, il convient de considérer l’ensemble des moyens en vue de per-mettre son identification dont dispose ou auxquels peut avoir accès le responsable du traitementou toute autre personne.

Constitue un traitement de données à caractère personnel toute opération ou toutensemble d’opérations portant sur de telles données, quel que soit le procédé utilisé, et notam-ment la collecte, l’enregistrement, l’organisation, la conservation, l’adaptation ou la modifica-tion, l’extraction, la consultation, l’utilisation, la communication par transmission, diffusionou toute autre forme de mise à disposition, le rapprochement ou l’interconnexion, ainsi que leverrouillage, l’effacement ou la destruction."

L’article 6 de la Déclaration Européenne sur la protection des données à caractère personnel(Directive 95/46/CE du Parlement européen et du Conseil, du 24 octobre 1995) stipule quele régime encadrant l’usage des données à caractère personnel doit se conformer à plusieursprincipes, dont on notera :

— le principe de finalités déterminées - les données collectées doivent l’être seulement auregard du but poursuivi ;

— le principe de proportionnalité par rapport aux finalités déclarées et de limitation de ladurée de conservation (minimisation) ;

— le principe de loyauté de la collecte et d’exactitude des données.

La délibération n 2010-096 du 8 avril 2010 6 "portant recommandation relative à la miseen œuvre, par les compagnies d’assurance et les constructeurs automobiles, de dispositifs degéolocalisation embarqués dans les véhicules", accentue la "sensibilité en matière de vie privée"des produits PAYD et PHYD et souligne :

— l’interdiction d’identification des infractions éventuelles du Code de la Route ;— l’obligation de conservation des données relatives à la localisation d’un véhicule seule-

ment pour une durée pertinente au regard de la finalité du traitement qui a justifié cettegéolocalisation ;

— le besoin de transparence et d’objectivité lors du calcul de la prime d’assurance ;— l’interdiction d’utilisation de la vitesse comme variable tarifaire, sauf si elle est moyennée

sur une période délimitée ;— la nécessité de prendre des précautions utiles pour préserver la sécurité et la confiden-

tialité des données traitées.

En conclusion, les produits PAYD / PHYD sont bien réglementés et suivis de près par lesautorités. Dans la section suivante nous allons présenter plus en détail l’assurance télématiqueYouDrive.

6. Cette délibération représente une adaptation de l’article 6 de la Déclaration Européenne aux produitsd’assurance PAYD et PHYD.

29

Page 39: Par: Cristina Sontu

2.3 L’offre télématique YouDrive de Direct Assurance

YouDrive est la première assurance PHYD en France. Elle a été lancée en 2015 par DirectAssurance et est dédiée aux jeunes conducteurs. Plus précisément, le produit est destiné auxjeunes avec moins de sept ans de permis ou sans antécédent d’assurance depuis au moins 2 ans.

YouDrive fournit à ses clients des données détaillées sur leur comportement de conduite,des conseils personnalisés accessibles en temps réel et les incite financièrement à être prudentsau volant. Le principe est simple : « mieux ils conduisent, moins ils payent ».

En effet, une des motivations derrière ce projet est liée à une observation sociétale. Au-jourd’hui, les jeunes de 18-24 ans ne constituent que 8% de la population française, mais ilsreprésentent 17% des tués et près de 19% des blessés hospitalisés. 7 Les jeunes sont le segmentde population payant le plus cher l’assurance automobile et la première cause de mortalité chezeux ce sont les accidents routiers. YouDrive peut ainsi jouer un rôle essentiel dans la mise àdisposition d’une assurance abordable aux jeunes qui seront prudents.

YouDrive mesure la qualité de la conduite à l’aide de la DriveBox, un boîtier gratuit qui sebranche simplement sur la prise OBD du véhicule. L’appareil mesure la qualité de la conduitepar un prisme de 4 indicateurs :

— Les accélérations forcées - accélérer en douceur permet d’être plus réactif face aux situa-tions inattendues, notamment en ville ;

— Les freinages brusques - des freinages importants à répétition traduiront un manqued’anticipation du conducteur ;

— Les virages à vitesse élevée - une allure trop rapide dans un virage augmente les risquesde mal anticiper la sortie de virage ;

— L’allure - la vitesse moyenne de l’assuré est comparée à celle du trafic en temps réel.

Figure 2.4 – Impact du score de conduite sur la cotisation du mois suivant

Une bonne conduite permet de réaliser des économies chaque mois. En fait, les indicateursci-dessus sont synthétisés dans le score de conduite du mois, compris entre 0 et 100. Ce scoreimpacte directement le montant de la prime du mois suivant. Selon ce score, les assurés peuventréduire le coût de leur assurance jusqu’à 40%.

Une autre source de réduction de la cotisation du mois suivant est le kilométrage. Si l’assuréroule moins de 500 km par mois, alors il bénéficie d’une réduction supplémentaire de 10% (cf.

7. Données 2014 pour la France métropolitaine, DSCR / fichiers BAAC.

30

Page 40: Par: Cristina Sontu

Figure 2.4). Ainsi, YouDrive aide les bons conducteurs à économiser jusqu’à 50% de leur primed’assurance.

Le tableau de bord résumant la qualité de conduite est disponible à tout moment sur leurespace personnel. Celui-ci affiche le score du mois, qui est divisé dans quatre sous-scores pourchacun des indicateurs ci-dessus, et il restitue aussi tous les trajets et les données relevées parla DriveBox sur une carte Google Map. Par ailleurs, chaque semaine, les assurés reçoivent lebilan par mail de leur conduite.

Quant au sujet des données personnelles - ce produit respecte à la lettre la réglementationen vigueur et a été conçu en collaboration avec la CNIL. Direct Assurance est complètementtransparente sur les données collectées et la manière dont elles sont analysées et restituées auxassurés. La compagnie s’est également engagée à ne transmettre les données à aucun tiers et àaucune fin de prospection commerciale.

Concernant les garanties offertes pour ce produit, actuellement YouDrive est disponibledans 4 formules. La Figure 2.5 résume les garanties couvertes par chacune d’entre-elles. Troispacks pour améliorer ces garanties sont également disponibles et permettent une extension dela Garantie Personnelle du Conducteur, un prêt de véhicule et une assistance 0 km en cas depanne.

Figure 2.5 – Les quatre formules de YouDrive

Avant de souscrire, les prospects ont la possibilité de tester leur score de conduite via l’ap-plication smartphone gratuite et anonyme YouDriveLite, qui utilise la puce GPS du téléphonepour analyser le comportement au volant. L’application met à la disposition des clients unscore par trajet et un score global, construit jour après jour, qui offre un véritable diagnostic deconduite. Elle a aussi un intérêt ludique, car les utilisateurs qui suivent les conseils personnaliséset l’analyse des points forts et faibles de leur conduite, peuvent améliorer leur score et ainsiremporter des médailles, accéder aux niveaux supérieurs et partager leurs résultats avec leursamis.

31

Page 41: Par: Cristina Sontu

Dans ce chapitre, nous avons présenté les détails de l’assurance télématique et étudiéson effet sur l’asymétrie d’information. Nous avons vu comment la tarification en fonctionde la conduite peut amener à une sélection des bons risques. La flexibilité de la prime d’as-surance et le feedback sur la qualité de conduite sont des leviers de l’assureur télématiquecontre l’aléa moral. Par ailleurs, l’effet psychologique lié à l’analyse du comportement deconduite contribue à la dissuasion de la fraude.

Lors du Chapitre 1, nous avons vu que les compagnies d’assurance font appel à desrègles de souscription pour limiter leur exposition sur les segments jugés trop risqués ouavec un risque élevé de fraude. Dans la même logique, nous nous demandons dans lechapitre suivant comment le Pay How You Drive pourrait faire évoluer la sélection desrisques de l’assureur.

32

Page 42: Par: Cristina Sontu

Chapitre 3

Sélection des risques : évolutionspossibles grâce à l’assurancetélématique ?

La sélection des risques est une pratique importante pour les compagnies d’assurance etconstitue la première étape de la segmentation des risques. Elle s’effectue à la souscription -par les conditions d’adhésion, mais aussi pendant la vie du contrat par le biais des résiliationscompagnie et à l’échéance de la police d’assurance via le refus de la tacite reconduction.

Dans ce chapitre, dans un premier temps, nous cherchons à savoir si cette pratique a unfondement juridique et quels sont les aspects réglementaires encadrant la sélection des risques àla souscription. Dans un deuxième temps, nous abordons les grandes catégories des segments re-jetés par Direct Assurance et nous essayons d’estimer leur risque. Finalement, nous envisageonsquelques évolutions possibles des conditions de souscription pour profiter des caractéristiquesspécifiques de l’assurance télématique.

3.1 Les aspects juridiques et réglementaires de la sélec-tion des risques

Du fait de l’inversion du cycle de production, les organismes d’assurance sont très sensiblesà de nombreux facteurs socio-économiques. En outre, ils jouent un rôle essentiel dans le finance-ment de l’économie, grâce à l’investissement des primes collectées et par leur rôle de gestionnairedes ressources financières des assurés.

Ce contexte explique l’attention particulière que les compagnies d’assurance reçoivent de lapart des pouvoirs publics et qui s’illustre à deux niveaux :

— au niveau des contrats d’assurance ;— au niveau de leurs capacités à honorer leurs engagements.Nous allons donc aborder ici la thématique de la sélection des risques à travers le prisme

juridique et réglementaire.

33

Page 43: Par: Cristina Sontu

3.1.1 Fondement juridique et limites à la sélection des risques

Le droit à la sélection de la clientèle par l’assureur n’est pas précisé explicitement dans lajurisprudence française. Par contre, l’interdiction de refus est mentionnée dans l’article L121-11du Code de la consommation :

Article L121-11 du Code de la consommation

Est interdit le fait de refuser à un consommateur la vente d’un produit ou la prestationd’un service, sauf motif légitime ; [...]

Les dispositions du présent article s’appliquent à toutes les activités de production, dedistribution et de services, y compris celles qui sont le fait de personnes publiques, no-tamment dans le cadre de conventions de délégation de service public.

Ainsi, le vendeur / prestataire de services n’a pas le droit de refuser un client sans "motiflégitime". Faute de définition juridique pour ce terme, il revient au tribunaux d’interpréter laloi. Plusieurs motifs ont été acceptés jusqu’ici en tant que légitimes :

— anormalité de la demande du client ;— mauvaise foi du consommateur ;— produit indisponible à la vente car en rupture de stock ou interdit par la loi ;— intuitu personae - contrat considérant uniquement la personnalité de l’acheteur ;— défaut d’aléa - les risques couverts par les contrats d’assurance sont obligatoirement

incertains etc.

Il existe une catégorie de motifs pour laquelle le refus de vente d’un produit ou la prestationd’un service est considéré comme discriminatoire. L’article 225-1 du Code pénal les énumère :

Article 225-1 du Code pénal

Constitue une discrimination toute distinction opérée entre les personnes physiques àraison :

— de leur origine,— de leur sexe,— de leur situation de famille,— de leur grossesse,— de leur apparence physique,— de leur patronyme,— de leur lieu de résidence,— de leur état de santé,— de leur handicap,— de leurs caractéristiques génétiques,— de leurs mœurs,— de leur orientation ou identité sexuelle,— de leur âge,— de leurs opinions politiques,— de leurs activités syndicales,— de leur appartenance ou de leur non-appartenance, vraie ou supposée, à une ethnie,

une nation, une race ou une religion déterminée. [...]

34

Page 44: Par: Cristina Sontu

Ces motifs de discrimination ne sont pas obligatoirement directs. Par exemple, en 1982, unecompagnie d’assurance a été condamnée pour avoir refusé la souscription d’un contrat auto pourles conducteurs ne sachant ni lire, ni écrire. Ceux-ci étaient repérés facilement, car incapablesde remplir leur questionnaire d’assurance.

Il convient de mentionner que ces motifs considérés comme discriminatoires s’appliquentseulement en cas de refus de vente ou de prestation de services, et ne sont pas tous interdits entant que variables tarifaires lors du calcul de la prime d’assurance.

S’agissant d’une infraction pénale, la sélection discriminatoire est punie par la loi (cf. article225-2 du Code pénal).

Article 225-2 du Code pénal

La discrimination définie aux articles 225-1 et 225-1-1, commise à l’égard d’une personnephysique ou morale, est punie de trois ans d’emprisonnement et de 45 000 eurosd’amende lorsqu’elle consiste :

— A refuser la fourniture d’un bien ou d’un service ;...— A subordonner la fourniture d’un bien ou d’un service à une condition fondée sur

l’un des éléments visés à l’article 225-1 ou prévue à aux articles 225-1-1 ou 225-1-2etc.

L’encadrement juridique de ces limites légitimise ainsi la sélection des risques opérée par lesassureurs.

Comme mentionné par Durry (2001), cette légitimité est également impliquée par les texteslégislatifs sur les informations que l’assureur peut demander à ses assurés, les obligations deceux-ci de répondre sincèrement, ainsi que les droits des assureurs lorsqu’ils apprennent que lesinformations fournies sont fausses ou obsolètes.

Prenons par exemple l’article L113-9 du Code des assurances. Celui-ci donne à l’assureur ledroit de résiliation en cas "d’omission ou déclaration inexacte de la part de l’assuré". Commel’assuré est de bonne foi, ce droit n’est pas fondé sur une tentative de fraude, mais sur une ag-gravation du risque. On peut supposer alors que, si l’assureur a cette faculté après la conclusiondu contrat, alors il doit l’avoir aussi avant de sa signature.

Article L113-9 du Code des assurances

L’omission ou la déclaration inexacte de la part de l’assuré dont la mauvaise foi n’est pasétablie n’entraîne pas la nullité de l’assurance.

Si elle est constatée avant tout sinistre, l’assureur a le droit soit de maintenir le contrat,moyennant une augmentation de prime acceptée par l’assuré, soit de résilier le contratdix jours après notification adressée à l’assuré par lettre recommandée, en restituant laportion de la prime payée pour le temps où l’assurance ne court plus.

Dans le cas où la constatation n’a lieu qu’après un sinistre, l’indemnité est réduite enproportion du taux des primes payées par rapport au taux des primes qui auraient étédues, si les risques avaient été complètement et exactement déclarés.

35

Page 45: Par: Cristina Sontu

Une autre série de lois permet d’inférer le droit à la sélection des risques - celle qui instaurel’obligation d’assurance. 1 Il s’agit notamment des professionnels qui doivent légalement sous-crire une assurance de responsabilité, des individus qui constituent un risque pour la vie desautres et doivent donc obligatoirement être assurés au tiers. Comme mentionné dans la section1.1.4, un organisme d’État - le Bureau Central de Tarification - a été mis en place pour lespersonnes qui se voient refuser une telle assurance. La sélection des risques est, encore une fois,implicitement supposée.

En conclusion, bien que les textes législatifs ne traitent pas explicitement du droit desassureurs à sélectionner leur clientèle, celui-ci est implicitement admis par la législation, carinsinué par de nombreux articles juridiques. Les limites à ce droit sont, quant-à-elles, trèsclaires lorsqu’il s’agit d’une sélection discriminatoire.

3.1.2 Sélection du risque dans Solvabilité II

Solvabilité II est une réforme réglementaire du monde de l’assurance. Plus précisément, c’estle nom courant de la directive 2009/138/CE adoptée par le Parlement européen et le Conseil du25 novembre 2009, en vigueur depuis le 1er janvier 2016. La directive vise à harmoniser les règlesprudentielles de solvabilité imposées aux assureurs européens. C’est également un standard demarché qui vise à mieux mesurer et gérer les risques pris par les compagnies d’assurance, afinde garantir aux clients une solvabilité à long terme.

La Figure 3.1 résume sa structure en trois piliers :— Pilier I - Exigences de quantification des risques ;— Pilier II - Exigences qualitatives de gestion des risques et de gouvernance ;— Pilier III - Exigences de communication financière.

.

Figure 3.1 – La structure à trois piliers de Solvabilité II1. Durry, Georges, 2001. "La sélection de la clientèle par l’assureur : aspects juridiques." Risques, 45.

36

Page 46: Par: Cristina Sontu

Le pilier 2 place la gestion du risque au cœur de la gouvernance. L’ORSA - Own Risk andSolvency Assessment - désigne le processus dédié à une identification globale et coordonnée desrisques auxquels l’entreprise est exposée, leur mesure et gestion opérationnelle. Comme illustrédans la Figure 3.2, elle comprend plusieurs étapes, toutes inter-dépendantes, qui font partie duprocessus de pilotage de la compagnie d’assurance.

Figure 3.2 – Le cadre de gestion de risque de l’ORSA

L’ORSA prévoit notamment une formalisation de l’appétence au risque, qui se traduit parla définition des limites de risques. Ainsi, le processus de sélection de risques est fondamentalpour toutes les étapes de la gestion des risques et pour la solvabilité des assureurs en général.

Lors d’une évolution des règles de souscription il faut, dans un premier temps, évaluer dansquelle mesure le profil de risque de l’organisme s’écarte des hypothèses qui sous-tendent le calculdu SCR 2. Dans un deuxième temps, il faut faire évoluer ces hypothèses.

L’élimination d’une règle de souscription par un assureur P&C est une source de volatilitésur tous ses trois risques principaux qui participent au calcul du SCR :

— le risque portefeuille - en impactant la prime et le volume des polices ;— le risque sinistralité - une variation de la fréquence et de la sinistralité apportée par le

risque de la nouvelle cible ;— le risque de réserves - par le biais de la sinistralité atypique (grave) du nouveau segment.

En France, les autorités réglementaires n’imposent pas aux assureurs auto de déposer leursrègles de souscription pour vérification et validation. Cependant, ceci est obligatoire dansd’autres pays ou régions du monde. C’est notamment le cas en Ontario, une province du Ca-nada, où tout assureur autorisé à commercialiser une assurance automobile doit soumettrepour validation ses règles de souscription auprès de la Commission des Services Financiers del’Ontario.

2. Solvency Capital Requirement - capital nécessaire pour garantir la solvabilité de la compagnie (faire faceà une ruine tous les 200 ans).

37

Page 47: Par: Cristina Sontu

Par contre, l’ACPR demande aux assureurs d’avoir les fonds propres et les provisions à l’ul-time suffisants pour faire face aux engagements pris. Ceci implique qu’une ouverture des règlesde souscription à des profils plus risqués, par exemple, entraîne des estimations de fréquenceset/ou coût moyens ultimes plus élevées et donc engendre un besoin en capital plus élevé.

3.2 Règles de souscription et mesure du risque rejeté

Les règles de souscription formalisent la sélection de la clientèle qui est opérée par lesassureurs. Dans cette partie nous présentons quelques segments de population pour qui la sous-cription est souvent refusée et nous essayons d’estimer leur risque par le biais des dérogationsqui ont été faites.

3.2.1 Catégories des segments rejetés

Il existe plusieurs raisons pour lesquelles une compagnie d’assurance peut refuser la sous-cription à un segment, on parle alors de rejet. Le plus souvent le refus a comme but d’éviter àl’assureur de prendre un risque qu’il maîtrise mal. Il peut s’agir d’un risque de fraude ou de si-nistralité élevée due au risque porté par le véhicule ou les conducteurs, par exemple (profession,région habitée etc.).

Les règles de souscription dépendent de la vision du risque et du processus de souscrip-tion, elles sont donc propres à chaque assureur. Nous allons présenter ici quelques catégoriesfréquentes de rejets, utilisées par les assureurs automobile.

Un des rejets les plus fréquents concerne l’historique d’assurance. Il permet à l’assureurd’éviter de couvrir un sinistre intervenu pendant la période durant laquelle le véhicule n’a pas étéassuré. Un autre risque est qu’un conducteur veuille volontairement dissimuler ses antécédentsd’assurance.

Les personnes ayant eu un retrait de permis ou une résiliation par une compagnied’assurance signalent également un risque élevé. Le premier cas implique un problème poten-tiellement grave dans le comportement de conduite de l’assuré, tandis que le deuxième peutsuggérer un non-respect de l’engagement de cotisation, une fausse déclaration intentionnelleetc.

Le marché des compagnies d’assurance acceptant les sur-sinistrés est beaucoup plus concen-tré que celui les rejetant. L’explication est simple : un individu ayant eu plusieurs sinistres risque"statistiquement" d’en avoir d’autres. Le risque porté par ce segment est donc assez spécifiqueet doit être bien analysé pour pouvoir distinguer ceux qui n’ont simplement pas eu de chancede ceux qui constituent vraiment un danger au volant.

Il existe aussi des catégories de véhicules que les assureurs ne souhaitent pas toujourscouvrir. Ils s’agit par exemple des véhicules de luxe, dont le coût de réparation est très élevéet difficilement mutualisable, car ce sont des véhicules assez rares. Les véhicules puissantsreprésentent aussi un risque élevé, car les capacités du moteur seront probablement exploitéespar le propriétaire.

38

Page 48: Par: Cristina Sontu

Une autre catégorie de rejets est celle qui vise à éviter le fronting - une pratique qui impliquela dissimulation d’un enfant ou d’un conjoint/concubin, sans antécédents ou à l’inverse avecde lourds antécédents, derrière la personne qui se déclare conducteur principal, dans un butde diminution de la prime d’assurance. Cette pratique comporte un caractère illégal et estsanctionnée par la loi.

En France, l’incitation à faire du fronting est encore plus grande parce qu’ici plusieurspersonnes peuvent bénéficier de l’ensemble des garanties du contrat d’assurance automobilesouscrit, au même titre que le conducteur principal (C1). Il s’agit surtout du conducteur se-condaire (C2), qui est une personne autorisée à conduire le véhicule, mais moins souvent quele C1. Quelques compagnies d’assurance offrent la possibilité de désigner une personne sup-plémentaire sur le contrat, outre le conducteur secondaire, ou proposent une garantie "prêt duvolant". Toutefois, cette dernière est en général soumise à une franchise en cas de sinistre (de1500 euros chez DA).

Le fronting est un type de fraude à la souscription, difficile à démasquer. Si nous revenons àla partie 1.3.1, ici, la probabilité que l’assureur parvienne à démontrer la fraude et la mauvaisefoi de l’assuré est très petite, donc il y a encore plus de chances que cela incite les individus àfrauder.

3.2.2 Aperçu du risque des segments rejetés - les dérogations auxrègles de souscription

Les règles de souscription sont automatiques lors d’une souscription par internet ou par lebiais d’un agrégateur de prix, car elles ont été codées dans l’algorithme informatique retournantles prix. Cependant, lorsque le contact entre l’assureur et l’individu est humain, alors desdérogations aux conditions d’adhésion peuvent avoir lieu. Nous regardons ici le cas de DirectAssurance.

Les demandes de dérogation au rejet font l’objet d’une analyse personnalisée et aboutissentassez rarement. Cette décision prise par le chargé de clientèle doit être confirmée par son ma-nager et dépend considérablement de l’historique de l’individu. Le volume des contrats dérogésest donc faible. Cependant, l’étude des dérogations peut nous donner un aperçu (sous-estimé)du risque porté par l’ensemble de la population des segments rejetés et est également requisdans le cadre du processus de gestion de risque par une compagnie d’assurance.

Figure 3.3 – Répartition des dérogations

39

Page 49: Par: Cristina Sontu

La Figure 3.3 présente la répartition des dérogations selon la catégorie qu’elles représentent.Plus de la moitié sont pour motif de fronting. Les véhicules jugées comme étant à haut risqueoccupent la deuxième place de ce classement et sont suivis par les dérogations pour sinistralité.Seulement 4% des dérogations sont pour des raisons liées à l’historique d’assurance et 7%représentent tous les autres critères d’adhésion.

Dans la Figure 3.4, on peut observer le Loss Ratio (LR) par catégorie de rejet. La taille desbulles représente le volume des dérogations. Les LR ont été obtenus en projetant les sinistres àl’ultime, par année de survenance et par garantie. 3 Tous les LR ont été normalisés.

Figure 3.4 – Profitabilité et volumes des dérogations

On remarque qu’en moyenne, le Loss Ratio des dérogations est inférieur à celui des clientsconformes aux règles de souscription. Cependant, deux catégories s’éloignent de la moyenne.Les deux représentent un rejet pour cause de fronting :

"Si le conducteur principal désigne comme conducteur secondaire son enfant, alors il estrejeté."

La catégorisation Génération 1 / Génération 2 permet de distinguer les nouveaux clientsqui n’ont eu aucun lien avec l’entreprise auparavant, de ceux qui ont déjà fait partie de notreportefeuille ou ont été recommandés par nos clients. Les premiers ont un LR plus que double.Ces variations s’expliquent par les faibles volumes qu’ils représentent. Cependant, on peut déjàsupposer que, sur la base des dérogations qui ont été faites, les nouveaux clients avec un enfantC2 sont plus risqués que les clients du portefeuille ayant le même type de lien avec leur C2.

Une autre limite de l’analyse du risque des segments rejetés au travers du prisme des dé-rogations qui ont été faites est que la décision de déroger n’est pas automatique ou aléatoire.Il y a donc une sélection qui est faite et qui dépend des caractéristiques de l’assuré. Ainsi, onpeut affirmer que les segments rejetés définitivement sont significativement plus risqués que lesdérogations.

3. Le coût total d’un sinistre doit être estimé à l’ultime (l’année de sa clôture), car son montant peut êtrerévisé dans les années qui suivent la déclaration de l’accident.

40

Page 50: Par: Cristina Sontu

3.3 Évolutions possibles des règles de souscription grâceà l’assurance télématique

L’assurance télématique offre de nombreux avantages par rapport à l’assurance tradition-nelle. Comme vue dans la section 2.2, les données de conduite diminuent l’asymétrie d’infor-mation entre l’assuré et l’assureur. Ainsi, certaines règles de souscription qui ont été imposéesnotamment pour pallier ce phénomène pourraient évoluer.

Proposer une assurance télématique aux segments jusqu’ici rejetés permet, pour l’assureur,d’accroître le volume de son portefeuille avec de bons conducteurs, ce qui est important dansle contexte actuel du marché de l’assurance non-vie, cf. 2.1.1. Quant aux individus à bas risquerejetés car ne pouvant être distincts des autres, cette évolution leur donnerait la possibilité dene plus être classés dans le même groupe que les mauvais conducteurs, toutes choses égales parailleurs.

L’UBI apporte une vraie valeur ajoutée lorsqu’il s’agit des segments rejetés pour risque defraude. Grâce aux données de conduite, au moins une partie de l’asymétrie d’information sedissipe et il n’y a plus une "haute probabilité de fraude". On pourra clairement distinguer lescas de fraude. En anticipant ce fait, les potentiels fraudeurs n’auront pas intérêt à souscrire,donc on pourrait s’attendre à une forte auto-sélection positive pour l’assureur.

Cela est d’autant plus vrai dans le cadre de l’assurance directe, où l’asymétrie d’informa-tion est encore plus accentuée. Ces assureurs proposent des contrats d’assurance directement augrand public, sans passer par des intermédiaires (ex : agents généraux, courtiers etc.). Cela faitqu’ils connaissent un peu moins leurs clients et ont moins d’intuitions sur les possibles motifsd’assurance. Donc, par rapport aux autres assureurs, ils prennent plus de risques.

Nous passons ici en revue quelques évolutions possibles des règles de souscription grâce àl’assurance télématique.

- La possession d’un véhicule sportif pourrait ne plus être considérée comme un risque si leconducteur a fait preuve d’un comportement correct au volant. Donc cette règle de souscriptionpourrait être éliminée pour les clients du portefeuille télématique.

- Les règles de rejet qui visent à éviter le fronting peuvent également devenir obsolèteslorsqu’on tarifie uniquement en fonction du comportement de conduite (sous réserve que celui-ci reflète le vrai risque couvert). Il est également envisageable qu’avec les données télématiques,on arrive à distinguer deux comportements de conduite différents et tarifer proportionnellement.Dans ce cas, cette pratique se fera moins pour des raisons de fraude, car les individus informésde la façon dont le montant de la prime est fixé, n’auront plus d’incitation à déclarer de faussesinformations. Ceci confirmerait encore une fois la participation des telematics à la diminutionde l’aléa moral.

- Il y a plusieurs raisons qui rendent le segment des sur-sinistrés intéressant pour l’assu-rance télématique. Premièrement, grâce au feedback reçu, ils pourront améliorer leur conduiteet devenir moins risqués. Deuxièmement, c’est essentiellement les individus qui conduisent bienqui souscriront, donc ceux qui ont potentiellement des sinistres uniquement parce qu’ils n’ont"pas eu de chance" et ils se sont retrouvés au mauvaise endroit au mauvais moment. Cepen-dant, il convient de mentionner que le tarif de base à partir duquel des réductions seront faitespour les bons conducteurs est difficilement estimable sans une segmentation fine de ces risques.

41

Page 51: Par: Cristina Sontu

Cela pourrait constituer un grand enjeux pour les assureurs directs, car ils sont très réticentsà l’augmentation de la taille de leur questionnaire. En fait, une grande partie des personnesayant choisi le direct, l’ont fait pour économiser du temps et la tendance est souvent vers unediminution du nombre de questions posées à la souscription. L’expérience client est une desproblématiques principales des assureurs en direct.

Comment ouvrir la souscription à des nouveaux segments de population ?

Les deux questions principales qui se posent lors de l’ouverture de la souscription à desnouveaux segments jusqu’ici rejetés est comment estimer le volume des affaires nouvelles etquel tarif de base leur proposer.

Le volume des affaires nouvelles peut être estimé si l’assureur enregistre non seulement lesdemandes de tarif bien abouties, mais également celles qui ont été rejetées. Si une seule règledoit être ouverte, alors il faut récupérer les demandes pour lesquelles uniquement cette règles’est levée. Ce montant de tarifs non-vus sert ensuite à l’estimation des affaires nouvelles, unefois qu’un taux de transformation 4 lui est appliqué. Nous avons analysé les volumes des rejetsDA et nous avons retenu les segments auxquels le produit télématique apporterait un maximumde valeur ajoutée.

Quant au tarif à appliquer à ces nouveaux segments - les méthodes traditionnelles de tarifi-cation ne sont plus valables ici, car il n’y a pas d’historique de sinistralité sur ces individus etdonc pas d’information sur leur risque. La seule solution est de l’estimer approximativement etde faire du test & learn - ouvrir la souscription à un tarif conservateur et l’ajuster ensuite enfonction du risque observé.

Après avoir analysé le fondement économique de la sélection des risques dans le Chapitre1, dans cette partie, nous l’avons présentée d’un autre point de vue - celui du cadrejuridique et réglementaire.

Ensuite, nous avons vu comment le produit télématique pourrait rendre obsolète unepartie des règles de souscription, car, comme présenté dans le Chapitre 2, il permet deréduire l’asymétrie d’information entre l’assureur et l’assuré - une des raisons principalesqui justifie la sélection des risques. Les données de conduite permettent une segmentationplus fine, ce qui réduit le risque d’antisélection ; elles découragent les mauvais conducteursà souscrire, tout comme ceux qui cherchent à frauder.

Dans ce qui suit, nous concentrons notre attention sur un des segments rejetés les plusintéressants à ouvrir sur le portefeuille télématique - celui des enfants déclarés commeconducteurs secondaires sur la police des parents. Pour rendre cette ouverture réalisableet par manque d’un historique de sinistralité sur cette cible, nous cherchons à développerune méthodologie pour estimer un tarif de base à partir duquel des réductions serontfaites.

4. Le taux de transformation est le pourcentage de devis qui se transforment en contrats.

42

Page 52: Par: Cristina Sontu

Chapitre 4

Évolution d’une règle de souscriptionavec le produit telematics

La prime d’assurance automobile baisse avec l’expérience de conduite des conducteurs et elleest donc la plus élevée pour les jeunes. Dans les modèles de sinistralité de Direct Assurance,elle est aussi plus sensible à l’expérience de conduite du conducteur principal qu’à celle duconducteur secondaire, qui bénéficie également d’une couverture en cas de sinistre s’il est déclarésur le contrat d’assurance. Ces faits peuvent inciter les demandeurs d’assurance à frauder et àpratiquer du fronting.

Un des segments sujet à frauder est celui des parents avec des enfants jeunes conduc-teurs. Ainsi, si un jeune au foyer souhaite assurer son propre véhicule, il pourrait avoir intérêt,pour faire baisser sa prime d’assurance, à mettre le contrat au nom d’un de ses parents plutôtqu’a se déclarer lui-même en conducteur principal.

Les chiffres viennent à l’appui de cette affirmation puisque les adultes autour de 45-55 ansvoient leur sinistralité augmenter. 1 Ce phénomène peut s’expliquer par le fait qu’ils prêtentsouvent le volant à leurs enfants, ou qu’ils se déclarent conducteurs principaux sur un véhiculeconduit plus fréquemment (voire uniquement) par leurs enfants, pour que ceux-ci n’aient pas àpayer la surprime due par les conducteurs inexpérimentés.

Dans ce chapitre, nous nous focalisons sur ce segment - le parent conducteur principalqui déclare son enfant en tant que conducteur secondaire. Comme vu dans la partie3.2.1, cette catégorie de population est actuellement rejetée par Direct Assurance. Cependant,l’assurance télématique pourrait faire évoluer cette règle de souscription, car elle permet deréduire le biais d’asymétrie d’information :

— l’antisélection : la segmentation en fonction de l’utilisation réelle du véhicule permettraune estimation plus fine de leur risque ;

— l’aléa moral : les clients télématiques ont plus de motivation à être prudents au volant ;— la fraude : la structure tarifaire ainsi que l’effet psychologique du monitoring découra-

geront les fraudeurs de souscrire.

L’ouverture d’un nouveau segment constitue toujours un défi pour l’assureur, surtout s’iln’a jamais couvert ce type de population, et ne dispose donc pas d’historique de sinistralité

1. Déductible à partir de Charpentier et al. (2005), p.133, où le lien entre l’âge du conducteur principal etson CRM est analysé.

43

Page 53: Par: Cristina Sontu

dessus. La tarification en fonction de la conduite requiert, elle aussi, dans le cadre du produitYouDrive, un tarif de base, à partir duquel des réductions sont appliquées. Ainsi, dans cettepartie du mémoire nous abordons la possibilité d’ouverture de ce segment et nous développonsune méthodologie pour estimer son risque sur différentes garanties, en prenant comme exemplela garantie responsabilité civile matérielle. Le tarif commercial sera donc basé sur la prime purecalibrée ici, dont la définition et l’estimation sont détaillées dans la suite.

4.1 Contexte et problématique de l’ouverture

4.1.1 Choix du profil de risque

Les règles de souscription ont été fixées dans un but de limiter l’exposition de l’assureurà des segments sur lesquels il ne sait pas bien estimer le risque souscrit ou ne souhaite pas leporter. Ces règles peuvent viser à réduire l’exposition à des coûts de sinistres très élevés, commec’est le cas des voitures de luxe, par exemple. D’autres règles constituent un levier de l’assureurpour réduire l’asymétrie d’information qui caractérise sa relation avec l’assuré.

Étant donné l’impact de l’assurance télématique sur l’asymétrie d’information, il est inté-ressant d’étudier précisément les rejets mis en place pour parer à ce risque dans l’optique d’unepotentielle ouverture.

Suite à l’analyse des volumes des rejets et de la valeur ajoutée des telematics, les segmentsdes enfants conducteurs secondaires et des sur-sinistrés se sont avérés être les plus intéressantspour une ouverture sur le produit télématiques. Les données de conduite pourraient affiner lasegmentation des derniers et distinguer ceux qui sont effectivement à haut risque des autres quiont simplement eu moins de chance.

Cependant, après une étude plus approfondie, nous avons décidé de nous adresser auxpremiers. L’impact des telematics sur ce segment est multilatéral.

Premièrement, il y a un aspect psychologique qui pourrait dissuader certains fraudeurs. Ilssont certainement plus réticents à laisser la compagnie d’assurance analyser leurs données deconduite, par peur d’être découverts. De plus, on pourrait aussi s’attendre à ce qu’ils cherchentà limiter les points de contact avec l’assureur, ce qui n’est pas du tout le cas avec le produitYouDrive. On s’attend donc à observer un impact significatif sur la fraude.

Deuxièmement, comme l’assureur télématique tarifie en fonction du comportement de conduite,il peut pénaliser les mauvais conducteurs. En connaissance de cause, les enfants qui conduisentmal et qui pratiquent le fronting auront moins d’intérêt à souscrire, car, en évitant une surprimedue à leur manque d’expérience, ils en recevront une autre sur la base de leur comportementde conduite. Cela réduit l’asymétrie d’information due à la fraude et à l’antisélection.

Ces deux points suggèrent que les clients qui souscriront seront plutôt des enfants bonsconducteurs, qui conduisent effectivement le véhicule moins souvent que le parent conducteurprincipal et que la fraude devrait être moins importante avec le produit télématique.

44

Page 54: Par: Cristina Sontu

4.1.2 Tarification et hypothèses de travail

Ouvrir un nouveau segment implique la proposition d’un prix à la souscription. Chez lesclients YouDrive, le discount moyen lié à la conduite est de 20% et on estime qu’il est com-pensé par un gain de sinistralité et de rétention par rapport au produit traditionnel (cf. Vitrac(2017)). Si on suppose qu’on observera les mêmes effets sur le segment des enfants conducteurssecondaires, il suffit d’estimer la prime de base que l’on proposerait sur le produit standard.

Le manque d’historique de sinistralité sur le segment des enfants conducteurs secondairesne nous permet pas d’analyser directement le risque et d’estimer une prime actuarielle. Parconséquent, nous allons faire des hypothèses et développer une méthodologie pour pouvoirl’approximer.

Depuis plusieurs années, Direct Assurance offre la possibilité aux clients de désigner unenfant sur le contrat. La définition de ce conducteur occasionnel stipule :

Définition

"L’enfant désigné peut être l’enfant du souscripteur ou du conjoint (concubin, mariéou pacsé) et habite à la même adresse. Il est titulaire du permis B et utilise le véhiculeuniquement pour des déplacements privés moins fréquemment que le C1 ou C2."

Cependant, la sinistralité de ces contrats ne peut pas être utilisée directement pour tariferles enfants conducteurs secondaires car les deux segments n’ont pas le même risque sous-jacent,même s’ils partagent beaucoup de caractéristiques communes (cf. 4.1.3). Un client présentdepuis une ou plusieurs années dans le portefeuille, qui décide de désigner son enfant sur levéhicule dont il est conducteur principal, n’a pas nécessairement le même profil de risque qu’unnouvel arrivant avec son enfant en conducteur secondaire. Le deuxième porte, a priori, plus derisque de fronting. Par conséquent, son tarif devra être supérieur.

La même idée nous a été suggérée dans la partie 3.2, où nous avons vu que le Loss Ratioétait très différent entre les dérogations de 1ère et 2ème génération. Les clients qui sont déjàdans le portefeuille et qui souhaitent ajouter leur enfant en conducteur secondaire sont moinsrisqués que les nouveaux clients.

Le risque extrême c’est que tous les enfants conducteurs secondaires soient des fraudeurs,et que ce soit eux qui conduisent le véhicule. Dans ce cas, leur tarif doit être égal à celui qu’ilsauraient payé s’ils se déclaraient comme conducteurs principaux à la souscription. Ainsi, le tarifque nous allons proposer à ce nouveau segment devra être inférieur à ce cas extrême.

Pour résumer, la sinistralité que nous allons estimer pour ce nouveau segment devra êtresituée entre celle observée par les contrats avec un enfant désigné et celle de l’enfant conducteurprincipal du véhicule.

Une autre hypothèse qu’on retient concerne les similitudes entre les profils des contrats avecun enfant désigné et les demandes de tarif rejetées pour les enfants conducteurs secondaires.Nous supposons que les caractéristiques du parent et de l’enfant proviennent du même mix,c.à.d. sont les réalisations indépendantes d’une même loi de probabilité.

45

Page 55: Par: Cristina Sontu

4.1.3 Données et comparaison des profils

Dans toute la suite de ce chapitre nous avons basé nos travaux sur un échantillon de plusieurscentaines de milliers de lignes du portefeuille de Direct Assurance correspondant à des policesd’assurance observées pendant les années 2014-2016. Chaque ligne correspond à l’image d’uncontrat à caractéristiques fixes : celle à la souscription ou celle après une modification desparamètres du contrat.

Nous avons également utilisé d’autres données représentant les demandes de tarif pour desprofils ne satisfaisant pas les critères de souscription de Direct Assurance. Nous nous sommesnotamment intéressés aux demandes de tarifs correspondant aux cas de parents souhaitantdéclarer leur enfant comme conducteur secondaire et pour lesquelles la règle de souscriptionétudiée n’a pas été satisfaite. Ces données nous fournissent des informations sur le profil desclients potentiels que nous allons accepter suite à l’ouverture de cette règle.

Dans la partie 4.1.2 nous avons fait l’hypothèse que ces profils sont similaires à ceux descontrats avec un enfant désigné. Nous discutons ici cette hypothèse.

Premièrement, elle nous parait vraisemblable grâce au processus de déclaration des enfantsdésignés. En fait, assez souvent, les clients qui nous contactent pour ajouter leur enfant surle contrat ne connaissent pas l’existence du terme "enfant désigné". Ils veulent uniquementcouvrir leur descendant et les conseillers en assurance de DA les informent de la possibilité dele désigner sur le contrat. L’existence des contrats avec un enfant désigné et sans conducteursecondaire vient confirmer ce fait.

(a) Âge du C1 (b) CRM du C1 (c) Classe SRA

Figure 4.1 – Comparaison des profils des clients et des rejets

La comparaison des profils des parents, ainsi que des véhicules vient également appuyer cettehypothèse. Comme on peut le voir sur la Figure 4.1, les contrats avec un enfant désigné ont descaractéristiques similaires aux demandes de tarif rejetées : il s’agit de conducteurs principauxplus âgés, avec un bon coefficient de réduction-majoration (CRM) et qui ont des voitures moinspuissantes que celles du portefeuille.

4.2 Modélisation statistique

L’objectif est d’étudier la différence de sinistralité entre les contrats avec et sans enfantdésigné. Pour cela, nous construisons un modèle fréquence-coût sur le portefeuille de DirectAssurance, en ajoutant l’information complémentaire sur les enfants désignés, qui se résume à

46

Page 56: Par: Cristina Sontu

une variable binaire indiquant sa présence ou son absence. 2 Un tel modèle est indispensablepour étudier l’impact multiplicatif de l’ajout de l’enfant sur le contrat, toute chose égale parailleurs. Les profils du portefeuille DA sont très divers et un simple ratio entre les contrats avecet sans enfants désigné ne capturerait pas le vrai effet.

Dans un deuxième temps, nous utilisons ce modèle de prime pure calibré pour mesurerl’écart de prime pure entre le parent conducteur unique de sa voiture et l’enfant conducteurprincipal à la place du parent. Les deux segments proviennent des demandes de tarif rejetées.

La modélisation de la sinistralité doit être faite par garantie, car l’impact des variablestarifaires n’est pas le même selon le risque couvert. Nous allons présenter ici les étapes suiviespour modéliser la responsabilité civile dommages matériels. 3

4.2.1 Rappel théorique sur le modèle collectif, la prime pure et lesGLM

Le tarif proposé par un assureur est le résultat d’un calcul complexe comprenant plusieursétapes :

— la modélisation de la prime pure, qui est le montant moyen de sinistralité attendue,auquel l’assureur devra faire face ;

— l’adaptation du tarif aux éventuelles contraintes imposées par la politique tarifaire del’assureur ;

— le calcul du tarif technique et du tarif commercial. 4

En assurance IARD (automobile, MRH etc.), les hypothèse impliquées par un modèle col-lectif sont valides, donc le calibrage de la prime pure passe souvent par un modèle fréquence-coût. Dans un modèle collectif, la charge totale par police est donnée par :

S ={ ∑N

i=1 Yi si N ≥ 00 si N = 0,

où Yi représente le coût du i-ème sinistre (le montant des indemnités versées à l’assuré ou àune tierce personne), est iid, de même loi que Y et N est le nombre de sinistres.

Sous les hypothèse d’indépendance des sinistres (Yi)i et d’indépendance entre Yi et N , lasinistralité espérée et sa variance sont égales à :

E[S] = E[N ]E[Y ]Var(S) = E[N ]Var(Y ) + E2[Y ]Var(N).

Cependant, si la fréquence et le coût ne sont pas homogènes, on utilise des variables tarifaires,notées X, comme proxy pour l’hétérogénéité cachée. Par conséquent, le calcul de la prime purese résume à la calibration séparée de la fréquence et de la sévérité :

2. Aucune autre information n’est disponible sur ces conducteurs occasionnels.3. La responsabilité civile est la garantie qui couvre l’assuré contre les dommages matériels ou corporels

causés par son véhicule.4. Miseray, A. et F. Planchet, (2017). "Tarification IARD, Introduction aux techniques avancées".

47

Page 57: Par: Cristina Sontu

E[N |XN ] = g−11 (XNβ1)

E[Y |XY ] = g−11 (XY β1),

où XN et XY sont l’ensemble des variables explicatives sélectionnées pour estimer la fréquenceet la sévérité respectivement.

Pour modéliser chacun de ces éléments, le modèle le plus répandu en tarification actuarielleest le modèle linéaire généralisé GLM (eng : Generalized Linear Model), formulé par JohnNelder et Robert Wedderburn au début des années 1970. 5 Comme son nom l’implique, le GLMvient généraliser les régressions linéaires en relâchant l’hypothèse de distribution normale deserreurs, qui était requise pour assurer l’optimalité des coefficients estimés.

Avant de décrire ce grand classique de la tarification actuarielle, introduisons quelques no-tations. Considérons n observations sur p variables explicatives, regroupées dans la matriceX ∈ Mn,p+1R. Soit y la variable-cible et β ∈ Rp+1 le vecteur des coefficients. Le modèle GLMest décrit par trois éléments :

— une loi de probabilité : (yi)i=1...n iid, de loi Fexp(θi, φ, a, b, c), où Fexp est une des loisappartenant à la famille exponentielle, θi ∈ R est le paramètre d’échelle, φ ∈ R+ est leparamètre de dispersion et a, b, c - trois fonctions ;

— une fonction déterministe, donnant le prédicteur linéaire ηi = xtiβ ;— une fonction lien monotone, différentiable et inversible, notée g, telle que E[yi] = g−1(ηt)

et E[yi] = b′(θi) = g−1(ηi).

On dit que si θi = ηi, alors la fonction lien est canonique.

La famille exponentielle regroupe l’ensemble des lois de probabilité dont la densité ou lafonction de masse s’écrit sous la forme suivante :

f(y, θ, φ) = eθy−b(θ)a(φ) +c(y,φ),

où les fonctions a et b nous permettent de calculer tous les moments de Y - une variable aléatoirede la famille exponentielle :

E[Y ] = b′(θ), Var(Y ) = b′′(θ)a(φ).

Loi f(y) θ φ E[Y ](= µ) Var[Y ] Lien canonique µ

BernoulliB(µ) µy(1− µ)1−y log µ

1−µ 1 eθ

1+eθ µ(1− µ) η = log( µ1−µ) 1

1+e−yT β

PoissonP (µ)

µy

y !e−µ log(µ) 1 eθ µ η = log(µ) ey

T β

GammaG(α, β)

βαyα−1

Γ(α) e−βy −βα

= 1µ

−1θ

µ2 η = 1µ

(yTβ)−1

Table 4.1 – Résumé des lois exponentielles

Un grand nombre de lois font partie de la famille exponentielle : Bernoulli, Binomiale,Poisson, Normale, Gamma etc. Le Tableau 4.1 résume les caractéristiques de celles que nous

5. Nelder, J. et R. Wedderburn, 1972. "Generalized Linear Models", Journal of the Royal Statistical Society.Series A (General), Blackwell Publishing, vol. 135, no 3, p. 370-384.

48

Page 58: Par: Cristina Sontu

allons utiliser dans la suite de notre étude. Concernant leur utilisation habituelle : la loi deBernoulli modélise les taux, la loi de Poisson - la fréquence de sinistres et la loi de Gamma - lasévérité. La qualité d’estimation et de prédiction des modèles GLM sera abordée lors de leurmise en pratique.

4.2.2 Analyse des variables

Avant de passer à la modélisation de la prime pure, il est important d’étudier les variablestarifaires sur lesquelles nous travaillons. Dans cette section, nous commençons par l’introductionde la notion d’"exposition au risque". Ensuite, nous présentons les variables qualitatives dont ondispose et les mesures d’association entre elles. Nous continuons par la discussion des variablesquantitatives, leur analyse multivariée et nous comparons 3 méthodes de transformation envariables catégorielles.

Exposition au risque

Pour rappel, nous travaillons ici sur un sous-échantillon issu du portefeuille d’assuranceautomobile de Direct Assurance, observé sur les années 2014-2016. Chaque observation denotre base de données correspond à un contrat à caractéristiques fixes, donc si au moins unede celles-ci varie, alors une nouvelle image est créée - une nouvelle observation est enregistrée.

Ceci implique que la période d’observation par ligne est comprise entre 0 et 1 an - la duréemaximale de couverture par une police d’assurance automobile. Une autre source de troncaturede cette période vient des limites de notre période d’observation : toute image observée danscette période et ayant débuté avant le 01/01/2014 ou ayant fini après le 31/12/2016 est tronquéeà ces deux dates.

Exposition

Fré

quen

ce (

en %

)

0.0 0.2 0.4 0.6 0.8 1.0

0.0

0.5

1.0

1.5

Figure 4.2 – Répartition de l’exposition (en années police)

L’information sur la durée d’observation de chaque image est très importante lorsque nousvoulons estimer la fréquence annuelle des sinistres. Elle constitue une mesure de l’expositionau risque et nous permettra de ramener le nombre de sinistres à une exposition annuelle. Onnomme cette variable Exposure et on peut observer sa répartition sur la Figure 4.2.

Dans la suite, pour une variable donnée (v), nous allons examiner la structure du portefeuille(∑i|vi=k ei) et la fréquence RCM annuelle estimée (λk) par modalité (k). Ce dernier indicateur

49

Page 59: Par: Cristina Sontu

peut être estimé à partir des données observées (cf. Charpentier (2005)) :

λk =∑i|vi=k ni∑i|vi=k ei

.

où ni est le nombre de sinistres de l’observation i et ei est l’exposition de celle-ci. La variancede la fréquence annuelle est alors :

σ2k =

∑i|vi=k

[niei− λk]2

ei∑i|vi=k ei

.

Sous hypothèse de normalité, la fréquence annuelle moyenne aura comme intervalle de confianceà 95% :

ICk =λk ± 1.96 σk√∑

i|vi=k ei

.L’illustration des modalités des variables consistera donc dans la présentation de l’exposition

totale par des bâtons et de l’intervalle de confiance par des segments.

Variables qualitatives

Nous présentons ici plus en détail quelques variables tarifaires qualitatives retenues pour laprédiction de la prime pure. Le Tableau 4.2 résume les principales.

Antécédent d’assurance (Per_InsuranceHistory) - les antécédents d’assurance du C1 discri-minent les clients qui ont été déjà assurés dans les 2 dernières années de ceux qui ne l’ont pasété. Cette variable constitue un bon proxy de l’expérience récente de conduite. On s’attend àce que ceux qui sont sans antécédents aient perdu un peu l’habitude de la conduite et qu’ilsaient une fréquence de sinistralité plus élevée. En plus, certains sur-sinistrés décident de ne pass’assurer pendant 2 ans, pour ne pas payer une prime très élevée et surtout pour voir leur CRMredescendre à 100 après 2 ans sans assurance.

Comme on peut le voir sur la Figure 4.3, où l’exposition est repésentée par la taille du bâtonet la fréquence moyenne estimée - par le point avec l’intervalle de confiance, l’intuition sur lafréquence des sans antécédents s’avère juste.

Avec_antécédent Sans_antécédent

Per_InsuranceHistory

Exp

ositi

on e

t fré

quen

ce m

oyen

ne

Figure 4.3 – Exposition et fréquence parantécédents d’assurance du C1

Pas_de_sin/Autres Sin_non_responsable Sin_responsable

Cla_HistoryDetails

Exp

ositi

on e

t fré

quen

ce m

oyen

ne

Figure 4.4 – Exposition et fréquence parsinistralité antérieure

50

Page 60: Par: Cristina Sontu

Nom de la variable Modalités Descriptif

Per_InsuranceHistory Avec_antécédentSans_antécédent Les antécédents d’assurance du C1

Per_MaritalStatus Gr.1 ... Gr.4 L’état civil du C1, reparti en 4 groupesPer_Occupation Gr.1 ... Gr.5 La profession du C1, repartie en 5 groupes

Cla_HistoryDetailsSin_responsableSin_non_responsablePas_de_sinistre/Autres

Le type de sinistralité sur les 2 dernières années

Per_LearningMethod Auto_école/AutreConduite_accompagnée La modalité d’obtention du permis

Beh_Usage PrivéPrivé_et_pro L’usage du véhicule

Beh_WorkLocations UniqueMultiple Le nombre de lieux de travail

Veh_Fuel Diesel/AutreEssence Le type de carburant

Veh_Brand Gr.1 - Gr.2 La marque du véhicule, repartie dans 2 groupes

Veh_BodyTypeBerlineCoupe/cabrioletAutre

Le type de carrosserie

Veh_HighRisk Haut_risqueBas_risque Indicatrice du risque des véhicules

Pol_SelectedPackage Gr.1...Gr.4 La formule d’assurance choisie par l’assuré

Pol_PaymentPeriod Annuel/SemestrielMensuel Le fractionnement de paiement

Beh_ParkingType Gr.1 ... Gr.3 Le type de parking

Table 4.2 – Variables qualitatives

Historique de sinistralité (Cla_HistoryDetails) - la sinistralité sur les 2 dernières années estun bon indicateur du comportement de conduite de l’assuré. Suite à l’analyse de la fréquencemoyenne de cette variable, nous avons regroupé ses modalités en 3 groupes : sinistre(s) respon-sable(s), sinistre(s) non-responsable(s) et pas de sinistre/autres. Il convient de rappeler qu’oncompte ici toutes les types de sinistres, et pas uniquement ceux couverts pas la garantie RCM.

Diesel/Autre Essence

Veh_Fuel

Exp

ositi

on e

t fré

quen

ce m

oyen

ne

Figure 4.5 – Exposition et fréquence parcarburant

Gr.1 Gr.2 Gr.3 Gr.4

Pol_SelectedPackage

Exp

ositi

on e

t fré

quen

ce m

oyen

ne

Figure 4.6 – Exposition et fréquence parformule

51

Page 61: Par: Cristina Sontu

Carburant (Veh_Fuel) - le type de carburant utilisé par le véhicule cache aussi une informa-tion sur le kilométrage du véhicule. En France, les voitures au diesel sont souvent plus chèresque celles à essence et requièrent des taxes plus élevées (ex : taxe CO2 car il s’agit de véhiculesplus polluants), mais le prix du combustible est moins élevé, ce qui rend leur achat rentablepour les conducteurs fréquents (cf. Charpentier (2005)). On peut remarquer sur la Figure 4.5que les voitures à essence ont une fréquence de sinistralité plus réduite.

Formule d’assurance (Pol_SelectedPackage) - la formule d’assurance choisie par l’assuré estsouvent révélatrice du risque qu’il porte. La corrélation positive entre le degré de couverture (ledegré de couverture est maximal pour Gr.1 et diminue pour chacun des groupes suivants) et lafréquence moyenne de sinistres qu’on peut observer sur la Figure 4.6 est aussi celle suggérée parla théorie économique présentée dans le Chapitre 1. Pour rappel, deux phénomènes amènent àce résultat :

— les individus se sachant moins risqués choisissent d’être moins couverts alors que l’inverseest valable pour ceux qui savent porter un risque élevé ;

— ne plus porter le risque équivaut à prendre moins de précautions pour l’éviter.

Mesures d’association entre les variables qualitatives

L’analyse de l’association entre les variables constitue une première étape de filtre de l’en-semble des variables candidates. La puissance de leur lien avec la variable cible, ainsi que leurassociation 2 à 2 peut déterminer si elles sont pertinentes ou pas pour la prédiction.

Le test d’indépendance du χ2 est un outil statistique qui permet de vérifier l’existenced’une liaison entre deux variables qualitatives. L’hypothèse nulle de ce test implique une indé-pendance entre celles-ci. La statistique permettant une prise de décision est la suivante :

D2 =∑i,j

(Oij − Tij)2

Tij,

où Oij représente l’effectif observé de la classe i, j du tableau de contingence et Tij est soneffectif théorique. Sous l’hypothèse nulle, cette statistique suit une loi de χ2

I−1,J−1, avec I et Jégal au nombre de modalités des 2 variables considérées. Ainsi, si sa valeur dépasse le quantile1− α de cette loi, alors on rejette l’hypothèse nulle avec un risque égal à 100α%.

(a) V de Cramer entre les variablesqualitatives

Per

_Ins

uran

ceH

isto

ry

Beh

_Par

king

Type

Per

_Mar

italS

tatu

s

Cla

_His

tory

Det

ails

Per

_Occ

upat

ion

Veh

_Bod

yTyp

e

Veh

_Fue

l

Veh

_Bra

nd

Pol

_Sel

ecte

dPac

kage

Pol

_Pay

men

tPer

iod

Per

_Lea

rnin

gMet

hod

Beh

_Usa

ge

Beh

_Wor

kLoc

atio

ns

V d

e C

ram

er

0.00

00.

010

0.02

0

(b) V de Cramer entre la fréquence desinistres et les variables qualitatives

Figure 4.7 – Mesure d’association entre les variables qualitatives52

Page 62: Par: Cristina Sontu

Les résultats des tests du χ2 pour toute combinaison de variables 2 à 2 montrent que toutesces variables sont liées entre-elles, à un degré de confiance de 95%.

Pour tester l’intensité de ces liaisons, nous calculons le V de Cramer. Il est égal à la racinecarrée du χ2, divisé par le χ2 maximal. La Figure 4.7a présente les résultats de cette mesurepour toute paire de variables. On remarque que la force de liaison est en général assez faible,mais elle est plus élevée entre le type de carrosserie et le carburant, l’usage du véhicule etl’occupation, l’historique d’assurance et l’état civil.

Comme l’occurrence des sinistres est une variable binaire égale à 0 ou à 1, nous avonségalement mesuré le V de Cramer entre cette variable et toutes les autres variables qualitatives.On peut voir sur la Figure 4.7b que l’intensité de ces liaisons est assez faible. Elle est un peuplus élevée pour les antécédents d’assurance, le type de parking et l’état civil.

En conclusion, nous pouvons dire que toutes les variables qualitatives sont liées entre-elleset faiblement associées avec l’occurrence de sinistres.

Variables quantitatives

Les principales variables tarifaires quantitatives retenues pour la prédiction de la prime puresont résumées dans le Tableau 4.3. Dans la suite, nous analysons un peu plus en détail l’impactpotentiel de quelques-unes de ces variables.

Nom de la variable DescriptifPer_AgeD1 L’âge du C1

Per_LicenceAgeD1 L’ancienneté de permis du C1Cla_BonusMalus Le coefficient de réduction-majoration du C1

Cla_NumberPriorIns Le nombre de sinistres dans les 2 dernières annéesCla_NumberSinceInsured Le nombre de sinistres depuis la souscription

Veh_Age L’âge du véhiculeVeh_Weight Le poids du véhicule

Veh_SpeedLimit La vitesse maximale du véhiculeVeh_FiscalPower La Puissance fiscale du véhiculeVeh_PriceGroup La Classe de prix du véhiculeVeh_PowerGroup La Classe de puissance du véhicule

Per_AgeD2 L’âge du C2

Table 4.3 – Variables quantitatives

Âge du C1 (Per_AgeD1 ) - l’âge du conducteur principal est un proxy de son expérience deconduite et de son comportement au volant. L’expérience a montré que les jeunes ont plus d’ac-cidents car ils ont un comportement de conduite plus agressif et que la fréquence de sinistralitédiminue avec l’âge, mais augmente pour les personnes âgées, qui peuvent être moins réactivesau volant. Les C1 de notre portefeuille ont entre 18 et 113 ans, mais dans la Figure 4.8 nousfaisons un zoom sur les 18-57 ans. On remarque que les jeunes sont plus risqués, mais ils sontaussi moins bien représentés, tout comme les personnes plus âgées.

53

Page 63: Par: Cristina Sontu

18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57

Per_AgeD1

Exp

ositi

on e

t fré

quen

ce m

oyen

ne

Figure 4.8 – Exposition et fréquence parâge du C1

Cla_BonusMalus

Exp

ositi

on e

t fré

quen

ce m

oyen

ne

Figure 4.9 – Exposition et fréquence parCRM du C1

CRM (Cla_BonusMalus) - le coefficient de réduction-majoration synthétise à la fois l’ex-périence de conduite et la sinistralité antérieure. Sur la Figure 4.9 (qui exclue des CRM 50)on voit que la fréquence décroît avec l’augmentation du bonus et devient plus volatile pour lesclients "malussés".

Âge du conducteur secondaire (Per_AgeD2 ) - le conducteur secondaire est la deuxièmepersonne qui conduit le véhicule le plus fréquemment. Comme pour le C1, son âge traduit sonexpérience de conduite. La proportion des polices avec un C2 est de 53%.

20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57

Per_AgeD2

Exp

ositi

on e

t fré

quen

ce m

oyen

ne

Figure 4.10 – Exposition et fréquence par âge du C2

On peut remarquer sur la Figure 4.10 que notre exposition sur les C2 jeunes est très faible.Cela est évident, car chez DA, uniquement les conjoints/concubins et les parents du C1 sontacceptés. Ainsi, il n’est pas pertinent d’utiliser leur historique de sinistralité afin de tariferles enfants C2, qui sont, comme nous allons le voir dans la section 4.3.1, majoritairement desjeunes.

De plus, on remarque que l’âge du C2 est une variable importante pour prédire la fréquencedes sinistres RCM, surtout pour quand les C2 sont jeunes. Cela est un élément important auquelnous revendrions dans la suite.

54

Page 64: Par: Cristina Sontu

Mesures d’association entre les variables quantitatives

Comme pour les variables qualitatives, nous étudions ici le lien entre les variables quantita-tives afin de mieux comprendre le jeux de données sur lequel nous travaillons.

Dans la Figure 4.11 nous pouvons observer le coefficient de corrélation entre les dif-férentes variables quantitatives. Le CRM du C1 est fortement et négativement corrélé avecson ancienneté de permis, un peu moins avec l’âge des conducteurs et leur ancienneté dans leportefeuille, qui sont des variables positivement corrélées, bien évidemment.

Figure 4.11 – Corrélation entre les variables quantitatives

L’âge du véhicule est négativement corrélé avec son poids, sa vitesse maximale, son groupede prix et de puissance, mais il est décoléré de la puissance fiscale. Comme attendu, toutes cesvariables relatives au véhicule sont fortement corrélées entre-elles.

Lorsqu’on dispose de 4 ou plusieurs variables quantitatives (ici nous en avons 17), on ne peutplus les représenter toutes sur un seul graphique. Un grand classique de l’analyse multivariéedes données nous vient en aide - l’analyse en composantes principales (ACP) - décritede façon exhaustive dans Jolliffe (2002). Cette technique permet de réduire la dimension et deconcentrer l’information la plus pertinente dans de nouvelles variables décorrélées les unes desautres, appelées "composantes principales". Rappelons le principe de leur calcul.

On considère N observations sur K variables aléatoires X1, ..., XK , réunies dans la matriceM ∈MN,K(R) :

M =

X1,1 X1,2 · · · X1,KX2,1 X2,2 · · · X2,K... ... . . . ...

XN,1 XN,2 · · · XN,K

Nous centrons M sur le centre de gravité du nuage de points (X1, ..., XK) et nous la rédui-sons, car nos variables explicatives n’ont pas la même unité. Notons cette nouvelle matrice M .L’image du couple (i, j) par l’application M est alors Xij−Xj

σ(Xj) . Si la matrice D = diag(p1, ..., pN)

55

Page 65: Par: Cristina Sontu

regroupe le poids des observations, alors la matrice des corrélations des X1, ...XK est R =MTDM . R est carrée, symétrique et réelle, donc diagonalisable dans une base orthonormée.

La première étape de l’ACP est de trouver l’axe u, par le biais d’une combinaison linéairedes variables, de façon à ce que la variance autour de u soit maximale. Soit πu(M) la projectionde nos données sur u : πu(M) = Mu. La variance de celle-ci est donc :

πu(M)TDπu(M) = uTMTDMu = uTCu = (Pu)T∇(Pu)

où C est une matrice diagonalisable en base orthonormée, P étant le changement de base associéet ∇ = diag(λ1, ...λK) la matrice diagonale ainsi obtenue, avec λ1 > ... > λK . Le vecteur umaximisant la variance (Pu)T∇(Pu)(= λ1) est un vecteur propre de C, associé à la valeurpropre λ1, qui est égale à la variance de la première axe de l’ACP. Les axes suivants sontobtenus en suivant le même principe, sous contrainte qu’ils soient orthogonaux à celles d’avant.

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16

% d

'iner

tie

0.00

0.10

0.20

0.30

Figure 4.12 – Eboulis des valeurs propres en %

La Figure 4.12 présente les valeurs propres estimées ici. On remarque que l’essentiel de lavariation est captée par les 3 premiers axes. Nous allons donc regarder quelles sont les variablesqui ont le plus contribué à leur formation. Cette information est résumée par le cercle descorrélations, où les variables les mieux représentées sont celles qui sont les plus proches dupérimètre du cercle.

Sur la Figure 4.13a nous avons tracé le cercle de corrélation sur le plan composée par lespremières deux composantes principales, qui concentrent 44.8% de l’inertie disponible dansnos observations. Sur ce plan on distingue essentiellement deux groupes de variables qui sontbien représentées et qui sont, comme on a vu lors de l’analyse des corrélations, fortementcorrélées entre-elles : les caractéristiques des conducteurs (âge, ancienneté de permis, CRM,ancienneté dans le portefeuille etc.) et les caractéristiques du véhicule (puissance fiscale, groupede puissance, groupe de prix, limite de vitesse etc.).

En analysant également le tableau des coordonnées des variables, nous pouvons dire que lepremier axe factoriel discrimine les individus sur des critères d’âge et puissance du véhicule, cesdeux allant dans le même sens ; tandis que le deuxième les oppose : il sépare les conducteursles plus expérimentés avec un véhicule moins puissant, de ceux qui sont des conducteurs plusjeunes, avec un véhicule plus puissant. Quant au troisième axe (cf. Figure 4.13b - 2ème planfactoriel de l’ACP, résumant 28.1% de variabilité), il semble séparer davantage les individus surdes critères d’ancienneté, les variables le plus corrélées avec celle-ci étant le nombre de sinistresdepuis la souscription et le nombre d’années d’ancienneté dans le portefeuille.

56

Page 66: Par: Cristina Sontu

Pol_YearsInForce

Cla_BonusMalus

Per_AgeD1Cla_YearsAtMaxBonus

Per_LicenceAgeD1

Per_AgeD2

Per_ChildrenNumberCla_NumberPriorIns

Cla_NumberSinceInsured

Veh_SpeedLimitVeh_FiscalPower

Veh_Age

Veh_PriceGroupVeh_WeightVeh_PowerGroup

AgeED

−1.0

−0.5

0.0

0.5

1.0

−1.0 −0.5 0.0 0.5 1.0

Dim1 (25.7%)

Dim

2 (1

9.1%

)

0.2

0.4

0.6

0.8

cos2

Variables − PCA

(a) Premier plan de l’ACP

Pol_YearsInForce

Cla_BonusMalus

Per_AgeD1Cla_YearsAtMaxBonusPer_LicenceAgeD1Per_AgeD2

Per_ChildrenNumber

Cla_NumberPriorIns

Cla_NumberSinceInsured

Veh_SpeedLimitVeh_FiscalPower

Veh_Age

Veh_PriceGroupVeh_WeightVeh_PowerGroup

AgeED

−1.0

−0.5

0.0

0.5

1.0

−1.0 −0.5 0.0 0.5 1.0

Dim2 (19.1%)

Dim

3 (9

%)

0.2

0.4

0.6

cos2

Variables − PCA

(b) Deuxième plan de l’ACP

Figure 4.13 – ACP des variables

Étant donné qu’il y a des corrélations assez fortes entre certaines variables, nous allonsutiliser des algorithmes de sélection de variables corrigeant cette source d’erreur. La combinaisonde variables qui maximisera le pouvoir prédictif des modèles sera retenue.

4.2.3 Effets non-linéaires - découpage des variables quantitatives

Dans la section 4.2.2 nous avons vu que l’impact de certaines variables quantitatives n’estpas forcément linéaire sur la variable cible. Différentes approches permettent de remédier ceproblème : introduire des splines, faire des régressions polynomiales, "discrètiser" la variablesetc. Nous étudions ici trois différentes méthodes de découpage, afin de retenir uniquement cellequi maximise la puissance prédictive du modèle.

- Le découpage intuitif consiste dans l’analyse de l’exposition et de la fréquence moyennepar chaque valeur individuelle de la variable quantitative et de son découpage lorsqu’un "saut"est observé dans la fréquence estimée. Nous regroupons donc les fréquences qui ont un niveauéquivalent, tout en faisant attention à avoir suffisamment d’exposition par classe.

Par exemple, dans la Figure 4.8 on peut remarquer que la fréquence moyenne est très procheentre les 18-20 ans, donc on décide de les regrouper dans une seule classe. Il convient de mêmepour les 20-22 ans, 23-27 ans, 28-32 ans, 33-46 ans, 46-58 ans, 59-76 ans et 77-99 ans. Lesfréquences estimées au sein des nouvelles classes sont représentées dans la Figure 4.14a.

57

Page 67: Par: Cristina Sontu

2 4 6 8

Per_AgeD1

Exp

ositi

on e

t fré

quen

ce m

oyen

ne

(a) Découpage intuitif

1 2 3 4 5

Per_AgeD1

Exp

ositi

on e

t fré

quen

ce m

oyen

ne

(b) Découpage par arbre dedécision

1 2 3 4 5

Per_AgeD1

Exp

ositi

on e

t fré

quen

ce m

oyen

ne

(c) Découpage optimal

Figure 4.14 – Découpage de l’âge du C1

- Le découpage par arbre de décision est une méthode de discrétisation qui amène à desclasses au sein desquelles la variance est minimisée, sous condition que l’apport d’informationde chaque partition reste significatif. Ici, on prédit la variable cible uniquement à partir de lavariable quantitative qu’on souhaite découper. L’algorithme de découpage sera présenté plusen détail dans la partie 4.3.2.

Per_AgeD1 >= 26

Per_AgeD1 >= 32 Per_AgeD1 >= 24

< 26

< 32 < 24

0.12100%

0.1188%

0.172%

0.1415%

0.212%

0.167%

0.245%

Figure 4.15 – Découpage de l’âge du C1 avec un arbre de décision

La Figure 4.15 nous fournit un exemple d’arbre qui a servi au découpage de l’âge du conduc-teur principal. Lorsque nous limitons le nombre de classes à 4, l’ensemble de valeurs prises parcette variable est regroupé dans les intervalles suivantes : [18,24), [24,26), [26,32) et [32,99]. Lafréquence moyenne, ainsi que l’exposition par classe peut être observée dans la Figure 4.14b.

- Le découpage optimal est le nom d’une technique qui cherche à maximiser le χ2 dutableaux de contingence de la variable découpée et la fréquence observée. Cette méthode suitles étapes de l’Algorithme de Dijkstra - l’algorithme de recherche du plus court chemin. 6 Lepoint de départ est un découpage très fin de la variable prédictive, à partir duquel nous cherchonsle chemin optimal pour arriver à une partition qui maximise le χ2. Lorsqu’on applique cetteméthode au découpage de l’âge du C1, nous obtenons la partition illustrée sur la Figure 4.14c.

Nous appliquons ces 3 algorithmes à chaque variable dont l’impact sur la variable cible estsuspecté d’être non-linéaire : l’âge, l’ancienneté de permis et le CRM du conducteur principal ;son ancienneté dans le portefeuille DA (cf. Figures 4.16a, 4.16b et 4.16c) ; l’âge du conducteursecondaire, de l’enfant désigné et du véhicule ; la vitesse maximale du véhicule. Nous l’ap-pliquons également sur les variables qualitatives Veh_PriceGroup et Veh_PowerGroup - lesgroupes de prix et de puissance du véhicule.

6. Dijkstra, Edsger W., 1971. "A short introduction to the art of programming." 67-73.

58

Page 68: Par: Cristina Sontu

2 4 6

Per_LicenceAgeD1

Exp

ositi

on e

t fré

quen

ce m

oyen

ne

(a) Découpage intuitif

2 4 6

Per_LicenceAgeD1

Exp

ositi

on e

t fré

quen

ce m

oyen

ne

(b) Découpage par arbre dedécision

1 2 3 4

Per_LicenceAgeD1

Exp

ositi

on e

t fré

quen

ce m

oyen

ne

(c) Découpage optimal

Figure 4.16 – Découpage de l’ancienneté du permis du C1

Pour évaluer le pouvoir explicatif des modèles nous utilisons la déviance. Cette mesurerepose sur la vraisemblance du modèle et permet de quantifier l’écart entre chacun des modèlesconstruits et le modèle idéal, qui estimerait parfaitement les données :

D(k, λ) = −2logL(λ|k)L(k|k)

= −2[log(L(λ|k))− log(L(k|k))], (4.1)

où L(λ|k) est la vraisemblance du modèle ajusté et L(k|k) est celle du modèle parfait, quicompte autant de paramètres que d’observations. Rappelons que dans le cadre d’un modèle dePoisson, la fonction de la vraisemblance s’écrit :

L(λ|k) =n∑i=1

exp(−λi)λkiiki !

(4.2)

La déviance de notre régression de Poisson estimée est alors donnée par :

D(k, λ) =n∑i=1

[nilog

ni

λi− ni + λi

](4.3)

Une petite déviance traduit un bon ajustement des données utilisées lors de l’estimation.Comme on peut le voir dans le Tableau 4.4, la méthode qui explique le mieux les données estle découpage intuitif et celle dont l’écart de vraisemblance est le plus large est la méthode dudécoupage optimal.

Mesure d’erreur Découpage intuitif Arbre de décision Découpage optimalDeviance 83171 83212 83321MSE 0.017785 0.017783 0.017788MAE 0.13336 0.13335 0.13337

Table 4.4 – Performance des trois méthodes de découpage

Le pouvoir prédictif des modèles est mesuré ici pas le MSE - l’errreur moyenne quandratique(eng : Mean Squared Error) et le MAE - l’erreur moyenne absolue (eng : Mean Squared Error).

59

Page 69: Par: Cristina Sontu

Dans les deux cas, il est minimal pour la méthode de découpage par un arbre de décision. Nousdécidons donc de retenir celle-ci pour la suite. Les Figures 4.17 - 4.19 présentent quelques autresdécoupages ainsi obtenues.

1 2 3 4 5

Cla_BonusMalus

Exp

ositi

on e

t fré

quen

ce m

oyen

ne

Figure 4.17 – Découpagedu CRM du C1

1 2 3 4 5

Per_AgeD2

Exp

ositi

on e

t fré

quen

ce m

oyen

ne

Figure 4.18 – Découpagede l’âge du C2

1 2 3 4

Veh_Age

Exp

ositi

on e

t fré

quen

ce m

oyen

ne

Figure 4.19 – Découpagede l’âge du véhicule

Les nouvelles variables que nous avons crées dans cette partie seront utilisées lors de lamodélisation de la fréquence, car leur découpage a été adapté de façon à prédire le mieuxpossible cette variable cible. Pour le calibrage du coût des sinistres, nous avons égalementretenu la technique de découpage par arbre de décision, qui donne la meilleure performance.

4.3 Prédiction de l’âge des enfants désignés

Pour affiner le calibrage de la prime pure, nous aimerions remplacer l’indicatrice désignantles enfants par une autre caractéristique des ceux-ci, prenant plus de modalités. L’âge du C2 estune variable importante pour prédire le risque, notamment lorsque le C2 est jeune (cf. 4.2.2).Nous disposons bien de cette variable dans les demandes de tarifs ayant donné lieu a des rejets,mais cette information est indisponible pour les enfants désignés. 7

Cependant, nous avons vu en 4.1.3 que les profils de ces individus sont proches. Ainsi, danscette partie nous utilisons les demandes de tarif rejetées des enfants conducteurs secondairescomme base d’apprentissage pour prédire l’âge des enfants désignés. Nous calibrons un mo-dèle essentiellement à partir des caractéristiques du parent conducteur principal. Ensuite, nousappliquons ce modèle aux caractéristiques des clients avec un enfant désigné.

Pour ne pas nous limiter à une seule technique et éviter une erreur de modèle, nous com-parons la performance de deux modèles prédictifs : l’arbre de décision et la forêt d’arbresdécisionnels. Les deux sont des modèles non-paramétriques - l’estimation ne prend pas uneforme prédéfinie, mais est déterminée à partir des données.

4.3.1 Présentation des données

Nous travaillons sur une centaine de milliers demandes de tarif rejetées pour enfant conduc-teur secondaire. Étant donnée que tout refus est enregistré sans être vérifié auparavant, ilconvient de nettoyer les données avant de procéder au calibrage des modèles.

7. Il serait intéressant de contrôler pour les antécédents d’assurance du C2, mais ceux-ci sont difficiles àcalibrer à partir des variables dont on dispose.

60

Page 70: Par: Cristina Sontu

Comme on peut le voir sur la Figure 4.20a, la différence d’âge entre le C1 et le C2varie de -40 à 60 ans, avec 3 pics locaux : à -35, 5 et 25 ans. Ainsi, on pourrait suspecter quela personne ayant fait la demande s’est peut-être trompée en répondant à la question "Quel estle lien du C2 avec le C1 ?". Ceux pour lesquels la différence d’âge est autour de -35 ans ontpotentiellement confondu la direction de parenté entre les deux conducteurs et on estime qu’il ya une forte probabilité que la plupart de ceux avec une différence autour de 5 ans ont confondula modalité "conjoint" avec "enfant". Nous décidons donc de supprimer toutes les demandesdont cette différence d’âge est inférieure à 16 ans.

Différence d'âge entre le C1 et le C2

Fré

quen

ce

−40 −20 0 20 40 60

0.00

0.02

0.04

(a) Répartition de la différence d’âgeentre le C1 et le C2

Âge

Fré

quen

ce

20 40 60 800.

000.

040.

08

Âge parent C1Âge enfant C2

(b) Répartition de l’âge des C1 et C2(après nettoyage)

Figure 4.20 – Histogrammes pour les demandes rejetées

La Figure 4.20b présente la répartition de l’âge des deux conducteurs par classe d’âge. Onremarque que la plupart des enfants C2 sont jeunes, avec moins de 20 ans, et que les parentsont majoritairement autour de 50 ans.

Afin de prédire l’âge de l’enfant nous utilisons l’âge du véhicule et plusieurs caractéristiquesdu parent : l’âge, le sexe, l’ancienneté du permis, le CRM, le statut marital et la profession. Lestechniques de prédiction qu’on retient pour la suite rendent inutile un traitement de données,donc les variables quantitatives restent continues et celles qualitatives préservent leurs modalitésinitiales.

4.3.2 Prédiction par arbre de décision

L’arbre de décision (eng : decision tree) est une des méthodes d’apprentissage superviséles plus populaires et sert de base pour de nombreuses autres. Son principal avantage réside danssa représentation graphique lisible et ludique, qui facilite la compréhension et l’interprétationdes résultats. En fonction de la variable cible, deux principaux types d’arbres existent :

— Arbres de classification - pour les variables catégorielles ;— Arbres de régression - pour les variables quantitatives.

Le terme CART (Classification And Regression Trees), introduit pas Breiman et al. (1984),est un terme générique faisant référence à ces deux types.

La structure des arbres commence par la racine - le nœud initial qui regroupe toutes lesobservations et à partir duquel des embranchements sont faits. Chaque nœud est divisé en deux

61

Page 71: Par: Cristina Sontu

branches correspondant à la partition d’une variable d’entrée, selon un critère de segmentationdéfini au préalable. Des critères d’arrêt déterminent la profondeur de l’arbre et chaque nœudfinal (appelé "feuille") représente les valeurs estimées de la variable cible pour la combinaisonde variables y menant.

Nous voulons prédire ici l’âge, qui est une variables quantitative. Ainsi, le critère de seg-mentation retenu vise à minimiser la variance inter-classes (SSB - Sum of Squares Betweenclass) :

SSB =p∑i=1

ni(yi − y)2,

où ni est l’effectif du nœud i, yi est la moyenne de la variable cible y à l’intérieur de ce nœudet y est la moyenne générale de y. Nous construisons le plus grand arbre de régression possible,pour ensuite l’élaguer afin d’éviter le sur-apprentissage. La profondeur de l’arbre est déterminéepar validation croisée (eng : cross-validation). 8 Très souvent, la performance du modèle surl’échantillon de test diminue avec la taille de l’arbre, puis augmente à nouveau lorsqu’il y a unsur-apprentissage des données.

Age < 62

Age < 54

Age < 48 Age < 58

Age < 72

GenderId = H Age < 80

19 21 23 26 30 35 41 51

yes no

(a) Les premières branches del’arbre de décision estimé

cp

X−

val R

elat

ive

Err

or

0.4

0.6

0.8

1.0

Inf 8e−04 0.00036 0.00025 0.00021 0.00016

1 15 31 47 65 88 113 146 178 206 238

size of tree

(b) Validation croisée de la profondeur del’arbre de décision

Figure 4.21 – Arbre de décision pour l’âge de l’enfant

En pratique, nous fixons le nombre de feuilles à la plus petite valeur estimée et à partir delaquelle l’erreur de validation croisée ne diminue plus de manière significative. Ici, nous limitonsla profondeur de l’arbre à 35 feuilles, même si le point minimal est à 180 (cf. Figure 4.21b),car le gain entre les deux est marginal. La Figure 4.21a illustre la structure initiale de l’arbreestimé. Un critère sous forme de question est retenu à chaque nœud et la réponse apportéedétermine quelle branche suivre : celle de droite (gauche) étant pour les réponses négatives(positives). Le critère le plus discriminant dans le cadre de l’estimation de l’âge du C2 sépare

8. La validation croisée est une technique qui permet d’éviter un sur-apprentissage des données utiliséespour l’estimation. Elle rend possible la généralisation des résultats. Ici, nous divisons la base de données initialedans un échantillon d’apprentissage qui servira au calibrage du modèle et un échantillon de test sur lequel noustestons ses prédictions. Ceci a été fait 10 fois pour éviter que les résultats soient biaisés par la sélection initialedes données.

62

Page 72: Par: Cristina Sontu

les profils de risque en deux catégories : ceux pour lesquels l’âge du C1 est < 62 ans et ceuxavec un âge du C1 ≥ 62 ans.

Malgré ses nombreux avantages, cette technique reste sujette au sur-apprentissage - ellecalibre bien les données utilisées pour l’estimation, mais, en entrant trop dans les détails spé-cifiques à cet échantillon, elle est difficilement généralisable à d’autres échantillons. De plus,l’algorithme est biaisé vers les variables avec beaucoup de modalités. La forêt d’arbres décision-nels vient corriger une partie de ces défauts.

4.3.3 Prédiction par forêt d’arbres décisionnels

La forêt d’arbres décisionnels est une technique d’apprentissage supervisé, qui combine lesconcepts de sous-espaces aléatoires et de bagging 9 - terme introduit par Breiman en 1994. 10

Le bagging est une méta-heuristique, qui permet d’agréger des modèles afin d’améliorer leurstabilité, réduire leur variance et éviter le sur-apprentissage. Plus précisément, cette méthodeconsiste dans le sous-échantillonnage avec remise de l’échantillon d’apprentissage, l’estimationd’un modèle sur chacun et la moyennisation (détermination du vote prépondérant) de tous lesmodèles estimés s’il s’agit d’une régression (classification). Dans le cadre de la forêt d’arbresdécisionnels, le bagging est utilisé pour moyenner plusieurs arbres de décision profonds, entraînéssur différents sous-ensembles de l’échantillon d’apprentissage.

Le concept de sous-espaces aléatoires consiste dans le tirage aléatoire de m prédicteurs àchaque nœud, de façon à ce que le critère de division de celui-ci dans 2 autres branches reposeuniquement sur une des variables tirées (cf. Ho (1995)).

Ainsi, sur chaque échantillon d’observations tiré, un arbre de décision est estimé, d’uneprofondeur fixée par cross-validation. Finalement, la prédiction pour chaque observation est lamoyenne / le vote majoritaire des prédictions de chaque arbre. Le principal défaut de cetteméthode est que l’on perd l’aspect visuel des arbres de décision uniques.

1 2 3 4 5 6 7

1416

1820

Nombre de variables (mtry)

MS

E

Figure 4.22 – Validation croisée de mtry

Comme la forêt ne sur-apprend pas les don-nées, nous fixons le nombre d’arbres à 200.L’autre hyper-paramètre de cette méthode - lenombre de variables utilisées lors de chaque split(division), appelé mtry sous R a - est fixé de fa-çon à minimiser l’erreur quadratique moyennedes prédictions sur l’échantillon de test. Commeon peut le voir sur la Figure 4.22, cette mesureest minimisée pour mtry = 4.

a. Langage informatique dédié à la science des don-nées.

9. Bagging est une abréviation de Bootstrap Aggregating.10. Breiman, 1994. "Bagging Predictors." Rapport technique n. 421, Université de Californie.

63

Page 73: Par: Cristina Sontu

4.3.4 Résultats

La Figure 4.23 compare les prédictions des deux modèles d’apprentissage statistique. Laperformance de la forêt par rapport à l’arbre de décision est visible : les prédictions sont plusalignées avec les vraies valeurs.

20 30 40 50 60

2030

4050

6070

Arbre de décision

Prédictions

Vra

ies

vale

urs

20 30 40 50 6020

3040

5060

70

Forêts d'arbres décisionnels

Prédictions

Vra

ies

vale

urs

Figure 4.23 – Comparaison de l’arbre unique et de la forêt

Pour choisir entre les deux méthodes, nous les calibrons sur un échantillon d’apprentissageet évaluons leur performance sur un échantillon de test. Cette procédure est répétée 10 foiset la performance moyenne est présentée dans le Tableau 4.5. Comme mesure de performancenous retenons le MSE et le MAE. Les résultats confirment notre conclusion tirée à partir dela Figure 4.23 - que la forêt d’arbres décisionnels parvient à mieux prédire l’âge de l’enfant.

Mesure d’erreur Arbre de décision Forêt d’arbres décisionnelsMSE 18.01 13.87MAE 2.85 2.44

Table 4.5 – Validation croisée des modèles de prédiction de l’âge de l’enfant

Nous appliquons donc la structure estimée de la forêt sur les clients du portefeuille, afin deprédire l’âge de l’enfant désigné. Les prédictions varient de 18.2 à 56 ans, avec une médiane à20.2 ans. Cependant, pour pouvoir inclure cette variable dans le modèle GLM que nous allonsestimer dans la suite sur la totalité des clients DA, il faudrait la découper, car une variablequantitative prenant une valeur égale à 0 pour les clients sans enfant désigné n’a pas de sensdans un modèle linéaire. Comme pour les autres variable quantitatives, nous avons utilisé unarbre de décision pour regrouper ses valeurs dans trois catégories différentes : une pour lescontrats sans enfant désigné et 3 autres selon les différentes tranches d’âge de l’enfant, T1 pourles plus jeunes et T3 pour les moins jeunes.

64

Page 74: Par: Cristina Sontu

4.4 Prime pure - modélisation de la fréquence des si-nistres

Notre approche "fréquence-coût" décrit dans la section 4.1.3, implique une modélisationséparée de la fréquence et du coût des sinistres. Avant de calibrer chaque modèle et analyser leursrésultats, nous effectuons un tri des variables tarifaires (eng : feature selection), pour limiter leurensemble uniquement aux plus pertinentes. L’âge de l’enfant désigné sera également une variableinclue dans l’ensemble des variables candidates, mais celle-ci sera ajoutée au modèle final, sousconditions que son coefficient soit significatif, indifféremment de la décision du processus desélection.

4.4.1 Sélection des variables - théorie et pratique

La théorie de la sélection des variables

La sélection des variables est une étape indispensable lorsqu’on dispose d’un grand nombrede variables explicatives. Elle amène non seulement à des modèles plus simples à interpréteret plus rapides à estimer, mais permet également de réduire le nombre de segments et doncd’éviter un sur-apprentissage des données.

"L’objectif de la sélection des variables est triple : elle améliore la performance de prédic-tion de la variables cible, fournit de manière rapide et rentable des prédicteurs et permet unemeilleure compréhension du processus sous-jacent ayant généré les données." 11

L’ensemble des techniques de sélection des variables peut être divisé dans 3 catégories :

— la méthode filter permet de sélectionner uniquement les variables les plus intéressantes,en analysant les associations de celles-ci avec la variable cible. Ceci était un des butsde l’étude préalable des variables tarifaires que nous avons fait dans la partie 4.3. Pourl’enrichir, nous considérons ici un modèle de Poisson, incluant toutes les variables can-didates. Ensuite, nous considérons les p-valeurs du test de significativité de chacune etl’éliminons du modèle si elle n’est pas significative à 5%. Le principal défaut de cetteméthode est qu’elle ne tient pas compte des interactions potentielles entre les variables,un biais corrigé par la méthode suivante ;

— la méthode wrapper cherche la meilleure combinaison de variables qui maximise laprécision du modèle selon un critère prédéfini (cf. Guyon et al. (2003)). Nous considéronsici des processus heuristiques de recherche de variables :

• forward - cette technique a comme point de départ un modèle sans variables, auqueld’autres s’ajoutent une à une. C’est un algorithme récursif dont chaque étape consistedans la comparaison de l’apport d’une des variables candidates à la performance dumodèle de base. Celle qui permet de l’améliorer le plus est retenue et est rajoutéeà celui-ci. Ceci jusqu’à ce qu’aucune variable supplémentaire ne puisse pas apporterun impact significatif. Nous appelons cette méthode GLM forward.

• backward - nous considérons ici deux type d’algorithmes wrapper backward.

11. Traduction en français de Guyon et al. (2003). “An Introduction to Variable and Feature Selection”, TheJournal of Machine Learning Research, Volume 3, p. 1157-1182.

65

Page 75: Par: Cristina Sontu

Nous appelons GLM backward l’inverse du forward décrit ci-dessus. Cette fois,l’algorithme démarre à partir d’un modèle incluant toutes les variables candidateset exclut, à chaque étape, celle dont l’élimination provoque la plus petite perte, àcondition que celle-ci ne soit pas statistiquement significative.Le critère retenu pour ces deux derniers algorithmes est le critère d’information baye-sien (BIC) :

BIC = −2ln(L) + kln(n),

où L est la vraisemblance du modèle estimé, n - le nombre d’observations et k - lenombre de coefficients à estimer. Nous retenons ce critère car, par rapport à l’AIC(critère d’information d’Akaike), il pénalise plus le nombre de paramètres dans unmodèle.

Le RF backward désigne l’algorithme récursif de sélection de variables par forêtd’arbres décisionnels. Ce dernier nous permet d’évaluer l’importance des variablescandidates, mais ne nous dit pas combien il faudrait en garder dans le modèle final.Nous allons donc suivre les étapes détaillées dans la Figure 4.24 pour trouver le plusperformant sous-ensemble de variables.

Espace des variables candidates

Estimation du modèle (RF) + Importance des variables Pour chaque sous-échantillon 𝑉𝑖, 𝑖 = 1… 𝐽, sélection de 𝑖 variables les plus importantes

𝑉1 Estimation + Performance

𝑉2 Estimation + Performance

𝑉𝐽

Estimation + Performance

Sélection de l’ensemble 𝑉𝑖 qui maximise la performance

Figure 4.24 – Algorithme de sélection des variables par RF backward

— la méthode embedded est la plus récente et vise à combiner les avantages des deuxméthodes précédentes. Il s’agit des algorithmes d’apprentissage qui incluent, lors de leurconstruction, une étape de sélection de variables.

Une catégorie de ces modèles sont les méthodes de régularisation, la plus communeétant Lasso (Least Absolute Shrinkage and Selection Operator), introduite par Tib-shirani (1996). Tout comme la régression de Ridge, elle vient diminuer le risque desur-apprentissage par la contraction (shrinkage) des coefficients estimés. Ces deux mé-thodes de "pénalisation" introduisent des contraintes supplémentaires dans l’algorithmede maximisation de la vraisemblance du modèle, qui biaisent ce dernier vers une moindrecomplexité.

La base conceptuelle de ces techniques est l’arbitrage biais-variance - les deux sourcesd’erreur d’un algorithme d’apprentissage statistique. En fait, la puissance prédictive d’unmodèle, mesurée par le MSE, peut être décomposée comme suit :

66

Page 76: Par: Cristina Sontu

E[(y − y)2] = E[y − y] + E[y2]− E[y]2 + E[(y − y)2]= Biais(y) + Variance(y) + Variance(y).

En introduisant un petit biais, les techniques de régularisation viennent diminuer lavariance des coefficients et parviennent ainsi à réduire l’erreur de prédiction du modèle.

La valeur ajoutée de Lasso par rapport à Ridge vient de la sélection de variables déduitenaturellement de son résultat. En fait, la pénalisation par norme L1 de Lasso peut consi-dérablement réduire le nombre de variables retenues (par l’annulation des coefficientsqui leur sont corrélées), ce qui diminue la variance des coefficients restants.

A λ ≥ 0 fixé (paramètre que nous calibrons), les coefficients estimés par Lasso sont lerésultat de la maximisation suivante :

βLasso = argmaxβ∈Rp

L(β|x)− λp∑j=1|βj|

.Pour éviter le risque de sur-apprentissage et rendre la sélection de variables plus robuste,

lors de la mise en pratique de ces algorithmes, nous allons les estimer sur un échantillon d’ap-prentissage et les tester sur un échantillon de test.

L’application pratique

Nous mettons en pratique les 5 méthodes de sélection des variables présentées dans la sectionprécédente. La Figure 4.25 illustre l’importance des variables pour la prédiction de la fréquencedes sinistres RCM, telle qu’estimée par un forêt d’arbres décisionnels - la première étape del’algorithme RF backward. L’importance d’une variable j est mesurée par le pourcentage d’aug-mentation du MSE (calculé par validation croisée) suite à la permutation de ses valeurs. Lepoids du véhicule, le nombre d’enfants et la formule choisie détiennent la tête du classement,tandis que l’âge de l’enfant désigné n’est que sur la dernière place. Ceci est un résultat attendu,car la part des contrats avec enfant désigné est très faible. Par contre, cela ne veut en aucuncas dire qu’elle n’est pas discriminante.

0e+

001e

+05

2e+

053e

+05

Veh

_Wei

ght

Per

_Chi

ldre

nNum

ber

Pol

_Sel

ecte

dPac

kage

Veh

_Pric

eGro

up

Veh

_Age

Beh

_Par

king

Type

Veh

_Fis

calP

ower

Per

_Age

D2

Veh

_Bod

yTyp

e

Veh

_Pow

erG

roup

Per

_Occ

upat

ion

Per

_Mar

italS

tatu

s

Cla

_Bon

usM

alus

Per

_Age

D1

Cla

_Num

berS

ince

Insu

red

Cla

_Yea

rsA

tMax

Bon

us

Per

_Lic

ence

Age

D1

Per

_Ins

uran

ceH

isto

ry

Veh

_Spe

edLi

mit

Cla

_His

tory

Det

ails

Cla

_Num

berP

riorI

ns

Pol

_Yea

rsIn

For

ce

Pol

_Pay

men

tPer

iod

Beh

_Usa

ge

Per

_Lea

rnin

gMet

hod

Veh

_Fue

l

Veh

_Bra

nd

Veh

_Hig

hRis

k

Beh

_Wor

kLoc

atio

ns

Age

ED

%In

cMS

E

Figure 4.25 – Importance des variables (fréquence)

67

Page 77: Par: Cristina Sontu

Comme présenté sur la Figure 4.24, afin de décider combien de variables choisir (parmi lesplus importantes), nous calculons le MSE pour chacune des 30 combinaisons possibles. LaFigure 4.26 montre qu’ici le résultat optimal est donnée par l’inclusion de toutes les variablescandidates dans notre modèle GLM.

5 10 15 20 25 30

0.01

834

0.01

837

0.01

840

Nombre de variables

MS

E

Figure 4.26 – RF backward - nombre de variables à retenir (fréquence)

Lors du calibrage des paramètres de Lasso, illustré par la Figure 4.27a, nous avons choisile λ minimisant le MSE. Celui-ci est ensuite utilisé pour estimer les coefficients des variables.On peut voir sur la Figure 4.27b qu’il est suggéré de garder toutes les variables.

−12 −11 −10 −9 −8 −7 −6

0.01

780.

0180

0.01

82

log(Lambda)

Err

eur

moy

enne

qua

drat

ique

(M

SE

)

61 60 60 60 55 48 38 24 12 4 3

(a) Règlage du lambda

−12 −11 −10 −9 −8 −7 −6

−0.

50.

00.

51.

0

Log Lambda

Coe

ffici

ents

61 59 34 4

(b) Variation des coefficients par lambda

Figure 4.27 – Sélection des variables par Lasso (fréquence)

Le Tableau 4.6 résume les variables sélectionnées pour chaque algorithme appliqué. Lesméthodes GLM forward (fwd) et GLM backward (bwd) sont celles qui ont sélectionné les pluspetits nombres de variables, tandis que le RF bwd et Lasso proposent de garder toutes lesvariables. La performance de ces dernières n’est pas très loin devant celle de la P-value, qui, enéliminant 5 variables de plus, n’augmente que de 0,005% le RMSE - racine de l’erreur moyennequadratique (eng : root-mean-square error), présentée ici sous forme normalisée. Dans un soucide parcimonie, c’est l’ensemble de variables suggéré par cette dernière méthode que nous allonsretenir pour la prédiction de la fréquence.

68

Page 78: Par: Cristina Sontu

Variable P-value GLM fwd GLM bwd RF bwd LassoPer_InsuranceHistory + + +Per_MaritalStatus + + +Per_Occupation + + +

Cla_HistoryDetails + + +Per_LearningMethod + + +

Beh_Usage + + +Beh_WorkingLocations + +

Veh_Fuel + + + + +Veh_Brand + +

Veh_BodyType + + +Veh_HighRisk + +

Pol_SelectedPackage + + +Pol_PaymentPeriod + + +Beh_ParkingType + + + + +

Per_AgeD1 + + +Per_LicenceAgeD1 + + + + +Cla_BonusMalus + + + + +

Cla_YearsAtMaxBonus + + + + +Per_ClidrenNumber + + + +Cla_NumberPriorIns + + +

Cla_NumberSinceInsured + + + + +Veh_Age + +

Veh_Weight + + + +Veh_SpeedLimit + + +Veh_FiscalPower + + + +Veh_PriceGroup + + +Veh_PowerGroup + +Pol_YearsInForce + + + + +

Per_AgeD2 + + +AgeED + + + + +RMSE 100% 100.027% 100.025% 99.995% 99.995%

Table 4.6 – Sélection des variables pour prédire la fréquence

4.4.2 Modélisation de la fréquence de sinistralité

Nous avons vu dans la partie 4.1.3 que, pour prédire la prime pure, nous devons calibrer lafréquence de sinistres RCM E[N |XN ]. Après avoir choisi l’ensemble XN de variables tarifaires,nous passons à la modélisation proprement dite de la fréquence.

Pour cela, nous utilisons la régression de Poisson, qui est le modèle de comptage le plussouvent utilisé par les compagnies d’assurance. Cependant, les hypothèses qu’il implique nesont pas toujours vérifiées par les données. Dans cette section, nous décrivons ses propriétés,nous testons ses hypothèses et présentons le résultat des estimations.

Soit Ni une suite de variables aléatoires indépendantes, qui suivent, conditionnellement àX, une loi de Poisson P (λ), avec λ = exp(Xβ). Lorsque nous observons certains Ni sur unepériode inférieure à un an, il convient de les pondérer par l’exposition (e), mesurée en années

69

Page 79: Par: Cristina Sontu

police. Dans le cadre d’un GLM Poisson avec un lien canonique, nous avons le résultat suivant :

N |X ∼ P (exp[Xβ + log(e)])

Ceci découle d’une propriété du processus de Poisson, résumée dans Charpentier (2012) :"Si la survenance d’accident pour un individu peut être modélisée par un processus de Poissonhomogène de paramètre λ, λ est l’espérance du nombre de sinistre sur un intervalle de longueur1 (e.g. [0 ; 1]). Pour un assuré présent pour une durée t (disons au cours de l’intervalle de temps[0 ; t]) l’espérance du nombre de sinistres est λt, i.e. il est proportionnel a la durée d’expositionréelle au risque."

Nous ajoutons donc l’exposition dans la régression de Poisson, et nous forçons son coefficientà 1 :

Y |X ∼ P (exp[β0 + β1X1 + · · ·+ βkXk + e]).

Une hypothèse forte de la régression de Poisson est l’équidispersion au sein des classes :E(N |X) = V (N |X). Cependant, il est fréquent que les données présentent une surdispersion,ce qui peut biaiser les résultats, en sous-estimant les écart-types. En cas d’équidispersion, le τde l’équation suivante ne devrait pas être significativement supérieur à 0 :

V [N |X = x] = E[N |X = x] + τE[N |X = x]2

Pour tester la validité de cette hypothèse sur nos données, nous faisons donc un test dedispersion, ayant pour hypothèse nulle : τ = 0, et hypothèse alternative : τ 6= 0. La statistiquede test prend la forme suivante :

T =∑ni=1|(Yi − µi)2 − Yi|√

2 ∑ni=1 µ

2i

H0∼ N(0, 1).

La p-valeur de ce test est proche de 1, nous ne rejetons donc pas l’hypothèse que les classessont équidispersées.

Pour re-confirmer notre choix de garder le modèle de Poisson, nous comparons également lesprédictions d’un modèle de Poisson vs celles d’un modèle Binomial Négatif, couramment utiliséen cas de surdispersion. Nous utilisons le test de Vuong pour des modèles non-imbriqués,introduit par Vuong (1989), qui accompagne une sélection de modèle. 12 La statistique de test estbasée sur le rapport de vraisemblance et elle suit une loi normale centrée réduite sous l’hypothèsenulle de non-différentiabilité entre les deux modèles M1 et M2. Soit mi = log(L(yi|M1)) −log(L(yi|M2)), de moyenne m et écart-type sm, alors on a :

S =√nm

sm

H0∼ N(0, 1).

La p-valeur estimée de ce test est inférieure à 0.001, donc nous rejetons l’hypothèse nulled’équivalence entre les deux modèles. Étant donné qu’ici le M1 est le modèle de Poisson et que

12. Vuong, Quang H. (1989). "Likelihood Ratio Tests for Model Selection and non-nested Hypotheses". Eco-nometrica. 57 (2) : 307–333.

70

Page 80: Par: Cristina Sontu

la statistique de test estimée est positive, nous décidons de retenir ce modèle pour le calibragede la fréquence.

Un des intérêts d’un modèle de Poisson avec un lien logarithmique est qu’il est multiplicatif,ce qui rend plus facile l’interprétation des coefficients. La Figure 4.28 présente l’effet multiplicatifde quelques coefficients estimés, qui est calculé comme l’exponentielle du coefficient brut estimé.Nous avons inclus ici l’indicatrice désignant l’enfant déclaré (ED), pour illustrer le fort effetdiscriminatif qu’elle apporte au modèle. Les polices avec un enfant désigné ont 240% plus dechances d’avoir un sinistre RCM dans l’année, que les polices sans enfant, toutes choses égalespar ailleurs.

01

2

Cla

_Bon

usM

alus

_T2

Cla

_Bon

usM

alus

_T3

Cla

_Bon

usM

alus

_T4

Cla

_Bon

usM

alus

_T5

Cla

_Bon

usM

alus

_T6

Per

_Age

D1_

T2

Per

_Age

D1_

T3

Per

_Age

D1_

T4

Per

_Age

D1_

T5

Per

_Lic

ence

Age

D1_

T2

Per

_Lic

ence

Age

D1_

T3

Per

_Lic

ence

Age

D1_

T4

Per

_Lic

ence

Age

D1_

T5

Per

_Lic

ence

Age

D1_

T6

ED

Effe

t mul

tiplic

atif

Figure 4.28 – Effet multiplicatif des coefficients estimés

Nous remarquons également l’effet multiplicatif en forme de U de l’âge du conducteur prin-cipal, à ancienneté de permis égale (les autres variables étant également fixées). Toutes lesclasses d’ancienneté de permis ont, en moyenne, moins de probabilité de sinistre RCM, que laclasse de référence, l’inverse étant valable pour les classes du CRM.

01

23

45

Age

ED

_T1

Age

ED

_T2

Age

ED

_T3

Effe

t mul

tiplic

atif

Figure 4.29 – Effet multiplicatif de l’âge de l’enfant désigné

Un autre modèle que nous estimons inclut les tranches d’âge de l’enfant désigné que nous

71

Page 81: Par: Cristina Sontu

avons prédites dans la partie 4.3, à la place de la variable binaire indiquant sa présence. Lescoefficients estimés et leurs intervalles de confiance sont illustrés sur la Figure 4.29. Ils sontdécroissants de l’âge de l’enfant et leur effet multiplicatif varie de 227% à 308%.

4.5 Prime pure - modélisation des coûts des sinistres

Après avoir modélisé la fréquence des sinistres, nous passons au calibrage du deuxièmeélément entrant dans le calcul de la prime pure : le coût espéré des sinistres E[Y |XY ]. La basede données réunit toutes les images des contrats ayant reçu une indemnisation strictementpositive.

4.5.1 Méthode

Dans cette partie, on se demande si l’hétérogénéité des coûts individuels des sinistres peutêtre captée par les variables tarifaires dont on dispose. S’agissant essentiellement de variablesqualitatives, nous disposons d’un grand nombre de classes homogènes, avec des effectifs réduits.Les sinistres graves viennent perturber cette homogénéité et affectent considérablement lesmoyennes estimées par groupe.

Pour éviter ce problème, nous allons écrêter et repartir la charge des sinistres graves surl’ensemble du portefeuille. Soit s le seuil d’écrêtement. La formule suivante nous permet dediviser la charge totale dans plusieurs termes :

E[Y ] =∑i

E[Y |Θ = θi]P (Θ = θi)

Pour une partition de Θ dans {Y ≤ s} et {Y > s} et en conditionnant par rapport auxvariables tarifaires X, nous avons :

E[Y |X] = E[Y |X, Y ≤ s]P (Y ≤ s|X) + E[Y |X, Y > s]P (Y > s|X)= E[Y |X, Y ≤ s](1− p) + E[Y |X, Y > s]p,

Le premier terme indique le coût espéré des sinistres non-graves, p - la probabilité d’avoirun sinistre grave et le troisième terme - le coût espéré d’un sinistre grave. Comme l’effectifdes très gros sinistres est petit et qu’on a E [E[Y |X, Y > s]] = E[Y |Y > s], nous n’allons pasdistinguer par classe le coût de ceux-ci, mais nous allons l’estimer par sa moyenne empiriqueglobale. Nous avons donc deux termes à estimer : E[Y |X, Y ≤ s] et p.

Il est également utile de s’interroger sur le seuil s au-delà duquel un sinistre est considérécomme atypique. Benlagha et al. (2008) analysent trois possibilités d’estimation du seuil parclasse de risque, basées sur la théorie des valeurs extrêmes : valeurs record, moyenne des ex-cès, approximation par la loi de Pareto généralisée. Ils proposent également une technique decombinaison convexe entre les différents seuils et concluent que le choix devrait être fait avecprécaution. Ici nous allons utiliser une autre technique d’écrêtage plus simple et directe : nousfixons s au quantile empirique 95% du coût de sinistre individuel.

72

Page 82: Par: Cristina Sontu

4.5.2 Traitement et sélection de variables

Avant la calibration du coût du sinistre, nous poursuivons les mêmes étapes de traitementet de sélection des variables, que celles effectuées lors de la modélisation de la fréquence desinistralité. L’ensemble des variables candidates que nous étudions ici est le même que celuidécrit dans la partie 4.2.

Les modalités des variables qualitatives sont regroupées selon leur impact sur le coût moyenet les variables quantitatives sont aussi découpées selon le critère de l’arbre de décision, quifournit la meilleure prédiction possible.

La Figure 4.30 présente l’importance des variables lors de la prédiction du coût par un ran-dom forest. Cette fois, les trois premières variables sont toutes des caractéristiques du véhicule :son poids, son groupe de puissance et sa classe fiscale.

0.0e

+00

5.0e

+07

1.0e

+08

1.5e

+08

Veh

_Wei

ght

Veh

_Pow

erG

roup

Veh

_Fis

calP

ower

Per

_Age

D1

Pol

_Sel

ecte

dPac

kage

Per

_Age

D2

Cla

_Num

berS

ince

Insu

red

Veh

_Age

Beh

_Par

king

Type

Per

_Chi

ldre

nNum

ber

Per

_Occ

upat

ion

Per

_Mar

italS

tatu

s

Veh

_Bod

yTyp

e2

Cla

_Yea

rsA

tMax

Bon

us

Cla

_Bon

usM

alus

Per

_Lic

ence

Age

D1

Cla

_His

tory

Det

ails

Veh

_Bra

nd2

Cla

_Num

berP

riorI

ns

Pol

_Pay

men

tPer

iod

Beh

_Usa

ge

Per

_Ins

uran

ceH

isto

ry

Per

_Lea

rnin

gMet

hod

Veh

_Fue

l

Veh

_Pric

eGro

up

Pol

_Yea

rsIn

For

ce

Veh

_Hig

hRis

k

Beh

_Wor

kLoc

atio

ns

Age

ED

Veh

_Spe

edLi

mit

%In

cMS

E

Figure 4.30 – Importance des variables (sévérité)

Pour sélectionner les premières x variables qui donnent la meilleure performance prédictive,nous étudions la variation du MSE (cf. Figure 4.31). La "fonction" décrite par celui-ci n’estpas monotone, mais ceci est normal, car le MSE est celui d’un modèle GLM, tandis quel’importance des variables est mesurée par une forêt aléatoire. Nous décidons de garder doncles premières 9 variables les plus importantes.

0 5 10 15 20 25 30

354.

235

4.4

354.

635

4.8

Nombre de variables

MS

E

Figure 4.31 – RF backward - nombre de variables à retenir (sévérité)

73

Page 83: Par: Cristina Sontu

Le Lasso calibré sur nos données nous suggère de ne retenir que 3 de nos 30 variablescandidates (cf. Figure 4.32a et 4.32b) : la marque du véhicule, l’âge du conducteur principal etla limite de vitesse - variables qui ne se retrouvaient pas forcément parmi les plus importantesdans la Figure 4.30.

−11 −10 −9 −8 −7 −6 −5

0.16

00.

170

0.18

0

log(Lambda)

Err

eur

moy

enne

qua

drat

ique

(M

SE

)

64 64 64 62 59 59 52 45 32 18 3

(a) Règlage du lambda

−11 −10 −9 −8 −7 −6 −5

−0.

050.

000.

050.

10

Log Lambda

Coe

ffici

ents

64 64 61 59 48 30 6

(b) Variation des coefficients par lambda

Figure 4.32 – Sélection des variables par Lasso (sévérité)

Variable P-value GLM fwd GLM bwd RF bwd LassoPer_InsuranceHistoryPer_MaritalStatusPer_Occupation

Cla_HistoryDetailsPer_LearningMethod

Beh_UsageBeh_WorkingLocations

Veh_FuelVeh_Brand + +

Veh_BodyTypeVeh_HighRisk

Pol_SelectedPackage + +Pol_PaymentPeriodBeh_ParkingType + +

Per_AgeD1 + + +Per_LicenceAgeD1Cla_BonusMalus

Cla_NumberPriorInsCla_NumberSinceInsured +

Veh_Age + +Veh_Weight + +

Veh_SpeedLimit + +Veh_FiscalPower +Veh_PriceGroupVeh_PowerGroup +

Per_AgeD2 +AgeEDRMSE 100% 100.17% 100.17% 100.10% 100.12%

Table 4.7 – Sélection des variables pour prédire le coût

74

Page 84: Par: Cristina Sontu

Les résultats de cette étape de sélection de variables sont résumés dans le Tableau 4.7.On remarque que les GLM forward et GLM backward n’ont sélectionné aucune variable - lesmodèles maximisant le BIC étant composées d’un seul intercept (constante).

On peut également observer que, si lors du calibrage de la fréquence, l’âge de l’enfant désignéétait une variable très discriminante, sélectionnée par chaque algorithme de tri, ici c’est l’inverse- elle n’est retenue par aucun modèle.

Parmi les cinq algorithmes étudiés, nous sélectionnons, encore une fois, le premier, car ildonne le plus faible RMSE. Dans le tableau ci-dessous le RMSE est normalisé.

4.5.3 Modélisation des coûts

Coûts normaux

Un des modèles classiques pour modéliser les coûts des sinistres est le modèle Gamma, quenous avons brièvement décrit dans la partie 4.1.3. Le lien canonique de cette loi est la fonctioninverse, mais souvent on utilise un lien logarithmique pour préserver la forme multiplicativeque nous avons eu lors de la modélisation poisonnienne.

0.0

0.5

1.0

1.5

Veh_Age_T2 Veh_Age_T3 Veh_Age_T4

o$name

o$co

ef

Figure 4.33 – Effet multiplicatif de l’âge du véhicule

Les variables utilisées arrivent difficilement à capter l’hétérogénéité des coûts. Cela est aussisuggéré par le Tableau 4.7 : le RMSE du modèle retenu améliore uniquement de 0.17% celuid’un modèle avec uniquement la constante. En plus, l’effet multiplicatif des coefficients estimésest très petit, pour les tranches 2 et 4 de l’âge du véhicule (les seules significativement différentesde la tranche 1) il est de 2.6 et 4%, respectivement (cf. Figure 4.33).

Coûts graves

Afin de prédire la probabilité d’avoir un coût grave lors d"un sinistre RCM, nous utilisonsune régression logistique. Celle-ci suppose que :

P (Y = 1|X)P (Y = 0|X) = exp(Xβ)

Le premier terme est appelé les "odds ratio" et il participe à l’interprétation des coefficients.

75

Page 85: Par: Cristina Sontu

Initialement, nous incluons toutes les variables tarifaires dans un modèle logistique. Enfonction de la significativité de leur coefficient - nous allons décider lesquelles retenir pour lemodèle final. Parmi les variables avec au moins une modalité significative à 5% on compteégalement les suivantes :

— Per_MaritalStatus ;— Cla_BonusMalus ;— Per_InsuranceHistory ;— Cla_HistoryDetails ;— Per_AgeD1 ;— Per_AgeD2 ;— Cla_NumberPriorIns ;— Veh_PriceGroup.

Regardons, à titre d’exemple, l’impact des coefficients de l’état civil et des antécédentsd’assurance, illustré dans la Figure 4.34a. Être dans le groupe 2 d’état civil, donc être célibataireou divorcé, augmente la probabilité d’avoir un sinistre grave de 130%, alors qu’être mariél’augmente de 121%, par rapport à avoir un autre état civil. Les antécédents d’assurance sontégalement très significatifs : l’odds-ratio augmente de 145% lorsque le C1 est sans antécédentspar rapport à son niveau avec antécédents.

0.0

0.5

1.0

1.5

Per_MaritalStatus_G2 Per_MaritalStatus_G3 Per_InsuranceHistory_SA

Odd

s ra

tios

(a) Odds ratios - probabilité d’avoir unsinistre grave selon l’état civil

False positive rate

True

pos

itive

rat

e

0.0 0.2 0.4 0.6 0.8 1.0

0.0

0.2

0.4

0.6

0.8

1.0

(b) Courbe ROC

Figure 4.34 – Résultats régression logistique

Nous pouvons analyser la performance de ce classificateur binaire par une mesure classique :l’AUC de la courbe ROC, qui est l’aire sous la courbe illustrée dans la Figure 4.34b. Cettecourbe représente le taux de vrais positifs (part des positifs détectés) en fonction du taux defaux positifs (part des détectés incorrectement). Ici, nous avons un AUC égal à 0.639. Pourrappel, l’AUC ∈ [0.5, 1] et plus il est proche de 1, mieux est le modèle.

Une fois la régression logistique validée, nous repartissons la moyenne empirique du coûtdu sinistre RCM grave sur tout l’échantillon, en fonction de la probabilité de chaque individud’avoir un sinistre grave. Nous combinons cette estimation avec le coût normal prédit et nousobtenons ainsi le coût espéré d’un sinistre RCM.

76

Page 86: Par: Cristina Sontu

4.6 Estimation de la prime pure de la cible à ouvrir

Dans les sections 4.4 et 4.5, il a été question de calibrer la fréquence et le coût moyend’un sinistre RCM. Dans cette partie, nous combinons les prédictions issues de ces deux mo-dèles pour estimer la surcharge des enfants désignés, toute chose égale par ailleurs, ainsi quela sur-sinistralité des enfants C1 par rapport aux parents C1. Ces deux estimations encadrentle coefficient multiplicatif que nous proposons pour l’ouverture des enfants conducteurs secon-daires.

4.6.1 Sur-sinistralité des enfants désignés

Lors de l’estimation de la fréquence, nous avons pu remarquer que désigner un enfant surle contrat multiplie la fréquence espérée d’un sinistre RCM par 2.4, ceteris paribus. Quant aucoût - l’indicatrice de l’enfant désigné s’est avérée non-significative et nous l’avons exclue dumodèle.

Ainsi, la prime pure des clients ayant désigné un enfant sur le contrat est 2.4 fois supé-rieure à celle des clients sans enfant désigné, toute chose égale par ailleurs. Pour rappel, cecoefficient constitue la borne inférieure de la surprime qui doit être proposée lors de l’ouverturedu segment des enfants conducteurs secondaires (cf. 4.1.2).

Ce coefficient peut être segmenté en fonction de l’âge de l’enfant, grâce à la variable que nousavons prédite dans 4.3. La Figure 4.29 présente les coefficients multiplicatifs estimés (égaux àl’exponentielle des coefficients GLM) par lesquels la prime pure du parent conducteur principaldevrait être au moins multipliée, s’il souhaite déclarer son enfant en tant que conducteur se-condaire. Ils varient de 3.08 pour les plus jeunes, à 2.27 pour les enfants de la dernière tranched’âge.

4.6.2 Sur-sinistralité des enfants conducteurs principaux par rap-port aux parents conducteurs principaux

Afin d’estimer la borne supérieure du coefficient des enfants conducteurs secondaires, nousappliquons les modèles de fréquence-coût calibrés ci-dessus sur les profils des demandes rejetées.Nous estimons initialement la prime pure des parents C1, puis celle des enfants C1 et finalementnous calculons le rapport entre les deux.

Comme les informations requises sur le conducteur secondaire ne sont pas aussi riches quecelles sur le conducteur principal, nous allons fixer certaines variables. Par exemple, nous fixonsles états civils des enfants à "célibataire" et leurs antécédents d’assurance à "sans antécédents".Pour tout ce qui concerne les caractéristiques des véhicules - elles restent inchangées.

La Figure 4.35 présente la répartition des primes pures ainsi estimées. Comme attendu, lesenfants C1 ont une prime pure RCM estimée beaucoup plus élevée que celle des parents C1,elle est en moyenne 3 fois supérieure.

77

Page 87: Par: Cristina Sontu

Fré

quen

ce20 40 60 80 100

0.00

0.01

0.02

0.03

0.04

0.05

0.06

PP parent C1PP enfant C1

Figure 4.35 – Répartition des primes pures prédites pour pour les demandes de tarif rejetées

Comme dans la partie 4.6.1, nous utilisons l’âge de l’enfant pour affiner la granularité de laprédiction. Le modèle de prime pure calibré avec l’âge de l’enfant et appliqué sur les demandesde tarif rejetées donne encore une fois des résultats cohérents : les parents des plus jeunesenfants voient leur prime pure RCM multiplier par 3.62, alors que ceux des plus âgés - par 2.69.

4.6.3 Conclusion

Dans ce chapitre nous avons développé une méthodologie afin d’estimer la prime pure RCMpour un segment de population sur lequel l’assureur ne détient aucun historique de sinistra-lité. La nouvelle cible des enfants conducteurs secondaires, particulièrement intéressante pourl’assurance télématique, peut ainsi se voir proposer une prime commerciale estimée à partir decette prime pure. Une fois que des informations supplémentaires (tant sur leur sinistralité, quesur leur comportement de conduite) seront accumulées sur ces profils, cette estimation initialepourra être plus segmentée en fonction de leur profil de risque.

[T.1]

[T.2]

[T.3]

2 2.5 3 3.5 4

Seuil inférieurSeuil supérieur

Figure 4.36 – Coefficients multiplicatifs par tranche d’âge de l’enfant

La Figure 4.36 illustre les limites du coefficient multiplicatif de la prime pure RCM que nousproposons pour l’ouverture du segment des enfants conducteurs secondaires, par tranche d’âgede l’enfant. Il convient de surligner qu’ici nous avons estimé la prime pure uniquement pour lagarantie RCM, toutes les autres garanties devant être également calibrées.

78

Page 88: Par: Cristina Sontu

Conclusion générale

Dans ce rapport, nous avons étudié la sélection des risques opérée par les assureurs d’un pointde vue économique, juridique et réglementaire. Après avoir introduit le concept de l’assurancetélématique et la réduction qu’elle apporte sur l’asymétrie d’information caractéristique aumarché de l’assurance, nous avons cherché à valoriser cet impact positif dans le cas pratiquede Direct Assurance. Plus précisément, nous nous sommes intéressés à la façon dont les règlesde souscription de Direct Assurance pourraient évoluer afin de profiter des caractéristiques duproduit YouDrive - le précurseur de l’assurance Pay How You Drive en France.

Après avoir proposé plusieurs pistes d’évolution des règles de souscription, nous nous sommesfocalisés sur la cible des enfants conducteurs secondaires sur le contrat d’assurance automobiledes parents. Celle-ci fait partie des segments de population rejetés pour haute probabilité defronting - l’enfant au foyer pourrait avoir intérêt à mettre le contrat d’assurance automobile aunom de ses parents afin de baisser sa prime d’assurance.

Ce segment, rejeté sur le produit traditionnel, pourrait faire partie dorénavant de la cibleYouDrive, car la tarification basée sur l’utilisation réelle du véhicule permet à l’assureur de seprémunir contre une sous-estimation de la prime pure à cause d’une fraude à la souscription.En outre, de nombreux facteurs suggèrent que les non-fraudeurs sont ceux qui ont plus d’intérêtà y souscrire : effet psychologique lié à la collection des données de conduite, réduction valableuniquement pour les bons conducteurs etc.

Pour rendre possible l’ouverture de cette cible, nous avons dû estimer le risque afin depouvoir construire un tarif. Confrontés à l’absence de données sur ce segment, nous avonsdécidé d’estimer un coefficient multiplicateur du risque pour chacune des garanties. Ce mémoiredéveloppe la méthode de construction appliquée à la garantie responsabilité civile matérielle.Le coefficient correspondant a été encadré entre 2 bornes.

La borne inférieure est la sur-sinistralité observée des polices avec un enfant désigné surle contrat (une possibilité offerte aux clients de Direct Assurance), car ceux-ci sont a priorides segments moins risqués. Nous avons donc construit un modèle fréquence-coût pour la primepure couvrant la garantie RCM, afin d’estimer ce coefficient dans des conditions ceteris paribus.Le coefficient ainsi calibré est égal à 2.4.

La borne supérieure reflète le risque extrême sous-jacent - que tous ces souscripteurs soientdes fraudeurs et que l’enfant soit en réalité le conducteur principal du véhicule. Pour cela nousavons estimé de combien la prime pure RCM augmenterait si l’enfant était déclaré conducteurprincipal à la place du parent. En utilisant les profils des demandes de tarif rejetées pour cemotif et le modèle de prime pure calibré pour tout le portefeuille, nous obtenons un coefficientégal à 3.

79

Page 89: Par: Cristina Sontu

Nous avons affiné cette estimation en fonction de l’âge de l’enfant, car cette variable est undes plus importants prédicteurs de la sinistralité d’un individu. Pour cela, nous avons comparédeux modèles non-paramétriques (arbre de décision et forêt d’arbres décisionnels) sur les profilsrejetés, où la variable cible est l’âge de l’enfant et les variables explicatives concernent descaractéristiques du parent et du véhicule. Notre intuition sur l’ordre de ces deux bornes a étéconfirmée : pour toute tranche d’âge donnée, la sur-sinistralité des enfants désignés était bieninférieure à la surprime des enfants conducteurs principaux.

Pour permettre l’ouverture de cette cible sur l’ensemble des formules de Direct Assurance,il est nécessaire de répéter les mêmes étapes d’estimation de la prime pure sur toutes lesgaranties automobile couvertes par celle-ci : la responsabilité civile corporelle, le bris de glace,l’incendie, le vol etc. Une fois que des données sur la sinistralité de cette nouvelle cible serontrécoltées, cette première estimation intuitive de leur prime pure devra évoluer. Entre-temps, ilserait intéressant d’étudier les données de conduite accumulées sur ce nouveau segment, afinde chercher comment distinguer deux comportements de conduite différents. Contrairement àd’autres contrats avec conducteur secondaire, ici les deux manières de conduire pourraient êtretrès différentes, ce qui faciliterait leur distinction.

80

Page 90: Par: Cristina Sontu

Glossaire

ACP - Analyse en composantes principales, méthode statistique qui permet d’explorer lesliaisons entre variables et les ressemblances entre individus.

ACPR - Autorité de contrôle prudentiel et de résolution, organisme administratif qui mo-nitorise l’activité des banques et des compagnies d’assurances en France.

AIC - Critère d’information d’Akaike.

AUC - air under curve, l’aire sur la courbe ROC.

Bagging - méta-heuristique qui permet d’agréger des modèles afin d’améliorer leur stabilité,réduire leur variance et éviter le sur-apprentissage.

BCT - Bureau Central de Tarification, organisme d’État qui a le rôle de fixer les conditionsauxquelles une compagnie d’assurance choisie par un assuré en obligation d’assurance, qui arefusé de l’assurer, serait imposé à le garantir.

BIC - Critère d’information bayésien.

C1 - Conducteur principal.

C2 - Conducteur secondaire.

CART - Classification And Regression Tree, terme générique faisant référence aux arbresde classification et de régression.

CE - Commission Européenne.

Ceteris paribus - locution latine se traduisant par "toutes choses égales par ailleurs".

CNIL - Commission nationale de l’informatique et des libertés.

CRM - Coefficient de réduction-majoration, modalité de mesurer le risque par la sinistralitépassée, répandue essentiellement en assurance automobile.

Cross-validation - validation croisée, technique qui permet d’éviter un sur-apprentissagedes données utilisées pour l’estimation et rend possible la généralisation des résultats.

DA - Direct Assurance.

Enfant désigné - le conducteur occasionnel que le client DA peut désigner sur son contrat.Il peut être l’enfant du souscripteur ou du conjoint (concubin, marié ou pacsé) et doit habiter à

81

Page 91: Par: Cristina Sontu

la même adresse. Titulaire du permis B, il utilise le véhicule uniquement pour des déplacementsprivés moins fréquemment que le C1 ou C2.

FFA - Fédération Française d’Assurance.

Fronting - fraude qui implique la dissimulation d’un enfant ou d’un conjoint/concubin,sans antécédents ou à l’inverse avec de lourds antécédents, derrière la personne qui se déclareconducteur principal, dans un but de diminution de la prime d’assurance.

GLM - generalized linear model, modèle linéaire généralisé.

GPS - Global Positioning System, système mondial de positionnement par satellite.

IARD - abréviation utilisée pour l’assurance des incendies, accidents et risques divers.

LR - Loss-ratio, taux de sinistralité, ratio entre le montant des sinistres à dédommager surle montant des primes encaissées.

MRH - assurance multirisque habitation.

MAE - mean absolute error, erreur absolue moyenne.

MSE - mean squared error, erreur quadratique moyenne.

ORSA - Own Risk and Solvency Assessment, le processus au cœur de Solvabilité II, dédiéà une identification globale et coordonnée des risques auxquels l’entreprise est exposée, leurmesure et gestion opérationnelle.

PAYD - Pay As You Drive - police d’assurance télématique dont la prime dépend dukilométrage réel du véhicule.

PHYD - Pay How You Drive - police d’assurance télématique dont la prime dépend ducomportement de conduite du conducteur.

RC - responsabilité civile.

RF - Random Forest, forêt d’arbres décisionnels, méthode d’apprentissage statistique su-pervisé.

RMSE - root mean square error, racine d’erreur quadratique moyenne.

Courbe ROC - receiver operating characteristic, mesure de performance d’un classificateurbinaire.

SSB - sum of squares between class, mesure qui participe au calcul de la variance inter-classes.

Telematics - abréviation utilisée pour désigner l’assurance télématique.

TME - taux moyen de rendement des emprunts d’État et des obligations assimilables duTrésor émises par l’État français, à taux fixe et d’une durée supérieure à 7 ans.

UBI - usage-based insurance, assurance dont le montant de la prime dépend de l’usage duvéhicule.

82

Page 92: Par: Cristina Sontu

Table des figures

1.1 Le modèle d’Akerlof avec 2 profils de risque différents . . . . . . . . . . . . . . . 51.2 Conséquence de l’antisélection : les individus à bas risque préfèrent ne pas s’assurer 61.3 Les différentes étapes de la segmentation . . . . . . . . . . . . . . . . . . . . . . 91.4 Optimalité avec incitation à l’effort . . . . . . . . . . . . . . . . . . . . . . . . . 131.5 Structure optimale d’indemnisation sous aléa moral . . . . . . . . . . . . . . . . 141.6 Optimalité avec dissuasion de la fraude . . . . . . . . . . . . . . . . . . . . . . . 17

2.1 La croissance du marché mondial de l’assurance . . . . . . . . . . . . . . . . . . 212.2 Évolution de la sinistralité auto en France . . . . . . . . . . . . . . . . . . . . . 222.3 Revenus non-techniques des assureurs non-vie et TME . . . . . . . . . . . . . . 232.4 Impact du score de conduite sur la cotisation du mois suivant . . . . . . . . . . 302.5 Les quatre formules de YouDrive . . . . . . . . . . . . . . . . . . . . . . . . . . 31

3.1 La structure à trois piliers de Solvabilité II . . . . . . . . . . . . . . . . . . . . . 363.2 Le cadre de gestion de risque de l’ORSA . . . . . . . . . . . . . . . . . . . . . . 373.3 Répartition des dérogations . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 393.4 Profitabilité et volumes des dérogations . . . . . . . . . . . . . . . . . . . . . . . 40

4.1 Comparaison des profils des clients et des rejets . . . . . . . . . . . . . . . . . . 464.2 Répartition de l’exposition (en années police) . . . . . . . . . . . . . . . . . . . 494.3 Exposition et fréquence par antécédents d’assurance du C1 . . . . . . . . . . . . 504.4 Exposition et fréquence par sinistralité antérieure . . . . . . . . . . . . . . . . . 504.5 Exposition et fréquence par carburant . . . . . . . . . . . . . . . . . . . . . . . . 514.6 Exposition et fréquence par formule . . . . . . . . . . . . . . . . . . . . . . . . . 514.7 Mesure d’association entre les variables qualitatives . . . . . . . . . . . . . . . . 524.8 Exposition et fréquence par âge du C1 . . . . . . . . . . . . . . . . . . . . . . . 544.9 Exposition et fréquence par CRM du C1 . . . . . . . . . . . . . . . . . . . . . . 544.10 Exposition et fréquence par âge du C2 . . . . . . . . . . . . . . . . . . . . . . . 544.11 Corrélation entre les variables quantitatives . . . . . . . . . . . . . . . . . . . . 554.12 Eboulis des valeurs propres en % . . . . . . . . . . . . . . . . . . . . . . . . . . 564.13 ACP des variables . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 574.14 Découpage de l’âge du C1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 584.15 Découpage de l’âge du C1 avec un arbre de décision . . . . . . . . . . . . . . . . 584.16 Découpage de l’ancienneté du permis du C1 . . . . . . . . . . . . . . . . . . . . 594.17 Découpage du CRM du C1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 604.18 Découpage de l’âge du C2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 604.19 Découpage de l’âge du véhicule . . . . . . . . . . . . . . . . . . . . . . . . . . . 604.20 Histogrammes pour les demandes rejetées . . . . . . . . . . . . . . . . . . . . . . 614.21 Arbre de décision pour l’âge de l’enfant . . . . . . . . . . . . . . . . . . . . . . . 624.22 Validation croisée de mtry . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 634.23 Comparaison de l’arbre unique et de la forêt . . . . . . . . . . . . . . . . . . . . 64

83

Page 93: Par: Cristina Sontu

4.24 Algorithme de sélection des variables par RF backward . . . . . . . . . . . . . . 664.25 Importance des variables (fréquence) . . . . . . . . . . . . . . . . . . . . . . . . 674.26 RF backward - nombre de variables à retenir (fréquence) . . . . . . . . . . . . . 684.27 Sélection des variables par Lasso (fréquence) . . . . . . . . . . . . . . . . . . . . 684.28 Effet multiplicatif des coefficients estimés . . . . . . . . . . . . . . . . . . . . . . 714.29 Effet multiplicatif de l’âge de l’enfant désigné . . . . . . . . . . . . . . . . . . . 714.30 Importance des variables (sévérité) . . . . . . . . . . . . . . . . . . . . . . . . . 734.31 RF backward - nombre de variables à retenir (sévérité) . . . . . . . . . . . . . . 734.32 Sélection des variables par Lasso (sévérité) . . . . . . . . . . . . . . . . . . . . . 744.33 Effet multiplicatif de l’âge du véhicule . . . . . . . . . . . . . . . . . . . . . . . 754.34 Résultats régression logistique . . . . . . . . . . . . . . . . . . . . . . . . . . . . 764.35 Répartition des primes pures prédites pour pour les demandes de tarif rejetées . 784.36 Coefficients multiplicatifs par tranche d’âge de l’enfant . . . . . . . . . . . . . . 78

84

Page 94: Par: Cristina Sontu

Liste des tableaux

1.1 Évolution du CRM sans sinistre responsable . . . . . . . . . . . . . . . . . . . . 15

4.1 Résumé des lois exponentielles . . . . . . . . . . . . . . . . . . . . . . . . . . . . 484.2 Variables qualitatives . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 514.3 Variables quantitatives . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 534.4 Performance des trois méthodes de découpage . . . . . . . . . . . . . . . . . . . 594.5 Validation croisée des modèles de prédiction de l’âge de l’enfant . . . . . . . . . 644.6 Sélection des variables pour prédire la fréquence . . . . . . . . . . . . . . . . . . 694.7 Sélection des variables pour prédire le coût . . . . . . . . . . . . . . . . . . . . . 745.1 Coefficients multiplicatifs estimés . . . . . . . . . . . . . . . . . . . . . . . . . . 876.1 Estimated multiplicative coefficients . . . . . . . . . . . . . . . . . . . . . . . . . 90

85

Page 95: Par: Cristina Sontu

Note de synthèse

Mots-clés : télématique, pay how you drive, asymétrie d’information, sélection des risques,règles de souscription, fronting, prime pure, tarification.

Le marché de l’assurance a été l’objet de nombreuses études sur l’économie de l’information.La connaissance complète que l’assuré a sur son risque, l’effort qu’il fait pour se protéger contreles sinistres ainsi que la véracité des informations qu’il fournit à l’assureur ne sont pas mesurablespar ce dernier. La recherche dans ce domaine a permis aux assureurs de développer plusieursméthodes pour limiter leur vulnérabilité à cette asymétrie d’information.

Une des premières mesures des assureurs est la sélection des risques. Cette pratique n’estpas explicitement prévue par la loi, mais elle peut être inférée à partir des textes juridiques quiinstaurent l’obligation d’assurance ou qui encadrent le refus d’assurance. De plus, elle constitueune étape fondamentale dans le cadre de gestion des risques recommandé par l’Autorité deContrôle Prudentiel et de Résolution.

L’assurance automobile télématique, un type d’assurance développé récemment et qui consisteen une tarification personnalisée des assurés selon leur comportement de conduite, vient aussiréduire l’exposition de l’assureur aux phénomènes d’antisélection, d’aléa moral et de fraude.Elle permet de distinguer les bons des mauvais conducteurs et de pousser les individus à êtreprudents au volant tout en diminuant le risque de fraude.

Ainsi, le lancement d’un produit d’assurance automobile télématique pourrait rendre moinspertinentes certaines règles de souscription existant sur le produit traditionnel. C’est dans cecadre que nous nous sommes demandés comment les règles de souscription classiques enassurance automobile pourraient évoluer grâce à un produit télématique.

Nous nous sommes focalisés sur une règle de rejet spécifique de Direct Assurance, instauréepour éviter le fronting - fraude qui consiste en la fausse déclaration du conducteur principal,afin de faire baisser le montant de sa prime d’assurance. Il s’agit des enfants conducteurssecondaires sur la police d’assurance de leurs parents.

Plusieurs raisons nous ont convaincu de la pertinence de cette cible pour une ouvertureau produit télématique. L’aspect psychologie lié à la collection des données de conduite peutdissuader certains fraudeurs, hésitants au partage de ces informations à caractère privé avecleur assureur. La segmentation tarifaire selon la qualité de la conduite permet à l’assureur de seprotéger contre une sous-estimation de la prime basée uniquement sur les informations fourniesà la souscription. De plus, cela fait que les personnes les plus intéressées par ce produit serontcelles convaincues par leur capacité à faire baisser le montant de leur prime, donc les bonsconducteurs.

86

Page 96: Par: Cristina Sontu

Pour ouvrir cette cible sur le produit télématique de Direct Assurance (DA) - YouDrive, nousavons dû lui estimer une prime pure. La tarification traditionnelle basée sur la sinistralitéobservée n’est pas possible, car ce segment n’a jamais été couvert par DA. Ainsi, pour des raisonsde simplicité de mise en pratique, nous avons cherché à estimer un coefficient multiplicateur,qui s’appliquerait à la prime des parents au cas où ils souhaiteraient désigner leur enfant entant que conducteur secondaire. Nous avons développé ici les étapes nécessaire à l’estimationde la prime pure de la garantie responsabilité civile dommages matériels.

Étant donné les particularités du portefeuille Direct Assurance, nous avons encadré ce tarifentre deux bornes. En effet, les clients ont le droit de déclarer un enfant sur le contrat (maispas en tant que conducteur secondaire), pour qu’il soit aussi couvert en cas d’accident. La sur-sinistralité observée pour ces polices constitue la borne inférieure de notre tarif, car un clientdéjà assuré qui souhaite déclarer son enfant n’a, a priori, pas le même risque sous-jacent quecelui d’un prospect arrivant directement avec son enfant en conducteur secondaire.

La borne supérieure de notre estimation constitue la surprime qui serait due par les enfantss’ils étaient déclarés en tant que conducteurs principaux, à la place des parents. Cela représentele risque extrême contre lequel l’assureur souhaite se prémunir : que tout ce segment soitconstitué des fraudeurs et que ce soient les enfants qui conduisent principalement le véhicule.

Nous avons donc calibré un modèle de fréquence-coût pour mesurer la sur-sinistralité desenfants désignés, toutes choses égales par ailleurs (car les souscripteurs de ce type de contrat ontdes profils spécifiques). Les données utilisées sont issues d’un échantillon aléatoire du portefeuilleet tant le modèle de fréquence que celui de coût, se sont vus ajouté une variable binaire indiquantles contrats avec enfant désigné, dont le coefficient va nous donner leur sur-sinistralité. Dans unbut de maximisation de la puissance prédictive de ce modèle de prime pure, nous avons cherchéà comparer la performance de plusieurs techniques de découpage des variables quantitatives,afin de prendre en compte leur effet non-linéaire sur la variable cible. Nous avons égalementappliqué plusieurs techniques de sélection des variables et essayé de limiter l’erreur de modèleen testant diverses spécifications. Le résultat de ces modèles nous a permis de conclure queseulement la fréquence des sinistres RCM est significativement différente entre les contrats avecet sans enfant désigné, ceteris paribus, et non leur coût.

Nous avons affiné notre estimation en fonction de l’âge de l’enfant. Cette information n’étaitpas disponible sur les enfants désignés, donc nous l’avons estimée à partir des profils des de-mandes de tarif rejetées, où la variable prédite était l’âge de l’enfant conducteur secondaire.Nous avons comparé deux méthodes d’apprentissage statistique non-paramétrique : l’arbre dedécision et la forêt aléatoire. Cette dernière a été retenue du fait de sa performance supérieure.

Comme dernière étape, nous avons appliqué ce modèle calibré aux profils des demandesde tarif rejetées, pour estimer la surprime due par les éventuels fraudeurs. Les résultats sontrésumés dans le Tableau 5.1.

Coefficient globalestimé

Coefficient estimé partranche d’âge de l’enfantT.1 T.2 T.3

Borne inférieure 2.4 3.08 2.84 2.27Borne supérieure 3 3.62 3.54 2.69

Table 5.1 – Coefficients multiplicatifs estimés

87

Page 97: Par: Cristina Sontu

Cette estimation constitue une première étape dans l’ouverture du segment des enfantsconducteurs secondaires au produit d’assurance télématique. Des études ultérieures vont per-mettre d’affiner ces prédictions, dès que l’assureur disposera de davantage de données sur lasinistralité de ces profils. Cela permettra de proposer des tarifs plus segmentés. D’autres évo-lutions des règles de souscription restent également envisageables, car le marché de l’assurancetélématique est en plein essor et son impact fait encore l’objet de nombreuses études.

88

Page 98: Par: Cristina Sontu

Executive summary

Key-words : telematics, pay how you drive, information asymmetry, risk selection, under-writing rules, fronting, pure premium, pricing.

The insurance market has been the subject of many studies on information economy. Theinsured’s complete knowledge of his own level of risk, the effort he makes to protect himselfagainst accidents, and the veracitiy of the information he provides to the insurer are not ob-served by the latter. Research in this area has allowed insurers to develop several methods inorder to limit their vulnerability to this information asymmetry.

One of these basic measures is risk selection. This practice is not explicitly framed in theexisting legislation, but it can be inferred from the legal texts establishing the obligation ofinsurance or the texts that frame it’s refusal. Moreover, risk selection is a fundamental stepin the risk management framework recommended by the French Prudential Supervision andResolution Authority.

Telematics motor insurance is a type of insurance recently developed, which consists ofpersonalized pricing of insureds according to their driving behavior. Besides its multiple benefits,it also helps reduce the insurer’s exposure to adverse selection and moral hazard. It allows todistinguish between good and bad drivers and to encourage individuals to be more cautiouswhile driving. It also helps to reduce fraud.

Therefore, the launch of a telematics insurance product could make certain existing under-writing rules less relevant. Given this context, we can wonder how the traditionnal under-writing rules could evolve thanks to a telematic product.

We focused on a specific underwriting rule of Direct Assurance, introduced in order to avoidfronting (fraud which consists of the misdeclaration of the main driver), in order to reduce theamount of the insurance premium. More specifically, we are interested in children declaredas secondary drivers on their parent’s policy.

Various reasons have convinced us of the relevance of this target for the telematic product.The psychological aspect of the collection of driving data can deter some fraudsters, hesitantto share this private information with their insurer. The premium segmentation according tothe quality of the driving allows the insurer to protect himself against an underestimation ofthe premium based solely on the information provided at subscription. Moreover, this meansthat the individuals most likely to be interested in this product will be those convinced of theirability to lower the amount of their premium - the good drivers.

To open this new population segment on Direct Assurance (DA) telematics product - You-Drive, we first had to estimate a pure premium. Traditional pricing based on observed claims

89

Page 99: Par: Cristina Sontu

is not possible since this segment has never been covered by DA before. Thus, for simplicity, wedecided to estimate a multiplier coefficient, which would be applied to the parents’ premium ifthey wish to designate their child as a secondary driver. We have developed here the necessarysteps for the estimation of the pure premium of the third-party insurance for material damage.

Given the distinctive features of the Direct Assurance portfolio, we have estimated twobounds for this coefficient. For the inferior bound, we considered the fact that DA clients havethe right to declare a child on the contract (not as a secondary driver), so that he would alsobe covered in case of an accident. The overload observed for these policies is the lower limit ofour coefficient. As a matter of fact, an already insured client who wishes to declare his childdoes not have the same underlying risk as a prospective client arriving directly with his childas a secondary driver.

The upper limit of our estimate is the premium surcharge that would be owed by thechildren if they were declared as principal drivers, instead of their parents. This is the extremerisk against which the insurer wishes to protect itself - that this whole population segmentconsists of fraudsters and that the children are the real and unique drivers.

We have therefore calibrated a frequency-cost model to measure the overload of contractswith a designated child, ceteris paribus (since not all profiles designate a child). The data usedis based on a random sample of the portfolio, and both the frequency model and the costmodel include a binary variable indicating contracts with designated children, the coefficient ofwhich will give us their prime premium overload. In order to maximize the predictive power ofthis pure premium model, we compared the performance of several techniques for discretizingcontinuous variables, in order to take into account the nonlinear effects on the target variable.We also applied several techniques of variable selection and tried to limit the model error bytesting various specifications. The result of these models enabled us to conclude that only thefrequency of claims is significantly different between contracts with and without a designatedchild, and not the cost of these (for the considered insurance coverage).

We have refined our estimate according to the age of the child. This information is notavailable on designated children, so we estimated it from the profiles who have seen theirrequest for insurance refused, where the predicted variable was the age of the secondary driver.We compared two machine learning methods : decision tree and random forest. The latter wasretained because of its superior performance.

Finally, we applied this calibrated model to the profiles of rejected insurance request indivi-duals who have seen their request for insurance refused, in order to estimate the overload dueby potential fraudsters. The results are summarized in Table 6.1.

Estimated globalcoefficient

Coefficient estimated bychild age range

T.1 T.2 T.3Lower bound 2.4 3.08 2.84 2.27Upper bound 3 3.62 3.54 2.69

Table 6.1 – Estimated multiplicative coefficients

This estimation is a first step towards opening the segment of children who are declaredas secondary drivers on the telematic insurance product. Once data is accumulated on their

90

Page 100: Par: Cristina Sontu

claims, subsequent studies will be able to refine these predictions and propose more segmentedpremiums. Other changes in the underwriting rules are also conceivable, since the telematicsinsurance market is in full boom and its impact is still the subject of numerous studies.

91

Page 101: Par: Cristina Sontu

Bibliographie

[1] Akerlof, George, 1970. "The Market for Lemons : Quality Uncertainty and the MarketMechanism." Quaterly Journal of Economics, 84(3) : 488-500.

[2] Benlagha, Noureddine, Michel Grun-Réhomme et Olga Vasechko, 2008. "Les sinistresgraves en assurance automobile : Une nouvelle approche par la théorie des valeursextrêmes." MODULAD, 39.

[3] Breiman, Leo, 1994. "Bagging Predictors." Rapport technique n. 421, Université deCalifornie.

[4] Breiman, Leo, Jerome Friedman, Charles J. Stone et R.A. Olshen, 1984. "Classifica-tion and Regression Trees.", Taylor & Francis.

[5] Charpentier, Arthur, et Michel Denuit, 2004. "Mathématiques de l’assurance non-vie."Economica.

[6] Charpentier, Arthur, et Christophe Dutang, 2012. "L’actuariat avec R."[7] Chiappori, Pierre-André, et Bernard Salanié, 2000. "Testing for Asymmetric Infor-

mation in Insurance Markets." Journal of Political Economy, 108(1) : 56-78.[8] Cohen, Alma et Peter Siegelman, 2010. "Testing for Adverse Selection in Insurance

Markets." Journal of Risk and Insurance, 77(1) : 39-84.[9] Cutler, David M., Amy Finkelstein et Kathleen McGarry, 2008. "Preference Heteroge-

neity in Insurance Markets : Explainign a Puzzle of Insurance." American EconomicReview, 98(2) : 157-162.

[10] Dahlby, Bev, 1983. "Adverse Selection and Statistical Discrimination : An Analysisof Canadian Automobile Insurance." Journal of Public Economics, 20 : 121-130.

[11] De Meza, David, et Sarah C. Webb, 2001. "Advantageous Selection in InsuranceMarkets." Rand Journal of Economics, 32(2) : 249-262.

[12] Denuit, Michel, et Arthur Charpentier, 2004. "Mathématiques de l’assurance non-vie."Economica, 162.

[13] Dionne, Georges, Christian Gouriéroux and Charles Vanasse, 2001. "Testing for Evi-dence of Adverse Selection in the Automobile Insurance Market : A Comment." Jour-nal of Political Economy, 109 : 444–473.

[14] Dijkstra, Edsger W., 1971. "A short introduction to the art of programming." 67-73.[15] Durry, Georges, 2001. "La sélection de la clientèle par l’assureur : aspects juridiques."

Risques, 45.[16] Einav, Liran et Amy Finkelstein, 2011. "Selection in Insurance Markets : Theory and

Empirics in Pictures." Journal of Economic Perspectives, 25 : 115-262.[17] Fang, Hanming, Michael Keane et Dan Silverman, 2008. "Sources of Advantageous

Selection : Evidence from the Medigap Insurance Market." Journal of Political Eco-nomy, 116(2) : 303-350.

92

Page 102: Par: Cristina Sontu

[18] Finkelstein, Amy et Kathleen McGarry, 2006. "Multiple Dimensions of Private Infor-mation : Evidence from the Long-Term Care Insurance Market." American EconomicReview, 96(4) : 938-58.

[19] Finkelstein, Amy et James Poterba, 1999. "Selection Effects in the Market for In-dividual Annuities : New Evidence from the United Kingdom." Economic Journal,112(476) : 28-50.

[20] Guyon et al. (2003). “An Introduction to Variable and Feature Selection.” The Journalof Machine Learning Research, Volume 3, 1157-1182.

[21] Hastie, T., R. Tibshirani et J. Friedman, 2001. "The Elements of Statistical Learning :Data Mining, Inference and Prediction." Springer Series in Statistics.

[22] Ho, Tin Kam, 1995. "Random Decision Forests." Proceedings of the 3rd InternationalConference on Document Analysis and Recognition. 278–282.

[23] Ippisch, Tobias, 2010. "Telematics Data in Motor Insurance : Creating Value by Un-derstanding the Impact of Accidents on Vehicle Use."

[24] Jolliffe, I., 2002. "Principal Component Analysis." 2ème édition, Springer-Verlag.[25] McCarthy, David et Olivia S. Mitchell. "International Adverse Selection in Life Insu-

rance and Annuities.", pas encore publié.[26] Muermann, Alexander et Daniela Straka, 2010. "Asymmetric Information in Auto-

mobile Insurance : New Evidence from Telematics Data."[27] Miseray, A. et Frédéric Planchet, 2017. "Tarification IARD, Introduction aux tech-

niques avancées."[28] Nelder, J. et R. Wedderburn, 1972. "Generalized Linear Models.", Journal of the Royal

Statistical Society. Series A (General), Blackwell Publishing, 135(3) : 370-384.[29] Ptolemus Consulting Group, 2016. "Global Usage-based Insurance Study."[30] Puelz, R. et Snow A., 1994. "Evidence on Adverse Selection : Equilibrium Signalling

and Cross Subsidization in the Insurance Market." Journal of Political Economy, 102 :236-257.

[31] Rothschild, Michael et Joseph E. Stiglitz, 1976. "Equilibrium in Competitive Insu-rance Markets : An Essay on the Economics of Imperfect Information." QuaterlyJounal of Economics, 90(4) : 630-49.

[32] Saito, Kuniyoshi, 2006. "Testing for Asymmetric Information in the Automobile Insu-rance Market Under Rate Regulation." Journal of Risk and Insurance, 73(2) : 335–356.

[33] Shi, Peng, Wei Zhang et Emiliano A. Valdez, 2012. "Testing Adverse Selection WithTwo-Dimensional Information : Evidence From the Singapore Auto Insurance Mar-ket." Journal of Risk and Insurance, 79(4) : 1077-1114.

[34] Spindler, Martin, Joachim Winter et Steffen Hagmayer, 2013. "Asymmetric Informa-tion in the Market for Automobile Insurance : Evidence From Germany." Journal ofRisk and Insurance, 81(4) : 781-801.

[35] Tibshirani, Robert, 1996. Regression Shrinkage and Selection via the Lasso", Journalof the Royal Statistical Society. Series B (methodological), 58(1) : 266-288.

[36] Von Neuman, John et Oskar Morgenstern, 1944. "Theory of Games and EconomicBehavior." Princeton University Press.

[37] Vitrac, Léa, 2016. "Analyse de la sinistralité observée sur le produit télématique parrapport à la sinistralité du produit traditionnel". Mémoire d’actuariat.

[38] Vuong, Quang H., 1989. "Likelihood Ratio Tests for Model Selection and non-nestedHypotheses." Econometrica. 57 (2) : 307–333.

93

Page 103: Par: Cristina Sontu

[39] Base de données accidents corporels de la circulation, données 2014pour la France métropolitaine. https://www.data.gouv.fr/fr/datasets/base-de-donnees-accidents-corporels-de-la-circulation/.

[40] FFA, 2015. "Tableau de bord de l’assurance." https://www.ffa-assurance.fr/content/tableau-de-bord-de-assurance-en-2015/.

[41] Institut National de la Consommation. "Refus de vente ou de presta-tion de services aux consommateurs." http://www.conso.net/content/refus-de-vente-ou-de-prestation-de-services-aux-consommateurs.

[42] Lambert, Julie, 2015. "Le recul de la discrimination en matièred’assurance." https://www.lelynx.fr/assurance-auto/actualites/le-recul-de-la-discrimination-en-matiere-dassurance/.

[43] Prioux, Julien, 2017. "Assurance auto : le coût des accidents corporels en augmen-tation." https://www.lelynx.fr/assurance-auto/sinistre/type/accident/augmentation-cout-2016/.

[44] Tesco Bank. "What is fronting ?". http://www.tescobank.com/car-insurance/guides/what-is-fronting/.

94