Mémoire présenté le :
pour l’obtention du Diplôme Universitaire d’actuariat de l’ISFA
et l’admission à l’Institut des Actuaires
Par : Aurélie Adèle
Titre
CONSTRUCTION D’UNE TABLE D’EXPERIENCE POUR LE MAINTIEN EN INCAPACITE
Confidentialité : 1. NON OUI (Durée : 1 an 2 ans)
Les signataires s’engagent à respecter la confidentialité indiquée ci-dessus
Membre présents du jury de l’Institut
des Actuaires signature
Entreprise : Generali
Nom : M.Therond Pierre
Signature :
Membres présents du jury de l’ISFA Directeur de mémoire en entreprise :
Nom : M.Espagnet Pierre-Antoine
Signature :
Invité :
Nom :
Signature :
Autorisation de publication et de mise
en ligne sur un site de diffusion de
documents actuariels (après expiration
de l’éventuel délai de confidentialité)
Signature du responsable entreprise
Secrétariat Signature du candidat
Bibliothèque :
Contenu Remerciements ....................................................................................................................................................... 5
RESUME ................................................................................................................................................................... 7
ABSTRACT ................................................................................................................................................................ 8
Introduction ............................................................................................................................................................ 9
A. Contexte d’étude et enjeux .......................................................................................................................... 11
I. Generali .................................................................................................................................................... 11
a. Generali dans l’histoire ........................................................................................................................ 11
b. Generali France .................................................................................................................................... 11
c. L’univers PROPE ................................................................................................................................... 12
II. La prévoyance en France ......................................................................................................................... 14
III. Les tables d’expérience ............................................................................................................................ 15
B. Traitement des données et fiabilisation de la base ...................................................................................... 18
I. Les données brutes extraites : ................................................................................................................. 18
a. Base sinistres : ..................................................................................................................................... 18
b. Assurés/contrats .................................................................................................................................. 19
II. Traitement préliminaire des bases .......................................................................................................... 19
III. Traitement final des bases ....................................................................................................................... 20
IV. Synthèse partie B ..................................................................................................................................... 23
C. Etudes statistiques des données .................................................................................................................. 24
I. Etude des différences de comportements entre salariés et non-salariés ............................................... 24
a. Influence de la catégorie salariale sur le nombre de contrats sinistrés/non-sinistrés. ....................... 27
b. Influence de la catégorie salariale sur la durée des sinistres .............................................................. 28
II. Etude de la base des contrats travailleurs non-salariés ........................................................................... 29
a. Etude de notre portefeuille de contrats .............................................................................................. 29
b. Etude de notre portefeuille de sinistres .............................................................................................. 34
III. Synthèse de la partie C ............................................................................................................................. 40
D. Méthode d’estimation des taux de maintien : Kaplan Meier et Influence des lissages ............................... 41
Notions de base et introduction au modèle de durée...................................................................................... 41
I. Construction des taux de sorties bruts (qx) par Kaplan Meier ................................................................. 44
a. Description de la méthode .................................................................................................................. 44
b. Résultat graphique .............................................................................................................................. 45
II. Lissage des taux par méthode des Splines ............................................................................................... 46
a. Description de la méthode .................................................................................................................. 46
b. Résultat graphique .............................................................................................................................. 47
c. Validation du lissage ............................................................................................................................ 47
d. Comparaison du nombre réel de jours sinistrés et du nombre estimé ............................................... 49
e. Processus de certification .................................................................................................................... 52
III. Lissage des qx par Whittaker-Henderson ................................................................................................ 56
a. Description de la méthode .................................................................................................................. 56
b. Etude du premier test de lissage : ordre verticale = 1, ordre horizontale = 3 ..................................... 58
1. Résultat graphique .............................................................................................................................. 58
c. Etude du premier test de lissage : ordre verticale = 2, ordre horizontale = 3 ..................................... 63
IV. Modèle logistique et ajustement des taux bruts par méthode des MCO/MCP....................................... 67
a. Description du modèle d’ajustement logistique ................................................................................. 67
b. Résultats graphiques ........................................................................................................................... 68
c. Positionnement en terme d’intervalle de confiance ........................................................................... 70
d. Processus de certification .................................................................................................................... 71
V. Synthèse partie D ..................................................................................................................................... 72
E. Méthode d’estimation des taux de maintien : Estimateur actuariel et Influence des lissages .................... 73
I. Construction des qx bruts par la méthode de l’Estimateur Actuariel ...................................................... 73
a. Description de la méthode .................................................................................................................. 73
b. Résultat graphique .............................................................................................................................. 74
II. Lissage par la méthode des Splines .......................................................................................................... 75
a. Résultat graphique .............................................................................................................................. 75
b. Validation du lissage ............................................................................................................................ 75
c. Comparaison du nombre réel de jours sinistrés et du nombre estimé ............................................... 76
d. Processus de certification .................................................................................................................... 76
III. Ajustement des taux bruts par la méthode des MCO .............................................................................. 77
a. Résultats graphiques ........................................................................................................................... 77
b. Etude de la surface de confiance ......................................................................................................... 78
c. Comparaison du nombre réel de jours sinistrés et du nombre estimé ............................................... 78
IV. Lissage par la méthode de Whittaker-Henderson ................................................................................... 79
a. Résultat graphique .............................................................................................................................. 79
b. Validation du lissage ............................................................................................................................ 80
c. Indicateurs certification ....................................................................................................................... 80
V. Synthèse partie E ..................................................................................................................................... 81
F. Modèle de Cox et étude de la variable Cible Professionnelle ...................................................................... 82
I. Modèle de Cox ......................................................................................................................................... 83
Présentation du modèle de Cox. .................................................................................................................. 83
Etude de la variable durée de maintien ....................................................................................................... 85
Etude des variables explicatives ................................................................................................................... 93
Modèles de Cox testés ................................................................................................................................. 95
G. Impact sur le service ................................................................................................................................... 116
I. Positionnement par rapport aux expositions réelles ............................................................................. 116
a. Description du test d’adéquation du Khi-2 ........................................................................................ 116
b. Résultats des tests du KHI-2 pour la première table retenue (KMWH23) ......................................... 116
c. Résultats des tests du Khi-2 pour la seconde table retenue (EASplines)........................................... 117
II. Ajustement de la table de passages ....................................................................................................... 118
a. Choix d’une technique d’ajustement ................................................................................................ 118
b. Représentation graphique des taux de passages .............................................................................. 119
III. Impact sur le provisionnement .............................................................................................................. 120
a. Description des formules de provisionnement ................................................................................. 120
b. Conséquences sur les S/P .................................................................................................................. 126
Conclusion ........................................................................................................................................................... 127
Annexes ............................................................................................................................................................... 128
Bibliographie ....................................................................................................................................................... 131
Remerciements
Je tiens tout d’abord à remercier Isabelle VENTURA-CATARINO qui m’a permis d’intégrer son service et qui m’a
accordé sa confiance durant mon alternance.
Je remercie également mon manager et tuteur en entreprise, Pierre-Antoine ESPAGNET, pour l’aide qu’il a pu
m’apporter, pour son encadrement, pour sa patience et pour sa pédagogie.
Je remercie Pierre THEROND, mon tuteur école, pour ses conseils, son suivi et son écoute.
Enfin, je remercie tous mes collègues du département conception technique vie qui m’ont accueillie au sein de
leur unité et m’ont apporté leur aide tout au long de mon stage.
Les valeurs réelles des indicateurs mathématiques, des montants de sinistres réglés, des nombres de jours
sinistrés, des cotisations et des S/P ont été changées dans un souci de confidentialité.
RESUME Mots clés : Table d’expérience, prévoyance, travailleurs-non-salariés, incapacité, invalidité, Kaplan-Meier,
Whittaker-Henderson, estimateur actuariel, ajustement des moindres carré, Modèle de Cox, lissage des
splines, modèle semi-paramétrique, table de passage, provisionnement, SP
Ce mémoire permet à travers la construction d’une table d’expérience d’entrevoir les différentes
problématiques inhérentes au secteur de la prévoyance et en particulier dans le milieu des travailleurs non-
salariés (TNS).
Ce secteur, en perpétuel mouvement, oblige ceux qui y travaillent à procéder avec rigueur et à effectuer un
suivi permanant des outils utilisés. Parmi ces outils on compte notamment les tables de maintien en incapacité
et en invalidité nécessaires au provisionnement des sinistres.
Les méthodes de mise en place de ces tables sont multiples et ce mémoire en présente quelques-unes :
- la méthode de Kaplan Meier,
- l’estimateur actuariel,
- le modèle de Cox,
- les méthodes d’ajustement par les moindres carrés
- les méthodes de lissage de taux de Whittaker-Henderson
- les méthodes de lissage par le modèle des Splines
Des estimations statistiques, des courbes de fidélité et des intervalles de confiance ont permis de déterminer la
prudence et la fiabilité de chaque table obtenue. Cela a permis de ne considérer que les plus pertinentes
d’entre elles.
Le modèle semi-paramétrique de Cox nous amène à un résultat satisfaisant permettant d’intégrer la variable
cible professionnelle comme variable explicative. Cependant, le but étant de certifier une unique table pour
toute la population des TNS, ce modèle n’a pas été retenu dans un cadre de provisionnement. Il pourra par
ailleurs servir dans un cadre de tarification de nouveau produit.
Les modèles paramétriques de Kaplan Meier et de l’estimateur actuariel nous ont amené à retenir deux tables
potentiellement certifiables. Ces deux tables ont fait l’objet d’un test d’adéquation du khi 2 qui nous a permis
de n’en sélectionner plus qu’une.
On s’est ensuite intéressé à la table de passage en invalidité également nécessaire dans une activité de
prévoyance. Au vu des données, les taux de l’ancienne table de passage ont été conservés. Cette table avait été
créée à partir des données de plusieurs entreprises travaillant dans le secteur de la Prévoyance TNS.
L’impact sur le service a pu alors être quantifier en terme de provisionnement et de S/P. Cet impact force
aujourd’hui l’entreprise à provisionner des montants plus élevés et conduit à une dégradation des SP sur
l’antérieur mais permettra certainement de lisser le provisionnement dans le temps afin de réduire les effet de
boni et de mali successifs observés avec l’ancienne.
ABSTRACT Key words : Protection, self-employee-worker, temporary disability, permanently disability, Kaplan-Meier,
Whittaker-Henderson, actuarial estimator, adjustment of least squares, Cox Model, smoothing method of
Splines, transitions table, provisioning, loss ratio
This report presents the different issues specific to the sector of protection and particularly concerning
independent workers.
Because of its constant change, to work in this sector means that you need to have rigor and to follow up every
tools which are used. Among this tools, there are in particular tables allowing to assess temporary or
permanently disabilities and to evaluate a good provisioning.
Several methods can be used to create this tables and this report is developing some of them :
- Kaplan Meier method,
- The Actuarial estimator,
- Cox model,
- Adjustment by methods of least squares
- The smoothing methods of Whittaker-Henderson
- The smoothing methods of Splines
To evaluate the reliability of each table, we used Statistical estimations, we study the shape of the curve, and
the confidence intervals. Then, we could have kept the most pertinent ones.
The Cox model leads us to interesting results which allow us to integer the socio–professional category of the
worker as a discriminant characteristic. However, the objective was to use a unique table for all the population
of self-employee workers. For this reason, the Cox model was not retained for a use to the provisioning but it
permits to have a usable model for future product pricing.
Kaplan Meier and actuarial estimator gave us two tables potentially available for provisioning. To choose one of
them, we made a suitability test of khi-2.
Ones we chose the good table, we focused on the transition table which is also essential in a protection
activity. The existing transition table was established with the data of several enterprises of the protection
sector. The decision was to keep the existing rates and to create a new table from these rates.
The impact on the service was determined in terms of provisioning and loss ratio. Today, the amount of
provisioning is a little bit higher than before and leads to a degradation of our loss ratio on previous year but in
long-term this will permit to smooth the provisioning and to limit the effect of boni and mali.
Introduction
Le groupe Generali France représente aujourd’hui un des acteurs majeurs sur le marché de l’assurance en
France. La pluralité de ses secteurs d’activités lui permet une implantation aussi bien dans le monde actuariel
de la vie que dans celui de la non vie. En intégrant ce groupe, j’ai pu accéder à un des domaines les plus en
mouvement du secteur assuranciel en France : celui de la prévoyance.
Le domaine de la prévoyance est aujourd’hui en pleine évolution et se retrouve au centre de nombreuses
problématiques. La particularité de ce secteur est qu’il perçoit les conséquences directes de nombreuses
décisions juridiques et financières de l’Etat Français.
Aujourd’hui, la réorganisation des aides sociales, les problématiques concernant l’âge de la retraite et
l’évolution de l’espérance de vie sont autant d’impacts qui agissent directement et fortement sur le milieu de la
Prévoyance et demandent des techniques actuarielles qui évoluent. Cela implique aussi que les modèles déjà
existants soient mis à jour avec les nouvelles données liées à ces problématiques.
La nouvelle norme règlementaire Solvabilité II vient ajouter une nouvelle strate à la problématique déjà dense
de la prévoyance. En effet, les nouvelles techniques de provisionnement et les nouvelles marges de solvabilité
imposées par cette règlementation force la restructuration de l’organisation de ce secteur au sein de
l’entreprise.
Jusqu’à ce jour, l’outil de base sur lequel repose l’activité de prévoyance est la table d’expérience. Elle est
utilisée que ce soit dans le cadre de la garantie arrêt de travail (en incapacité et en invalidité) ou dans celui de
la garantie décès.
Aujourd’hui le changement des règles sociales en France et les conséquences de la crise économiques
entrainent des changements de comportement et imposent que ces tables soient adaptées. C’est ce qu’a déjà
entreprit le BCAC (Bureau Commun d’Assurances Collectives) qui fournit les tables officielles et règlementaires
du secteur de la prévoyance.
C’est aussi ce qu’a entreprit à Generali, le service Prévoyance de la direction des Professionnels et Petites
Entreprise (DMPROPE). Fort de son expérience, le service Prévoyance de la DMPROPE a voulu créer une table
d’expérience de maintien en incapacité qui lui soit propre et qu’elle puisse utiliser en toute confiance lors de
ses divers calculs.
En effet, la fiabilité d’une activité d’assurance de personnes réside en grande partie dans la justesse des tables
d’expérience utilisées à la fois pour les calculs liés à la tarification des produits mais aussi pour leur
provisionnement. Les tables d’expérience sont donc l’objet d’un suivi annuel et minutieux réalisé par des
actuaires indépendants agréés et aptes à certifier ces tables.
Le but est alors de construire une nouvelle table avec un niveau de confiance suffisant pour une certification et
pour une utilisation au sein du service.
La création d’une table d’expérience est un processus long et rigoureux dont la minutie débute dès le
nettoyage des données. Le traitement des données est une partie décisive lors de la construction d’une table
car elle conditionne l’exactitude des résultats. Il est donc nécessaire de prendre le temps de connaitre les
données, le système d’exploitation qui les gère, les produits sur lesquels on travail, la population qui les
consomme.
A cette partie délicate se joint par la suite le choix d’un modèle et d’une méthode de construction de table.
Parmi la multitude de possibilités qui existent, la difficulté réside dans le choix de la méthode la mieux adaptée
aux données. Des études peuvent alors être réalisées pour déterminer la justesse des différents résultats
obtenus et permettant de juger s’ils sont cohérents avec la réalité.
Ce mémoire entreprend de décrire les différentes étapes de construction de la table d’expérience qui est
aujourd’hui certifiée et son apport au sein de l’activité du service.
Après une brève description du contexte d’étude et des enjeux rattachés au sujet de ce mémoire, une partie
décrit le nettoyage des données et explique les différents champs retenus, les produits constituant les données
et les choix réalisés à l’aide des tests de cohérence de la base. La troisième partie présente les études
statistiques réalisées sur le portefeuille et permettant d’avoir un certain recul sur les potentielles particularités
des données utilisées. Les quatrième, cinquième et sixième parties présentent les différentes techniques de
construction de tables en associant différentes méthodes d’estimation des taux bruts et de lissages. Enfin, une
dernière partie montre les impacts potentiels de l’utilisation de la nouvelle table au sein du service notamment
en termes de provisionnement et de S/P.
11,4 Mds
39% Epargne
24% Biens et responsabilité
17% Prévoyance et santé
11% Assistance et prestations
de service
9% Retraite
A. Contexte d’étude et enjeux
I. Generali
a. Generali dans l’histoire
En 1831, à Trieste, plusieurs entrepreneurs locaux réunis autour de Giuseppe Lazzaro Morpurgo, homme
d’affaire de la ville, fondent Assicurazioni Generali Austro-Italiche, avec la volonté de créer une grande
compagnie capable de rivaliser avec les assureurs naissants en Lombardie-Vénétie ou dans le reste de l’Europe.
Après seulement quelques années, Generali établit des agences dans les principales villes de l’empire
autrichien et dans les principaux ports d’Europe comme Bordeaux (1832) et Marseille (1834).
Dans une Europe secouée par les conflits nationalistes, Generali affirme sa dimension internationale et
poursuit son expansion dans le bassin méditerranéen et dans les villes portuaires de par le monde. A la veille
de la deuxième Guerre mondiale, fort de son expansion, le Groupe compte plus de 3000 agences réparties dans
40 pays.
Au lendemain de la seconde Guerre mondiale, Generali perd ses actifs et succursales dans les pays passés sous
influence soviétique. Le Groupe se rétablit rapidement dans les pays d‘Europe de l‘Ouest et se concentre dans
la conquête de nouveaux marchés en Amérique latine. Cette période de fort développement économique
conduit à l’apparition de nouveaux risques, et par conséquent au développement de l’assurance. Dès la chute
du mur de Berlin en 1989, Generali reprend ses activités en Europe de l’Est.
Aujourd’hui, le Groupe est implanté dans plus de 60 pays et compte plus de 500 compagnies à l'international. Il
compte plus de 77 000 collaborateurs et son réseau de distribution emploie plus de 100 000 personnes à
travers le monde. Il compte près de 65 millions de clients dans le monde. En Europe, Generali est le 1er
assureur vie et 3e assureur généraliste. A l’international, Generali se place, d’après l’agence de notation AM
Best, en 2e position sur les primes émises et en 5e position sur les actifs.
b. Generali France
La France s’affirme comme un territoire clé de développement pour le Groupe puisque 21 % de l’activité
mondiale est réalisée par Generali France (chiffre publié par le Groupe en septembre 2011).
Aujourd’hui son activité se scinde en cinq parties distinctes dont la prévoyance-santé occupe la troisième
position.
La Compagnie regroupe 7 000 collaborateurs mobilisés au service des clients (réseaux salariés compris) que ce soit dans le domaine de la vie ou de la non-vie.
La vie représente le plus gros secteur d’activité de Generali France en termes de chiffre d’affaire. C’est un
secteur où l’on a pu voir une belle évolution de l’activité, notamment en épargne et en retraite. Aujourd’hui
l’activité vie de Generali France représente 7,7 Mds d’euros de chiffre d’affaire.
La non-vie (ou dommage) connait un moins bel essor et est soumise à de nombreuses restructurations. Cela a
entrainé une baisse du chiffre d’affaire dans ce secteur qui devrait redémarrer d’ici l’année prochaine.
Aujourd’hui ce secteur représente 3,7Mds d’euros de chiffre d’affaire.
c. L’univers PROPE
La Direction du Marché des Professionnels et des Petites Entreprises (DMPROPE) constitue le cadre de pilotage
pour traiter les enjeux de l’entreprise en matière de marché des Professionnels et des Petites Entreprises. Elle
est divisée en trois sous-directions dont la direction Etudes Techniques et Pilotage Opérationnel que j’ai intégré
lors de mon stage. Plus précisément, j’ai pu prendre part aux activités du département Conception technique
vie dirigé par Isabelle VENTURA-CATARINO. Ce département est en charge de la Retraite sous la Direction
d’Alexandre COCHARD et de la Prévoyance sous celle de Raphaël GUILMIN.
Le service Prévoyance, où j’ai effectué mon stage en alternance, est constitué de six collaborateurs. Les
produits gérés par ce service visent principalement les travailleurs non-salariés et les petites entreprises dont
l’effectif est inférieur à vingt salariés. L’objectif de ces produits est de proposer une couverture en complément
de celle fournie par le régime obligatoire.
DMPROPE en charge :
De la définition des politiques
de la conception de solutions d’assurance
du pilotage de la rentabilité technique
des activités de souscription et gestion IARD
Direction Etudes Techniques et Pilotage Opérationnel en charge :
de la conception des solutions d'assurance
du pilotage de la rentabilité technique
contrôle de gestion
Conception Technique IARD/VIE
Pilotage Opérationnel Surveillance du portafeuille Contrôle de gestion
Direction Souscription IARD Direction Solution
d'Assurance
Ces produits couvrent les risques de décès, d’incapacité de travail, d’invalidité, les frais professionnels, la santé
ou encore l’hospitalisation. Pour chaque risque, différentes garanties peuvent être souscrites seules ou
accumulées telles que le Décès toutes causes, la rente éducation ou la rente conjoint pour le risque décès.
Deux activités principales sont mises en places :
Une partie actuarielle effectuant :
Les études statistiques sur le portefeuille
Les estimations du risque et la tarification des produits
La mise en place de nouveaux produits
Les études et le suivi de la rentabilité des produits au travers notamment des triangles de liquidation
et du calcul de COR (Combined Ratio)
Le suivi pour la certification de tables d’expériences (incapacité et passage en invalidité)
La fixation des majorations tarifaires
La mise en place de nouveaux partenariats
Une partie technique gérant :
La Refonte et le suivi de l’évolution des produits suite à des mesures réglementaires, fiscales ou afin
de suivre le marché et de dynamiser le portefeuille.
Pour ce faire, il faut :
Établir les expressions de besoin
Suivre et mettre en place les produits
Valider les documents contractuels (Conditions Générales, bulletin de souscription…)
L’analyse de demandes spécifiques (sports et métiers à risque)
Répondre aux questions de la gestion
Intégrer le service de prévoyance de la direction PROPE m’a éclairée sur ce secteur particulier de l’assurance
qui mêle à la fois la connaissance de techniques actuarielles poussées et celle de principes juridiques qui lui
sont propres.
Cette multifonctionnalité rend ce secteur d’autant plus intéressant qu’il est en perpétuel mouvement mais
aussi en perpétuel recherche d’équilibre entre son aspect technique et son aspect juridique et commercial.
II. La prévoyance en France En France, ce sont des cotisations sociales obligatoires qui permettent de financer la protection sociale : le
paiement de ces cotisations donne droit à une couverture de base. Des versements supplémentaires peuvent
venir s’y ajouter.
La Sécurité sociale et les organismes de prévoyance complémentaire couvrent entre autres les risques associés
à une diminution du revenu en cas d'arrêt de travail temporaire ou définitif dû à la maladie ou à l'invalidité, ou
encore en cas de décès. On procède alors au versement de prestations, sous la forme d'indemnités
journalières, de rentes ou de capitaux : elles compensent en partie cette baisse du revenu.
Plusieurs niveaux de protection existent :
- Un régime de base, qui est géré par les organismes de la Sécurité sociale ;
- Un régime complémentaire obligatoire (Convention Collective, Mensualisation) ;
- Un régime facultatif collectif, qui est souscrit dans le cadre de l'entreprise et réparti entre les
institutions de prévoyance, les mutuelles et les compagnies d'assurance : certaines conventions
collectives font de l'adhésion à une institution de prévoyance une obligation.
- Des contrats individuels de prévoyance facultatifs, qui sont proposés par les mutuelles et les
compagnies d'assurance.
La protection sociale obligatoire de base repose donc majoritairement sur le régime général de la Sécurité
sociale, et reste souvent insuffisante.
La prévoyance peut donc être proposée par l'employeur : prévoyance collective, ou être souscrite de façon
individuelle : prévoyance individuelle.
Source : Les Dossiers Techniques d’information Optimind, Octobre 2010
Le service que j’ai intégré est en charge de produits de prévoyance proposés d’une part aux professionnels et
d’autre part aux petites entreprises.
Dans le cadre de mon mémoire, on s’est intéressé aux produits proposés à une catégorie bien particulière de la
population : celles des travailleurs non-salariés.
C’est donc dans un cadre de prévoyance individuelle que l’étude s’est déroulée.
En effet, la protection obligatoire à laquelle est soumis le travailleur non salarié (ou TNS) varie selon le secteur
d’activité de l’assuré mais reste en général largement insuffisante.
N’étant pas salarié d’une entreprise, il ne bénéficie pas naturellement d’une protection adaptée et
avantageuse (comme c’est aujourd’hui le cas pour les cadres par exemple).
Aujourd’hui, des avantages fiscaux ont été mis en place pour permettre aux travailleurs non-salariés d’avoir un
accès plus facile à la protection sociale (loi Madelin détaillée page 21 de ce rapport).
Les produits étudiés lors de ce mémoire et conçus au sein du service prévoyance de la DMPROPE ont donc pour
but de protéger de façon efficace cette partie de la population.
Pour que ce travail soit effectué correctement, les outils utilisés doivent être adaptés aux évolutions de la
population mais également aux décisions juridiques et financières de l’état qui peuvent lourdement influer sur
le déroulement de l’activité en prévoyance individuelle.
Les tables de maintien en incapacité ou en invalidité, de passages et de décès représentent un des outils de
base du fonctionnement de la prévoyance. Elles sont utilisées aussi bien dans le calcul de provisions de sinistres
que dans les tarifications de produits.
III. Les tables d’expérience On s’intéressera ici aux garanties rattachées à la notion d’arrêt de travail.
L’arrêt de travail désigne la période pendant laquelle un individu est dans l’impossibilité d’exercer une activité
professionnelle que ce soit de façon temporaire ou permanente.
L’arrêt de travail se décompose en deux types de risque :
- Le risque d’incapacité qui désigne une durée d’arrêt temporaire.
- Le risque d’invalidité qui désigne une durée d’arrêt permanente.
-
Le calcul des provisions associées aux garanties liées à ces deux risques est possible grâce aux tables de
maintien qui font l’objet de règlementations poussées et spécifiques.
C’est le Bureau Commun d'Assurances Collectives (BCAC) qui fournit aujourd’hui aux différents institutions et
sociétés concernées, les tables officielles de prévoyance.
Le Bureau Commun d'Assurances Collectives (BCAC), gère depuis son origine, les régimes prévoyance, santé et
le fonds de pension de la branche de l'Assurance.
Reconnu pour son expertise, il participe au pilotage de ces régimes, réalise des études pour le compte de la
profession, assure la gestion en délégation des contrats santé pour le compte de ses adhérents et gère des
"pools" de mutualisation uniques en France : pool catastrophe, pool dépendance et pool AERAS (convention
pour s'Assurer et Emprunter avec un risque Aggravé de Santé).
Dans le cadre de l’arrêt de travail, trois types de tables sont fournies par le BCAC :
- Les tables de maintien en incapacité
Ces tables se présentent sous forme de tableau à deux entrées.
Une variable correspondant à l’âge (variable explicative) et une autre correspondant à la durée de maintien en
incapacité (présentée en mois).
Elle indique l’évolution du nombre d’incapables au fils des mois de maintien pour chaque âge d’entrée en
incapacité.
- Les tables de maintien en invalidité
Ces tables se présentent sous forme de tableau à deux entrées.
Une variable correspondant à l’âge (variable explicative) et une autre correspondant à la durée de maintien en
invalidité (présentée en mois).
Elle indique l’évolution du nombre d’invalides au fils des mois de maintien pour chaque âge d’entrée en
invalidité.
- Les tables de passage en invalidité
Ces tables se présentent sous forme de tableau à deux entrées.
Une variable correspondant à l’âge (variable explicative) et une autre correspondant à la durée de maintien en
incapacité (présentée en mois).
Elle indique le nombre de sinistrés initialement incapables et passant en invalidité pour chaque âge d’entrée en
incapacité et chaque mois de durée de maintien.
Le BCAC fournit également la donnée du taux d’actualisation des flux futurs. Pour le risque d‘arrêt de travail, ce
taux correspond au maximum de 75% du taux moyen des emprunts d’état des 24 derniers mois.
Des tables dites d’expérience construites à partir des données propres à l’entreprise peuvent être utilisées
dans la mesure où elles font l’objet (avant toute utilisation dans le calcul des provisions) d’une certification de
leur justesse par un actuaire indépendant, agrée et certifié.
Elles font ensuite l’objet d’un suivi annuel qui permet de jauger l’évolution de l’adéquation entre les tables et
les données. Ce suivi doit également être réalisé par un actuaire indépendant, certifié et agréé.
L’intérêt de la création de tables d’expérience pour l’entreprise est qu’elles s’adaptent aux données propres à
l’entreprise et qu’elles fournissent donc des résultats proches de la réalité de l’entreprise. Elles permettent en
général un meilleur ajustement des provisions que celles fournies par le BCAC.
Aujourd’hui, c’est une table d’expérience certifiée et construite en 2008 qui est utilisée pour le
provisionnement de sinistres rattachés aux travailleurs non-salariés. Cette table a été construite par une
entreprise externe à Generali qui avait rassemblé pour ce projet les données concernant les TNS de plusieurs
entreprises. La construction d’une table de passage adaptée avait également été l’un des objets de ce projet.
Bien que ces tables fournissent des résultats préférables à ceux des tables règlementaires du BCAC, le fait
qu’elles aient été construites avec des données liées à d’autres entreprises n’en fait pas forcément les tables
les mieux adaptées à l’activité prévoyance individuelle de Generali.
Le service prévoyance de la DMPROPE, ayant aujourd’hui acquis une base d’expérience solide, a entreprit de
construire sa propre table d’expérience de maintien en incapacité destiné à la certification. Le but de cette
construction est de pouvoir in fine utiliser une table mieux adaptée aux produits de son portefeuille. C’est ce
projet qui m’a été confiée au cours de mon alternance.
La construction d’une table d’expérience peut faire intervenir de nombreuses méthodes actuarielles et divers
modèles mathématiques plus ou moins complexes.
Cependant rien n’est possible sans avoir une base de départ propre et cohérente. Le nettoyage des données et
la phase d’étude de ces données constituent la partie la plus longue et la plus laborieuse lorsque l’on construit
une table. Elle nécessite une bonne connaissance des produits et du système d’exploitation des données mais
aussi une vue sur les variables potentiellement utiles lors de la construction de la table et lors des études
statistiques à effectuer.
La partie qui suit décrit les variables choisies et les choix faits lors du traitement des données. Le nettoyage des
bases est défini étape par étape pour une compréhension optimale de chaque traitement effectué.
B. Traitement des données et fiabilisation de la base
I. Les données brutes extraites : Cette partie présente les données retenues dans les bases contrats et les bases sinistres utilisées comme
entrées de nos différents modèles de construction de table.
a. Base sinistres :
Numéro du sinistre => numéro unique par sinistre
Numéro du contrat => numéro unique par contrat, il peut être rattaché à plusieurs sinistres.
Garantie commerciale simple (GCS) => Code permettant d’identifier le type de garantie sinistrée souscrite au contrat (variable couplée avec le code GE).
Garantie élémentaire (GE) => Code permettant d’identifier la garantie sinistrée souscrite au contrat.
Date de survenance sinistre => Correspond à la date ou le sinistre a eu lieu. S’il n’y a pas eu de rechute
elle correspond à la date d’évènement. On préférera ne considérer que la date d’évènement qui est
plus fiable. Il existe un conflit de définition au niveau de la gestion qui considère la constatation
médicale sans tenir compte du fait que le sinistre soit considéré comme une rechute ou pas.
Date d’évènement => Doit correspondre à la date de rechute s’il s’agit d’une rechute sinon correspond
à la date considérée comme la date de survenance du sinistre.
Date d’ouverture => Date à partir de laquelle le sinistre est pris en compte par Generali.
Date début règlement sinistre => Premier jour de règlement du sinistre (la même pour tous les
règlements effectués pour un même sinistre). Date qui prête à confusion car souvent mal renseignée.
On préférera utiliser la date de début de règlement périodique qui correspondra à la date de début de
versement pour chaque période de versement effectué.
Date fin règlement => Dernier jour de règlement du sinistre (par période de règlement effectué)
Date clôture sinistre => Date où le sinistre est considéré comme entièrement réglé
Montant règlement net => Montant réglé pour le sinistre pour une période de règlement considérée.
Le montant total du sinistre correspond à la somme de tous les montants payés par période de
règlement.
Code produit => Correspond au produit souscrit au contrat. Soit le produit X (comprend X07/X08
XFA/XFE) soit le produit Y (comprend YO et YF).
Etat Contrat => indique si le contrat est toujours en cours ou s’il est clos.
Taux d’indemnisation => Taux d’indemnisation sur la base du montant garanti
Etat du Sinistre => indique si le sinistre est toujours en cours ou s’il est clos
Type d’évènement => indique si il s’agit d’une garantie incapacité (ij journalière) ou d’une garantie
invalidité (rente invalidité)
Cause évènement => indique la cause de l’incapacité ou de l’invalidité (Accident (A) ou Maladie (M))
Date début règlement périodique => date de début de versement pour chaque période de versement
effectué.
Montant garanti => Montant garanti au contrat
Code Franchise => Code permettant de déterminer (couplé au code GE) la durée de la franchise
appliquée.
Nombre de lignes du fichier brut : 155 515
b. Assurés/contrats
Numéro du contrat => Numéro du contrat considéré
Code Produit => Code du produit souscrit (X ou Y)
Numéro personne => identifiant de l’assuré
Date de naissance => date de naissance de l’assuré
Code CSP (Catégorie socio-professionnelle) => code permettant de déterminer le statu socio-
professionnel de l’assuré
Sexe => Sexe de l’assuré qui souscrit le contrat
Date d’effet du contrat => Date à partir de laquelle l’assuré commence à être couvert
Date de sortie du contrat => Date ou le contrat prend fin. Si le contrat est en cours cette date est
renseignée par une date fictive.
Garantie élémentaire(GE) => Code permettant d’identifier la garantie souscrite au contrat.
Montant garanti => Montant garanti pour la garantie souscrite au contrat.
Montant cotisation => Cotisation de l’assuré
Garantie commerciale simple (GCS) => Code permettant d’identifier un type de garantie souscrite au
contrat.
Code fiscalité => Indique si l’assuré est un Travailleur non salarié ou un travailleur salarié
Cible commerciale => Permet d’indiquer à quelles garanties peut souscrire l’assuré pour le contrat
choisi et son tarif.
Cause sortie
Origine => permet de déterminer si le contrat a été migré ou pas.
Nombre de lignes du fichier brut => 1 432 575
II. Traitement préliminaire des bases Un premier traitement des bases « contrats » et « sinistres » a été effectué pour ne retenir que les garanties en incapacité et en invalidité. On obtient à une base des sinistres de 99 379 lignes et une base des contrats de 456 527 lignes. Dans la nouvelle base « sinistres » considérée il y a une ligne par règlement effectué et donc plusieurs lignes pour un même sinistre. Dans la nouvelle base « contrats » considérée il y a une ligne par Garantie souscrite et donc plusieurs lignes pour un même contrat.
Sont retenus :
- Les produits X et Y. - Les non-salariés : Code Fiscalité = 3 (ce choix se justifie par des études statistiques détaillées plus bas dans
la partie « Etude de la population ») - Les garanties incapacité retenues par produits :
X : Revenu de remplacement (Indemnités Journalières) (sans prendre en compte les garanties exonération et frais professionnels)
Y : 07/08 = Revenu de remplacement (Indemnités Journalières) (sans prendre en compte les garanties exonération et remboursement)
Y : FA/FE = Revenu de remplacement (Indemnités Journalières) - Les garanties invalidité :
X : RI Revenu de remplacement rentes Y : 07/08 = Invalidité avec des taux à 100, à 85 ou à 36. Y : FA/FE = rente invalidité permanente partielle (IPP) et invalidité
permanente totale (IPT).
Une première fusion des deux bases est effectuée pour mettre ensemble les données relatives aux sinistres auxquelles on rajoutera les données relatives aux assurés que sont : - Date de naissance de l’assuré - Date d’effet du contrat sinistré - La fiscalité de l’assuré - Identifiant de l’assuré
Une migration du système d’exploitation des données a engendré un nombre de données important auxquelles n’est rattachée aucune « date de naissance ». On va chercher ces dates manquantes dans les bases enregistrées sur le serveur SAS de l’entreprise et on les fusionne avec notre base. L’idée est ensuite de conserver une ligne par sinistre dans notre base. On rassemble donc les lignes relatives à la même clé contrat/sinistre. On conserve la date de début de règlement la plus ancienne et la date de fin la plus récente. On considère comme montant réglé la somme de tous les montants réglés par période de règlement. Une fois ce travail effectué on obtient une base de sinistres de 24 393 lignes. On supprime ensuite les sinistres pour lesquels la date de naissance n’est pas cohérente : c’est-à-dire dont l’âge de survenance ou l’âge de clôture du sinistre n’est pas comprise entre 16 ans et 70 ans. Il nous reste alors 24 282 lignes. De même, un traitement est effectué sur la base « contrats » pour récupérer les dates de naissances manquantes et ne garder qu’une ligne par contrat souscrit. On obtient une base de 153 252 lignes. Des tests de rejets sont effectués sur la base « sinistres » :
- Date de naissance non renseignée - Date de survenance sinistre non renseignée - Date de début de règlement non renseignée - Date de clôture sinistre non renseignée - Date de fin de règlement non renseignée - Date de fin de règlement < date de début de règlement - Date de clôture sinistre < date de fin de règlement - Date de début de règlement < date ouverture sinistre - Date de début de règlement < date d’évènement sinistre - Date d’évènement sinistre < date d’effet contrat Enfin, on ne conserve que les garanties ITT dans notre base en pensant à enlever les garanties maternité correspondant à une indemnisation de 1500 euros retranscrite en ITT. On obtient une base « sinistres » finale de 15 021 lignes.
III. Traitement final des bases
On rassemble les sinistres concernant le même individu et qui semblent correspondre à des rechutes (c’est-à-
dire des sinistres à priori différents, car avec un numéro de sinistres différents, mais concernant le même
assuré) sous la condition suivante : le délai entre premier jour indemnisé du plus récent sinistre et dernier jour
indemnisé du plus ancien des sinistres doit être inférieur à 61 jours.
Ce retraitement n’est pas le plus optimal car dans certains cas il s’agit bien de sinistres différents mais dans la
majorité des cas il est le plus approprié d’où ce choix.
Ainsi sont conservés : - Date d’indemnisation la plus ancienne pour le premier jour indemnisé - Date d’indemnisation la plus récente pour le dernier jour indemnisé.
On conserve les sinistres encore ouverts après le 01/01/2009 et survenus avant le 31/12/2012 et on supprime ceux dont le premier jour d’indemnisation est après le 31/12/2012. On obtient une base de sinistres finale qui sera utilisée pour la construction de la table comprenant 13 909 lignes; chaque ligne correspondant à un sinistre. Les champs de cette base sont les suivants :
Franchise théorique
Numéro de contrat
GE
Code Produit
Etat du contrat
Date de naissance
Premier jour d’indemnisation incap
Dernier jour d’indemnisation incap
Date de sinistre
Indicateur de censure
Date de censure
Indicateur de troncature
Date de troncature
Date de clôture du sinistre
Nombre de sinistres de l’individu
Cause Franchises=> Maladie, Hospitalisation ou accident
Numéro de sinistre corrigé
Montant réglé total
Nombre de jour indemnisé
Durée
Durée de maintien début
Durée de maintien fin
Date min
Date max
Indicateur sortie
Age à l’entrée
exposition
moment
Les champs qui seront utilisés pour la construction de la table sont ceux qui sont en rouge.
Explication de ces champs : - Indicateur de censure : indique si l’on applique la censure à l’individu - Date de censure : indique la date de censure à appliquer sur l’individu - Indicateur de troncature : indique si l’on applique la troncature à l’individu - Date de troncature : indique la date de censure à appliquer sur l’individu - Indicateur sortie : indique si l’individu est vraiment sorti de l’arrêt
Censure et troncature appliquées à notre modèle : - Une date de troncature constante pour tous les sinistres a été choisie. Elle correspond à la date du 01/01/2009. Ce choix se justifie par la réalisation d’une migration fin octobre 2008 de notre système d’exploitation des données. Seuls les sinistres encore en cours au moment de la migration ont été transférés dans le nouveau système. Il fallait donc trouver un moyen pour que cette migration ne vienne pas fausser nos résultats. -Un choix similaire a été fait pour la date de censure que l’on garde constante pour tous les sinistres. Elle correspond à la date du 31/12/2012. Au niveau de la censure, notre modèle consiste à considérer comme durée finale de sinistre : [Min (31/12/2012, date fin de sinistre) – date de début du sinistre] Un sinistre sera censuré s’il est encore en cours au 31/12/2012. Son indicateur de censure sera donc 1 et son indicateur de sortie sera 0 (car la fin de ce sinistre n’est pas réellement observée). Au niveau de la troncature, le modèle consiste à considérer comme durée d’entrée de sinistre : [Max (01/01/2009, date de premier règlement) - date de début de sinistre] Un sinistre sera tronqué si sa date de premier règlement intervient avant le 01/01/2009. Son indicateur de troncature sera donc 1.
- Date min (permet de déterminer la durée de maintien en fin de sinistre) :
Si le sinistre est clos avant la date de censure alors on considère que la variable date min est égale au minimum entre le dernier jour indemnisé et la date de clôture.
Si le sinistre est clos après la date de censure ou s’il est encore ouvert, alors on considère que la variable date min est égale à la date de censure
- Date max (permet de déterminer la durée de maintien de début de sinistre) :
Si le premier jour indemnisé est inférieur à la date de censure alors on considère que la variable date max est égale au maximum entre le premier jour indemnisé et la date de troncature.
Si le premier jour indemnisé est postérieur à la date de censure ; on ne garde pas ce sinistre dans notre base
- Durée de maintien de début de sinistre : Indique la durée de franchise considérée dans le modèle. Elle correspond au moment d’entrée en incapacité de l’individu. Elle est égale à la durée entre date max (variable expliquée plus haut) et date de sinistre.
- Durée de maintien fin : indique la durée finale du sinistre considérée dans le modèle. Elle correspond au moment de « sortie » d’incapacité de l’individu. Elle est égale à la durée entre date min (variable expliqué plus haut) et date de sinistre.
- Age à l’entrée : indique l’âge auquel l’individu est entré en arrêt Enfin, une base « contrats » finale est construite à partir de la base contrat brute. Elle représente un ensemble de 98 780 lignes, chaque ligne correspondant à un « numéro contrat » distinct. Seuls sont retenus les contrats clos après le 01/01/2006 et ouverts avant le 31/12/2012. Les numéros de contrats supprimés de la base sinistres sont également supprimés de la base contrats pour une cohérence du portefeuille.
IV. Synthèse partie B On voit que de nombreux traitements ont été nécessaires pour obtenir une base en cohérence avec la réalité
observée. Les données exploitées sont soumises aux aléas de l’erreur humaine et des anomalies informatiques
mais aussi des différentes migrations de données lors de changement de système informatique.
Lors du traitement des données, des choix ont dû être faits et ont été déterminés d’une part par la
connaissance que l’on a pu se faire des données et du système qui permet de les exploiter et d’autre part par
le « bon sens » de la personne en charge de ce traitement. Pour assurer au mieux cette tâche, le travail collectif
est de mise afin de recueillir auprès de chacun son expérience du système de données.
On obtient au final une base de sinistres moyennement fournie et présentant des expositions peu élevées.
Cependant, ces données ont été proprement nettoyées et permettent des études statistiques fiables et des
constructions de taux solides.
La base de contrats qui fera également l’objet d’études statistiques est également bien nettoyée et représente
une bonne masse de données pour les études réalisées.
La partie qui suit présente les différentes études statistiques réalisées sur les portefeuilles et les résultats
qu’elles ont permis de mettre en exergue.
C. Etudes statistiques des données
I. Etude des différences de comportements entre salariés et non-
salariés Une étape importante lorsque l’on construit une table d’expérience est d’étudier la population de la base qui permet de la construire. La base a été construite à partir d’une population utilisant soit un produit de prévoyance individuelle packagé
avec des montants garantis élevés (destiné à protéger des patrons ou des directeurs indispensables au
fonctionnement d’une entreprise) soit un produit de prévoyance à la carte permettant un choix plus flexible
des garanties (destiné à la protection de travailleurs non-salariés tel que des infirmiers libéraux ou des
médecins indépendants).
Le but de la construction de la table était de la certifier pour son utilisation au sein de la population des
travailleurs non-salariés. Il a donc fallu, dans un premier temps, que l’on étudie si, au sein de ces produits, la
différence de comportement était réellement significative selon que l’on soit TNS ou Salarié.
L’indicateur qui a été retenu pour ce traitement est celui de la fiscalité du contrat. Bien que cela ne soit pas
toujours exacte il est d’usage que les non-salariés optent pour une fiscalité dite « Madelin » tandis que les
salariés, n’ayant pour leur part aucun choix, sont soumis à une fiscalité Non-Madelin.
Quelques mots sur la loi Madelin :
La loi n° 94-126 du 11 février 1994, dite « loi Madelin », reprise par l’article 154 bis du code général des impôts, permet aux travailleurs non-salariés (TNS) non agricoles de déduire de leur revenu imposable les cotisations versées chaque année au titre d’un contrat Madelin, afin de se constituer une retraite complémentaire ou acquérir des garanties de prévoyance et de santé, ou le versement d’indemnités en cas de perte d’emploi subie. Pour bénéficier des dispositions fiscales prévues par la loi « Madelin », les contrats d'assurances doivent être souscrits par une association. Pour adhérer à cette association, il faut exercer une activité non salariée non agricole. D’autre part, la loi prévoit que seules les sociétés d’assurances régies par le Code des assurances, les mutuelles régies par le Code de la mutualité et les caisses de retraite régies par le Code de la Sécurité sociale sont habilitées à gérer les contrats souscrits dans le cadre de la loi « Madelin ». Les contrats « Madelin » s’adressent aux personnes soumises à l’impôt sur le bénéfice industriel et commercial (BIC) ou sur le bénéfice non commercial (BNC) et affiliées au régime obligatoire maladie et vieillesse des TNS (non agricoles). La loi de finances rectificative pour 1995 a étendu ces dispositions aux conjoints collaborateurs. Elles s’appliquent aux cotisations versées depuis le 1er janvier 1996. Les détenteurs de contrats « Madelin » peuvent déduire du BIC ou BNC avant impôt les cotisations versées à condition que celles-ci soient versées régulièrement (chaque année), sous peine d’une reprise de l’avantage fiscal. Depuis l’année 2004, les plafonds de déductibilité sont les suivants : - pour la retraite, 10 % du revenu professionnel limité à 8 plafonds annuels de Sécurité sociale (PASS) majoré de 15 % du revenu compris entre 1 et 8, ou un forfait de 10 % du PASS ; - pour la prévoyance, 3,75 % du revenu professionnel augmenté de 7 % du PASS, le tout plafonné à 3 % de 8 PASS ; - pour la perte d’emploi subie, 1,875 % du revenu professionnel dans la limite de 8 PASS ou 2,5 % du PASS.
En contrepartie de la déductibilité, les indemnités journalières, celles versées en cas de perte d’emploi et les rentes sont imposables. En cas d’arrêt de travail, les indemnités journalières versées sont à réintégrer dans le revenu professionnel de l'année si l'activité professionnelle se poursuit. En cas d'arrêt de l'activité professionnelle, les indemnités journalières sont imposables à l'impôt sur le revenu après abattement de 10 %. Un contrat « Madelin » n’entre pas dans l’assiette de l’ISF. Les prestations versées dans le cadre de ces contrats peuvent recouvrir plusieurs aspects tels que : - le paiement d’indemnités journalières en cas d’arrêt de travail consécutif à une maladie ou une maternité ; - le paiement d’indemnités journalières ou le versement d’une rente en cas de perte d’emploi subie ; - le paiement de prestations en nature s’ajoutant à celles résultant d’un régime obligatoire ; - le versement d’une rente en cas de décès, d’invalidité ou de dépendance.
Au début une étude a été menée sur la population des assurés et des sinistrés sur l’ensemble des produits sans
se restreindre à une population de travailleurs non-salariés. Il était intéressant de déterminer si le fait d’être ou
pas un travailleur non salarié influait sur le comportement des assurés au niveau des sinistres.
Pour cela des tests d’indépendance du khi 2 ont été effectués pour étudier :
Au niveau de la base des contrats : l’influence du fait d’être ou pas un travailleur salarié sur le nombre
de contrats sinistrés et non sinistrés.
Au niveau de la base des sinistres : l’influence du fait d’être ou pas un travailleur salarié sur le nombre
de sinistres courts ou longs
Rappel sur le principe du Test d’indépendance du khi 2 :
On considère deux caractères A et B, quantitatifs ou qualitatifs. Le caractère A présente r modalités (r classes si A est quantitatif). Le caractère B présente s modalités (s classes si B est quantitatif).
Les effectifs conjoints sont répartis en rsk modalités ji BA
On souhaite tester l'hypothèse 0H : les caractères A et B sont indépendants, contre l'hypothèse 1H : les
caractères A et B ne sont pas indépendants.
On appelle ijN l'effectif observé de la modalité conjointe ji BA et ijn sa réalisation dans l'échantillon de
taille ji ijji ij nNn
,,étudié.
s
j
iji NN1
.
est l'effectif marginal de la modalité iA et
.in sa réalisation dans l'échantillon étudié ;
r
i
ijj NN1
. est l'effectif marginal de la modalité jB et jn. sa réalisation dans l'échantillon étudié.
On note ip la probabilité de la modalité
iA , et iq la probabilité de la modalité jB .
Sous l'hypothèse d'indépendance 0H , la probabilité de la modalité conjointe ji BA est jiqp et l'effectif
théorique espéré dans un échantillon de taille n est jiqnp .
Mais ip et
iq sont inconnus, il faut donc les estimer par n
Np i
i.ˆ et
n
Nq
j
j
.ˆ : l'effectif théorique espéré
est alors une variable aléatoireij
ijij
jiijC
CNqpnC
2)(ˆˆ
, qui prend, dans l'échantillon de taille n, la valeur
n
nnc
ji
ij
2
.. )( .
L'écart correspondant à la modalité ji BA estij
ijij
C
CN 2)( .
Il prend dans l'échantillon la valeur
n
nnn
nnn
dji
ji
ij
ij..
2..)(
et l'écart entre la distribution d'effectifs observés et
la distribution théorique espérée sous l'hypothèse d'indépendance est mesurée par la valeur
),(
..
2..)(
jiji
ji
ij
n
nnn
nnn
d de la fonction discriminantenD .
Ici, le nombre de paramètres estimés est )1()1( sr et le nombre de degrés de liberté est
11111 srsrrsv .
Si les conditions d'application sont vérifiées, la fonction discriminante suit une loi du Khi-deux à
11 srv degrés de liberté.
B A
1B … jB … sB Total
1A 111111 ;; dcn
…
jjj dcn 111 ;; …
sss dcn 111 ;;
sj
j
jnn1
1.1
… … … … … … …
iA
111 ;; iii dcn
…
ij
ijij
ij
ji
ijijc
cnd
n
nncn
2
.. )(;;
…
isisis dcn ;;
sj
j
iji nn1
.
… … … … … … …
rA 111 ;; rrr dcn
…
rjrjrj dcn ;; …
rsrsrs dcn ;;
sj
j
rjr nn1
.
Total
ri
i
inn1
11.
…
ri
i
ijj nn1
.
…
ri
i
iss nn1
. ),( ji ijnn
Les données et les calculs sont présentés dans un tableau à r + 2 lignes et s + 2 colonnes : — dans la première colonne, figurent les modalités du caractère A ; dans la première ligne, figurent les modalités du caractère B ; — dans la dernière ligne, figurent les effectifs marginaux des modalités de B ; dans la dernière colonne, figurent les effectifs marginaux des modalités d’A ;
— dans chaque case du tableau de contingence restant figurent : les effectifs observés ijn , les effectifs
théoriques espérés ijc , les écarts ijd correspondants.
Connaissant le niveau α du test, on peut calculer la valeur critique denD , à laquelle on compare la valeur
observée ijdd denD . On peut aussi calculer, à partir de la valeur observée d de
nD , la probabilité critique,
qui permet d'apprécier la crédibilité de l'hypothèse0H .
Pour mettre les tests statistiques en place, il a fallu prendre en compte le fait qu’il y a eu une migration du
système de traitement des données à la fin de l’année 2008.
Lors de cette migration, seuls les sinistres encore ouverts à ce moment ont été reportés. Les autres sinistres
ont disparu de la base de données. Cela entraine une dissymétrie de nos données puisque, pour les années de
survenance antérieures à 2008, seule une partie des sinistres est réellement connue.
Pour effectuer des tests cohérents, la base contrats a donc été réduite aux années d’effet de contrat comprises
entre 2009 et 2012. De même nous avons réduit notre base « sinistres » aux années de survenance comprises
entre 2009 et 2012.
a. Influence de la catégorie salariale sur le nombre de contrats sinistrés/non-sinistrés.
Dans un premier temps un test d’indépendance du khi 2 nous a permis de constater que le fait d’être un contrat sinistré ou non était largement dépendant de la catégorie salariale de notre assuré. Ce test a été effectué à l’aide du logiciel SAS. La base utilisée est notre base contrats à date d’effet comprise entre 2009 et 2012 à laquelle nous avons ajouté un indicateur disant si le contrat a été ou pas sinistré. Les résultats SAS de notre test sont les suivants :
Table de Catégorie salariale par Indicateur de Sinistralité
Indicateur de Sinistralité Total
Non Sinistré Sinistré
Catégorie salariale
8737 1062 9799
Travailleur Salarié
Fréquence
Attendu 8910.5 888.5
Ecart -173.5 173.5
Khi-2 par cellule 3.3781 33.878
Pourcentage 15.76 1.92 17.67
Pctage en ligne 89.16 10.84
Pctage en col. 17.33 21.12
Travailleur non salarié
Fréquence 41687 3966 45653
Attendu 41514 4139.5
Ecart 173.5 -173.5
Khi-2 par cellule 0.7251 7.2716
Pourcentage 75.18 7.15 82.33
Pourcentage en ligne 91.31 8.69
Pourcentage en col. 82.67 78.88
Total Fréquence 50424 5028
Pourcentage 90.93 9.07 100.00
Pour un niveau d’erreur de 5%, notre p-value est nettement inférieure à 0.05 et nous permet donc très largement de rejeter le test d’indépendance de nos variables. Cela nous indique que le fait d’être sous un travailleur salarié, influe de façon positive sur l’évolution du nombre de sinistres. Les salariés ont donc une tendance à consommer davantage. Puisque l’on cherche à certifier une nouvelle table pour le provisionnement des TNS, il semble mieux d’éliminer les salariés dont le comportement en termes de nombres de sinistres pourrait éventuellement influer sur les taux. Pour approfondir cette étude, il a semblé utile d’étudier si le fait d’être sous un travailleur salarié ou pas influait sur la durée des sinistres observés.
b. Influence de la catégorie salariale sur la durée des sinistres
Un second test d’indépendance du khi 2 a permis de constater que la durée des sinistres était dépendante de la classe salariale de l’assuré. En effet, nous considérons ici qu’un sinistre court correspond à un sinistre qui dure moins de 12 mois et un
sinistre long plus de 12 mois. Cela permet d’avoir un domaine de comparaison des sinistres qui est le même
peu importe l’année de survenance.
Il était impossible de considérer notre variable numérique de durée du sinistre puisque nous travaillons sur des
années de survenance différentes. Pour 2009 par exemple le sinistre le plus long peut avoir atteint 3 ans tandis
que pour les sinistres survenus en 2012, la durée maximale que l’on peut observer est d’un an.
Ce test a été effectué à l’aide du logiciel SAS.
La base utilisée est notre base « sinistres » pour des années de survenance comprises entre 2009 et 2012 à
laquelle nous avons ajouté l’indicateur de fiscalité permettant de déterminer la catégorie salariale.
Les résultats SAS de notre test sont les suivants :
Table de Catégorie salariale par Classe de sinistre
Classe de sinistre Total
Sinistre Court Sinistre long
Catégorie salariale
1798 167 1965
Travailleur salarié
Fréquence
Attendu 1848.4 116.61
Ecart -50.39 50.389
Khi-2 par cellule 1.3736 21.773
Pourcentage 16.24 1.51 17.75
Pctage en ligne 91.50 8.50
Pctage en col. 17.27 25.42
Travailleur non salarié
Fréquence 8616 490 9106
Attendu 8565.6 540.39
Ecart 50.389 -50.39
Khi-2 par cellule 0.2964 4.6985
Pourcentage 77.82 4.43 82.25
Pctage en ligne 94.62 5.38
Pctage en col. 82.73 74.58
Total Fréquence 10414 657 11071
Pourcentage 94.07 5.93 100.00
Statistique DDL Valeur Prob
Chi-Square 1 45.2525 <.0001
Likelihood Ratio Chi-Square 1 43.3653 <.0001
Continuity Adj. Chi-Square 1 44.9920 <.0001
Mantel-Haenszel Chi-Square 1 45.2517 <.0001
Phi Coefficient -0.0286
Contingency Coefficient 0.0286
Cramer's V -0.0286
Fisher's Exact Test
Cell (1,1) Frequency (F) 8737
Left-sided Pr <= F 2.518E-11
Right-sided Pr >= F 1.0000
Table Probability (P) 5.581E-12
Two-sided Pr <= P 4.736E-11
1,53 1,95 2,59
5,16 6,8
8,61
11,37 13,03
12,01 10,67 10,74
12,8
2001 2002 2003 2004 2005 2006 2007 2008 2009 2010 2011 2012
Répartition des années d'effet de contrat sur le portefeuille des contrats TNS
Année d’effet du contrat
0 0,03 1,03 5,7 5,95 6,82 8,62 6,24 0
65,6
2006 2007 2008 2009 2010 2011 2012 2013 2014 2016
Répartition des années de sortie de contrat sur le portefeuille des contrats TNS
Année de sortie du contrat
Pour un niveau d’erreur de 5%, notre p-value est nettement inférieure à 0.05 et nous permet donc très largement de rejeter le test d’indépendance de nos variables. Cela nous indique que le fait d’être un travailleur salarié influe de façon positive sur la durée des sinistres. Les salariés ont donc une tendance à rester davantage en arrêt. Cela nous conforte dans la décision d’éliminer les salariés de notre base et d’utiliser uniquement la population des travailleurs non-salariés même si cela nous résout à conserver moins de données. La décision est donc de garder uniquement les Travailleurs non-salariés
II. Etude de la base des contrats travailleurs non-salariés Avant de se lancer dans la construction de notre table, nous avons tenu à étudier de façon détaillée la composition de notre base pour savoir comment
Nuancer et appréhender les futurs résultats des taux Donner une idée d’ajustement de la table lorsque l’on provisionne Donner une idée sur la direction à prendre lorsque l’on fait un travail de re-tarification des produits Envisager des directions pertinentes lorsque l’on travaille sur les tarifs théoriques d’un nouveau
produit.
a. Etude de notre portefeuille de contrats
Nous commençons par étudier notre base portefeuille de contrats.
1. Quelques statistiques descriptives de base du portefeuille contrats :
Statistique DDL Valeur Prob
Chi-Square 1 28.1418 <.0001
Likelihood Ratio Chi-Square 1 25.7117 <.0001
Continuity Adj. Chi-Square 1 27.5861 <.0001
Mantel-Haenszel Chi-Square 1 28.1392 <.0001
Phi Coefficient -0.0504
Contingency Coefficient 0.0504
Cramer's V -0.0504
Fisher's Exact Test
Cell (1,1) Frequency (F) 1798
Left-sided Pr <= F 2.437E-07
Right-sided Pr >= F 1.0000
Table Probability (P) 9.723E-08
Two-sided Pr <= P 3.849E-07
La répartition du portefeuille semble cohérente avec les études déjà effectuées au sein de Generali les années précédentes et avec la réalité de l’entreprise. En effet, les produits Y sont accessibles à une population plus large que celle des produits X d’où l’importance de ce nombre de contrat par rapport au produit X. De même on observe une faible population féminine dans notre portefeuille qui concerne des produits pour travailleurs non-salariés. Cette population concerne encore une majorité d’hommes.
Femme 32%
Homme 68%
Répartition du genre sur le portefeuille de contrats TNS
Y 62%
X 38%
Répartition des produits sur le portefeuille des contrats TNS
18,66 26,3
17,34 10,6 11,76 9,34 6
Y10 YF YO X07 X08 XFA XFE
Répartition détaillée des produits sur le portefeuille des contrats TNS
Code Produit détaillé
2. Etudes des facteurs influents sur le nombre de sinistres
Nous avons ensuite voulu déterminer quels facteurs influaient sur le fait qu’un contrat soit sinistré ou pas. Nous avons donc effectué des tests d’indépendance du khi 2 et des tests de Student de comparaison de moyennes.
i. Influence de l’année d’effet de contrats sur le nombre de sinistres
On a constaté, en étudiant l’influence de l’année d’effet du contrat, que cette donnée semble avoir un impact
sur le nombre de sinistres.
En effet on remarque que pour les années d’effet 2009 et 2010 le nombre de sinistres semble significativement
élevé par rapport à ce que l’on aurait pu attendre s’il y avait indépendance. La p-value du test est largement
inférieure à 0.05 ce qui nous permet de rejeter sans mal l’hypothèse d’indépendance.
Ceci peut s’expliquer par l’arrivée du nouveau produit Y10 qui a été créé en 2010. Les répercussions de ce
produit qui se veut meilleur que ces prédécesseurs, ne peuvent se faire sentir qu’à partir de l’année 2011. De
plus, la jeunesse de ce produit ne permet pas de l’étudier à son « rythme de croisière ». +On peut également
émettre l’hypothèse qu’il s’agit de facteurs extérieurs à l’entreprise et que les années 2009 et 2010 étaient des
années particulièrement sinistrées.
Table de l’année d’effet du contrat par Indicateur de Sinistralité
Indicateur de Sinistralité
Total Non Sinistré Sinistré
Année d’effet du contrat
2009
Fréquence 10225 1635 11860
Attendu 10830 1030,3
Ecart -604,7 604,69
Khi-2 par cellule 33,764 354,89
Pourcentage 22,4 3,58 25,98
Pctage en ligne 86,21 13,79
Pctage en col 24,53 41,23
2010
Fréquence 9305 1237 10542
Attendu 9626,2 915,81 Ecart -321,2 321,19 Khi-2 par cellule 10,717 112,64 Pourcentage 20,38 2,71 23,09
Pctage en ligne 88,27 11,73 Pctage en col 22,32 31,19
2011
Fréquence 9848 758 10606
Attendu 9684,6 921,37 Ecart 163,37 -163,4 Khi-2 par cellule 2,756 28,968 Pourcentage 21,57 1,66 23,23
Pctage en ligne 92,85 7,15 Pctage en col 23,62 19,11
2012
Fréquence 12309 336 12645
Attendu 11546 1098,5 Ecart 762,51 -762,5 Khi-2 par cellule 50,354 529,28 Pourcentage 26,96 0,74 27,7
Pctage en ligne 97,34 2,66 Pctage en col 29,53 8,47
Total Fréquence 41687 3966 45653
Pourcentage 91,31 8,69 100
Statistique DDL Valeur Prob
Chi-Square 3 1123,3741 <0001
Likelihood Ratio Chi-Square 3 1259,1243 <0001
Mantel-Haenszel Chi-Square 1 1097,5837 <0001
Phi Coefficient 0,1569
Contingency Coefficient 0,155
Cramer's V 0,1569
ii. Influence des produits sur le nombre de sinistre
Table de Code produit détaillé par Indicateur de Sinistralité
Indicateur de Sinistralité
Total Pas Sinistré Sinistré
Code produit détaillé
17465 966 18431 Y10 Fréquence
Attendu 16830 1601,2 Ecart 635,15 -635,2 Khi-2 par cellule 23,97 251,95 Pourcentage 38,26 2,12 40,37
Pctage en ligne 94,76 5,24 Pctage en col 41,9 24,36 YO Fréquence 13742 2300 16042
Attendu 14648 1393,6 Ecart -906,4 906,39 Khi-2 par cellule 56,084 589,5 Pourcentage 30,1 5,04 35,14
Pctage en ligne 85,66 14,34 Pctage en col, 32,96 57,99 X08 Fréquence 10480 700 11180
Attendu 10209 971,24 Ecart 271,24 -271,2 Khi-2 par cellule 7,2065 75,748 Pourcentage 22,96 1,53 24,49
Pctage en ligne 93,74 6,26 Pctage en col 25,14 17,65 Total Fréquence 41687 3966 45653
Pourcentage 91,31 8,69 100
On constate que la nouvelle génération de produits (Y10) est sensiblement moins sinistrée que l’ancienne (YO). Ce qui est une bonne chose en soit mais ce qui n’explique pas que l’on observe des S/P instables et croissantes sur ce produit. De même, le produit X08 semble meilleur en terme de sinistralité.
iii. Influence du sexe sur le nombre de sinistre
Table de Sexe par Indicateur de Sinistralité
Indicateur de Sinistralité
Total Non Sinistré Sinistré
Sexe
14484 1804 16288
Femme
Fréquence
Attendu 14873 1415 Ecart -389 389,02 Khi-2 par cellule 10,175 106,95 Pourcentage 31,73 3,95 35,68
Pctage en ligne 88,92 11,08 Pctage en col 34,74 45,49
Homme
Fréquence 27025 2148 29173
Attendu 26639 2534,3 Ecart 386,34 -386,3 Khi-2 par cellule 5,603 58,894 Pourcentage 59,2 4,71 63,9
Pctage en ligne 92,64 7,36 Pctage en col 64,83 54,16 Pctage en col 0,43 0,35
Total Fréquence 41687 3966 45653
Pourcentage 91,31 8,69 100
Statistique DDL Valeur Prob
Chi-Square 2 1004,4666 <,0001
Likelihood Ratio Chi-Square 2 957,9891 <,0001
Mantel-Haenszel Chi-Square 1 58,6609 <,0001
Phi Coefficient 0,1483
Contingency Coefficient 0,1467
Cramer's V 0,1483
Ce résultat est en accord avec les résultats observés jusqu’à présent sur le portefeuille. On constate que le sexe
semble influer de façon significative le nombre de sinistres.
Les femmes semblent être plus promptes à avoir des sinistres que les hommes. Toutes nos p-value confirment
ce raisonnement.
iv. Répartition femme/hommes sur les types de contrats Table de Sexe par Etat du Contrat
Etat du Contrat
Total Contrat clos Contrat ouvert
Sexe
8560 22382 30942
Femmes
Fréquence
Attendu 8713,4 22229
Ecart -153,4 153,44
Khi-2 par cellule 2,702 1,0592
Pourcentage 8,67 22,66 31.32
Pctage en ligne 27,66 72,34
Pctage en col, 30,77 31,54
Hommes
Fréquence 19183 45833 65016
Attendu 18309 46707
Ecart 874,13 -874,1
Khi-2 par cellule 41,734 16,359
Pourcentage 19,42 46,4 65.82
Pctage en ligne 29,51 70,49
Pctage en col, 68,96 64,59
On constate qu’il y a une proportion de femmes un peu plus élevée que celle attendue en cas d’indépendance. Cela laisse présager que les femmes auront une plus grande tendance à être sur des contrats ouverts que sur des contrats fermés. Cela peut s’expliquer par le fait que la population des travailleurs non-salariés (longtemps concernée par la gente masculine) se féminise aujourd’hui ou que nos produits ont tendance aujourd’hui à attirer davantage de femmes.
v. Etude de l’âge moyen sur les contrats ouverts
Un test de Student a été réalisé pour comparer les moyennes d’âge entre les contrats sinistrés et les non
sinistrés. Cela a permis de mettre en évidence la significativité de cette différence d’âge.
En effet, comme nous l’indiquent les résultats ci-dessous, les individus sinistrés semblent plus âgés que les non
sinistrés.
Indicateur de Sinistralité Method Mean 95% CL Mean
Non Sinistré 45.1772 45.1012 45.2532
Sinistré 46.8379 46.6422 47.0336
Diff (1-2) Pooled -1.6607 -1.8660 -1.4554
Diff (1-2) Satterthwaite -1.6607 -1.8706 -1.4508
Method Variances DF Valeur du test t Pr > |t|
Pooled Equal 70961 -15.86 <.0001
Satterthwaite Unequal 12943 -15.51 <.0001
Le même test de Student a été effectué pour comparer les âges par produit et par genre.
Statistique DDL Valeur Prob
Chi-Square 2 182,0948 <,0001
Likelihood Ratio Chi-Square 2 176,7845 <,0001
Mantel-Haenszel Chi-Square 1 178,9993 <,0001
Phi Coefficient 0,0632
Contingency Coefficient 0,063
Cramer's V 0,0632
Variable d'analyse : âge
Produit N Obs N Moyenne Ecart-type Minimum Maximum
Y 43742 43742 42.0105391 9.1316199 16.0000000 70.0000000
X 27221 27221 50.8642959 7.7618689 22.0000000 113.0000000
Lorsque l’on observe le résultat ici, on constate que l’âge moyen est bien plus élevé chez le produit X que chez le produit Y. On pourrait donc s’attendre à ce qu’il y ait davantage de sinistrés chez le produit X. Cependant, cette tendance pourrait aussi se compenser par le fait par exemple que les individus optant pour le produit X soient moins prompts à s’arrêter du fait de leur rôle majeur dans leur entreprise. Sexe N Obs N Moyenne Ecart-type Minimum Maximum
Femme 22382 22382 43.1637923 9.8355486 16.0000000 113.0000000
Homme 45833 45833 46.2982567 9.4072152 19.0000000 73.0000000
On constate que l’âge moyen des femmes est plus faible que celui des hommes. Cela laisserait penser que les hommes sont plus sinistrés que les femmes mais l’étude qui a été faite précédemment montre le contraire. Le critère « femme » semble donc contrebalancer celui de l’âge.
b. Etude de notre portefeuille de sinistres
1. Quelques statistiques descriptives de base du portefeuille :
Femme 38%
Homme 62%
Répartition du genre sur le portefeuille des sinistres
1,52
8,34
12,22 13,77 14,92
16,76 16,15
12,32
4,01
[-;25] [25;30] [30;35] [35;40] [40;45] [45;50] [50;55] [55;60] [60;+]
Répartition des classes d’âge de survenance sur le portefeuille des sinistres
Classe d’âge de survenance
La répartition du portefeuille « Sinistres » est cohérente avec les résultats jusqu’ici observés au sein du service. On constate que l’on a davantage d’hommes sinistrés que de femmes (en nombre) bien que la fréquence de femmes sinistrées est significativement plus élevée que celle des hommes (d’après le test d’indépendance du khi 2 vu précédemment).
On s’est intéressé à la variable « mois de survenance » car une étude de la périodicité des sinistres paraissait intéressante au vu de l’allure observée des S/P. A première vue, la répartition semble plutôt équilibrée. Dans la partie qui suit, une étude sera faite sur l’influence que peut avoir ou pas cette variable sur la durée des sinistres. On commence par l’étude de la variable « Année de survenance ».
0,01 0,01 0,01 0,13 0,41
4,23
20,5 22,94
25,39 26,36
2001 2004 2005 2006 2007 2008 2009 2010 2011 2012
Répartition des années de survenance de sinistres
Année de survenance
9,39 8,43 8,36
6,88 7,18 7,66 8,49
7,05 8,32
9 9,55 9,68
1 2 3 4 5 6 7 8 9 10 11 12
Répartition des mois de survenance de sinistres
Mois de survenance
2. Etudes des facteurs d’influence sur la durée du sinistre
i. Etude influence année de survenance sur la durée du sinistre
Table de l’année de survenance par Classe de sinistre
Classe de sinistre
Total Sinistre Court Sinistre long
Année de survenance
2703 148 2851 2009 Fréquence
Attendu 2690,2 160,8
Ecart 12,804 -12,8
Khi-2 par cellule 0,0609 1,0196
Pourcentage 28,23 1,55 29,78
Pctage en ligne 94,81 5,19
Pctage en col 29,92 27,41
2010 Fréquence 3009 182 3191
Attendu 3011 179,98
Ecart -2,019 2,0188
Khi-2 par cellule 0,0014 0,0226
Pourcentage 31,43 1,9 33,33
Pctage en ligne 94,3 5,7
Pctage en col, 33,31 33,7
2011 Fréquence 3322 210 3532
Attendu 3332,8 199,21
Ecart -10,79 10,785
Khi-2 par cellule 0,0349 0,5839
Pourcentage 34,7 2,19 36,89
Pctage en ligne 94,05 5,95
Pctage en col, 36,77 38,89
Total Fréquence 9034 540 9574
Pourcentage 94,36 5,64 100
Statistics for Table of Année de survenance by Classe de sinistre
Statistique DDL Valeur Prob
Chi-Square 2 1,7233 0,4225 Likelihood Ratio Chi-Square 2 1,7411 0,4187
Mantel-Haenszel Chi-Square 1 1,6504 0,1989
Phi Coefficient 0,0134
Contingency Coefficient 0,0134
Cramer's V 0,0134
Le test sur la dépendance entre le fait d’avoir un sinistre long et l’année de survenance de ce sinistre ne semble
pas conclure à une dépendance.
On peut considérer qu’il s’agit là d’une bonne chose puisque l’on construira la table d’incapacité pour une
utilisation continue.
Il est bon de constater qu’au fil des dernières années le comportement des sinistrés n’a pas énormément
évolué. Cela est un point qui rassure puisque bien que l’on ait constaté précédemment que la fréquence de
sinistres était significativement plus élevée sur certaines années, cela ne viendra finalement pas biaiser les
durées de maintien et les estimateurs des taux de sortie.
ii. Etude de l’influence du type de produit sur la durée des sinistres :
Table de Produit par Classe de sinistre
Classe de sinistre
Total Sinistre Court Sinistre long
Produit
5891 328 6219 Y Fréquence
Attendu 5868,2 350,77
Ecart 22,769 -22,77
Khi-2 par cellule 0,0883 1,4779
Pourcentage 61,53 3,43 64,96
Pctage en ligne 94,73 5,27
Pctage en col 65,21 60,74
X Fréquence 3143 212 3355
Attendu 3165,8 189,23
Ecart -22,77 22,769
Khi-2 par cellule 0,1638 2,7396
Pourcentage 32,83 2,21 35,04
Pctage en ligne 93,68 6,32
Pctage en col, 34,79 39,26
Total Fréquence 9034 540 9574
Pourcentage 94,36 5,64 100
On constate que les p-value ne permettent pas de se placer à un niveau de confiance de 0.01 % d’erreur si l’on rejette l’hypothèse d’indépendance. En contrepartie si l’on se place sur un test avec une marge d’erreur acceptable de 5%, on conclut qu’il y a dépendance entre le produit souscrit et la durée du sinistre. Les sinistrés concernés par le produit X auraient une tendance plus forte à avoir un sinistre long. Cette donnée peut être utile si l’on souhaite faire des ajustements lorsque l’on provisionne les sinistres liés à ces deux produits.
iii. Etudes de la durée des sinistres sur la base des sinistres clos :
Variable : mois de survenance
Classe du sinistre
Total Sinistre Court Sinistre long
Mois de survenance
1
Fréquence 873 45 918
Attendu 882.8 35.202
Ecart -9.798 9.7976
Khi-2 par cellule 0.1087 2.7269
Pourcentage 9.30 0.48 9.78
Pctage en ligne 95.10 4.90
Pctage en col 9.67 12.50
2
Fréquence 804 26 830
Attendu 798.17 31.828
Ecart 5.8279 -5.828
Khi-2 par cellule 0.0426 1.0671
Pourcentage 8.56 0.28 8.84
Pctage en ligne 96.87 3.13
Pctage en col 8.91 7.22
3
Fréquence 793 32 825
Attendu 793.36 31.636
Ecart -0.364 0.3639
Khi-2 par cellule 0.0002 0.0042
Pourcentage 8.45 0.34 8.79
Pctage en ligne 96.12 3.88
Statistics for Table of Produit by Classe de sinister
Statistique DDL Valeur Prob
Chi-Square 1 4,4696 0,0345
Likelihood Ratio Chi-Square 1 4,3993 0,036 Continuity Adj, Chi-Square 1 4,2755 0,0387 Mantel-Haenszel Chi-Square 1 4,4692 0,0345
Phi Coefficient 0,0216
Contingency Coefficient 0,0216
Cramer's V 0,0216
Pctage en col. 8.78 8.89
4
Fréquence 634 19 653
Attendu 627.96 25.04
Ecart 6.0405 -6.04
Khi-2 par cellule 0.0581 1.4571
Pourcentage 6.75 0.20 6.96
Pctage en ligne 97.09 2.91
Pctage en col. 7.02 5.28
5
Fréquence 671 28 699
Attendu 672.2 26.804
Ecart -1.196 1.1956
Khi-2 par cellule 0.0021 0.0533
Pourcentage 7.15 0.30 7.45
Pctage en ligne 95.99 4.01
Pctage en col. 7.43 7.78
6
Fréquence 710 25 735
Attendu 706.82 28.185
Ecart 3.1849 -3.185
Khi-2 par cellule 0.0144 0.3599
Pourcentage 7.56 0.27 7.83
Pctage en ligne 96.60 3.40
Pctage en col. 7.86 6.94
7
Fréquence 778 41 819
Attendu 787.59 31.406
Ecart -9.594 9.5939
Khi-2 par cellule 0.1169 2.9308
Pourcentage 8.29 0.44 8.72
Pctage en ligne 94.99 5.01
Pctage en col. 8.62 11.39
8
Fréquence 641 26 667
Attendu 641.42 25.577
Ecart -0.423 0.4227
Khi-2 par cellule 0.0003 0.007
Pourcentage 6.83 0.28 7.10
Pctage en ligne 96.10 3.90
Pctage en col. 7.10 7.22
9
Fréquence 720 26 746
Attendu 717.39 28.607
Ecart 2.6067 -2.607
Khi-2 par cellule 0.0095 0.2375
Pourcentage 7.67 0.28 7.95
Pctage en ligne 96.51 3.49
Pctage en col. 7.98 7.22
10
Fréquence 782 31 813
Attendu 781.82 31.176
Ecart 0.176 -0.176
Khi-2 par cellule 3,96E-05 0.001
Pourcentage 8.33 0.33 8.66
Pctage en ligne 96.19 3.81
Pctage en col. 8.66 8.61
11
Fréquence 816 29 845
Attendu 812.6 32.403
Ecart 3.4031 -3.403
Khi-2 par cellule 0.0143 0.3574
Pourcentage 8.69 0.31 9.00
Pctage en ligne 96.57 3.43
Pctage en col. 9.04 8.06
12
Fréquence 806 32 838
Attendu 805.87 32.135
Ecart 0.1346 -0.135
Khi-2 par cellule 2,25E-05 0.0006
Pourcentage 8.59 0.34 8.93
Pctage en ligne 96.18 3.82
Pctage en col. 8.93 8.89
Total Fréquence 9028 360 9388
Pourcentage 96.17 3.83 100.00
Statistics for Table of mois de survenance by Classe de sinistre
Statistique DDL Valeur Prob
Chi-Square 11 9.5698 0.5695
Likelihood Ratio Chi-Square 11 9.3277 0.5917
Mantel-Haenszel Chi-Square 1 0.2297 0.6318
Phi Coefficient 0.0319
Contingency Coefficient 0.0319
Cramer's V 0.0319
Le test de khi 2 permet largement d’accepter l’hypothèse H0 d’indépendance. On constate donc qu’il n’y a pas de périodicité sur les sinistres. Variable : Age à la survenance du sinistre
Classe de sinistre Method Mean 95% CL Mean Std Dev 95% CL Std Dev
Sinistre Court 44.2691 44.0631 44.4750 9.9812 9.8377 10.1290
Sinistre long 48.4000 47.5327 49.2673 8.3677 7.7978 9.0280
Diff (1-2) Pooled -4.1309 -5.1765 -3.0854 9.9243 9.7844 10.0684
Diff (1-2) Satterthwaite -4.1309 -5.0222 -3.2397
Method Variances DF Valeur du test t Pr > |t|
Pooled Equal 9386 -7.74 <.0001
Satterthwaite Unequal 400.84 -9.11 <.0001
Ici le test de Student réalisé permet de comparer les moyennes d’âge de survenance entre les sinistres courts
et les sinistres longs. Le test d’égalité est largement validé. La p-value est nettement inférieure à 0.0001, la
marge d’erreur est donc très faible. On remarque donc que les sinistres longs touchent une population
globalement plus âgée que celle touchée par les sinistres plus courts.
Cette tendance sera logiquement reflétée lors de la création de la table d’expérience où l’on prendra en
compte l’âge de l’assuré pour déterminer les probabilités de sortie.
III. Synthèse de la partie C
Les études statistiques effectuées sur les données sont cohérentes avec les résultats d’études faites les années
antérieures. Elles informent sur les caractéristiques propres à la population TNS qui utilise les produits
proposés par GENERALI.
Au regard de ces études, on pressent certaines problématiques liées au fait de l’existence de plusieurs
générations de produits dont l’âge plus ou moins récent viennent interférer sur les comportements des assurés
et dont la maturité ne permet pas nécessairement une étude approfondie.
Les tests du Khi 2 et de Student effectués ont permis de mettre en évidence certains facteurs influant sur la
sinistralité et sur la durée du sinistre.
Ces données peuvent être alors utiles si l’on envisage un ajustement des provisions en fonction des facteurs
influents.
Toujours dans l’idée d’ajuster un provisionnement ou une tarification de produit, on s’est intéressé à l’individu
TNS à proprement parlé. La question s’est posée de savoir plus exactement qui est le TNS. Outre le fait qu’il
s’agisse d’un travailleur non salarié, le TNS englobe une population qui semble au premier abord très éparse
puisqu’elle rassemble dans un même groupe l’ingénieur informatique indépendant, le médecin et le
mécanicien. Il a donc semblé intéressant de s’intéresser à la façon dont sont regroupés les individus à
l’intérieur de ce groupe et si ces regroupements ont un impact quelconque sur les durées de maintien en
incapacité.
Pour cela, un modèle de Cox a été mis en place permettant à la fois de déterminer l’influence de ces
regroupements mais aussi de proposer un modèle de durée prenant directement en compte cet impact.
Dans un premier temps, on étudie deux modèles d’estimations paramétriques qui sont des méthodes
classiques généralement utilisées pour la problématique propre à ce mémoire.
D. Méthode d’estimation des taux de maintien : Kaplan Meier et
Influence des lissages
Notions de base et introduction au modèle de durée
On considère une variable aléatoire T à valeurs dans ,0 , et on note dans la suite )()( tTPtF sa
fonction de répartition (continue à droite).
Lorsque la densité deT existe, on la notera :
h
htTtPtF
dt
dtf
h
)(lim)()(
0
.
La fonction de Survie
La fonction de survie est par définition le complément de la fonction de répartition :
)()(1)( tTPtFtS
S est donc une fonction décroissante telle que 1)0( S (si 0)0( TP , ce que nous supposerons) et
0)(lim
tSt
.
Si la durée moyenne de survie existe alors elle s’exprime simplement à l’aide de S :
000
)()()()( dttSttdSttdFTE
La fonction de survie conditionnelle
On pose tout d’abord )()( uTtuTPtS u la fonction de survie conditionnelle ; on s’intéresse donc
à la survie d’un élément après un instant tu , sachant qu’il a déjà fonctionné correctement jusqu’en u .
En revenant à la définition de la probabilité conditionnelle on peut écrire :
)(
)(
)(
)()()(
uS
tuS
uTP
utTPuTtuTPtS u
La fonction de survie conditionnelle s’exprime donc simplement à l’aide de la fonction de survie.
Méthode d'estimation des qx bruts : Kaplan Meier
méthode 1 de lissage appliquée Méthode des splines
méthode 2 de lissage appliquée Méthode de Whittaker Henderson / lissage vertical =1 et lissage horizontal =3
méthode 3 de lissage appliquée Méthode de Whittaker Henderson / lissage vertical =2et lissage horizontal =3
méthode 1 d'ajustement logistique Méthode d'ajustement logistique avec méthode des moindres carrés ordinaires
méthode 2 d'ajustement logistique Méthode d'ajustement logistique avec méthode des moindres carrés pondérés
La fonction de hasard
La fonction de hasard (ou taux de panne, taux de défaillance, taux de décès, risque instantané, etc.) est par
définition : ))(ln()(
)(
)(
)()( tS
dt
d
tS
tS
tS
tfth
Il en résulte directement que la fonction de hasard détermine entièrement la loi de T et qu’on a la relation
suivante : ))(exp()(0
t
dsshtS
On note en général t
dsshtH0
)()( la « fonction de hasard cumulée », qui est telle que
)(exp)( tHtS .
H est évidemment croissante. On utilise dans certains tests d’adéquation le fait que )(TH suit une loi
exponentielle de paramètre 1.
Cette propriété découle de :
)exp()((exp)()())(( 111 xxHHxHSxHTPxTHP
D’après la définition de la fonction de survie conditionnelle et la formule ci-dessus on obtient :
tu
u
u dsshts )(exp)(
Cela revient à dire que la fonction de hasard de la survie conditionnelle au fait d’être en fonctionnement à la
date u est )( tuht .
On en déduit en particulier que la fonction de hasard est croissante si et seulement si la durée de vie résiduelle après u est stochastiquement décroissante comme fonction de u .
C’est souvent la fonction de hasard qui est utilisée pour spécifier un modèle de durée. Elle a en effet une interprétation « physique » ; en utilisant la définition de la fonction de hasard et de la
fonction de survie on peut écrire :
u
tTutTtP
tuS
utTtPth
uu
)(lim
)(
)(lim)(
00
ce qui signifie que pour de « petites » valeurs de u , uth )( est approximativement la probabilité que le
composant tombe en panne entre t et ut , sachant qu’il est en fonctionnement en t .
En d’autres termes :
dtthtTdttTtP )()(
Variables discrètes
Si la variable aléatoire T prend des valeurs entières, sa distribution est décrite par les
0),( kpourkTPpk
La fonction de survie s’écrit simplement :
1
)(km
mpkS
L’interprétation de la fonction de hasard donnée ci-dessus conduit naturellement à poser dans le cas discret :
)1()1()(
kS
pkTktPkh k
La fonction de hasard au point k s’interprète donc comme le taux de sortie au moment k.
De l’expression ci-dessus on tire que )1(
)()(1
kS
kSkh ,
puis, par récurrence :
k
m
mhkS1
)(1)(
I. Construction des taux de sorties bruts (qx) par Kaplan Meier
a. Description de la méthode
(Source : Modèles de Durée, Applications actuarielles, Frédéric Planchet et Pierre Thérond)
Plusieurs méthodes de construction de xq bruts existent.
La première à avoir été testée, est la plus utilisée dans le monde de l’actuariat. Il s’agit de la méthode de Kaplan
Meier qui est un estimateur non-paramétrique.
On va calculer la probabilité de sortie au moment t en regardant le comportement des individus sur l’intervalle
1, tt .
On cherche les taux de sortie par mois de maintien. Pour cela, on va raisonner par jour et on va considérer,
pour un âge fixe x, maa ,...,1 l’ensemble de jours compris dans l’intervalle 1, tt .
On appelle alors:
in : le nombre d’individus d’âge x encore en arrêt au moment ia
1id : le nombre de sorties au moment ia .
1ic : le nombre d’individus censurés en ia .
1iz : le nombre d’individus tronqués au cours du mois t .
1111 iiiii zcdnn *
L’expression du qx brut pour l’âge x et au moment t est alors est alors la suivante :
)1(1),(ˆ1
m
i i
i
n
dtxq
Au vue de notre manque d’exposition pour certains âges, on a procédé à un regroupement des âges.
On a donc calculé les xq bruts de Kaplan Meier pour les âges :
[19 – 30] (regroupés)
[31 – 35] (regroupés)
pour chaque âge entre 36 et 60 ans
[61 – 65] (regroupés)
A la fin de nos calculs on a donc nos xq bruts tels que, t ,:
- ),30(ˆ),29(ˆ),28(ˆ),27(ˆ),26(ˆ),25(ˆ),24(ˆ),23(ˆ),22(ˆ),21(ˆ),20(ˆ),19(ˆ tqtqtqtqtqtqtqtqtqtqtqtq xxxxxxxxxxxx
- ),35(ˆ),34(ˆ),33(ˆ),32(ˆ),31(ˆ tqtqtqtqtq xxxxx
- ),65(ˆ),64(ˆ),63(ˆ),62(ˆ),61(ˆ tqtqtqtqtq xxxxx
b. Résultat graphique
Voici une représentation graphique des xq bruts obtenus
Les xq bruts qui ressortent de ce modèle sont très erratiques et nécessitent qu’on les harmonise par une
méthode de lissage.
Plusieurs méthodes de lissage des xq ont été testées.
Pour chacune des méthodes de lissage testée sur les xq bruts, on obtient des
xq lissés que l’on appellera
finalq et à partir desquels on crée une nouvelle table de xl telle que :
)),(1(*),()1,(
10000)0,(
txqtxltxl
xl
finalxx
x
Pour les âges entre 16 et 18 ans il n’y a pas de données disponibles, les tables sont donc étendues de telle sorte que :
),19(),18(),17(),16( tqtqtqtq finalfinalfinalfinal
Enfin, on arrête chaque table à l’âge 65 ans.
Les parties qui suivent présentent les méthodes de lissages qui ont parues les plus pertinentes à tester ainsi que les résultats qu’elles ont permis d’obtenir.
II. Lissage des taux par méthode des Splines
a. Description de la méthode
La première méthode de lissage utilisée est celle correspondant à un lissage non paramétrique avec la méthode des Splines. La méthode des Splines est une méthode très utilisée dans le cas de lissage pour des taux de maintien. Ce lissage a été réalisé à l’aide du logiciel R.
Explication de la méthode En premier lieu, on va expliquer le principe de cette méthode lorsque l’on se place en dimension 1. On
expliquera ensuite comment on a pu l’appliquer sur les xq bruts par âge et par mois de maintien.
Le principe du lissage par Splines est d’interpoler les points par des fonctions en découpant la plage en sous intervalles. Sur chaque sous-intervalle, une fonction d’interpolation sera choisie pour ajuster les taux en faisant attention aux points que les fonctions d’interpolation ont en commun. En règle générale, les polynômes qui sont des fonctions simples que l’on peut raccorder facilement aux points de jonction sont aisément utilisés lorsque l’on a recourt à cette méthode. Lorsque l’on se place sur un découpage en deux parties de la plage, on considère l’expression suivante :
211
100
)(
)(
xxxxp
xxxxpqx où les
ip sont des polynômes de degré 3.
Les contraintes au point de jonction sont les suivantes :
)()(),()(),()( 112
2
102
2
11101011 xpdx
dxp
dx
dxp
dx
dxp
dx
dxpxp
On peut alors poser 3
4
2
3210 )( xcxcxccxp et )()()( 1201 xxcxpxp
L’étape qui suit est alors la minimisation de la distance entre les xq bruts calculés avec un estimateur (Kaplan
Meier dans le cas de cette partie) et les xq interpolés par la fonction polynôme. Il faut donc choisir un critère
de minimisation (critère des moindres carrés ordinaires ou critère des moindres carrés pondérés) et l’appliquer
au système.
Dans le cadre de ce mémoire, on a appliqué la méthode des Splines en transformant la matrice des ),(ˆjix txq
en un vecteur u tel que ),(ˆ)1(36 jixji txqu
Avec 1,0,1,19 1010 jjii tttxxx
b. Résultat graphique
Voici une représentation graphique des qx lissés par la méthode des splines cubiques.
Ce lissage fournit un résultat plutôt satisfaisant et qui semble cohérent au niveau visuel. Des tests vont donc
être effectués sur cette table que l’on appellera KMSplines pour en mesurer la justesse et l’impact potentiel
qu’elle pourrait avoir lors de son utilisation au sein du service.
c. Validation du lissage
Pour l’estimateur de Kaplan Meier, un intervalle de confiance intéressant à utiliser est celui qui utilise la
variance de Greenwood.
En effet, contrairement à l’estimateur de l’intervalle de confiance de HOEM, l’estimateur de Greenwood
n’impose pas de condition sur l’ordre de grandeur des expositions.
Cet estimateur de la variance de l’estimateur de Kaplan Meier s’exprime de la façon suivante :
22 ),(),(ˆ),(ˆˆ mmm txtxStxsV où ),(ˆ mtxS représente l’estimateur de survie à l’âge x au moment mt et
m
i iii
i
txdtxRtxR
txdtx
1 ),(),()(,(
),(),( .
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36
borne sup Sx_33
Sx lissé 33
borne inf Sx_33
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36
borne sup Sx_45
Sx lissé 45
borne inf Sx_45
Les expressions des bornes de confiance sont alors les suivantes :
),(),(ˆ),(ˆ),(2
_ mmmmICx txtxSutxStxS et ),(),(ˆ),(ˆ),(2
_ mmmICx txtxSutxStxS où
2u est le quantile d’ordre
2 de la loi normale centrée réduite et où 1 désigne le niveau de confiance.
On choisit dans cette étude un niveau de confiance de 95%, c’est-à-dire 05.0 .
Pour étudier nos différents lissages, nous avons tracé l’intervalle de confiance sur la fonction de survie pour les âges 33 ans et 45 ans et également une surface représentant les points sortant de l’intervalle de confiance que l’on a appelée « surface de confiance ».
Intervalles de confiances par âge
- Graphique pour l’âge : 33 ans
- Graphique pour l’âge : 45 ans
Suivant l’âge et le mois, les qx peuvent rester ou pas dans l’intervalle de confiance de l’estimateur.
On observe par exemple que pour l’âge 45 ans la courbe reste quasiment tout le temps dans l’intervalle de
confiance alors que ce n’est pas le cas pour l’âge 33 ans où la courbe reste quasiment en tout point au-dessus
de la borne supérieure.
Etude de la surface de confiance
Pour déterminer de la pertinence d’un lissage, il a donc fallu établir un moyen d’évaluer si la surface lissée a une tendance globale à rester dans l’intervalle de confiance ou pas.
Pour cela, une surface cS a été créée correspondant à l’équation suivante :
)),(),(,0max()),(),(,0max(),( ____ txStxStxStxStxS lisséxICxICxlisséxc
On constate que la fonction de survie est globalement dans l’intervalle de confiance même si l’on remarque un
certain nombre de fluctuations qui semblent non négligeables.
Bien que les résultats ne soient pas au mieux de ce que l’on pourrait attendre, ils restent tout de même
suffisamment convenables pour que l’on n’exclue pas cette table.
Pour continuer dans le processus de validation, on a procédé à une comparaison des résultats réels et des
résultats théoriques apportés par la table aussi bien au niveau du nombre de jours d’incapacité estimés qu’au
niveau de l’estimation des montants à régler.
d. Comparaison du nombre réel de jours sinistrés et du nombre estimé
Estimations en termes de jours sinistrés pour les sinistres survenus entre 2007 et 2012 : Dans un premier temps cela semblait pertinent de s’intéresser à la fidélité de l’estimation du nombre de jours
d’arrêts.
Le graphique qui suit présente les estimations du nombre de jours sinistrés par mois de maintien pour des
sinistres survenus entre 2007 et 2012 pour la table actuellement utilisée et la nouvelle table.
On peut comparer ces estimations à la courbe du nombre réel de jours indemnisés également présente sur le
graphique.
Bien que la table semble estimer le nombre de jours sinistrés de façon correcte et mieux adaptée que
l’ancienne, on émet une nuance quant à ces résultats pour deux raisons :
- Les années de survenance 2011 et 2012 viennent fausser nos résultats car tous les sinistres correspondant à
ces années ne sont pas terminés.
- Les sinistres survenus en 2008 et 2007 ont subi la migration du système de gestion de données et ne sont
donc pas entièrement reportés.
Ces mêmes estimations ont donc été représentées pour les années de survenance 2009 et 2010.
Estimations en termes de jours sinistrés pour les sinistres survenus en 2009 :
La nouvelle table est plus prudente que l’ancienne puisqu’elle est toujours au-dessus du nombre réel de jours
sinistrés.
De plus, la courbe correspondant au nombre réels de jours sinistrés est toujours dans l’intervalle de confiance
ce qui est une bonne chose.
Enfin, on constate l’avantage de la nouvelle table par rapport à l’ancienne qui parait sous-estimer le nombre de
jours sinistrés sur les premiers mois.
Nombre de jours observé survenance 2010
Nombre de jours théoriques survenance 2010 Nouvelle Table
Nombre de jours théoriques survenance 2010 Ancienne Table
Borne inf 2010
Borne Sup 2010
Estimations en termes de jours sinistrés pour les sinistres survenus en 2010 :
La table KMSplines est plus prudente que l’ancienne puisqu’elle est toujours au-dessus du nombre réel de jours sinistrés. De plus, la courbe correspondant au nombre réel de jours sinistrés est toujours dans l’intervalle de confiance ce qui est une bonne chose. Enfin, on constate l’avantage de la nouvelle table par rapport à l’ancienne qui parait sous-estimer le nombre de
jours sinistrés sur les premiers mois.
e. Processus de certification
Lors du processus de suivi de table, une méthodologie a été élaborée permettant de mettre en place des
indicateurs caractérisant la table.
Chaque année, une estimation du nombre de sinistres incapacité et passage en Invalidité et du montant de
règlement des années antérieures à l’année en cours est faite à l’aide des tables d’expérience en incapacité et
en passage.
Ces estimations sont ensuite comparées année par année aux valeurs réelles et nous permettent de
déterminer si la table est bien en accord avec la réalité.
Pour les sinistres d’une année courante N, le but est d’estimer le nombre de jours sinistrés et les montants
d’indemnisation de l’année N+1.
Les données utilisées pour déterminer les durées d’indemnisation estimées et réelles de l’année N+1 sont :
L’âge de l’adhérent sinistré à l’arrêt
La date du sinistre
La date de début d’indemnisation
La date de fin d’indemnisation
Le montant garanti
On détermine ensuite :
Le nombre de jours réellement payés sur l’année N+1
L’ancienneté du sinistre
Sont alors estimés le nombre de jours d’indemnisation et la volatilité du nombre de jours d’indemnisation
probable pour chaque année considérée ainsi que les montants probables.
Estimation du nombre de jours sinistrés
L’estimation du nombre de jours sinistrés espérés, P, se calcule par l’expression suivante :
NI
m
mm axRP1
),( , où :
- NI est le nombre de sinistrés de la base,
- mx et
ma sont respectivement l’âge et l’ancienneté de l’individu m
- Et pour un assuré d’âge x et d’ancienneté a :
)11,35min(
),(
)1,(),(
2
1),(
a
ak x
xx
axl
kxlkxlaxR
P représente donc la moyenne espérée de jours d’arrêt du portefeuille sur un an.
La volatilité de cette estimation est calculée par la formule :
N
mm
I
m
ax
1
2
, , où pour un assuré d’âge x et d’ancienneté a, on a :
)11,35min(2
, ),(),(
)1,(),()(
a
ak x
xxax axR
axl
kxlkxlak
L’intervalle de confiance avec un niveau de confiance à 95% s’écrit alors de la façon suivante :
96,1,96,1 PPIC
Résultats avec table proposée Nb sinistre Nb jour reel Nb jour estimé rapport E/R Mnt réel Mnt estimé rapport E/R
réel Nous 8206,38 1094985,6 1073252 -2,0% 120 184 395,71 119 168 291,87 -0,8%
6mois Nous 17738,74 1094985,6 1626881 48,6% 120 184 395,71 176 817 225,70 47,1%
4mois Nous 13036,02 1094985,6 1406840 28,5% 120 184 395,71 152 983 431,78 27,3%
3mois Nous 10475,91 1094985,6 1244830 13,7% 120 184 395,71 135 751 469,77 13,0%
Résultats avec ancienne table Nb sinistre Nb jour reel Nb jour estimé rapport E/R Mnt réel Mnt estimé rapport E/R
réel Nous 8206,38 1094985,6 1112972,619 1,6% 120 184 395,71 125 870 735,78 4,7%
6mois Nous 17738,74 1094985,6 1733847,929 58,3% 120 184 395,71 187 428 248,11 56,0%
4mois Nous 13036,02 1094985,6 1478718,581 35,0% 120 184 395,71 164 257 652,36 36,7%
3mois Nous 10475,91 1094985,6 1304048,49 19,1% 120 184 395,71 144 753 702,90 20,4%
Comparaison sur total 2007-2012
Estimation des montants de sinistres
On garde les mêmes notations pour déterminer le montant espéré associé aux sinistres.
La formule est la suivante :
NI
m
mmm axRpD1
),( , oùmp est le montant de la prestation réglée pour le sinistre m.
La volatilité de cette estimation sera alors
N
mm
I
m
axmD p1
2
,
2
Expression des différents périmètres d’estimation considérés
Les estimations sont réalisées sur différents périmètres et donnent donc des résultats différents selon le
périmètre choisi.
Pour chaque année N :
le premier périmètre qu’on qualifiera de « réel » consiste à conserver les sinistres en cours l’année N
et ayant donné lieu à au moins un règlement l’année N+1.
Le périmètre selon le critère des trois mois consiste à conserver les sinistres ayant donné lieu à un
règlement avant le 31/12/N, dont la date de fin de règlement est postérieure au 30/09/N et ayant
donné lieu à au moins un règlement l’année N.
Le périmètre selon le critère des quatre mois consiste à conserver les sinistres ayant donné lieu à un
règlement avant le 31/12/N, dont la date de fin de règlement est postérieure au 30/08/N et ayant
donné lieu à au moins un règlement l’année N.
Le périmètre selon le critère des six mois consiste à conserver les sinistres ayant donné lieu à un
règlement avant le 31/12/N, dont la date de fin de règlement est postérieure au 30/06/N et ayant
donné lieu à au moins un règlement l’année N.
Le tableau qui suit présente les résultats obtenus au globale avec la table KMSplines testée et avec l’ancienne
afin que l’on puisse en faire la comparaison.
On constate que les résultats de la table KMSplines sont moins prudents que ceux de l’ancienne. De plus, sur le
périmètre réel, les chiffres ont tendance à s’éloigner davantage du nombre réel comparé aux résultats que
nous fournissait l’ancienne table.
Année courante
d'estimation N
Nombre estimé de jours
sinistrés pour l'année N+1rapport R/E volatilité Min Max
Montant estimé des règlements en
incapacités pour l'année N+1rapport R/E volatilité Min Max
2011 227 897 2,0% 13 652 201 139 254 654 24 210 858 7,6% 1 857 497 20 570 165 27 851 552
2012 276 479 -1,1% 15 419 246 259 306 699 29 692 182 -1,6% 2 120 382 25 536 233 33 848 130
2011 378 644 69,5% 22 864 333 831 423 458 40 488 114 79,9% 2 993 836 34 620 196 46 356 033
2012 426 118 52,4% 24 575 377 951 474 286 40 488 114 79,0% 2 993 836 34 620 196 46 356 033
2011 327 205 46,5% 19 167 289 639 364 772 34 886 697 55,0% 2 546 446 29 895 662 39 713 343
2012 368 893 32,0% 20 823 328 079 409 706 39 216 784 30,0% 2 773 893 33 779 953 44 322 642
2011 292 929 31,1% 17 230 259 158 326 700 31 090 557 38,1% 2 304 673 26 573 399 35 607 716
2012 323 862 15,9% 18 547 287 510 360 214 34 534 369 14,5% 2 486 303 29 661 215 39 407 523
Ancienne Table
Nombre de jours Montant
On peut regarder plus en détails les résultats pour les années d’estimation 2011 et 2012.
Les tableaux suivants présentent
- D’une part, un récapitulatif des montants et nombres de jours sinistrés réels pour les années d’estimation
2011 et 2012 ainsi que le nombre de sinistres considérés dans chaque périmètre d’estimation pour ces
mêmes années.
- D’autre part, les estimations et les calculs de volatilité et d’intervalles de confiance pour ces mêmes
années avec l’ancienne table
- Et enfin, les estimations et les calculs de volatilité et d’intervalles de confiance pour ces mêmes années
avec la nouvelle table
Les résultats confirment l’aspect moins prudent de la table KMSplines.
Ceci peut s’avérer problématique notamment compte tenu du fait que l’ancienne table était certifiée sur le
périmètre des 4 mois et que le souhait pour la nouvelle table serait de la certifier sur le périmètre plus restreint
des 3 mois.
On souhaiterait donc des résultats qui nous permettraient aisément d’aboutir à cette certification.
Périmètre
d'estimation
Nombre de sinistres de
l'année N pour estimation
Nombre réel de jours
sinistrés l'année N+1
Montant réel des règlement
pour l'année N+1
Année courante
d'estimation N
1675 223 388 22 506 007 2011
1976 279 523 30 171 319 2012
3823 - - 2011
4192 - - 2012
2887 - - 2011
3171 - - 2012
2378 - - 2011
2512 - - 2012
6 mois
4 mois
3 mois
réel
Année courante
d'estimation N
Nombre estimé de jours
sinistrés pour l'année N+1rapport R/E volatilité Min Max
Montant estimé des règlements en
incapacités pour l'année N+1rapport R/E volatilité Min Max
2011 221 426 -0,9% 13 454 195 057 1 675 23 131 102 2,8% 1 814 956 19 573 788 26 688 416
2012 265 987 -4,8% 15 187 236 221 1 976 28 073 747 -7,0% 2 072 763 24 011 131 32 136 362
2011 362 005 62,1% 22 560 317 788 406 222 37 659 339 67,3% 2 922 771 31 930 709 43 387 970
2012 402 937 44,2% 24 242 355 423 450 451 41 700 987 38,2% 3 111 738 35 601 981 47 799 993
2011 314 028 40,6% 18 878 277 028 2 887 32 721 810 45,4% 2 483 207 27 854 724 37 425 577
2012 351 207 25,6% 20 522 310 984 3 171 36 645 715 21,5% 2 716 105 31 322 149 41 640 634
2011 281 857 26,2% 16 970 248 597 2 378 29 345 012 30,4% 2 483 207 27 854 724 37 425 577
2012 309 343 10,7% 18 285 273 504 2 512 32 458 012 7,6% 2 716 105 31 322 149 41 640 634
Nombre de jours Montant
Nouvelle Table
Malgré les limites de cette table, ses résultats la laissent éligible à une certification. Cependant, on attendra de comparer ces résultats à ceux obtenus avec nos autres tables pour déterminer s’il est préférable de garder celle-ci plutôt qu’une autre.
III. Lissage des qx par Whittaker-Henderson
a. Description de la méthode
Nous avons ensuite effectué un lissage des xq bruts avec une méthode de Whittaker-Henderson.
La méthode de Whittaker-Henderson nous a paru être une méthode adaptée puisqu’ayant déjà fait ses preuves dans le monde de l’actuariat en ce qui concerne la construction de table. Elle est également une des rares à permettre un lissage en deux dimensions et est souvent utilisée lorsqu’il s’agit de table de maintien en incapacité.
Explication de la méthode
Dimension 1
Comme pour la méthode de lissage par Splines, on commence par expliquer le principe du lissage de Whittaker-Henderson en dimension 1 puis on élargira le principe à la dimension 2. En dimension 1, la méthode de Whittaker-Henderson se base sur deux critères : un critère dit de fidélité et un autre critère dit de régularité. Le critère de fidélité s’écrit de la façon suivante :
p
i xixii qqwF 2)ˆ( et le critère de régularité 2
1)(
zp
i xi
zqS
z correspond à un paramètre du modèle.
Grâce à cette méthode, il a été possible d’attribuer aux xiq des poids
iw correspondant au taux d’exposition
par âge et par mois de maintien.
Le critère de minimisation utilisé est alors le suivant : ShFM où h est un second paramètre du
modèle.
La solution de ce problème de minimisation doit alors satisfaire aux conditions : 0
xiq
M
On pose :
- pixiqq 1)ˆ(ˆ
- piiwdiagw 1)(
- zpii
zz qq 1)(
On obtient alors )ˆ()ˆ( qqwqqF t et qqS zzt )(
On introduit la matrice zK de taille ),( pzp , dont les termes sont les coefficients binomiaux d’ordre z dont
le signe est alterné et commence positivement pour z pair.
On peut alors écrire qKq z
z .
Le critère de minimisation s’écrit alors :
qKKqhqqwqqM zz
ttt )ˆ()ˆ(
On a alors l’expression qKKhqwwqq
Mzz
t2ˆ22
et la résolution de 0
q
Mmène au résultat :
qwKKhwq zz
t
lisseˆ)( 1
Dimension 2 Pour l’extension de ce modèle en dimension 2, il faut réécrire les variables introduites précédemment. Le critère de fidélité s’écrit dans ce cas (et en se référant au modèle étudié dans ce mémoire) :
48
1
36
1
2)),(ˆ),((i j
jixjilissei txqtxqwF où 1,0,1,19 1010 jjii tttxxx
Le critère de régularité quant à lui est scindé en deux :
- Un critère de régularité verticale
48
1
36
1
2)),((i j
jilisse
z txqS
- Un critère de régularité horizontale
y
i j
jilisse
y
h txqS48
1
36
1
2)),((
On obtient alors le critère de minimisation suivant :
hSSFM
On considère :
- Le vecteur u de taille qp tel que : )(ˆ,)1(36 jixji txqu et
- la matrice )( *ijw telle que ijjiji ww
*
)1(36,)1(36
- De même on définit les matrices zK et
h
yK (par analogie à la dimension 1).
Les valeurs lissées s’obtiennent alors par l’équation finale suivante :
uwKKKKwq h
y
h
y
t
zz
t *1** )(
Concernant les choix des paramètres de lissage, deux choix potentiels ont été retenus. Ces choix se sont justifiés par l’étude de l’allure des nappes qui semblaient, d’une part plus régulière, et d’autre part plus cohérente avec la réalité. Comme pour la table issue du lissage par Splines, différents tests ont été effectués sur les tables afin d’en déterminer la cohérence.
b. Etude du premier test de lissage : ordre verticale = 1, ordre horizontale = 3
On appellera la table ici de ce lissage la table KMWH13.
1. Résultat graphique
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36
borne sup Sx_33
Sx lissé 33
borne inf Sx_33
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36
borne supSx_45Sx lissé 45
2. Validation du lissage
Comme pour le lissage avec la méthode des Splines, on utilise la variance de Greenwood pour déterminer
l’intervalle de confiance de notre fonction de survie.
Les intervalles de confiance sur la fonction de survie sont tracés comme lors du lissage par Splines pour les âges
33 ans et 45 ans. On étudie la surface de confiance représentant les points sortant de l’intervalle de confiance.
Intervalles de confiances par âge
Graphique pour l’âge : 33 ans
Graphique pour l’âge : 45 ans
Comparativement aux résultats obtenus avec le lissage précédent, les écarts pour l’âge 33 ans par rapport
à l’intervalle de confiance semblent légèrement plus prononcés ici. Par contre, pour l’âge 45 ans, les
résultats semblent meilleurs puisque la courbe est continument dans l’intervalle de confiance.
Une étude de la surface de confiance pourra aider dans le jugement de ce lissage.
Etude de la surface de confiance
On ne constate pas de différences majeures entre ce résultat et celui déjà observé pour la table KMSplines.
3. Comparaison du nombre réel de jours sinistrés et du nombre estimé.
L’étape suivante de l’étude consiste à comparer le nombre réel de jours sinistrés au nombre de jours
estimé par la table KMWH13. Si l’estimation du nombre de jours sinistrés n’amène pas un plus à nos
résultats, il sera peut-être intéressant d’étudier le second lissage de Whittaker avant d’aller plus loin dans
notre étude.
Les courbes représentant les résultats obtenus suivent ci-dessous.
mois 0
mois 6
mois 12
mois 18mois 24
mois 30mois 36
-0,08
-0,06
-0,04
-0,02
0
0,02
0,04
Age
19
Age
22
Age
25
Age
28
Age
31
Age
34
Age
37
Age
40
Age
43
Age
46
Age
49
Age
52
Age
55
Age
58
Age
61
Age
64
0,02-0,04
0-0,02
-0,02-0
-0,04--0,02
-0,06--0,04
-0,08--0,06
Mo
is 0
Mo
is 1
Mo
is 2
Mo
is 3
Mo
is 4
Mo
is 5
Mo
is 6
Mo
is 7
Mo
is 8
Mo
is 9
Mo
is 1
0
Mo
is 1
1
Mo
is 1
2
Mo
is 1
3
Mo
is 1
4
Mo
is 1
5
Mo
is 1
6
Mo
is 1
7
Mo
is 1
8
Mo
is 1
9
Mo
is 2
0
Mo
is 2
1
Mo
is 2
2
Mo
is 2
3
Mo
is 2
4
Mo
is 2
5
Mo
is 2
6
Mo
is 2
7
Mo
is 2
8
Mo
is 2
9
Mo
is 3
0
Mo
is 3
1
Mo
is 3
2
Mo
is 3
3
Mo
is 3
4
Mo
is 3
5
Mo
is 3
6
Nombre de jours observé global
Nombre de jours théoriques global Nouvelle table
Nombre de jours théoriques global Ancienne table
Borne inf global
Borne Sup global
Mo
is 0
Mo
is 1
Mo
is 2
Mo
is 3
Mo
is 4
Mo
is 5
Mo
is 6
Mo
is 7
Mo
is 8
Mo
is 9
Mo
is 1
0
Mo
is 1
1
Mo
is 1
2
Mo
is 1
3
Mo
is 1
4
Mo
is 1
5
Mo
is 1
6
Mo
is 1
7
Mo
is 1
8
Mo
is 1
9
Mo
is 2
0
Mo
is 2
1
Mo
is 2
2
Mo
is 2
3
Mo
is 2
4
Mo
is 2
5
Mo
is 2
6
Mo
is 2
7
Mo
is 2
8
Mo
is 2
9
Mo
is 3
0
Mo
is 3
1
Mo
is 3
2
Mo
is 3
3
Mo
is 3
4
Mo
is 3
5
Mo
is 3
6
Nombre de jours observé survenance 2009Nombre de jours théoriques Nouvelle table survenance 2009Nombre de jours théoriques Ancienne Table survenance 2009Borne inf 2009Borne Sup 2009
Estimations en termes de jours sinistrés pour les sinistres survenus entre 2007 et 2012
Les résultats sont équivalents aux résultats précédents exceptés sur la queue de la courbe où cette table
semble légèrement plus prudente (voir trop puisque notre courbe du nombre réel de jours n’est plus dans
l’intervalle de confiance).
Estimation en termes de jours sinistrés pour les sinistres survenus en 2009 :
Mo
is 0
Mo
is 1
Mo
is 2
Mo
is 3
Mo
is 4
Mo
is 5
Mo
is 6
Mo
is 7
Mo
is 8
Mo
is 9
Mo
is 1
0
Mo
is 1
1
Mo
is 1
2
Mo
is 1
3
Mo
is 1
4
Mo
is 1
5
Mo
is 1
6
Mo
is 1
7
Mo
is 1
8
Mo
is 1
9
Mo
is 2
0
Mo
is 2
1
Mo
is 2
2
Mo
is 2
3
Mo
is 2
4
Mo
is 2
5
Mo
is 2
6
Mo
is 2
7
Mo
is 2
8
Mo
is 2
9
Mo
is 3
0
Mo
is 3
1
Mo
is 3
2
Mo
is 3
3
Mo
is 3
4
Mo
is 3
5
Mo
is 3
6
Nombre de jours observé survenance 2010
Nombre de jours théoriques Nouvelle table survenance 2010
Nombre de jours théoriques ancienne table survenance 2010
Borne inf
Borne Sup
Estimation en termes de jours sinistrés pour les sinistres survenus en 2010 :
Les résultats ne sont pas plus satisfaisants que ceux obtenus avec la table KMSplines. Avant de pousser l’étude
plus loin, on va donc étudier les résultats obtenus avec le deuxième lissage de Whittaker. Si ces résultats sont
plus satisfaisants, il sera inutile de poursuivre l’étude des résultats du premier lissage.
c. Etude du premier test de lissage : ordre verticale = 2, ordre horizontale = 3
1. Résultat graphique
Cette courbe a semblé très intéressante dans sa structure.
En effet, on constate des taux de sortie un peu plus élevés sur les premiers mois pour les âges compris entre 35
et 55 ans.
Cela semble tout à fait cohérent avec la réalité où on observe effectivement qu’un individu jeune ou une
personne âgée qui entre en incapacité présente une forte probabilité d’avoir un sinistre d’importance
significative et donc de rester en incapacité pour une durée importante.
On appellera la table issue de ce lissage la table KMWH23.
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36
borne sup Sx_33
Sx lissé 33
borne inf Sx_33
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36
borne sup Sx_45
Sx lissé 45
borne inf Sx_45
2. Validation du lissage
Graphique pour les âges :33 ans et 45 ans
Lors du processus de validation du lissage, les courbes pour les âges 33 ans et 45 ans restent bien comprises
dans les intervalles de confiance ce qui n’était pas le cas lors des études pour les lissages précédents,
particulièrement en ce qui concerne l’âge 33 ans. Cela laisse présager une meilleure adaptation des taux lisses
de cette table.
Pour confirmer cette idée, il faut étudier la surface de confiance de cette table.
Etude de la surface de confiance
En observant la surface de confiance, on constate que comparativement aux deux autres lissages étudiés, cette
surface est beaucoup plus plate et présente des pics moins importants.
Cette courbe semble donc nettement plus adaptée si l’on se réfère à la cohérence du lissage.
Les estimations du nombre de jours sinistrés obtenues avec cette table viennent confirmer l’hypothèse qu’elle
serait plus adaptée à la réalité.
Ici suivent les résultats obtenus pour l’année de survenance 2009.
mo
is 0
mo
is 5
mo
is 1
0
mo
is 1
5
mo
is 2
0
mo
is 2
5
mo
is 3
0
mo
is 3
5
-0,06
-0,05
-0,04
-0,03
-0,02
-0,01
0
0,01
0,02
0,03
Age
19
Age
23
Age
27
Age
31
Age
35
Age
39
Age
43
Age
47
Age
51
Age
55
Age
59
Age
63
0,02-0,03
0,01-0,02
0-0,01
-0,01-0
-0,02--0,01
-0,03--0,02
-0,04--0,03
-0,05--0,04
-0,06--0,05
Ces résultats traduisent bien la tendance de la table KMWH23 à être plus prudente que les deux autres, tout en
respectant l’allure de la courbe représentant le nombre réel de jours sinistrés. De plus, cette dernière courbe
reste dans l’intervalle de confiance, ce qui ajoute du crédit à cette table.
Une étude des indicateurs est bienvenue pour déterminer si cette table doit être retenue plutôt que la table
KMSplines
3. Processus de certification
Les résultats globaux sont légèrement plus prudents que ceux obtenus avec l’ancienne table sans pour autant
faire exploser les estimations.
Lorsque l’on fait un focus sur les années 2011 et 2012, cela confirme cette tendance.
De plus, dans le cas du périmètre, on observe que les bornes de confiance restent bien cohérentes avec les
nombres réels observés (223 388 jours sinistrés, 22 506 007 euros réglés pour l’année d’estimation 2011 et 279
523 jours sinistrés, 30 171 319 euros réglés pour l’année d’estimation 2012) ce qui vient confirmer la
cohérence de la table.
Jusqu’à présent, et au vu des études faites, la table qui semble la plus cohérente est celle obtenue avec
l’estimateur de Kaplan Meier et le lissage de Whittaker Henderson retenant les paramètres 2 pour l’ordre de
lissage vertical et 3 pour l’ordre de lissage horizontal.
C’est donc cette table qui est pressentie à la certification pour le moment.
Résultats avec table proposée Nb sinistre Nb jour reel Nb jour estimé rapport E/R Mnt réel Mnt estimé rapport E/R
réel Nous 8206 1094985,6 1124201,171 2,7% 120184395,71 126274530,8 5,1%
6mois Nous 17739 1094985,6 1719755,059 57,1% 120184395,71 191726799,9 59,5%
4mois Nous 13036 1094985,6 1485794,095 35,7% 120184395,71 164103621,6 36,5%
3mois Nous 10476 1094985,6 1309502,875 19,6% 120184395,71 144688440,4 20,4%
Résultats avec table Actuaris Nb sinistre Nb jour reel Nb jour estimé rapport E/R Mnt réel Mnt estimé rapport E/R
réel Nous 8206 1094985,6 1112972,619 1,6% 120184395,71 125870735,8 4,7%
6mois Nous 17739 1094985,6 1733847,929 58,3% 120184395,71 187428248,1 56,0%
4mois Nous 13036 1094985,6 1478718,581 35,0% 120184395,71 164257652,4 36,7%
3mois Nous 10476 1094985,6 1304048,49 19,1% 120184395,71 144753702,9 20,4%
Comparaison sur total 2007-2012
Année courante
d'estimation N
Nombre estimé de jours
sinistrés pour l'année N+1rapport R/E volatilité Min Max
Montant estimé des
règlements en incapacités
pour l'année N+1
rapport R/E volatilité Min Max
2011 230 589 3,2% 13 660 203 816 257 362 24 328 337 8,1% 1 848 940 20 704 416 27 952 259
2012 278 593 -0,3% 15 423 248 364 308 822 29 731 389 -1,5% 2 115 553 25 584 905 33 877 873
2011 381 894 71,0% 22 877 337 056 426 733 40 515 025 80,0% 2 994 443 34 645 916 46 384 134
2012 427 924 53,1% 24 589 379 730 476 119 44 994 072 49,1% 3 184 716 38 752 029 51 236 114
2011 329 568 47,5% 19 155 292 023 367 113 34 911 873 55,1% 2 539 927 29 933 617 39 724 444
2012 370 089 32,4% 20 813 329 295 410 883 39 175 374 29,8% 2 775 809 33 734 789 44 283 555
2011 294 941 32,0% 17 218 261 194 328 688 31 153 359 38,4% 2 539 927 29 933 617 39 724 444
2012 324 526 16,1% 18 529 288 208 360 843 34 493 306 14,3% 2 775 809 33 734 789 44 283 555
Nouvelle Table
Nombre de jours Montant
IV. Modèle logistique et ajustement des taux bruts par méthode des
MCO/MCP
Au niveau de la retraite, des tables de mortalité avaient été construites par ajustement avec un modèle
logistique. En se basant sur cette expérience de l’équipe, et sur les résultats intéressants qui avaient été
obtenus à cette époque (réf : Mémoire, « Construction de tables d’expérience pour les rentes »), Jérémy
DUBOIS), l’idée a été de réutiliser ce moyen sur la construction de la nouvelle table de maintien en incapacité.
Deux méthodes ont été testées :
L’ajustement logistique par la Méthode des moindres carrés ordinaires
L’ajustement logistique par la Méthode des moindres carrés pondérés
a. Description du modèle d’ajustement logistique
Le modèle logistique
Dans ce modèle, on ne va pas s’intéresser directement au taux de mortalité xq mais au logit du taux de
mortalité
Pour un âge ix et un mois de maintien jt considérés, le modèle sera le suivant :
xij
ji
ref
ji
ref
jiajusté
jiajustéb
txq
txqa
txq
txq
)
),(1
),(ln()
),(1
),(ln(
Où :
- ),( jiajusté txq est le taux de maintien ajusté associé à l’âge ix et au mois de maintien jt
- ),( ji
ref txq est le taux de de maintien de référence associé à l’âge ix et au mois de maintien jt
- xij est l’erreur d’ajustement du taux de sorti associé à l’âge ix et au mois de maintien jt , correspondant
à une variable gaussienne centrée .
On obtient notre ),( jiajusté txq de la façon suivante :
btxq
txqazavec
z
ztxq
ji
ref
ji
ref
xij
xij
xij
jiajustéˆ)
),(1
),(ln(ˆ
)exp(1
)exp(),(
Méthode des moindres carrés ordinaires
On choisit de minimiser la distance entre les taux de mortalité, c’est-à-dire :
btxq
txqazoù
z
ztxqavectxqtxq
ji
ref
ji
ref
xij
xij
xij
jiajusté
ji
jiajustéjixˆ)
),(1
),(ln(ˆ
)exp(1
)exp(),(),(),(ˆ
,
2
On utilise le Solver d’Excel pour minimiser cette distance.
Moindres carrés pondérés
On choisit de minimiser la distance pondérée entre les taux de mortalité, c’est-à-dire :
btxq
txqazoù
z
ztxqavectxqtxqTxe
ji
ref
ji
ref
xij
xij
xij
jiajusté
ji
jiajustéjixxijˆ)
),(1
),(ln(ˆ
)exp(1
)exp(),(),(),(ˆ
,
2
et où xijTxe est le taux d’exposition associé à l’âge ix et au mois de maintien jt .
b. Résultats graphiques
Suivent ici l’allure des taux de sorties obtenus après application des deux méthodes d’ajustement expliquées ci-dessus.
Moindres carrés Ordinaires
Moindres carrés Pondérés
Le résultat obtenu avec la méthode des moindres carrés pondérés semble plus satisfaisant au niveau de la régularité de la courbe. Cependant on y observe une cassure un peu plus prononcée sur les premiers mois et une pente beaucoup plus douce sur les derniers mois (excepté le 36
ème mois où les taux passent d’une valeur
quasiment nulle à 1). On nomme cette table KMMCP et l’autre table obtenue KMMCO. Dans les deux cas, les nappes restent assez fidèles à la table initiale sur laquelle a été effectué l’ajustement et
qui était jusqu’alors utilisée dans le service.
On s’attend à ce que ces résultats ne collent pas en termes d’intervalle de confiance puisqu’il n’a pas été
question ici d’un lissage classique. En effet en observant uniquement les surfaces de confiance que l’on obtient
avec ces tables, on constate que l’on est bien loin d’une structure plate.
mo
is 0
mo
is 5
mo
is 1
0
mo
is 1
5
mo
is 2
0
mo
is 2
5
mo
is 3
0
mo
is 3
5
-0,15-0,1
-0,050
0,050,1
0,150,2
0,25
0,3
0,35
Age
19
Age
23
Age
27
Age
31
Age
35
Age
39
Age
43
Age
47
Age
51
Age
55
Age
59
Age
63
0,3-0,35
0,25-0,3
0,2-0,25
0,15-0,2
0,1-0,15
0,05-0,1
0-0,05
-0,05-0
-0,1--0,05
-0,15--0,1
c. Positionnement en terme d’intervalle de confiance
Moindres carrés Ordinaires
On constate qu’il y a de grosses sous-estimations de la fonction de survie pour les premiers mois. En revanche
les fluctuations se font plus acceptables pour les mois plus élevés et la surface se fait alors plus plate.
Moindres carrés Pondérés
mo
is 0
mo
is 4
mo
is 8
mo
is 1
2
mo
is 1
6
mo
is 2
0
mo
is 2
4
mo
is 2
8
mo
is 3
2
mo
is 3
6
-0,14
-0,12
-0,1
-0,08
-0,06
-0,04
-0,02
0
0,02
Age
19
Age
24
Age
29
Age
34
Age
39
Age
44
Age
49
Age
54
Age
59
Age
64 0-0,02
-0,02-0
-0,04--0,02
-0,06--0,04
-0,08--0,06
-0,1--0,08
-0,12--0,1
-0,14--0,12
Les résultats obtenus ici montrent une large tendance à surestimer la fonction de survie ce qui pourrait amener
par voie de conséquence à un provisionnement beaucoup trop important. Compte tenu des résultats déjà
obtenus avec la courbe lissée de Kaplan Meier jusqu’ici retenue, on s’attend à une explosion des indicateurs.
En effet, la table lissée par la méthode de Kaplan Meier avait une surface plutôt lisse avec quelques pics qui,
bien qu’ils soient rares, présentaient plutôt une tendance à la sous-estimation de la fonction de survie.
Il semble donc judicieux de s’intéresser directement aux indicateurs obtenus avec ces méthodes puisqu’un
doute sérieux est émis sur les résultats que l’on en obtiendra.
d. Processus de certification
Moindres Carrés Pondérés
On commence par l’étude des indicateurs pour la méthode des moindres carrés pondérés sur laquelle on émet
les plus gros doutes. Comme attendu, les résultats des indicateurs sont explosifs.
On élimine donc définitivement la KMMCP des tables envisageables pour une nouvelle certification.
Moindres Carrés Ordinaires
On s’intéresse maintenant l’étude de ces indicateurs pour la méthode des moindres carrés ordinaires
On obtient des résultats bien moins impressionnants que ceux que l’on vient d’observer, cependant, ils restent
tout de même assez peu satisfaisants étant donné qu’il sous- estime encore davantage que la table KMSplines
et sont donc nettement moins bons que les résultats de la table KMWH23 retenue jusqu’ici.
Résultats total 2007-2011
Résultat avec table proposée Nb sinistre Nb jour reel Nb jour estimé rapport E/R Mnt réel Mnt estimé rapport E/R
réel Nous 6231 815463 1359202,16 67% 90013077,04 155590847,27 73%
6mois Nous 13547 815463 2378795,76 192% 90013077,04 289039076,26 221%
4mois Nous 9865 815463 2039006,99 150% 90013077,04 227209218,45 152%
3mois Nous 7964 815463 1720605,45 111% 90013077,04 191046494,95 112%
Résultats total 2007-2011
Résultats avec tableproposée Nb sinistre Nb jour reel Nb jour estimé rapport E/R Mnt réel Mnt estimé rapport E/R
réel Nous 6231 815462,67 785819,64 -4% 90013077,04 90290336,20 0%
6mois Nous 13547 815462,67 1189357,98 46% 90013077,04 134321274,88 49%
4mois Nous 9865 815462,67 1024505,79 26% 90013077,04 115419044,16 28%
3mois Nous 7964 815462,67 909952,44 12% 90013077,04 102333236,52 14%
V. Synthèse partie D Bien qu’on ne sache pas si c’est une règle générale, on constate ici qu’il n’y a pas de grandes différences entre le lissage par Splines et le lissage avec la méthode de Whittaker-Henderson dont les ordres de lissages verticale et horizontale sont 1 et 3. Les résultats de ces lissages ne sont pas incohérents mais restent moins bons que ceux obtenus avec la table KMWH23 lissée par une méthode de Whittaker-Henderson d’ordre vertical 2 et d’ordre horizontale 3. En effet les résultats obtenus avec cette table sont les plus prudents, ne font pas exploser les indicateurs et
restent tout de même cohérents avec la réalité.
Le modèle logistique associé à une méthode d’ajustement MCP ne semble pas du tout convenir et conduit à
une surestimation exacerbée de la durée des sinistres. Cette méthode est donc définitivement écartée.
La méthode d’ajustement MCO donne des résultats bien plus satisfaisants mais reste la table la moins prudente de toutes celles testées jusqu’à présent. Elle reste donc un choix envisageable mais ne constituera pas le premier choix vers lequel se tourner.
E. Méthode d’estimation des taux de maintien : Estimateur
actuariel et Influence des lissages
I. Construction des qx bruts par la méthode de l’Estimateur Actuariel Dans un deuxième temps on a eu recours à l’estimateur Actuariel pour construire nos qx bruts. Bien que cet estimateur soit parfois mis en doute, il a semblé intéressant d’étudier les résultats qu’il pouvait
apporter. Comme pour l’estimateur de Kaplan Meier, on a également raisonné en regroupant des âges
d’exposition.
a. Description de la méthode
Pour ce modèle, on se place à un âge fixe (ou groupe d’âge fixe) et on raisonne en intervalle de temps. Ici
chaque moment it correspond au ième mois d’arrêt.
On va donc calculer la probabilité de sortie au moment it en regardant le comportement des individus sur
l’intervalle ]it ,
1it ].
En se plaçant sur l’ensemble des individus d’âge x, on appelle :
tin : le nombre d’individu d’âge x encore en arrêt au moment it
tid : le nombre de sortie au moment it (c’est-à-dire au cours du
it - ème mois d’arrêt).
tic : le nombre d’individus censurés au cours du mois it
tiz : le nombre d’individus tronqués au cours du mois it
L’expression du xq bruts pour l’âge x et au moment ti est alors la suivante :
22
),(ˆtiti
ti
tiix zc
n
dtxq
Méthode d'estimation des qx bruts : Estimateur Actuariel
méthode 1 de lissage appliquée Méthode des splines
méthode 2 de lissage appliquée Méthode de Whittaker Henderson / lissage vertical =1 et lissage horizontal =3
méthode 3 de lissage appliquée Méthode de Whittaker Henderson / lissage vertical =2et lissage horizontal =3
méthode 1 d'ajustement logistique Méthode d'ajustement logistique avec méthode des moindres carrés ordinaires
méthode 2 d'ajustement logistique
b. Résultat graphique
Voici une représentation graphique des qx bruts ainsi obtenus :
L’effet de l’échelle peut être trompeur, mais en pratique on constate que les taux de sortie bruts pour cet
estimateur sont moins élevés que pour ceux de l’estimateur de Kaplan Meier.
De plus, les résultats sont beaucoup moins épars (même si cet effet sera dans tous les cas réduit lors du lissage
des taux de sortie).
Des résultats plus prudents que ceux obtenus avec l’estimateur de Kaplan Meier sont donc attendus.
II. Lissage par la méthode des Splines
A la lumière des résultats obtenus lors de nos études sur l’estimateur de Kaplan Meier il a semblé logique de
commencer par la méthode de lissage des Splines. On s’attend à des résultats plus prudents que ceux obtenus
avec l’estimateur de Kaplan Meier, ce qui pourrait donc être tout à fait satisfaisant.
Ici est présenté le résultat graphique de la table obtenue avec un lissage par Splines.
a. Résultat graphique
L’allure de la courbe est similaire à celle obtenue avec l’estimateur de Kaplan-Meier. Cependant la courbure au
niveau des mois compris entre 30 et 20 est légèrement plus prononcée.
b. Validation du lissage
On étudie la surface de confiance pour déterminer si le lissage reste ou non globalement dans l’intervalle de confiance. On constate qu’elle a la même allure que celle obtenue pour l’estimateur de Kaplan Meier si ce n’est que les pics sont légèrement plus prononcés en valeur absolue qu’il s’agisse de pics négatif ou positif. Cette courbe se trouve en annexe 2 avec également les graphiques des intervalles de confiance pour les âges 33 ans et 45 ans en annexe 1.
c. Comparaison du nombre réel de jours sinistrés et du nombre estimé
Les résultats d’estimations pour le nombre de jours sinistrés sont beaucoup plus élevés que ceux obtenus
jusqu’à maintenant pour toutes les autres tables. De plus on remarque que notre courbe de jours réels ne reste
pas dans l’intervalle de confiance quel que soit l’année de survenance choisie.
Ici le graphique pour l’année de survenance 2009 traduit bien cette tendance.
Cette table semble donc sujette à la prudence aux premiers abords. L’étude des indicateurs tranchera sur le
sujet.
d. Processus de certification
Les résultats que l’on obtient sont, comme attendu, plus prudents que ceux vus avec l’estimateur de Kaplan
Meier. Ils dépassent même les résultats obtenus avec la table KMWH23.
Résultats avec table proposée Nb sinistre Nb jour reel Nb jour estimé rapport E/R Mnt réel Mnt estimé rapport E/R
réel Nous 8206 1094985,60 1187204,04 8,4% 120184395,71 131689478,80 9,6%
6mois Nous 17739 1094985,60 1783220,30 62,9% 120184395,71 196528324,76 63,5%
4mois Nous 13036 1094985,60 1590766,85 45,3% 120184395,71 172595308,10 43,6%
3mois Nous 10476 1094985,60 1394433,11 27,3% 120184395,71 151747888,40 26,3%
Comparaison sur total 2007-2012
Année courante
d'estimation N
Nombre estimé de jours
sinistrés pour l'année N+1rapport R/E volatilité Min Max
Montant estimé des règlements en
incapacités pour l'année N+1rapport R/E volatilité Min Max
2011 244 850 9,6% 14 048 217 316 272 385 25 562 952 13,6% 1 893 463 21 851 764 29 274 140
2012 293 897 5,1% 15 845 262 842 324 953 30 998 065 2,7% 2 160 329 26 763 821 35 232 309
2011 414 763 85,7% 23 553 368 599 460 927 43 087 544 91,4% 3 049 789 37 109 958 49 065 130
2012 402 937 44,2% 24 242 355 423 450 451 41 700 987 38,2% 3 111 738 35 601 981 47 799 993
2011 354 760 58,8% 19 711 316 126 393 394 36 925 779 64,1% 2 590 945 31 847 528 41 831 514
2012 396 438 41,8% 21 415 354 464 438 412 41 281 623 36,8% 2 831 681 35 731 527 46 485 496
2011 315 746 41,3% 17 715 281 024 350 467 32 850 229 46,0% 2 590 945 31 847 528 41 831 514
2012 345 717 23,7% 19 074 308 333 383 102 36 217 618 20,0% 2 831 681 35 731 527 46 485 496
Nouvelle Table
Nombre de jours Montant
On remarque que cette table reste plutôt intéressante puisqu’elle reste cohérente en termes d’intervalle de
confiance pour les indicateurs. De plus, il ne devrait pas y avoir de problème pour la certifier.
On se doute que les résultats que l’on obtiendra avec le lissage de Whittaker-Henderson ordre vertical 2 et
ordre horizontal 3 seront encore plus prudents que ceux que l’on vient d’observer et risquent donc d’être trop
éloignés de la réalité. De plus, le niveau de prudence de cette table semble déjà parfaitement adapté à nos
attentes, il n’est donc pas nécessaire d’avoir recours à une table plus prudente. On peut écarter la méthode de
Whittaker Henderson d’ordres 2 et 3.
On va alors tester la méthode d’ajustement MCO qui donnait des résultats moins prudents et déterminer si elle
s’adapte mieux à cet estimateur (le but étant de trouver un table au moins aussi prudente que l’ancienne mais
mieux adaptée aux données du service et qui ne fasse pas exploser les provisions futures).
III. Ajustement des taux bruts par la méthode des MCO
a. Résultats graphiques
Les résultats graphiques sont semblables a ceux observés pour l’estimateur de Kaplan Meier. On va donc déterminer si la table ainsi obtenue fournie des résultats que l’on peut retenir ou pas.
mo
is 0
mo
is 3
mo
is 6
mo
is 9
mo
is 1
2
mo
is 1
5
mo
is 1
8
mo
is 2
1
mo
is 2
4
mo
is 2
7
mo
is 3
0
mo
is 3
3
mo
is 3
6
-0,2
-0,18
-0,16
-0,14
-0,12
-0,1
-0,08
-0,06
-0,04
-0,02
0
Age
19
Age
26
Age
33
Age
40
Age
47
Age
54
Age
61
-0,02-0
-0,04--0,02
-0,06--0,04
-0,08--0,06
-0,1--0,08
-0,12--0,1
-0,14--0,12
-0,16--0,14
-0,18--0,16
-0,2--0,18
Nombre de jours observé global
Nombre de jours théoriques global Nouvelle table
Nombre de jours théoriques global Ancienne table
Borne inf global
Borne Sup global
b. Etude de la surface de confiance
c. Comparaison du nombre réel de jours sinistrés et du nombre estimé
L’estimation par notre table du nombre de jours estimés reste correcte mais l’allure de la courbe obtenue se
rapproche énormément de celle de la table déjà existante. De plus, sur l’estimation globale la courbe ne reste
pas dans l’intervalle de confiance. On rappelle que le problème lié à la table existante est qu’elle a tendance à
sous-estimer le nombre de jours d’arrêt sur les premiers mois et à les surestimer sur les plus grands. Ce n’est
pas vraiment ce qui est attendu d’une nouvelle table puisque l’on cherche à correspondre davantage au
comportement réel de notre portefeuille. Ce comportement est pourtant celui observé pour cette nouvelle
table quelle que soit l’année de survenance considérée.
On ne gardera donc pas cette table parmi les tables envisageables pour la certification.
IV. Lissage par la méthode de Whittaker-Henderson L’allure des courbes obtenues avec le lissage de Whittaker-Henderson est similaire pour les deux estimateurs. Comme pour l’estimateur de Kaplan Meier, l’étude graphique des courbes a amené à n’en conserver que deux. Elles correspondent aux mêmes paramètres de lissage que ceux retenus pour l’estimateur de Kaplan Meier. Cependant, comme on l’a précisé plus tôt, on peut déjà écarter le lissage avec les paramètres d’ordre vertical 2 et horizontal 3 puisqu’on ne cherche pas une table plus prudente que celle déjà obtenue par la méthode des Splines. On va donc s’intéresser uniquement au lissage avec les ordres vertical 1 et horizontal 3 et on appellera la table
ici de ce lissage EAWH13.
a. Résultat graphique
Un résultat
graphique
semblable à celui obtenu avec l’estimateur de Kaplan Meier. On observe un structure très lisse de la surface
avec des variations par âge peu marquées.
Comme pour les autres tables testées, il faut donc maintenant déterminer si le lissage est valable en étudiant la
surface de confiance.
b. Validation du lissage
La surface de confiance obtenue est semblable à celle observée pour l’estimateur de Kaplan Meier.
On va directement s’intéresser aux estimateurs obtenus avec cette table quitte à revenir après sur l’allure de la
courbe d’estimation du nombre de jours sinistrés par mois d’arrêt.
c. Indicateurs certification
Comme on peut les remarquer, cette table est encore plus prudente que la table EASplines obtenue par
méthode des Splines. Etant donné que l’on cherche à certifier sur le périmètre des trois mois, il n’est pas
souhaitable que la table soit aussi prudente. On préfère les résultats obtenus avec la table obtenue avec
l’estimateur actuarielle par méthode des Splines ou ceux obtenus avec l’estimateur de Kaplan Meier et la
méthode de Whittaker-Henderson.
Résultats avec table proposée Nb sinistre Nb jour reel Nb jour estimé rapport E/R Mnt réel Mnt estimé rapport E/R
réel Nous 8206,38 1094985,6 1233831 12,7% 120 184 395,71 136 587 850,07 13,6%
6mois Nous 17738,74 1094985,6 1952915 78,4% 120 184 395,71 215 308 343,96 79,1%
4mois Nous 13036,02 1094985,6 1684145 53,8% 120 184 395,71 182 215 514,61 51,6%
3mois Nous 10475,91 1094985,6 1469183 34,2% 120 184 395,71 159 453 219,52 32,7%
Comparaison sur total 2007-2012
V. Synthèse partie E
Au vu de cette nouvelle étude, on constate que l’estimateur actuariel amène à des résultats globalement plus
prudents que ceux obtenus avec la méthode de Kaplan Meier. On observe que la méthode des Splines, qui
n’était pas assez prudente avec l’estimateur de Kaplan Meier, l’est largement pour l’estimateur actuariel et
dépasse même le niveau de prudence obtenu avec la table KMWH23 jusqu’ici pressentie à la certification. Elle
lève alors une hésitation quant au choix de la table à certifier.
Cependant, on constate qu’au niveau des intervalles de confiance, notamment lors de l’estimation du nombre
de jours sinistrés, la table KMWH23 est bien meilleure que la table EASplines qui parfois semble légèrement
trop prudente.
Avant de lever l’incertitude sur le choix définitif de notre table, il a semblé intéressant d’étudier une méthode
de construction semi-paramétrique notamment dans le but d’étudier l’impact de la variable Cible Socio-
Professionnelle (CSP). La partie qui suit présente la mise en place d’un modèle de Cox et les conclusions qui en
découlent.
F. Modèle de Cox et étude de la variable Cible Professionnelle
Aujourd’hui le portefeuille des Travailleurs non-salariés est organisé suivant une logique de cibles -
professionnelles. Il existe six classes de travailleurs indépendants :
- Les médicaux
- Les paramédicaux
- Les libéraux
- Les expert et conseils
- Les artisans commerçants
- Les travailleurs agricoles
Chacune de ces cibles est elle-même séparée suivant trois classes de tarification (appelées CP1, CP2 ou CP3) et
permettant de refléter le niveau de risque des professions concernées.
La séparation du portefeuille s’appuie jusqu’à ce jour sur l’avis d’experts et sur le bon sens. L’intérêt a alors été
de déterminer un support statistique permettant d’étudier de façon rigoureuse cette répartition.
Dans un premier temps, l’idée a été d’étudier si cette répartition est statistiquement justifiée. C’est-à-dire
d’abord étudier si les classes entre elles ont un comportement statistiquement différents et si au sein des
groupes la cohésion des individus est statistiquement représentative.
Un modèle de COX a alors été mis en place pour permettre à la fois de déterminer l’influence de variables
explicatives sur la durée de maintien en incapacité mais aussi de proposer un modèle prenant en compte cette
influence.
Cela a semblé d’autant plus intéressant compte tenu du fait que le modèle de Cox est à priori connu pour avoir
une plus grande robustesse que les méthodes non paramétriques et permet de mieux apprécier l’impact des
variables explicatives.
I. Modèle de Cox
Présentation du modèle de Cox.
Le modèle de Cox est un modèle à risque proportionnel dont la fonction modélisée est la fonction de risque.
Etant un modèle à risques proportionnels, il obéit à la spécification :
)()()( 0 xrthxth
Le risque devant être toujours positif pour toutes valeurs des variables explicatives et de leurs coefficients, on
adopte une transformation exponentielle :
tscoefficiendesvecteurleetesExplicativVariablesdesvecteurleestxoùxxr )exp()(
Soit : )exp()(, 0 xthxth
D’où :
)exp(
0 )(),;(
x
tSxtS
t
dhtHettHtSavec0
0000 )()()(exp)(
Si on note une indicatrice telle que 1i si la durée d’évènement est observée pour le ième
individu et
0i si cette durée est censurée.
La vraisemblance a pour écriture :
n
i
iiiiii tStfL
1
1)()(
On note it
R l’ensemble des individus risqués en it et on suppose également pour l’instant que chaque temps
de survenue d’évènement est afférent à un seul individu :
n
i
ii
Rj
ij
Rj
ij
iin
i
iiii
n
i
iiiiii tSthth
thtSthtStSthL
i
it
i
it
iii
111
1)()(
)(
)()()()()()(
Le terme
itRj
ij
ii
th
th
)(
)( est une probabilité conditionnelle : C’est la probabilité qu’un individu connaisse
l’évènement au temps it sachant qu’il s’est produit un évènement parmi tous les individus à risque pour cette
durée.
On peut alors écrire :
itititRj
j
i
Rj
ji
ii
Rj
ij
ii
x
x
xrth
th
th
th
)exp(
)exp(
)()(
)(
)(
)(
0
La fonction de vraisemblance partielle considérée par Cox ne prend donc en compte que ce premier terme de la vraisemblance, c’est-à-dire :
n
i
Rj
j
in
i
Rj
ij
ii
i
it
i
it
x
x
th
thPL
11 )exp(
)exp(
)(
)(
Etude de la variable durée de maintien
Pour l’étude de la variable durée de maintien qui correspond à la durée totale d’un sinistre, seuls les sinistres
réellement sortie d’incapacité ont été conservés.
Les données censurées seraient venues fausser nos résultats puisqu’elles ne sont pas complétement observées.
Le graphique qui suit représente l’histogramme de notre variable durée de maintien et la courbe densité qui
semble lui correspondre.
A la vue de ce graphique , on peut se demander si une loi usuelle ne correspondrait pas à la distribution de
notre variable de durée.
Si tel est le cas, on mélangera dans cette partie à la fois une méthode paramétrique (pour estimer notre
fonction de Survie de base) et le modèle semi paramétrique de Cox (pour ajouter l’effet des variables
explicatives). Plusieurs tests ont donc été effectués au préalable pour déterminer si une loi usuelle pouvait
correspondre à notre variable de durée de maintien.
On peut observer sur les graphes ci-dessous la fonction de répartition de notre variable (tracée en bleu) et la
fonction de répartition de la loi usuelle à laquelle on veut l’ajuster ( tracée en rouge).
Sous chaque graphique on peut observer à la fois les résultat des paramètres estimés pour la loi usuelle testée
et les résultats des tests de Kolmogorov, Cramer et Anderson.
Juste avant la présentation des graphique, une explication rapide du principe de chaque test d’adéquation est
faite.
- Test Kolmogorov-Smirnov
Pour statuer sur le caractère approprié de la fonction de répartition )(xF il est raisonnable de s’intéresser à la
distance qui la sépare de la fonction empirique )(xFn .
Soit )()(sup xFxFD nx
La distance D ne dépend pas de la fonction de répartition supposé F.
La dernière étape repose sur le théorème de Kolmogorov (que nous ne démontrons pas) :
Pour un ensemble de n variables aléatoires iid de fonction de répartition continue F on a
1
21 22
)1(21)()()(i
xii
nexKavecxKxDnP
où K(x) est la fonction de répartition de Kolmogorov.
Pour les faibles valeurs de n on trouve des tables donnant les valeurs critiques aux seuils de risque usuels ;
pour les tailles d’échantillon importantes on peut utiliser les propriétés asymptotiques et donc calculer K(x) .
La valeur du seuil dans notre cas est 0.04784.
- Test Cramer-Von Mises
C’est un test dérivé du test de Kolmogorov mais basé sur la différence quadratique entre les fonctions de
répartition théorique supposée et empirique 2))()(( xFxFn .
Il a comme forme générale l’expression :
)())()(( 2 xdFxFxFQ n
Ce test a une distribution qui, contrairement au test de Kolmogorov, dépend de la distribution supposée et
donc pour lequel la valeur critique varie selon l’hypothèse retenue.
Par ailleurs alors que dans K-S on regarde la distance maximale entre les deux fonctions de répartition ; dans ce
test l’ensemble des observations est considéré.
La statistique de test considérée est la suivante :
n
i
iii xFyavecnn
iyC
1
122 )(12
1)
2
12(
- Tes de Anderson-Darling
C’est un test dérivé du test de Kolmogorov mais basé sur la différence quadratique entre les fonctions de
répartition théorique supposée et empirique 2))()(( xFxFn .
Il a comme forme générale l’expression :
)()(1)(())()((
12 xdFxFxFxFxFQ n
Ce test a une distribution qui, contrairement au test de Kolmogorov, dépend de la distribution supposée et
donc pour lequel la valeur critique varie selon l’hypothèse retenue.
Par ailleurs alors que dans K-S on regarde la distance maximale entre les deux fonctions de répartition ; dans ce
test l’ensemble des observations est considéré.
La statistique de test considérée est la suivante :
n
i
ini yyinnA1
)1()(
12 )1log()log()21(
(On rappelle que l’indice mis entre parenthèse signifie que l’on considère les observations classées par ordre
croissante et que )( )(
1
)( ii xFy )
Loi Normale
Parameters for Normal Distribution
Paramètre Symbole Valeur estimée
Mean Mu 57.16832
Std Dev Sigma 60.19991
Goodness-of-Fit Tests for Normal Distribution
Test Statistique P-value
Kolmogorov-Smirnov D 0.1868454 Pr > D <0.001
Cramer-von Mises W-Sq 11.0400915 Pr > W-Sq <0.001
Anderson-Darling A-Sq 61.0346698 Pr > A-Sq <0.001
Loi Log-Normale
Parameters for Lognormal Distribution
Paramètre Symbole Valeur estimée
Threshold Theta 0
Scale Zeta 3.627267
Shape Sigma 0.923003
Mean 57.58337
Std Dev 66.76134
Goodness-of-Fit Tests for Lognormal Distribution
Test Statistique P-value
Kolmogorov-Smirnov D 0.04271482 Pr > D 0.103
Cramer-von Mises W-Sq 0.18578275 Pr > W-Sq >0.250
Anderson-Darling A-Sq 1.05185559 Pr > A-Sq >0.250
Quantiles for Lognormal Distribution
Pourcentage
Quantile
Observé Estimé
1.0 4.00000 4.39313
5.0 9.00000 8.24051
10.0 13.00000 11.52353
25.0 20.00000 20.18038
50.0 35.00000 37.60989
75.0 71.50000 70.09301
90.0 131.00000 122.74916
95.0 175.00000 171.65246
99.0 298.00000 321.98117
Loi de Weibull
Parameters for Weibull Distribution
Paramètre Symbole Valeur estimée
Threshold Theta 0
Scale Sigma 59.67516
Shape C 1.106743
Mean 57.46644
Std Dev 51.99639
Goodness-of-Fit Tests for Weibull Distribution
Test Statistique P-value
Cramer-von Mises W-Sq 1.7956176 Pr > W-Sq <0.010
Anderson-Darling A-Sq 11.2879531 Pr > A-Sq <0.010
Loi de type Exponentiel
Parameters for Exponential Distribution
Paramètre Symbole Valeur estimée
Threshold Theta 0
Scale Sigma 57.16832
Mean 57.16832
Std Dev 57.16832
Goodness-of-Fit Tests for Exponential Distribution
Test Statistique P-value
Kolmogorov-Smirnov D 0.1082033 Pr > D <0.001
Cramer-von Mises W-Sq 1.8696950 Pr > W-Sq <0.001
Anderson-Darling A-Sq 13.8093020 Pr > A-Sq <0.001
Loi Gamma
Parameters for Gamma Distribution
Paramètre Symbole Valeur estimée
Threshold Theta 0
Scale Sigma 42.78475
Shape Alpha 1.336184
Mean 57.16832
Std Dev 49.45637
Goodness-of-Fit Tests for Gamma Distribution
Test Statistique P-value
Kolmogorov-Smirnov D 0.0982589 Pr > D <0.001
Cramer-von Mises W-Sq 1.9189974 Pr > W-Sq <0.001
Anderson-Darling A-Sq 10.4374604 Pr > A-Sq <0.001
Après plusieurs tests d’ajustement à une loi usuelle, on constate que la p-value est toujours inférieure à 0.05 ce
qui valide toutes nos lois.
Visuellement c’est la loi log-normale qui paraît être la mieux adaptée à notre distribution même si
statistiquement elle ne présente pas les p-value les plus petites.
Les paramètres sont les suivants et sont estimés par méthode du maximum de vraisemblance :
Parameters for Lognormal Distribution
Paramètre Symbole Valeur estimée
Threshold Theta 0
Scale Zeta 3.627267
Shape Sigma 0.923003
Mean 57.58337
Std Dev 66.76134
Le modèle à risques proportionnels de Cox ne fait aucune hypothèse sur la distribution sous-jacente des
données (c'est un modèle distribution-free) dans lequel les prédicteurs sont liés à la durée de vie de façon
multiplicative.
Pour notre modélisation de Cox, on peut donc partir sur l’hypothèse que :
)exp(
))²63.3292.0(exp(63.3292.0
)exp(
))²2(exp(2
)exp(
2
)ln(
0
²
)exp(
0
)exp(
0
63.3
292.0
2
1
2
2
1
1
2
1
)(1)(),;(
xt
e
vv
xt
e
vv
xt
v
xx
dve
dve
dve
tFtSxtS
Dans la partie qui suit, les différentes étapes pour la mise en place d’un modèle de Cox sont présentées. On
part tout d’abord sur l’hypothèse d’une fonction de base déterminée à l’aide de la méthode non-paramétrique
de Kaplan-Meier. On remplacera par la suite cette fonction par l’expression voulue.
Etude des variables explicatives
a. Etude des corrélations
Avant de mettre en place une méthode de COX, une étude préalable a été effectuée afin de déterminer les variables susceptibles d’influer significativement la durée de maintien du sinistre. Pour cela, une étude du niveau des corrélations de Pearson et des p-value correspondantes à ces corrélations a été mise en place. Les résultats sont retranscrits dans les tableaux ci-dessous.
Statistiques simples
Variable N Moyenne Ecart-type Somme Minimum Maximum
duree_maintien 1017 65.97935 76.86066 67101 1.00000 680.00000
Mt_cotisation 1017 49.09866 131.94724 49933 0 2180
Mt_garanti 1017 85740 70032 87197743 0 586555
Franchise 1017 5.35103 10.46825 5442 0 217.00000
age_entree 1017 37.84562 9.55397 38489 20.00000 65.00000
SexeNum 1017 0.46804 0.49922 476.00000 0 1.00000
cible_commerciale 1017 4.78269 1.55065 4864 2.00000 7.00000
Pearson Correlation Coefficients, N = 1017 Prob > |r| under H0: Rho=0
Duree maintien
Mt cotisation
Mt garanti
Franchise Age
entrée Sexe
Cible commerciale
Duree
maintien 1.00000
0.00698
0.8240
0.00406
0.8971
0.19875
<.0001
0.12239
<.0001
-0.01788
0.5689
0.07631
0.0149
Mt
cotisation 0.00698
0.8240
1.00000
0.32220
<.0001
-0.01691
0.5900
0.32321
<.0001
-0.12544
<.0001
-0.01870
0.5514
Mt
garanti 0.00406
0.8971
0.32220
<.0001
1.00000
-0.01483
0.6368
0.01573
0.6163
0.01287
0.6819
-0.26511
<.0001
Franchise 0.19875
<.0001
-0.01691
0.5900
-0.01483
0.6368
1.00000
0.04128
0.1884
0.13634
<.0001
-0.01731
0.5814
Age
entrée 0.12239
<.0001
0.32321
<.0001
0.01573
0.6163
0.04128
0.1884
1.00000
-0.24010
<.0001
0.17372
<.0001
Sexe -0.01788
0.5689
-0.12544
<.0001
0.01287
0.6819
0.13634
<.0001
-0.24010
<.0001
1.00000
-0.39359
<.0001
Cible
commerciale 0.07631
0.0149
-0.01870
0.5514
-0.26511
<.0001
-0.01731
0.5814
0.17372
<.0001
-0.39359
<.0001
1.00000
On peut constater que les variables « Montant de cotisation », « Montant garanti » et « Sexe » ne semblent pas spécialement corrélées avec la variable durée de maintien. Ces variables ne seront donc pas conservées pour la suite de l’étude.
b. Etude des corrélations
Pour la suite de l’étude, Les variables explicatives testées pour le modèle de Cox seront donc les suivantes :
Statistiques simples
Variable N Moyenne Ecart-type Somme Minimum Maximum
duree_maintien 1017 65.97935 76.86066 67101 1.00000 680.00000
Franchise 1017 5.35103 10.46825 5442 0 217.00000
age_entree 1017 37.84562 9.55397 38489 20.00000 65.00000
cible_commerciale 1017 4.78269 1.55065 4864 2.00000 7.00000
Modèles de Cox testés
a. Modèle de Cox sans effet d’interaction
Model Fit Statistics
Criterion Without
Covariates With
Covariates
-2 LOG L 9778.194 9714.594
AIC 9778.194 9728.594
SBC 9778.194 9761.456
Testing Global Null Hypothesis: BETA=0
Test Chi-Square DF Pr > Khi-2
Likelihood Ratio 63.5997 7 <.0001
Score 46.7766 7 <.0001
Wald 53.0048 7 <.0001
Type 3 Tests
Effect DF Wald Chi-Square Pr > Khi-2
Franchise 1 27.7232 <.0001
age_entree 1 14.6879 0.0001
cible_commerciale 5 5.8985 0.3162
Analysis of Maximum Likelihood Estimates
Parameter DDL Parameter
Estimate Standard
Error Chi-
Square Pr > Khi-
2 Hazard
Ratio Label
Franchise 1 -0.02560 0.00486 27.7232 <.0001 0.975
age_entree 1 -0.01540 0.00402 14.6879 0.0001 0.985
cible_commerciale 2 1 0.07837 0.20776 0.1423 0.7060 1.082 cible_commerciale 2
cible_commerciale 3 1 0.07271 0.14412 0.2545 0.6139 1.075 cible_commerciale 3
cible_commerciale 4 1 0.30927 0.16784 3.3952 0.0654 1.362 cible_commerciale 4
cible_commerciale 5 1 0.14448 0.24576 0.3456 0.5566 1.155 cible_commerciale 5
cible_commerciale 6 1 0.02405 0.13799 0.0304 0.8616 1.024 cible_commerciale 6
Les résultats que l’on obtient mettent en évidence la significativité de la variable franchise et de la variable âge
à l’entrée. En revanche, elle infirme celle de la variable « cible commerciale ».
Cependant, si l’on regarde plus attentivement les résultats par valeur de cible, on constate que la p-value de la
variable « cible commerciale » lorsqu’elle est égale à 4 n’est pas très loin d’être significative.
D’ailleurs, on remarque visuellement que la courbe de survie pour cette valeur de la cible commerciale se
démarque particulièrement des autres courbes.
On crée donc une nouvelle variable « cible quatre » qui mettra en exergue le fait d’appartenir au groupe cible
commerciale = 4 (« cible quatre » = 0) ou à un autre (« cible quatre » = 1).
Notre nouveau modèle ne prendra donc plus en compte la variable cible commerciale dans les variables
explicatives et sera remplacée par la variable « cible quatre ».
Les résultats de ce modèle sont présentés dans la partie qui suit.
b. Modèle de Cox sans effet d’interaction et avec une variable cible logistique
Résultats du modèle
Testing Global Null Hypothesis: BETA=0
Test Chi-Square DF Pr > Khi-2
Likelihood Ratio 62.9059 3 <.0001
Score 46.1265 3 <.0001
Wald 52.5517 3 <.0001
Type 3 Tests
Effect DF Wald Chi-Square Pr > Khi-2
Franchise 1 27.5375 <.0001
age_entree 1 17.6368 <.0001
cible_quatre 1 5.2168 0.0224
Analysis of Maximum Likelihood Estimates
Parameter DDL Parameter
Estimate Standard
Error Chi-Square Pr > Khi-2 Hazard
Ratio Label
Franchise 1 -0.02529 0.00482 27.5375 <.0001 0.975
age_entree 1 -0.01598 0.00381 17.6368 <.0001 0.984
cible_quatre 0 1 -0.26422 0.11568 5.2168 0.0224 0.768 cible_quatre 0
Les variables sont toutes significatives pour ce modèle.
La cible 4 semble avoir une tendance à rester moins longtemps en arrêt que les autres cibles. Le ratio de
Hazard pour le groupe de cible dont la valeur vaut 4 est de 0.768 et le paramètre est estimé à - 0.26 (<0) ce
qui confirme cette impression.
De même, plus la franchise est longue et plus la durée de maintien semble propice à s’allongée (paramètre
estimé à -0.025 <0).
La tendance est la même pour la variable âge à l’entrée dont le paramètre est estimé à -0.016(<0).
Cette modélisation est tout à fait cohérente avec ce que l’on s’attend à observer dans la réalité.
En effet, plus l’on est âgé et plus l’on est sujet à des maladies graves et donc plus longues.
De même, plus la durée de franchise est longue, plus l’on est au préalable resté longtemps en arrêt, et donc
plus il y a des chances qu’il s’agisse d’une maladie sérieuse et donc longue.
Ce modèle paraît à première vue satisfaisant.
Pour pouvoir le valider, il faut alors vérifier les hypothèses de proportionnalité et de log normalité des variables
continues.
La partie qui suit présente les résultats de validation.
Validation du modèle
Forme fonctionnelle des variables
Il est important de déterminer la forme fonctionnelle des variables que nous introduisons dans les modèles de
Cox.
Généralement, il est préférable de laisser les variables sous forme continue lorsque cela est possible, car dans
ce cas, on détient plus d’information sur cette variable, l’interprétation est simple et on utilise un seul degré de
liberté pour les tests. Cependant, une variable ne peut rester sous forme continue dans un modèle de Cox qu’à
condition qu’elle satisfasse à une règle. En effet, un changement d’une unité dans la variable continue doit
avoir le même effet sur l’évènement considéré et ce quelle que soit la valeur à partir de laquelle on part. Si cela
n’est pas le cas, nous devons transformer la variable. Différentes possibilités s’offrent à nous : log X, 2 X , X , on
peut aussi découper la variable en quartiles ou bien à la médiane (Klein et Moeschberger, 2003). Il faut ainsi
trouver la meilleure forme possible pour la variable.
Nous disposons de deux outils pour cela :Les résidus martingales et les résidus martingales cumulatifs.
Résidus martingales
Les résidus martingales ont une moyenne égale à 0 et une distribution plutôt asymétrique même si le modèle
ajusté est adéquat. En fait, ils sont une version modifiée des résidus de Cox-Snell. Ils peuvent être interprétés
comme la différence au cours du temps entre le nombre d’évènements observés et le nombre d’évènements
prédit par le modèle de Cox ajusté. (Klein et Moeschberger, 2003).
Si l’on veut trouver la forme fonctionnelle d’une variable continue par exemple, on doit calculer les résidus
martingales à partir du modèle de Cox que l’on veut ajuster mais en excluant la variable qui est actuellement à
l’étude. Ensuite on réalise un graphique sur lequel les résidus martingales se trouvent en ordonnée et les
valeurs de la variable en abscisse. Le graphique des résidus martingales est nécessaire uniquement pour les
variables continues. En effet, ils ne nous apportent aucune information lorsque la variable a 2, 3 ou 4
catégories.
Si l’on obtient une droite, alors on peut conserver la variable sous forme continue.
Dans le cas contraire, on doit essayer de trouver la forme du smooth afin de transformer la variable
adéquatement . Par exemple, si la courbe de lissage a une forme parabolique, une transformation au carré
peut être une bonne idée et si on obtient une fonction en forme d’escalier, on peut découper la variable en
plusieurs catégories. Mais arrivés à cette étape, on est souvent confronté au problème du choix des points de
rupture. Bien sûr, après avoir procédé de cette façon, on teste la significativité de la variable avec un test ajusté
et non pas avec un test ordinaire.
Voici les résultats obtenus dans notre étude.
Les premiers graphiques représentent les résidus de martingale pour la variable « Age à l’entrée » et les
résultats obtenus avec une courbe de lissage par méthode Splines.
On observe ensuite les mêmes graphiques pour la variable « Durée de Franchise ».
Les résidus présentent une forme très éparse et on ne peut pas vraiment définir de forme fonctionnelle
évidente pour cette variable. Ils ne forment ni une courbe en escalier ni une courbe de forme parabolique ou
approchant une forme de courbe usuelle.
On peut constater que la plupart de nos points sont en dehors de l’intervalle de confiance cependant notre
moyenne semble rester autour de 0. Une deuxième étude devra donc être effectuées pour statuer de la
situation de notre variable. Pour cela, nous étudierons un peu plus loin les résidus martingales cumulatifs.
Tout comme pour la variable « Age à l’entrée », les résidus ne forment pas une courbe pouvant approcher une
forme de courbe usuelle.
Les points sont également majoritairement en dehors de l’intervalle de confiance et la moyenne semble rester
autour de 0. Une deuxième étude devra donc être effectuées pour statuer de la situation de notre variable.
Pour cela, nous étudierons un peu plus loin les résidus martingales cumulatifs
Résidus martingales cumulatifs
On peut également utiliser les résidus martingales cumulatifs pour savoir si les variables sont entrées sous la
bonne forme fonctionnelle dans le modèle.
Les graphiques des résidus martingales cumulatifs proposés par Lin, Wei et Ying (1993) sont fournis par SAS
Ainsi, pour chaque covariable spécifiée, on obtient un graphique représentant les résidus martingales
cumulatifs observés versus les valeurs de la covariable. De plus, 20 simulations de résidus réalisées sous
l’hypothèse nulle ( H : La variable est entrée sous une forme adéquate) sont représentées sur chaque
graphique.
Ainsi, si on remarque que les résidus martingales cumulatifs observés diffèrent beaucoup des simulations, cela
signifie que la variable n’est pas entrée sous la bonne forme. Afin de nous aider à savoir s’il y a une différence
significative, le programme nous fournit des seuils observés en plus des graphiques. En effet, un test
supremum du type Kolmogorov basé sur un échantillon de 1000 simulations de résidus peut être réalisé et la p-
value associée à ce test apparaît juste dans le coin droit du graphique. Si le seuil observé est supérieur à 5%, on
considère que la forme de la variable est adéquate et donc aucune transformation n’est nécessaire. En
revanche, si le seuil observé est inférieur à 5%, alors on doit transformer la variable. Les différentes
transformations citées au-dessus dans le paragraphe des résidus martingales sont encore valables. Tout
comme les résidus martingale, les graphiques des résidus martingales cumulatifs ne sont utiles que pour les
variables continues.
Supremum Test for Functional Form
Variable Maximum Absolute Value Replications Seed Pr >
MaxAbsVal
age_entree 13.0059 1000 125015236 0.7210
Franchise 34.0695 1000 125015236 0.0370 Les graphiques semblent confirmer l’hypothèse de fonctionnalité pour la variable « Age à l’entrée ». En effet, le seuil pour cette variable est largement au-dessus de celui de 5% imposé. A contrario, la p-value du test correspondant à la variable « franchise » est en dessous du seuil de 5 %. Ce test a été répété plusieurs fois afin de vérifier que l’on obtenait bien à chaque fois des résultats similaires. Cela a bien été le cas. Il y a donc une réserve sur la forme fonctionnelle de la variable « franchise ». On poursuit tout de même l’étude pour voir les autres aspect e nos variables. On retient tout de même qu’une transformation de la variable « franchise » sera peut-être nécessaire. Hypothèse de proportionnalité des variables
On peut vérifier l’hypothèse de proportionnalité à l’aide des résidus de Schoenfeld. Cependant, en 1994,
Grambsch et Therneau ont proposé de donner un poids aux différents résidus, ce qui a donné naissance aux
résidus de Schoenfeld standardisés. Ils sont plus puissants et plus utilisés que leurs prédécesseurs pour vérifier
l’hypothèse de proportionnalité sur laquelle le modèle de Cox repose.
Ils sont calculés pour chaque individu non censuré et chaque covariable. Ainsi, si nous avons p covariables, il est
nécessaire de réaliser p graphiques sur lesquels, les résidus de Schoenfeld standardisés apparaissent en
ordonnée et le log des temps de suivi en abscisse par exemple. Si la tendance générale des points est une
droite horizontale confondue avec l’abscisse, on peut conclure que l’hypothèse de proportionnalité est
respectée. Si le graphique suggère d’autres patterns, alors il est nécessaire de s’interroger sur la forme de
l’interaction entre la covariable et le temps.
Il est parfois difficile de pouvoir affirmer de manière objective que les points tiennent sur une droite
horizontale. Ces graphiques, placent souvent leur utilisateurs dans une situation légèrement délicate pour
prendre une décision. En cas d’ambiguïté, il existe une autre méthode basée sur les résidus du score qui cette
fois-ci nous fournit des graphiques et des p-values. Exactement comme pour les résidus martingales cumulatifs,
un test supremum du type Kolmogorov basé sur un échantillon de 1000 simulations de résidus est réalisé et la
p-value associée à ce test apparaît juste dans le coin droit du graphique. Si le seuil observé est supérieur à 1%,
on valide l’hypothèse de proportionnalité.
Résidus de Schoenfeld
Comme prévu, il est extrêmement difficile de déterminer si les résidus tiennent sur une droite horizontale. Il est vrai qu’à première vue, ils semblent éparse pour la variable « âge à l’entrée » et beaucoup plus rassemblés pour la variable « durée de Franchise ». Cependant, les échelles utilisées sont différentes et on peut largement émettre un doute sur les premières conclusions que l’on pourrait faire. Quant à la variable « cible quatre », est très compliqué de se prononcer sur cette variable avec ce genre de résultat graphique. Une étude des résidus de scores standardisés est donc faite dans la partie qui suit afin de lever le doute qui
subsiste sur ces variables.
Processus de Score standardisé
Supremum Test for Proportionals Hazards Assumption
Variable Maximum Absolute Value Replications Seed Pr >
MaxAbsVal
Franchise 4.1949 1000 140902858 <.0001
Age entrée 0.9120 1000 140902858 0.2990
cible_quatre0 0.5976 1000 140902858 0.7650
L’hypothèse de proportionnalité est validée pour les variables « âge à l’entrée » et « cible quatre ». En revanche, elle ne l’est pas du tout pour la variable durée de Franchise. Peut-être qu’une catégorisation de cette variable permettrait de la rendre plus adaptée au modèle. Validation globale du modèle
Dans un modèle de Cox, nous avons une variable réponse qui correspond aux temps de suivi jusqu’à ce que
l’individu sorte de l’arrêt ou jusqu’à ce qu’il quitte l’étude ainsi qu’une variable censure c qui est égale à 1 si
l’individu a effectivement fait l’évènement, 0 sinon.
Ainsi le résidu de Cox-Snell iR calculé pour l’individu i avec un temps de suivi it et un vecteur de covariables
ix est défini de la façon suivante :
)),(ˆlog( iii xtSR
Sous l’hypothèse nulle que le modèle est adéquat, si l’on remplace S par son estimateur S alors, iR suit
approximativement une exponentielle de paramètre 1. Ensuite, on considère que les iR deviennent les temps
de suivi pour chaque individu i et c reste la variable censure. On va alors estimer la fonction de survie )(ˆ RS à
l’aide de la méthode du Kaplan Meier.
Pour terminer, on réalise un graphique où ))(ˆlog( RS apparaît en ordonnée et R en abscisse. Si les points
tiennent sur une droite à 45°, on peut en déduire que le modèle à risques proportionnels ajusté est approprié.
Dans le cas contraire, on doit chercher à comprendre pourquoi le modèle est inadéquat.
Pour valider le modèle on peut également avoir recourt aux résidus de déviance qui ressemblent le plus aux
résidus utilisés en régression linéaire.
Ils ont une moyenne égale à 0 et un écart type à peu près égal à 1. Ils sont négatifs pour les individus qui ont
un temps de suivi plus long que celui que le modèle prévoyait et ils sont positifs pour les individus qui ont un
temps de suivi plus court que celui que le modèle prévoyait. Ils sont calculés pour tous les individus qu’ils
soient censurés ou non.
Ils sont symétriquement distribués autour de 0 lorsque le modèle ajusté est adéquat (Lee et Wang, 2003).
Sur les graphiques, les résidus de déviance apparaissent en ordonnée tandis qu’en abscisse, on peut mettre le
temps de suivi. L’apparition d’un pattern particulier peut nous laisser penser que le modèle est peu ou pas
adéquat.
Cependant, si le pourcentage d’individus censurés est important (>40%), il est possible qu’on observe un
pattern particulier sans que cela signifie que le modèle ajusté n’est pas adéquat (Tableman et Kim, 2004).
Résidus de Cox-Snell
Résidus de Déviance
Le graphique des résidus de Cox-Snell nous amène à une validation du modèle tandis que celui des résidus de
déviance est moins évident à valider. Le cas de la variable « Durée de franchise » reste problématique puisque
ni l’hypothèse de proportionnalité ni la forme fonctionnelle ne sont validées pour cette variable. On peut alors
tenter un nouveau modèle où l’on remplacera la variable franchise par une variable catégorielle ou une
transformation fonctionnelle. Ce test a été fait mais n’a pas abouti à des résultats meilleurs que ceux observés
ici. De plus, la variable franchise ne présente pas de fractionnement évident permettant de valider l’hypothèse
de proportionnalité et la significativité de la variable. On a donc opté pour un modèle ne prenant pas en
compte cette variable et dont les résultats sont présentés dans la partie qui suit.
c. Modèle de Cox sans la variable Franchise
Résultat du modèle
Model Fit Statistics
Criterion Without
Covariates With
Covariates
-2 LOG L 9778.194 9752.138
AIC 9778.194 9756.138
SBC 9778.194 9765.527
Testing Global Null Hypothesis: BETA=0
Test Chi-Square DF Pr > Khi-2
Likelihood Ratio 26.0554 2 <.0001
Score 26.1375 2 <.0001
Wald 26.0052 2 <.0001
Type 3 Tests
Effect DF Wald Chi-Square Pr > Khi-2
cible_quatre 1 7.0347 0.0080
age_entree 1 18.1485 <.0001
Analysis of Maximum Likelihood Estimates
Parameter DDL Parameter
Estimate Standard
Error Chi-Square Pr > Khi-2 Hazard
Ratio Label
cible_quatre 0 1 -0.30627 0.11547 7.0347 0.0080 0.736 cible_quatre 0
age_entree 1 -0.01623 0.00381 18.1485 <.0001 0.984 Validation du modèle
Résidus martingales
Résidus martingales cumulatifs
Résidus de Schoenfeld
Processus de validation de Score
Supremum Test for Proportionals Hazards Assumption
Variable Maximum Absolute Value Replications Seed Pr >
MaxAbsVal
Franchise*age_entree 15.6169 1000 74988028 <.0001
Age entrée 1.1841 1000 74988028 0.2320
Franchise 16.9708 1000 74988028 <.0001
cible_quatre0 0.6049 1000 74988028 0.7370
Résidus de Cox-Snell
Résidus de déviance
Tous nos tests nous amènent à une validation globale de notre modèle.
Le modèle ainsi validé considère une fonction de base calculée à l’aide de la méthode de Kaplan-
Meier. L’idée est de remplacer cette fonction de base par la fonction usuelle lognormale.
La nouvelle forme de notre fonction de survie est donc la suivante :
)exp(
))²63.3292.0(exp(63.3292.0)exp(
063.3
292.0
2
1)(1),;(
xt
e
vvxdvexFxtS
avec
01623.0
30627.0 et
quatrecible
agex
_
d. Modèle de survie : résultats graphiques
Résultats table de maintien pour les cibles professionnelles différentes de 4 (cible_quatre = 1)
mo
is 0
mo
is 3
mo
is 6
mo
is 9
mo
is 1
2
mo
is 1
5
mo
is 1
8
mo
is 2
1
mo
is 2
4
mo
is 2
7
mo
is 3
0
mo
is 3
3
mo
is 3
6
-
1 000,00
2 000,00
3 000,00
4 000,00
5 000,00
6 000,00
7 000,00
8 000,00
9 000,00
10 000,00
16 ans
25 ans
34 ans
43 ans
52 ans
61 ans
9 000,00 - 10 000,00
8 000,00 - 9 000,00
7 000,00 - 8 000,00
6 000,00 - 7 000,00
5 000,00 - 6 000,00
4 000,00 - 5 000,00
3 000,00 - 4 000,00
2 000,00 - 3 000,00
1 000,00 - 2 000,00
- - 1 000,00
Résultats table de maintien pour la cible professionnelles 4 (cible_quatre = 0)
Le modèle obtenu amène à des estimation tout à fait cohérente de nos durée de maintien. On remarque que la
pente de notre surface est légèrement plus accentué dans le cas d’une cible professionnelle égale à 4. Cela
équivaut à dire que cette population a tendance à restermoins longtemps en état d’arrêt de travail lorsqu’on la
compare au reste de la population.
L’inconvénient du modèle est que cette forme de loi amène à considérer deux tables de maintien : une dans le
cas de la cible commerciale valant 4 et une autre lorsque ce n’est pas le cas. L’entreprise s’étant engagée à
faire certifier une unique table pour le provisionnement, le duo de ces tables ne pourra pas être pris en compte
dans ce cadre puisque cela reviendrait à une double certification. Elles sont néanmoins utilisables dès à présent
pour les prochaines tarifications de produits prévoyance. Elles pourrait cependant encore approfondir l’étude
en testant de nouvelles formes fonctionnelles de nos variables, en ajoutant des variables explicatives
potentiellement pertinentes, en y intégrant de nouveaux produits ou en testantune nouvelle loi paramétrique.
Ce genre de modèle sera peut-être aussi très adapté à l’estimation de taux d’entrée en incapacité. Le temps
imparti pour ce mémoire n’a pas permis d’étudier cet aspect.
mo
is 0
mo
is 3
mo
is 6
mo
is 9
mo
is 1
2
mo
is 1
5
mo
is 1
8
mo
is 2
1
mo
is 2
4
mo
is 2
7
mo
is 3
0
mo
is 3
3
mo
is 3
6
-
1 000,00
2 000,00
3 000,00
4 000,00
5 000,00
6 000,00
7 000,00
8 000,00
9 000,00
10 000,00
16 ans
25 ans
34 ans
43 ans
52 ans
61 ans
9 000,00 - 10 000,00
8 000,00 - 9 000,00
7 000,00 - 8 000,00
6 000,00 - 7 000,00
5 000,00 - 6 000,00
4 000,00 - 5 000,00
3 000,00 - 4 000,00
2 000,00 - 3 000,00
1 000,00 - 2 000,00
- - 1 000,00
0
20
40
60
80
100
120
140
160
180
200 Statistique du khi 2Seuil de la statistique du Khi 2
G. Impact sur le service
I. Positionnement par rapport aux expositions réelles Deux tables ont donc été retenues comme pouvant être potentiellement proposées à la certification. Pour éclairer le choix définitif de la table à certifier, un test d’adéquation du khi-2 a été mis en place sur les
deux tables pour déterminer l’éloignement entre l’estimation des tables et les expositions réelles du
portefeuille.
a. Description du test d’adéquation du Khi-2
Dans un premier temps le test a été réalisé pour chaque âge et dans un second temps pour chaque mois.
b. Résultats des tests du KHI-2 pour la première table retenue (KMWH23)
Résultat pour le test du Khi 2 par âge
On constate que l’hypothèse H1 n’est pas systématiquement rejetée selon l’âge auquel on se place. Pour certains âges l’écart semble réellement important. On remarque des pics particulièrement élevés pour les âges 24 ans, 29 ans, 35 ans , 53 ans, 54 ans, 57 ans, 60 ans et 63 ans. Le résultat est donc plutôt mitigé à ce niveau. Dans tous les cas, on sait que les écarts de la statistique du Khi 2 sont dus à des surestimations des expositions ce qui signifie que notre table est un peu trop prudente comparativement à la réalité. De plus, notre portefeuille n’est pas extrêmement bien fourni. On souffre d’un manque de données qui peut influencer les résultats du test.
0
20
40
60
80
100
120m
ois
2
mo
is 3
mo
is 4
mo
is 5
mo
is 6
mo
is 7
mo
is 8
mo
is 9
mo
is 1
0
mo
is 1
1
mo
is 1
2
mo
is 1
3
mo
is 1
4
mo
is 1
5
mo
is 1
6
mo
is 1
7
mo
is 1
8
mo
is 1
9
mo
is 2
0
mo
is 2
1
mo
is 2
2
mo
is 2
3
mo
is 2
4
mo
is 2
5
mo
is 2
6
mo
is 2
7
mo
is 2
8
mo
is 2
9
mo
is 3
0
mo
is 3
1
mo
is 3
2
mo
is 3
3
mo
is 3
4
mo
is 3
5
mo
is 3
6
Statistique du khi 2
Seuil de la statistique du Khi 2
0
50
100
150
200
250
300
350
400
Stat
isti
qu
e_kh
i…
Stat
isti
qu
e_kh
i…
Stat
isti
qu
e_kh
i…
Stat
isti
qu
e_kh
i…
Stat
isti
qu
e_kh
i…
Stat
isti
qu
e_kh
i…
Stat
isti
qu
e_kh
i…
Stat
isti
qu
e_kh
i…
Stat
isti
qu
e_kh
i…
Stat
isti
qu
e_kh
i…
Stat
isti
qu
e_kh
i…
Stat
isti
qu
e_kh
i…
Stat
isti
qu
e_kh
i…
Stat
isti
qu
e_kh
i…
Stat
isti
qu
e_kh
i…
Stat
isti
qu
e_kh
i…
Stat
isti
qu
e_kh
i…
Stat
isti
qu
e_kh
i…
Stat
isti
qu
e_kh
i…
Stat
isti
qu
e_kh
i…
Stat
isti
qu
e_kh
i…
Stat
isti
qu
e_kh
i…
Stat
isti
qu
e_kh
i…
Stat
isti
qu
e_kh
i…
Stat
isti
qu
e_kh
i…
Stat
isti
qu
e_kh
i…
Stat
isti
qu
e_kh
i…
Stat
isti
qu
e_kh
i…
Stat
isti
qu
e_kh
i…
Stat
isti
qu
e_kh
i…
Stat
isti
qu
e_kh
i…
Stat
isti
qu
e_kh
i…
Stat
isti
qu
e_kh
i…
Stat
isti
qu
e_kh
i…
Stat
isti
qu
e_kh
i…
Stat
isti
qu
e_kh
i…
Stat
isti
qu
e_kh
i…
Stat
isti
qu
e_kh
i…
Stat
isti
qu
e_kh
i…
Stat
isti
qu
e_kh
i…
Stat
isti
qu
e_kh
i…
Stat
isti
qu
e_kh
i…
Stat
isti
qu
e_kh
i…
Stat
isti
qu
e_kh
i…
Stat
isti
qu
e_kh
i…
Statistique du khi 2
Seuil de la statistique du Khi 2
Résultat pour le test du Khi 2 par mois
Le test du Khi 2 réalisé par mois donne également des résultats mitigés. On voit que pour les mois situés entre
le 12ème
et le 31ème
mois, il y a une légère tendance à la surestimation.
Tant que cette tendance va dans le sens de la surestimation des expositions réelles cela ne pose pas réellement
problème. Il faut garder en mémoire qu’outre ce test la table présentement étudiée respecte toutes les autres
conditions en termes d’intervalles de confiances.
On va donc émettre un petit bémol sans pour autant mettre cette table de côté.
La même étude est alors effectuée sur la deuxième table retenue.
c. Résultats des tests du Khi-2 pour la seconde table retenue (EASplines)
Résultat pour le test du Khi 2 par âge
0
20
40
60
80
100
120
140
160
180
200
mo
is 2
mo
is 3
mo
is 4
mo
is 5
mo
is 6
mo
is 7
mo
is 8
mo
is 9
mo
is 1
0
mo
is 1
1
mo
is 1
2
mo
is 1
3
mo
is 1
4
mo
is 1
5
mo
is 1
6
mo
is 1
7
mo
is 1
8
mo
is 1
9
mo
is 2
0
mo
is 2
1
mo
is 2
2
mo
is 2
3
mo
is 2
4
mo
is 2
5
mo
is 2
6
mo
is 2
7
mo
is 2
8
mo
is 2
9
mo
is 3
0
mo
is 3
1
mo
is 3
2
mo
is 3
3
mo
is 3
4
mo
is 3
5
mo
is 3
6
Statistique du khi 2
Résultat pour le test du Khi 2 par mois
Les résultats des tests sont encore moins « bons » que ceux obtenus avec la table KMWH23 qu’il s’agisse du
test par âge d’exposition ou de celui pour chaque mois. Ce dernier test est par ailleurs systématiquement
rejeté.
Au vu de ce dernier test, la table KMWH23 est largement préférable à la table EASplines et va donc être la table
retenue pour la certification. On va maintenant étudier l’impact que pourrait avoir l’utilisation de cette table
nouvelle table sur le provisionnement.
II. Ajustement de la table de passages
a. Choix d’une technique d’ajustement
En pratique, la table de maintien jusqu’ici utilisée au sein du service intervenait non seulement dans le calcul
des provisions pour le maintien en incapacité, mais aussi dans celui des provisions pour les passages en
invalidité.
Lorsque l’on a sélectionné la table KMWH23 et que l’on a voulu tester son impact sur le provisionnement et les
résultats techniques, le souci de la table de passages s’est présenté puisque la table de passage associée à
l’ancienne table ne convenait plus à la nouvelle table créée.
Plusieurs alternatives ont été envisagées pour régler ce désagrément. Bien entendu la première solution
envisagée a été la construction d’une table de passages adaptée à la nouvelle table. Cependant, le manque de
données disponibles ne permettait pas de réaliser ce travail. Il a donc fallu réfléchir à d’autres moyens.
Dans un second temps l’idée a alors été de tenter un ajustement pour garder les mêmes probabilités de
passages pour un moment et pour un âge donnés.
mo
is 0
mo
is 3
mo
is 6
mo
is 9
mo
is 1
2
mo
is 1
5
mo
is 1
8
mo
is 2
1
mo
is 2
4
mo
is 2
7
mo
is 3
0
mo
is 3
3
0
0,005
0,01
0,015
0,02
0,025
âge 16âge 24
âge 32
âge 40
âge 48
âge 56
âge 64
0,02-0,0250,015-0,020,01-0,0150,005-0,01
Pour cela il a fallu vérifier l’égalité suivante :
),(
),(
),(
),(
_
_
_
_
txl
txl
txl
txl
blenouvelletaMAINTIEN
AjustéPASSAGE
ActuelMAINTIEN
ActuelPASSAGE
Nous avons donc multiplié tous nos ),(_ txl ActuelPASSAGE par le rapport),(
),(
_
_
txl
txl
ActuelMAINTIEN
blenouvelletaMAINTIEN.
b. Représentation graphique des taux de passages
Voici une représentation graphique des taux de passages :
Les taux de passages présentent une allure cohérente. On les voit augmenter avec le mois de maintien et on
observe un pic pour les âges du milieu c'est-à-dire entre 30 et 50 ans.
III. Impact sur le provisionnement La table maintenant sélectionnée, on s’est intéressée à son impact sur le provisionnement et sur les résultats techniques liés aux produits concernés. Le comparatif a été fait sur les triangles de liquidation vus à fin avril 2014.
a. Description des formules de provisionnement
Comme expliqué précédemment, le calcul des provisions pour le maintien en incapacité et le passage en
invalidité fait intervenir la table d’expérience de maintien en incapacité.
En ce qui concerne le calcul de provision pour l’invalidité, c’est l’utilisation de la table de maintien en invalidité
fourni par le BCAC qui est utilisée.
On s’intéresse ici aux formules permettant de déterminer :
- Les provisions pour le maintien en incapacité, communément appelées PSAP (« Provision pour Sinistres à
Payer »)
- Les provisions pour le passage en invalidité correspondant aux PSAPR (« Provision pour Sinistres à
Payer en Rentes »)
- Les provisions de maintien en invalidité, connues sous l’appellation PMR (« Provision de Maintien de
Rentes »), qui interviennent dans le calcul des PSAPR.
Calcul de la provision pour sinistre à payer
Pour un individu i, on considère les variables suivantes :
- x , âge de l’assuré à l’entrée en incapacité :
25,365/)'( naissancededateincapacitéenentréeddatex
- t , ancienneté de l’arrêt en mois :
25,365
12)''( Sinistreduévènementddateinventaireddatet
- d , la durée de provisionnement :
25,365
12)'( Sinistreduévènementddategarantiedefindedated
- xt , taux d’intérêt technique
- ),( txlincap , nombre d’incapables d’âge x et d’ancienneté t de la table de maintien en incapacité
- ),( txCPSAP, coefficient de provisionnement pour un incapable d’âge à l’arrêt x et ancienneté d’arrêt t
La formule du coefficient de provisionnement est facile à calculer pour des âges et des anciennetés qui
donnent des nombres entiers.
En effet, si l’âge et l’ancienneté de l’assuré sont des nombres entiers, le coefficient de provisionnement
correspond à :
td
k incap
incap
k
x
PSAPtxl
ktxl
ttxC
1 ),(
),(
)1(
1);(
En pratique, le fait est que l’on a en général des nombres décimaux.
On procède alors à une interpolation du coefficient de provisionnement de la façon suivante :
Si 1 dt
On considère :
),(),1()(),(1 txCtxCxxtxCC PSAPPSAPPSAP
)1,()1,1()()1,(2 txCtxCxxtxCC PSAPPSAPPSAP
On obtient alors : )()(),( 121 CCttCtxCPSAP
Si dt
0),(012 txCdoncCC PSAP
Si 1 dt
)(),(0 112 ttCCtxCdoncC PSAP
On introduit ensuite les notions :
- d’ancienneté de l’arrêt à la date d’observation (date à laquelle on calcule les provisions) qu’on appellera
Ot
- d’ancienneté de l’arrêt à la date de fin de règlement (date où on observe le dernier règlement effectué de
ce sinistre) qu’on appellera FRt
On détermine ensuite la probabilité ienmaP int
que ce sinistre ne soit pas sortie de l’incapacité entre ces deux
dates (cela permet d’affiner les provisions).
),(
),(int
FRx
Oxienma
txl
txlP
Finalement, la PSAP s’obtient par la formule suivante :
ienmaPSAP PionindemnisatdTauxGARANTIMONTANTtxCPSAP int'),(
Calcul de la provision pour maintien de rentes
Pour un individu i, on considère les variables suivantes :
- x , âge de l’assuré à l’entrée en incapacité :
25,365/)'( naissancededateinvaliditéneentréeddatex
- t , ancienneté de l’arrêt en mois :
25,365
12)''( Sinistreduévènementddateinventaireddatet
- d , la durée de provisionnement :
25,365
12)'( Sinistreduévènementddategarantiedefindedated
- xt , taux d’intérêt technique
- ),( txlinval, nombre d’invalides d’âge x et d’ancienneté t de la table de maintien en invalidité
- ),( txCPMR , coefficient de provisionnement pour un invalide d’âge à l’arrêt x et ancienneté d’arrêt t
Si l’âge et l’ancienneté de l’assuré sont des nombres entiers, le coefficient de provisionnement correspond à :
td
k inval
inval
k
x
PMRtxl
ktxl
ttxC
1 ),(
),(
)1(
1);(
Comme pour le calcul de la PSAP, on procède par une interpolation du coefficient de provisionnement de la
façon suivante :
Si xdt
On considère :
),(),1()(),(1 txCtxCxxtxCC PMRPMRPMR
)1,()1,1()()1,(2 txCtxCxxtxCC PMRPMRPMR
On obtient alors : )()(),( 121 CCttCtxCPMR
Si xdt
0),(012 txCdoncCC PMR
Si 1 xdt
)(),(0 112 ttCCtxCdoncC PMR
La formule finale de la PMR est alors :
ionindemnisatdTauxGARANTIMONTANTtxCPMR PMR '),(
Calcul de la provision pour sinistres à payer en rentes
Pour un individu i, on considère les variables suivantes :
- x , âge de l’assuré à l’entrée en incapacité :
25,365/)'( naissancededateincapacitéenentréeddatex
- t , ancienneté de l’arrêt en mois :
25,365
12)''( Sinistreduévènementddateinventaireddatet
- d , la durée de provisionnement :
25,365
12)'( Sinistreduévènementddategarantiedefindedated
- xt , taux d’intérêt technique
- ),( txlincap , nombre d’incapables d’âge x et d’ancienneté t de la table de maintien en incapacité
- ),( txlpassage , nombre d’incapables d’âge x passant en invalidité en t de la table de passages en
invalidité
- ),( txCPSAPR, coefficient de provisionnement pour un incapable d’âge à l’arrêt x et d’ancienneté d’arrêt
t
Le calcul de la PSAPR est un peu différent puisqu’il considère dans certains cas la méthode d’interpolation, et
dans d’autre cas non.
Si 24 td
Dans ce cas on ne fait pas d’interpolation, et on considère que le coefficient de provisionnement vérifie la
formule suivante :
)0,3(),(
),(
)1(
1
)0,2(),(
),(
)1(
1
)0,1(),(
),(
)1(
1
);();(
24
23
12
11
1
xCtxl
ktxl
t
xCtxl
ktxl
t
xCtxl
ktxl
t
txCtxC
PMR
td
k incap
passage
k
x
PMR
k incap
passage
k
x
PMR
k incap
passage
k
x
PSAPRPSAPR
Si 2412 td
Ici on procède à une interpolation. La formule pour x et t nombres entiers est la suivante :
)0,2(),(
),(
)1(
1
)0,1(),(
),(
)1(
1
);(
12
11
1
xCtxl
ktxl
t
xCtxl
ktxl
t
txC
PMR
td
k incap
passage
k
x
PMR
k incap
passage
k
x
PSAPR
On considère :
),(),1()(),(1 txCtxCxxtxCC PSAPRPSAPRPSAPR
)1,()1,1()()1,(2 txCtxCxxtxCC PSAPRPSAPRPSAPR
On a alors : )()(),( 121 CCttCtxCPSAPR
Si 122 td
On procède à une interpolation. La formule pour x et t nombres entiers est la suivante :
)0,1(),(
),(
)1(
1
);(
1
xCtxl
ktxl
t
txC
PMR
td
k incap
passage
k
x
PSAPR
On considère :
),(),1()(),(1 txCtxCxxtxCC PSAPRPSAPRPSAPR
)1,()1,1()()1,(2 txCtxCxxtxCC PSAPRPSAPRPSAPR
On a alors : )()(),( 121 CCttCtxCPSAPR
Si 1 td
On procède à une interpolation. La formule pour x et t nombres entiers est la suivante :
)0,1(),(
)1,(
)1(
1
);(
xCtxl
txl
t
txC
PMR
incap
passage
x
PSAPR
On considère : ),(),1()(),(1 txCtxCxxtxCC PSAPRPSAPRPSAPR
Et on a alors )(),( 11 ttCCtxCPMR
Si 0 td
0),( txCPMR
La formule finale de la PSAPR est alors :
ionindemnisatdTauxGARANTIMONTANTtxCPSAPR PSAPR '),(
b. Conséquences sur les S/P
On a donc déterminé l’impact sur l’évolution des S/P et la différence sur les montants de provisionnement. Les tableaux qui suivent présentent les différences entre les S/P obtenue avec la nouvelle table testée et ceux
obtenus avec l’ancienne table.
Résultats obtenus avec la table KMWH23
Les résultats obtenus avec la table KMWH23 correspond à ce à quoi l’on s’attendait. En effet, lorsque l’on
étudie le provisionnement global tous produits confondus, on s’aperçoit que la table KMWH23 demande de
provisionner 24 millions d’euros en plus par rapport à l’ancienne table
On constate également que les S/P augmentent d’une façon non négligeable avec cette nouvelle table.
Cependant on s’attend à ce qu’à l’avenir l’effet de creux observé avec l’ancienne table lors du provisionnement
ne se présente plus ou soit moindre. Ce creux perpétuant des boni et des mali fictifs d’amplitude très élevée
semblent générés par une mauvaise coordination de la table d’expérience jusqu’ici utilisée et les données du
portefeuille. A cela s’ajoute également une gestion délicate de certains cas de sinistres pouvant entrainer des
fermetures de dossier puis des réouvertures de ces dossiers.
Année COTISATIONS S/P Nouvelle Table Ancien S/P Différence des S/P
2004 104 574 19,07 19,07 0,0%
2005 6 774 037 0,62 0,62 0,0%
2006 13 673 692 0,65 0,65 0,0%
2007 21 703 545 0,93 0,93 0,0%
2008 30 671 231 0,99 0,98 0,6%
2009 40 029 001 0,84 0,84 0,0%
2010 48 632 871 1,00 0,99 0,4%
2011 56 019 484 1,25 1,15 9,6%
2012 70 740 633 1,10 1,01 9,2%
2013 78 581 655 1,00 0,90 10,1%
2014 28 072 505 0,84 0,73 11,0%
CUMUL 395 003 226 1,00 0,95 5,9%
CUMUL hors 2014 366 930 721 1,02 0,96 5,5%
Année COTISATIONS S/P Nouvelle Table Ancien S/P Différence des S/P
2004
2005
2006
2007
2008
2009 68 733 594 0,55 0,56 -0,3%
2010 68 773 799 0,61 0,61 -0,4%
2011 73 470 374 0,66 0,62 4,6%
2012 77 362 682 0,90 0,82 7,2%
2013 79 555 475 0,77 0,71 6,1%
2014 36 167 701 0,27 0,28 -0,3%
CUMUL 2009-2012 404 063 624 0,69 0,66 2,9%
CUMUL 2009-2013 367 895 923 0,70 0,67 3,6%
YX
Conclusion La mutation continue du secteur de la Prévoyance en France a fait de ce secteur une plate-forme reliant des
problématiques d’aspect social, juridique, financier, et actuariel de ce domaine. Cette interaction perpétuelle
permet une évolution de l’organisation de ce secteur et des méthodes qui y sont utilisées. C’est aussi un moyen
de rester toujours attentifs aux divers mouvements qui impactent le monde de la prévoyance et de mettre à
jour continuellement les outils utilisés.
La table de certification qu’a entreprit de construire le service Prévoyance de la Direction des Professionnels et
Petites Entreprises (DMPROPE) est un reflet de ce besoin d’ajustement perpétuel qui doit être réalisé lorsque
l’on gère les garanties liées à un contrat de prévoyance pour des travailleurs non-salariés (catégorie bien
spécifique de la population).
Ce projet a démarré dès le traitement des données qui a permis in fine l’obtention d’une base moyennement
fournie en nombre de sinistres mais proprement traitée et reflétant au mieux les réalités du portefeuille.
Lors des études statistiques de ces données, les résultats ont été en cohérence avec les études réalisés
jusqu’alors sur ce portefeuille et ont apporté des informations sur certains points caractérisant les populations
rattachées aux produits proposés par Generali. On pressent notamment que l’existence de plusieurs
générations de produits d’âges plus ou moins récents vient interférer sur les comportements des assurés. La
maturité de ces nouvelles générations de produit ne permet donc pas nécessairement d’effectuer des études
approfondies.
De plus, certains facteurs influents sur la sinistralité et sur la durée du sinistre ont pu être mis en évidence ce
qui permettra peut-être par la suite un ajustement des provisions et/ou des tarifs en fonction de ces facteurs
influents.
Lors de la mise en place du modèle et de la réalisation des tables d’expérience, on a pu constater que plusieurs
méthodes actuarielles pouvaient être choisies pour construire la table d’expérience.
Aux vues des tests effectués sur les différentes méthodes mises en place, on a vu que certaines tables étaient
mieux adaptées à la réalité des données et menaient à des résultats plus cohérents. Pour chaque estimateur
des taux bruts de sortie, une méthode différente de lissage a semblé menée à un résultat cohérent. Un dernier
test d’égalité du KHI2 sur les expositions effectives et théoriques a permis un choix définitif de la table à garder.
L’adaptation au contexte entrepreneuriale ne donne pas forcément une liberté totale quant au choix du
modèle. Le modèle de Cox par exemple semble tout à fait adapté à la problématique de ce mémoire et abouti à
des résultats parfaitement convenables mais ne pas être mis en place dans le cadre d’une certification de
tables de provisionnement. Il est cependant adapté aux problématiques de tarification.
La table finalement choisie est celle que l’on a appelé KMWH23 correspondant à un estimateur des taux bruts
de Kaplan Meier et à un lissage de Whittaker-Henderson avec des coefficients de pondération égaux à 2, un
ordre de lissage verticale égal à 2 et un ordre de lissage horizontale égal à 3. Une étude de l’impact de cette
table sur les provisions du service a été réalisée et a permis de repositionner les provisions futures liées aux
sinistres des populations des travailleurs salariés à la hausse.
Annexes
Annexe 1 : courbe intervalles de confiance Age 33 ans et 45 ans pour EASplines ........................................... 129
Annexe 2 : Surface de confiance pour EASplines .............................................................................................. 130
Annexe 1 : courbe intervalles de confiance Age 33 ans et 45 ans pour
EASplines
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36
borne sup Sx_33
Sx lissé 33
borne inf Sx_33
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36
borne sup Sx_45
Sx lissé 45
borne inf Sx_45
Annexe 2 : Surface de confiance pour EASplines
mo
is 0
mo
is 5
mo
is 1
0
mo
is 1
5
mo
is 2
0
mo
is 2
5
mo
is 3
0
mo
is 3
5
-0,08
-0,06
-0,04
-0,02
0
0,02
0,04
Age
19
Age
23
Age
27
Age
31
Age
35
Age
39
Age
43
Age
47
Age
51
Age
55
Age
59
Age
63
0,02-0,04
0-0,02
-0,02-0
-0,04--0,02
-0,06--0,04
-0,08--0,06
Bibliographie
[1] OPTIMIND [2010], «La Prévoyance Les nouveaux enjeux : réglementation,maintien et Solvabilité II », Les Dossiers
Techniques d’information Optimind.
[2] J. DUBOIS [2008] «Construction de tables d'expérience pour les rentes», Mémoire d’Actuariat.
[3] F. PLANCHETet A. KAMEGA [2010], «Mesure du risque d'estimation associé à une table d'expérience», Univ-Claude
Bernard Lyon1 ,ISFA,Winter et Associés, Etude.
[4] F. PLANCHET et P. THEROND [2006] « Modèle de durée, Application actuarielle », Assurance Audit Actuariat.
[5] S.LOLLIVIER [1990], «MODELES UNIVARIES ET MODELES DE DUREE SUR DONNEES INDIVIDUELLES», ENSAE, Etude.
[6] C. MCCREERY, D.PHIL [2007] «THE CHI-SQUARE TEST : A test of association between categorical variables», OXFORD
FORUM Psychological Paper No. 2007-1.
[7] L. VIEL et F. LIMOGE, «Réforme de la complémentaire santé : les décrets sur les contrats responsables, l'ANI et l'ACS
enfin précisés» [2014], Argus de l’assurance, Article.
[8] L. VIEL, «Complémentaire santé : Marisol Touraine dévoile les arbitrages sur les contrats responsables» [2014], Argus de
l’assurance, Article.
[9] A. LAMBERT, « la situation et les perspectives du secteur des assurances en France.» [1998], RAPPORT D'INFORMATION
45 (98-99), Tome 1, 1ere Partie - COMMISSION DES FINANCES.
[10] E. TISSOT, «Loi de finances 2014 : modification des règles d’imposition des cotisations patronales de prévoyance» [2014],
Dossier de Synthèse, Edissions Tissot, Article.
[11] MINISTERE DES AFFAIRES SOCIALES ET DE LA SANTE ET MINISTERE DE L’ECONOMIE ET DES FINANCES, «Circulaire du 25
septembre 2013 » [2013], CIRCULAIRE N°DSS/SD5B/2013/344.
[12] N.HERMAL «Prévoyance Madelin, le principe» [2014] , LeFigaro, Article.
[13] LEFIGARO, « Maintenir son salaire en cas d'arrêt maladie » [2012], LeFigaro, Article.
[14] ASSEMBLEE NATIONALE, « LOI n° 2013-504 du 14 juin 2013 relative à la sécurisation de l'emploi » [2013], Texte de Loi.
[15] ASSEMBLEE NATIONALE, «Projet d’accord national interprofessionnel sur la sécurisation de l'emploi» [2013], Projet de
Loi.
[16] ASSEMBLEE NATIONALE, «LOI n° 2013-1203 du 23 décembre 2013 de financement de la sécurité sociale pour 2014»
[2013], Texte de Lo.i
[17] J. BENSOUDA, «Assurance santé : qu’est-ce que le contrat responsable ?» [En ligne]. Available:
http://www.lelynx.fr/assurance-infos-pratiques/assurance-sante/contrat-responsable.aspx.
[18] A. LAVRIL, «Changement des régimes complémentaires de prévoyance : anticipez» [ 2014]. [En ligne]. Available:
http://www.caconsultants.fr/changement-dans-les-regimes-complementaires-de-prevoyance-anticipez/.