Âge d’apparition du trouble bipolaire et mélange
gaussien – Octobre 2014 –
Sarah Flora Jonas
GDR Statistiques et Santé — Institut de Mathématique de Toulouse
UMR-S 1144 - Variabilité de réponse aux psychotropes
Dr E. Curis, Pr F. Bellivier, Pr J.-L. Laplanche.
Laboratoire de biomathématiques
Trouble bipolaire et âge de début
v Trouble bipolaire : alternance de phases maniaques et dépressives chez un même patient. Ces phases peuvent être séparées de plusieurs années.
v Âge de début (AAO) : âge d’apparition du premier symptôme de la pathologie. Soit :
1er épisode dépressif majeur/ 1er épisode maniaque/
1er épisode hypomaniaque.
1 Âge d'apparition du trouble bipolaire et mélange gaussien ( SF. Jonas)
• Fonction de densité de X, variable suivant une loi normale N(μ,σ) :
• Représentation graphique d’une loi normale
0 10 20 30 40 50 60
0.00
0.01
0.02
0.03
0.04
0.05
0.06
density.default(x = rnorm(6e+06, 30, 6))
Âges de début
Densité
Loi normale
μ (espérance)
2σ (écart-type)
2 Âge d'apparition du trouble bipolaire et mélange gaussien ( SF. Jonas)
0 10 20 30 40 50 60
0.00
0.01
0.02
0.03
0.04
0.05
density.default(x = rnorm(6e+06, 30, 7))
Âges de début
Densité
0 10 20 30 40 50 60
0.00
0.01
0.02
0.03
0.04
0.05
density.default(x = rnorm(6e+06, 30, 7))
Âges de début
Densité
!!!! ! = 1! 2!!
−12!−!!
2
!
Mélange gaussien : le principe
• Une distribution non-gaussienne cacherait en fait…
Âge d'apparition du trouble bipolaire et mélange gaussien ( SF. Jonas) 3
0 10 20 30 40 50 60
0.00
0.01
0.02
0.03
0.04
0.05
density.default(x = rnorm(6e+06, 30, 7))
Âges de début
Densité
0 10 20 30 40 50 60
0.00
0.01
0.02
0.03
0.04
0.05
density.default(x = rnorm(6e+06, 30, 7))
Âges de début
Densité
0 20 40 60 80
0.00
0.02
0.04
0.06
0.08
density.default(x = rnorm(6e+06, 25, 5))
Âges de début
Densité
0 20 40 60 80
0.00
0.02
0.04
0.06
0.08
density.default(x = rnorm(6e+06, 25, 5))
Âges de début
Densité
Mélange gaussien : le principe
• … plusieurs gaussiennes è la population étudiée n’est pas homogène
Chaque gaussienne possède: - une espérance μ - un écart-type σ - une proportion π.
La somme des proportions vaut 1.
Âge d'apparition du trouble bipolaire et mélange gaussien ( SF. Jonas)
0 10 20 30 40 50 60
0.00
0.01
0.02
0.03
0.04
0.05
density.default(x = rnorm(6e+06, 30, 7))
Âges de début
Densité
0 10 20 30 40 50 60
0.00
0.01
0.02
0.03
0.04
0.05
density.default(x = rnorm(6e+06, 30, 7))
Âges de début
Densité
4
• On définit la fonction de densité du modèle de mélange par :
Mélange gaussien : le principe (2)
Âge d'apparition du trouble bipolaire et mélange gaussien ( SF. Jonas) 5
!!é!"#$%! ! = !! ! !×!!!!
!!!!
Proportion du sous-groupe i
Fonction de densité du sous-groupe i Nombre de sous-groupes
Revue de la littérature : âges de début chez les bipolaires
0 10 20 30 40 50 60 70
Etude BP1 et AAO
Manchia 2008
Lin 2006
Bellivier 2001
Kennedy 2005
Bellivier 2003
Jonas 2014
Gonzales 2008
Azorin Bell. 2013
Hamshere 2009
Bellivier US 2011
Jonas II 2014
Bellivier UE 2011
n=181
n=211
n=211
n=246
n=368
n=556
n=964
n=1082
n=1369
n=2275
n=2870
n=3616
§ Trois groupes identifiés (dans
la plupart des études)
§ Groupes
d’âge de début très
semblables, en particulier le groupe 1 et
2.
Âge d'apparition du trouble bipolaire et mélange gaussien ( SF. Jonas) 6
Nom de l’étude Taille de l’échantillon
Sous-groupes identifiés
Moyenne du sous-groupe
Écart-type du sous-groupe
« Jonas 2014 » Travail en cours
« Jonas II 2014 » Travail en cours
Mélange gaussien : les problématiques
Si nous supposons que la distribution de l’âge de début du trouble bipolaire est celle d’un mélange gaussien, il faut :
1) Identifier les meilleurs paramètres (moyennes, variances et proportions) pour chaque sous-groupe.
2) Décider du nombre de sous-groupes qui : v représente au mieux les données, v corresponde à la réalité.
Âge d'apparition du trouble bipolaire et mélange gaussien ( SF. Jonas) 7
Paramètres du modèle : maximisation de la vraisemblance
Âge d'apparition du trouble bipolaire et mélange gaussien ( SF. Jonas) 8
v Vraisemblance d’un modèle : chiffre entre 0 et 1 traduisant l’adéquation du modèle proposé avec les données.
v Plus la vraisemblance est élevée, plus les paramètres proposés représentent bien les données originelles.
è But : identifier les paramètres qui maximisent la vraisemblance.
v Dans le cadre des mélanges gaussiens : maximisation de la vraisemblance à travers un algorithme de maximisation, l’algorithme EM.
Nombre de composantes : choix du modèle
Test du rapport de vraisemblance : compare la vraisemblance des deux modèles avec une loi du .
Problèmes : Ce test ne respecte pas les conditions d’adéquation à une loi du . Difficulté dans le choix du degré de liberté adéquat.
! = 2 log ℒ(!!)ℒ(!!) !
!!!
Critères AIC et BIC : critère de test prenant en compte k, le nombre de paramètres du modèle
Limites : Pas de quantification du risque ou de la puissance. Conditions de régularité non-respectées.
Bootstrap et vraisemblance : compare la vraisemblance des modèles par un bootstrap, ré-échantillonnage.
La méthode du bootstrap renseigne sur le degré de signification associée aux comparaisons des modèles sans hypothèse de loi.
!!!
Âge d'apparition du trouble bipolaire et mélange gaussien ( SF. Jonas) 9
!"# = 2! − 2ln!(ℒ)!!"# = !!×!ln ! − 2ln!(ℒ)!
Étude clinique : 556 patients bipolaires
• Trois gaussiennes, donc trois groupes d’âges de début : précoce, intermédiaire et tardif.
• Composantes du modèle :
!
!
Comp. 1 Comp. 2 Comp. 3 Proportion 40% 42% 18% Âge moyen 17 26 40 Écart-type 3 6 11
Âge d'apparition du trouble bipolaire et mélange gaussien ( SF. Jonas) 10
20 40 60
0,00
0,01
0,02
0,03
0,04
0,05
0,06
density.default(x/=/data)
Âge$de$début
Densité
Revue de la littérature : test pour le choix des composantes
0 10 20 30 40 50 60 70
Etude BP1 et AAO
Manchia 2008
Lin 2006
Bellivier 2001
Kennedy 2005
Bellivier 2003
Jonas 2014
Gonzales 2008
Azorin Bell. 2013
Hamshere 2009
Bellivier US 2011
Jonas II 2014
Bellivier UE 2011
n=181
n=211
n=211
n=246
n=368
n=556
n=964
n=1082
n=1369
n=2275
n=2870
n=3616
La quasi
totalité des études ont
utilisé le test du rapport de
vraisemblance avec une loi du
khi-deux à 3 degrés de
liberté.
Âge d'apparition du trouble bipolaire et mélange gaussien ( SF. Jonas) 11
Nom de l’étude Taille de l’échantillon
Sous-groupes identifiés
Moyenne du sous-groupe
« Jonas 2014 » Travail en cours
« Jonas II 2014 » Travail en cours
Écart-type du sous-groupe
Risques associés aux critères de décision : résultats de 1000 simulations
0 500 1000 1500 2000 2500 3000
0.0
0.2
0.4
0.6
0.8
1.0
Taille de l'échantillon
Ris
que
de d
étec
ter
une
com
posa
nte
de tr
op
Modèle : 3 gaussiennesKhi² à 1 ddlKhi² à 3 ddlAICBIC
Âge d'apparition du trouble bipolaire et mélange gaussien ( SF. Jonas) 12
500 1000
0 500 1000 1500 2000 2500 3000
0.0
0.2
0.4
0.6
0.8
1.0
Taille de l'échantillon
Ris
que
de d
étec
ter u
ne c
ompo
sant
e de
trop
Modèle : 3 gaussiennesKhi² à 1 ddlKhi² à 3 ddlAICBIC
1500 2000 2500 3000
• Risque de choisir une composante de trop lorsque le mélange contient trois gaussiennes (risque α) :
0
0 500 1000 1500 2000 2500 3000
0.0
0.2
0.4
0.6
0.8
1.0
Taille de l'échantillon
Risq
ue d
e dé
tect
er u
ne c
ompo
sant
e de
trop
Modèle : 3 gaussiennesKhi² à 1 ddlKhi² à 3 ddlAICBIC
Test du rapport de vraisemblance (1 ddl)
Test du rapport de vraisemblance (3 ddl)
Critère BIC
Comparaison : étude diverses et âges de début
0 10 20 30 40 50 60 70
Etudes AAO
Schurhoff 2004
Manchia 2008
DeLuca 2010
DeLuca 2011
Lin 2006
Bellivier 2001
Blasco-Fontecilla 2012
Kennedy 2005
Bauer 2010
Asuni 2010
Ortiz-Dominguez 2008
Bellivier 2003
Slama 2009
Ortiz 2011
Panariello 2010
Tibi 2013
Jonas 2014
Gonzales 2008
Tozzi 2011
Azorin, Belivier 2013
Hamshere 2009
Bellivier. US 2011
Bellivier UE 2011
n=141n=181n=187n=196n=211n=211n=229n=246n=270n=334n=357n=368n=368n=379n=440n=511n=556n=964n=964n=1082n=1369n=2275n=3616
§ Similitude des groupes d’âge de
début dans le cadre de troubles divers.
§ Quasi-constance dans l’identification
de trois groupes malgré le risque
alpha très élevé du test du rapport de
vraisemblance (qui augmente la
variabilité des résultats).
§ Donc l’approche
par mélange gaussien n’est peut être pas adéquate.
Âge d'apparition du trouble bipolaire et mélange gaussien ( SF. Jonas) 13 Nom de l’étude
Sous-groupes identifiés
Taille de l’échantillon
« Jonas 2014 » Travail en cours
Troncature : une hypothèse alternative au mélange gaussien
v Observation tronquée = conditionnelle à un autre événement.
v Troncature à droite : l’âge de début de la maladie est antérieur à l’âge d’interview du patient, et à son inclusion dans la base.
Hypothèse : les âges de début suivent en réalité une distribution normale, exponentielle, uniforme ou autre; sous l’effet de la troncature, les âges de début sont finalement distribués selon ce qui paraît être un mélange gaussien de 3 groupes.
v Nous simulons des données avant/après troncature et nous observons les résultats.
Âge d'apparition du trouble bipolaire et mélange gaussien ( SF. Jonas) 14
Troncature : résultats des simulations
Âge d’apparition avant troncature : uniforme entre 10 et 70 ans èApparition systématique de 3 groupes après troncature
0 20 40 60
0.00
0.01
0.02
0.03
0.04
density.default(x/=/don3.2$AAO)
Âges%de%début
Densité
Âges de début tronquésÂges de début non-tronquésÂges de début base EMBLEM
Âge d’apparition avant troncature : fonction affine décroissante entre 10 et 70 ans èApparition systématique de 4 groupes après troncature
CONCLUSION
§ Détection de 3 gaussiennes
dans des mélanges non-
gaussiens.
§ La troncature a pour effet de
décaler la distribution
vers la gauche.
§ Pas d’information
sur la distribution des
âges avant troncature.
Âge d'apparition du trouble bipolaire et mélange gaussien ( SF. Jonas) 15
0 20 40 60 80
0.00
0.01
0.02
0.03
0.04
density.default(x/=/d2$AAO)
Âges%de%début
Densité
Âges de début tronquésÂges de début non-tronquésÂges de début base EMBLEM
Âges de début : lois exponentielles
v Peut-on considérer les âges de début comme une distribution exponentielle ?
v Problème : décalage des âges de début par rapport à l’origine qui diminue la vraisemblance de la loi exponentielle
Âge d'apparition du trouble bipolaire et mélange gaussien ( SF. Jonas) 16
20 40 60
0.00
0.01
0.02
0.03
0.04
0.05
density.default(x/=/AAO1)
Âge$de$début
Densité
Âges de début : propositions de lois alternatives
* Log-vraisemblance calculée à partir de la base de données Génétique
v Un mélange de lois gamma voire un mélange d’exponentielles nous permet de considérer les âges de début comme une étude de survie classique.
Âge d'apparition du trouble bipolaire et mélange gaussien ( SF. Jonas) 17
Loi$ou$modèle$ Log,vraisemblance*$ Critère$BIC$Exponentielle$ !2344% 4695%Log,normale$ !1979% 3972%Gamma$ !2000% 4014%Mélange$gaussien$(2"composantes)$ !1979% 3989%Mélange$gamma$(2"composantes)$ !1959% 3951%Mélange$gaussien$(3"composantes)$ !1956% 3963%Mélange$gamma$(3"composantes)$ !1973% 3997%%
Conclusions v Si nous supposons que l’âge de début est un mélange gaussien, il faut être
extrêmement vigilant quant au choix du critère de décision. Le risqueαassocié au test du rapport de vraisemblance est très élevé.
v Nous recommandons le BIC pour des tailles d’échantillons supérieures à 400 (puissance trop faible pour des tailles d’échantillon inférieures).
v L’hypothèse de mélange gaussien, et en particulier la présence de trois groupes est assez fragile tant mathématiquement que cliniquement :
— Clinique : pas de profils spécifiques aux caractéristiques clairement identifiables pour 3 groupes
— Mathématique : toute densité de probabilité peut être décomposée en une combinaison de linéaire de gaussiennes dès lors que leur nombre est assez élevé
Âge d'apparition du trouble bipolaire et mélange gaussien ( SF. Jonas) 18
Conclusions (2) v La prise en compte de la troncature est une bonne alternative au mélange
gaussien pour expliquer la présence de 3 groupes. Son action explique — du moins partiellement — la distribution étirée vers la droite des âges de début.
v Mais pas d’information suffisante sur la distribution des âges de début avant troncature et sur l’existence de sous-groupes éventuels.
v Les données d’âges de début pourraient être approchées par une loi exponentielle; ce qui permettrait d’étudier les âges d’apparition du trouble bipolaire à l’aide d’une étude de survie classique.
v Un mélange de lois gamma à deux composantes — le plus vraisemblable — permettrait d’identifier et de définir deux profils de patients associés à deux groupes d’âges. Les patients seraient alors traités en fonction de leur groupe d’appartenance.
Âge d'apparition du trouble bipolaire et mélange gaussien ( SF. Jonas) 19