commentaires sur les biais écologiques et les échelles non emboîtées l. fortunato (1), c....
TRANSCRIPT
Commentaires sur les biais écologiques et les échelles non emboîtées
L. Fortunato(1), C. Guihenneuc-Jouyaux(1)(2)
D. Hémon(1)
(1) : INSERM U754, Université Paris Sud, IFR69, Villejuif
(2) : CNRS UMR 8145, MAP5, UFR Biomédicale, Université Paris 5
2
Contexte : études écologiques (1)
Etudes écologiques : données (IS et exposition) recueillies au niveau de groupe (unité géographique) et non au niveau individuel
Avantages : Disponibilité des données (registres des maladies,
recensements) Réduction des erreurs de mesures Forme naturelle des données : Radon, pollution de l’air, qualité
de l’eau Développement statistique
3
Contexte : études écologiques (2)
Biais communs aux études écologiques et individuelles Choix du modèle Facteurs de confusion non mesurés (FC inter-unité) …
Biais spécifiques aux études écologiques Biais de pure spécification Facteurs de confusion intra-unité géographique
Problème des échelles non emboitées
4
Objectifs
Modèle écologique de Poisson
Partie 1 Prise en compte de la variabilité intra-unité des facteurs de
risque dans les modèles écologiques
Partie 2 Echelles géographiques non emboîtées
5
Partie 1
Prise en compte
de la variabilité intra-unité
des facteurs de risque
dans les modèles écologiques
6
Introduction (1)
Modèle classique : maladie rare modèle hiérarchique
Dans chaque unité géographique i
Oi ~ P(RiEi)
Log(Ri) = Zi’ b + εi
- Z est la matrice des covariables
résumés quantitatifs des FR : moyenne, médiane,…
- ε est le vecteur des résidus, avec ou sans structure spatiale
7
Introduction (2)
Si le but de l’étude est l’estimation des liens individuels entre l’indicateur de santé et les FR à partir de données agrégées Perte d’information sur les expositions individuelles et sur leurs
variabilités Estimations biaisées des effets individuels
biais de pure spécification
Problème largement discuté dans la littérature (Best, Richardson, Wakefield…)
Prise en compte de la variabilité intra-unité géographique des FR dans la régression écologique Jamais de réelle quantification de la réduction du biais
8
Relations entre liens individuel et écologique
Niveau individuel : modèle multiplicatif de risqueg(x) = exp( + x) TI pr les individus exposés au même niveau x
Niveau écologique : risque associé à l’unité i
Ri = somme de tous les TI des individus de l’unité i
Ri = E(g(X)) = g(x) Hi(x) dx
Si Hi = N(µi , i²) distribution intra-unité du FR dans i
22
2
1)log( iiiR
9
Estimation du lien individuel
Vrai risque relatif
Si on utilise le modèle classique :
xi au lieu de µi Fluctuations d’échantillonnage
≠ 0 biais écologique
Pas de biais écologique si : "petit" Variances intra-unité homogènes Variances intra-unité non corrélées aux moyennes du FR
22
2
1)log( iiiR
ii xR 00)log(
10
Objectif général
But : estimer un lien individuel entre l’ IS et le FR à partir de données écologiques
Contexte : Modèle multiplicatif de risque au niveau individuelPlusieurs relevés du FR par unité
Prendre en compte des fluctuations d’échantillonnage Introduction de la distribution intra-unité du FR.
Réduire le biais écologique Introduction de la variance intra-unité du FR.
Etudier les conséquences de la mauvaise spécification de la distribution intra-unité du FR dans le modèle d’estimation
Loi Gamma vs loi Normale
11
Modèles d’estimation
Modèle classique
Modèle complet (variabilité intra-unité)
iXx
xR
REPO
i
iii
iii
unitél' dans de empirique moyenne
)log(
)(~
00
),(~
2
1)log(
)(~
2
22111
iiik
iiii
iii
NX
R
REPO
= modélisation Gaussienne de la variabilité extra-Poissonnienne
12
Simulations
Domaine = lattice régulier 10×10
Différents nombres de mesures du FR par unité géographique : moyenne = 140, min = 26, max = 352
{µi} = moyennes du FR (min = 3.09, max = 5.57) {i²} = variances du FR (de 1 à 2.5), corrélées avec les
moyennes
Paramètre individuel : = 1
« forte » association individuelle entre le risque et l’exposition
13
Analyse statistique
Approche Bayésienne
Distributions a priori peu informatives
Algorithme MCMC ( WinBUGS )
Inférences statistiques basées sur 15000 itérations
(contrôle de la convergence avec plusieurs critères)
14
Résultats : Distribution Gaussienne (100 réplications)β = 1, ρµσ = 0.8
Modèles m100 sd100 %recouvrement %biais EQ ×10-2
Classique 1,30 0,08 0 30 9,1 Complet variabilité intra-unité 0,94 0,04 70 -6 0,6
0.6
0.8
1.0
1.2
1.4
1.6
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20
classique
completVraie valeur de
15
Sensibilité à l’hypothèse de Normalité de la distribution intra-unité
Sensibilité à l’hypothèse de Normalité
Etudier les conséquences de l’utilisation de la loi Normale dans le modèle d’estimation alors que la distribution intra-unité sous-jacente ne l’est pas.
Etude d’une distribution intra-unité Gamma
22
2
2
22
2
2
,~
1log)log(
)(~
i
i
i
iik
ii
i
i
ii
iii
GammaX
R
REPO
22
2
,i
i
i
i
16
Résultats : Distribution Gamma (20 réplications) β = 1, ρµσ = 0.8Modèles m20 sd20 %recouvrement %biais EQ ×10-2
Classique 1,56 0,08 0 56 32 Complet variabilité intra-unité 1,7 0,04 55 7 0,7
0.6
0.8
1.0
1.2
1.4
1.6
1.8
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20
classiquecompletVraie valeur de
17
Application : Incidence des leucémies de l’enfant et exposition domestique au Radon
Unité géographique : 94 départements (Corse exclue)
Cas : incidence française des leucémies chez les enfants agés <15 ans de 1990 à 2001 (5306 cas)
(Registre National des Hémopathies malignes de l'Enfant, J. Clavel, U754)
Leucémies aiguës lymphoïdes (LAL) : 4327 cas Leucémies aiguës myéloïdes (LAM) : 907 cas
Exposition : 12988 mesures du radon (IRSN)
Transformation logarithmique des valeurs du radon car permet l’approximation Gaussienne
18
Moyennes a posteriori et IC95% de
0.0
0.1
0.2
0.3
classiquecomplet (variabilité intra-unité)
Toutes Leucémies LAL
LAM
19
Partie 2
Echelles géographiques
non emboîtées
20
Problématique
Variables écologiques mesurées sur différentes échelles non emboîtées
Transformation des données pour les mettre toutes à la même échelle (échelle plus grossière et commune)
Perte importante d’information
Illustration : en France, 2 échelles administratives différentes Départements (94) Zones d’emploi (341) 62 ZE Dep Echelle commune : Région (21)
21
Un exemple …
53335354
5353 5344
Bretagne (Région 53) : 18 zones d’emploi et 4 départements
4 zones d’emploi non emboîtées dans les départements
22
Notations
Zone « Cible » Echelle géographique où l’indicateur de santé (mortalité ou
incidence) est mesuré
Zone « Source » Echelle géographique où l’exposition est mesurée
23
Méthodes Méthode M : relation entre les mesures latentes de l’exposition
sur les unités « cibles » et les mesures observées sur les unités « sources »
X3 ≈ p3 XA + (1- p3) XB
p3 = % de l’unité A dans l’unité 3
Méthode R : relation entre les risques relatifs sur les unités « cibles » et sur les unités « sources »
R3 ≈ p3 RA + (1- p3) RB avec RA = exp( + XA + 0.5²A²)
Hypothèses : modèle multiplicatif de risque
distribution Gaussienne de l’exposition sur A et B
1
A B
2
43
p3
24
Exemple de la méthode classique (M) pour les données du Radon
Données (moyennes et variances empiriques) disponibles sur les départements et les zones d’emploi.
Pondération en fonction de la population
(cartes similaires si pondération en fonction de la superficie)
population du département j dans la ze i Poids =
population dans la ze i
25
26
27
Modèles d’estimation
Régression écologique de Poisson 1er niveau : Oi ~ P(Ei Ri) 2ème niveau
*22*
*
2
1)log(2
)log(1
iii
ii
µRM
µRM
²)()( *22*2
*
Jijjiji
Jjiji
µµp
µpµ
)2
1exp()log()log(2
)exp()log()log(1
22)2()2(
)1()1(
jjjJ
jiji
jjJ
jiji
µRavecRpRR
µRavecRpRR
pij = aire de l’intersection i et j / aire de i
28
Simulations Cas 1
Partition « cible » : lattice de 400 unités Partition « source » : lattice de 100 unités
Cas 2 Partition « cible » : lattice de 100 unités Partition « source » : lattice de 400 unités
Forte association entre l’indicateur de santé et l’exposition Proportion de recouvrement, nb d’unités non emboitées
29
Résultats : cas 1 (10 réplications)
30
Résultats : cas 2 (10 réplications)
31
Résultats
Pas de différence entre les 2 méthodes M et R (robustesse de la méthode classique)
Différence entre les modèles avec ou sans variance intra-unité (attendue)
Situation en cours d’étude
Indicateur de santé
Exposition
Indicateur de santé
Exposition
32
Application : Radon et toutes LA
(1) (2)
(1) : mêmes échelles géographiques pour les observés et l’exposition
(2) : échelles géographiques différentes et non emboitées pour les observés et l’exposition
33
Application : Radon et LAM
(1) (2)
34
MERCI
35
36
Méthodes dans la littérature
Méthode la plus simple et la plus utilisée : reconstruction des données d’exposition sur la partition « cible » à partir de la partition « source » , proportionnellement à la population ou l’aire
Méthode de Flowerdew et Green (1989) Régression de Poisson itérative (algorithme EM) pour estimer les
caractéristiques des zones « cible »
Méthode de Best et al (1998) Modèles Poisson/Gamma : les zones sont relativement petites Processus ponctuel
Méthode de Mugglin et al (2000) 3ème partition : Intersection des 2 partitions (« cible » et « source ») Lois sur les variables réponses latentes Pour les expositions : table de conversion