techniques d’échantillonnage en...

64
1 Techniques d’échantillonnage en épidémiologie Marion ALBOUY-LLATY 14 octobre 2009 Master Sciences et Technologies Santé Mention Biologie Santé Spécialité Génie physiologique, Biotechnologies et informatique, Développement du médicament UE EPIDEMIOLOGIE

Upload: voliem

Post on 10-Sep-2018

227 views

Category:

Documents


0 download

TRANSCRIPT

1

Techniques d’échantillonnage en épidémiologie

Marion ALBOUY-LLATY14 octobre 2009

Master Sciences et Technologies SantéMention Biologie Santé

Spécialité Génie physiologique, Biotechnologies et informatique, Développement du médicament

UE EPIDEMIOLOGIE

2

Plan

� Echantillonnage et épidémiologie� Pré-requis� Sondages empiriques� Sondages aléatoires� Estimation

3

Plan

� Echantillonnage et épidémiologie� Pré-requis� Sondages empiriques� Sondages aléatoires� Estimation

4

Échantillonnageopération qui consiste à identifier un sous-groupe

d’individus dans une population afin d’y recueillir des données statistiques

N

n1 n3n2

Sondage : méthode utilisée pour

échantillonner

Échantillon :groupe d’individus

qui a été sélectionné

Population

5

Epidémiologie

Epidémiologie analytique

Analyser les déterminants des problèmes de santé

Epidémiologie descriptive

Décrire d’état de santé d’une population

Epidémiologie évaluative

Evaluer l’impact des interventions

Proposer les interventions les plus efficaces

6

Objectifs

� En épidémiologie descriptive� estimer avec la meilleure précision possible (IC ou σ)

et le moins de moyens possibles des paramètresconcernant une population bien définie

� L’idéal: utiliser base de données exhaustive (registre, recensement) sinon: sondages

� En épidémiologie analytique� Établir la relation entre une exposition et un état de

santé pour tirer des lois générales, applicables à toute la population

� L’échantillon doit inclure des individus exposés et non-exposés, à risque de développer la maladie

7

Objectifs

n1 n3n2

Représentativité

DescriptifAnalytique

N

Non malades

Malades

témoins cas

Non exposés

Exposés

NE E

Comparabilité des groupes

8

Représentativité=bon sondage

� Un échantillon est représentatif s’il permet :� d’estimer les paramètres étudiés � sans biais (équivalents à ceux que l’on aurait obtenu

en étudiant la population totale)� avec une précision acceptable

� Conditions:� Inclusion des sujets aléatoire=TAS� Probabilité d’inclusion déterminée à l’avance et non

nulle� Formules d’estimateurs adaptés au plan de sondage

9

Population de taille N

avec moyenne µ

� Paramètre : valeur vraie de la populationEx: Effectif; Moyenne; %; variance

� Estimation : valeur attribuée à un paramètre étudié à partir de données observées sur un échantillon

� Estimateur : formule mathématique permettant de calculer cette valeur

Échantillon de taille n1

et de moyenne m1

Échantillon de taille n2

et de moyenne m2

-

( )∑=

−⋅=N

iix

N 1

22 1 µσ

-

( )∑=

−⋅−

=n

ii mx

ns

1

22

1

1

10

Avantages du sondage

� Réduction de la durée d’étude� Résultats obtenus plus rapidement

� Économie de moyens� Effectif plus faible donc moins

d’enquêteurs

� Qualité des données recueillies� Plus de détails: plus de précision

11

Erreurs liées aux sondages

� Biais de sélection� Erreur systématique qui conduit à un manque

de validité des données� Processus de sélection influe sur le résultat

� Sources principales: défaut de couverture et non-réponses

� Ex: passants dans la rue (invalides; quartier; travail) ou Téléphone (portable, défavorisés)

� Ne peut être corrigé par l’analyse stat

� Fluctuation d’échantillonnage� Erreur non systématique qui conduit à un

manque de précision des données

12

Validité et précision

Biais : manque de validité

Fluctuation d’échantillonnage : manque de précision

Biais + Fluctuation d’échantillonnage

13

Plan

� Echantillonnage et épidémiologie� Pré-requis� Sondages empiriques� Sondages aléatoires� Estimation

14

Avant d’échantillonner…

1. Établir les objectifs de l'enquête2. Définir la population d’intérêt et les unités

d’enquête3. Déterminer les données à recueillir4. Fixer la taille de l’échantillon 5. Sélectionner une base de sondage6. Fixer une méthode d’échantillonnage

Avoir en tête les contraintes logistiques (base de sondage adaptée à la cible, mode de recueil des données…)

15

Population d’intérêt

� Ensemble des individus (unités statistiques) que l’on voudrait étudier et auxquels s’appliquent les résultats d’une enquête

� Dépend de l’objectif de l’enquête� Définition

� limites géographiques� période de référence� caractéristiques sociodémographiques…

16

Les unités d'enquête

� Pas forcément des personnes� Services hospitaliers ou lieux de travail

� Plusieurs niveaux de réponse� Unité d’échantillonnage� Unité déclarante� Unité de référence

� Ex: enquête sur les nouveau-nés � UE=le ménage� UD=l'un des parents ou le tuteur légal� UR=le bébé

17

Base de sondage� Définition

� liste d’unités (individus ou groupe d’individus) qui couvre toute la population avec une identification de chaque unité

� Qualités obligatoires� Liste exhaustive (sinon défaut de couverture)� Liste sans doublon : identifiant unique (sinon ΠΠΠΠk inégales)

� Qualités supplémentaires� Information auxiliaire individuelle : autres informations que

l’identifiant pour chaque unité (sexe, âge si les unités sont des personnes par exemple...)

� Exemples� population générale (liste téléphonique)� population hospitalière (liste des patients ayant eu une cs)� pop. Salariés (liste personnel)

18

Exemple 1

PopulationN=60 000 000

Échantillon n=1600

Population française

Étude de l’incidence du VIH en France

Cas de VIH

Taux d’incidence= 1600/60 000 000=2.6/100 000 PA

Étude de recensement

19

Exemple 2

Population

Échantillon n

BASE DE SONDAGE : N

Population cible

Patients atteints du VIH en France

Patients suivis dans 4 hôpitaux parisiens

Liste des cs

Échantillons de malades

Étude du taux de CD4 chez les patients VIH hospitalisés dans 4 hôpitaux parisiens

Sondage

20

Méthodes d’échantillonnage

Sondages empiriques :

Probabilité de sélection définie sur le terrain

= sélection par choix raisonné

Sondages aléatoires :

Probabilité de sélection

définie dès la constitution du plan de sondage

= sélection par TAS

21

Plan

� Echantillonnage et épidémiologie� Pré-requis� Sondages empiriques

� Méthode des quotas� Méthode des itinéraires� Méthode des unités-types� Méthode des transects

� Sondages aléatoires� Estimation

22

Sondages par quotas

� L’enquêteur sélectionne librement le sujets� La consigne: obtenir une structure de l’échantillon

similaire à celle de la population � Pas de probabilités d’inclusion - pas de TAS� Pas de base de sondage

MAIS� Imprécision des résultats� Difficultés d’organisation� Non représentativité possible de l’échantillon

� Exemples: Élections, Étude Sélénium

23

Autres sondages empiriques

� Méthode des itinéraires� =quotas avec respect d’un trajet� réduit liberté enquêteur

� Méthode des unités-types� Individus moyens

� Méthode des transects� Écologie animale

24

Plan

� Définitions� Sondages empiriques� Sondages aléatoires� Estimation

25

Sondages aléatoires

� Sondages élémentaires� Sondage aléatoire simple (SAS)� Sondage systématique (SYS)

� Sondages non élémentaires� Sondages stratifiés� Sondages en 2 phases avec post-stratification� Sondages à plusieurs degrés

� Sondages en grappe

� Sondages stratifiés à plusieurs degrés

26

Sondages élémentaires (1)

� Sélection de l’échantillon :� en une seule étape� sans manipulation de la base de sondage

BASE DE SONDAGE : N

Échantillon : nProbabilité d’inclusion: probabilité pour

un individu de faire partie de l’échantillon.

0<ΠΠΠΠk≤1

Fraction de sondage: proportion d’individus sélectionnés

f =n/N

27

Sondages élémentaires (2)

� Tirages :� Probabilités égales

� Probabilités inégales

Πk = f =n/N = cste

Πk = cste * Xk≠ f

Πk = n (Xk /Tx)

avec Tx =Σ Xk

Souvent proportionnelles à une valeur quantitative X connue pour chaque unité k

Σ Πk = n

28

Proba inégalesProba égalesBase de sondage

ΣΣΣΣ ΠΠΠΠk = 3=nΣΣΣΣ ΠΠΠΠk =10*0.3=3=nTx=107

0,170,36J

0,140,35I

0,530,319H

0,340,312G

0,390,314F

0,670,324E

0,140,35D

0,170,36C

0,250,39B

0.20= 3*(7/107)0,37A

ΠΠΠΠk =n (Xk/Tx)ΠΠΠΠk = n/N=3/10Nb services (Xk)Hôpital

Exemple: Échantillon de 3 hôpitaux parmi 10 hôpitaux

29

� m tirages avec remise : n≤m (indépendants)

� m tirages sans remise : n=m (non indépendants)

SAS (1)

1 112 22

3 3 3

44 4

3 2 3

1 112 2

3

44 4

3 2 1

Πk =1/4 Πk = 1/4Πk = 1/4

Πk = 1/4 Πk = 1/2Πk = 1/3

30

SAS (2)

� sondage de référence� tirage à probabilités égales (Πk = f)

� simple à réaliser� analyse statistique classique

MAIS� efficacité non optimale� seulement si base de sondage disponible

31

Exemple de SAS

1. Générer un nombre aléatoire pour chaque unité de la population

2. Trier par ordre croissant (ou non) selon ce nombre les unités

3. Inclure dans l’échantillon les n=3 premières unités

0,923785471B0,26064087J

0,810755579D0,23531711I

0,708441037C0,70746604H

0,707466041H0,30724938G

0,641869731E0,01395947F

0,307249378G0,64186973E

0,260640868J0,81075558D

I0,235317108I0,70844104C

A0,018264902A0,92378547B

F0,013959467F0,0182649A

ALEA trié croissantALEA

Tri aléatoire du fichier (EXCEL)

TAS de 3 hôpitaux parmi 10 :

32

SYS à proba égales (1)TAS 1er individu puis Pas de sondage

(N/n = 1/f)� Cas 1: N et n connus

N=9 A B C D E F G H I

B E Hn=3

9/3 = 3 9/3 = 3

33

SYS à proba égales (2)

� Cas 2: N et n inconnus� Estimer le pourcentage des visites à domicile

parmi les actes effectués au cours d’une année en colligeant 5% des feuilles de maladie reçues par la CNAM

� Fraction de sondage = 5% donc Pas de sondage = 20

N=?

2n=?

1 2 3 4 5 6 7 8 9 1011121314151617181920212223

22

34

SYS à proba égales (3)

� simple à réaliser� analyse statistique classique � à probabilités égales � base de sondage non disponible à l’avance

⇒ taille de l’échantillon aléatoire

MAIS� tirages non indépendants� pas de formule rigoureuse pour la variance� risque de périodicité néfaste

35

SYS à proba égales (4)

� Condition : US classées selon ordre quelconque…sinon biais!

N=9 Afemme

Bhomme

Cfemme

Dfemme

Ehomme

Ffemme

Gfemme

Hhomme

Ifemme

n=3 Bhomme

Ehomme

Hhomme

36

SYS à proba inégales

� Base de sondage disponible à l’avance ou non et information auxillaire quantitative disponible

� Probabilités proportionnelles à la taille

37

1. Calculer la répartition des services sur l’ensemble de s hôpitaux (Xk /Tx) et le cumul des Xk

2. Calculer le pas de sondage : Tx /n=107/3=363. Générer 1 nombre aléatoire 4. Choisir le premier élément=(1+entier (alea*pas))3. Sélectionner les échantillons avec alea juste <cumul

1+(0.191*36)=8

Premier elt

0.191

alea

36

Pas

Tx =107

1076J

1015I

799619H

7712G

6514F

5124E

43275D

226C

8169B

77A

choixCumul taillenb services

Exemple de SYS à proba inégales

TAS de 3 hôpitaux parmi 10 :

38

Sondages élémentaires: résumé

simplesOuialéatoireRemise*

simplesOuialéatoirePoisson*

complexesNonfixeSYS 2

Proba inégales

simples, biais!Nonfixe ou aléatoire

SYS 1

simplesOui ou nonfixeSAS

Proba égales

estimationsTirages indépendants

Taille n

* Non abordé dans ce cours

39

Sondages aléatoires

� Sondages élémentaires� Sondage aléatoire simple (SAS)� Sondage systématique (SYS)

� Sondages non élémentaires� Sondages stratifiés� Sondages en 2 phases avec post-stratification� Sondages à plusieurs degrés

� Sondages en grappe

� Sondages stratifiés à plusieurs degrés

40

Sondages stratifiés

� Sélections indépendantes dans chaque strate� Sondage élémentaire � Probabilités égales ou inégales

� Base de sondage et information auxiliaire qualitative disponibles� Manipulation de la base de sondage

� Variance du paramètre plus faible que dans pop totale

41

Sondages stratifiés� Gain de précision (= réduction de la

fluctuation d’échantillonnage) si critère de stratification corrélé au paramètre étudié

� Permet de sur-représenter un sous-groupe minoritaire� attention, les paramètres observés dans

l’échantillon sont des estimateurs biaisés

� Peu d’inconvénient hormis l’analyse statistique un peu plus complexe

42

Exemple de sondages stratifiés

N=800 lycéens

n=200

on veut estimer le pourcentage des élèves consommateurs de tabac du lycée Victor Hugo par un échantillon de 200 élèves

On sait que la consommation est différente selon les âges des lycéens

SASf =1/4

FF

F

FFF

F FNF

NF

NF NF

NFNF

NFNF

NF

NFNF

NFNF

NF

NFNF F

NFNF

NF

FFF Fluctuation d’échantillonnage!!!

43

240 première

360 seconde

200 Term

Exemple de sondages stratifiés

N=800 lycéens

n=200

n1=90

f1=25%

n2=60

f2=25%

n3=50

f3=25%

on veut estimer le pourcentage des élèves consommateurs de tabac du lycée Victor Hugo par un échantillon de 200 élèves

Πk = f =1/4

44

240 première

360 seconde

200 Term

Exemple de sondages stratifiés

N=800 lycéens

n=200

n1=90

f1=25%

n2=60

f2=25%

n3=50

f3=25%

on veut estimer le pourcentage des élèves consommateurs de tabac du lycée Victor Hugo par un échantillon de 200 élèves

Πk = f =1/4

Πk ≠ f =1/4n1=30

f1=8%

n2=50

f2=21%

n3=120

f3=60%

On sait qu’il y a plus de fumeurs en Term: sur-représenter les Term.

45

Sondages en deux phases avec post-stratification

� base de sondage disponible mais information auxiliaire qualitative absente

� stratification en 2ème phase� probabilités inégales

� sur-représentation d’une sous-population minoritaire

MAIS� plus complexe à réaliser et analyser� moins efficace qu’une stratification a priori si elle est

possible

46

86 Fumeurs

414 NF

Exemple de Sondages en deux phases avec post-stratification

1ere phase

nI=500

n1=86 n2=114 nII=200

Stratification sur la

consommation de tabac

N=800 lycéens

2ème phase post-stratification

47

Sondages à plusieurs degrés (ex à 2 degrés)

Population N

1er échantillon

m UP

On TAS des individus au sein de chaque UP

2ème échantillon

n US

grappes

48

Sondages en grappe

grappes

Population N

On prend tous les individus des grappes

49

L’effet grappe

� Traduit la ressemblance des unités d’une même grappe vis-à-vis du phénomène étudié� Variance intra-groupe faible :Individus du même groupe

ont les mêmes caractéristiques� Variance inter-groupe forte : Individus de groupes

différents ont des caractéristiques différentes

� Nuit à la qualité du sondage : analyses stat complexes (modèles mixtes)

� Exemple: famille et alimentation

!

50

Exemple (1)On souhaite réaliser une étude départementale pour connaître la consommation d’ATB des enfants de maternelle

Écoles

On décide de demander aux parents de remplir un questionnaire, après recrutement dans les écoles

51

Exemple (2)Pour avoir une meilleure représentativité, on souhaite avoir desenfants d’âge varié

Écoles

On décide de stratifier sur la classe pour avoir des groupes d’âge

Il y a 3 échantillons par école

52

Exemple (3)

Écoles

On suppose que la CSP des parents peut influer sur le type de consommation

On décide de stratifier sur la localisation de l’école (ZEP ou non) pour avoir une meilleure représentativité sociale

53

Sondages à plusieurs degrés

� Solution alternative en l’absence de base de sondage des unités d’intérêt

� Diminue le coût lié à la dispersion géographique

MAIS� Moins précis qu’un SAS car 2 étapes et possible effet

grappe� Échantillonnage complexe� Analyse statistique complexe� Nécessite l’existence d’un découpage de la population

ciblée sous forme d’unités locales identifiables

54

Cas particulier : sondage aréolaire

1. Base de sondage initiale : découpage du territoire en aires (UP)

2. 1er degré: tirage de k aires (UP)3. Recensement de tous les logements

par aire4. 2ème degré: tirage de m logements

(US) par aires5. 3ème degré: tirage de n sujets (UT) par

logements

55

Différence strate-grappeDans les 2 cas: découpage de la population cible en groupes

d’unités d’intérêt

Grappes hétérogènes pour la variable étudiée

Strates homogènes pour la variable étudiée

Grappes semblables entre ellesStrates contrastées entre elles

Les UP font l’objet d’un TASLes strates ne font pas l’objet d’un TAS

Individus sélectionnés dans une partie de la population

Individus sélectionnés à partir de toute la population

grappesstrates

56

Sondages stratifiés à plusieurs degrés

57

Sondage élémentaire Sondage stratifié

Sondage en 2 phases avec post-stratification

Sondage à 2 degrés

UP

US

58

Choix du sondage

Oui Non

Base de sondage disponible

Info auxiliaire disponible

Oui Non

SASSYS

Base intermédiaire

Oui Non

Sondage empirique

Sondage à

plusieurs degrés (grappe)

Proba. inégales

Sondage stratifié

quanti quali

59

Plan

� Echantillonnage et épidémiologie� Pré-requis� Sondages empiriques� Sondages aléatoires� Estimation

60

Estimations

Échantillon

BASE DE SONDAGE : N

Population cibleθ?

estimationsθ ± 1.96 √V(θ)

61

Estimations

� Le recours à un sondage a pour but d'estimer sans biais et avec la plus petite variance possible des paramètres qui concernent une population bien déterminée

� Les Πk qui dépendent du plan de sondage choisi, devront obligatoirement être incorporées dans les formules d'estimateurs.

� Les estimateurs de sondages complexes permettent de corriger la sur-représentation

� Redressements� Pondérations: tenir compte du poids de la strate� Imputations: corriger les non-réponses

62

Avant tirage

Après tirage

PLAN DE SONDAGEÉchantillonnage + estimateur adapté

REDRESSEMENTPondérations et/ou

imputations

Limiter les biais de sélection

Correction de la non-réponseMinimiser la variance

Conclusion (1)

63

Objectifs de l’enquête• Champs de l’étude• Paramètre d’intérêt

• Information à recueillir• Mode de recueil des informations

Echantillonnage• Bases de sondage disponibles adaptées aux objectifs

• Informations auxiliaires utiles disponibles• Coût unitaire

• Budget disponible

Analyse statistique• Choix de l’estimateur le plus adapté au plan de sondage

• Redressement pour améliorer la variance et traiter les non-réponses

64

Bibliographie

� http://www.statcan.ca

� WARSZAWSKI Josiane. Épidémiologie descriptive. Cours de master 2 recherche épidémiologie.

� BOUYER et al. Épidémiologie: principes et méthodes quantitatives. Ed INSERM

� http://ifr69.vjf.inserm.fr/~u88/site/Cours%20sondages%202005.pdf