choisir la taille de l’echantillon pour les evaluations ... · • que veut dire « crédible »...

36
povertyactionlab.org Choisir la Taille de l’Echantillon pour les Evaluations Aléatoires Esther Duflo J-PAL

Upload: trinhhanh

Post on 12-Sep-2018

214 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Choisir la Taille de l’Echantillon pour les Evaluations ... · • Que veut dire « crédible » dans ce cas ? Veut dire que je peux être raisonnablement sûr que la différence

povertyactionlab.org

Choisir la Taille de l’Echantillon pour les Evaluations Aléatoires

Esther Duflo J-PAL

Page 2: Choisir la Taille de l’Echantillon pour les Evaluations ... · • Que veut dire « crédible » dans ce cas ? Veut dire que je peux être raisonnablement sûr que la différence

Choisir la Taille de l’Echantillonpour les Evaluations Aléatoires

• Question générale : Quelle taille doit avoir l’échantillon pour pouvoir

détecter un effet de façon crédible ?• Que veut dire « crédible » dans ce cas ?

Veut dire que je peux être raisonnablement sûr que la différence entre le groupe test et le groupe contrôle est due au programme, pas a la chance

• L’évaluation aléatoire élimine le biais, mais n’élimine pas le bruit: cela marche grâce à la loi des grands nombres. Mais à partir de quelle taille d’échantillon cela marche-t-il ?

Page 3: Choisir la Taille de l’Echantillon pour les Evaluations ... · • Que veut dire « crédible » dans ce cas ? Veut dire que je peux être raisonnablement sûr que la différence

Configuration de Base

• A la fin de l’expérience, on comparera le résultat qui nous intéresse dans le groupe contrôle et dans le groupe test.

• On s’intéresse à la différence:Moyenne du traitement – Moyenne du contrôle

= Taille de l’effet• Exemple : moyenne du nombre de puits dans les

villages avec des femmes, contre moyenne du nombre de puits dans les villages avec des hommes.

Page 4: Choisir la Taille de l’Echantillon pour les Evaluations ... · • Que veut dire « crédible » dans ce cas ? Veut dire que je peux être raisonnablement sûr que la différence

Estimation

Cependant, on n’observe pas toute la population, juste un échantillon.

Dans chaque village de l’échantillon, il y a un nombre donné de puits, plus ou moins proche de la moyenne dans la population, en fonction des autres facteurs qui influencent l’emplacement des puits.

On estime la moyenne (mean) dans la population en calculant la moyenne (average) dans l’échantillon

Si l’on a très peu de villages, les moyennes sont peu précises. Lorsque l’on observe une différence dans les moyennes, on ne peut pas savoir si elle provient d’un effet du traitement ou d’un autre facteur.

i 1

Page 5: Choisir la Taille de l’Echantillon pour les Evaluations ... · • Que veut dire « crédible » dans ce cas ? Veut dire que je peux être raisonnablement sûr que la différence

Les facteurs qui influencent la precision

Taille de L’échantillon:• Peut-on tirer des conclusions si l’on a un village

traité et un non-traité?• Peut-on tirer des conclusions si l’on donne des

manuels à une classe et pas à une autre ?• Même si l’on a une classe d’une grande taille ?• Ce qui est important c’est la taille effective de

l’échantillon. i.e. le nombre d’unités traitées et d’unités de contrôle (ici les classes). Quelle est l’unité dans le cas des Panchâyat ?

i 1

Page 6: Choisir la Taille de l’Echantillon pour les Evaluations ... · • Que veut dire « crédible » dans ce cas ? Veut dire que je peux être raisonnablement sûr que la différence

Les facteurs qui influencent la precision

La variabilité de la variable que l’on essaye de mesurer:

• S’il y a d’autres facteurs non mesurés qui influencent ces variables, ce sera plus difficile d’affirmer si le traitement a vraiment influencé celui-ci

Page 7: Choisir la Taille de l’Echantillon pour les Evaluations ... · • Que veut dire « crédible » dans ce cas ? Veut dire que je peux être raisonnablement sûr que la différence

Quand les résultats sont très précis

Low Standard Deviation

0

5

10

15

20

25

valu

e

33 37 41 45 49 53 57 61 65 69 73 77 81 85 89

Number

Freq

uenc

y

mean 50mean 60

Page 8: Choisir la Taille de l’Echantillon pour les Evaluations ... · • Que veut dire « crédible » dans ce cas ? Veut dire que je peux être raisonnablement sûr que la différence

Moins précis

Medium Standard Deviation

0123456789

valu

e

33 37 41 45 49 53 57 61 65 69 73 77 81 85 89

Number

Freq

uenc

y

mean 50mean 60

Page 9: Choisir la Taille de l’Echantillon pour les Evaluations ... · • Que veut dire « crédible » dans ce cas ? Veut dire que je peux être raisonnablement sûr que la différence

Peut-on Conclure?

High Standard Deviation

0

1

2

3

4

5

6

7

8

value 33 37 41 45 49 53 57 61 65 69 73 77 81 85 89

Number

Freq

uenc

y

mean 50mean 60

Page 10: Choisir la Taille de l’Echantillon pour les Evaluations ... · • Que veut dire « crédible » dans ce cas ? Veut dire que je peux être raisonnablement sûr que la différence

Intervalles de Confiance

• La taille de l’effet estimé (la différence entre les moyennes dans les deux groupes) est valide seulement pour notre échantillon. Chaque échantillon donnera une réponse légèrement différente. Comment utilise-t-on notre échantillon pour faire des hypothèses sur toute la population?

• Un intervalle de confiance à 95% pour un effet mesure nous dit que, pour 95% des échantillons que l’on aurait pu tirer de la même population, l’intervalle de confiance calcule de la meme facon aurait contenu cet effet.

• Les écarts-types (se) des estimateurs dans cet échantillon reflètent à la fois la taille de l’échantillon et la variabilité du résultat (qui est plus large lorsque l’échantillon est petit et avec un résultat variable).

• Règle : un intervalle de confiance à 95% est en gros l’effect, plus ou moins deux (1.96) écarts-types.

Page 11: Choisir la Taille de l’Echantillon pour les Evaluations ... · • Que veut dire « crédible » dans ce cas ? Veut dire que je peux être raisonnablement sûr que la différence

Test d’Hypothèses

On veut souvent tester l’hypothèse que l’effet est égal à zéro (on veut rejeter l’hypothèse que le programme n’a pas eu d’effet). On veut tester :

Contre:

0 sizeEffect : oH

0 sizeEffect :a H

Page 12: Choisir la Taille de l’Echantillon pour les Evaluations ... · • Que veut dire « crédible » dans ce cas ? Veut dire que je peux être raisonnablement sûr que la différence

Deux types d’erreurs• Erreur de type I: Conclure qu’il y a un effet alors qu’il n’y

en a pas.

Le niveau du test c’est la probabilité de conclure erronément que le programme a un effet alors qu’il n’en a pas.

Avec un niveau de 5%, on peut être sûrs à 95% en la validité de notre conclusion que notre programme a eu un effet.

Pour l’évaluation des politiques, on veut réduire au minimum le risque de se tromper. On veut un niveau de test très petit, pour être très sur de la réponse.

Niveau usuel de : 5%, 10%, 1%.

Page 13: Choisir la Taille de l’Echantillon pour les Evaluations ... · • Que veut dire « crédible » dans ce cas ? Veut dire que je peux être raisonnablement sûr que la différence

Relation avec les intervalles de confiance

• Si zéro n’appartient pas à l’intervalle de confiance à 95% pour l’ampleur de l’effet que l’on a mesuré, alors on peut être à 95% sûrs que l’effet est différent de zéro.

• La règle est donc la suivante: si l’ampleur de l’effet est deux fois plus grande que l’écart type; alors on peut conclure, avec 95% de certitude, que le programme a eu un effet.

Page 14: Choisir la Taille de l’Echantillon pour les Evaluations ... · • Que veut dire « crédible » dans ce cas ? Veut dire que je peux être raisonnablement sûr que la différence

Deux types d’erreursErreur de type II: on ne rejette pas l’hypothèse que le

programme n’a pas d’effet alors qu’en fait il a un effet.

• Puissance=1-probabilite d’une erreur de type II• La Puissance d’un test c’est la probabilité de trouver un

effet significatif dans l’expérience. (une puissance plus élevée est préférable car j’ai plus de chance de trouver un effet)

• La puissance d’un test est un outil d’organisation. Elle me dira la probabilité de trouver un effet significatif pour une taille d’échantillon donnée.

Page 15: Choisir la Taille de l’Echantillon pour les Evaluations ... · • Que veut dire « crédible » dans ce cas ? Veut dire que je peux être raisonnablement sûr que la différence

Le calcul de la puissance(power calculations)

• Lorsque l’on planifie une évaluation, en faisant des hypotheses, on peut calculer la taille minimum nécessaire de l’échantillon dont on aura besoin pour: – Tester une hypothèse pré-spécifiée : programme a ou n’a pas d’effet. – Pour un niveau de confiance pré-spécifié (ex.. 5%)– Pour une taille de l’effet pré-spécifié – Pour atteindre une puissance donnée

• Une puissance de 80% nous indique que dans 80% des expériences de cet échantillon dans cette population, s’il y a un effet dans la population, on sera capable de dire que dans notre échantillon, il y a un effet avec le degré de confiance désiré.

• Plus l’échantillon est grand, plus la puissance du test augmentePuissance utilisée normalement: 80%, 90%

Page 16: Choisir la Taille de l’Echantillon pour les Evaluations ... · • Que veut dire « crédible » dans ce cas ? Veut dire que je peux être raisonnablement sûr que la différence

Ingrédients pour un calcul de puissance d’un test dans un cas simple

Ce dont on a besoin Où le trouver

Niveau du test Souvent conventionnellement fixé à 5%. S’il est plus faible, on a besoin d’un échantillon plus grand pour maintenir la puissance du test.

La moyenne et la variabilité du résultat dans le groupe contrôle.

-Dans les enquêtes précédentes conduites dans des conditions similaires. -Plus la variance est grande, plus on a besoin d’un grand échantillon pour maintenir la puissance du test.

L’ampleur de l’effet que l’on veut détecter.

Quel est l’effet du programme qu’on veut detecter? Plus l’effet que l’on veut détecter est petit, plus grand est l’échantillon dont on a besoin pour pouvoir détecter l’effet.

Page 17: Choisir la Taille de l’Echantillon pour les Evaluations ... · • Que veut dire « crédible » dans ce cas ? Veut dire que je peux être raisonnablement sûr que la différence

Choisir la taille d’un effet

• Quelle est la taille minimale d’un effet qui justifie l’adoption d’un programme :– Coût du programme vs bénéfices qu’il engendre– Coût du programme vs utilisations alternatives du même

montant d’argent (coût d’opportunité). • Si l’effet est plus petit que cela, il pourrait aussi bien

être zéro: on ne s’intéresse pas au programme étant donné que l’effet n’est pas très différent de zéro.

• Au contraire, n’importe quel effet plus grand justifie l’adoption du programme: on veut le distinguer de zéro.

• Danger commun: choisir la taille d’un effet qui est trop optimiste: l’échantillon risque d’être trop petit.

Page 18: Choisir la Taille de l’Echantillon pour les Evaluations ... · • Que veut dire « crédible » dans ce cas ? Veut dire que je peux être raisonnablement sûr que la différence

Taille d’effet standardisé• La taille de l’effet que l’on trouvera, dans un échantillon d’une

taille donnée, dépendra beaucoup de la variance du résultat. – Exemple: Si tous les enfants ont un niveau d’apprentissage très

similaire sans le programme, alors l’impact du programme sera facile à détecter.

• L’écart-type calcule la variance du résultat. Plus la variance augmente, plus l’écart-type devient grand.

• La taille de l’effet standardisé : c’est la taille de l’effet divisée par l’écart-type du résultat.

= taille de l’effet/écart-type. • Taille de l’effet fréquentes :

petit) moyen) grand)

Page 19: Choisir la Taille de l’Echantillon pour les Evaluations ... · • Que veut dire « crédible » dans ce cas ? Veut dire que je peux être raisonnablement sûr que la différence

Les éléments de design qui influencent la puissance

• Le niveau de randomisation • Disponibilité d’un baseline• Disponibilité de variables de contrôle, et de

stratification. • Le type d’hypothèses qui sont testées.

Page 20: Choisir la Taille de l’Echantillon pour les Evaluations ... · • Que veut dire « crédible » dans ce cas ? Veut dire que je peux être raisonnablement sûr que la différence

Niveau de Randomisation:randomisation par grappes

Tests aléatoires de groupements sont des expériences dans lesquelles des unités sociales ou des groupements (au lieu d’individus) sont alloués aléatoirement dans des groupes test et contrôle.

Exemples:

PROGRESA Village

Réservations par sexe Panchayats

Tableaux à feuilles, Vaccinations

école

Complément de Fer Famille

Page 21: Choisir la Taille de l’Echantillon pour les Evaluations ... · • Que veut dire « crédible » dans ce cas ? Veut dire que je peux être raisonnablement sûr que la différence

Raisons pour l’adoption de la randomisation par grappes

• Besoin de minimiser ou d’éliminer la contamination– Exemple: dans le programme de vaccinations, les écoles

étaient choisies comme unité car les virus sont contagieux.

• Considérations de faisabilité– Exemple: le programme PROGRESA n’aurait pas été

politiquement réalisable si certaines familles étaient choisies et d’autres non.

• Simplement un choix naturel– Exemple: Toute intervention éducative qui influence toute

une classe (ex: tableaux, formation de l’enseignant)

Page 22: Choisir la Taille de l’Echantillon pour les Evaluations ... · • Que veut dire « crédible » dans ce cas ? Veut dire que je peux être raisonnablement sûr que la différence

Impact de la randomisation par grappes

• Les résultats des individus à l’intérieur d’un groupement peuvent être corrélés– Tous les villageois exposés au même climat. – Tous les Panchâyat partagent une histoire commune– Tous les étudiants partagent un maître– Le programme affecte tous les étudiant en même temps. – Les membres du village interagissent entre eux.

• La taille de l’échantillon a besoin d’être ajustée pour tenir compte de cette corrélation

• Plus la corrélation entre les résultats est grande, plus l’on a besoin d’ajuster les écarts-types.

Page 23: Choisir la Taille de l’Echantillon pour les Evaluations ... · • Que veut dire « crédible » dans ce cas ? Veut dire que je peux être raisonnablement sûr que la différence

Exemple de multiplicateursde l’effet de groupe

________________________________Intraclasse Randomized Group Size_ Corrélation

Page 24: Choisir la Taille de l’Echantillon pour les Evaluations ... · • Que veut dire « crédible » dans ce cas ? Veut dire que je peux être raisonnablement sûr que la différence

Implications• Il est extrêmement important de choisir aléatoirement

un nombre correct de groupes. • Souvent, le nombre d’individus dans les groupes est

moins important que le nombre de groupes.

• La “loi des grands nombres” s’applique seulement lorsque le nombre de groupes choisis aléatoirement augmente.

• On ne peut PAS randomiser au niveau de la région, avec une région traitée et une région contrôle !!!

Page 25: Choisir la Taille de l’Echantillon pour les Evaluations ... · • Que veut dire « crédible » dans ce cas ? Veut dire que je peux être raisonnablement sûr que la différence

Disponibilité d’une enquete de référence (Baseline)

• Une enquete beaseline a trois usages :– Peut vérifier si le groupe test et contrôle étaient pareils ou différents

avant le traitement.– Peut réduire la taille de l’échantillon nécessaire, mais requiert de faire

une enquête avant l’intervention: normalement le cout de l’évaluation augmente et celui de l’intervention diminue.

– Peut être utilisé pour stratifier et former des sous-groupes. (ex.. balsakhi)

• Calculer la puissance avec une enquete baseline:– On a besoin de connaitre la corrélation entre deux mesures

consécutives du résultat. (par exemple: entre la consommation maintenant et celle de l’année dernière).

– Plus la corrélation est élevée, plus le gain est grand. – Grands gains pour des résultats très persistants, tels que les résultats

aux examens.

Page 26: Choisir la Taille de l’Echantillon pour les Evaluations ... · • Que veut dire « crédible » dans ce cas ? Veut dire que je peux être raisonnablement sûr que la différence

Variables de ContrôleSi l’on a des variables de contrôle (ex.. population du village, localisation du village), on peut aussi contrôler par ces variables.

Ce qui importe maintenant pour la puissance c’est la variation résiduelle après avoir contrôlé par ces variables.

Si les variables de contrôle expliquent une grande partie de la variance, alors la précision augmente et la taille de l’échantillon nécessaire diminue.

Attention: dans les variables de contrôle on doit seulement inclure celles qui ne sont pas INFLUENCEES par le traitement: des variables qui ont été collectées AVANT l’intervention.

Page 27: Choisir la Taille de l’Echantillon pour les Evaluations ... · • Que veut dire « crédible » dans ce cas ? Veut dire que je peux être raisonnablement sûr que la différence

Echantillons Stratifiés• Stratification: créer des blocs par les valeurs des

variables de contrôle et randomiser à l’intérieur de chaque bloc.

• La stratification assure que les groupes test et contrôle sont équilibrés en terme de ces variables de contrôle.

• Cela réduit la variance pour deux raisons:– Cela réduit la variance du résultat qui nous intéresse dans

chaque strate. – La corrélation des unités à l’intérieur de chaque groupe.

• Exemple: si l’on stratifie par secteur, dans un programme d’extension agricole– Les facteurs Agro climatiques sont contrôlés– L’effet “magistrat commun du secteur” disparait.

Page 28: Choisir la Taille de l’Echantillon pour les Evaluations ... · • Que veut dire « crédible » dans ce cas ? Veut dire que je peux être raisonnablement sûr que la différence

Les éléments de design qui influencent la puissance

• Randomisation par grappes• Disponibilité d’une référence de base• Disponibilité de variables de contrôle, et de

stratification. • Le type d’hypothèses qui sont testées.

Page 29: Choisir la Taille de l’Echantillon pour les Evaluations ... · • Que veut dire « crédible » dans ce cas ? Veut dire que je peux être raisonnablement sûr que la différence

Les Hypothèses Testées

• S’intéresse-t-on aux différences entre deux traitements en même temps que l’on s’intéresse aux différences entre groupe test et contrôle ?

• S’intéresse-t-on aux interactions entre traitement et contrôle ?

• Veut-on tester si les effets varient en fonction des différentes sous-populations ?

• Notre design implique-t-il une adhesion partielle a la randomisation (e.g. encouragement design).

Page 30: Choisir la Taille de l’Echantillon pour les Evaluations ... · • Que veut dire « crédible » dans ce cas ? Veut dire que je peux être raisonnablement sûr que la différence

Les Hypothèses Testées

• S’intéresse-t-on aux différences entre deux traitements en même temps que l’on s’intéresse aux différences entre groupe test et contrôle ?

• S’intéresse-t-on aux interactions entre traitement et contrôle ?• Veut-on tester si les effets varient en fonction des différentes

sous-populations ?

• Dans ces trois cas, il va falloir calculer la taille d’echantillon qui permettra de tester les bonnes hypotheses…. Souvent des echantillons plus grands

Page 31: Choisir la Taille de l’Echantillon pour les Evaluations ... · • Que veut dire « crédible » dans ce cas ? Veut dire que je peux être raisonnablement sûr que la différence

Les Hypothèses Testées

• Notre design implique-t-il une adhesion partielle a la randomisation (e.g. encouragement design).

• En cas d’adhesion partielle, on doit toujours mesurer la difference traitement (initial) vs control (initial). La difference=effet du treatment *taux d’adhesion. L’effet a detecter est donc plus faible (i.e. si 30% des gens suivent le programme, effet mesure sera 30%*effet du programme).

Un faible « take up » a des effets nefaste sur la puissance: la precision augmente de maniere lineaire avec le take up, mais suelement en proportion de la racine carree du nombre d’observations…. Il faut garder ca en tete dans les designs: ne pas surestimer le take up.

Page 32: Choisir la Taille de l’Echantillon pour les Evaluations ... · • Que veut dire « crédible » dans ce cas ? Veut dire que je peux être raisonnablement sûr que la différence

Calculs de Puissance utilisant le logiciel OD

• Choisir “Power vs number of clusters” dans le menu “clustered randomized trials”

Page 33: Choisir la Taille de l’Echantillon pour les Evaluations ... · • Que veut dire « crédible » dans ce cas ? Veut dire que je peux être raisonnablement sûr que la différence

Taille du groupe

• Choisir cluster size

Page 34: Choisir la Taille de l’Echantillon pour les Evaluations ... · • Que veut dire « crédible » dans ce cas ? Veut dire que je peux être raisonnablement sûr que la différence

Choisir un niveau de Test,Effet du traitement, et corrélation

• Choisir : level– Normalement on prend 0.05

• Choisir – On peut expérimenter avec 0.20

• Choisir la corrélation intra classe (rho)• On obtient le graphique suivant qui montre la

puissance en fonction de la taille de l’échantillon.

Page 35: Choisir la Taille de l’Echantillon pour les Evaluations ... · • Que veut dire « crédible » dans ce cas ? Veut dire que je peux être raisonnablement sûr que la différence

Puissance et Taille de l’échantillon

Page 36: Choisir la Taille de l’Echantillon pour les Evaluations ... · • Que veut dire « crédible » dans ce cas ? Veut dire que je peux être raisonnablement sûr que la différence

Conclusions: Calcul de Puissancedans la Pratique

• Les calculs de puissance impliquent un peu de travail d’approximation.

• Souvent, on n’a pas l’information adéquate pour le conduire correctement.

• Toutefois, il est important de leur consacrer un peu de temps et d’effort. :– Evitez de lancer des études qui n’auront aucun pouvoir:

c’est un gaspillage de temps et d’argent. – Consacrez les ressources nécessaires aux études que vous

décidez de conduire (et pas trop).