choisir la taille de l’echantillon pour les evaluations ... · • que veut dire « crédible »...

Post on 12-Sep-2018

214 Views

Category:

Documents

0 Downloads

Preview:

Click to see full reader

TRANSCRIPT

povertyactionlab.org

Choisir la Taille de l’Echantillon pour les Evaluations Aléatoires

Esther Duflo J-PAL

Choisir la Taille de l’Echantillonpour les Evaluations Aléatoires

• Question générale : Quelle taille doit avoir l’échantillon pour pouvoir

détecter un effet de façon crédible ?• Que veut dire « crédible » dans ce cas ?

Veut dire que je peux être raisonnablement sûr que la différence entre le groupe test et le groupe contrôle est due au programme, pas a la chance

• L’évaluation aléatoire élimine le biais, mais n’élimine pas le bruit: cela marche grâce à la loi des grands nombres. Mais à partir de quelle taille d’échantillon cela marche-t-il ?

Configuration de Base

• A la fin de l’expérience, on comparera le résultat qui nous intéresse dans le groupe contrôle et dans le groupe test.

• On s’intéresse à la différence:Moyenne du traitement – Moyenne du contrôle

= Taille de l’effet• Exemple : moyenne du nombre de puits dans les

villages avec des femmes, contre moyenne du nombre de puits dans les villages avec des hommes.

Estimation

Cependant, on n’observe pas toute la population, juste un échantillon.

Dans chaque village de l’échantillon, il y a un nombre donné de puits, plus ou moins proche de la moyenne dans la population, en fonction des autres facteurs qui influencent l’emplacement des puits.

On estime la moyenne (mean) dans la population en calculant la moyenne (average) dans l’échantillon

Si l’on a très peu de villages, les moyennes sont peu précises. Lorsque l’on observe une différence dans les moyennes, on ne peut pas savoir si elle provient d’un effet du traitement ou d’un autre facteur.

i 1

Les facteurs qui influencent la precision

Taille de L’échantillon:• Peut-on tirer des conclusions si l’on a un village

traité et un non-traité?• Peut-on tirer des conclusions si l’on donne des

manuels à une classe et pas à une autre ?• Même si l’on a une classe d’une grande taille ?• Ce qui est important c’est la taille effective de

l’échantillon. i.e. le nombre d’unités traitées et d’unités de contrôle (ici les classes). Quelle est l’unité dans le cas des Panchâyat ?

i 1

Les facteurs qui influencent la precision

La variabilité de la variable que l’on essaye de mesurer:

• S’il y a d’autres facteurs non mesurés qui influencent ces variables, ce sera plus difficile d’affirmer si le traitement a vraiment influencé celui-ci

Quand les résultats sont très précis

Low Standard Deviation

0

5

10

15

20

25

valu

e

33 37 41 45 49 53 57 61 65 69 73 77 81 85 89

Number

Freq

uenc

y

mean 50mean 60

Moins précis

Medium Standard Deviation

0123456789

valu

e

33 37 41 45 49 53 57 61 65 69 73 77 81 85 89

Number

Freq

uenc

y

mean 50mean 60

Peut-on Conclure?

High Standard Deviation

0

1

2

3

4

5

6

7

8

value 33 37 41 45 49 53 57 61 65 69 73 77 81 85 89

Number

Freq

uenc

y

mean 50mean 60

Intervalles de Confiance

• La taille de l’effet estimé (la différence entre les moyennes dans les deux groupes) est valide seulement pour notre échantillon. Chaque échantillon donnera une réponse légèrement différente. Comment utilise-t-on notre échantillon pour faire des hypothèses sur toute la population?

• Un intervalle de confiance à 95% pour un effet mesure nous dit que, pour 95% des échantillons que l’on aurait pu tirer de la même population, l’intervalle de confiance calcule de la meme facon aurait contenu cet effet.

• Les écarts-types (se) des estimateurs dans cet échantillon reflètent à la fois la taille de l’échantillon et la variabilité du résultat (qui est plus large lorsque l’échantillon est petit et avec un résultat variable).

• Règle : un intervalle de confiance à 95% est en gros l’effect, plus ou moins deux (1.96) écarts-types.

Test d’Hypothèses

On veut souvent tester l’hypothèse que l’effet est égal à zéro (on veut rejeter l’hypothèse que le programme n’a pas eu d’effet). On veut tester :

Contre:

0 sizeEffect : oH

0 sizeEffect :a H

Deux types d’erreurs• Erreur de type I: Conclure qu’il y a un effet alors qu’il n’y

en a pas.

Le niveau du test c’est la probabilité de conclure erronément que le programme a un effet alors qu’il n’en a pas.

Avec un niveau de 5%, on peut être sûrs à 95% en la validité de notre conclusion que notre programme a eu un effet.

Pour l’évaluation des politiques, on veut réduire au minimum le risque de se tromper. On veut un niveau de test très petit, pour être très sur de la réponse.

Niveau usuel de : 5%, 10%, 1%.

Relation avec les intervalles de confiance

• Si zéro n’appartient pas à l’intervalle de confiance à 95% pour l’ampleur de l’effet que l’on a mesuré, alors on peut être à 95% sûrs que l’effet est différent de zéro.

• La règle est donc la suivante: si l’ampleur de l’effet est deux fois plus grande que l’écart type; alors on peut conclure, avec 95% de certitude, que le programme a eu un effet.

Deux types d’erreursErreur de type II: on ne rejette pas l’hypothèse que le

programme n’a pas d’effet alors qu’en fait il a un effet.

• Puissance=1-probabilite d’une erreur de type II• La Puissance d’un test c’est la probabilité de trouver un

effet significatif dans l’expérience. (une puissance plus élevée est préférable car j’ai plus de chance de trouver un effet)

• La puissance d’un test est un outil d’organisation. Elle me dira la probabilité de trouver un effet significatif pour une taille d’échantillon donnée.

Le calcul de la puissance(power calculations)

• Lorsque l’on planifie une évaluation, en faisant des hypotheses, on peut calculer la taille minimum nécessaire de l’échantillon dont on aura besoin pour: – Tester une hypothèse pré-spécifiée : programme a ou n’a pas d’effet. – Pour un niveau de confiance pré-spécifié (ex.. 5%)– Pour une taille de l’effet pré-spécifié – Pour atteindre une puissance donnée

• Une puissance de 80% nous indique que dans 80% des expériences de cet échantillon dans cette population, s’il y a un effet dans la population, on sera capable de dire que dans notre échantillon, il y a un effet avec le degré de confiance désiré.

• Plus l’échantillon est grand, plus la puissance du test augmentePuissance utilisée normalement: 80%, 90%

Ingrédients pour un calcul de puissance d’un test dans un cas simple

Ce dont on a besoin Où le trouver

Niveau du test Souvent conventionnellement fixé à 5%. S’il est plus faible, on a besoin d’un échantillon plus grand pour maintenir la puissance du test.

La moyenne et la variabilité du résultat dans le groupe contrôle.

-Dans les enquêtes précédentes conduites dans des conditions similaires. -Plus la variance est grande, plus on a besoin d’un grand échantillon pour maintenir la puissance du test.

L’ampleur de l’effet que l’on veut détecter.

Quel est l’effet du programme qu’on veut detecter? Plus l’effet que l’on veut détecter est petit, plus grand est l’échantillon dont on a besoin pour pouvoir détecter l’effet.

Choisir la taille d’un effet

• Quelle est la taille minimale d’un effet qui justifie l’adoption d’un programme :– Coût du programme vs bénéfices qu’il engendre– Coût du programme vs utilisations alternatives du même

montant d’argent (coût d’opportunité). • Si l’effet est plus petit que cela, il pourrait aussi bien

être zéro: on ne s’intéresse pas au programme étant donné que l’effet n’est pas très différent de zéro.

• Au contraire, n’importe quel effet plus grand justifie l’adoption du programme: on veut le distinguer de zéro.

• Danger commun: choisir la taille d’un effet qui est trop optimiste: l’échantillon risque d’être trop petit.

Taille d’effet standardisé• La taille de l’effet que l’on trouvera, dans un échantillon d’une

taille donnée, dépendra beaucoup de la variance du résultat. – Exemple: Si tous les enfants ont un niveau d’apprentissage très

similaire sans le programme, alors l’impact du programme sera facile à détecter.

• L’écart-type calcule la variance du résultat. Plus la variance augmente, plus l’écart-type devient grand.

• La taille de l’effet standardisé : c’est la taille de l’effet divisée par l’écart-type du résultat.

= taille de l’effet/écart-type. • Taille de l’effet fréquentes :

petit) moyen) grand)

Les éléments de design qui influencent la puissance

• Le niveau de randomisation • Disponibilité d’un baseline• Disponibilité de variables de contrôle, et de

stratification. • Le type d’hypothèses qui sont testées.

Niveau de Randomisation:randomisation par grappes

Tests aléatoires de groupements sont des expériences dans lesquelles des unités sociales ou des groupements (au lieu d’individus) sont alloués aléatoirement dans des groupes test et contrôle.

Exemples:

PROGRESA Village

Réservations par sexe Panchayats

Tableaux à feuilles, Vaccinations

école

Complément de Fer Famille

Raisons pour l’adoption de la randomisation par grappes

• Besoin de minimiser ou d’éliminer la contamination– Exemple: dans le programme de vaccinations, les écoles

étaient choisies comme unité car les virus sont contagieux.

• Considérations de faisabilité– Exemple: le programme PROGRESA n’aurait pas été

politiquement réalisable si certaines familles étaient choisies et d’autres non.

• Simplement un choix naturel– Exemple: Toute intervention éducative qui influence toute

une classe (ex: tableaux, formation de l’enseignant)

Impact de la randomisation par grappes

• Les résultats des individus à l’intérieur d’un groupement peuvent être corrélés– Tous les villageois exposés au même climat. – Tous les Panchâyat partagent une histoire commune– Tous les étudiants partagent un maître– Le programme affecte tous les étudiant en même temps. – Les membres du village interagissent entre eux.

• La taille de l’échantillon a besoin d’être ajustée pour tenir compte de cette corrélation

• Plus la corrélation entre les résultats est grande, plus l’on a besoin d’ajuster les écarts-types.

Exemple de multiplicateursde l’effet de groupe

________________________________Intraclasse Randomized Group Size_ Corrélation

Implications• Il est extrêmement important de choisir aléatoirement

un nombre correct de groupes. • Souvent, le nombre d’individus dans les groupes est

moins important que le nombre de groupes.

• La “loi des grands nombres” s’applique seulement lorsque le nombre de groupes choisis aléatoirement augmente.

• On ne peut PAS randomiser au niveau de la région, avec une région traitée et une région contrôle !!!

Disponibilité d’une enquete de référence (Baseline)

• Une enquete beaseline a trois usages :– Peut vérifier si le groupe test et contrôle étaient pareils ou différents

avant le traitement.– Peut réduire la taille de l’échantillon nécessaire, mais requiert de faire

une enquête avant l’intervention: normalement le cout de l’évaluation augmente et celui de l’intervention diminue.

– Peut être utilisé pour stratifier et former des sous-groupes. (ex.. balsakhi)

• Calculer la puissance avec une enquete baseline:– On a besoin de connaitre la corrélation entre deux mesures

consécutives du résultat. (par exemple: entre la consommation maintenant et celle de l’année dernière).

– Plus la corrélation est élevée, plus le gain est grand. – Grands gains pour des résultats très persistants, tels que les résultats

aux examens.

Variables de ContrôleSi l’on a des variables de contrôle (ex.. population du village, localisation du village), on peut aussi contrôler par ces variables.

Ce qui importe maintenant pour la puissance c’est la variation résiduelle après avoir contrôlé par ces variables.

Si les variables de contrôle expliquent une grande partie de la variance, alors la précision augmente et la taille de l’échantillon nécessaire diminue.

Attention: dans les variables de contrôle on doit seulement inclure celles qui ne sont pas INFLUENCEES par le traitement: des variables qui ont été collectées AVANT l’intervention.

Echantillons Stratifiés• Stratification: créer des blocs par les valeurs des

variables de contrôle et randomiser à l’intérieur de chaque bloc.

• La stratification assure que les groupes test et contrôle sont équilibrés en terme de ces variables de contrôle.

• Cela réduit la variance pour deux raisons:– Cela réduit la variance du résultat qui nous intéresse dans

chaque strate. – La corrélation des unités à l’intérieur de chaque groupe.

• Exemple: si l’on stratifie par secteur, dans un programme d’extension agricole– Les facteurs Agro climatiques sont contrôlés– L’effet “magistrat commun du secteur” disparait.

Les éléments de design qui influencent la puissance

• Randomisation par grappes• Disponibilité d’une référence de base• Disponibilité de variables de contrôle, et de

stratification. • Le type d’hypothèses qui sont testées.

Les Hypothèses Testées

• S’intéresse-t-on aux différences entre deux traitements en même temps que l’on s’intéresse aux différences entre groupe test et contrôle ?

• S’intéresse-t-on aux interactions entre traitement et contrôle ?

• Veut-on tester si les effets varient en fonction des différentes sous-populations ?

• Notre design implique-t-il une adhesion partielle a la randomisation (e.g. encouragement design).

Les Hypothèses Testées

• S’intéresse-t-on aux différences entre deux traitements en même temps que l’on s’intéresse aux différences entre groupe test et contrôle ?

• S’intéresse-t-on aux interactions entre traitement et contrôle ?• Veut-on tester si les effets varient en fonction des différentes

sous-populations ?

• Dans ces trois cas, il va falloir calculer la taille d’echantillon qui permettra de tester les bonnes hypotheses…. Souvent des echantillons plus grands

Les Hypothèses Testées

• Notre design implique-t-il une adhesion partielle a la randomisation (e.g. encouragement design).

• En cas d’adhesion partielle, on doit toujours mesurer la difference traitement (initial) vs control (initial). La difference=effet du treatment *taux d’adhesion. L’effet a detecter est donc plus faible (i.e. si 30% des gens suivent le programme, effet mesure sera 30%*effet du programme).

Un faible « take up » a des effets nefaste sur la puissance: la precision augmente de maniere lineaire avec le take up, mais suelement en proportion de la racine carree du nombre d’observations…. Il faut garder ca en tete dans les designs: ne pas surestimer le take up.

Calculs de Puissance utilisant le logiciel OD

• Choisir “Power vs number of clusters” dans le menu “clustered randomized trials”

Taille du groupe

• Choisir cluster size

Choisir un niveau de Test,Effet du traitement, et corrélation

• Choisir : level– Normalement on prend 0.05

• Choisir – On peut expérimenter avec 0.20

• Choisir la corrélation intra classe (rho)• On obtient le graphique suivant qui montre la

puissance en fonction de la taille de l’échantillon.

Puissance et Taille de l’échantillon

Conclusions: Calcul de Puissancedans la Pratique

• Les calculs de puissance impliquent un peu de travail d’approximation.

• Souvent, on n’a pas l’information adéquate pour le conduire correctement.

• Toutefois, il est important de leur consacrer un peu de temps et d’effort. :– Evitez de lancer des études qui n’auront aucun pouvoir:

c’est un gaspillage de temps et d’argent. – Consacrez les ressources nécessaires aux études que vous

décidez de conduire (et pas trop).

top related