Download - Randomisation en Pratique Dr. Eric P. Bettinger Stanford University and NBER May 10, 2010
Randomisation en PratiqueDr. Eric P. Bettinger
Stanford University and NBER
May 10, 2010
Objectif de la Presentation
1. Pourquoi s'intéresser à l'évaluation d'impact ?
2. En quoi consiste l'évaluation d'impact ?3. Comment la conception des
interventions éducatives devraient faciliter l'évaluation?
4. Quelles sont les données nécessaires pour une évaluation réussie?
5. Autres considérations dans l'évaluation d'impact
Exemple de politique: Aide Financière Scolaire
Les Programmes d'aide financière scolaires sont diverses: Bourse de mérite, Bourse de nécessité, des
aides, des prêts, des crédits d'impôt, aide basée sur le travail
Les Effets diffèrent selon les programmes d'aide: Combinaison appropriée des programmes
dépend des objectifs de la politique Des données disponible a temps sur
l'efficacité est essentielle à la réussite « Le choix des politiques doit être faite d'une
manière ou d'une autre. Je préfère le faire avec les données »- L'ancien chef du système de l'enseignement supérieur de l'Ohio
L'expérimentation et l'Organisation de l'apprentissage: un cercle vertueux
Évaluer
Innover
Expérimenter
Exemple du programme de bourse en Georgie (USA) Hope Scholarship
Les bourses d'études Hope en Géorgie Octroi des bourses de scolarité aux étudiants de la
Géorgie qui restent en Géorgie Les élèves devaient avoir une moyenne cumulative de
3,0/4,0 au secondaire L'objectif déclaré du programme: accroître l'accès à
l'enseignement supérieur chez les élèves issus de familles à faible revenu
Résultats de l'évaluation L'augmentation des effectifs étudiants en général
(Cornwell, Mustard, Sridhar 2002) Parmi les familles a faible revenu, en particulier les
minorités, les effectifs n'ont pas augmenté (Dynarski 2000)
Exemple du programme de bourse en Georgie (USA) Hope Scholarship
Différence entre l'objectif et l'impact Objectif: améliorer l'accès pour les familles à faible
revenu Impact: améliorer l'accès pour les familles a revenu
eleve ou moyen mais pas pour les familles a revenu faible
Pourquoi l'échec? Hope récompense le rendement scolaire HOPE requis des formulaires complexes Les familles à revenu élevé ont
de meilleure performance au niveau secondaire un meilleur accès à l'information pour les universités
Comment la politique a été influencer par l’évaluation d'impact? Exigence des performances académiques a été réduite Processus de demande (formulaires) simplifié
La Valeur de l’evaluation d’impact
Évaluer l'efficacité des programmes et politique en général Sans évaluation, il n'y a qu'une "conjecture et la critique»
(Phipps 1998) Alignement et modifications des politiques
Exemple Hope en Géorgie Avantages inattendus et les conséquences L'identification spécifique des éléments programmatiques
Politique de préservation Programme de Sécurité Sociale pour étudiants (aux USA)
Augmentation des effectifs etudiants et du taux d'achèvement (Dynarski 2000)
Annulé en 1982 Exemple du programme PACES en Colombie
Programme de coupons a été très efficace Annulé Avant qu’une évaluation n’ait été effectué
Comment évaluer?
1. Stratégie de comparaison (« Stratégie d'identification »)
La recherche concerne la comparaison entre ce qui c’est passe et ce qui aurait pu se passer
2. Données Des données détaillées sur la mise en
œuvre du programme et utilisation Les données sur les résultats scolaires
Comparison Strategy
Le coeur de l'évaluation est la comparaison l'effet du programme est la différence entre
les résultats observés et les résultats qu’on aurait observé sans le programme
résultat contrefactuel n’est jamais observé Nous ne pouvons observer le même élève avec
et sans l'aide groupe témoin représente le contrefactuel Pas tous les groupes de comparaison ont
été créés égaux
Creation du groupe de comparaison
La randomisation est l’étalon d’or (Gold Standard ) Décideur choisit au hasard parmi les candidats à
un programme Les étudiants choisis à la loterie bénéficier d'une
aide Les étudiants non choisis ne reçoivent pas d'aide En moyenne, les gagnants de la loterie et les
perdants apparaissent similaires au moment de la loterie
Au fil du temps, les différences entre les gagnants à la loterie et les perdants montrer les effets du programme
Autres Strategies de Comparaison
Comparaison apparié groupe de comparaison est similaire aux
étudiants sans aide Les expériences naturelles
L'analyse de seuils (discontinuité dans la régression)
Randomisations "Naturelles"
Exemple de Randomisation
Angrist, Lang & Oreopoulos (2006) Grande université canadienne Services multiples
Programme de services de soutien aux nouveaux étudiants (e.g. tuteurs)
Incitation financière basées sur la moyenne pondérée cumulative à l'université
700 élèves ont poses leur demande Les gestionnaires du programme ont
utiliser une loterie aléatoire pour attribuer les étudiants au groupe de traitement
Résultats scolaires au secondaire, avant la loterie tres similaires
0.0
2.0
4.0
6.0
8
65 70 75 80 85 90 95High School Grade Average Used for University Admission
Control SFP/SFSP
Difference au niveau des moyennes universitaire après loterie (Femmes)
0.0
1.0
2.0
3.0
4
30 35 40 45 50 55 60 65 70 75 80 85 90 95First Term Grade Average
Control SFP/SFSP
Support pour la Randomisation États-Unis No Child Left Behind Law
(2001): Lier le financement des écoles a la ‘recherche
scientifique’ qui consiste a évaluer en utilisant des modèles expérimentaux ou quasi-expérimentaux dans lequel les individus, entités, des programmes ou des activités sont soumis à des conditions différentes et avec des contrôles appropriés pour évaluer les effets de la condition d'intérêt, avec une préférence pour des expériences avec assignation aléatoire
Banque mondiale (2003): «Conceptions randomisées sont généralement
les plus robustes des méthodes d'évaluation"
Autre Exemple de Randomisation: Programme PACES en Colombie
Programme de bons/coupons pour l'éducation en Colombie subventions prévues pour aider les eleves a
aller dans des écoles secondaires privées Cible les familles à faible revenu Environ 125.000 étudiants ont bénéficié La demande de bons/coupons supérieure à
l'offre Utilisation de la loterie pour l’attribution
des bons/coupons S'est déroulée de 1992-1998
PACES en Colombie
Les résultats préliminaires fondés sur la méthode d’appariement (matching) des écoles Appariées les écoles privées avec bons/coupons et
les écoles publics ayant des caractéristiques similaires
Comparé les résultats au niveau des écoles Evaluation à coût très économique grâce a
l’utilisation des données de recensement scolaires existantes.
CONCLUSION CLE: Aucune différence entre les écoles privées avec bons/coupons et les écoles publiques au niveau des résultats aux tests.
Conclusion est difficile à défendre
Problèmes liees a l’évaluation précoce En comparant les écoles privées avec
bons/coupons et les écoles publics, on ne capture pas le vrai effet des bons/coupons Seule une fraction des étudiants avaient
bons Seules les écoles avec les données incluses Le contrefactuel est faux:
La plupart des étudiants qui ont demandé mais pas reçu de bons/coupons sont aller dans d’autres écoles privées et non publiques
Existence potentielle de variables confondantes (par exemple le revenu)
PACES en Colombie Evaluation #2
Profite de la loteries utilisée pour la distribution des bons/coupons Comparer gagnants et perdants à la loterie Les demandeurs de bons/coupons ont tous
la même préférence pour l'enseignement Gagnants et perdants se ressemblent au
moment de la loterie Même âge, la probabilité d'être des femmes, la
probabilité d'avoir un numéro d'identification national valable, et la probabilité d'avoir un téléphone
Colombie PACES – Résultats d’évaluation
Les résultats après trois ans démontrent que les élèves se méritant des bons d’études ont: De meilleurs résultats aux examens Plus d’années de scolarité complétées Répètent une classe moins fréquemment Plus faible taux de participation au marché du travail Plus faible taux de mariage ou de cohabitation
Après six ans: Une augmentation de 20 pourcent de la fréquentation à
l’université Des résultats plus élevés aux examens d’entré à
l’université
Pourquoi la randomisation est-elle si convaincante?
1. Les statistiques sont simples. Pas de techniques de régression
compliquées
2. Il n’existent généralement pas de facteurs confondant. Les groupes choisis de façon aléatoire
devraient être similaire au moment où la loterie a lieu.
Pas de differences dans les charactéristiques inobservables.
3. Facile à comprendre et à reproduire.
Est que les randomisation est la seule stratégie?
1. Appariement (Matcing) Les résultats dependent souvent de la
nature de la comparaison Hanushek (1996)
Type d’étude Nombre d’études
Statistiquement Significatif
Statistiquement non-significatif
Positif Negatif Positif Negatif Inconnu
Ration enseignant-élève 277 15 13 27 25 20
Education des enseignants 171 9 5 33 27 26
Expérience des ensignants 207 29 5 30 24 12
Dépenses par élèves 163 27 7 34 19 13
Stratégies d’appariement: Exemple Débat classique sur la taille des classes
au secondaire• Hanushek (1986, 1989, 1996, 1997,
1998) Utilise l’appariement (matching). Ne trouve aucun résultat supportant
l’effet de la taille des classes sur les résultats scolaires des élèves.
• Krueger (2003) Utilise la randomisation au Tennessee Trouve des effets importants liés à la
taille des classes
Pourquoi est-ce différent?
Krueger: “Tous les estimés ne sont pas crées égaux” Krueger citant Galilé:
‘Je dis que le témoignage de plusieurs a plus de valeurs que celui de peu de personnes, puisque le nombre de personne qui raisonne correctement à propos de sujet compliqué est beaucoup plus faible que le nombre de personnes qui raisonne incorrectement. Si raisonner est similaire à haler, je conviendrais que plusieurs raisonneurs sont plus valable qu’un seul, de la même façon que plusieurs chevaux peuvent haler plus de sacs de grains qu’un seul. Mais raisonner est davantage similaire à la course plutôt qu’au halage, un seul coursier de Barbary peut distancer 100 chevaux de trait.’
Le project “Tennessee STAR’ est le coursier de Barbary dans la literature sur la taille des classes.
Autres stratégies
2. Analyses de seuil (discontinuité dans la regression) L’aide est souvent attribué si les élèves
respectent un certain critère Revenu sous un certain seuil Resultats aux test au-dessus d’une certaine note
Les élèves près du seuil sont très similaires Les raisons pour lequels certains sont au-dessus et
d’autres en-dessous sont relativement aléatoires Comparer les éléves justes au-dessus et au-
dessous du seuil L’analyse de seuil fait partie d’une classe plus large
“d’expériences naturelles” (ou de méthodes quasi-expérimentales) dans le cadre de lquelle les chercheurs identifie des situtations ou politiques qui semblent générer un assignement aléatoire.
Analyse de seuil - Exemple: Bourse d’études en Californie
Bourse d’études en Californie Kane (2003) Admission guarantie sur la base des
résultats au secondaire La bourse couvre tous les frais de scolarité Il existe un critére d’éligibilité lié au revenu La discontinuité se trouvent autour de 3.15
Les élèves au-dessus recoivent les bénéfices complets
Les élève au-dessou ne recoivent rien
Les personnes étaient-elles réellement similaire autour de la discontinuité?
Est-ce que la discontinuité a conduit à des changements dans les résultats?
Autre example d’analyse de seuil
Programme d’aide sociale (Dynarski 2000) Couvrir les frais de scolarité pour les
étudiants universitaires dont les parents sont décédés
Politique de frais de scolarité libérale Intérompu soudainement en 1982 Discontinuité selon l’année de graduation
Pre-1982: Aide aux étudiants dont les parents sont décédés
Post-1982: Pas d’aide aux étudiants dont les parents sont décédés
Programme d’aide sociale par année
Pourcentage des étudiants fréquentant l’université
Père vivant Père décédés
Ayant complété le secondaire entre 1979 et 1981
.54 .63
Ayant complété le secondaire entre 1982 et 1983
.49 .32
Leçon des analyses de seuil vs. Appariement
Les estimées selon la méthode d’appariement supportent l’inexistence d’un effet de l’aide sur la fréquentation (e.g. Kane 1999, Leslie and Brinkman 1987) Ont comparé les étudiants avec et sans
aide Les facteurs confondants potentiels
comprennent: La motivation des étudiants Les différences dans les opportunités
économiques Les différences dans les paramètres de
l’éducation universitaires
L’aide basé sur les besoins sous un jour nouveau Davantage de recherche “scientifique”:
Dynarski (2000): L’aide a une influence dramatique
Kane (2003): L’aide augmente le taux de fréquentation
Bettinger (2004): L’aide basé sur les besoins diminue le taux d’abandon
À retenir
Le recherche dépend de la qualité des comparaisons Les compaisons ne sont pas toutes
équivalentes Certaines comparaisons fournissent des
informations Mais peuvent chacher des facteurs
confoundant La randomisation est “l’étalon-or” (gold
standard) en évaluation d’impact Facile à comprendre Pas sensible aux facteurs confoundants
Exigences au niveau des données Détails de mise-en-oeuvre
Qui participe Combien d’aide recoivent-ils Quand ont-ils ou vont-ils recevoir cette aide Durée des bénéfices Enquête de référence
Coûts associés à la perte de cette information Exemple de Colombia PACES
Exigences au niveau des données (cont.) Donnée sur les résultats
Les résultats qui importent La fréquentation de l’université La complétion du cours universitaire Le choix de la majeur Les revenus
Méthode de collection Enquêtes Données administratives
“Si vous le construisez, ils viendront” – Field of Dreams (1989) Crée des données sur les résultats attirent
les chercheurs Souvent la question mène a des collectes de
données Souvent les données mènet à la question
La quantité de recherche mène à une demande accrue pour de la recherche de qualité Favorisent le dévelopment d’aptitude à la
recherche additionel Augmentent la volonté politique pour les
évaluations rigoureuses
Exigences au niveau des données (cont.)
Considérations dans l’examen de politique Timing de l’évaluation
Le délai entre le début de l’évaluation et la production de résultats
Coût de l’évaluation Coût du program, de l’évaluation, de la
collected de données Considérations Ethique
La prestation du service Le droit à la vie privée
La faisaibilité politique de l’évaluation Lant Pritchett: “No advocate would want to
engage in research that potentially undermines support for his/her program. Endless, but less than compelling, controversy is preferred to knowing for sure.”
Comment entreprendre une évaluation rigoureuse
1. Planifier à l’avance Il est impossible d’utilier la randomization
après le fait Créer et developper les instruments de
collectes de données prends du temps.
2. Consulter des personnes-resources en recherche Exemple: le départment de planification
nationale en Colombie
3.Prendre un risque L’évaluation est risqué. Il se peut que le
program ne fonctionne pas, mais connaître les forces et faibless d’une politique peut mener à de meileures politiques.
L'expérimentation et l'Organisation de l'apprentissage: un cercle vertueux
Évaluer
Innover
Expérimenter
Conclusion
L’évaluation d’impact est essentiel à la compréhension des forces et faiblesses des politique publique Toutes les évaluations ne sont pas
créent égales Les comparaisons sur la base de
l’assignement aléatoire représentent la méthodologie la plus robuste.
L’évaluation requiert de bons systèmes de données. Mise-en-oeuvre et données sur les
résultats Plan pour la collecte de données