randomisation en pratique dr. eric p. bettinger stanford university and nber may 10, 2010

Randomisation en PratiqueDr. Eric P. Bettinger

Stanford University and NBER

May 10, 2010

Objectif de la Presentation

1. Pourquoi s'intéresser à l'évaluation d'impact ?

2. En quoi consiste l'évaluation d'impact ?3. Comment la conception des

interventions éducatives devraient faciliter l'évaluation?

4. Quelles sont les données nécessaires pour une évaluation réussie?

5. Autres considérations dans l'évaluation d'impact

Exemple de politique: Aide Financière Scolaire

Les Programmes d'aide financière scolaires sont diverses: Bourse de mérite, Bourse de nécessité, des

aides, des prêts, des crédits d'impôt, aide basée sur le travail

Les Effets diffèrent selon les programmes d'aide: Combinaison appropriée des programmes

dépend des objectifs de la politique Des données disponible a temps sur

l'efficacité est essentielle à la réussite « Le choix des politiques doit être faite d'une

manière ou d'une autre. Je préfère le faire avec les données »- L'ancien chef du système de l'enseignement supérieur de l'Ohio

L'expérimentation et l'Organisation de l'apprentissage: un cercle vertueux

Évaluer

Innover

Expérimenter

Exemple du programme de bourse en Georgie (USA) Hope Scholarship

Les bourses d'études Hope en Géorgie Octroi des bourses de scolarité aux étudiants de la

Géorgie qui restent en Géorgie Les élèves devaient avoir une moyenne cumulative de

3,0/4,0 au secondaire L'objectif déclaré du programme: accroître l'accès à

l'enseignement supérieur chez les élèves issus de familles à faible revenu

Résultats de l'évaluation L'augmentation des effectifs étudiants en général

(Cornwell, Mustard, Sridhar 2002) Parmi les familles a faible revenu, en particulier les

minorités, les effectifs n'ont pas augmenté (Dynarski 2000)

Exemple du programme de bourse en Georgie (USA) Hope Scholarship

Différence entre l'objectif et l'impact Objectif: améliorer l'accès pour les familles à faible

revenu Impact: améliorer l'accès pour les familles a revenu

eleve ou moyen mais pas pour les familles a revenu faible

Pourquoi l'échec? Hope récompense le rendement scolaire HOPE requis des formulaires complexes Les familles à revenu élevé ont

de meilleure performance au niveau secondaire un meilleur accès à l'information pour les universités

Comment la politique a été influencer par l’évaluation d'impact? Exigence des performances académiques a été réduite Processus de demande (formulaires) simplifié

La Valeur de l’evaluation d’impact

Évaluer l'efficacité des programmes et politique en général Sans évaluation, il n'y a qu'une "conjecture et la critique»

(Phipps 1998) Alignement et modifications des politiques

Exemple Hope en Géorgie Avantages inattendus et les conséquences L'identification spécifique des éléments programmatiques

Politique de préservation Programme de Sécurité Sociale pour étudiants (aux USA)

Augmentation des effectifs etudiants et du taux d'achèvement (Dynarski 2000)

Annulé en 1982 Exemple du programme PACES en Colombie

Programme de coupons a été très efficace Annulé Avant qu’une évaluation n’ait été effectué

Comment évaluer?

1. Stratégie de comparaison (« Stratégie d'identification »)

La recherche concerne la comparaison entre ce qui c’est passe et ce qui aurait pu se passer

2. Données Des données détaillées sur la mise en

œuvre du programme et utilisation Les données sur les résultats scolaires

Comparison Strategy

Le coeur de l'évaluation est la comparaison l'effet du programme est la différence entre

les résultats observés et les résultats qu’on aurait observé sans le programme

résultat contrefactuel n’est jamais observé Nous ne pouvons observer le même élève avec

et sans l'aide groupe témoin représente le contrefactuel Pas tous les groupes de comparaison ont

été créés égaux

Creation du groupe de comparaison

La randomisation est l’étalon d’or (Gold Standard ) Décideur choisit au hasard parmi les candidats à

un programme Les étudiants choisis à la loterie bénéficier d'une

aide Les étudiants non choisis ne reçoivent pas d'aide En moyenne, les gagnants de la loterie et les

perdants apparaissent similaires au moment de la loterie

Au fil du temps, les différences entre les gagnants à la loterie et les perdants montrer les effets du programme

Autres Strategies de Comparaison

Comparaison apparié groupe de comparaison est similaire aux

étudiants sans aide Les expériences naturelles

L'analyse de seuils (discontinuité dans la régression)

Randomisations "Naturelles"

Exemple de Randomisation

Angrist, Lang & Oreopoulos (2006) Grande université canadienne Services multiples

Programme de services de soutien aux nouveaux étudiants (e.g. tuteurs)

Incitation financière basées sur la moyenne pondérée cumulative à l'université

700 élèves ont poses leur demande Les gestionnaires du programme ont

utiliser une loterie aléatoire pour attribuer les étudiants au groupe de traitement

Résultats scolaires au secondaire, avant la loterie tres similaires

0.0

2.0

4.0

6.0

8

65 70 75 80 85 90 95High School Grade Average Used for University Admission

Control SFP/SFSP

Difference au niveau des moyennes universitaire après loterie (Femmes)

0.0

1.0

2.0

3.0

4

30 35 40 45 50 55 60 65 70 75 80 85 90 95First Term Grade Average

Control SFP/SFSP

Support pour la Randomisation États-Unis No Child Left Behind Law

(2001): Lier le financement des écoles a la ‘recherche

scientifique’ qui consiste a évaluer en utilisant des modèles expérimentaux ou quasi-expérimentaux dans lequel les individus, entités, des programmes ou des activités sont soumis à des conditions différentes et avec des contrôles appropriés pour évaluer les effets de la condition d'intérêt, avec une préférence pour des expériences avec assignation aléatoire

Banque mondiale (2003): «Conceptions randomisées sont généralement

les plus robustes des méthodes d'évaluation"

Autre Exemple de Randomisation: Programme PACES en Colombie

Programme de bons/coupons pour l'éducation en Colombie subventions prévues pour aider les eleves a

aller dans des écoles secondaires privées Cible les familles à faible revenu Environ 125.000 étudiants ont bénéficié La demande de bons/coupons supérieure à

l'offre Utilisation de la loterie pour l’attribution

des bons/coupons S'est déroulée de 1992-1998

PACES en Colombie

Les résultats préliminaires fondés sur la méthode d’appariement (matching) des écoles Appariées les écoles privées avec bons/coupons et

les écoles publics ayant des caractéristiques similaires

Comparé les résultats au niveau des écoles Evaluation à coût très économique grâce a

l’utilisation des données de recensement scolaires existantes.

CONCLUSION CLE: Aucune différence entre les écoles privées avec bons/coupons et les écoles publiques au niveau des résultats aux tests.

Conclusion est difficile à défendre

Problèmes liees a l’évaluation précoce En comparant les écoles privées avec

bons/coupons et les écoles publics, on ne capture pas le vrai effet des bons/coupons Seule une fraction des étudiants avaient

bons Seules les écoles avec les données incluses Le contrefactuel est faux:

La plupart des étudiants qui ont demandé mais pas reçu de bons/coupons sont aller dans d’autres écoles privées et non publiques

Existence potentielle de variables confondantes (par exemple le revenu)

PACES en Colombie Evaluation #2

Profite de la loteries utilisée pour la distribution des bons/coupons Comparer gagnants et perdants à la loterie Les demandeurs de bons/coupons ont tous

la même préférence pour l'enseignement Gagnants et perdants se ressemblent au

moment de la loterie Même âge, la probabilité d'être des femmes, la

probabilité d'avoir un numéro d'identification national valable, et la probabilité d'avoir un téléphone

Colombie PACES – Résultats d’évaluation

Les résultats après trois ans démontrent que les élèves se méritant des bons d’études ont: De meilleurs résultats aux examens Plus d’années de scolarité complétées Répètent une classe moins fréquemment Plus faible taux de participation au marché du travail Plus faible taux de mariage ou de cohabitation

Après six ans: Une augmentation de 20 pourcent de la fréquentation à

l’université Des résultats plus élevés aux examens d’entré à

l’université

Pourquoi la randomisation est-elle si convaincante?

1. Les statistiques sont simples. Pas de techniques de régression

compliquées

2. Il n’existent généralement pas de facteurs confondant. Les groupes choisis de façon aléatoire

devraient être similaire au moment où la loterie a lieu.

Pas de differences dans les charactéristiques inobservables.

3. Facile à comprendre et à reproduire.

Est que les randomisation est la seule stratégie?

1. Appariement (Matcing) Les résultats dependent souvent de la

nature de la comparaison Hanushek (1996)

Type d’étude Nombre d’études

Statistiquement Significatif

Statistiquement non-significatif

Positif Negatif Positif Negatif Inconnu

Ration enseignant-élève 277 15 13 27 25 20

Education des enseignants 171 9 5 33 27 26

Expérience des ensignants 207 29 5 30 24 12

Dépenses par élèves 163 27 7 34 19 13

Stratégies d’appariement: Exemple Débat classique sur la taille des classes

au secondaire• Hanushek (1986, 1989, 1996, 1997,

1998) Utilise l’appariement (matching). Ne trouve aucun résultat supportant

l’effet de la taille des classes sur les résultats scolaires des élèves.

• Krueger (2003) Utilise la randomisation au Tennessee Trouve des effets importants liés à la

taille des classes

Pourquoi est-ce différent?

Krueger: “Tous les estimés ne sont pas crées égaux” Krueger citant Galilé:

‘Je dis que le témoignage de plusieurs a plus de valeurs que celui de peu de personnes, puisque le nombre de personne qui raisonne correctement à propos de sujet compliqué est beaucoup plus faible que le nombre de personnes qui raisonne incorrectement. Si raisonner est similaire à haler, je conviendrais que plusieurs raisonneurs sont plus valable qu’un seul, de la même façon que plusieurs chevaux peuvent haler plus de sacs de grains qu’un seul. Mais raisonner est davantage similaire à la course plutôt qu’au halage, un seul coursier de Barbary peut distancer 100 chevaux de trait.’

Le project “Tennessee STAR’ est le coursier de Barbary dans la literature sur la taille des classes.

Autres stratégies

2. Analyses de seuil (discontinuité dans la regression) L’aide est souvent attribué si les élèves

respectent un certain critère Revenu sous un certain seuil Resultats aux test au-dessus d’une certaine note

Les élèves près du seuil sont très similaires Les raisons pour lequels certains sont au-dessus et

d’autres en-dessous sont relativement aléatoires Comparer les éléves justes au-dessus et au-

dessous du seuil L’analyse de seuil fait partie d’une classe plus large

“d’expériences naturelles” (ou de méthodes quasi-expérimentales) dans le cadre de lquelle les chercheurs identifie des situtations ou politiques qui semblent générer un assignement aléatoire.

Analyse de seuil - Exemple: Bourse d’études en Californie

Bourse d’études en Californie Kane (2003) Admission guarantie sur la base des

résultats au secondaire La bourse couvre tous les frais de scolarité Il existe un critére d’éligibilité lié au revenu La discontinuité se trouvent autour de 3.15

Les élèves au-dessus recoivent les bénéfices complets

Les élève au-dessou ne recoivent rien

Les personnes étaient-elles réellement similaire autour de la discontinuité?

Est-ce que la discontinuité a conduit à des changements dans les résultats?

Autre example d’analyse de seuil

Programme d’aide sociale (Dynarski 2000) Couvrir les frais de scolarité pour les

étudiants universitaires dont les parents sont décédés

Politique de frais de scolarité libérale Intérompu soudainement en 1982 Discontinuité selon l’année de graduation

Pre-1982: Aide aux étudiants dont les parents sont décédés

Post-1982: Pas d’aide aux étudiants dont les parents sont décédés

Programme d’aide sociale par année

Pourcentage des étudiants fréquentant l’université

Père vivant Père décédés

Ayant complété le secondaire entre 1979 et 1981

.54 .63

Ayant complété le secondaire entre 1982 et 1983

.49 .32

Leçon des analyses de seuil vs. Appariement

Les estimées selon la méthode d’appariement supportent l’inexistence d’un effet de l’aide sur la fréquentation (e.g. Kane 1999, Leslie and Brinkman 1987) Ont comparé les étudiants avec et sans

aide Les facteurs confondants potentiels

comprennent: La motivation des étudiants Les différences dans les opportunités

économiques Les différences dans les paramètres de

l’éducation universitaires

L’aide basé sur les besoins sous un jour nouveau Davantage de recherche “scientifique”:

Dynarski (2000): L’aide a une influence dramatique

Kane (2003): L’aide augmente le taux de fréquentation

Bettinger (2004): L’aide basé sur les besoins diminue le taux d’abandon

À retenir

Le recherche dépend de la qualité des comparaisons Les compaisons ne sont pas toutes

équivalentes Certaines comparaisons fournissent des

informations Mais peuvent chacher des facteurs

confoundant La randomisation est “l’étalon-or” (gold

standard) en évaluation d’impact Facile à comprendre Pas sensible aux facteurs confoundants

Exigences au niveau des données Détails de mise-en-oeuvre

Qui participe Combien d’aide recoivent-ils Quand ont-ils ou vont-ils recevoir cette aide Durée des bénéfices Enquête de référence

Coûts associés à la perte de cette information Exemple de Colombia PACES

Exigences au niveau des données (cont.) Donnée sur les résultats

Les résultats qui importent La fréquentation de l’université La complétion du cours universitaire Le choix de la majeur Les revenus

Méthode de collection Enquêtes Données administratives

“Si vous le construisez, ils viendront” – Field of Dreams (1989) Crée des données sur les résultats attirent

les chercheurs Souvent la question mène a des collectes de

données Souvent les données mènet à la question

La quantité de recherche mène à une demande accrue pour de la recherche de qualité Favorisent le dévelopment d’aptitude à la

recherche additionel Augmentent la volonté politique pour les

évaluations rigoureuses

Exigences au niveau des données (cont.)

Considérations dans l’examen de politique Timing de l’évaluation

Le délai entre le début de l’évaluation et la production de résultats

Coût de l’évaluation Coût du program, de l’évaluation, de la

collected de données Considérations Ethique

La prestation du service Le droit à la vie privée

La faisaibilité politique de l’évaluation Lant Pritchett: “No advocate would want to

engage in research that potentially undermines support for his/her program. Endless, but less than compelling, controversy is preferred to knowing for sure.”

Comment entreprendre une évaluation rigoureuse

1. Planifier à l’avance Il est impossible d’utilier la randomization

après le fait Créer et developper les instruments de

collectes de données prends du temps.

2. Consulter des personnes-resources en recherche Exemple: le départment de planification

nationale en Colombie

3.Prendre un risque L’évaluation est risqué. Il se peut que le

program ne fonctionne pas, mais connaître les forces et faibless d’une politique peut mener à de meileures politiques.

L'expérimentation et l'Organisation de l'apprentissage: un cercle vertueux

Évaluer

Innover

Expérimenter

Conclusion

L’évaluation d’impact est essentiel à la compréhension des forces et faiblesses des politique publique Toutes les évaluations ne sont pas

créent égales Les comparaisons sur la base de

l’assignement aléatoire représentent la méthodologie la plus robuste.

L’évaluation requiert de bons systèmes de données. Mise-en-oeuvre et données sur les

résultats Plan pour la collecte de données

randomisation en pratique dr. eric p. bettinger stanford university and nber may 10, 2010

Documents