le traitement des données manquantes dans les enquêtes à grande é chelle michel rousseau, phd...

18
Le traitement des données manquantes dans les enquêtes à grande échelle Michel Rousseau, PhD Directeur de l’évaluation VDPDPC

Upload: igraine-fevre

Post on 04-Apr-2015

106 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Le traitement des données manquantes dans les enquêtes à grande é chelle Michel Rousseau, PhD Directeur de lévaluation VDPDPC

Le traitement des données manquantes dans les enquêtes à

grande échelle

Michel Rousseau, PhDDirecteur de l’évaluationVDPDPC

Page 2: Le traitement des données manquantes dans les enquêtes à grande é chelle Michel Rousseau, PhD Directeur de lévaluation VDPDPC

2

Plan de la présentation

TypologiePréventionDiagnosticTraitementPublication

Page 3: Le traitement des données manquantes dans les enquêtes à grande é chelle Michel Rousseau, PhD Directeur de lévaluation VDPDPC

3

Typologie

Définition:Une donnée est considérée comme étant manquante si

aucune information n’est observée alors qu’il serait logique d’y avoir une information.

Problème:La plupart des méthodes d’analyse statistique ont été

développées pour traiter des matrices de données complètes

Page 4: Le traitement des données manquantes dans les enquêtes à grande é chelle Michel Rousseau, PhD Directeur de lévaluation VDPDPC

4

Typologie

MAH MH NMH

Sujet Élève est malade le jour du test

Élève plus faible en math. ne se présente pas au test de math.

Occasion Élève est malade T2 de l’étude

Élève ayant eu un faible score au T1 est absent au T2

Valeur Élève oublie de répondre à un item

Les garçons vont plus souvent oublier de répondre à un item

Page 5: Le traitement des données manquantes dans les enquêtes à grande é chelle Michel Rousseau, PhD Directeur de lévaluation VDPDPC

5

Prévention

Population viséeNiveau de langageNature des informations demandées

Outils de mesureLongueur des questionnairesMise en page

Procédures de correction et de saisieFacteurs humainsProcédures informatisées

Page 6: Le traitement des données manquantes dans les enquêtes à grande é chelle Michel Rousseau, PhD Directeur de lévaluation VDPDPC

6

Diagnostic

Calcul de la proportion de données manquantesTaux de participationCalcul par individu/variable

Identification de la raison et du mécanismeMéthode de Little (1988)

Page 7: Le traitement des données manquantes dans les enquêtes à grande é chelle Michel Rousseau, PhD Directeur de lévaluation VDPDPC

7

Traitement

Exemple pour illustrer les méthodes

Variable Moyenne Écart-type Coefficient de

régression non-

standardisé (B)

Erreur-type du

coefficient B

Intercept 514,46 4,65

science 526,12 89,31

envir 0,154 1,00 27,65 5,06

plaisir 0,103 1,14 22,27 4,43

ses 0,201 0,82 25,38 5,77

Page 8: Le traitement des données manquantes dans les enquêtes à grande é chelle Michel Rousseau, PhD Directeur de lévaluation VDPDPC

8

Traitement

Méthodes des cas complets – listwise deletion

Variable Moyenne Écart-type Coefficient de

régression non-

standardisé (B)

Erreur-type du

coefficient B

Intercept 516,21 7,91

envir 0,383 0,92 23,72 7,70

plaisir -0,175 1,05 27,05 6,77

ses 0,356 0,79 24,72 9,65

Page 9: Le traitement des données manquantes dans les enquêtes à grande é chelle Michel Rousseau, PhD Directeur de lévaluation VDPDPC

9

Traitement

Méthodes des cas complets – pairwise deletion

Variable Coefficient de

régression non-

standardisé (B)

Erreur-type du

coefficient B

Intercept 510,07 7,06

envir 24,52 6,64

plaisir 24,85 5,96

ses 30,93 7,60

Page 10: Le traitement des données manquantes dans les enquêtes à grande é chelle Michel Rousseau, PhD Directeur de lévaluation VDPDPC

10

Traitement

Méthodes d’imputationExplicite

Méthodes intersujetsMéthodes intrasujetsMéthodes inter et intra

ImpliciteMéthodes Hot-deck et Cold-Deck

Page 11: Le traitement des données manquantes dans les enquêtes à grande é chelle Michel Rousseau, PhD Directeur de lévaluation VDPDPC

11

Traitement

Méthodes d’imputation – Moyenne de la variable

Variable Moyenne Écart-type Coefficient de

régression non-

standardisé (B)

Erreur-type du

coefficient B

Intercept 509,00 5,99

envir 0,383 0,84 25,51 5,93

plaisir -0,175 0,95 27,00 5,29

ses 0,356 0,72 33,92 6,89

Page 12: Le traitement des données manquantes dans les enquêtes à grande é chelle Michel Rousseau, PhD Directeur de lévaluation VDPDPC

12

Traitement

Méthodes d’imputation – Régression

Variable Moyenne Écart-type Coefficient de

régression non-

standardisé (B)

Erreur-type du

coefficient B

Intercept 510,74 5,51

envir 0,340 0,90 26,40 5,45

plaisir -1,471 1,05 26,43 4,70

ses 0,359 0,78 28,67 6, 15

Page 13: Le traitement des données manquantes dans les enquêtes à grande é chelle Michel Rousseau, PhD Directeur de lévaluation VDPDPC

13

Traitement

Imputation multiple

m

j

jQmQ1

)(1 ˆ

m

j

jUmU1

)(1

m

j

j QQmB1

2)(1 ˆ)1(

BmUT )1( 1

Page 14: Le traitement des données manquantes dans les enquêtes à grande é chelle Michel Rousseau, PhD Directeur de lévaluation VDPDPC

14

Traitement

Moyenne des coefficients de régression

1 2 3 4 5 Moyenne

B0 – Intercept 510,35 511,23 512,80 511,98 511,35 511,54

B1 – envir 26,92 27,90 23,87 28,88 26,41 26,80

B2 – plaisir 24,27 27,56 25,26 26,26 24,90 25,65

B3 – ses 26,13 26,66 28,18 29,80 27,94 27,74

Page 15: Le traitement des données manquantes dans les enquêtes à grande é chelle Michel Rousseau, PhD Directeur de lévaluation VDPDPC

15

Traitement

Variation intra-imputation

1 2 3 4 5 Variance intra-

imputation

B0 – Intercept 5,44 5,31 5,24 5,37 5,35 5,34

B1 – envir 5,30 4,96 5,30 5,14 5,27 5,19

B2 – plaisir 4,77 4,67 4,87 4,78 4,73 4,76

B3 – ses 5,90 6,07 5,99 6,10 6,30 6,07

Page 16: Le traitement des données manquantes dans les enquêtes à grande é chelle Michel Rousseau, PhD Directeur de lévaluation VDPDPC

16

Traitement

Variation inter-imputation

1 2 3 4 5 Variance inter-

imputation

B0 – Intercept -1,19 -0,31 1,26 0,44 -0,19 0,83

B1 – envir 0,12 1,10 -2,93 2,08 -0,39 3,57

B2 – plaisir -1,38 1,91 -0,39 0,61 -0,75 1,66

B3 – ses -1,61 -1,08 0,44 2,06 0,20 2,06

Page 17: Le traitement des données manquantes dans les enquêtes à grande é chelle Michel Rousseau, PhD Directeur de lévaluation VDPDPC

17

Traitement

Imputation multiple

Variable Coefficient de

régression non-

standardisé (B)

Erreur-type du

coefficient B

Intercept 511,54 6,34

envir 26,80 9,47

plaisir 25,65 6,75

ses 27,74 8,54

Page 18: Le traitement des données manquantes dans les enquêtes à grande é chelle Michel Rousseau, PhD Directeur de lévaluation VDPDPC

18

Publication

Reconnaître le problème Identifier les DM selon le typePrésenter le % de DM pour chaque typeDiscuter les causes des DMPrésenter la méthode de traitement utiliséeDiscuter des impacts de la méthode de traitement